Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura...

66
Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo. Cosa, come, perchè Dominique Brunato, Felice Dell’Orletta, Giulia Venturi Istituto di Linguistica Computazionale «Antonio Zampolli» (ILC-CNR) ItaliaNLP Lab www.italianlp.it Seminario di Cultura Digitale Pisa, 11 dicembre 2013

Transcript of Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura...

Page 1: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Oltre il contenuto: tecnologie

linguistico-computazionali per

l’analisi della struttura linguistica

del testo. Cosa, come, perchè

Dominique Brunato, Felice Dell’Orletta, Giulia Venturi

Istituto di Linguistica Computazionale «Antonio

Zampolli» (ILC-CNR)

ItaliaNLP Lab

www.italianlp.it

Seminario di Cultura Digitale

Pisa, 11 dicembre 2013

Page 2: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Extraction of

Named Entities

Extraction of

semantic relations Extraction of

domain-relevant

entities

Extraction of

temporal

expressions

Graph-based

Knowledge

Representation

L’a

ccesso

al co

nte

nu

to

Le tecnologie linguistico-computazionali per …

Page 3: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Extraction of

Named Entities

Extraction of

semantic relations Extraction of

domain-relevant

entities

Extraction of

temporal

expressions

Graph-based

Knowledge

Representation

Linguistic

profiling of texts

Textual genre

assessment

Readability level

assessment

Native Language

Identification

Monitoring of

variation across

language varieties

Oltre

il co

nte

nu

to: la

stru

ttura

ling

uis

tica

L’a

ccesso

al co

nte

nu

to

Le tecnologie linguistico-computazionali per …

Page 4: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

text

Tokenizer

Morphological analyzer

PoS Tagger

Dependency parser

Sentence Splitter

Catena di analisi linguistica

• Annotazione morfo-sintattica

– a ogni token del testo viene associata informazione relativa alla categoria grammaticale che la parola ha nel contesto specifico e il relativo lemma

• Annotazione sintattica a dipendenze

– analisi della struttura sintattica della frase in termini di relazioni di dipendenza (es. soggetto, oggetto, etc.)

Le tecnologie linguistiche

• Segmentazione in frasi e tokenizzazione (ovvero segmentazione del testo in parole ortografiche o tokens

Page 5: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Annotazione sintattica

a dipendenze Conll-2007: 81.3% LAS

Evalita 2009: 83.38% LAS

Stato dell’arte per l’italiano

Annotazione

morfo-sintattica Evalita 2009: accuratezza = 96,34%

Stato dell’arte per l’italiano

Le tecnologie linguistiche

Page 6: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

MONITOR-It

Strumento per l’estrazione

automatica delle caratteristiche

linguistiche di un testo

Corpus linguisticamente analizzato in

modo automatico Vocabolario

di Base

Il profilo linguistico di un testo è ricostruito

sulla base delle caratteristiche linguistiche rilevate rispetto a diversi livelli di annotazione linguistica lemmatizzazione

annotazione morfo-sintattica

annotazione sintattica a dipendenze

L’accesso alla struttura linguistica del testo: il profilo linguistico

Page 7: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Le caratteristiche lessicali

Ripartizione del vocabolario appartenente al VdB rispetto ai repertori di uso Fondamentale, Alto Uso, Alta Disponibilità

Rep Narr Suss 2Par RaccFant Giur

Rapporto tipo/unità 0.72 0.70 0.68 0.55 0.18 0.38

Percentuale del

vocabolario

appartenente al

VdB

67.1 71.76 73.57 74.58 56.93 35.60

30,73 32,41

51,99 54,54 59,46

46,12

40,34 41,64

33,95 31,9531,01

40,02

28,93 25,9414,06 13,51 9,53 13,86

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Rep Narr Suss 2Par RaccFant Giur

FO AU AD

Page 8: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Le caratteristiche morfo-sintattiche

0

5

10

15

20

25

30

35

40

Agg Avv Cong Det Prep Punt Int Num Pron Art Sost Predet Verb Altro

Rep

Narr

Suss

2Par

RaccFant

Giur

Distribuzione delle

categorie morfo-

sintattiche

Page 9: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Le caratteristiche sintattiche

0.00

10.00

20.00

30.00

40.00

50.00

60.00

70.00

80.00

90.00

1 2 3 4 5 6 7 8 9 >=10

Rep

Narr

Suss

2Par

RaccFant

Giur

Hmax=6

HPP=12

Prof. media

Suss 1.27

RaccFant 1.31

2Par 1.36

Narr 1.36

Rep 1.45

Giur 1.84

Profondità delle “catene” di

complementi preposizionali

Altezza massima degli alberi 5.72

5.10

4.96

5.43

5.85

5.27

4.40

4.60

4.80

5.00

5.20

5.40

5.60

5.80

6.00

Media altezza max alberi

Rep

Narr

Suss

2Par

RaccFant

Giur

Page 10: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Le caratteristiche sintattiche

65.11

65.30

62.95

77.37

56.72

74.55

34.89

34.70

37.05

22.63

43.28

25.45

0.00 20.00 40.00 60.00 80.00 100.00

Rep

Narr

Suss

2Par

RaccFant

Giur

Principali Subordinate

Pre Post

Rep 12.28 87.72

Narr 12.30 87.70

Suss 13.03 86.97

2Par 11.60 88.40

RaccFant 5.58 94.42

Giur 11.69 88.31

Rep Narr Suss 2Par RaccFant Giur

Media

clausole/periodo 2.41 2.65 2.67 2.40 3.37 1.64

Ordine relativo delle subordinate

rispetto alla principale Voghera 1992: subord 23%-40%

Page 11: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Le caratteristiche sintattiche

Congiunzioni coordinanti: cosa collegano

Informazione reperibile soltanto a partire da un’annotazione a dipendenze 37.04

43.52

54.92

31.32

63.22

15.03

0.00

10.00

20.00

30.00

40.00

50.00

60.00

70.00

Coordinazione verbale

Rep

Narr

Suss

2Par

RaccFant

Giur

9.342.48

7.73

25.54

54.92

Suss

7.604.89

36.8835.62

15.03

Adj

Altro

Prep

Sost

Verb

Giur

7.31 3.11

14.39

38.14

37.04

Rep

Coordinazione per categoria morfo-sintattica

Page 12: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Scenari applicativi

Classificazione del genere testuale

Riconoscimento della lingua madre

Attribuzione del testo all’autore

Identificazione di plagi

Valutazione della leggibilità

Semplificazione del testo

Valutazione delle competenze linguistiche di uno scrivente

Page 13: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Esperimenti

Classificatore basato su Support Vector Machines

Due modelli che usano caratteristiche linguistiche diverse

Training data: 368 (Lit); 583 (Jour); 137 (Edu); 317 (Scient)

Test data: 60 documenti per ogni genere testuale

Classificazione del genere testuale

MONITOR-It

Strumento per l’estrazione

automatica delle caratteristiche

linguistiche di un testo

Corpus linguisticamente analizzato

Vocabolario

italiano di base

Classificatore

di generi

testuali

Lexical model

(Accuracy: 62.18)

Syntax model

(Accuracy: 76.47)

Genre Prec Rec F–meas Prec Rec F–meas

Journ 44.64 83.33 58.14 61.63 88.33 72.60

Lit 77.59 76.27 76.92 85.71 91.52 88.52

Edu 80 6.77 12.5 92.59 42.37 58.14

Scient 77.78 81.67 79.67 80.64 83.33 81.97

Page 14: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Scenari applicativi

Classificazione del genere testuale

Riconoscimento della lingua madre

Attribuzione del testo all’autore

Identificazione di plagi

Valutazione della leggibilità

Semplificazione del testo

Valutazione delle competenze linguistiche di uno scrivente

Page 15: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Riconoscimento della lingua madre Corpus linguisticamente analizzato

Strumento per

l’estrazione

automatica delle

caratteristiche

linguistiche di un

testo

Classificatore

della lingua

madre

Esperimenti

Classificatore basato su Support Vector Machines

Diversi modelli che usano caratteristiche linguistiche diverse

Training data: 1000 esami inglese per 11 lingue

Test data: 100 documenti per ogni L1

ARA CHI FRE GER HIN ITA JPN KOR SPA TEL TUR

Acc 73.8 77.5 83.2 87.3 71.1 86.0 78.8 74.2 70.8 76.2 78.0

Page 16: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Scenari applicativi

Classificazione del genere testuale

Riconoscimento della lingua madre

Attribuzione del testo all’autore

Identificazione di plagi

Valutazione della leggibilità

Semplificazione del testo

Valutazione delle competenze linguistiche di uno scrivente

Page 17: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

READ-IT: uno strumento per

l’analisi della leggibilità di un testo

Tecnologie linguistiche

Estrazione automatica delle

caratteristiche linguistiche del

testo (profilo linguistico)

Valutazione della leggibilità del testo e

individuazione dei luoghi di

complessità

READ-IT

Page 18: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

READ-IT: approccio generale

(un ausilio alla semplificazione del

testo)

Riscrittura

del testo

seguendo le

indicazioni di

READ-IT

Page 19: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

READ-IT: approccio generale

(verso una comunicazione

semplificata)

Page 20: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

READ-IT: un esempio

Calcolo della

leggibilità dei

primi 12

articoli della

Costituzione

Italiana

Page 21: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

READ-IT: un esempio

(valutazione globale della

leggibilità)

Page 22: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

READ-IT: un esempio

(il profilo linguistico del testo)

Page 23: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

READ-IT: un esempio (valutazione della leggibilità a livello di frase con

identificazione dei luoghi di complessità)

Page 24: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

READ-IT: uno strumento automatico per

l’analisi della leggibilità di un testo

READ-It

Monitoraggio

delle

caratteristiche

linguistiche di

collezioni di

testi

Studio dei

fattori che

rendono un

testo

complesso

Modelli della

comprensione

linguistica

Valutazione dell’efficacia

comunicativa di testi nella

comunicazione

•Amministratore-Cittadino

(Osservatorio per la redazione di

atti amministrativi – Crusca –

ITTIG-CNR)

•Insegnante-studente (Progetto

CNR “Migrazioni”)

•Operatore di Call Center-

utente finale (collaborazione con

Vodafone)

• Medico-Paziente (progetto

SUIT-HEART Progetto Italiano

“Istituto Toscano Tumori”)

• Autore editoria scolastica-

studenti (progetto Regione

Toscana iSLe, in corso)

Page 25: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Per fornire un supporto all’insegnante

nella personalizzazione della sua

azione formativa

READ-IT Nelle Linee Guida dell’Azione

“Editoria Digitale Scolastica”

emanata dal MIUR si

prefigurano “prodotti

multimediali le cui singole

componenti possano essere

utilizzate dai docenti per lo

sviluppo di materiali didattici

personalizzati”

Page 26: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

I testi scolastici sono tipicamente tarati su bisogni standard della classe, le cui caratteristiche si presentano al giorno d’oggi come molto più variegate e multiformi che nel passato

Per evitare che questa situazione possa produrre ricadute negative sul processo formativo di studenti con uno svantaggio linguistico e/o cognitivo è necessaria una personalizzazione di tali materiali che tenga conto delle competenze linguistiche dello studente

26

Distanza:

Ortografia

Lessico

Morfologia

Sintassi

Semantica

Personalizzazione dei materiali didattici

Page 27: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

iSLe – intelligent Semantic

Liquid eBook

Progetto finanziato dalla

Regione Toscana (POR CReO

2007 – 2013) in collaborazione

con M.E.T.A SRL, 01Servizi

SRL, VIDITRUST SRL, SPACE

SPA

Sviluppo di una piattaforma

innovativa per l’editoria digitale

scolastica arricchita con

tecnologie linguistico-

computazionali

READ-IT sarà alla base di

funzionalità per la valutazione

della leggibilità del testo e

come supporto alla sua

eventuale semplificazione

READ-IT nella piattaforma iSLe

Page 28: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Per fornire un supporto alla redazione dei

testi usati nei call-centers migliorando i

processi di comunicazione con l’utente

READ-IT

Collaborazione con Vodafone

Omnitel per lo sviluppo di un

sistema di analisi della

leggibilità e supporto alla

semplificazione usato nella

piattaforma «Vodafone My

Language» per la redazione

dei testi

Page 29: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Analisi della

comprensibilità

nell’interfaccia

“Vodafone My

Language”

Call centers-utenti: dove sono le

difficoltà?

Page 30: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

“Medical writing is a highly skilled,

calculated attempt to confuse the reader ”

(N Engl J Med 1975; 293:1257-9)

READ-IT

Progetto SUIT-HEART

Progetto Italiano “Istituto

Toscano Tumori” finalizzato

ad assistere la redazione

di consensi informati

semplici e leggibili

Page 31: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Prima della semplificazione Dopo la semplificazione

Medico-paziente:

verso una comunicazione semplificata

Page 32: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Per semplificare e migliorare i

processi di comunicazione tra

istituzioni e cittadini

READ-IT READ-IT

Nella «Guida per la redazione

degli atti amministrativi»

(ITTIG-CNR e Accademia

della Crusca) si invita a

redigere un atto amministrativo

che sia «comprensibile a tutti

suoi fruitori, in termini di

contenuti e di scelte

linguistiche che li veicolano»

Page 33: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Linguaggio burocratico o burocratese?

Il linguaggio burocratico è una varietà linguistica particolare, caratterizzata da un livello di complessità “ineliminabile” ma anche da un ampio spettro di tratti linguistici che esprimono un tipo di complessità “inutile” (il burocratese), dunque semplificabile.

«Per verificare la comprensibilità degli atti amministrativi si suggerisce, inoltre, l’impiego di software (programmi) per l’analisi dei testi.» (Direttiva 8 maggio 2002, Presidenza del Consiglio dei Ministri – Dip. Funzione Pubblica)

READ-IT per:

Valutare la leggibilità dei testi delle pubbliche amministrazioni;

Individuare i tratti di complessità;

Discriminare i tratti di complessità “necessaria” dagli stilemi tipici del “burocratese”;

33

Page 34: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Materiali e Metodo MATERIALI: Raccolta di un corpus allineato, composto da 87 coppie di testi

amministrativi, costituiti dalla versione originale (Bur_orig) e dalla relativa versione

semplificata (Bur_simp).

3 macro-tipologie:

autorità emanante:

◦ Amministrazioni comunali (corpus “TACS”, Prof. Michele Cortelazzo, Dipartimento di Linguistica, Università di Padova)

◦ Università: progetto “Comunicazioni Istituzionali nelle Università. Raccolta di Modelli Testuali.” promosso dal “Consorzio Interuniversitario sulla Formazione (Co.Info.)”

◦ Ministro dell’Interno: “Istruzioni per le operazioni degli uffici elettorali di sezione”, Ministero dell’Interno, Dipartimento per gli Affari Interni e Territoriali, 2006

tipologia del documento: differenti tipologie di documenti amministrativi (autorizzazioni, concessioni, nulla osta, ordini, comandi, comunicazioni, modulistica);

grado di formalità

METODO: Monitoraggio linguistico (linguistic profiling) in chiave comparativa

a partire dall’output dell’annotazione linguistica automatica.

34

Page 35: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

35

Genere Corpus n°di testi n°token

Giornalismo

La Repubblica (Marinelli et al., 2003) 321 232.908

Due Parole (Piemontese, 1996) 322 73.314

Tot: 643 Tot: 306,222

Letteratura

Letteratura per bambini (Marconi et al.,

1994)

101 19.370

Letteratura per adulti (Marinelli et al., 2003) 327 471.421

Tot: 428 Tot: 306,222

Materiali

didattici

Scuola Primaria (Dell’Orletta et al. , 2011b) 127 48,036

Scuola Secondaria (Dell’Orletta et al., 2011 b) 70 48,103

Tot: 197 Tot: 96,139

Prosa

scientifica

Wikipedia, sezione “Ecologia e Ambiente” 293 205,071

Articoli scientifici specialistici 84 471,969

Tot: 377 Tot: 677,040

Linguaggio

giuridico

Atti legislativi in materia ambientale 553 1,309,866

Costituzione italiana (1947) 1 10,487

Tot: 554 Tot:

1.320,353

Linguaggio

amministrativo

Testi burocratici originali (Bur_orig) 87 Tot: 61.208

Testi burocratici semplificati (Bur_simp) 87 Tot: 43. 780

Tot: 174 Tot: 104.988

I CORPORA

Page 36: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68

presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato

trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che,

con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato

dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto

specificato.

Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare

lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia

stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco

(art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90).

In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà

sono valide nel caso in cui già preesista un provvedimento di inabitabilità -

inagibilità, che dovrà essere prodotto allo scrivente ufficio.

Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a

richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico

Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707).

Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione

di immobili dichiarati inabitabili sono sanzionate penalmente.

Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un

edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi

dell'art. 10, comma 4, del Decreto Legislativo 504/92.

Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo

Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1.

Il burocratese: analisi manuale ...

36

Page 37: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L.

15/68 presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto

è stato trasmesso per i controlli di competenza all'Ufficio Tecnico

Comunale, che, con nota n. 4007 del 19.10.1998, ha precisato di non

aver rilasciato dichiarazione di inabitabilità o inagibilità per l'immobile

in oggetto specificato.

Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare

lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia

stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco

(art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90).

In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà

sono valide nel caso in cui già preesista un provvedimento di inabitabilità -

inagibilità, che dovrà essere prodotto allo scrivente ufficio.

Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a

richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico

Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707).

Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione

di immobili dichiarati inabitabili sono sanzionate penalmente.

Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un

edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi

dell'art. 10, comma 4, del Decreto Legislativo 504/92.

Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo

Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1.

Il burocratese: analisi manuale ...

37

Lunghezza media

frase = 63 parole

Lessico

burocratico

Impersonalità

(forme allocutorie

desuete, formule

impersonali,

diatesi passiva)

Nominalizzazioni

(impersonalità e

densità

informativa)

Page 38: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68

presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato

trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che,

con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato

dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto

specificato.

Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare

lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia

stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco

(art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90).

In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà

sono valide nel caso in cui già preesista un provvedimento di inabitabilità -

inagibilità, che dovrà essere prodotto allo scrivente ufficio.

Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a

richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico

Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707).

Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione

di immobili dichiarati inabitabili sono sanzionate penalmente.

Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un

edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi

dell'art. 10, comma 4, del Decreto Legislativo 504/92.

Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo

Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1.

Il burocratese: analisi manuale ...

38

Lunghezza media

frase = 63 parole

Lessico

burocratico

Impersonalità

(forme allocutorie

desuete, formule

impersonali,

diatesi passiva)

Nominalizzazioni

(impersonalità e

densità

informativa)

Page 39: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68

presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato

trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che,

con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato

dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto

specificato.

Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare

lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia

stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco

(art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90).

In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà

sono valide nel caso in cui già preesista un provvedimento di inabitabilità -

inagibilità, che dovrà essere prodotto allo scrivente ufficio.

Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a

richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico

Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707).

Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione

di immobili dichiarati inabitabili sono sanzionate penalmente.

Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un

edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi

dell'art. 10, comma 4, del Decreto Legislativo 504/92.

Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo

Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1.

Il burocratese: analisi manuale ...

39

Lunghezza media

frase = 63 parole

Lessico

burocratico

Impersonalità

(forme allocutorie

desuete, formule

impersonali,

diatesi passiva)

Nominalizzazioni

(impersonalità e

densità

informativa)

Page 40: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

A seguito della dichiarazione sostitutiva dell'atto notorio di cui alla L. 15/68

presentata dalla S.V. il 25.06.1998, siamo a comunicare che l'atto è stato

trasmesso per i controlli di competenza all'Ufficio Tecnico Comunale, che,

con nota n. 4007 del 19.10.1998, ha precisato di non aver rilasciato

dichiarazione di inabitabilità o inagibilità per l'immobile in oggetto

specificato.

Si precisa che i proprietari degli immobili non hanno alcun titolo a dichiarare

lo stato di inabitabilità – inagibilità di un fabbricato; le norme in materia

stabiliscono infatti che la suddetta dichiarazione è rilasciata dal Sindaco

(art. 4 D.P.R. 423/94, art. 222 del R.D. 1264/34, art. 38 L. 142/90).

In base a quanto specificato, le dichiarazioni sostitutive dell'atto di notorietà

sono valide nel caso in cui già preesista un provvedimento di inabitabilità -

inagibilità, che dovrà essere prodotto allo scrivente ufficio.

Nel caso in cui la S.V. sia sprovvista di tale provvedimento, La invitiamo a

richiedere, con la massima urgenza, un sopralluogo dell'Ufficio Tecnico

Comunale (Settore Edilizia Privata - via fra' P. Sarpi, 2 - Telefono 8704707).

Si fa presente che le mendaci dichiarazioni in atti pubblici e l'occupazione

di immobili dichiarati inabitabili sono sanzionate penalmente.

Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un

edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi

dell'art. 10, comma 4, del Decreto Legislativo 504/92.

Per ulteriori informazioni, si invita a presentarsi agli sportelli di questo

Ufficio, in Prato della Valle n. 98/99 o a telefonare allo 049/8205820-1.

Il burocratese: analisi manuale ...

40

Lunghezza media

frase = 63 parole

Lessico

burocratico

Impersonalità

(forme allocutorie

desuete, formule

impersonali,

diatesi passiva)

Nominalizzazioni

(impersonalità e

densità

informativa)

Page 41: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

.. Riscrittura semplificata

41

Egregio Signore,

con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha

dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1.

L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato

nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile.

La dichiarazione sostitutiva dell'atto notorio può essere presentata dal

proprietario solo quando esiste una dichiarazione di inabitabilità o

inagibilità rilasciata dal Sindaco.

La invitiamo pertanto a portare nei nostri uffici tale provvedimento.

Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio

Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707).

Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il

proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati

inabitabili o inagibili.

Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile

o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista

dall'art. 10, comma 4, del Decreto Legislativo 504/92.

Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della

Valle n. 98/99, tel. 049 8205820-1).

Page 42: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

.. Riscrittura semplificata

42

Egregio Signore,

con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha

dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1.

L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato

nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile.

La dichiarazione sostitutiva dell'atto notorio può essere presentata dal

proprietario solo quando esiste una dichiarazione di inabitabilità o

inagibilità rilasciata dal Sindaco.

La invitiamo pertanto a portare nei nostri uffici tale provvedimento.

Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio

Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707).

Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il

proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati

inabitabili o inagibili.

Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile

o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista

dall'art. 10, comma 4, del Decreto Legislativo 504/92.

Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della

Valle n. 98/99, tel. 049 8205820-1).

Forma:

167 parole

distribuite su 8 frasi

(vs. 250 su 7)

Lessico

Personalizzazione

(Lei,

soggetto1°p.plurale)

Sintassi: verbo

attivo con soggetto

espresso

Scioglimento

nominalizzazione

Page 43: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

.. Riscrittura semplificata

43

Egregio Signore,

con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha

dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1.

L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato

nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile.

La dichiarazione sostitutiva dell'atto notorio può essere presentata dal

proprietario solo quando esiste una dichiarazione di inabitabilità o

inagibilità rilasciata dal Sindaco.

La invitiamo pertanto a portare nei nostri uffici tale provvedimento.

Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio

Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707).

Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il

proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati

inabitabili o inagibili.

Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile

o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista

dall'art. 10, comma 4, del Decreto Legislativo 504/92.

Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della

Valle n. 98/99, tel. 049 8205820-1).

Forma:

167 parole

distribuite su 8 frasi

(vs. 250 su 7)

Lessico

Personalizzazione

(Lei,

soggetto1°p.plurale)

Sintassi: verbo

attivo con soggetto

espresso

Scioglimento

nominalizzazione

Page 44: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

.. Riscrittura semplificata

44

Egregio Signore,

con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha

dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1.

L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato

nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile.

La dichiarazione sostitutiva dell'atto notorio può essere presentata dal

proprietario solo quando esiste una dichiarazione di inabitabilità o

inagibilità rilasciata dal Sindaco.

La invitiamo pertanto a portare nei nostri uffici tale provvedimento.

Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio

Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707).

Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il

proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati

inabitabili o inagibili.

Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile

o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista

dall'art. 10, comma 4, del Decreto Legislativo 504/92.

Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della

Valle n. 98/99, tel. 049 8205820-1).

Forma:

167 parole

distribuite su 8 frasi

(vs. 250 su 7)

Lessico

Personalizzazione

(Lei,

soggetto1°p.plurale)

Sintassi: verbo

attivo con soggetto

espresso

Scioglimento

nominalizzazione

Page 45: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

.. Riscrittura semplificata

45

Egregio Signore,

con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha

dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1.

L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato

nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile.

La dichiarazione sostitutiva dell'atto notorio può essere presentata dal

proprietario solo quando esiste una dichiarazione di inabitabilità o

inagibilità rilasciata dal Sindaco.

La invitiamo pertanto a portare nei nostri uffici tale provvedimento.

Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio

Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707).

Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il

proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati

inabitabili o inagibili.

Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile

o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista

dall'art. 10, comma 4, del Decreto Legislativo 504/92.

Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della

Valle n. 98/99, tel. 049 8205820-1).

Forma:

167 parole

distribuite su 8 frasi

(vs. 250 su 7)

Lessico

Personalizzazione

(Lei,

soggetto1°p.plurale)

Sintassi: verbo

attivo con soggetto

espresso

Scioglimento

nominalizzazione

Page 46: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

.. Riscrittura semplificata

46

Egregio Signore,

con la dichiarazione sostitutiva dell'atto notorio, il 25.6.1998 Lei ha

dichiarato l'inabitabilità o l'inagibilità dell'immobile di via Roma 1.

L'Ufficio Tecnico Comunale ci ha però precisato di non aver rilasciato

nessuna dichiarazione di inabitabilità o inagibilità per quell'immobile.

La dichiarazione sostitutiva dell'atto notorio può essere presentata dal

proprietario solo quando esiste una dichiarazione di inabitabilità o

inagibilità rilasciata dal Sindaco.

La invitiamo pertanto a portare nei nostri uffici tale provvedimento.

Se ne è sprovvisto, richieda al più presto un sopralluogo all'Ufficio

Tecnico Comunale (via fra‘ P. Sarpi, 2 - tel. 0498704707).

Le ricordiamo che la legge punisce chi rilascia false dichiarazioni o il

proprietario di Immobili che vengono utilizzati dopo essere stati dichiarati

inabitabili o inagibili.

Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile

o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista

dall'art. 10, comma 4, del Decreto Legislativo 504/92.

Per ulteriori informazioni, Lei si può rivolgere all'Ufficio I.C.I. (Prato della

Valle n. 98/99, tel. 049 8205820-1).

Forma:

167 parole

distribuite su 8 frasi

(vs. 250 su 7)

Lessico

Personalizzazione

(Lei,

soggetto1°p.plurale)

Sintassi: verbo

attivo con soggetto

espresso

Scioglimento

nominalizzazione

Page 47: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Valutazione in READ-IT

47

originale

riscrittura semplificata

Page 48: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Esempio di lettera di autorizzazione a) Originale

“Si comunica che, a seguito della Vostra richiesta di poter realizzare la manifestazione indicata in

oggetto, l’Amministrazione Comunale con argomento di Giunta nr. 99 del 23.03.04, ha espresso parere

favorevole allo svolgimento della stessa in Piazza Europa per Domenica 9 maggio c.a.

Si invita pertanto la S.V. a prendere contatti con lo scrivente Settore per gli adempimenti amministrativi,

tecnici e logistici inerenti allo svolgimento dell’iniziativa predetta.”

Valutazione a livello di frase: i luoghi di

complessità

48

b) Semplificata

“Vi comunichiamo che è stata accolta la vostra richiesta di svolgere la IX edizione di “Bimbi in piazza” per domenica 9 maggio 2004 in Piazza Europa. Vi invitiamo pertanto a contattarci per gli adempimenti amministrativi, tecnici e logistici.”

Struttura subordinata (che [...] espresso): 27

parole tra testa (congiunzione) e dipendente

(verbo)!

Page 49: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Cosa è stato monitorato?

Una serie di tratti linguistici, rintracciati nel testo annotato a

vari livelli (superficiale, lessicale, morfosintattico, sintattico) e

selezionati:

- sulla base del loro potere predittivo emerso nell’ambito di studi volti alla valutazione automatica della leggibilità dei testi, all’identificazione di generi e varietà testuali, al monitoraggio delle competenze scolastiche, secondo una linea di ricerca attiva presso il gruppo ItaliaNLP Lab dell’Istituto di Linguistica Computazionale - CNR di Pisa (Dell’Orletta et al., 2011b, Dell’Orletta e Montemagni, 2010);

- rispetto alle analisi linguistiche tradizionali sulle peculiarità del linguaggio burocratico e alle linee guida sulla semplificazione (Guida alla redazione degli atti amministrativi. Regole e suggerimenti, ITTIG e Accademia della Crusca, 2011; Cortelazzo e Pellegrino, 2006; Fortis, 2005)

49

Page 50: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Cosa accomuna testi originali e

riscritture? Di seguito vedremo alcune indicazioni che

emergono dall’annotazione automatica dei testi:

Livello morfo-sintattico

Distribuzione delle categorie sintattiche primarie

Varietà lessicale (Type/Token Ratio)

Ricchezza lessicale (Densità lessicale)

Livello lessicale

Rappresentatività del Vocabolario di Base (Gradit, De Mauro, 2000)

Livello sintattico

Elevata frequenza di strutture subordinate

Page 51: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

0

5

10

15

20

25

30

35

Nouns

Verbs

Prepositions

La distribuzione delle categorie morfo-sintattiche

fondamentali

51

Biber, 1995, p.136: “systematic differences in the relative use of core linguistic

features provide the primary distinguishing characteristics among registers”

Page 52: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

0

5

10

15

20

25

30

35

Nouns

Verbs

Prepositions

La distribuzione delle categorie morfo-sintattiche

fondamentali

52

Biber, 1995, p.136: “systematic differences in the relative use of core linguistic

features provide the primary distinguishing characteristics among registers”

2,13

1,67 1,50

2,68

3,01

2,73 2,77 2,68

-

0,50

1,00

1,50

2,00

2,50

3,00

3,50Rapporto Nomi/Verbi

Page 53: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Varietà lessicale: type/token ratio

53

Type/Token Ratio: Rapporto tra numero di parole tipo in un testo (dizionario) e il numero di

occorrenze totali di parole (unità del dizionario).

Parametro quantitativo per misurare la varietà lessicale (correlato alla leggibilità)

Interpretazione: bassa varietà lessicale = monoreferenzialità del linguaggio amministrativo

Cfr. Guida alla redazione degli atti amministrativi (ITTIG-CNR e Accademia della Crusca):

“In un atto amministrativo è opportuno evitare l’ambiguità e raggiungere il massimo di

esplicitezza: è consigliabile pertanto, anche a costo di numerose ripetizioni, usare sempre lo

stesso termine per designare la stessa azione, lo stesso concetto o la stessa persona.”

0,76 0,8 0,81

0,78

0,46

0,69 0,68 0,70

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Type/Token Ratio

Page 54: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Ricchezza del vocabolario: densità

lessicale

54

Densità lessicale = Rapporto tra parole contenuto (nomi, verbi, aggettivi,

avverbi) sul totale delle parole.

E’ usato come parametro per tradurre quantitativamente la ricchezza

lessicale di un testo.

0,52

0,53

0,54

0,55

0,56

0,57

0,58

Densità lessicale

Page 55: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

% lemmi inclusi nel VdB % lemmi non inclusi nel VdB

La rappresentatività del Vocabolario di Base

55

Dalla fase di lemmatizzazione automatica possiamo

estrarre indicazioni qualitative sul tipo di vocabolario del

testo

Page 56: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

% lemmi inclusi nel VdB % lemmi non inclusi nel VdB

67,12

64,94

58

60

62

64

66

68

70

72

74

76

78

% DI LEMMI APPARTENENTI AL LESSICO FONDAMENTALE

T=2,9863;p=0.0037

La rappresentatività del Vocabolario di Base

56

Dalla fase di lemmatizzazione automatica possiamo

estrarre indicazioni qualitative sul tipo di vocabolario del

testo

Page 57: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Dall’annotazione sintattica a dipendenze possiamo estrarre indicazioni sull’uso della

subordinazione: proporzione principali/subordinate (a) e lunghezza media catene subordinanti (b)

(b)

1,09 1,08 1,16

1,03 1,11

0,95 0,95 0,96

-

0,20

0,40

0,60

0,80

1,00

1,20

1,40

(b) 0%

20%

40%

60%

80%

100%

Coordinate clauses Subordinate clauses(a)

La subordinazione: alcune proprietà

57

Subordinazione=complessità?

Voghera (2001): “non tutta la

subordinazione è uguale:

ciò che costituisce un forte

elemento di complessità non è la

semplice presenza di una

subordinata, ma la combinazione

tra subordinazione e vari fattori:

ordine relativo tra principale e

subordinata; grado di incassatura

della subordinata; rapporto di

corrispondenza tra

concatenazione degli eventi e

sequenza delle clausole.”

Page 58: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Lunghezza media

dell’enunciato

(in numero di token):

Bur_orig: 27,03

Bur_simp: 20,22

t = -6.046991

p≤0.01

Numero Totale di frasi:

Bur_orig: 1.907

Bur_simp: 2.170

58

E il burocratese? Proprietà “superficiali” del testo

0

5

10

15

20

25

30

35

Page 59: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

“Si consiglia di evitare le forme implicite del verbo, come gerundi o participi, quando

potrebbero essere usate le corrispondenti forme esplicite” (dalla “Guida alla redazione degli atti

amministrativi”)

Participi Gerundi

\ Indicativi

0,00

5,00

10,00

15,00

20,00

25,00

30,00

35,00

spia, a livello morfo-

sintattico, della tendenza

del burocratese ad

abusare di proposizioni

implicite (es. gerundive,

participiali) nella

costruzione dei rapporti

di subordinazione 0

2

4

6

8

10

12

14

16

18

20

Annotazione morfo-sintattica “granulare”: la

caratterizzazione dei modi verbali (infiniti vs finiti)

59

0,00

0,50

1,00

1,50

2,00

2,50

3,00

3,50

4,00

Page 60: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

ANALISI MORFOSINTATTICA - Distribuzione delle “fine-grained” PoS: le

congiunzioni

ANALISI SINTATTICA A DIPENDENZE - Rapporto subordinate esplicite vs.

implicite

24,68 26,31 29,31 26,9 41,55 35,47 35,54 35,39

67,40 67,25 66,53 63,49 57,45 51,47 48,55 54,38

subordinate esplicite subordinate implicite

60

Altri “indizi” sulla costruzione ipotattica

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Subordinating conjunctions Coordinating conjunctions

coordinanti subordinanti

Bur_simp 2,10 0,99

Bur_orig 1,98 0,77

Page 61: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Cosa suggeriscono i dati estratti dal testo?

La subordinazione, pur essendo un tratto caratterizzante anche delle riscritture, tende ad essere realizzata mediante proposizioni introdotte da congiunzioni subordinanti esplicite che permettono di chiarire i legami logico-concettuali del testo e la successione degli eventi.

E’ tipica invece del burocratese la tendenza a costruire rapporti ipotattici tramite proposizioni implicite o introdotte da locuzioni complesse (in riferimento a, ai sensi di, a seguito di), che non solo appesantiscono il testo ma ne aumentano l’oscurità e la difficoltà di decodifica da parte del lettore.

RAFFINAMENTO DELL’EQUIVALENZA

“SUBORDINAZIONE=COMPLESSITÀ SINTATTICA”

61

Page 62: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Esempi dal corpus Originali

(a) Rammentiamo infine che per inabitabilità/inagibilità sopravvenuta di un edificio è prevista la presentazione della denuncia di variazione ICI, ai sensi dell'art. 10, comma 4, del Decreto Legislativo 504/92.

(b) La variazione anagrafica in esame non comporta per i proprietari di autoveicoli e per i titolari di patente di guida l'obbligo di fare aggiornare la carta di circolazione e la patente di guida, in quanto tale obbligo è previsto dal Codice della Strada soltanto per i casi di trasferimento effettivo di abitazione.

(c) Si ricorda che, mantenendo il regime del diritto di superficie, qualunque passaggio di proprietà, affitto, cambio societario, ecc. dovrà essere autorizzato dal Comune di Schio [...]

Semplificati

(a) Le ricordiamo inoltre che, quando un immobile viene dichiarato inagibile o inabitabile, bisogna presentare la denuncia di variazione I.C.I. prevista dall'art. 10, comma 4, del Decreto Legislativo 504/92.

(b) I proprietari di autoveicoli e i titolari di patente non sono obbligati a cambiare l'indirizzo su libretto di circolazione e patente, perché l'obbligo è previsto solo nel caso di effettivo cambio di abitazione.

(c) Se, invece, preferite mantenere il regime del diritto di superficie, vi ricordiamo che la convenzione preliminare che avete sottoscritto vi obbliga a chiedere al Comune di Schio l’autorizzazione preventiva per qualunque passaggio di proprietà, affitto, cambio societario, ecc.

62

Page 63: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

a) Distribuzione delle dipendenze clitiche

”spia” sintattica dell’abuso di costrutti impersonali

(“Si ricorda”, “Si fa presente”, “Si allega” )

Es: “Da tanto, discende l’impossibilità, per questa Amministrazione, di ravvisare gli elementi utili al riconoscimento

dei requisiti di legittimità alla richiesta del permesso in questione, pur nella consapevolezza del ruolo

Indubbiamente rappresentativo della figura del “delegato” e della importanza della sua funzione deliberativa.”

Altri parametri di complessità sintattica

63

b) “pesantezza” dei sintagmi nominali: le catene

preposizionali

00,20,40,60,8

11,21,41,61,8

Dipendenze clitiche

Page 64: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

a) Distribuzione delle dipendenze clitiche

”spia” sintattica dell’abuso di costrutti impersonali

(“Si ricorda”, “Si fa presente”, “Si allega” )

Es: “Da tanto, discende l’impossibilità, per questa Amministrazione, di ravvisare gli elementi utili al riconoscimento

dei requisiti di legittimità alla richiesta del permesso in questione, pur nella consapevolezza del ruolo

Indubbiamente rappresentativo della figura del “delegato” e della importanza della sua funzione deliberativa.”

1,29 1,21 1,17

1,4

1,6 1,53 1,51 1,56

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1,8

Altri parametri di complessità sintattica

64

b) “pesantezza” dei sintagmi nominali: le catene

preposizionali

00,20,40,60,8

11,21,41,61,8

Dipendenze clitiche

Lunghezza media catene preposizionali

Page 65: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Conclusioni

Oltre il contenuto:

◦ le tecnologie linguistico-computazionali

permettono di accedere alla struttura

linguistica di un testo

L’analisi della forma linguistica ha un

forte potenziale innovativo in diversi

settori applicativi

È oggi un punto di incontro tra

linguistica e informatica

Page 66: Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo

Ringraziamenti

Il gruppo di ricerca dell’ItaliaNLP Lab e

in particolare il gruppo di ricerca sulla

leggibilità

www.italianlp.it

Giulia Benotto

Dominique Brunato

Andrea Cimino

Felice Dell’Orletta

Simonetta Montemagni

Giulia Venturi

[email protected]