Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... ·...

16
1 Informatica e lingue naturali - Isabella Chiari (2004) 1 Corpora di riferimento per la lingua italiana Esempi di costruzione di corpora di lingua scritta e parlata della lingua italiana LIF, LIP e CORIS/CODIS Informatica e lingue naturali - Isabella Chiari (2004) 2 I corpora di riferimento (reference corpus) Un corpus che intenda registrare tutte le principali varietà di una lingua, e quindi essere rappresentativo della lingua stessa, è definito corpus di riferimento Brown Corpus of Standard American English (Brown Corpus), creato da W. N. Francis e H. Kučera, della Brown University negli anni Sessanta, composto da circa 1 milione di occorrenze testuali (500 testi di 2.000 parole ciascuno), distribuite in 15 categorie diverse (tra cui stampa, religione, narrativa, linguaggio amministrativo). British National Corpus e l’American National Corpus (entrambi 100 milioni di parole) e la Bank of English (450 milioni di parole)

Transcript of Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... ·...

Page 1: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

1

Informatica e lingue naturali - Isabella Chiari (2004) 1

Corpora di riferimento per la lingua italiana

Esempi di costruzione di corpora di lingua scritta e parlata della lingua

italianaLIF, LIP e CORIS/CODIS

Informatica e lingue naturali - Isabella Chiari (2004) 2

I corpora di riferimento (referencecorpus)

Un corpus che intenda registrare tutte le principali varietà di una lingua, e quindi essere rappresentativo della lingua stessa, èdefinito corpus di riferimentoBrown Corpus of Standard American English (Brown Corpus), creato da W. N. Francis e H. Kučera, della Brown University negli anni Sessanta, composto da circa 1 milione di occorrenze testuali (500 testi di 2.000 parole ciascuno), distribuite in 15categorie diverse (tra cui stampa, religione, narrativa, linguaggio amministrativo). British National Corpus e l’American National Corpus (entrambi 100 milioni di parole) e la Bank of English (450 milioni di parole)

Page 2: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

2

Informatica e lingue naturali - Isabella Chiari (2004) 3

Principali corpora italiani

LIF (Lessico di frequenza della lingua italiana contemporanea, 1971), elaborato al Centro Nazionale Universitario di Calcolo Elettronico (CNUCE) di Pisa (cfr. Bortolini, Tagliavini e Zampolli, 1971), e costruito in modo simile al Brown Corpus su una base di 500.000 occorrenze testuali. LIP (Lessico di frequenza dell’italiano parlato, 1993)Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS)Corpus di Italiano Scritto contemporaneo (CORIS/CODIS), i corpora di lingua parlata di LABLITA (http://lablita.dit.unifi.it/) CLIPS (Corpora Linguistici per l'Italiano Parlato e Scritto, http://cirass.unina.it).

Informatica e lingue naturali - Isabella Chiari (2004) 4

Il LIF

Lessico di frequenza della lingua italiana contemporanea

CNUCE (Centro Nazionale Universitario di Calcolo elettronico) di Pisa

(1971)

Page 3: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

3

Informatica e lingue naturali - Isabella Chiari (2004) 5

IL LIF: disegno e realizzazione

primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana (non tagliato su un singolo autore o su testi specificatamente letterari). Reference corpusCorpus di 500.000 parole Testi scritti1947-1968 15.750 lemmi ordinati per frequenza e secondo l’ordine alfabetico

Informatica e lingue naturali - Isabella Chiari (2004) 6

Tipologie testuali: rappresentatività dello scritto (e indirettamente del parlato)

5 tipologieTeatroRomanziCinemaPeriodiciSussidiari

Oggi non vi è accesso ai materiali

Page 4: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

4

Informatica e lingue naturali - Isabella Chiari (2004) 7

Il LIP

Lessico di frequenza dell’italiano parlatoA cura di

Tullio De Mauro, Federico Mancini, Massimo Vedovelli e Miriam Voghera

(1993)

Informatica e lingue naturali - Isabella Chiari (2004) 8

Scelte sociolinguistiche e geolinguistiche

57h di registrazione di parlato (1990-1992)475.883 parole grafiche496.335 occorrenze di lemmi

Le forme composte dei verbi contano per due lemmi (ho fatto, per avere e per fare)Le parole grafiche con clitici sono scorporate (dirglielo, conta tre lemmi: dire, gli, lo)Le preposizione articolate contano due lemmi (del, conta due lemmi: di, il)

Page 5: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

5

Informatica e lingue naturali - Isabella Chiari (2004) 9

Rappresentatività dei luoghi e dei livelli

Rappresentatività geografica: Milano, Firenze, Roma e Napoli: ogni città 125.000 occorrenzeRappresentatività diafasica: esclusione del dialetto, inclusione di diversi livelli di formalità

Problemi con il parlato spontaneo: il paradosso dell’osservatore

Informatica e lingue naturali - Isabella Chiari (2004) 10

Tipologie di scambi selezionate: 100.000 occorrenze circa per ogni livello

1) Scambio bidirezionale faccia a faccia con presa di parola libera2) Scambio bidirezionale non faccia a faccia con presa di parola libera (conversazioni telefoniche)3) Scambio bidirezionale faccia a faccia con presa di parola non libera (dibattiti, interviste, interrogazioni)4) Scambio unidirezionale in presenza di destinatario/i (lezioni, conferenze, omelie, comizi, ecc.)5) Scambio unidirezionale o bidirezionale a distanza(trasmissioni radiofoniche e televisive)

Page 6: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

6

Informatica e lingue naturali - Isabella Chiari (2004) 11

Le procedure di trascrizione dei testi parlati

Trascrizione ortografica integrale senza normalizzazione (non IPA)Nessun “a capo”Le maiuscole sono usate solo per nomi propri, toponimi e sigleNon sono usati segni di interpunzione tranne il punto interrogativoCodificazione dei testi (M F R N per le località, ABCDE per i livelli, e numerazione progressiva): per esempio NA12.<?> parole inintellegibili# ## ### pause brevi, medie e lunghe

Informatica e lingue naturali - Isabella Chiari (2004) 12

La trascrizione delle entità linguistiche

Elementi dialettali trascritti ortograficamente: dicitte (nap.)Individuazione delle polirematiche(tavola&rotonda)Tenuta vocalica: ciao_Fonosimboli normalizzati a lista: !eh!Elementi extralinguistici: [risate]

Page 7: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

7

Informatica e lingue naturali - Isabella Chiari (2004) 13

Esempio: il testo RA1

Informatica e lingue naturali - Isabella Chiari (2004) 14

Il ciclo dell’elaborazione del corpus

1. Immissione e lemmatizzazione del corpus2. Verifica della coerenza estesa a tutto il corpus3. Costruzione di un database per ogni file con

numero dei parlanti, numero di parole, durata4. Prima estrazione delle liste di frequenza per

controllo sugli errori5. Correzione degli errori6. Costruzione delle liste di frequenza definitive7. Analisi delle liste definitive

Page 8: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

8

Informatica e lingue naturali - Isabella Chiari (2004) 15

La lemmatizzazione: prima fase

Ricondurre le forme al lessema di riferimentoProblemi: le omografie (porta, letto)

La lemmatizzazione automatica del LIP1) associazione ad ogni forma di un insieme di categorie possibili (porta: a) Sost Sing Femm o b) Verbo III pers Sing)2) Informazione contestuale per selezionare l’associazione3) associazione alla forma di classe grammaticale più forma flessa

Informatica e lingue naturali - Isabella Chiari (2004) 16

Esempio di lemmatizzazione

Ancora la deriva1) Ancora (sos, con, verbo) la (sos, art, pro)

deriva (sos, ver)2) Ancora (ver) la (art) deriva (sos)3) Ancora (ver ancorare) la (art il) deriva (sos

deriva)

Page 9: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

9

Informatica e lingue naturali - Isabella Chiari (2004) 17

La lemmatizzazione: seconda fase

Uso di un Dizionario di riferimento che registra per ogni forma la cat grammaticale e la forma flessa e la confronta con il suo database per individuare il lemmaCasi ambigui: nel dizionario ci sono più lemmi per la stessa forma (1,4% su 50.000 occorrenze): contiSos (conte, conto)

Disambiguazione statistica su corpusParole sconosciute al dizionario: applicazione di regole morfologiche (V: translitterato, -ato > -are (su mangiare) > translitterare; tappetifici –fici > -ficio (su edificio)> tappetificioRevisione manuale

Informatica e lingue naturali - Isabella Chiari (2004) 18

Lemmi LIP in ordine alfabetico

Page 10: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

10

Informatica e lingue naturali - Isabella Chiari (2004) 19

Consultare il LIP online

Sito BADIP (banca dati dell'italiano parlato)http://languageserver.uni-graz.at/badip/badip/20_corpusLip.phpPossibilità di interrogare per area e per tipologia testualePossibilità di interrogare con ricerca avanzata per categoria grammaticale e lemmatizzazione

Informatica e lingue naturali - Isabella Chiari (2004) 20

Etichette di base per il POS tagging del LIP (Badip)

Page 11: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

11

Informatica e lingue naturali - Isabella Chiari (2004) 21

Schermata di interrogazione del BADIP

Informatica e lingue naturali - Isabella Chiari (2004) 22

Corpora di riferimento per la lingua italiana

Altre informazioni si possono trovare onlineCorpora di riferimento per le lingue europee (inclusa la lingua italiana) http://www.alphabit.net/Corsi/IUlinks/CorporaList.htmCorpora italiani di lingua parlata: http://languageserver.uni-graz.at/badip/badip/75_corpora_xml.php#6

Page 12: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

12

Informatica e lingue naturali - Isabella Chiari (2004) 23

Il CORIS/CODIS

Corpus di Italiano Scritto contemporaneoCILTA (Centro interfacoltà di linguistica teorica e

applicata “Luigi Heilmann”, Bologna) A cura di R. Rossini Favretti

(1998)

Informatica e lingue naturali - Isabella Chiari (2004) 24

Corpus di Italiano Scritto contemporaneo

COrpus di Riferimento dell'Italiano Scritto (CORIS)COrpus Dinamico dell'Italiano Scritto (CODIS)100 milioni di parole Testi: prevalentemente di narrativa prodotta negli anni Ottanta e Novanta “testi, autentici e ricorrenti nell'uso, in formato elettronico, selezionati come rappresentativi dell'italiano attuale”Accesso limitato online: http://corpus.cilta.unibo.it:8080/coris_ita.html

Page 13: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

13

Informatica e lingue naturali - Isabella Chiari (2004) 25

Testi e corpus

100 milioni di paroleaggiornato tramite un corpus di monitoraggio con cadenza biennale

“Il corpus assume una configurazione dinamica che appare tanto più vantaggiosa e rilevante considerando che, con le nuove possibilità date dallo sviluppo dei supporti informatici e delle memorie, al momento attuale non occorre piùprocedere all'operazione di selezione e di scarto dei testi già inseriti.”

corpus sincronico di lingua scritta

Informatica e lingue naturali - Isabella Chiari (2004) 26

Fasi di progettazione del corpus (dal sito CILTA)

1. progettazione a) tipologia del corpusb) dimensione c) rappresentatività

2. elaborazione del modello di costruzione a) identificazione della popolazione b) definizione dei criteri di selezione

3. definizione della strutturazione a) articolazione dei componenti b) definizione dei rapporti fra i componenti c) campionamento

4. definizione 5. reperimento e inserimento dei materiali 6. lemmatizzazione e annotazione grammaticale

Page 14: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

14

Informatica e lingue naturali - Isabella Chiari (2004) 27

La rappresentatività del corpus

“Si sono quindi definiti alcuni criteri di identificazione dei parametri di riferimento che consentissero la costituzione di un insieme di sottocorpora in cui fossero incluse, rappresentate ed adeguatamente bilanciate le principali varietà dell'italiano scritto e, allo stesso tempo, si è configurata la possibilià di giungere all'elaborazione di un modello di costruzione dinamico e adattivo, tale da rispondere alle esigenze ed alle ipotesi di lavoro dei diversi studiosi senza venire meno ai criteri costitutivi del corpus.”

Informatica e lingue naturali - Isabella Chiari (2004) 28

Tipi testuali e sottocorpora

sottocorpus STAMPASezioni

quotidiana, periodica, supplementisottosezioni

nazionale, localespecialistica, non specialistica connotata, non connotata

sottocorpus NARRATIVASezioni

romanzi, raccontisottosezioni

italiana, straniera, per adulti, per ragazzi poliziesca, di avventure, di fantascienza, delle donne

Page 15: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

15

Informatica e lingue naturali - Isabella Chiari (2004) 29

Per dimensione

STAMPA 38 milioni di parole

NARRATIVA 25 milioni di parole

PROSA ACCADEMICA 12 milioni di parole

PROSA GIURIDICO-AMMINISTRATIVA 10 milioni di parole

MISCELLANEA 10 milioni di parole

EPHEMERA 5 milioni di parole

Informatica e lingue naturali - Isabella Chiari (2004) 30

L’interrogazione del CODIS

Page 16: Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... · Universitario di Calcolo Elettronico (CNUCE) di Pisa ... (Lessico di frequenza dell’italiano

16

Informatica e lingue naturali - Isabella Chiari (2004) 31

Sintassi di interrogazione