Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... ·...
Transcript of Corpora di riferimento per la lingua italiana - Alphabit.net di riferimento per la... ·...
1
Informatica e lingue naturali - Isabella Chiari (2004) 1
Corpora di riferimento per la lingua italiana
Esempi di costruzione di corpora di lingua scritta e parlata della lingua
italianaLIF, LIP e CORIS/CODIS
Informatica e lingue naturali - Isabella Chiari (2004) 2
I corpora di riferimento (referencecorpus)
Un corpus che intenda registrare tutte le principali varietà di una lingua, e quindi essere rappresentativo della lingua stessa, èdefinito corpus di riferimentoBrown Corpus of Standard American English (Brown Corpus), creato da W. N. Francis e H. Kučera, della Brown University negli anni Sessanta, composto da circa 1 milione di occorrenze testuali (500 testi di 2.000 parole ciascuno), distribuite in 15categorie diverse (tra cui stampa, religione, narrativa, linguaggio amministrativo). British National Corpus e l’American National Corpus (entrambi 100 milioni di parole) e la Bank of English (450 milioni di parole)
2
Informatica e lingue naturali - Isabella Chiari (2004) 3
Principali corpora italiani
LIF (Lessico di frequenza della lingua italiana contemporanea, 1971), elaborato al Centro Nazionale Universitario di Calcolo Elettronico (CNUCE) di Pisa (cfr. Bortolini, Tagliavini e Zampolli, 1971), e costruito in modo simile al Brown Corpus su una base di 500.000 occorrenze testuali. LIP (Lessico di frequenza dell’italiano parlato, 1993)Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS)Corpus di Italiano Scritto contemporaneo (CORIS/CODIS), i corpora di lingua parlata di LABLITA (http://lablita.dit.unifi.it/) CLIPS (Corpora Linguistici per l'Italiano Parlato e Scritto, http://cirass.unina.it).
Informatica e lingue naturali - Isabella Chiari (2004) 4
Il LIF
Lessico di frequenza della lingua italiana contemporanea
CNUCE (Centro Nazionale Universitario di Calcolo elettronico) di Pisa
(1971)
3
Informatica e lingue naturali - Isabella Chiari (2004) 5
IL LIF: disegno e realizzazione
primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana (non tagliato su un singolo autore o su testi specificatamente letterari). Reference corpusCorpus di 500.000 parole Testi scritti1947-1968 15.750 lemmi ordinati per frequenza e secondo l’ordine alfabetico
Informatica e lingue naturali - Isabella Chiari (2004) 6
Tipologie testuali: rappresentatività dello scritto (e indirettamente del parlato)
5 tipologieTeatroRomanziCinemaPeriodiciSussidiari
Oggi non vi è accesso ai materiali
4
Informatica e lingue naturali - Isabella Chiari (2004) 7
Il LIP
Lessico di frequenza dell’italiano parlatoA cura di
Tullio De Mauro, Federico Mancini, Massimo Vedovelli e Miriam Voghera
(1993)
Informatica e lingue naturali - Isabella Chiari (2004) 8
Scelte sociolinguistiche e geolinguistiche
57h di registrazione di parlato (1990-1992)475.883 parole grafiche496.335 occorrenze di lemmi
Le forme composte dei verbi contano per due lemmi (ho fatto, per avere e per fare)Le parole grafiche con clitici sono scorporate (dirglielo, conta tre lemmi: dire, gli, lo)Le preposizione articolate contano due lemmi (del, conta due lemmi: di, il)
5
Informatica e lingue naturali - Isabella Chiari (2004) 9
Rappresentatività dei luoghi e dei livelli
Rappresentatività geografica: Milano, Firenze, Roma e Napoli: ogni città 125.000 occorrenzeRappresentatività diafasica: esclusione del dialetto, inclusione di diversi livelli di formalità
Problemi con il parlato spontaneo: il paradosso dell’osservatore
Informatica e lingue naturali - Isabella Chiari (2004) 10
Tipologie di scambi selezionate: 100.000 occorrenze circa per ogni livello
1) Scambio bidirezionale faccia a faccia con presa di parola libera2) Scambio bidirezionale non faccia a faccia con presa di parola libera (conversazioni telefoniche)3) Scambio bidirezionale faccia a faccia con presa di parola non libera (dibattiti, interviste, interrogazioni)4) Scambio unidirezionale in presenza di destinatario/i (lezioni, conferenze, omelie, comizi, ecc.)5) Scambio unidirezionale o bidirezionale a distanza(trasmissioni radiofoniche e televisive)
6
Informatica e lingue naturali - Isabella Chiari (2004) 11
Le procedure di trascrizione dei testi parlati
Trascrizione ortografica integrale senza normalizzazione (non IPA)Nessun “a capo”Le maiuscole sono usate solo per nomi propri, toponimi e sigleNon sono usati segni di interpunzione tranne il punto interrogativoCodificazione dei testi (M F R N per le località, ABCDE per i livelli, e numerazione progressiva): per esempio NA12.<?> parole inintellegibili# ## ### pause brevi, medie e lunghe
Informatica e lingue naturali - Isabella Chiari (2004) 12
La trascrizione delle entità linguistiche
Elementi dialettali trascritti ortograficamente: dicitte (nap.)Individuazione delle polirematiche(tavola&rotonda)Tenuta vocalica: ciao_Fonosimboli normalizzati a lista: !eh!Elementi extralinguistici: [risate]
7
Informatica e lingue naturali - Isabella Chiari (2004) 13
Esempio: il testo RA1
Informatica e lingue naturali - Isabella Chiari (2004) 14
Il ciclo dell’elaborazione del corpus
1. Immissione e lemmatizzazione del corpus2. Verifica della coerenza estesa a tutto il corpus3. Costruzione di un database per ogni file con
numero dei parlanti, numero di parole, durata4. Prima estrazione delle liste di frequenza per
controllo sugli errori5. Correzione degli errori6. Costruzione delle liste di frequenza definitive7. Analisi delle liste definitive
8
Informatica e lingue naturali - Isabella Chiari (2004) 15
La lemmatizzazione: prima fase
Ricondurre le forme al lessema di riferimentoProblemi: le omografie (porta, letto)
La lemmatizzazione automatica del LIP1) associazione ad ogni forma di un insieme di categorie possibili (porta: a) Sost Sing Femm o b) Verbo III pers Sing)2) Informazione contestuale per selezionare l’associazione3) associazione alla forma di classe grammaticale più forma flessa
Informatica e lingue naturali - Isabella Chiari (2004) 16
Esempio di lemmatizzazione
Ancora la deriva1) Ancora (sos, con, verbo) la (sos, art, pro)
deriva (sos, ver)2) Ancora (ver) la (art) deriva (sos)3) Ancora (ver ancorare) la (art il) deriva (sos
deriva)
9
Informatica e lingue naturali - Isabella Chiari (2004) 17
La lemmatizzazione: seconda fase
Uso di un Dizionario di riferimento che registra per ogni forma la cat grammaticale e la forma flessa e la confronta con il suo database per individuare il lemmaCasi ambigui: nel dizionario ci sono più lemmi per la stessa forma (1,4% su 50.000 occorrenze): contiSos (conte, conto)
Disambiguazione statistica su corpusParole sconosciute al dizionario: applicazione di regole morfologiche (V: translitterato, -ato > -are (su mangiare) > translitterare; tappetifici –fici > -ficio (su edificio)> tappetificioRevisione manuale
Informatica e lingue naturali - Isabella Chiari (2004) 18
Lemmi LIP in ordine alfabetico
10
Informatica e lingue naturali - Isabella Chiari (2004) 19
Consultare il LIP online
Sito BADIP (banca dati dell'italiano parlato)http://languageserver.uni-graz.at/badip/badip/20_corpusLip.phpPossibilità di interrogare per area e per tipologia testualePossibilità di interrogare con ricerca avanzata per categoria grammaticale e lemmatizzazione
Informatica e lingue naturali - Isabella Chiari (2004) 20
Etichette di base per il POS tagging del LIP (Badip)
11
Informatica e lingue naturali - Isabella Chiari (2004) 21
Schermata di interrogazione del BADIP
Informatica e lingue naturali - Isabella Chiari (2004) 22
Corpora di riferimento per la lingua italiana
Altre informazioni si possono trovare onlineCorpora di riferimento per le lingue europee (inclusa la lingua italiana) http://www.alphabit.net/Corsi/IUlinks/CorporaList.htmCorpora italiani di lingua parlata: http://languageserver.uni-graz.at/badip/badip/75_corpora_xml.php#6
12
Informatica e lingue naturali - Isabella Chiari (2004) 23
Il CORIS/CODIS
Corpus di Italiano Scritto contemporaneoCILTA (Centro interfacoltà di linguistica teorica e
applicata “Luigi Heilmann”, Bologna) A cura di R. Rossini Favretti
(1998)
Informatica e lingue naturali - Isabella Chiari (2004) 24
Corpus di Italiano Scritto contemporaneo
COrpus di Riferimento dell'Italiano Scritto (CORIS)COrpus Dinamico dell'Italiano Scritto (CODIS)100 milioni di parole Testi: prevalentemente di narrativa prodotta negli anni Ottanta e Novanta “testi, autentici e ricorrenti nell'uso, in formato elettronico, selezionati come rappresentativi dell'italiano attuale”Accesso limitato online: http://corpus.cilta.unibo.it:8080/coris_ita.html
13
Informatica e lingue naturali - Isabella Chiari (2004) 25
Testi e corpus
100 milioni di paroleaggiornato tramite un corpus di monitoraggio con cadenza biennale
“Il corpus assume una configurazione dinamica che appare tanto più vantaggiosa e rilevante considerando che, con le nuove possibilità date dallo sviluppo dei supporti informatici e delle memorie, al momento attuale non occorre piùprocedere all'operazione di selezione e di scarto dei testi già inseriti.”
corpus sincronico di lingua scritta
Informatica e lingue naturali - Isabella Chiari (2004) 26
Fasi di progettazione del corpus (dal sito CILTA)
1. progettazione a) tipologia del corpusb) dimensione c) rappresentatività
2. elaborazione del modello di costruzione a) identificazione della popolazione b) definizione dei criteri di selezione
3. definizione della strutturazione a) articolazione dei componenti b) definizione dei rapporti fra i componenti c) campionamento
4. definizione 5. reperimento e inserimento dei materiali 6. lemmatizzazione e annotazione grammaticale
14
Informatica e lingue naturali - Isabella Chiari (2004) 27
La rappresentatività del corpus
“Si sono quindi definiti alcuni criteri di identificazione dei parametri di riferimento che consentissero la costituzione di un insieme di sottocorpora in cui fossero incluse, rappresentate ed adeguatamente bilanciate le principali varietà dell'italiano scritto e, allo stesso tempo, si è configurata la possibilià di giungere all'elaborazione di un modello di costruzione dinamico e adattivo, tale da rispondere alle esigenze ed alle ipotesi di lavoro dei diversi studiosi senza venire meno ai criteri costitutivi del corpus.”
Informatica e lingue naturali - Isabella Chiari (2004) 28
Tipi testuali e sottocorpora
sottocorpus STAMPASezioni
quotidiana, periodica, supplementisottosezioni
nazionale, localespecialistica, non specialistica connotata, non connotata
sottocorpus NARRATIVASezioni
romanzi, raccontisottosezioni
italiana, straniera, per adulti, per ragazzi poliziesca, di avventure, di fantascienza, delle donne
15
Informatica e lingue naturali - Isabella Chiari (2004) 29
Per dimensione
STAMPA 38 milioni di parole
NARRATIVA 25 milioni di parole
PROSA ACCADEMICA 12 milioni di parole
PROSA GIURIDICO-AMMINISTRATIVA 10 milioni di parole
MISCELLANEA 10 milioni di parole
EPHEMERA 5 milioni di parole
Informatica e lingue naturali - Isabella Chiari (2004) 30
L’interrogazione del CODIS
16
Informatica e lingue naturali - Isabella Chiari (2004) 31
Sintassi di interrogazione