Un Tool-box per Lessicografi Claudio Giuliano ITC-irst [email protected] .
-
Upload
fulvia-meli -
Category
Documents
-
view
221 -
download
4
Transcript of Un Tool-box per Lessicografi Claudio Giuliano ITC-irst [email protected] .
![Page 1: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/1.jpg)
Un Tool-box per Lessicografi
Claudio GiulianoITC-irst
http://tcc.itc.it/people/giuliano/research.html
![Page 2: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/2.jpg)
Sommario
Progetto TALES
Lessicografia basata su corpora
Demo Tool-box per Lessicografi
Un caso d’uso: Valutazione del Question
Answering
![Page 3: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/3.jpg)
Trattamento Automatico delle lingue
Ladina e Sarda
2000-2003
Progetto congiunto tra ITC-irst, Istituto
Culturale Ladino e Papiros Editziones
Finanziato dalla UE e da enti locali del
Trentino Alto Adige
Progetto TALES
![Page 4: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/4.jpg)
Obiettivi del progetto
Dati– Uniformare il formato dei dati lessicali disponibili– Ricercare/utilizzare standard– Codifica unica
Strumenti– Accesso a corpora– Dizionari elettronici– Analisi morfologica– Correttori ortografici– PoS tagger
![Page 5: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/5.jpg)
Uniformare i Dati
File di Testo
File MS Word
CorporaCorpora
HyperCard
Banche Dati/ DizionariBanche Dati/ Dizionari
File XML
XML è usato come linguaggio di rappresentazione dei contenuti
FileMaker
![Page 6: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/6.jpg)
<voce> <lemma>briciola </lemma> <cat_lessicale> <gram>sf. </gram> <accezione> <trad>frégola, -es</trad> <trad>mizàcola, -es<trad> </accezione> </cat_lessicale></voce>
briciola sf. Frégola, -es; mizàcola, -es.
Convertire i dizionari in XML
Sono state definite DTD specifiche per rappresentare le banche dati e i dizionari
![Page 7: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/7.jpg)
REGULAMËNT DE POLIZAI DE CHEMUN
Capitul 1 Normes genereles
Art. 1 Cuntenut dl regulamënt1. La desposizions de chësc regulamënt aldò dla L.P. 10 nuvëmber 1993, nr.21, assegurea n servisc de polizai locala bon y efiziënt, regulan l numer di posc’ tl plann dla stieres, l’echipamënt, la cualificazion funzionela, l prufil prufesciunel, l stat iuridich, la funzions y l’ativiteies dla polizai chemunela.
<cesDoc><cesHeader>
…
</cesHeader>
<text>
<body>
<div type='doc'>
<head> REGULAMËNT DE POLIZAI DE CHEMUN </head>
<div type='cap' id='1'>
<head> Capitul 1 Normes genereles </head>
<div type='div1' id=''>
<head> Art. 1 Cuntenut dl regulamënt </head>
<p id='1.1.1'> 1. La desposizions de chësc...</p>
…
</div>
</div>
</body>
</text>
</cesDoc>
Convertire i corpora in XML
È stata adottata la DTD definita in CES
![Page 8: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/8.jpg)
<CARD n='60' name='card id 718778'> <FIELD n='1' name='lemma'>acadèmich</FIELD> <FIELD n='4' name='voce'>acadęmich, -cs, -ca, -ches <agg. e smf.> ...</FIELD> <FIELD n='5' name='fonte'>● C97 acadęmich, -cs,...</FIELD></CARD>
acadęmich, -cs, -ca, -ches accademico; studente universitario.
● C97 acadęmich, -cs, -ca, -ches accademico; studente universitario.● M69 academich (neol.) accademico; studente universitario. (cazét)
Normalizzare la codifica
È stata adottata la codifica UNICODE
![Page 9: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/9.jpg)
Tool-box
Banche dati/Dizionari– Ricerca– Inserimento/modifica (non realizzato)
Corpora– Ricerca di Concordanze– Liste di Frequenze– Ricerca di Collocazioni– Allineamento di testi bi/trilingui
![Page 10: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/10.jpg)
Tool-box (2)
Linguaggi di sviluppo– HTML, JavaScript (client)
– Java (server)
Rappresentazione dei dati– XML
– Database relazionale
![Page 11: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/11.jpg)
Architettura del tool-box
WebWebBrowserBrowser
DatabaseDatabase IndexIndex CorporaCorpora
Method Method invocationinvocation
HTMLHTML
BinaryBinaryDataData
DictionaryDictionaryProcessorProcessor
CorporaCorporaProcessorProcessor
Data AccessData AccessData AccessData Access
Data Management SystemData Management System
XSLTXSLTProcessorProcessor
QueryQueryInterpreterInterpreter
Server ExtensionServer Extension
XMLXML
Query formQuery form
![Page 12: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/12.jpg)
Presentazione dei dati
Un processore interpreta le regole di
trasformazione da XML a HTML
La formattazione può essere delegata al
client
Possono esistere più stili associati agli
stessi dati
![Page 13: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/13.jpg)
Presentazione dei dati (2)
Processore XSLT
XSL
XML
HTML
<?xml version="1.0"?> <xsl:stylesheet version="1.0"><xsl:template match="/"> <html> <head> <title>ID</title> </head> <body bgcolor="#ffffcc"> <xsl:apply-templates select="dizionario"/> </body> </html></xsl:template>
<xsl:template match="voce"> <h3> <xsl:apply-templates select="lemma_sec/lemma"/> </h3> <strike><xsl:apply-templates select="USO"/> <xsl:apply-templates select="GLOSSA"/></strike> <br/> <xsl:apply-templates select="LISTA_CAT_LEX"/></xsl:template> ...
<voce> <lemma>briciola </lemma> <cat_lessicale> <gram>sf. </gram> <accezione> <trad>frégola, -es</trad> <trad>mizàcola, -es<trad> </accezione> </cat_lessicale></voce>
briciola sf. Frégola, -es; mizàcola, -es.
![Page 14: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/14.jpg)
L’interfaccia utente
WEB browser che supporti HTML dinamico
– Firefox
– Safari
– Internet Explorer
– ...
![Page 15: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/15.jpg)
Accesso alle banche dati
![Page 16: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/16.jpg)
Accesso ai dizionari
![Page 17: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/17.jpg)
Ricerca di concordanze
![Page 18: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/18.jpg)
Ricerca di concordanze (2)
![Page 19: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/19.jpg)
Frequenze delle parole
![Page 20: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/20.jpg)
Sommario
Progetto TALES Lessicografia basata su corpora
– Token, types, frequenze
– Legge di Zipf
– Concordanze
– Ricerca di Collocazioni
Demo Tool-box per Lessicografo Un caso d’uso: Valutazione del Question
Answering
![Page 21: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/21.jpg)
Tokens, types, frequenze
Token– corpus LA Times 62,790,468
Type– corpus LA Times 215,738
Frequenza– numero assoluto di occorrenze– frequenze relativa o normalizzata
frequenza media (fm=token/type)– corpus Repubblica fm=85– corpus LA Times fm=291
Frequenza di frequenze (spettro delle frequenze)
![Page 22: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/22.jpg)
Tokens, types, frequenze (2)
circa il 50% dei token di un testo sono le parole piu’ comuni
![Page 23: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/23.jpg)
Tokens, types, frequenze (2)
![Page 24: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/24.jpg)
Tokens, types, frequenze (2)
circa il 50% delle parole sono hapax
circa il 90% delle parole hanno frequenza ≤ 10
![Page 25: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/25.jpg)
Distribuzione di frequenza delle parole nel linguaggio
f · r = k
al rango 10 la frequenza e’ 2653
al rango 100 la frequenza e’ 265
al rango 1000 la frequenza e’ 26
al rango 10000 la frequenza e’ 26
Esempio fatto da Zipf tratto dallo studio lessicale dell’Ulysses di Joyce:
Legge di Zipf
![Page 26: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/26.jpg)
Legge di Zipf (2)
Corpus La Repubblica
![Page 27: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/27.jpg)
Legge di Zipf (3)
Corpus LA Times
![Page 28: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/28.jpg)
Concordanze
KWIC = Keyword in context
![Page 29: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/29.jpg)
Espressioni regolari
Utilizzate per effettuare ricerche complesse Una RE descrive un insieme di stringhe caratteri speciali
– ^ $ + ? . * ( ) [ ] { } | \
Esempi– ^hopef = {hopeful, hopefully, hopefulness, hopefuls}
– ing$ = {being, having, solving, …}
– hope(full|less) = {hopeful, hopeless}
– cars? = {car, cars}
– be(ing)? = {be, being}
– .* = tutto il vocabolario
![Page 30: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/30.jpg)
Concordanze (2)
query = ^comun[ei]$
![Page 31: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/31.jpg)
Ricerca di Collocazioni
Metodi statistici– frequenza
– Media e Varianza
– Test di ipotesi
Corpus– New York Times
– Agosto/Novembre 1990
– 115 MB
– 14·106 parole
Capitolo 5, Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.
![Page 32: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/32.jpg)
Frequenza
sentece: a lecturer at the computer science facultya lecturer at the computer science faculty
bigrammi:
a lecturera lecturer
lecturer atlecturer at
at theat the
the computerthe computer
computer sciencecomputer science
science facultyscience faculty
![Page 33: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/33.jpg)
Frequenza (2)
![Page 34: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/34.jpg)
Media e Varianza
a. she knocked on his door
b. they knocked at the door
c. 100 women knocked on Donaldson’s door
d. a man knocked on the metal front door
Frequenza + PoS funziona bene per frasi rigide
![Page 35: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/35.jpg)
Media e Varianza (2)4 tokens
sentece: a lecturer at the computer science facultya lecturer at the computer science faculty
bigrammi:
a lecturera lecturer a ata at a thea the
lecturer at lecturer at lecturer the lecturer the lecturer computer lecturer computer
at theat the at computerat computer at scienceat science at facultyat faculty
the computerthe computer the science the science the facultythe faculty
computer sciencecomputer science computer faculty computer faculty
science facultyscience faculty
![Page 36: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/36.jpg)
Media e Varianza (2)4 tokens
sentece: a lecturer at the computer science facultya lecturer at the computer science faculty
bigrammi:
a lecturera lecturer a ata at a thea the
lecturer at lecturer at lecturer the lecturer the lecturer computer lecturer computer
at theat the at computerat computer at scienceat science at facultyat faculty
the computerthe computer the science the science the facultythe faculty
computer sciencecomputer science computer faculty computer faculty
science facultyscience faculty
![Page 37: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/37.jpg)
Media e Varianza (3)
a. she knocked on his door
b. they knocked at the door
c. 100 women knocked on Donaldson’s door
d. a man knocked on the metal front door
OFFSET=3OFFSET=3
![Page 38: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/38.jpg)
Media e Varianza (2)
![Page 39: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/39.jpg)
Media e Varianza (3)
![Page 40: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/40.jpg)
Test di ipotesi
Alta frequenza e bassa possono essere casuali
Quando due due parole occorrono insieme più
spesso del caso?
Test di ipotesi
– lpotesi nulla H0: non c’e’ associazione
– Calcoliamo la p che l’evento occorra se H0 fosse vera
– rifiutiamo H0 se p e’ troppo bassa
– livello di significatività (p<0.05, p<0.01, …)
![Page 41: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/41.jpg)
Test di ipotesi (2)
t-test
Pearson’s chi-squared test
Likelihood ratio
![Page 42: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/42.jpg)
E’ possibile usare Google?
Il Tool-Box cerca al livello di parole
Sono on-line i corpora che ci interessano?
I copora possono essere bilanciati
Le statistiche di google sono affidabili?
![Page 43: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/43.jpg)
Sommario
Progetto TALES Lessicografia basata su corpora Demo Tool-box per Lessicografo Un caso d’uso: Valutazione del Question
Answering
![Page 44: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/44.jpg)
Demo
http://localhost:8080/tb2/jsp/concordance.html
http://localhost:8080/tb2/jsp/freq.html
http://localhost:8080/tb2/jsp/collocation.html
![Page 45: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/45.jpg)
Sommario
Progetto TALES Lessicografia basata su corpora Demo Tool-box per Lessicografo Un caso d’uso: Valutazione del Question
Answering
![Page 46: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/46.jpg)
QA@CLEF
Multilingual Question Answering (QA)– http://clef-qa.itc.it/
QA combina IR e NLP– Domanda in linguaggio naturale– Risposta precisa (non un documento)
Nell’ambito di Cross Language Evaluation Forum (CLEF)
NIST TREC QA ITC-irst & Celct
![Page 47: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/47.jpg)
Tool-Box e CLEF
Corpora in 8 lingue Creare il set di domande per testare i sistemi di
QA Valutare le risposte date dai sistemi Domande su 300 topics
– “Energia alternativa”
– “bancarotta Schneider”
– …
![Page 48: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/48.jpg)
Tool-Box e CLEF (2)
Si parte da un topic Si cercano keywords o keyphrases
associate Utilizzando le concordanze si cercano
risposte a possibili domande In valutazione si usa il tool-box per
verificare le risposte
![Page 49: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/49.jpg)
Esempio: “bancarotta Schneider”
![Page 50: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/50.jpg)
Esempio: “bancarotta Schneider” (2)
![Page 51: Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it .](https://reader038.fdocumenti.com/reader038/viewer/2022103016/5542eb58497959361e8c2cf9/html5/thumbnails/51.jpg)
Esempio: “bancarotta Schneider” (3)