Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica...

42
Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla comunicazione multimediale 14 marzo 2013

Transcript of Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica...

Page 1: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Il progetto Turin University Treebank: corpora e NLP

Cristina Bosco Dipartimento di InformaticaUniversità di Torino

Corso di informatica applicata alla comunicazione multimediale

14 marzo 2013

Page 2: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

•ACQUISIZIONE della conoscenza: la comprensione del linguaggio comporta una grande quantità di conoscenza (perlomeno linguistica)

•AMBIGUITÀ: si trova a tutti i livelli e può impedire di produrre per una frase una singola analisi

•IRREGOLARITÀ: il linguaggio è influenzato da scopi di comunicazione e non sempre usato seguendo le regole

Problemi

Page 3: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

L’approccio basato su corpora in NLP è un metodo per l’acquisizione della conoscenza che offre soluzione anche al problema dell’irregolarità e dell’ambiguità del linguaggio

Per questo motivo è oggi ampliamente utilizzato con successo da molti sistemi

Approccio basato su corpora

Page 4: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

L’approccio basato su corpora si differenzia in modo sostanziale dall’approccio basato su regole.

Esso è infatti un approccio empirico in quanto non parte da nessuna assunzione su come il linguaggio funziona, ma si fonda esclusivamente sull’osservazione diretta del linguaggio.

Approccio basato su corpora

Page 5: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

In cosa consiste?Si assume che un CORPUS C di un linguaggio L possa contenere la conoscenza necessaria a trattare L, e si acquisisce la conoscenza da C

Il risultato è duplice:•la conoscenza delle regole ed irregolarità del linguaggio contenuto nel corpus C•la percezione della frequenza delle strutture linguistiche presenti nel corpus C

Approccio basato su corpora

Page 6: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Il risultato è duplice:•la conoscenza delle regole ed irregolarità del linguaggio contenuto nel corpus C > questo risolve il problema dell’acquisizione della conoscenza•la percezione della frequenza delle strutture linguistiche presenti nel corpus C > questo consente di trattare l’ambiguità

Approccio basato su corpora

Page 7: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Per aumentare l’utilità di un corpus lo si arricchisce associando ai dati delle informazioni

Un corpus si chiama TREEBANK

quando le informazioni morfologiche e sintattiche sono rese esplicite tramite

annotazione

I treebank sono oggi le basi di dati linguistici più utilizzate nel NLP

Treebank

Page 8: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Perché annotare il corpus?

Per rendere possibile l’acquisizione della conoscenza in modo veloce, semplice e certo

Quindi per rendere possibile l’utilizzo del corpus per molti più scopi.

Treebank

Page 9: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Nell’ambito di ricerche linguistiche un corpus annotato morfo-sintatticamente consente:

la rilevazione automatica della frequenza di determinate strutture linguistiche

la scoperta di certi fenomeni e la verifica di teorie

Treebank

Page 10: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Nell’ambito del NLP un corpus annotato morfo-sintatticamente consente:

la rilevazione automatica delle regole ed irregolarità del linguaggio sulla base delle quali addestrare sistemi di analisi che utilizzano modelli statistici, oppure raffinare sistemi che utilizzano regole

Treebank

Page 11: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

È un circolo virtuoso (o vizioso)? SI

per costruire validi sistemi di analisi del linguaggio occorrono i treebank (è dimostrato che i sistemi di NLP che ottengono i migliori risultati sono quelli che prendono le informazioni da treebank)

per costruire dei treebank occorrono validi sistemi di analisi del linguaggio (è impossibile costruire treebank in modo esclusivamente manuale per motivi di tempo e di correttezza)

Treebank

Page 12: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

È un circolo virtuoso (o vizioso)? SI

in pratica l’annotazione dei treebank è prodotta da

sistemi automatici di analisi morfologica e sintattica, che hanno attualmente percentuali minime di errore intorno al 5% per la morfologia e intorno al 10%

annotatori umani che correggono le analisi prodotte in modo automatico

Treebank

Page 13: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

ES: annotation processes

MORPHO SYNT SEMPRAGUE semi-

automatic

semi-automatic

semi-automatic

NEGRA automatic interactive(probabilistic)

PENN automatic automatic (skeletal)

Page 14: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Il TUT è un treebank costruito per la lingua italiana

La sua costruzione si è ispirata a quella di altri treebank e comporta vari passi

Turin University Treebank

Page 15: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Costruire TUT:

1.scegliere i testi per il corpus2.definire uno schema di annotazione (scegliere quali informazioni annotare e in che modo)3.applicare lo schema ai testi (automatico + manuale con doppia annotazione)4. verificare il risultato dell’applicazione (tool di verifica, conversione in altro formato, training di sistemi) e correggere gli errori

Turin University Treebank

Page 16: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

1. Scegliere i testi per il corpus di TUT:

3.542 frasi (102.150 token) di cui: 1.100 da quotidiani, 1.983 da prosa giuridica (codice civile, costituzione, Acquis) 459 da wikipedia

Turin University Treebank (1)

Page 17: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

2. Definire lo schema di annotazione di TUT:

•È stato progettato per la lingua italiana in modo da poterne rappresentare tutte le peculiarità e fenomeni

•È basato sul paradigma a dipendenze

•Include una collezione di relazioni grammaticali (~320) che rappresentano la struttura predicativo argomentale

Turin University Treebank (2)

Page 18: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Schema di annotazione e paradigmi sintattici

•Il paradigma a costituenti evidenzia l’organizzazione gerarchica delle unità della frase (sintagmi)

•Il paradigma a dipendenze evidenzia la funzione degli elementi della frase (relazioni grammaticali)

Turin University Treebank (2)

Page 19: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Giorgio Giorgio

ama ama

Maria Maria

SUBJSUBJ OBJOBJ

Turin University Treebank (2)

Page 20: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

•relazioni grammaticali

•ruoli semantici

•uguali o distinti?

Turin University Treebank (2)

Page 21: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

•Le relazioni sono identificabili da varie proprietà

•Sono realizzate diversamente nelle varie lingue, a seconda dell’uso di casi, inflessioni …:

give someone something dare a qualcuno qualcosa

Turin University Treebank (2)

Page 22: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Turin University Treebank (2)

Page 23: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.
Page 24: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Ogni relazione di TUT può essere composta di 3 elementi:

• Morfo-sintattico: features che esprimono la categoria grammaticale Verb, Noun, …

• Funzionale-sintattico: relazioni sintattiche come Subject, Object

• Semantico: relazioni semantiche come Location, Time, Cause

Turin University Treebank (2)

Page 25: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

La nazione sogna ricchezza

I sogni di ricchezza della nazione

Velocemente / in modo veloce

VERB-SUBJVERB-SUBJ

NOUN-OBJNOUN-OBJ NOUN-SUBJNOUN-SUBJ

VERB-OBJVERB-OBJ VERBVERB

NOUNNOUN

ADV-roleADV-role ADV-roleADV-role

Turin University Treebank (2)

Page 26: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Turin University Treebank (2)Componente morfo-sintattica

Page 27: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

• Dati 944 differenti Verbi per un totale di 4.169 occorrenze nel corpus di TUT

• Il 30% di questi Verbi (e le strutture predicative argomentali ad essi associate) risulta presente anche in forma nominale

Turin University Treebank (2)Componente morfo-sintattica

Page 28: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Egli non è stato visto da nessuno

Egli non è stato visto da ieri

ARGARG

MODMOD

Turin University Treebank (2)Componente funzionale-sintattica

Page 29: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Turin University Treebank (2)Componente funzionale-sintattica

Page 30: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Da qui è partito l’assalto

Succedeva dall’altra parte del mondo

I miliardi stanziati dal 1991

Era impazzito dal dolore

Trarrà beneficio dalla bonifica

LOC+FROMLOC+FROM

LOC+INLOC+IN

TIMETIME

REASONCAUSEREASONCAUSE

SOURCESOURCE

Turin University Treebank (2)Componente semantica

Page 31: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Turin University Treebank (2)Componente funzionale-sintattica

Page 32: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

• Dati 600 sintagmi preposizionali introdotti dalla preposizione DA e che svolgono il ruolo di modificatori

• È stato rilevato che essi possono assumere i seguenti 7 differenti valori semantici: LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE

Turin University Treebank (2)Componente funzionale-sintattica

Page 33: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

1 In 1 In (IN PREP MONO)(IN PREP MONO) [7;PREP-RMOD-TIME] [7;PREP-RMOD-TIME]

2 quei 2 quei (QUELLO ADJ DEMONS M PL) (QUELLO ADJ DEMONS M PL) [1;PREP-ARG][1;PREP-ARG]

3 giorni 3 giorni (GIORNO NOUN COMMON M PL)(GIORNO NOUN COMMON M PL)

[2;DET+DEF-ARG][2;DET+DEF-ARG]

4 Sudja 4 Sudja (|Sudja| NOUN PROPER) (|Sudja| NOUN PROPER) [7;VERB-SUBJ][7;VERB-SUBJ]

5 la 5 la (IL ART DEF F SING) (IL ART DEF F SING) [4;APPOSITION][4;APPOSITION]

6 zingara 6 zingara (ZINGARO NOUN COMMON F SING(ZINGARO NOUN COMMON F SING

[5;DET+DEF-ARG][5;DET+DEF-ARG]

7 annunciava 7 annunciava (ANNUNCIARE VERB MAIN IND (ANNUNCIARE VERB MAIN IND

IMPERF TRANS 3 SING) IMPERF TRANS 3 SING) [0;TOP-VERB][0;TOP-VERB]

8 il 8 il (IL ART DEF F SING) (IL ART DEF F SING) [7;VERB-OBJ][7;VERB-OBJ]

9 fallimento 9 fallimento (FALLIMENTO NOUN COMMON FALLIRE)(FALLIMENTO NOUN COMMON FALLIRE)

[8;DET+DEF-ARG][8;DET+DEF-ARG]

Page 34: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Applicare lo schema di annotazione a TUT significa che ogni sua frase:

•viene parsificata in modo automatico dal parser TULE, sviluppato in parallelo con TUT

•corretta da almeno 2 annotatori umani•verificata da tool automatici appositi•sottoposta a conversioni e applicazione di altri sistemi

Turin University Treebank

(3 e 4)

Page 35: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Le ricadute del progetto TUT

•Le ricadute del progetto TUT riguardano il suo utilizzo in 3 diverse direzioni:

•Come raccolta di dati linguistici

•Come banco di prova per sistemi di NLP

•Come modello per lo sviluppo di altre risorse

Page 36: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

•Come raccolta di dati linguistici TUT ha consentito

•Studi sul comportamento dei verbi della lingua italiana (estrazione di conoscenza)

•Studio dell’ordine delle parole nella lingua italiana

Le ricadute del progetto TUT

Page 37: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

(in 3500 sentences)

Le ricadute del progetto TUT

Page 38: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Le ricadute del progetto TUT

•Come banco di prova per sistemi di NLP TUT ha consentito di raggiungere i risultati oggi allo stato dell’arte per il parsing dell’italiano, con percentuali di errore intorno al 10%

•TUT è il treebank di riferimento nelle competizioni per parser di italiano (Evalita 07, 09, 11)

Page 39: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Le ricadute del progetto TUT

•Come modello per lo sviluppo di altre risorse, TUT è attualmente utilizzato in due principali direzioni:

•in prospettiva cross-linguistica, è in corso di sviluppo un treebank parallelo per le lingue italiano, francese e inglese (ParTUT)

•per lo studio di fenomeni legati all’espressione di sentimenti, opinioni ed emozioni, è in corso di sviluppo un corpus di testi di Twitter annotato morfologicamente (SentiTUT)

Page 40: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Le ricadute del progetto TUT

•INOLTRE: TUT è stato tradotto in formati di altri treebank grazie a tool di conversione automatica

•Questo ha reso possibile l’applicazione di strumenti sviluppati per tali formati ed il confronto tra paradigmi e modelli linguistici differenti nell’ambito del dibattito su quale formato si rivela più adeguato per il NLP in generale e per le diverse lingue naturali

Page 41: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Il Turin University Treebank (TUT), ParTUT e SentiTUT sono tutti progetti

dell’Interaction Models Group (L. Lesmo, C. Bosco, A. Mazzei, V. Lombardo, L. Robaldo, M. Sanguinetti)

del Dipartimento di Informatica dell’Università di Torino

Page 42: Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.

Per ulteriori informazioni:

http://www.di.unito.it/~tutreeb