Elaborare il linguaggio naturale Cristina Bosco ([email protected]) Corso di Informatica applicata...

41
Elaborare il linguaggio naturale Cristina Bosco ([email protected]) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010

Transcript of Elaborare il linguaggio naturale Cristina Bosco ([email protected]) Corso di Informatica applicata...

Page 1: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Elaborare il linguaggio naturale

Cristina Bosco([email protected])

Corso di Informatica applicata alla comunicazione multimediale

Facoltà di Lingue 23/2/2010

Page 2: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

2 Problemi nell’elaborare il

linguaggio• Problema 1:Il linguaggio contiene molte ambiguità

che rendono difficile elaborarlo • Problema 2:Il linguaggio è usato sovente in forma

“non corretta”

Page 3: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Problema 1

Cosa succede se una frase (o sua componente) è ambigua? si costruiscono più strutture alternative e le si gestisce in parallelo, fino alla soluzione dell’ambiguità

MA NON BASTA (quand’anche possibile in un sistema reale) occorre avere CRITERI efficienti per ORDINARE le alternative e scegliere la migliore

Page 4: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Problema 2• Esempio:in inglese il soggetto precede il

verbo, ma i parlanti comprendono una frase anche se il suo soggetto si trova dopo il verbo

QUINDI LA VIOLAZIONE delle REGOLE non impedisce la COMUNICAZIONE

Page 5: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Elaborare il linguaggio

• Raffinare le tecniche di elaborazione • Applicare il trattamento a testi

“ristretti” (ad es. come genere)• Sviluppare risorse linguistiche di

grandi dimensioni e facilmente riutilizzabili ed accessibili per ottenere basi statistiche

Page 6: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Approccio corpus-based

• Utilizzato dai linguisti dalla fine dell’800 e tutt’ora molto diffuso

• Consiste nell’apprendere dal linguaggio le regole ed irregolarità del linguaggio

Page 7: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Approccio corpus-based

Esempio: nel parsing, di fronte all’ambiguità e

quindi generazione di più strutture, per una singola frase, si ricavano dai dati linguistici i CRITERI per scegliere la migliore delle strutture generate

Page 8: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Approccio corpus-based

In pratica:si prende un campione di linguaggio, cioè un

insieme di frasi = CORPUSsi cercano nel corpus le strutture linguistiche

e le loro probabilità = BASE di CONOSCENZA

se si incontra una struttura ambigua si cerca nella base di conoscenza l’informazione utile per costruire la rappresentazione più probabile della struttura

Page 9: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Un progetto reale: TUT

•Obiettivo: sviluppare una risorsa

linguistica, una banca di alberi sintattici per l’italiano

Page 10: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Fasi di sviluppo del progetto

•Selezione dei testi da annotare

•Definizione dello schema di annotazione

•Applicazione dello schema al corpus di testi (validità e consistenza)

Page 11: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Selezione di testi in TUT

• 45% testi da giornali quotidiani e riviste

• 45% testi dal codice civile• 10% testi da un corpus

multilingue della CE

Page 12: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: corpora balancing

TEXTS fromPRAGUE newspapers, scientific and

economic journals

NEGRA newspaper Frankfurter Rundschau

PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations

Page 13: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Definizione dello schema di

annotazione•Scelta del formalismo

•Scelta delle informazioni e strutture da rappresentare

Page 14: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Struttura sintattica: scelta tra 2 aspetti

• L’organizzazione delle unitá della frase (sintagmi e constituent structure)

• La funzione degli elementi della frase (relazioni grammaticali e relational structure)

Page 15: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Relational structure

•Le parole della frase svolgono funzioni diverse

•Le funzioni sono espresse in termini di relazioni grammaticali

Page 16: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Giorgio

ama

Maria

SUBJ OBJ

Relational structure

Page 17: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Constituent structure

Le parole della frase sono organizzate in unità (costituenti) che a loro volta sono oggetto di una organizzazione (constituent structure) in unità più grandi

Page 18: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: constituents

Giorgio ama Maria

Nome-pr Nome-pr Verbo

VP

S

NP NP

Page 19: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Constituent structure

(S(NP ( NOME Giorgio))(VP (VERBO ama)

(NP (NOME Maria))

)

)

Page 20: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Constituent structure

Le relazioni tra le parole non sono tutte uguali:

“Maria leggeva un libro in biblioteca”

Page 21: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: Penn annotation

( S

( NP - SBJ (PRP I) )

( ADVP - TMP ( RB never) )

( VP (VBD had)

( NP (JJ many) (NNS clients) )

( NP - ADV (DT a) ( NN day) ))

))

NP

VP

NP

ADVP

NP

S

SBJ

TMP

PRP

RB

VBD

NNSDT

NNDTADV

Page 22: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: NEGRA annotation

S

VP

HD SB NG

MO HD OA

OC

ADV VVPP VAFIN NE NE ADV

Page 23: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Costituenti e relazioni

•La struttura relazionale include le informazioni relative all’

organizzazione della frase in unità

•La struttura a costituenti non include le informazioni relative alla funzione delle parole

•La struttura relazionale è più compatta

Page 24: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

•Sia le relazioni che i costituenti sono realizzati in modo diverso nelle diverse lingue

•La struttura relazionale include la struttura argomentale

Costituenti e relazioni

Page 25: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

La struttura argomentale

•relazioni grammaticali

•ruoli semantici

•uguali o distinti?

Page 26: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Le relazioni grammaticali

•Identificabili da varie proprietà

•Diverse nelle varie lingue

Page 27: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: annotation processes

MORPHO SYNT SEMPRAGUE semi-

automatic

semi-automatic

semi-automatic

NEGRA automatic interactive(probabilistic)

PENN automatic automatic (skeletal)

Page 28: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Processo di sviluppo del TUT

•Part Of Speech tagging automatico

•Correzione manuale del tagging

•Parsing interattivo

•Verifica e revisione

Page 29: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

6.4. TUT application and future

• Study of the Italian word order• Extraction of grammar• Conversion in other treebank formats• …

Page 30: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: word order in Italian

(in 1200 sentences)

Page 31: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

6.2.2 TUT relation components

• Morpho-syntactic: morpho-syntactic features such as Verb, Noun …

• Functional-syntactic: syntactic relations such as Subject, Object

• Semantic: semantic relations such as Location, Time, Cause

Page 32: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: morpho-syntactic component

La nazione sogna ricchezza

I sogni di ricchezza della nazione

Velocemente / in modo veloce

VERB-SUBJ

NOUN-OBJ NOUN-SUBJ

VERB-OBJ VERB

NOUN

ADV-role ADV-role

Page 33: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: morpho-syntactic component

in TUT

Page 34: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Empirical evidence for the morpho-syntactic component in TUT

• Given 944 different Verbs = 4169 occurrences

• 30% of these Verbs (and associated predicative structure) are present in the nominal morpho-syntactic variant too

Page 35: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: functional-syntactic component

Egli non è stato visto da nessuno

Egli non è stato visto da ieri

ARG

MOD

Page 36: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: functional-syntactic component

in TUT

Page 37: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: semantic component

Da qui è partito l’assalto

Succedeva dall’altra parte del mondo

I miliardi stanziati dal 1991

Era impazzito dal dolore

Trarrà beneficio dalla bonifica

LOC+FROM

LOC+IN

TIME

REASONCAUSE

SOURCE

Page 38: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: semantic component in TUT

Page 39: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Empirical evidence for the semantic component in TUT

• Given 600 prepositional phrases introduced by the Preposition DA and playing the functional-syntactic role RMOD

• They assume 7 different semantic values:

LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE

Page 40: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

ES: Annotation in TUT1 In (IN PREP MONO) [7;PREP-RMOD-TIME]

2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG]

3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG]

4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ]

5 la (IL ART DEF F SING) [4;APPOSITION]

6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG]

7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB]

8 il (IL ART DEF F SING) [7;VERB-OBJ]

9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]

Page 41: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

END

For further information:

http://www.di.unito.it/~tutreeb

([email protected]

http://www.di.unito.it/~bosco)