Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf ·...

50
Linguis’ca computazionale e treebank Cris%na Bosco Corso di Informa%ca applicata alla comunicazione mul%mediale 20162017

Transcript of Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf ·...

Page 1: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Linguis'ca  computazionale  e  treebank  

Cris%na  Bosco  

Corso  di  Informa%ca  applicata  alla  comunicazione  mul%mediale  

2016-­‐2017  

Page 2: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Il  proge=o  Turin  University  Treebank  

• ObieFvo:    

sviluppare  una  risorsa  linguis%ca,  una  banca  di  alberi  sintaFci  per  l’italiano  

Page 3: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Fasi  di  sviluppo  del  proge=o  

• Selezione  dei  tes%  da  annotare  

• Definizione  dello  schema  di  annotazione  

• Applicazione  dello  schema  al  corpus  di  tes%  (validità  e  consistenza)  

Page 4: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Selezione  di  tes'  in  TUT  

•  Giornali  quo%diani  (1.100  frasi  =  18,044  tokens)  •  Codice  civile  (1.100  frasi  =  28,048  tokens)  •  Acquis  (201  frasi  =  7,455  tokens)  • Wikipedia  (459  frasi  =  14,746  tokens)  

•  Cos%tuzione  Italiana,  intera    (682  frasi  =  13,178  tokens)  

•  Totale  3.452  frasi  =  102.000  token  

Page 5: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

TEXTS from PRAGUE newspapers, scientific and economic

journals

NEGRA newspaper Frankfurter Rundschau

PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations

Selezione  in  altri  treebank  

Page 6: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Definizione  dello  schema  di  annotazione  

• Scelta  del  formalismo  

• Scelta  delle  informazioni  e  stru=ure  da  rappresentare  

Page 7: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Stru=ura  sintaFca:  scelta  tra  2  aspeF  

• L’organizzazione  delle  unitá  della  frase  (sintagmi  e  cons%tuent  structure)  

• La  funzione  degli  elemen%  della  frase  (relazioni  gramma%cali  e  rela%onal  structure)  

Page 8: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Rela%onal  structure  

• Le  parole  della  frase  svolgono  funzioni  diverse    

• Le  funzioni  sono  espresse  in  termini  di  relazioni  gramma%cali  

Page 9: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Cons%tuent  structure  

Le  parole  della  frase  sono  organizzate  in  unità  (cos%tuen%)  che  a  loro  volta  sono  ogge=o  di  una  organizzazione  (cons%tuent  structure)  in  unità  più  grandi  

Page 10: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Cons%tuent  structure  

Le  relazioni  tra  le  parole  non  sono  tu=e  uguali:  

     “Maria  leggeva  un  libro  in  biblioteca”  

Page 11: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

ES:  Penn  annota'on  

(  S    

         (  NP  -­‐  SBJ        (PRP      I)  )  

         (  ADVP    -­‐    TMP      (  RB      never)  )  

         (  VP    (VBD      had)    

                 (  NP    (JJ        many)  (NNS      clients)  )  

                 (  NP  -­‐  ADV    (DT      a)  (  NN      day)  ))          

))  

NP  

VP  

NP  

ADVP  

NP  

S  

SBJ  

TMP  

PRP  

RB  

VBD  

NNS  DT  

NN  DT  ADV  

Page 12: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

ES:  NEGRA  annota'on  

S  

VP  

HD   SB   NG  

MO   HD   OA  

OC  

ADV                VVPP              VAFIN                NE                    NE              ADV  

Page 13: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Cos%tuen%  e  relazioni  • La  stru=ura  relazionale  include  le  informazioni  rela%ve  all’  

   organizzazione  della  frase  in  unità    

• La  stru=ura  a  cos%tuen%  non  include  le  informazioni  rela%ve  alla  funzione  delle  parole  

• La  stru=ura  relazionale  è  più  compa=a  

Page 14: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

• Sia  le  relazioni  che  i  cos%tuen%  sono  realizza%  in  modo  diverso  nelle  diverse  lingue  

• La  stru=ura  relazionale  include  la  stru=ura  argomentale  

Cos%tuen%  e  relazioni  

Page 15: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

La  stru=ura  argomentale  

• relazioni  gramma%cali  

• ruoli  seman%ci  

• uguali  o  dis%n%?    

Page 16: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Le  relazioni  gramma%cali  

• Le  relazioni  sono  realizzate  diversamente  nelle  varie  lingue,  a  seconda  dell’uso  di  casi,  inflessioni  

 give  someone  something                                                              dare  a  qualcuno  qualcosa  

Page 17: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

MORPHO SYNT SEM PRAGUE semi-

automatic semi-automatic

semi-automatic

NEGRA automatic interactive (probabilistic)

PENN automatic automatic (skeletal)

Processo  di  annotazione  

Page 18: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Processo  di  annotazione    in  TUT  

• Part  Of  Speech  tagging  automa%co  

• Correzione  manuale  del  tagging  

• Parsing  interaFvo  

• Verifica  e  revisione    

Page 19: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Costruire  un  treebank  

Per  costruire  validi  sistemi  di  analisi  del  linguaggio  occorrono  i  treebank.  

InfaF  è  dimostrato  che  i  sistemi  di  NLP  che  o=engono  i  migliori  risulta%  sono  quelli  che  prendono  le  informazioni  da  treebank)  

Page 20: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Costruire  un  treebank  

Per  costruire  dei  treebank  occorrono  validi  sistemi  di  analisi  del  linguaggio.  

È  impossibile  costruire  treebank  in  modo  esclusivamente  manuale  per  mo%vi  di  tempo  e  di  corre=ezza.  

Page 21: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Costruire  un  treebank  In  pra%ca  l’annotazione  dei  treebank  è  prodo=a  da  

sistemi  automa%ci  di  analisi  morfologica  (-­‐4%  errore)  e  sintaFca  (-­‐10%  errore)  

+  annotatori  umani  che  correggono  le  analisi  prodo=e  in  modo  automa%co  

Page 22: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Ogni  relazione  di  TUT  può  essere  composta  di  3  elemen%:  

•  Morfo-­‐sintaFco:  features  che  esprimono  la  categoria  gramma%cale  Verb,  Noun,  …  

•  Funzionale-­‐sintaFco:  relazioni  sintaFche  come  Subject,  Object    

•  Seman%co:  relazioni  seman%che  come  Loca%on,  Time,  Cause    

Le  dipendenze  nel  TUT  

Page 23: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

1  In  (IN  PREP  MONO)  [7;PREP-­‐RMOD-­‐TIME]  

2  quei  (QUELLO  ADJ  DEMONS  M  PL)  [1;PREP-­‐ARG]  

3  giorni  (GIORNO  NOUN  COMMON  M  PL)  [2;DET+DEF-­‐ARG]  

4  Sudja  (|Sudja|  NOUN  PROPER)  [7;VERB-­‐SUBJ]  

5  la  (IL  ART  DEF  F  SING)  [4;APPOSITION]  

6  zingara  (ZINGARO  NOUN  COMMON  F  SING)  [5;DET+DEF-­‐ARG]  

7  annunciava  (ANNUNCIARE  VERB  MAIN  IND  IMPERF  TRANS  3  SING)  [0;TOP-­‐VERB]  

8  il  (IL  ART  DEF  F  SING)  [7;VERB-­‐OBJ]  

9  fallimento  (FALLIMENTO  NOUN  COMMON  M  SING  FALLIRE  INTRANS)  [8;DET+DEF-­‐ARG]  

Page 24: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017
Page 25: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017
Page 26: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

     La  nazione                sogna                  ricchezza  

 I  sogni              di  ricchezza                    della  nazione    

 Velocemente          /      in  modo  veloce  

VERB-­‐SUBJ  

       NOUN-­‐OBJ        NOUN-­‐SUBJ  

VERB-­‐OBJ    VERB  

 NOUN  

     ADV-­‐role            ADV-­‐role  

TUT  Componente    morfo-­‐sinta\ca  

Page 27: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

TUT  Componente    morfo-­‐sinta\ca  

Page 28: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

•  Da%  944  differen%  Verbi  per  un  totale  di  4.169  occorrenze  nel  corpus  di  TUT  

•  Il  30%  di  ques%  Verbi  (e  le  stru=ure  predica%ve  argomentali  ad  essi  associate)  risulta  presente  anche  in  forma  nominale  

TUT  Componente    morfo-­‐sinta\ca  

Page 29: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

         Egli  non  è  stato  visto      da      nessuno  

 Egli  non  è  stato  visto      da  ieri  

           ARG  

   MOD  

TUT  Componente    funzionale-­‐sinta\ca  

Page 30: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

TUT  Componente    funzionale-­‐sinta\ca  

Page 31: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

   Da  qui                          è  par%to  l’assalto  

   Succedeva    dall’altra  parte  del  mondo  

   I  miliardi  stanzia%      dal  1991  

   Era  impazzito      dal  dolore  

   Trarrà  beneficio      dalla  bonifica  

LOC+FROM  

LOC+IN  

TIME  

REASONCAUSE  

SOURCE  

TUT  Componente    seman'ca  

Page 32: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

TUT  Componente    seman'ca  

Page 33: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

•  Da%  600  sintagmi  preposizionali  introdoF  dalla  preposizione  DA  e  che  svolgono  il  ruolo  di  modificatori  

•  È  stato  rilevato  che  essi  possono  assumere  i  seguen%  7  differen%  valori  seman%ci:      LOC+FROM,  LOC+IN,  LOC+METAPH,  TIME,  THEME,  REASONCAUSE,  SOURCE  

TUT  Componente    seman'ca  

Page 34: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

1  In  (IN  PREP  MONO)  [7;PREP-­‐RMOD-­‐TIME]  

2  quei  (QUELLO  ADJ  DEMONS  M  PL)  [1;PREP-­‐ARG]  

3  giorni  (GIORNO  NOUN  COMMON  M  PL)  [2;DET+DEF-­‐ARG]  

4  Sudja  (|Sudja|  NOUN  PROPER)  [7;VERB-­‐SUBJ]  

5  la  (IL  ART  DEF  F  SING)  [4;APPOSITION]  

6  zingara  (ZINGARO  NOUN  COMMON  F  SING)  [5;DET+DEF-­‐ARG]  

7  annunciava  (ANNUNCIARE  VERB  MAIN  IND  IMPERF  TRANS  3  SING)  [0;TOP-­‐VERB]  

8  il  (IL  ART  DEF  F  SING)  [7;VERB-­‐OBJ]  

9  fallimento  (FALLIMENTO  NOUN  COMMON  M  SING    FALLIRE  INTRANS)  [8;DET+DEF-­‐ARG]  

Page 35: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Applicare  lo  schema  di  annotazione  a  TUT  significa  che  ogni  sua  frase:  

• viene  parsificata  in  modo  automa%co  dal  parser  TULE,  sviluppato  in  parallelo  con  TUT  • corre=a  da  almeno  2  annotatori  umani  • verificata  da  tool  automa%ci  apposi%  • so=oposta  a  conversioni  e  applicazione  di  altri  sistemi    

Page 36: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Ricadute  del  proge]o  TUT  

U%lizzo  in  3  diverse  direzioni:  

• Come  raccolta  di  da%  linguis%ci  

• Come  banco  di  prova  per  sistemi  di  NLP  

• Come  modello  per  lo  sviluppo  di  altre  risorse  

Page 37: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

• Come  raccolta  di  da%  linguis%ci  TUT  ha  consen%to  

• Studi  sul  comportamento  dei  verbi  della  lingua  italiana  (estrazione  di  conoscenza)  

• Studio  dell’ordine  delle  parole  nella  lingua  italiana  

Ricadute  del  proge]o  TUT  

Page 38: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

(in  3500  sentences)  

Ricadute  del  proge]o  TUT  

Page 39: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

• Come  banco  di  prova  per  sistemi  di  NLP  TUT  ha  consen%to  di  raggiungere  i  risulta%  allo  stato  dell’arte  per  il  parsing  dell’italiano,  errore  intorno  al  10%    

• TUT  è  stato  il  treebank  di  riferimento  nelle  compe%zioni  per  parser  di  italiano  (Evalita  07,  09,  11)  

Ricadute  del  proge]o  TUT  

Page 40: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

•  Come  modello  per  lo  sviluppo  di  altre  risorse,  TUT  è  u%lizzato  in:  

•  in  prospeFva  cross-­‐linguis%ca,  ha  consen%to  lo  sviluppo  di  un  treebank  parallelo  per  le  lingue  italiano,  francese  e  inglese  (ParallelTUT)  

Ricadute  del  proge]o  TUT  

Page 41: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

•  INOLTRE:  TUT  è  stato  trado=o  in  forma%  di  altri  treebank  grazie  a  tool  di  conversione  automa%ca    

•  Questo  ha  reso  possibile  l’applicazione  di  strumen%  sviluppa%  per  tali  forma%  ed  il  confronto  tra  paradigmi  e  modelli  linguis%ci  differen%  nell’ambito  del  dibaFto  su  quale  formato  si  rivela  più  adeguato  per  il  NLP  in  generale  e  per  le  diverse  lingue  naturali  

Ricadute  del  proge]o  TUT  

Page 42: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Il  Turin  University  Treebank  (TUT)  e  ParTUT  sono  tuF  progeF    

del  Content  Centered  Compu%ng  Group  (C.  Bosco,  A.  Mazzei,  V.  Lombardo,  R.  Damiano  ,  V.  PaF,  M.  SanguineF)                                  

 del  Dipar%mento  di  Informa%ca                        dell’Università  di  Torino  

Page 43: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Per  ulteriori  informazioni:  

h=p://www.di.unito.it/~tutreeb  

Page 44: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Un  treebank  parallelo  italiano  francese  e  inglese  nel  formato  del  TUT.  

Il  proge]o  ParallelTUT  

Page 45: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Un  importante  problema  per  la  LC  è  la  valutazione:  

sia  come  confronto  tra  risulta%  degli  umani  e  quelli  del  sistema  di  LC  

sia  come  confronto  tra  i  risulta%  di  sistemi  diversi  

Treebank  e  valutazione  

Page 46: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

L’esistenza  di  molte  risorse  diverse  rende  però  difficile  confrontare  i  risulta%  o=enu%  da  diversi  sistemi  e  la  valutazione  deve  sempre  essere  fa=a  in  relazione  alle  stesse  risorse.  

Se  il  sistema  X  e  il  sistema  Y  u%lizzano  lo  stesso  corpus  per  apprendere,  o=engono  lo  stesso  output?  

Treebank  e  valutazione  

Page 47: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

La  comunità  della  LC  opera  pertanto  nella  direzione  di  rendere  confrontabili  i  risulta%  dei  sistemi  che  svolgono  lo  stesso  task.  

Questo  significa  ad  esempio  che  si  cerca  di  costruire  risorse  in  cui  si  u%lizza  lo  stesso  formato  di  rappresentazione  (standard).  

Treebank  e  valutazione  

Page 48: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

La  nozione  di  standard  è  par%colarmente  rilevante  per  i  treebank  e  ha  portato  alla  definizione  di  un  formato  universale  de=o  Universal  Dependency.  

Questo  processo  è  durato  vari  anni  e  ha  comportato  vari  passi  all’interno  delle  varie  comunità  che  operano  sulle  singole  lingue.  

Treebank  e  standard  

Page 49: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Per  la  lingua  italiana  ad  esempio  sono  sta%  crea%,  intorno  all’anno  2000,  2  treebank,  entrambi  con  un  formato  a  dipendenze,  TUT  e  Italian  Syntac%c  Seman%c  Treebank  (presso  l’Is%tuto  di  Linguis%ca  Computazionale  CNR  di  Pisa).  

Ques%  sono  sta%  fusi  grazie  ad  un  processo  di  conversione  in  un  formato  intermedio  e  poi  tradoF  in  Universal  Dependency.  

Treebank  e  standard  

Page 50: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017

Questo  formato  soddisfa  l’interesse  per  confron%  mul%lingui  e  rende  possibile  sia  campagne  di  valutazione  mul%lingui  sia  l’apprendimento  cross-­‐linguistco  a  supporto  della  LC  per  lingue  per  cui  non  esistono  risorse.  

h=p://universaldependencies.org/  

Universal  Dependency