Come procedere nell’annotazione di un corpus

15
Come procedere nell’annotazione di un corpus Cristina Bosco 2014 Informatica applicata alla comunicazione multimediale

description

Come procedere nell’annotazione di un corpus. Cristina Bosco 2014 Informatica applicata alla comunicazione multimediale. Strumenti base. Per lavorare sull’annotazione ci servono alcuni strumenti: - PowerPoint PPT Presentation

Transcript of Come procedere nell’annotazione di un corpus

Page 1: Come procedere nell’annotazione di un corpus

Come procedere nell’annotazione di un corpus

Cristina Bosco

2014

Informatica applicata alla comunicazione multimediale

Page 2: Come procedere nell’annotazione di un corpus

Strumenti base

Per lavorare sull’annotazione ci servono alcuni strumenti:• editor (ci consente di vedere il testo annotato in forma testuale e di modificarne l’annotazione)• viewer (ci consente di vedere il testo annotato in forma grafica, i.e. alberi, e di verificare le modifiche apportate con la correzione)

Page 3: Come procedere nell’annotazione di un corpus

Testo

Il testo del nostro corpus deve essere visualizzato in 3 modi:• in forma non annotata (per capire come è fatto il testo indipendentemente dall’annotazione)• in forma annotata (per valutare la validità dell’annotazione fatta in modo automatico e poi la sua correzione) testuale e grafica

Page 4: Come procedere nell’annotazione di un corpus

Testo annotatoIl testo annotato è sempre lo stesso, ed è contenuto nel file con estensione .tut, che contiene il testo + tutte le informazioni sulla morfologia e la sintassi di esso

Ma:se apriamo il testo con l’editor vediamo il formato testose apriamo il testo con il viewer vediamo l’albero

Page 5: Come procedere nell’annotazione di un corpus

1 The (THE ART DEF ALLVAL ALLVAL) [3;RMOD]2 translation (TRANSLATION NOUN COMMON N SING TRANSLATE TRANS) [1;DET+DEF-ARG]3 shall (SHALL VERB MOD IND PRES ALLVAL ALLVAL) [0;TOP-VERB]4 replace (REPLACE VERB MAIN INFINITE PRES) [3;RMOD]5 the (THE ART DEF ALLVAL ALLVAL) [4;UNKNOWN]6 corresponding (CORRESPONDING ADJ QUALIF ALLVAL ALLVAL) [7;ADJC+QUALIF-RMOD]7 particulars (PARTICULAR NOUN COMMON N PL) [5;DET+DEF-ARG]8 in (IN PREP MONO) [4;RMOD]9 the (THE ART DEF ALLVAL ALLVAL) [8;PREP-ARG]10 document (DOCUMENT NOUN COMMON N SING) [9;DET+DEF-ARG]11 in (IN PREP MONO) [4;RMOD]12 question (QUESTION NOUN COMMON N SING) [11;PREP-ARG]13 . (#\. PUNCT) [3;END]

Page 6: Come procedere nell’annotazione di un corpus
Page 7: Come procedere nell’annotazione di un corpus

Strumenti extra Una delle cose importanti quando si corregge l’annotazione è di mantenere la consistenza rispetto a quanto annotato precedentemente.Quindi occorre confrontarsi con il materiale annotato precedentemente per trovare esempi corretti e per trattarli nello stesso modo.Dove si trovano gli esempi?Sul sito di TUT e di parTUT:www.di.unito.it/~tutreebhttp://www.di.unito.it/~tutreeb/partut.html

Page 8: Come procedere nell’annotazione di un corpus

In praticaCome procedere?Procedo un frase per volta.

Preparo la frase su cui devo fare la correzione

Apro il file .txt per vedere la frase.Apro il file .tut con il viewer per vedere la frase annotata in forma grafica di alberoApro il file .tut con l’editor per vedere la frase annotata in formato testo.

Page 9: Come procedere nell’annotazione di un corpus

In praticaGuardo la frase:

SE mi sembra tutto corretto e non ho alcun dubbio sull’annotazioneALLORA passo alla frase successiva

SE ho qualche dubbio ALLORA consulto le note linguistiche e gli esempi

SE trovo un errore devo correggerlo

Page 10: Come procedere nell’annotazione di un corpus

In praticaCome correggo un errore?

La correzione va fatta sul file .tut in forma testuale, usando l’editor (il viewer consente solo di vedere, ma non di modificare).

Una volta fatta la correzione si ricarica nel viewer il file .tut per vedere il risultato della correzione

Page 11: Come procedere nell’annotazione di un corpus

1 The (THE ART DEF ALLVAL ALLVAL) [3;RMOD]2 translation (TRANSLATION NOUN COMMON N SING TRANSLATE TRANS) [1;DET+DEF-ARG]3 shall (SHALL VERB MOD IND PRES ALLVAL ALLVAL) [0;TOP-VERB]4 replace (REPLACE VERB MAIN INFINITE PRES) [3;RMOD]5 the (THE ART DEF ALLVAL ALLVAL) [4;UNKNOWN]6 corresponding (CORRESPONDING ADJ QUALIF ALLVAL ALLVAL) [7;ADJC+QUALIF-RMOD]7 particulars (PARTICULAR NOUN COMMON N PL) [5;DET+DEF-ARG]8 in (IN PREP MONO) [4;RMOD]9 the (THE ART DEF ALLVAL ALLVAL) [8;PREP-ARG]10 document (DOCUMENT NOUN COMMON N SING) [9;DET+DEF-ARG]11 in (IN PREP MONO) [4;RMOD]12 question (QUESTION NOUN COMMON N SING) [11;PREP-ARG]13 . (#\. PUNCT) [3;END]

Page 12: Come procedere nell’annotazione di un corpus

1 The (THE ART DEF ALLVAL ALLVAL) [3;RMOD]2 translation (TRANSLATION NOUN COMMON N SING TRANSLATE TRANS) [1;DET+DEF-ARG]3 shall (SHALL VERB MOD IND PRES ALLVAL ALLVAL) [0;TOP-VERB]

Il nodo 1 (The) introduce il soggetto del verbo principale (nodo 3 shall) , quindi la relazione che lo lega al nodo 3 è VERB-SUBJ e non RMOD. Correggo:

1 The (THE ART DEF ALLVAL ALLVAL) [3;VERB-SUBJ]

Page 13: Come procedere nell’annotazione di un corpus

3 shall (SHALL VERB MOD IND PRES ALLVAL ALLVAL) [0;TOP-VERB]4 replace (REPLACE VERB MAIN INFINITE PRES) [3;RMOD]

Il nodo 4 (replace) è il verbo che dipende dal modale (nodo 3 shall), quindi la relazione che lo lega al nodo 3 non è RMOD ma VERB+MODAL-INDCOMPL. Correggo:4 replace (REPLACE VERB MAIN INFINITE PRES) [3;VERB+MODAL-INDCOMPL]

Page 14: Come procedere nell’annotazione di un corpus

4 replace (REPLACE VERB MAIN INFINITE PRES) [3;VERB+MODAL-INDCOMPL]5 the (THE ART DEF ALLVAL ALLVAL) [4;UNKNOWN]

La relazione che lega il nodo 5 (the) al verbo replace (nodo 4) è complemento oggetto quindi VERB-OBJ e non UNKNOWN. Correggo:

5 the (THE ART DEF ALLVAL ALLVAL) [4;VERB-OBJ]

Page 15: Come procedere nell’annotazione di un corpus

Finite tutte le correzioni ricarico il file nel viewer: