GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

19
GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici

Transcript of GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

Page 1: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

GEOFFREY LEECH

A GUIDE TO GOOD PRACTICEADDING LINGUISTIC ANNOTATION

Federica Chierici

Page 2: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

INTRODUZIONE

● PROPONE UN INSIEME DI STANDARD PER UNA BUONA REALIZZAZIONE DELLE ANNOTAZIONI DA FAR OSSERVARE QUANTO POSSIBILE AGLI ANNOTATORI

Page 3: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

L'ANNOTAZIONE SEPARABILE

● LE ANNOTAZIONI SONO “OPTIONAL EXTRA”● L'ANNOTAZIONE DOVREBBE ESSERE SEPARABILE

DAL TESTO GREZZO● NON TUTTI GLI UTENTI POSSONO ESSERE

INTERESSATI ALLE ANNOTAZIONI

Page 4: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

LOU BURNARD SOTTOLINEA LA NECESSITA' DI FORNIRE UNA DOCUMENTAZIONE ADEGUATA CIRCA IL

CORPUS E IL SUO INSIEME DI TESTI

ALLO STESSO MODO

GEOFFREY LEECH ENFATIZZA IL BISOGNO DI UNA DOCUMENTAZIONE ALTRETTANTO DETTAGLIATA DELLE ANNOTAZIONI E DEL CORPUS ANNOTATO

Page 5: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

COSA SIGNIFICA FORNIRE UNA DOCUMENTAZIONE DETTAGLIATA

SULLE ANNOTAZIONI?

● COME/DOVE/QUANDO/DA CHI SONO STATE APPLICATE LE ANNOTAZIONI?

● QUAL E' LO SCHEMA DI ANNOTAZIONE?● QUAL E' IL SISTEMA DI CODIFICA?

IN BREVE ORIENTARE GLI UTENTI FORNENDO LORO TUTTE LE INFORMAZIONI

Page 6: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

PREMESSA

● L'OPERAZIONE DI ANNOTAZIONE DI UN CORPUS NON E' UNA PRATICA OGGETTIVA

● L'ANNOTAZIONE IMPLICA UN'INTERPRETAZIONE DELLA LINGUA DI UN CORPUS

● NON VI E' ACCORDO SULLE CATEGORIE CHE DEVONO ESSERE UTILIZZATE

● NON C'E' VERITA' ASSOLUTA NELLA VISIONE DEL LINGUAGGIO

Page 7: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

PRATICHE DI ANNOTAZIONI LINGUISTICAMENTE CONSENSUALI

● POSSIAMO CERCARE UN ACCORDO● SCHEMA DI ANNOTAZIONE PUÒ ESSERE BASATO

SU UN INSIEME CONSENSUALE DI CATEGORIE SU CUI LE PERSONE TENDONO AD ESSERE D'ACCORDO

● UTILE PER PIU' UTENTI● RAGGIUNGE OBIETTIVO DI RIUSABILITA' DEI

CORPORA ANNOTATI● APPROCCIO ANCHE DEI DIZIONARI

Page 8: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

COSA PUO' ACCADERE SE NON C'E' CONSENSUALITA' LINGUISTICA?

OSSIA SE UN ANNOTATORE PER ESEMPIO SI AFFIDA ESCLUSIVAMENTE A UNA TEORIA INTERPRETATIVA DELLA LINGUA?

● IL CORPUS RISENTIRA' DI QUESTA SCELTA● RISULTERA' MENO UTILE E MENO CONDIVISIBILE● OBIETTIVO DI RIUSABILITA' NON RAGGIUNTO

Page 9: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

STANDARD DE FACTO &STANDARD DE JURE

LE PRATICHE DI ANNOTAZIONE DOVREBBERO RISPETTARE GLI EMERGENTI STARDARD DE FACTO

STANDARD DE FACTO: modelli di riferimento che per la loro elevata diffusione vengono considerati standard, ma non sono mai stati riconosciuti come tali attraverso un regolare processo di standardizzazione

STANDARD DE JURE: formalizzato e descritto in uno specifico documento chiamato comunemente “norma”

“God's truth” standard nella pratica di annotazione non esiste

Page 10: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

CODIFICA DELLE ANNOTAZIONI

EFFETTIVA RAPPRESENTAZIONE SIMBOLICA DELLE CATEGORIE SCELTE

● LISTA COME GLOSSARIO● LISTA DI DIMENSIONE VARIABILE● TAGSET=TAG+DEFINIZIONE+ESEMPIO (NP1)

Page 11: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

CRITERI DI ANNOTAZIONEESEMPIO BASATO SU POS

● TAG NON AMBIGUO: per esempio, A non può indicare sia Aggettivo sia Avverbio

● TAG BREVE: per esempio NP1=3 segnali concisi per 3 elementi grammaticali

● TAG TRASPARENTE: per esempio confronto tra NP1 e Q!@ (ingannevole e arbitrario)

Page 12: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

LINGUAGGI DI MARK UP

L'INFORMAZIONE STRUTTURALE È RAPPRESENTATA ATTRAVERSO L'AGGIUNTA DI ETICHETTE O TAG DI MARCATURA

NON VI È LIMITE ALLA TIPOLOGIA DI INFORMAZIONI CODIFICABILI

Page 13: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

MARK UP IN SGML/XMLVANTAGGI

● SGML/HTML/XML HANNO SVILUPPATO UNO STANDARD MONDIALE CHE PUÒ ESSERE APPLICATO AD OGNI LINGUAGGIO, ORALE O SCRITTO, E A LINGUE DI DIFFERENTI PERIODI STORICI

● L'USO DEL LINGUAGGIO MARK UP PUÒ ESSERE EFFICIENTEMENTE ANALIZZATO DALL'ANNOTATORE

● COL TEMPO, STRUMENTI DI VARIO TIPO POSSONO ESSERE SVILUPPATI PER FACILITARE IL PROCESSO DI CODIFICA DI QUESTI LINGUAGGI ( per esempio Human Communication Research Centre di Edimburgo)

Page 14: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

MARK UP IN SGML/XMLINCONVENIENTI

● più prolissi dei primi simboli convenzionali usati per esempio dal LOB Corpus

LOB corpus: Paula_NP1

SMGL in BNC Corpus: <w NP1>Paula

XML : <w type= “NP1”>Paula</w>

SOLUZIONE: CONVERSIONE AUTOMATICA CHE PRODUCE ESITO PIU' SEMPLICE

Page 15: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

MARK UP IN SGML/XMLINCONVENIENTI

Natura imprevedibilmente immensa di un Corpus del mondo reale (può contenere dati di parlata spontanea e al contempo manoscritti medievali)

SOLUZIONE: SI CERCA DI ALLENTARE GLI STANDARD DI CONFORMITA'

PSEUDO-SGML HA IN APPARENZA LE CARATTERISTICHE DI SGML, MA NON È SOGGETTO ALLO STESSO RIGOROSO PROCESSO DI CONVALIDA

Page 16: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

MARK UP IN SGML/XMLINCONVENIENTI

assume di default che l'annotazione è analizzabile in una struttura gerarchica ad albero, dove non sono permessi tagli trasversali tra le parentesi come in <x...>... <y...>... <x/>...<y/>

In ogni corpus, in particolare in quelli di lingua orale, sono presenti tagli trasversali tra le parentesi, costruzioni che devono essere marcate per diversi livelli linguistici di informazione, come fenomeni di non scorrevolezza o interruzioni.

Page 17: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

SOLUZIONEAPPLICARE STAND-OFF ANNOTATION● TIPO DI SISTEMA DI ANNOTAZIONE● INVECE DI UNIRE IL CORPUS E IL MARK UP,

MANTIENE IL TESTO GREZZO SEPARATO (in un server remoto) E CREA UN LIVELLO (layer) SEPARATO CON I MARK UP CHE RISULTANO COLLEGATI AL TESTO ORIGINALE TRAMITE PUNTATORI (pointers)

OTTENIAMO COSI':● SEPARAZIONE TRA TESTO E ANNOTAZIONI● NESSUNA STRUTTURA GERARCHICA

Page 18: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

MANUALE DI ANNOTAZIONE

DOCUMENTO CHE HA ORIGINE DALLE LINEE GUIDA UTILIZZATE ED E' NECESSARIO PER SPIEGARE LO SCHEMA DI ANNOTAZIONE AGLI UTENTI DI UN CORPUS ANNOTATO

GEOFFREY SAMPSON (1995) SUSANNE CORPUS

ANALOGIA TRA ANNOTAZIONE E SISTEMA LEGALE

DIVISIONE IN:

-lista di sistemi di annotazione

-specificazione delle pratiche di annotazione

Page 19: GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

ESPLICITAZIONE DELLEPRATICHE DI ANNOTAZIONE

● SEGMENTAZIONE: per esempio “carta di credito” o “don't”

● EMBEDDING (integrazione): per esempio “New York-Los Angeles flight”

● LINEE GUIDA PER AREE GRIGIE: per esempio “il papa” NP1?