GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.
-
Upload
giacinto-miceli -
Category
Documents
-
view
218 -
download
2
Transcript of GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.
GEOFFREY LEECH
A GUIDE TO GOOD PRACTICEADDING LINGUISTIC ANNOTATION
Federica Chierici
INTRODUZIONE
● PROPONE UN INSIEME DI STANDARD PER UNA BUONA REALIZZAZIONE DELLE ANNOTAZIONI DA FAR OSSERVARE QUANTO POSSIBILE AGLI ANNOTATORI
L'ANNOTAZIONE SEPARABILE
● LE ANNOTAZIONI SONO “OPTIONAL EXTRA”● L'ANNOTAZIONE DOVREBBE ESSERE SEPARABILE
DAL TESTO GREZZO● NON TUTTI GLI UTENTI POSSONO ESSERE
INTERESSATI ALLE ANNOTAZIONI
LOU BURNARD SOTTOLINEA LA NECESSITA' DI FORNIRE UNA DOCUMENTAZIONE ADEGUATA CIRCA IL
CORPUS E IL SUO INSIEME DI TESTI
ALLO STESSO MODO
GEOFFREY LEECH ENFATIZZA IL BISOGNO DI UNA DOCUMENTAZIONE ALTRETTANTO DETTAGLIATA DELLE ANNOTAZIONI E DEL CORPUS ANNOTATO
COSA SIGNIFICA FORNIRE UNA DOCUMENTAZIONE DETTAGLIATA
SULLE ANNOTAZIONI?
● COME/DOVE/QUANDO/DA CHI SONO STATE APPLICATE LE ANNOTAZIONI?
● QUAL E' LO SCHEMA DI ANNOTAZIONE?● QUAL E' IL SISTEMA DI CODIFICA?
IN BREVE ORIENTARE GLI UTENTI FORNENDO LORO TUTTE LE INFORMAZIONI
PREMESSA
● L'OPERAZIONE DI ANNOTAZIONE DI UN CORPUS NON E' UNA PRATICA OGGETTIVA
● L'ANNOTAZIONE IMPLICA UN'INTERPRETAZIONE DELLA LINGUA DI UN CORPUS
● NON VI E' ACCORDO SULLE CATEGORIE CHE DEVONO ESSERE UTILIZZATE
● NON C'E' VERITA' ASSOLUTA NELLA VISIONE DEL LINGUAGGIO
PRATICHE DI ANNOTAZIONI LINGUISTICAMENTE CONSENSUALI
● POSSIAMO CERCARE UN ACCORDO● SCHEMA DI ANNOTAZIONE PUÒ ESSERE BASATO
SU UN INSIEME CONSENSUALE DI CATEGORIE SU CUI LE PERSONE TENDONO AD ESSERE D'ACCORDO
● UTILE PER PIU' UTENTI● RAGGIUNGE OBIETTIVO DI RIUSABILITA' DEI
CORPORA ANNOTATI● APPROCCIO ANCHE DEI DIZIONARI
COSA PUO' ACCADERE SE NON C'E' CONSENSUALITA' LINGUISTICA?
OSSIA SE UN ANNOTATORE PER ESEMPIO SI AFFIDA ESCLUSIVAMENTE A UNA TEORIA INTERPRETATIVA DELLA LINGUA?
● IL CORPUS RISENTIRA' DI QUESTA SCELTA● RISULTERA' MENO UTILE E MENO CONDIVISIBILE● OBIETTIVO DI RIUSABILITA' NON RAGGIUNTO
STANDARD DE FACTO &STANDARD DE JURE
LE PRATICHE DI ANNOTAZIONE DOVREBBERO RISPETTARE GLI EMERGENTI STARDARD DE FACTO
STANDARD DE FACTO: modelli di riferimento che per la loro elevata diffusione vengono considerati standard, ma non sono mai stati riconosciuti come tali attraverso un regolare processo di standardizzazione
STANDARD DE JURE: formalizzato e descritto in uno specifico documento chiamato comunemente “norma”
“God's truth” standard nella pratica di annotazione non esiste
CODIFICA DELLE ANNOTAZIONI
EFFETTIVA RAPPRESENTAZIONE SIMBOLICA DELLE CATEGORIE SCELTE
● LISTA COME GLOSSARIO● LISTA DI DIMENSIONE VARIABILE● TAGSET=TAG+DEFINIZIONE+ESEMPIO (NP1)
CRITERI DI ANNOTAZIONEESEMPIO BASATO SU POS
● TAG NON AMBIGUO: per esempio, A non può indicare sia Aggettivo sia Avverbio
● TAG BREVE: per esempio NP1=3 segnali concisi per 3 elementi grammaticali
● TAG TRASPARENTE: per esempio confronto tra NP1 e Q!@ (ingannevole e arbitrario)
LINGUAGGI DI MARK UP
L'INFORMAZIONE STRUTTURALE È RAPPRESENTATA ATTRAVERSO L'AGGIUNTA DI ETICHETTE O TAG DI MARCATURA
NON VI È LIMITE ALLA TIPOLOGIA DI INFORMAZIONI CODIFICABILI
MARK UP IN SGML/XMLVANTAGGI
● SGML/HTML/XML HANNO SVILUPPATO UNO STANDARD MONDIALE CHE PUÒ ESSERE APPLICATO AD OGNI LINGUAGGIO, ORALE O SCRITTO, E A LINGUE DI DIFFERENTI PERIODI STORICI
● L'USO DEL LINGUAGGIO MARK UP PUÒ ESSERE EFFICIENTEMENTE ANALIZZATO DALL'ANNOTATORE
● COL TEMPO, STRUMENTI DI VARIO TIPO POSSONO ESSERE SVILUPPATI PER FACILITARE IL PROCESSO DI CODIFICA DI QUESTI LINGUAGGI ( per esempio Human Communication Research Centre di Edimburgo)
MARK UP IN SGML/XMLINCONVENIENTI
● più prolissi dei primi simboli convenzionali usati per esempio dal LOB Corpus
LOB corpus: Paula_NP1
SMGL in BNC Corpus: <w NP1>Paula
XML : <w type= “NP1”>Paula</w>
SOLUZIONE: CONVERSIONE AUTOMATICA CHE PRODUCE ESITO PIU' SEMPLICE
MARK UP IN SGML/XMLINCONVENIENTI
Natura imprevedibilmente immensa di un Corpus del mondo reale (può contenere dati di parlata spontanea e al contempo manoscritti medievali)
SOLUZIONE: SI CERCA DI ALLENTARE GLI STANDARD DI CONFORMITA'
PSEUDO-SGML HA IN APPARENZA LE CARATTERISTICHE DI SGML, MA NON È SOGGETTO ALLO STESSO RIGOROSO PROCESSO DI CONVALIDA
MARK UP IN SGML/XMLINCONVENIENTI
assume di default che l'annotazione è analizzabile in una struttura gerarchica ad albero, dove non sono permessi tagli trasversali tra le parentesi come in <x...>... <y...>... <x/>...<y/>
In ogni corpus, in particolare in quelli di lingua orale, sono presenti tagli trasversali tra le parentesi, costruzioni che devono essere marcate per diversi livelli linguistici di informazione, come fenomeni di non scorrevolezza o interruzioni.
SOLUZIONEAPPLICARE STAND-OFF ANNOTATION● TIPO DI SISTEMA DI ANNOTAZIONE● INVECE DI UNIRE IL CORPUS E IL MARK UP,
MANTIENE IL TESTO GREZZO SEPARATO (in un server remoto) E CREA UN LIVELLO (layer) SEPARATO CON I MARK UP CHE RISULTANO COLLEGATI AL TESTO ORIGINALE TRAMITE PUNTATORI (pointers)
OTTENIAMO COSI':● SEPARAZIONE TRA TESTO E ANNOTAZIONI● NESSUNA STRUTTURA GERARCHICA
MANUALE DI ANNOTAZIONE
DOCUMENTO CHE HA ORIGINE DALLE LINEE GUIDA UTILIZZATE ED E' NECESSARIO PER SPIEGARE LO SCHEMA DI ANNOTAZIONE AGLI UTENTI DI UN CORPUS ANNOTATO
GEOFFREY SAMPSON (1995) SUSANNE CORPUS
ANALOGIA TRA ANNOTAZIONE E SISTEMA LEGALE
DIVISIONE IN:
-lista di sistemi di annotazione
-specificazione delle pratiche di annotazione
ESPLICITAZIONE DELLEPRATICHE DI ANNOTAZIONE
● SEGMENTAZIONE: per esempio “carta di credito” o “don't”
● EMBEDDING (integrazione): per esempio “New York-Los Angeles flight”
● LINEE GUIDA PER AREE GRIGIE: per esempio “il papa” NP1?