Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele...
-
Upload
violetta-simoni -
Category
Documents
-
view
215 -
download
1
Transcript of Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele...
Le tecnologie del linguaggio umano
incontrano la lingua di internet
Dario De Cristofaro, Emanuele Sartori1° B Classico, Liceo “Antonio Rosmini”,
Rovereto (TN)
Stage tenuto presso l’FBK, unita’ HLT21 giugno – 9 luglio 2010
Motivazioni e Obiettivo
Motivazione: L’avvento di internet e dei social media ha portato ad una nuova forma di espressione linguistica, diversa dall’italiano scritto standard
Obiettivo: comprendere le problematiche che le tecnologie del linguaggio si trovano ad affrontare nell’analisi automatica di questo nuovo linguaggio
Descrizione del lavoro
1. Creazione di un corpus della lingua di internet e di un corpus di italiano standard
2. Confronto delle caratteristiche delle due lingue
3. Creazione di un “Gold standard” per la valutazione delle prestazioni di un sistema automatico sulla lingua di internet
Il corpus della lingua di internet
Argomenti: la partita Italia – Slovacchia e l’incidente di Valentino Rossi
Da dove: Yahoo e YouTube Quando: 25 giugno 2010 Numero di post: 2.330 Numero di parole: 7.640 Come: Webdown e Webparser
Il corpus dell’italiano standard
Argomenti:la partita Italia – Slovacchia e l’incidente di Valentino Rossi
Da dove: giornale l’”Adige” Quando:6, 7, 21, 24 e 25 giugno 2010 Numero di articoli:12 Numero di parole:1.676
Confronto tra i corpora
Come: lista delle frequenze delle parole Cosa: punteggiatura e parole contenuto
Adige InternetRossi Vale
Mugello forzaPedrosa campioneLorenzo grandeHonda motoanche onesto
Adige Internet, ,
. ???
>> ...
<< !!!!!
? : )
( =)
Caratteristiche distintive delle due lingue
ITALIANO STANDARD ITALIANO SU INTERNET
Linguaggio più neutro e descrittivo
Linguaggio più esplicito ed emotivo; grande uso della punteggiatura; continue
abbreviazioni; parole “che” e “ke” usate moltissimo; ampio
uso delle minuscole; parolacce (censurate e non).
Valutazione dei sistemi automatici
Gold Standard: corpus annotato a mano con le informazioni specifiche su cui si vogliono valutare gli strumenti automatici
TextPro: strumento che aggiunge ai testi informazioni linguistiche
Creazione del GS: annotazione del corpus di internet con informazioni su: Segmentazione del testo in frasi Suddivisione del testo in parole Categoria lessicale delle parole (nome, verbo, agg.)
Analisi degli errori di TextPro
Corpus Gold Standard Errore di TextProadesso.solo adesso.
Solo Fine frase non riconosciuta
N O I@#$%
NOIparola censurata
Non riconosciute come parole singole
Vale nome proprio abbreviato
Riconosciuto come verbo
neanke,giustooo avverbio, aggettivo Parole non riconosciute
:-) nuova categoria:smiley
Riconosciuto come punteggiatura
Strumenti come TextPro si trovano in difficoltà di fronte al nuovo linguaggio utilizzato su Internet
Conclusioni
Grazie a questo stage, abbiamo avuto l’occasione di realizzare un corpus, abbiamo fatto uso di
strumenti come TextPro e Webdownload, analizzato una lista di frequenze, creato un
Gold Standard, condotto un’analisi linguistica molto ampia e abbiamo infine valutato gli errori
di un software.
Responsabile HLT: Bernardo MagniniTutor: Luisa BentivogliTecnici: Milen Kouylekov e Christian Girardi