Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele...

10
Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo “Antonio Rosmini”, Rovereto (TN) Stage tenuto presso l’FBK, unita’ HLT 21 giugno – 9 luglio 2010

Transcript of Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele...

Page 1: Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto.

Le tecnologie del linguaggio umano

incontrano la lingua di internet

Dario De Cristofaro, Emanuele Sartori1° B Classico, Liceo “Antonio Rosmini”,

Rovereto (TN)

Stage tenuto presso l’FBK, unita’ HLT21 giugno – 9 luglio 2010

Page 2: Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto.

Motivazioni e Obiettivo

Motivazione: L’avvento di internet e dei social media ha portato ad una nuova forma di espressione linguistica, diversa dall’italiano scritto standard

Obiettivo: comprendere le problematiche che le tecnologie del linguaggio si trovano ad affrontare nell’analisi automatica di questo nuovo linguaggio

Page 3: Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto.

Descrizione del lavoro

1. Creazione di un corpus della lingua di internet e di un corpus di italiano standard

2. Confronto delle caratteristiche delle due lingue

3. Creazione di un “Gold standard” per la valutazione delle prestazioni di un sistema automatico sulla lingua di internet

Page 4: Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto.

Il corpus della lingua di internet

Argomenti: la partita Italia – Slovacchia e l’incidente di Valentino Rossi

Da dove: Yahoo e YouTube Quando: 25 giugno 2010 Numero di post: 2.330 Numero di parole: 7.640 Come: Webdown e Webparser

Page 5: Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto.

Il corpus dell’italiano standard

Argomenti:la partita Italia – Slovacchia e l’incidente di Valentino Rossi

Da dove: giornale l’”Adige” Quando:6, 7, 21, 24 e 25 giugno 2010 Numero di articoli:12 Numero di parole:1.676

Page 6: Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto.

Confronto tra i corpora

Come: lista delle frequenze delle parole Cosa: punteggiatura e parole contenuto

Adige InternetRossi Vale

Mugello forzaPedrosa campioneLorenzo grandeHonda motoanche onesto

Adige Internet, ,

. ???

>> ...

<< !!!!!

? : )

( =)

Page 7: Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto.

Caratteristiche distintive delle due lingue

ITALIANO STANDARD ITALIANO SU INTERNET

Linguaggio più neutro e descrittivo

Linguaggio più esplicito ed emotivo; grande uso della punteggiatura; continue

abbreviazioni; parole “che” e “ke” usate moltissimo; ampio

uso delle minuscole; parolacce (censurate e non).

Page 8: Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto.

Valutazione dei sistemi automatici

Gold Standard: corpus annotato a mano con le informazioni specifiche su cui si vogliono valutare gli strumenti automatici

TextPro: strumento che aggiunge ai testi informazioni linguistiche

Creazione del GS: annotazione del corpus di internet con informazioni su: Segmentazione del testo in frasi Suddivisione del testo in parole Categoria lessicale delle parole (nome, verbo, agg.)

Page 9: Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto.

Analisi degli errori di TextPro

Corpus Gold Standard Errore di TextProadesso.solo adesso.

Solo Fine frase non riconosciuta

N O I@#$%

NOIparola censurata

Non riconosciute come parole singole

Vale nome proprio abbreviato

Riconosciuto come verbo

neanke,giustooo avverbio, aggettivo Parole non riconosciute

:-) nuova categoria:smiley

Riconosciuto come punteggiatura

Strumenti come TextPro si trovano in difficoltà di fronte al nuovo linguaggio utilizzato su Internet

Page 10: Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo Antonio Rosmini, Rovereto.

Conclusioni

Grazie a questo stage, abbiamo avuto l’occasione di realizzare un corpus, abbiamo fatto uso di

strumenti come TextPro e Webdownload, analizzato una lista di frequenze, creato un

Gold Standard, condotto un’analisi linguistica molto ampia e abbiamo infine valutato gli errori

di un software.

Responsabile HLT: Bernardo MagniniTutor: Luisa BentivogliTecnici: Milen Kouylekov e Christian Girardi