[SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su...
Click here to load reader
-
Upload
kylanee -
Category
Engineering
-
view
214 -
download
2
Transcript of [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su...
Tecniche basate su machine learning per la determinazione del profilo di un
autore su TwitterTesi di Laurea Magistrale in Ing. Informatica
Laureanda:A. Laderchi
Correlatori:prof. E. Medvet
dott. A. De Lorenzodott. F. Tarlao
Relatore:prof. A. Bartoli
Anno Accademico 2014-2015
14 ottobre 2015
Contesto
Social media (blog, social network, ecc.):
● testi lunghi o brevi● testi molto spesso informali
Profilo di un autore:
● sesso● età● personalità
Domande:
● si può determinare il profilo in base allo stile di scrittura?● quali elementi del testo bisogna considerare?
Introduzione
2 / 13
14 ottobre 2015
Importanza
● E-commerce:
○ prodotti consigliati in base al profilo○ interfacce adattabili
● Analisi forense:
○ profilo di un colpevole sulla base di tracce scritte
● Relazioni:
○ successo sentimentale○ successo professionale
● Filtraggio di informazioni
Introduzione
3 / 13
14 ottobre 2015
Obbiettivo
Sviluppo di un metodo in grado di risolvere il problema della determinazione del profilo di un autore (competizione PAN 2015).
Caratteristiche:
● 4 lingue differenti (EN, ES, IT, NL)● a partire da esempi → machine learning
○ documenti con attributi già associati● valutazione finale del metodo su documenti non disponibili
Introduzione
4 / 13
14 ottobre 2015 5 / 13
Attributi da determinare
Introduzione
● sesso○ maschile○ femminile
● fascia d’età (solo per EN ed ES)○ 18-24○ 25-34○ 35-49○ 50+
● 5 tratti della personalità ○ valori compresi tra -0.5 e +0.5
Problemi di classificazione
Problemi di regressione
Accuratezza
RMSE (Root-Mean-Square Error)
14 ottobre 2015 6 / 13
Tratti della personalità
Introduzione
Modello Big Five (OCEAN):
● Apertura mentale (Openness)○ curiosità, intelligenza, immaginazione
● Coscienziosità (Conscientiousness)○ responsabilità, organizzazione, perseveranza
● Estroversione (Extroversion)○ espansività, fiducia, entusiasmo
● Amicalità (Agreableness)○ cooperazione, disponibilità, educazione
● Nevroticismo (Neuroticism)○ ansietà, insicurezza, suscettibilità
14 ottobre 2015 7 / 13
Approccio
Metodo utilizzato
● Definizione di numerose feature da estrarre dai documenti:
○ stilometriche (punteggiatura, emoticon, numeri, ecc.)○ contenuto (famiglia, lavoro, sport, sentimenti, ecc.)○ ibride (preposizioni, articoli, pronomi, blog-word, ecc.)
● Algoritmi di previsione (classificazione/regressione):○ SVM (Support Vector Machine)○ Random Forest
● Metodo di validazione:○ leave-one-out
14 ottobre 2015 8 / 13
Selezione delle feature
Metodo utilizzato
26 problemi da risolvere:
● (1 attributo x 2 lingue) + (6 attributi x 4 lingue)
Per ogni problema:
● circa 40 sottoinsiemi di feature● SVM e Random Forest
Sui documenti disponibili:
● configurazioni feature-algoritmo migliori scelte in base a:○ accuratezza (sesso, fascia d’età)○ RMSE (tratti personali)
14 ottobre 2015 9 / 13
Risultati finali
PAN 2015
Sesso e fascia d’età Tratti personaliLingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob
EN 0.6479 0.7465 0.4718 0.1605 0.1480 0.2323 0.1360 0.1418 0.1445 0.6557ES 0.8523 0.4205 0.3295 0.1562 0.1701 0.1867 0.1463 0.1302 0.1459 0.5867IT 0.5000 - 0.5000 0.1405 0.1004 0.1889 0.1386 0.1298 0.1450 0.6797NL 0.7188 - 0.7188 0.1156 0.1467 0.1393 0.1261 0.0962 0.0696 0.8016
Punteggio finale 0.6809
In grassetto: i valori migliori rispetto alla media dei risultati di tutti i partecipanti.
14 ottobre 2015 10 / 13
Classifica finale
PAN 2015
Sesso e fascia d’età Tratti personaliLingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob
EN 16/22 6/22 15/22 8/22 10/22 13/22 3/22 8/22 11/22 14/22ES 7/21 20/21 19/21 5/21 8/21 4/21 9/21 3/21 9/21 19/21IT 17/19 - 17/19 6/19 5/19 4/19 8/19 8/19 5/19 15/19NL 10/21 - 10/21 4/21 8/21 6/21 7/21 2/21 6/21 9/21
Posizione finale 14/22
In grassetto: le posizioni risultanti tra le migliori 10.
14 ottobre 2015 11 / 13
Criticità della competizione
PAN 2015
Scoperta la possibilità di:● conoscere parte dei documenti “segreti” usati per la valutazione
finale● prevedere le risposte corrette a tutti (o quasi) i problemi tramite:
○ ricerca in rete di tweet○ incrocio ID autori
● falsare la competizione in modo radicale
14 ottobre 2015 12 / 13
Conclusioni
Realizzato un metodo per la determinazione del profilo di un autore:
● buoni risultati:○ nella previsione dei tratti personali○ soprattutto nella lingua olandese
Riguardo alle criticità:
● tempestiva notifica agli organizzatori:○ hanno corretto i dati e ringraziato pubblicamente il nostro
contributo
14 ottobre 2015
Fine
Grazie per l’attenzione!
13 / 13
14 ottobre 2015
Approfondimento risultati finali
PAN 2015
* accuratezza** RMSE***
Accuratezza: ● 0 → nessuna previsione corretta ● 1 → tutte previsioni corrette
RMSE:● 0 → tutte previsioni corrette
In corsivo: valori medi considerando tutti i partecipanti.
In grassetto: valori superiori alla media di tutti i partecipanti.
Sesso e fascia d’età* Tratti personali**Lingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob***
EN0.6479 0.7465 0.4718 0.1605 0.1480 0.2323 0.1360 0.1418 0.1445 0.65570.7132 0.6863 0.5086 0.1763 0.1629 0.2379 0.1612 0.1586 0.1607 0.6662
ES0.8523 0.4205 0.3295 0.1562 0.1701 0.1867 0.1463 0.1302 0.1459 0.58670.7944 0.6223 0.5216 0.1775 0.1845 0.2174 0.1579 0.1689 0.1588 0.6721
IT0.5000 - 0.5000 0.1405 0.1004 0.1889 0.1386 0.1298 0.1450 0.67970.6418 - 0.6418 0.1602 0.1249 0.2088 0.1415 0.1502 0.1756 0.7408
NL0.7188 - 0.7188 0.1156 0.1467 0.1393 0.1261 0.0962 0.0696 0.80160.7032 - 0.7032 0.1422 0.1503 0.1664 0.1435 0.1448 0.1062 0.7805
Punteggio finale0.68090.7171