[SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su...

14

Click here to load reader

Transcript of [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su...

Page 1: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

Tecniche basate su machine learning per la determinazione del profilo di un

autore su TwitterTesi di Laurea Magistrale in Ing. Informatica

Laureanda:A. Laderchi

Correlatori:prof. E. Medvet

dott. A. De Lorenzodott. F. Tarlao

Relatore:prof. A. Bartoli

Anno Accademico 2014-2015

Page 2: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015

Contesto

Social media (blog, social network, ecc.):

● testi lunghi o brevi● testi molto spesso informali

Profilo di un autore:

● sesso● età● personalità

Domande:

● si può determinare il profilo in base allo stile di scrittura?● quali elementi del testo bisogna considerare?

Introduzione

2 / 13

Page 3: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015

Importanza

● E-commerce:

○ prodotti consigliati in base al profilo○ interfacce adattabili

● Analisi forense:

○ profilo di un colpevole sulla base di tracce scritte

● Relazioni:

○ successo sentimentale○ successo professionale

● Filtraggio di informazioni

Introduzione

3 / 13

Page 4: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015

Obbiettivo

Sviluppo di un metodo in grado di risolvere il problema della determinazione del profilo di un autore (competizione PAN 2015).

Caratteristiche:

● 4 lingue differenti (EN, ES, IT, NL)● a partire da esempi → machine learning

○ documenti con attributi già associati● valutazione finale del metodo su documenti non disponibili

Introduzione

4 / 13

Page 5: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015 5 / 13

Attributi da determinare

Introduzione

● sesso○ maschile○ femminile

● fascia d’età (solo per EN ed ES)○ 18-24○ 25-34○ 35-49○ 50+

● 5 tratti della personalità ○ valori compresi tra -0.5 e +0.5

Problemi di classificazione

Problemi di regressione

Accuratezza

RMSE (Root-Mean-Square Error)

Page 6: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015 6 / 13

Tratti della personalità

Introduzione

Modello Big Five (OCEAN):

● Apertura mentale (Openness)○ curiosità, intelligenza, immaginazione

● Coscienziosità (Conscientiousness)○ responsabilità, organizzazione, perseveranza

● Estroversione (Extroversion)○ espansività, fiducia, entusiasmo

● Amicalità (Agreableness)○ cooperazione, disponibilità, educazione

● Nevroticismo (Neuroticism)○ ansietà, insicurezza, suscettibilità

Page 7: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015 7 / 13

Approccio

Metodo utilizzato

● Definizione di numerose feature da estrarre dai documenti:

○ stilometriche (punteggiatura, emoticon, numeri, ecc.)○ contenuto (famiglia, lavoro, sport, sentimenti, ecc.)○ ibride (preposizioni, articoli, pronomi, blog-word, ecc.)

● Algoritmi di previsione (classificazione/regressione):○ SVM (Support Vector Machine)○ Random Forest

● Metodo di validazione:○ leave-one-out

Page 8: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015 8 / 13

Selezione delle feature

Metodo utilizzato

26 problemi da risolvere:

● (1 attributo x 2 lingue) + (6 attributi x 4 lingue)

Per ogni problema:

● circa 40 sottoinsiemi di feature● SVM e Random Forest

Sui documenti disponibili:

● configurazioni feature-algoritmo migliori scelte in base a:○ accuratezza (sesso, fascia d’età)○ RMSE (tratti personali)

Page 9: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015 9 / 13

Risultati finali

PAN 2015

Sesso e fascia d’età Tratti personaliLingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob

EN 0.6479 0.7465 0.4718 0.1605 0.1480 0.2323 0.1360 0.1418 0.1445 0.6557ES 0.8523 0.4205 0.3295 0.1562 0.1701 0.1867 0.1463 0.1302 0.1459 0.5867IT 0.5000 - 0.5000 0.1405 0.1004 0.1889 0.1386 0.1298 0.1450 0.6797NL 0.7188 - 0.7188 0.1156 0.1467 0.1393 0.1261 0.0962 0.0696 0.8016

Punteggio finale 0.6809

In grassetto: i valori migliori rispetto alla media dei risultati di tutti i partecipanti.

Page 10: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015 10 / 13

Classifica finale

PAN 2015

Sesso e fascia d’età Tratti personaliLingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob

EN 16/22 6/22 15/22 8/22 10/22 13/22 3/22 8/22 11/22 14/22ES 7/21 20/21 19/21 5/21 8/21 4/21 9/21 3/21 9/21 19/21IT 17/19 - 17/19 6/19 5/19 4/19 8/19 8/19 5/19 15/19NL 10/21 - 10/21 4/21 8/21 6/21 7/21 2/21 6/21 9/21

Posizione finale 14/22

In grassetto: le posizioni risultanti tra le migliori 10.

Page 11: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015 11 / 13

Criticità della competizione

PAN 2015

Scoperta la possibilità di:● conoscere parte dei documenti “segreti” usati per la valutazione

finale● prevedere le risposte corrette a tutti (o quasi) i problemi tramite:

○ ricerca in rete di tweet○ incrocio ID autori

● falsare la competizione in modo radicale

Page 12: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015 12 / 13

Conclusioni

Realizzato un metodo per la determinazione del profilo di un autore:

● buoni risultati:○ nella previsione dei tratti personali○ soprattutto nella lingua olandese

Riguardo alle criticità:

● tempestiva notifica agli organizzatori:○ hanno corretto i dati e ringraziato pubblicamente il nostro

contributo

Page 13: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015

Fine

Grazie per l’attenzione!

13 / 13

Page 14: [SLIDE] Tecniche basate su machine learning per la determinazione del profilo di un autore su Twitter

14 ottobre 2015

Approfondimento risultati finali

PAN 2015

* accuratezza** RMSE***

Accuratezza: ● 0 → nessuna previsione corretta ● 1 → tutte previsioni corrette

RMSE:● 0 → tutte previsioni corrette

In corsivo: valori medi considerando tutti i partecipanti.

In grassetto: valori superiori alla media di tutti i partecipanti.

Sesso e fascia d’età* Tratti personali**Lingua Sesso Età Joint RMSE Estro Nevro Amica Consc Apert Glob***

EN0.6479 0.7465 0.4718 0.1605 0.1480 0.2323 0.1360 0.1418 0.1445 0.65570.7132 0.6863 0.5086 0.1763 0.1629 0.2379 0.1612 0.1586 0.1607 0.6662

ES0.8523 0.4205 0.3295 0.1562 0.1701 0.1867 0.1463 0.1302 0.1459 0.58670.7944 0.6223 0.5216 0.1775 0.1845 0.2174 0.1579 0.1689 0.1588 0.6721

IT0.5000 - 0.5000 0.1405 0.1004 0.1889 0.1386 0.1298 0.1450 0.67970.6418 - 0.6418 0.1602 0.1249 0.2088 0.1415 0.1502 0.1756 0.7408

NL0.7188 - 0.7188 0.1156 0.1467 0.1393 0.1261 0.0962 0.0696 0.80160.7032 - 0.7032 0.1422 0.1503 0.1664 0.1435 0.1448 0.1062 0.7805

Punteggio finale0.68090.7171