Metodologia per la classificazione automatica di commenti su social network slide

28
Metodologia per la classificazione automatica di commenti non desiderati su social network Università degli Studi di Trieste Dipartimento di ingegneria e architettura Corso di laurea magistrale in ingegneria informatica Anno accademico 2014/2015 Laureando Simone Maver Relatore prof. Alberto Bartoli Correlatore prof. Eric Medvet 1

Transcript of Metodologia per la classificazione automatica di commenti su social network slide

Metodologia per la classificazione automatica di commenti non desiderati

su social network

Università degli Studi di TriesteDipartimento di ingegneria e architetturaCorso di laurea magistrale in ingegneria informatica

Anno accademico 2014/2015

LaureandoSimone Maver

Relatoreprof. Alberto Bartoli

Correlatoreprof. Eric Medvet

1

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Il problema

All’interno di un social network:● Un utente ha uno spazio personale in cui

inserisce dei contenuti

● Riceve contenuti da altri utenti, sotto forma di commenti

● Alcuni contenuti che riceve potrebbero essere indesiderati

2

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Il problema I

● Necessità di poter moderare○ contenuti○ fonti da cui provengono

● Permettere ad un utente di farlo in maniera○ precisa○ personalizzata

3

● Alcuni contenuti potrebbero essere indesiderati

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

È importante?● Alcuni contenuti potrebbero essere indesiderati

○ Necessità riconosciuta anche dai gestori dei social network: “Twitter CEO: We suck at dealing with trolls and abuse” - The guardian, febbraio 2015)

● I social network sono un media che sta assumendo sempre maggiore importanza○ “As of January 2014, 74% of online adults use social

networking sites.” - Social networking fact sheet, PEW Research Center

○ Here’s how 9 Best Companies use Facebook, Twitter,[...] and other social networks to stay ahead of the competition: Autodesk, Boston Consulting Group, American Express, [...] - Social media superstars 2014, Forbes

4

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Obbiettivo del lavoro

● Definire un formalismo per descrivere insiemi di regole di filtraggio

● Proporre un metodo per applicare le regole

● Verificare l’usabilità del metodo proposto con un campione di utenti reali

5

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Social newtork● Twitter

○ un utente inserisce un tweet○ gli altri utenti possono rispondere con un commento

■ commento = tweet di risposta

○ esiste il concetto di conversazione■ è un insieme di tweet

● i dati su Twitter sono pubblici

6

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Scenario

7

● Gli elementi coinvolti nelle operazioni di filtraggio sono:○ commento○ utenti○ conversazione

RegolaCommento

Conversazione

Filtrato

NON filtrato

NB: filtrato = respinto dalla regola

● Oggetto del filtraggio saranno i commenti (tweet di risposta) parte di una conversazione

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Struttura di una regola

8

● In una regola possono essere presenti uno o più elementi, specificati da chi forma la regola

sono insiemi di topic

sono insiemi di label

sono dei flag booleaniun insieme di relazioni

un insieme di utenti

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Applicazione della regola● Le informazioni riguardanti commenti, utenti

e conversazione vengono confrontate con gli elementi specificati nella regola

● Se almeno uno dei confronti porta al filtraggio, allora il commento è filtrato (respinto) dalla regola

9

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Informazioni di contesto● Informazioni che potrebbero essere coinvolte nel

filtraggio:○ topic - argomenti di discussione:arte, scienza, politica, salute,

sport, ...

○ label - etichette; descrivono informazioni di contesto relative a:

■ utente:● utenteVerificato, utenteAppenaRegistrato

■ messaggio:

● volgare, georeferenziato, contieneImmagini, contieneLink, nonContieneTesto

○ relazioni tra gli utenti: segue, èSeguito

● Nel corso del lavoro sono state definite alcune funzioni per mettere in relazione elementi della regola e caratteristiche sopra descritte 10

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Esempi di regole

● Rifiuta tutti i messaggi volgari:

11

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Esempi di regole I

12

● Rifiuta tutti i messaggi quando si parla di basket, tranne i messaggi da utenti che hanno alcuni topic in comune con l’autore della regola:

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Esempi di regole II

● Rifiuta tutti i messaggi pubblicati dall'utente Prandelli quando nella conversazione si parla di sport:

13

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Estrazione dei dati

● Obbiettivo: recuperare dei dati da utilizzare nella fase di validazione

● Sorgente: social network Twitter○ dati pubblici○ privacy policy meno restrittive○ presenza di conversazioni○ API ben documentate

■ utilizzabili tramite Java

14

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Estrazione dei dati II

Presenza di conversazioni:● esiste la nozione di conversazione

○ tweet iniziale + tweet(s) di risposta

● non disponibili direttamente tramite API

15

È stato necessario ricostruire le conversazioni:● partendo dal tweet iniziale● cercando i singoli tweet di risposta

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Estrazione dei dati IIIRicostruzione conversazioni

16

● Per ricostruire conversazioni più possibile complete è stato necessario○ estrarre molti tweet○ verificare che siano risposte ai tweet già presenti

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Estrazione dei dati IVObbiettivo dell’estrazione:● 100 utenti autori di conversazioni● 100 conversazioni per ognuno degli utenti sopra● almeno 5 tweet per ogni conversazione

17

Non è stato raggiunto completamente:● non era possibile verificare la disponibilità dei dati a priori● le limitazioni temporali e quantitative imposte da Twitter

hanno inciso sulla durata● dopo ~72 ore di esecuzione l’estrazione è stata interrotta● sono stati mantenuti i dati estratti

○ 23627 conversazioni totali (1 < lunghezza < 107 tweet)○ 6 autori di conversazioni con almeno 100 conversazioni da

almeno 5 tweet

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Validazione del sistema

Obbiettivo:● verificare usabilità e efficacia del sistema di filtraggio

Come raggiungerlo:● somministrazione di più task di filtraggio a un campione

reale di utenti

18

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Validazione del sistema I

● Per ogni task vengono forniti○ descrizione testuale del filtraggio da effettuare○ qual è l’utente da impersonare○ quali utenti sono coinvolti nella conversazione○ conversazione sulla quale eseguire il filtraggio

■ informazioni di contesto necessarie (topic, label, relazioni,...)

○ possibilità di creare, eliminare e modificare regole

19

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Validazione del sistema II

Dati raccolti durante l’utilizzo1. task assegnato all’utente2. tempo di esecuzione del task assegnato3. numero di operazioni effettuate sulle

regole

20

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Applicazione web

21

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Operazioni su una regola

22

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Operazioni su una regola I

23

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Visualizzazione tweet

Evidenziazione tweet da filtrare

24

Evidenziazione tweet filtrati

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Conclusioni

25

● Definito il formalismo per formare le regole

● Proposto un metodo per applicare le regole ai messaggi

● L’applicazione web è quasi completa

● Non è stato effettuato il test con gli utenti

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

26

Grazie per l’attenzione

27

Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS

Applicazione della regolaConsiderato un messaggio m, esso viene rifiutato (filtrato) in una conversazione c da una regola ρ se e solo se tutte le condizioni seguenti sono verificate:

28