Analisi e sintesi di notizie da Twitter per real time web

26
ANALISI E SINTESI DI NOTIZIE DA TWITTER PER REAL TIME WEB Candidato: Federico Frappi Relatori: Prof. Alberto Del Bimbo Dott. Ing. Marco Bertini Università degli studi di Firenze Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica

Transcript of Analisi e sintesi di notizie da Twitter per real time web

Page 1: Analisi e sintesi di notizie da Twitter per real time web

ANALISI E SINTESI DI NOTIZIE DA TWITTER PER REAL TIME WEB

Candidato:Federico Frappi

Relatori:Prof. Alberto Del BimboDott. Ing. Marco Bertini

Università degli studi di FirenzeFacoltà di Ingegneria

Corso di Laurea in Ingegneria Informatica

Page 2: Analisi e sintesi di notizie da Twitter per real time web

COSA È TWITTER?Twitter è un social network

“real time”

Gli utenti hanno a disposizione una pagina aggiornabile attraverso

messaggi di stato di massimo 140 caratteri

Nella timeline di ogni utente compaiono i propri tweet e quelli degli account “seguiti”

Introduzione Il sistema Valutazione Conclusioni

Page 3: Analisi e sintesi di notizie da Twitter per real time web

Introduzione Il sistema Valutazione Conclusioni

COME SFRUTTARE QUESTE INFORMAZIONI?

Il flusso dei messaggi inseriti su Twitter aumenta costantemente, superando le decine di milioni di tweet ogni giorno

Twitter è quindi un’ottima fonte di informazioni per svariate operazioni di data mining ed analisi, come ad esempio:

•Psefologia (predizione del risultato delle elezioni)

•Indagini di mercato

•Analisi di trend

Page 4: Analisi e sintesi di notizie da Twitter per real time web

DI COSA SI PARLA SU TWITTER?

Uno studio dell’estate 2009 ha mostrato che circa il 4% dei messaggi su Twitter parla

di notizie

Introduzione Il sistema Valutazione Conclusioni

Page 5: Analisi e sintesi di notizie da Twitter per real time web

GLI OBIETTIVI

Ogni tweet può essere arricchito includendo anche collegamenti ad immagini

Questo lavoro si concentra proprio sull’analisi dei messaggi contenenti immagini e riguardanti la discussione di notizie

L’obiettivo principale è quindi la progettazione e lo sviluppo di un sistema per l’analisi delle informazioni multimediali pubblicate su

Twitter ed il suo utilizzo per la sintesi di notizie

Introduzione Il sistema Valutazione Conclusioni

Page 6: Analisi e sintesi di notizie da Twitter per real time web

IL SISTEMA SVILUPPATO:VISIONE D’INSIEME

Introduzione Il sistema Valutazione Conclusioni

DB

Collezione dati

Recupero informazioni

Analisi e sintesi notizie

Query di ricerca

Page 7: Analisi e sintesi di notizie da Twitter per real time web

COLLEZIONE DEI DATI:PANORAMICA

Introduzione Il sistema Valutazione Conclusioni

Feed RSSTestate giornalistiche USA

EstrazioneKeyword

Keyword

Ricerca su Twitter

Tweet

EstrazioneKeyword

Testo Immagini

EstrazioneJCD

DB

EstrazioneHashtag

Disco

Reverse Geocoding

Page 8: Analisi e sintesi di notizie da Twitter per real time web

COLLEZIONE DEI DATI:DETTAGLI

Introduzione Il sistema Valutazione Conclusioni

Feed RSSTestate giornalistiche USA

EstrazioneKeyword

Keyword

Ricerca su Twitter

Tweet

EstrazioneKeyword

Testo Immagini

EstrazioneJCD

DB

EstrazioneHashtag

Disco

Reverse Geocoding

Generazione termini di ricerca

Si sfruttano i feed RSS di alcune testate giornalistiche

statunitensi

Ogni titolo di notizia viene processato attraverso la

tecnica della term extraction

Page 9: Analisi e sintesi di notizie da Twitter per real time web

COLLEZIONE DEI DATI:DETTAGLI

Introduzione Il sistema Valutazione Conclusioni

Feed RSSTestate giornalistiche USA

EstrazioneKeyword

Keyword

Ricerca su Twitter

Tweet

EstrazioneKeyword

Testo Immagini

EstrazioneJCD

DB

EstrazioneHashtag

Disco

Reverse Geocoding

Ricerca su Twitter

Si sfruttano le API di Twitter per ottenere tutti i messaggi che contengono:

• I termini estratti in precedenza (come

hashtag)•Collegamenti ad immagini

pubblicate su Twitpic e Tweetphoto

Page 10: Analisi e sintesi di notizie da Twitter per real time web

COLLEZIONE DEI DATI:DETTAGLI

Introduzione Il sistema Valutazione Conclusioni

Feed RSSTestate giornalistiche USA

EstrazioneKeyword

Keyword

Ricerca su Twitter

Tweet

EstrazioneKeyword

Testo Immagini

EstrazioneJCD

DB

EstrazioneHashtag

Disco

Reverse Geocoding

Salvataggio dati

• Ogni tweet viene processato attraverso la

term extraction• Se possibile si fa reverse

geocoding del tweet• Viene estratto un

descrittore multimediale globale (JCD) per ogni

immagine

Tutto ciò è salvato nel DB

Page 11: Analisi e sintesi di notizie da Twitter per real time web

RECUPERO DELLE INFORMAZIONI:PANORAMICA

Introduzione Il sistema Valutazione Conclusioni

Query

Clustering temporale

Clustering semantico

Clustering visuale

Tweet clusterizzati

Votazione tag Visualizzazione

DBRicerca full

text

Tag

Ricerca Notizie

Votazione Notizie

Notizie

Espansione Query

Tweet

Page 12: Analisi e sintesi di notizie da Twitter per real time web

RECUPERO DELLE INFORMAZIONI:DETTAGLI

Introduzione Il sistema Valutazione Conclusioni

Query

Clustering temporale

Clustering semantico

Clustering visuale

Tweet clusterizzati

Votazione tag Visualizzazione

DBRicerca full

text

Tag

Ricerca Notizie

Votazione Notizie

Notizie

Espansione Query

Tweet

Recupero dei tweet

L’utente inserisce una query, si recuperano dal DB tutti i tweet

che la contengono

Si espande la query sfruttando la conoscenza che è possibile

inferire dai titoli di notizie trovati in precedenza

Page 13: Analisi e sintesi di notizie da Twitter per real time web

RECUPERO DELLE INFORMAZIONI:DETTAGLI

Introduzione Il sistema Valutazione Conclusioni

Query

Clustering temporale

Clustering semantico

Clustering visuale

Tweet clusterizzati

Votazione tag Visualizzazione

DBRicerca full

text

Tag

Ricerca Notizie

Votazione Notizie

Notizie

Espansione Query

Tweet

Catena di clustering

Clustering temporale per ridurre la complessità computazionale ed

organizzare i dati

Clustering semantico e visuale per la propagazione di tag a gruppi di

immagini simili

L’algoritmo di clustering è k-medoids, la distanza semantica è

la distanza coseno

Page 14: Analisi e sintesi di notizie da Twitter per real time web

RECUPERO DELLE INFORMAZIONI:DETTAGLI

Introduzione Il sistema Valutazione Conclusioni

Query

Clustering temporale

Clustering semantico

Clustering visuale

Tweet clusterizzati

Votazione tag Visualizzazione

DBRicerca full

text

Tag

Ricerca Notizie

Votazione Notizie

Notizie

Espansione Query

Tweet

Votazione dei tag

I tag di ogni cluster vengono votati con un procedimento che tiene conto delle loro occorrenze

Si ottengono dei cluster di immagini con dei tag abbinati e un punteggio di rilevanza per

ognuno di essi

Page 15: Analisi e sintesi di notizie da Twitter per real time web

RECUPERO DELLE INFORMAZIONI:DETTAGLI

Introduzione Il sistema Valutazione Conclusioni

Query

Clustering temporale

Clustering semantico

Clustering visuale

Tweet clusterizzati

Votazione tag Visualizzazione

DBRicerca full

text

Tag

Ricerca Notizie

Votazione Notizie

Notizie

Espansione Query

Tweet

Abbinamento notizia-tweet

A partire dalla query vengono ricercate le notizie correlate

attraverso il servizio di Yahoo! News

Si cerca di valutare l’abbinamento tra ogni notizia ed i tweet dello

stesso periodo

La votazione sfrutta il modello TF-IDF per la distanza tra

documenti

Page 16: Analisi e sintesi di notizie da Twitter per real time web

RECUPERO DELLE INFORMAZIONI:DETTAGLI

Introduzione Il sistema Valutazione Conclusioni

Query

Clustering temporale

Clustering semantico

Clustering visuale

Tweet clusterizzati

Votazione tag Visualizzazione

DBRicerca full

text

Tag

Ricerca Notizie

Votazione Notizie

Notizie

Espansione Query

Tweet

Visualizzazione

I risultati sono presentati in una pagina HTML

Distribuzione geografica dei tweet in una mappa

Per ogni cluster temporale, sintesi attraverso l’approccio delle cloud:

News cloudTag cloud

Image cloud

Page 17: Analisi e sintesi di notizie da Twitter per real time web

VALUTAZIONE DEL SISTEMA:STATISTICHE

Introduzione Il sistema Valutazione Conclusioni

La collezione dei dati è stata effettuata durante vari periodi tra aprile 2010 e settembre 2010

le statistiche finali dei dati catturati sono le seguenti:

Statistica Valore NoteNumero di tweet nel database 78.320

Numero di tweet con geotagging 1437 1,8% del totale

Numero di retweet 30.571 39% del totale

Numero di immagini (con duplicati) 79.468 Circa 1 immagine per tweet

Numero di immagini (senza duplicati) 46.285 40% di immagini duplicate

Numero di notizie nel database 1755

Page 18: Analisi e sintesi di notizie da Twitter per real time web

VALUTAZIONE DEL SISTEMA:PUNTI CRITICI

Feed RSSTestate giornalistiche USA

EstrazioneKeyword

Keyword

Ricerca su Twitter

Tweet

EstrazioneKeyword

Testo Immagini

EstrazioneJCD

DB

EstrazioneHashtag

Disco

Reverse Geocoding

Query

Clustering temporale

Clustering semantico

Clustering visuale

Tweet clusterizzati

Votazione tag Visualizzazione

DBRicerca full

text

Tag

Ricerca Notizie

Votazione Notizie

Notizie

Espansione Query

Tweet

Introduzione Il sistema Valutazione Conclusioni

Page 19: Analisi e sintesi di notizie da Twitter per real time web

VALUTAZIONE DEL SISTEMA:PUNTI CRITICI

Feed RSSTestate giornalistiche USA

EstrazioneKeyword

Keyword

Ricerca su Twitter

Tweet

EstrazioneKeyword

Testo Immagini

EstrazioneJCD

DB

EstrazioneHashtag

Disco

Reverse Geocoding

Query

Clustering temporale

Clustering semantico

Clustering visuale

Tweet clusterizzati

Votazione tag Visualizzazione

DBRicerca full

text

Tag

Ricerca Notizie

Votazione Notizie

Notizie

Espansione Query

Tweet

Query

Clustering temporale

Clustering semantico

Clustering visuale

Tweet clusterizzati

Votazione tag Visualizzazione

DBRicerca full

text

Tag

Ricerca Notizie

Votazione Notizie

Notizie

Espansione Query

Tweet

Feed RSSTestate giornalistiche USA

EstrazioneKeyword

Keyword

Ricerca su Twitter

Tweet

EstrazioneKeyword

Testo Immagini

EstrazioneJCD

DB

EstrazioneHashtag

Disco

Reverse Geocoding

Introduzione Il sistema Valutazione Conclusioni

Page 20: Analisi e sintesi di notizie da Twitter per real time web

VALUTAZIONE DEL SISTEMA:PUNTI CRITICI

Introduzione Il sistema Valutazione Conclusioni

Sono stati effettuati vari esperimenti, calcolando:

Punteggio di pertinenza per i tweet trovati a partire da un titolo di notizia

Valutazione della qualità dei cluster secondo la metrica della purezza

Risultati intorno al 70% per entrambi

Page 21: Analisi e sintesi di notizie da Twitter per real time web

ESEMPI DI QUERY:OBAMA

Introduzione Il sistema Valutazione Conclusioni

Distribuzione dei tweet

Page 22: Analisi e sintesi di notizie da Twitter per real time web

ESEMPI DI QUERY:OBAMA

Introduzione Il sistema Valutazione Conclusioni

Obama parla della riforma finanziaria alla Cooper Union

Page 23: Analisi e sintesi di notizie da Twitter per real time web

ESEMPI DI QUERY:OBAMA

Introduzione Il sistema Valutazione Conclusioni

28 giugno 2010, il giorno successivo alla chiusura del g-20:News Cloud e Tag Cloud

Page 24: Analisi e sintesi di notizie da Twitter per real time web

ESEMPI DI QUERY:WORLD CUP

Introduzione Il sistema Valutazione Conclusioni

Distribuzione dei tweet

Page 25: Analisi e sintesi di notizie da Twitter per real time web

ESEMPI DI QUERY:WORLD CUP

Introduzione Il sistema Valutazione Conclusioni

Fase degli scontri diretti: si riconoscono chiaramente le squadre che si devono affrontare

Page 26: Analisi e sintesi di notizie da Twitter per real time web

CONCLUSIONI

Introduzione Il sistema Valutazione Conclusioni

E’ stato presentato un primo approccio all’analisi di informazioni multimediali aventi come fonte Twitter

Risultati soddisfacenti, margini di miglioramento nel lato di clustering con la definizione di nuove metriche e algoritmi

Interessante uno sviluppo come sistema per la rappresentazione grafica di concetti e della loro evoluzione nel tempo