Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion...

49
© Blogmeter 2014 I www.blogmeter.it Real-time discovery e sentiment analysis su Twitter: BlogmeterNow Vittorio Di Tomaso @BlogMeter [email protected] Milano, 28-29 novembre 2014

Transcript of Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion...

© Blogmeter 2014 I www.blogmeter.it

Real-time discovery e sentiment analysis su Twitter: BlogmeterNow !!Vittorio Di Tomaso!@BlogMeter!

[email protected]!

Milano, 28-29 novembre 2014

Blogmeter 2014 | www.blogmeter.it 2    

Leader in Italia nella social media intelligence!

500+ progetti realizzati

100+ clienti

3 sedi: Milano,

Roma e Torino Tecnologie d’avanguardia per la social intelligence!

4 miliardi post e interazioni

social misurate l’anno

20 mila topic di classificazione

configurati

7 mila profili aziendali social

analizzati giornalmente

15 mila entrate lessicali x

sentiment automatico

Chi siamo

Blogmeter 2014 | www.blogmeter.it 3    3!

ANALISI & REPORTING!Servizio di analisi e reportistica quali-quantitativa sulla reputazione online

e/o di tracking dell’efficacia delle campagne di marketing!

INFOGRAFICHE!Una sintesi grafica delle attività social

relative a una trasmissione tv o iniziativa di marketing!

Blogmeter Social Toolbox per l’analisi e la gestione dei social media!

Analisi dati e formazione!

ACADEMY!Formazione direzionale relativa

all’introduzione dei social in azienda, best practice da seguire, fino alla

strutturazione di !un’attività di monitoraggio!

Analizza la tua !reputazione !

sui social media!

Misura l’impatto delle!trasmissioni televisive !su Facebook e Twitter!

Analizza le performance!dei profili aziendali su!Facebook e Twitter.!

Gestisci il tuo social!customer care e crm!

Offerta

Blogmeter 2014 | www.blogmeter.it 4    

Agenda

COSA FACCIAMO! COME LO FACCIAMO!PERCHE’ LO FACCIAMO!

Blogmeter 2014 | www.blogmeter.it 5    

Cosa facciamo!

Blogmeter 2014 | www.blogmeter.it 6    

Analizziamo in real time conversazioni e interazioni sui media sociali!

Cosa facciamo

Ingestion! Content Analysis!

Sentiment Analysis! Indexing! Delivery!

Blogmeter 2014 | www.blogmeter.it 7    

Circa 25k “item” al minuto (post e interazioni) da tutte le fonti sociali, acquisiti 24x7 utilizzando scraper specifici,

API pubbliche e servizi commerciali!

Data Acquisition

Ingestion! Content Analysis!

Sentiment Analysis! Indexing! Delivery!

Blogmeter 2014 | www.blogmeter.it 8    

Analisi semantica (Ontology Based Natural Language Processing) per la classificazione dei documenti in

topic di interesse e per la sentiment analysis !!

[4k/minuto circa contengono testo]!

Data Analysis

Ingestion! Content Analysis!

Sentiment Analysis! Indexing! Delivery!

Blogmeter 2014 | www.blogmeter.it 9    

Utilizzo congiunto di tecnologie relazionali (PostreSQL) e non relazionali (Redis, Lucene) per lo

storage e l’indicizzazione dei documenti!

Indicizzazione

Ingestion! Content Analysis!

Sentiment Analysis! Indexing! Delivery!

Blogmeter 2014 | www.blogmeter.it 10    

Applicazioni di analisi dei dati, di discovery e di alerting!

Delivery

Ingestion! Content Analysis!

Sentiment Analysis! Indexing! Delivery!

Blogmeter 2014 | www.blogmeter.it 11    

Perché lo facciamo?!

Blogmeter 2014 | www.blogmeter.it 12    

Cos’è il Real Time Marketing?

«Il Real Time Marketing è un approccio al mercato che fa leva sulla capacità aziendale di rispondere tempestivamente ad eventi e stimoli esterni, siano

essi prevedibili o meno»!

Blogmeter 2014 | www.blogmeter.it 13    

Cos’è il Real Time Marketing?

Blogmeter 2014 | www.blogmeter.it 14    

Planned – Reactive (1/4): Geolocation

Blogmeter 2014 | www.blogmeter.it 15    

Planned – Reactive (2/4): Geolocation

Blogmeter 2014 | www.blogmeter.it 16    

Planned – Reactive (3/4): NFC/iBeacon

https://www.youtube.com/watch?v=3QFrZjvp2E0#t=28

Blogmeter 2014 | www.blogmeter.it 17    

Planned – Reactive (4/4): Predictive Analytics Software per prevedere un bisogno del consumatore, sulla base dell’analisi di dati relativi ai suoi comportamenti o a quelli di categorie similari di persone. !!

Blogmeter 2014 | www.blogmeter.it 18    

Planned - Proactive

Blogmeter 2014 | www.blogmeter.it 19    

Unplanned - Reactive

Blogmeter 2014 | www.blogmeter.it 20    

Unplanned - Reactive

Blogmeter 2014 | www.blogmeter.it 21    

Come prepararsi al!Real Time Marketing!

Blogmeter 2014 | www.blogmeter.it 22    

Il flusso: organizzazione e tool

Obiettivi e KPI RTM!

Preparare contenuti!

Definire i ruoli!

Definire i processi!

Prevedere il peggio!

Testare il Tool!

Live!

Tool!

Tool!

Tool!

Blogmeter 2014 | www.blogmeter.it 23    

Conversation Trend with sentiment!

Most Engaging

Tweets with sentiment &

emotions!

Conversation KPIs!

Most Mentioned

Hashtag!

Most mentioned Accounts!

All tweets!

BlogmeterNow abilita il monitoraggio costante e in tempo reale delle conversazioni online presenti su Twitter al fine di scoprire nuovi contenuti rilevanti, utili sia ai fini di protezione aziendale che per attività di real time marketing e communication.!

Blogmeter Now

Blogmeter 2014 | www.blogmeter.it 24    

Come lo facciamo!

Blogmeter 2014 | www.blogmeter.it 25    

Come lo facciamo

Normalization!Unique Indentifier!

Full Text Indexing!Semantic

Annotation Indexing!

Metadata Extraction!

Semantic Annotation!

Sentiment Analysis!

Language Detection!

1!Ingest!

2!Enrich!

3!Index!

User & Location!

Named Entities!

Topics!

Polarity!

Emotions!

Ontology Based Natural Language Processing

Components!

Blogmeter 2014 | www.blogmeter.it 26    

Come lo facciamo

Data Storage

Processing Layer

Business Layer

User Services

Security

Scheduling & Config

Kestrel

Physical Layer

•  300 core •  1.2T RAM •  29T Disk

Blogmeter 2014 | www.blogmeter.it 27    

Architettura semantica Processing layer

Analysis pipeline

Primary index

Risorse linguistiche

Metadata extractor

•  Item full text analyzer

•  Item • Metadata Linguist

analyzer Semantic Analyzer

Primary index

•  Item • Metadata •  Token

•  Item • Metadata •  Token • El. linguistici

•  Item • Metadata •  Token • El. Linguistici • Sentiment

(opinioni) • Classificazione

•  Vocabolario Morfologico • Gazetteer ( liste di nomi,

persone, sigle, etc…)

Configurazione del dominio di conoscenza (regole semantiche )

Regole di identificazione e isolamento dei token

Dipendono dalla lingua

Dipendono dalla lingua e dal dominio applicativo

Regole di estrazione dei metadati ( dipendenti dalla struttura dei dati in analisi)

Possibili configurazioni

Full text search

Intelligent search

Semantic search Metriche

Staging area

Blogmeter 2014 | www.blogmeter.it 28    

Cosa stiamo imparando!

Blogmeter 2014 | www.blogmeter.it 29    

Da una architettura di ingestion, analisi e delivery che aggiorna i dati nel corso delle 6/12 ore successive a una architettura di ingestion,

analisi e delivery real time!

Cosa stiamo imparando

Blogmeter 2014 | www.blogmeter.it 30    

La modifica architetturale non è stata indolore.!!

Analizzare linguaggio naturale è computazionalmente complesso, farlo in real

time lo è ancora di più!

Impatti

Blogmeter 2014 | www.blogmeter.it 31    

1.  Analisi diverse su ontologie di classificazione diverse!

2.  Non possiamo prevedere come un item dovrà essere classificato e con quale set di componenti linguistici (lessici, regole di sentiment, ontologie)!

3.  Lavoriamo su uno stream real time che non si ferma ad aspettarci…!

Perché complesso

Blogmeter 2014 | www.blogmeter.it 32    

1.  Evitare di fare due volte lo stesso lavoro (gli stream contengono molti item duplicati, non possiamo analizzarli più volte)!

2. Evitare di applicare processori computazionalmente complessi quando non sono richiesti!

Obiettivi

Blogmeter 2014 | www.blogmeter.it 33    

Abbiamo dedicato particolare attenzione a definire un approccio per limitare la quantità di

duplicati e per garantire una identificabilità univoca di tutti i documenti!

Soluzione: eliminare duplicati in maniera efficiente

Blogmeter 2014 | www.blogmeter.it 34    

       

Soluzione: eliminare duplicati in maniera efficiente

Stream  (API)  

Search  

Stream  (Provider)  

Dupicate  Detector  -­‐  Unique  ID  

Dupicate  Detector  -­‐  Unique  ID  

Analysis  

       

Analysis  

Storage  

Blogmeter 2014 | www.blogmeter.it 35    

Semantic routing su un’architettura in cui il flusso delle informazioni tra i processori può essere descritto

come un grafo aciclico direzionato!

Soluzione: routing intelligente dei documenti

Blogmeter 2014 | www.blogmeter.it 36    

Data Processing Network (esempio)

NLP auto_it

data stream lang lang reco

domain classifier

author

gender reco

loc reco

topic reco

lang NLP mood EN

NLP mood IT

NLP mood es

domain

NLP telco_it

NLP fashion_en

persister

NE Reco

Attivazione intelligente dei processori: si adatta

all’informazione disponibile azzerando il lavoro inutile!

Blogmeter 2014 | www.blogmeter.it 37    

Vantaggi e risultati raggiunti

Il lavoro su documenti duplicati è ridotto a 0, con conseguente risparmio di cicli di CPU e di spazio sullo storage  

La pipeline di analisi semantica si autoconfigura attivando il flusso giusto per classificare correttamente il documento a

seconda dell’obiettivo!

Il troughput è molto elevato e ci consente di catturare i picchi prevedibili (e anche molti non prevedibili)!

La scabilità orizzontale è garantita da un meccanismo che consente di deployare in maniera “semplice” nuovi nodi di

analisi!

Blogmeter 2014 | www.blogmeter.it 38    

Case studies!

Blogmeter 2014 | www.blogmeter.it 39    

VIRUS il contagio delle idee!Seconda edizione del talk show politico di RAI 2 condotto da Nicola Porro.!!Blogmeter Now!Durante la trasmissione Blogmeter Now rileva in tempo reale le conversazioni su Twitter relative alla trasmissione. In particolare: !•  i temi del dibattito!•  gli ospiti!•  i tweet più virali!•  l‘uso degli hashtag lanciati a inizio trasmissione per

schierarsi con uno degli ospiti (es: #haragionedemagistris #haragionesallusti)!

!Social Listening!Durante la settimana aiutiamo gli autori di VIRUS a comprendere le opinioni della rete sui temi della puntata:!•  volume delle conversazioni!•  sentiment sui politici!•  viralità dei messaggi!!

Virus – Rai 2

Blogmeter 2014 | www.blogmeter.it 40    

Italian MTV Awards 2014!L’evento live più importante di MTV Italia con la premiazione dei migliori artisti dell’anno!!Blogmeter Now!Durante la trasmissione Blogmeter Now è servito a: !•  Real Time Polling per individuare l’artista

più votato dal pubblico su Twitter (due categorie: Best Live Performance e Best Dance Crew) con un effetto diretto sullo show: dopo un minuto dalla votazione i vincitori sono stati premiati sul palco!

•  Monitoraggio in real time dei tweet dedicati all’evento per capire i momenti più caldi!

•  Raccolta di tutte informazioni necessarie a creare un’infografica utile per la successiva comunicazione esterna!

!!

Italia MTV Awards

Blogmeter 2014 | www.blogmeter.it 41    

!TIM Stadium!E’ il portale di TIM per vivere le partite della Serie A con il supporto di dati numerici. !Si tratta di dati che provengono sia dai campi di gioco (tiri, gol, tattica, ecc…) che dal web: questi ultimi sono forniti da Blogmeter Now.!!Blogmeter Now!Tutti i flussi di tweet relativi alle partite di calcio sono elaborati da Blogmeter Now. La delivery verso la piattaforma TIM Strudium è attraverso API. TIM Stadium che rende disponibili nella sua interfaccia:!•  i volumi di tweet!•  il sentiment (positivo/negativo) dei tweet!•  il flusso dei tweet!•  i tweet più retwittati!•  gli hashtag più usati!•  i profili Twitter più citati!

TIM Stadium

Blogmeter 2014 | www.blogmeter.it 42    

ProActive

PROtezione del territorio con infrAttrutture ICT avanzate, cittadinanza attiVa, e rEti sociali!

PROPONENTI!•  WebRatio - MPMI (coord)!•  Polimi - OdR!•  Cefriel - OdR!•  Vodafone - GI!•  Gulliver ! MPMI!•  Blogmeter - MPMI!•  Pipetech - MPMI!•  LSI-Lastem- MPMI!•  MM - Utilities!•  TEA - Utilities !

PA COINVOLTE!•  ARPA Lombardia !•  Protezione Civile!•  Comune di Bergamo, Milano, Como e Mantova (pending)!

Bando Smart Cities; !Programma Operativo Regionale (POR) per la Competitività; !Fondo europeo di sviluppo regionale (FESR).!!

AMBITO!a. Sostenibilità ambientale!

SETTORI !a.1 sicurezza del territorio!a.2 mobilità urbana!a.4 gestione risorse idriche !!

SPESE AMMISSIBILI!RI & SS 5.000.000,00 euro!

CONTRIBUTO BANDO SC !RI & SS 2.000.000,00 euro!

!

!!

Obiettivo: Comprendere in real-time come si muovono i cittadini nel territorio e ad individuare attraverso l'analisi dei contenuti che arrivano dalle rete sociali eventuali problemi!!!!

Blogmeter 2014 | www.blogmeter.it 43    

Un’ultima cosa: Eventi su Twitter!

Blogmeter 2014 | www.blogmeter.it 44    

Eventi su twitter

Abbiamo dati con sufficiente ampiezza e profondità

storica !Siamo in grado di studiare la

forma delle curve di conversazioni che possono nascere in relazione ad un

certo evento!

http://blog.wolframalpha.com/2013/06/10/using-formulas-for-everything-from-a-complex-analysis-class-to-political-cartoons-to-music-album-covers/

Blogmeter 2014 | www.blogmeter.it 45    

1.  A parità di volume, le serie temporali di post possono avere forme molto diverse, suggerendo atteggiamenti profondamente differenti da parte degli utenti Twitter.!

2.  Diversamente dal semplice conteggio dei volumi, l’analisi della forma ci fornisce delle misure più significative del fenomeno. !

3.  Oltre a essere un’analisi interessante, ci fornisce gli strumenti per il nostro capacity planning !

Che cosa ci dicono i dati?

Blogmeter 2014 | www.blogmeter.it 46    

9 ottobre!Post totali: 807k!Post negativi: 140k!Comportamento: picchi!

10 ottobre!Post totali: 863k!Post negativi: 147k!Comportamento: piatto!

15 novembre!Post totali: 751k!Post negativi: 116k!Comportamento: piatto!

16 novembre!Post totali: 738k!Post negativi: 128k!Comportamento: picchi!

Alluvione di Genova, andamento tweet

Blogmeter 2014 | www.blogmeter.it 47    

22  novembre:  Lazio  –  Juventus  (#)  

23  novembre:  Milan  –  Inter  (#)  

23  oEobre:  X  Factor  (#)  

22  novembre:  Che  Tempo  Che  Fa  (#)  

Diverse trasmissioni di intrattenimento

Blogmeter 2014 | www.blogmeter.it 48    

Serie di Tweet!

Uniformi! Picchi!

Notizie/aggiornamenti! Intrattentimento/episodi!

Maggiore coinvolgimento iniziale!

Coinvolgimento continuativo!

Recap: una tassonomia delle curve di reazione

Blogmeter 2014 | www.blogmeter.it 49    

+39 0249526400

[email protected]

www.blogmeter.it

Milano | Roma | Torino

Grazie per l’attenzione!

Aspettiamo i vostri CV!

Dal 2007 Blogmeter ha supportato 100+ aziende e agenzie nell'ascolto del web e nell'analisi delle performance sui social media, realizzando più di 500

progetti.

@Blogmeter facebook.com/Blogmeter Consulta le nostre ricerche Guarda le nostre infografiche