SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno...

111
SCUOLA DI INGE Corso di L ENGAGEMEN Me Relatore Prof.ssa Letizia Tanca Correlatore Ing. Emanuele Rabosio Politecnico di Milano EGNERIA INDUSTRIALE E DELL’INFO Laurea Magistrale in Ingegneria Inform TESI DI LAUREA MAGISTRALE NT E CONTENT CYCLE NEI SOCI etodologie di Analisi e Metriche Carlo A Anno Accademico 2014 – 2015 ORMAZIONE matica IAL MEDIA Candidato Alberto Maria Viola Matricola 817407

Transcript of SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno...

Page 1: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

SCUOLA DI INGEGNERIA INDUSTRIALE E DELL’INFORMAZIONECorso di Laurea Magistrale in Ingegneria Informatica

ENGAGEMENT E CONTENT

Metodologie di Analisi e Metriche

Relatore Prof.ssa Letizia Tanca

Correlatore Ing. Emanuele Rabosio

Politecnico di Milano INGEGNERIA INDUSTRIALE E DELL’INFORMAZIONE

Corso di Laurea Magistrale in Ingegneria Informatica

TESI DI LAUREA MAGISTRALE

ENGAGEMENT E CONTENT CYCLE NEI SOCIAL MEDIA

Metodologie di Analisi e Metriche

Carlo Alberto Maria Viola

Anno Accademico 2014 – 2015

INGEGNERIA INDUSTRIALE E DELL’INFORMAZIONE

Corso di Laurea Magistrale in Ingegneria Informatica

CYCLE NEI SOCIAL MEDIA

Candidato Carlo Alberto Maria Viola

Matricola 817407

Page 2: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

Ringraziamenti

Desidero ringraziare la Professoressa Letizia Tanca, la Professoressa Maristella Matera,

la Professoressa Elisa Quintarelli e l’Ingegner Emanuele Rabosio che mi hanno guidato

nella realizzazione di questa tesi. Ringrazio la Professoressa Cinzia Cappiello per i fondamentali suggerimenti e aiuti in

fase di ricerca e stesura.

Grazie alla Signora Paola Vee per aver proposto l’idea iniziale da cui scaturisce questo

lavoro e per avermi supportato con l’esperienza di dominio necessaria.

Ringrazio Alberto, Andrea, Giovanni, Luca P., Luca Ra., Luca Ru. e Tomas, amici e

compagni in questi anni di università.

Grazie ad Alessio, Carlo Filippo, Elia, Giacomo, James, Luca, Marco e Riccardo, amici e

compagni, assieme a molti altri, per le belle serate, week-end e viaggi passati insieme.

Grazie a tutti i miei amici non citati, a chi conosco più o meno bene, per avermi

sopportato in questi anni e in questo periodo.

Grazie, infine, ai miei genitori perché, senza di loro, non sarei mai arrivato fino a qui.

Politecnico di Milano, Dicembre 2015 C.V.

Page 3: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

La conoscenza esiste nella misura in cui è utile.

[F. Nietzsche]

Page 4: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

I

Sommario

Il lavoro di tesi propone, dapprima, una introduzione formale ai social network,

presentandone due dei più noti e utilizzati, evidenziandone similarità e differenze,

quindi, uno studio approfondito e un tentativo di formalizzazione delle metriche più

utilizzate in letteratura e nei tool commerciali ed innesta, definendole, nuove metriche

derivate per approfondire e dettagliare ulteriormente le possibili analisi dei social

media. Viene studiato il ciclo di vita di un post attraverso la variazione dei principali valori

delle metriche e, attraverso l’uso di tecniche di data mining, si propone una nuova

metodologia di analisi basata sulla scoperta ed osservazione di sequenze ricorrenti

all’interno dei post di una pagina.

Il lavoro, attraverso l’uso di vari esempi della applicazione dei nuovi strumenti

proposti, analizza i risultati e fornisce esempio delle osservazioni e considerazioni

possibili.

Parole chiave: Social Media Analysis, Social Network, Social Media Metrics, Social Metrics, Data

Mining, Engagement, Content Cycle, Liveliness, Facebook, Twitter

Page 5: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

II

Abstract

This work proposes, at first, a formal introduction to social networks, presenting two

of the best known and used ones, highlighting similarities and differences between

them, then, a deep study and an attempt to formalize metrics used commonly in

literature and in commercial tools and grafts, defining it, new derived metrics to

deepen and further detailing possible analysis on social media. It also studies post lifecycle through variation of the main metrics values and, through

the use of various data mining techniques, proposes a new method of analysis based

on the discovery and observation of recurring sequences within page posts.

This paper, through the use of various examples of the application of newly proposed

instruments, analyzes results and gives examples of comments and possible

considerations.

Keywords: Social Media Analysis, Social Networks, Social Media Metrics, Social Metrics, Data Mining,

Engagement, Content Cycle, Liveliness, Facebook, Twitter

Page 6: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

III

Indice

Introduzione ............................................................................................................ 1

Capitolo 1 - Stato dell’Arte ....................................................................................... 5

1.1 Introduzione .............................................................................................................. 5

1.2 Le Reti Sociali ............................................................................................................ 6

1.2.1 Cenni di teoria dei grafi per le reti sociali ................................................................................... 7

1.2.2 Metriche d’analisi per le reti sociali ............................................................................................ 9

1.3 I Social Network....................................................................................................... 11

1.3.1 Metriche d’analisi per i social network ..................................................................................... 13

1.3.2 I principali social network e le loro differenze .......................................................................... 14

1.3.2.a Facebook ............................................................................................................................................ 15

1.3.2.b Twitter ................................................................................................................................................ 20

1.4 Brand, Utenti Privati e Influencer ............................................................................. 24

1.4.1 Impatto degli influencer sul brand network ............................................................................. 25

1.4.2 Influencer e social network ....................................................................................................... 27

1.5 Conclusioni .............................................................................................................. 29

Capitolo 2 - Ottenere Dati e Informazioni dai Social Network ...................................30

2.1 Introduzione ............................................................................................................ 30

2.2 Scelta e Definizione dell’Input e dell’Output ............................................................. 31

2.3 Formato di Input ...................................................................................................... 31

2.3.1 Facebook: dati e metadati ........................................................................................................ 32

2.3.2 Twitter: dati e metadati ............................................................................................................ 34

2.4 Ottenere i Dati: API e Formati di Output ................................................................... 38

2.4.1 Le API di Facebook .................................................................................................................... 38

2.4.2 Le API di Twitter ........................................................................................................................ 40

2.4.3 JSON e i formati di output ......................................................................................................... 41

2.5 Workflow ................................................................................................................ 43

2.5.1 Download dei dati ..................................................................................................................... 44

2.5.2 Il processo di analisi .................................................................................................................. 44

2.6 Cenni sulla Data Quality ........................................................................................... 45

2.7 Conclusioni .............................................................................................................. 49

Page 7: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

IV

Capitolo 3 – Metodo di Analisi e Metriche Derivate .................................................50

3.1 Introduzione ............................................................................................................ 50

3.2 Applicazione delle Metriche Standard e Considerazioni ............................................ 51

3.3 Metriche Derivate .................................................................................................... 54

3.3.1 Average Engagement ................................................................................................................ 54

3.3.2 Speaking Range e RangeEngagement ....................................................................................... 55

3.3.3 Like, Comment e Share percentage .......................................................................................... 56

3.3.4 Scorporare l’engagement.......................................................................................................... 57

3.3.5 Variazioni dell’engagement ...................................................................................................... 59

3.3.6 Liveliness percentage ................................................................................................................ 60

3.3.7 Riassunto delle metriche presentate ........................................................................................ 61

3.4 Applicazioni ed Esempi sui Dati ................................................................................ 63

3.5 Post Lifecycle ........................................................................................................... 70

3.6 Conclusioni .............................................................................................................. 72

Capitolo 4 – Clustering e Sequential Pattern Discovery ............................................74

4.1 Introduzione ............................................................................................................ 74

4.2 Sequential Pattern Discovery ................................................................................... 75

4.2.1 L’algoritmo PrefixSpan .............................................................................................................. 76

4.3 Processo di Mining e Clustering dei Post ................................................................... 77

4.3.1 Ottenere i cluster ...................................................................................................................... 77

4.4 Applicazione del Mining ........................................................................................... 80

4.5 Conclusioni .............................................................................................................. 85

Conclusioni e Sviluppi Futuri ...................................................................................86

Appendice A – Implementazione e Script .................................................................90

A.1 Introduzione ........................................................................................................... 90

A.2 Script per Twitter .................................................................................................... 91

A.2.1 Page post download ................................................................................................................. 91

A.2.2 Keywords post download ......................................................................................................... 93

A.3 Script per Facebook ................................................................................................. 95

A.3.1 Page post download ................................................................................................................. 95

A.3.2 Engagement updater ................................................................................................................ 97

Bibliografia ........................................................................................................... 100

Page 8: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

V

Elenco delle figure

Figura 1 - Il social media prism (Solis, "Introducing the conversation prism"; 2008) ................................ 12

Figura 2 - Network e infleuncer ................................................................................................................. 26

Figura 3 – “The Source, the Spider and the Sun” ....................................................................................... 27

Figura 4 – Esempio di post su Facebook .................................................................................................... 32

Figura 5 - Esempio di Tweet ....................................................................................................................... 34

Figura 6 - "Map of a Twitter status object" (Raffi Krikoria; 2010) ............................................................. 37

Figura 7 - Esempio di output delle API di Facebook in JSON ..................................................................... 42

Figura 8 - Processo e social network platform ........................................................................................... 43

Figura 9 - Esempio di retweet da parte di bot (Milano Fashion Week 2014) ............................................ 47

Figura 10 - Mentions Network del dataset Milano Fashion Week 2014 e individuazione di bot .............. 48

Figura 11 - Post "Luisa Via Roma" (Settembre 2015) ................................................................................. 51

Figura 12 - CCycle e Lifespan ..................................................................................................................... 61

Figura 13 - Variazione engagement 09/2015 "Luisa Via Roma" ................................................................ 65

Figura 14 - Variazione Polarized vs Deep 09/2015 "Luisa Via Roma" ........................................................ 66

Figura 15 - Variazione content cycle 09/2015 "Luisa Via Roma" ............................................................... 67

Figura 16 - Variazione Liveliness% 09/2015 "Luisa Via Roma" .................................................................. 68

Figura 17 - Variazione engagement 08/2015 "Luisa Via Roma" ................................................................ 68

Figura 18 - Post d'esempio per l'osservazione del lifecycle ....................................................................... 70

Figura 19 - Iterazioni per il calcolo del lifecycle ......................................................................................... 71

Figura 20 - Grafico d'esempio di Post Lifecycle ......................................................................................... 71

Figura 21 - Esempio di input per PrefixSpan .............................................................................................. 76

Figura 22 - Esempio di output per PrefixSpan ........................................................................................... 76

Figura 23 - Processo principale di Mining .................................................................................................. 78

Figura 24 - Sottoprocesso del Document Processor .................................................................................. 78

Figura 25 - TF-IDF ....................................................................................................................................... 79

Figura 26 – Cluster ..................................................................................................................................... 80

Figura 27 - Cluster Model........................................................................................................................... 81

Figura 28 - Input PrefixSpan "Luisa Via Roma" .......................................................................................... 83

Figura 29 - Output 0.6 PrefixSpan "Luisa Via Roma" ................................................................................. 84

Figura 30 - Output 0.4 PrefixSpan "Luisa Via Roma" ................................................................................. 84

Page 9: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

VI

Elenco delle tabelle

Tabella 1 - Classificazione secondo Network Size e Cohesion ................................................................... 26

Tabella 2 - Dati di un post su Facebook ..................................................................................................... 32

Tabella 3 - Metadati di un post su Facebook ............................................................................................. 33

Tabella 4 - Dati di un tweet ........................................................................................................................ 34

Tabella 5 - Metadati di un tweet ............................................................................................................... 35

Tabella 6- Metriche .................................................................................................................................... 61

Tabella 7 - Valori metriche "Luisa Via Roma" ............................................................................................ 63

Page 10: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

VII

Elenco dei codici

Codice 1 - Twitter page post download ..................................................................................................... 92

Codice 2 - Twitter keywords post download ............................................................................................. 94

Codice 3 - Facebook page post download ................................................................................................. 96

Codice 4 - Facebook engagement updater ................................................................................................ 98

Page 11: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

1

Introduzione

Questa tesi è nata dalla necessità di studiare a fondo l’ambito della Social Media

Analysis per arrivare a definire nuove possibili metodologie di analisi che migliorassero

le tecniche già esistenti e di arrivare a definire metodologie e approcci differenti. Questo lavoro è nato come fondamento di un progetto il cui scopo è quello di

realizzare dei tool per l’analisi dei social media maggiormente utilizzati quali Facebook,

Twitter e Instagram in modo innovativo sia dal punto di vista metodologico che dal

punto di vista dei risultati.

L’input iniziale ha riguardato il mondo della moda e i network correlati ad essa.

Grazie alla presenza di una esperta di dominio, è stato possibile definire dei requisiti

base per il tool e quindi per le metodologie di analisi.

Le aziende di moda, che già si appoggiano a servizi di analisi del parlato sui social

media, hanno posto come requisito primario una maggiore chiarezza e profondità

nelle analisi e statistiche fatte sulle pagine social di loro competenza e sulle pagine

concorrenti, lamentandosi della pochezza di informazioni presenti nei report, sulle

quali venivano fatte le considerazioni del caso.

La necessità di nuove metodologie di analisi automatica, che esulassero dal semplice

uso di statistiche secche; la semplicità di lettura dei report per permettere, anche in

ambienti non avvezzi, l’estrapolazione del massimo numero di informazioni possibili

sono stati altri requisiti espressi dalle aziende.

La ricerca effettuata sui servizi di analisi presenti sul mercato ha evidenziato la poca

profondità di analisi e i pochi dettagli forniti nei report aziendali, ciò va a inficiare di

molto la possibilità e la correttezza delle considerazioni effettuabili su quei dati.

La necessità di unificare e formalizzare i metodi di analisi e le metriche presenti sia in

letteratura, sia su portali di servizi e blog divulgativi, è da subito risultata

Page 12: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

2

fondamentale, per meglio capire il contesto nel quale ci si andava a muovere e quali

novità poter apportare.

Il primo passo è quindi stato quello di cercare di formalizzare le metriche già usate dai

più disparati servizi, confrontarle e osservarne pro, contro e differenze fondamentali.

Successivamente si sono cercati nuovi approcci atti a migliorare e dettagliare le

informazioni ottenibili con una analisi a metriche base.

Il passo successivo è stato quello di definire una metodologia di studio generale

applicabile ad ogni pagina in esame, partendo dalla definizione dei dati che si possono

ottenere fino all’analisi dell’evoluzione delle principali metriche lungo la totalità della

pagina e secondo una logica temporale.

Il passo finale del lavoro di tesi è consistito nel ricercare nuove metodologie di analisi

più profonde che permettessero, con approcci diversi, una sorta di validazione dei

risultati ottenuti in precedenza e al contempo la scoperta di nuove possibili interazioni

e osservazioni utili alla azienda.

In questa ottica si è approfondito il ruolo che può avere l’utilizzo di strumenti di data

mining per la definizione di classi di oggetti simili e la scoperta di sottosequenze simili,

che compaiono con frequenza rilevante all’interno dell’oggetto in esame.

In definitiva, il lavoro di tesi propone, dapprima, una introduzione formale ai social

network, presentandone due dei più noti e utilizzati ed evidenziandone similarità e

differenze, quindi, uno studio approfondito e un tentativo di formalizzazione delle

metriche più utilizzate in letteratura e nei tool commerciali ed innesta, definendole,

nuove metriche derivate per approfondire e dettagliare ulteriormente le possibili

analisi dei social media.

Viene studiato il ciclo di vita di un post attraverso la variazione dei principali valori

delle metriche e, attraverso l’uso di tecniche di data mining, viene proposta, inoltre,

Page 13: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

3

una nuova metodologia di analisi basata sulla scoperta e osservazione di sequenze

ricorrenti all’interno dei post di una pagina.

Tutti i risultati teorici e pratici definiti ed espressi durante lo svolgimento di questo

lavoro si sono rivelati di carattere generale e quindi facilmente applicabili ad altri

ambiti presenti sui social media.

Il mondo del fashion, quindi, è stato principalmente un input che, grazie anche alla

presenza di un esperto del dominio, ha permesso di giungere a tali conclusioni in

maniera rapida e chiara.

Il lavoro di tesi è strutturato come segue.

Il Capitolo 1 presenta una rassegna dei concetti base di rete sociale e social network,

andando ad estrapolarne le differenze e le somiglianze che portano l’uno ad essere

considerato predecessore dell’altro; presenta i principali social network che saranno

esame dello studio e presenta le metriche base utilizzate in letteratura e dai principali

servizi di Social Media Analysis.

Il Capitolo 2 approfondisce ulteriormente l’ambito dei social network andando a

presentare le strutture dati essenziali con le quali si lavorerà nel prosieguo; presenta

inoltre, in breve, le API e descrive un processo generale di estrazione delle

informazioni dalle pagine in esame.

Il Capitolo 3 introduce, in modo teorico e con alcuni esempi pratici, le nuove metriche

studiate e derivate, dopo aver tratto le dovute considerazioni sulle metriche standard;

presenta la metodologia e un risultato esemplificativo dell’analisi del ciclo di vita di un

post in accordo con le sue metriche principali e, in generale, mostra quali tipi di

considerazioni è possibile fare con i nuovi e i vecchi dati a disposizione.

Page 14: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

4

Il Capitolo 4 illustra una metodologia che sfrutta strumenti tipici del data mining per

ottenere cluster e scoprire pattern ricorrenti nella sequenza di post di una pagina.

Infine troviamo un breve riassunto delle conclusioni del lavoro e un cenno ai possibili

futuri sviluppi.

In Appendice si trovano illustrati brevemente gli script prodotti durante il lavoro di tesi

che permettono il download delle informazioni dalle piattaforme social e

l’archiviazione in apposite strutture dati.

Page 15: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

5

Capitolo 1

Stato dell’Arte

1.1 Introduzione

In questo primo capitolo si cerca di delineare in generale l’ambiente di lavoro dei social

network, per avere ben chiaro in quale ambito andremo poi a muoverci e come e cosa

si possa analizzare ed investigare in tale contesto.

Nel paragrafo 1.2 si presenta il concetto di rete sociale come precursore degli attuali

social network, lo si introduce in modo formale seguendo la teoria dei grafi e si

presentano le metriche fondamentali per valutare una rete di questo tipo.

Nel paragrafo 1.3 si presenta il concetto centrale di social network, le differenze

rispetto alle reti sociali, le metriche d’analisi dell’engagement e del content cycle,

fondamentali in questo contesto, e si presentano più nel dettaglio due esempi di social

network: Facebook e Twitter, caratterizzandoli e presentandone similitudine e

differenze nell’uso e nelle possibili analisi.

Infine nel paragrafo 1.4 si presentano dei concetti tipici dei social network che

serviranno per capire meglio i metodi di analisi e i relativi risultati.

Page 16: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

6

1.2 Le Reti Sociali

Le reti sociali possono essere facilmente ed intuitivamente definite[1] come un qualsiasi

gruppo di individui connessi fra loro da diversi legami di tipo sociale. Nel caso di

individui umani questi legami spaziano dalla semplice conoscenza a dinamiche più

complesse quali rapporti di lavoro, gerarchie o vincoli di parentela.

In passato, le reti sociali, di stampo semplice sono state lungamente studiate sia in

ambito prettamente umanistico (sociologia, antropologia ed etologia) sia in ambito

scientifico/economico per trovare spiegazione a vari fenomeni “di gruppo”.

A livello matematico le reti sociali possono essere ridotte a dei grafi che, in maniera

semplice, ne permettono la visualizzazione e l’analisi metodologica.

Da un punto di vista di contesto possiamo osservare come lo studio delle relazioni che

intercorrono tra i vari individui in una rete permette di conoscere e prevedere

determinati comportamenti della rete stessa, ma anche dei singoli individui che la

compongono.

Lo sviluppo[2] del campo di studio nelle reti sociali ebbe inizio solo negli anni Trenta del

‘900 in modo indipendente tra vari gruppi di ricerca.

Risalgono al 1934 i primi tentativi di approccio matematico e sistematico a questi

problemi da parte di J. L. Moreno, il quale riuscì ad operazionalizzare una rete creando

un sistema di rappresentazione basato su nodi e collegamenti tra essi.

Successivamente possiamo distinguere due linee di approccio distinte sia dalle

metodologie sia dagli scopi.

La prima con sede presso l’Università di Harvard focalizzava i suoi sforzi sullo studio di

pattern ricorrenti tra gruppi di persone; di fatto adottò un approccio socio centrico

(Chung, Hossain, & Davies; 2005).

La seconda di stampo britannico (Università di Manchester) guidata da un gruppo di

antropologi si focalizzava maggiormente sui pattern del singolo individuo all’interno

del gruppo, da qui l’approccio egocentrico.

Page 17: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

7

Questi studi proseguirono ininterrottamente, con pochi risultati tangibili, fino all’inizio

degli anni ’50 quando si pensò di applicare una maggior formalizzazione attraverso

l’uso della teoria dei grafi.

Un importante punto di svolta in questo senso fu l’adozione di relazioni direzionali che

permettevano una complessità di rappresentazione maggiore sia delle reti sia delle

relazioni e di conseguenza risultati più convincenti e utili.

Nel 1967, con ormai una metodologia formalizzata, Milgram arrivò a definire il famoso

concetto di six degrees of separation (Milgram; 1967) con cui tentava di dimostrare

l’idea di quello che definì small world phenomenom. Milgram grazie ad un approccio

empirico supportò la sua tesi con una enorme quantità di dati sulle relazioni sociali che

allora intercorrevano negli Stati Uniti d’America, arrivando a osservare una massima

distanza di sei legami tra due nodi distinti della rete, di fatto un qualsiasi cittadino

americano conosceva l’allora presidente Lyndon B. Johnson tramite amici di amici

(seguendo un massimo di sei legami). Questo studio all’apparenza dal poco interesse

scientifico si rivelò e ancora si rivela una pietra miliare nella teoria delle reti sociali per

diversi motivi primo fra tutti l’incredibile mole di dati analizzata e la metodologia

sistematica adottata.

Oggi la teoria delle reti sociali è largamente utilizzata per studiare l’influenza che una

struttura o sovrastruttura ha su un gruppo di individui, principalmente osservando

gerarchie lavorative.

1.2.1 Cenni di teoria dei grafi per le reti sociali

Come si è accennato in precedenza, per poter essere facilmente analizzate, le reti

sociali vengono ridotte[3] a dei grafi composti da nodi o agenti che hanno relazioni gli

uni con gli altri.

Page 18: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

8

Dato un insieme finito U di elementi

� = {��, ��, … , �}

e un numero finito di relazioni R (che possono rappresentare le più disparate forme di

relazione: amicizia, gerarchia aziendale, etc …):

�� ⊆ ���

con

� = 1,2, … , �

Si può definire rete sociale N la n-upla composta dall’insieme finito di elementi U e da

(n-1) relazioni fra essi:

� = (�, ��, ��, … , ��)

Una rete così definita può essere rappresentata in due modi:

1. tramite una matrice binaria �� = [���]�, detta matrice di adiacenza, dove

per ogni relazione R:

��� = �1�������0!"#�$%�&#$'

in cui gli archi ��� possono essere pesati, di norma con un numero reale che

indica la forza del legame tra �� e ��

2. tramite una lista dei vicini che specifica, per ciascun nodo, la lista degli altri nodi

a cui è relazionato

Page 19: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

9

Si può ora introdurre una piccola nomenclatura per i principali tipi di rete che si

possono incontrare in letteratura:

a. rete non direzionata: la relazione R è simmetrica, ovvero tutti gli archi non

hanno direzione specifica [es. matrimonio, amicizia]

b. rete direzionata: la relazione R è non simmetrica, tutti gli archi hanno una

direzione [es. relazione di paternità]

c. rete mista: nella stessa rete troviamo archi direzionati e non, tipico dei grafi con

relazioni multiple ma connesse per lo scopo [es. genealogia]

d. rete a due modi (bimodale): formata da due insiemi di unità, spesso definiti

come attore ed evento e una relazione che connette i due insiemi [es.

appartenenza ad una classe]

1.2.2 Metriche d’analisi per le reti sociali

Negli anni si sono sviluppate varie metriche per lo studio e l’analisi delle reti sociali[3],

qui si vogliono riassumere le principali usate in letteratura per descrivere le

caratteristiche di una rete nella sua interezza.

Dimensione della rete

La dimensione della rete è il parametro più semplice da calcolare, anche se uno dei più

importanti, dato che permette una valutazione dell’importanza della rete e della sua

complessità (basti pensare all’importanza della Network Size nell’Economia delle Reti

per stabilire il raggiungimento di massa critica o meno).

Si ottiene semplicemente contando il numero di nodi (agenti) presenti nella rete:

($)�(�) = |�|

Page 20: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

10

Metriche di coesione

In una rete non è detto che tutti gli attori siano legati fra loro, la densità misura

proprio questo aspetto: il rapporto tra il numero di legami effettivamente esistenti

nella rete e quello massimo

+�&�$#,(�) = 2"&(& − 1)

dove " rappresenta il numero di legami presenti.

Questo parametro permette l’analisi della coesione degli attori nella rete e quindi di

quanto velocemente le informazioni (o eventuali nuovi legami) possano distribuirsi.

Una rete molto densa presenta, difatti, un alto numero di legami tra i suoi membri che,

di conseguenza, potranno raggiungere facilmente ciascun altro nodo del grafo

permettendo così una più veloce ed efficiente diffusione delle informazioni.

Una variante di questa metrica è la sparsità:

(.!��$#,(�) = 1 − 2"&(& − 1)

La sparsità è molto utilizzata per analizzare sottoreti di reti di cui non si hanno

abbastanza dati di studio, soprattutto in processi di costruzione della rete partendo da

un suo sottoinsieme.

Page 21: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

11

1.3 I Social Network Online

Un social network o servizio di rete sociale è definibile[4], come un servizio sul Web che

permette agli utenti di:

• creare un profilo pubblico o semi-pubblico in un sistema limitato

• articolare una lista di altri utenti con la quale condividere una connessione

• visualizzare e navigare tra le liste di connessioni degli altri utenti attraverso il

sistema

Attualmente questa definizione potrebbe sembrare riduttiva, per ciò che noi

comunemente chiamiamo social network, o addirittura errata (la tutela della privacy

ha cambiato radicalmente l’ultimo punto).

Però resta la definizione migliore che possiamo dare all’idea stessa di network sociale

online.

In una rete sociale ogni utente crea un proprio profilo, inizia a stabilire connessioni con

altri utenti e interagisce con loro nel sistema.

La rete risulta chiusa poiché necessita di registrazione e ciò incentiva l’appartenenza

degli utenti alla stessa, poiché essi sanno che le informazioni condivise all’interno di

essa saranno visibili solo all’interno della stessa o addirittura solo da utenti connessi

tramite serie di legami.

L’utente viene quindi stimolato ad usufruire di entrambe le attività disponibili sul

network:

• la produzione di contenuto, attraverso l’editing del proprio profilo

• il consumo di contenuto generato dagli altri nodi del network

Page 22: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

12

Qui si nota la prima differenza sostanziale tra rete sociale e social network, nelle reti

sociali il contenuto poteva provenire sia dalla stessa rete sia dall’esterno, mentre nei

social network la produzione e distribuzione del contenuto è lasciata totalmente nelle

mani degli agenti del network stesso.

Questa piccola, ma abissale, differenza ha permesso una diversa crescita e un diverso

sviluppo dei social network tanto da distinguerli quasi totalmente dai suoi antenati

offline.

Le comunità, termine spesso adottato in questo ambito, si auto-mantengono e

crescono a ritmi vertiginosi, tanto che la forza delle relazioni online è bassissima,

spesso un grado di separazione passa dal significare parentela o amicizia stretta al

significare apprezzamento o “conoscenza” casuale.

Nell’universo dei social network, inoltre, si possono distinguere[5] varie tipologie di

modello di interazione e di conseguenza varie tipologie di comunità dipendenti

principalmente da interessi comuni tra utenti e sistema (se amo la fotografia utilizzerò

principalmente Flickr, se amo la musica prediligerò MySpace) e da azioni permesse agli

utenti che porteranno a distinzioni nelle possibili analisi e quindi nei risultati.

Figura 1 - Il social media prism (Solis, "Introducing the conversation prism"; 2008)

Page 23: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

13

I social network sono fonti molto ricche di dati riguardanti i singoli individui, le

comunità e i comportamenti e pattern di entrambi, ma soprattutto sono fonti

interessanti di dati per brand e aziende dei più vari settori, dall’industriale al

manifatturiero, sino ai servizi.

Negli ultimi anni, sempre più aziende e brand puntano sui social come focus principale

delle loro strategie di marketing.

Questo perché, in maniera rapida e semplice, si può ottenere una distribuzione

uniforme della campagna e delle informazioni e soprattutto perché in maniera rapida

si può verificare il ritorno in termini di varie metriche semplici all’interno dello stesso

network.

Avere un utente che si mette in relazione con il brand, significa molto dal punto di vista

delle analisi di marketing perché permette immediatamente di capire le intenzioni

stesse dell’utente verso quel dato brand e di polarizzare meglio le prossime campagne

concentrandosi su interessi comuni al proprio pool di legami.

1.3.1 Metriche di analisi per i social network

Precedentemente, parlando di reti sociali si erano introdotte alcune metriche per

studiare l’interezza di esse.

Spostandosi nel mondo dei social network[6], però, si possono introdurre due nuove

semplici metriche che vanno a utilizzare e sfruttare le peculiarità che queste comunità

online ci offrono.

Queste metriche, seppur generali, non sono applicabili ad ogni servizio di rete poiché

questi sono fortemente differenti tra loro per le possibilità che offrono agli utenti a

livello di produzione e interazione e non vi è alcun modo di formalizzare e modellare

un’unica rappresentazione.

Di seguito verranno analizzate le principali metriche presenti in letteratura, senza

specificare le formule di calcolo, cosa che avverrà successivamente, quando esse

saranno considerate in relazione al social network preso in oggetto.

Page 24: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

14

Engagement

Con il termine engagement (coinvolgimento ne è la migliore traduzione) si intende una

metrica, cioè un valore, che può essere calcolato a vari livelli di granularità all’interno

di un profilo utente, sia esso brand o private.

La granularità base è quella del singolo post per il quale si rappresenta quanto sia

coinvolgente e abbia creato interesse.

In generale, si può dire che più l’engagement è elevato più quel singolo post è

apprezzato, discusso e visto dagli utenti e da più utenti.

L’engagement può essere anche, con maggiore utilità, calcolato a livello di pagina, per

capire quanto un dato profilo sia coinvolgente valutando l’insieme dei suoi contenuti.

Content Cycle

La metrica del content cycle (spesso chiamato awareness span) si calcola a livello del

singolo post o di un singolo argomento/contesto e dà l’idea di quanto quel contenuto

sia ancora vivo, in voga.

Più il valore è alto più il contenuto è rimasto vivo, apprezzato e/o discusso a lungo.

1.3.2 I principali social network e le loro differenze

Nel campo dei social network non si ha la possibilità di formalizzazione e

rappresentazione formale che si aveva nelle reti sociali, quindi è necessario studiare

approcci e metriche diversi in base al social che si andrà ad analizzare o ad un

sovragruppo che lo comprende.

Di seguito è possibile vedere una breve descrizione e differenziazione dei principali

social attualmente utilizzati; per le classi generali di appartenenza, ci si rifà alla

distinzione data da Solis nel suo famoso contributo[6].

Page 25: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

15

1.3.2.a Facebook

Facebook viene lanciato nel 2004[4], fondato da Mark Zuckerberg all’Università di

Harvard, era originariamente pensato solo per gli studenti di tale università, ma viene

successivamente aperto anche ad altri utenti raggiungendo immediatamente un

enorme successo; attualmente conta più di 1 miliardo di utenti attivi.

Facebook può essere classificato come un social network per life & content stream.

Si accede al sito semplicemente creando un proprio profilo con varie possibilità di

editing delle informazioni.

Le principali funzionalità della piattaforma sono:

• la news-feed, un aggregatore di contenuti e aggiornamenti propri e degli amici

• la possibilità di aggiungere amici (creare una relazione bidirezionale tra utenti)

• seguire un profilo (creare una reazione unidirezionale)

• pubblicare nuovi contenuti (praticamente tutti i tipi di media, dal testo ai video)

che appariranno nel nostro news-feed e in quello degli amici e delle persone

che ci seguono

• lasciare un “like” ad un contenuto che troviamo nel news-feed, generalmente

per indicare apprezzamento

• commentare un contenuto o rispondere ad un altro commento, creando una

discussione sotto il contenuto

• “taggare” un amico in un post in modo che ci sia certezza che venga visto da lui

oltre che da tutti i nostri amici

• condividere un contenuto in modo che sia visibile sulla news-feed di chi si ha

come amico o si segue (di fatto, trasporta informazioni lungo il collegamento)

• ricercare altri utenti tramite ricerche anche complesse

• mandare messaggi privati a pagine e/o altri utenti

• funzionalità avanzate quali chiamate vocali e videochiamate, marketplace, etc…

Page 26: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

16

Come si può notare Facebook più che un social sembra un servizio Web completo di

tutto, difatti la complessità risiede proprio nell’infinità di azioni che un utente può

compiere.

Ma di questa moltitudine di fatto si possono considerare solo le tre principali

funzionalità: like, comment e share, poiché già questo ristretto sottoinsieme permette

di effettuare analisi molto promettenti e utili.

Fin da subito Facebook ha permesso la creazione di profili anche da parte di brand e

aziende.

Questi profili (con cui l’utente privato ha pochi modi di interfacciarsi: public post sulla

pagina e like alla stessa) vengono chiamati fanpage e ad oggi rappresentano quasi il

30% dei profili di Facebook.

Ciò apre diversi livelli di indagine utili a livello di marketing e di analisi dei flussi verso

queste aziende.

Nel contesto di Facebook le metriche precedentemente presentate[5] possono essere

definite nel seguente modo.

Engagement

Si parte considerando la granularità minima: a livello di singolo post.

Il miglior modo per definire l’engagement[7] è una semplice somma dei tre parametri

numerici individuati come importanti.

/0�#1&2!2�%�&#(.)= &�%3��04"$5��(.) + &�%3��0470%%�&#�(.)+ &�%3��04�ℎ!���(.)

Page 27: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

17

Il conto, alquanto banale, ci dà subito l’idea di quanto il dato post (contenuto) . sia

coinvolgente, sommando i vari aspetti che sono usati su Facebook per mostrare

interesse (positivo o negativo).

Salendo di granularità si arriva alla pagina nella sua interezza.

Qui le metriche si basano sulla somma degli engagement della totalità dei post e

abbiamo tre opzioni distinte in letteratura.

a. Simple Engagement

($%."�1&2!2�%�&# = ∑ /0�#1&2!2�%�&#(.):∈:<=>?0#!"@!&3!��

(dove ?0#!"@!&3!�� indica il numero totali dei fan della pagina o di amicizie del profilo)

Il più immediato dei tre metodi pesa la totalità dell’engagement sulla

numerosità di fan della pagina.

Il risultato ci dice quanto ogni fan contribuisce all’engagement totale della

pagina.

Ha il vantaggio di essere molto scalabile, in quanto si può restringere la

sommatoria ai post di un determinato periodo temporale.

Presenta lo svantaggio che utilizzando come peso la totalità di fan potrebbe

sovrastimare certi post che in realtà non hanno raggiunto la totalità della

fanbase in termini di visualizzazioni (soprattutto non tiene in considerazione le

visualizzazioni di contenuti multimediali se non sono seguite da un’azione

diretta sul post che li ha generati).

b. Speaking Engagement

(.�!51&2!2�%�&# = .�0."�#!"5$&2!30�##ℎ�.!2�?0#!"@!&3!��

Page 28: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

18

Non considera il PostEngagement ma basa l’analisi su una metrica built-in di

Facebook people talking about the page (PTAT) che misura quante

visualizzazioni totali hanno i contenuti della pagina.

Questa metrica presenta lo svantaggio di sottostimare l’impatto di un post dato

che un singolo contenuto potrebbe aver ricevuto visualizzazioni tramite lo

news-feed di un utente terzo dopo una condivisione e PTAT non tiene conto di

ciò.

c. Reach Engagement

��!7ℎ1&2!2�%�&# = .�0."�#!"5$&2!30�##ℎ�.!2�!A��!2�#0#!"��!7ℎ40�#ℎ�#$%�

(dove il denominatore indica il numero medio di visualizzazioni della pagina in un dato

intervallo temporale)

La metrica più complessa, utilizza ancora la built-in PTAT e la pesa sulla media

delle visualizzazioni dei contenuti per un dato periodo di tempo.

Ha il vantaggio di non sovra o sottostimare il risultato utilizzando una media,

ma presenta lo svantaggio di utilizzare un aggregato che non sempre è

disponibile e corretto, costringendo la riduzione del periodo di osservazione a

singole giornate o comunque brevi lassi temporali.

Content Cycle

Per quanto riguarda il content cycle[8], come si è accennato si parla del solo livello di

granularità del singolo post e in definitiva si tratta semplicemente di scegliere in che

modo calcolare la “vita” di un post, di stabilire, quindi, il tipo di evento (like, comment,

share) con il quale si vuole verificare questa vivacità.

Page 29: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

19

In generale il cycle di un contenuto è calcolato come differenza tra la data dell’evento

scelto come parametro e la data di pubblicazione del post, più questa differenza tende

a 0 più il contenuto è risultato vivo per poco tempo secondo quel parametro.

a. Like Cycle

BC,7"�(.) = B!�#B$5�?$%�(.) − /�3"$�ℎ?$%�(.)

Misura la vitalità di un post in base al tempo trascorso tra la pubblicazione e

l’ultimo like ricevuto, metrica semplice che utilizza l’azione più semplice che un

utente può compiere su un post e proprio per questo risulta essere spesso

fuorviante e troppo soggetta a cambi repentini.

b. Comment Cycle

CC,7"�(.) = B!�#C0%%�&#?$%�(.) − /�3"$�ℎ?$%�(.)

Misura la vitalità di un post in base al tempo trascorso tra la pubblicazione del

post e l’ultimo commento ricevuto.

Vi sono due varianti principali, la prima prende in considerazione qualunque

grado di commento, la seconda considera esclusivamente i commenti di primo

livello o “nuovi” (che non comprendono risposte annidate).

Entrambe le varianti permettono, sicuramente, una più accurata stima della

vitalità del contenuto, andando ad utilizzare il parametro più complesso dal

punto di vista dell’utente e perciò meno soggetto a variazioni repentine ed

inaspettate.

Page 30: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

20

c. Share Cycle

(C,7"�(.) = B!�#(ℎ!��?$%�(.) − /�3"$�ℎ?$%�(.)

Sfrutta lo Share, il parametro più “social” dei tre, pesando il cycle sull’ultima

condivisione effettuata del post in oggetto.

Purtroppo, pur sembrando il parametro più adatto, risulta essere il parametro

più difficile da utilizzare poiché non vi è controllo sul tipo di condivisione che

viene effettuata, in pratica utilizzando il LastShareTime(p) si otterrà la data

dell’ultimo share diretto, senza contare annidamenti oltre la pagina d’origine e

quindi perdendo tutta la potenza dell’azione in oggetto come mezzo che

favorisce la “vitalità” dei contenuti.

1.3.2.b Twitter

Twitter viene lanciato nel 2006[4] da una società californiana, originariamente pensato

come servizio di messaggistica stile SMS tra comunità ristrette di utenti, viene poi

ampliato in un vero servizio web e social.

Attualmente ha raggiunto il nuovo record di 360 milioni di utenti attivi al mese, di cui

l’80% via mobile.

Twitter può essere classificato come un servizio di Microblogging, forma di

pubblicazione costante di piccoli messaggi multimediali e non su internet, ma presenta

aspetti talmente particolari da essersi ritagliato un proprio spicchio nel prisma di

classificazione, infatti sul Web troviamo infiniti servizi plug-in relativi al solo mondo di

Twitter e alle sue peculiarità.

Le principali funzioni fornite sono:

• lo stream-feed, aggregatore di contenuti (tweet) degli utenti che noi seguiamo

• la possibilità di seguire altri utenti (una relazione unidirezionale) e di essere

seguiti

Page 31: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

21

• creare tweet di lunghezza massima pari a 140 caratteri (120 nel caso di

presenza di link o foto) e condividerli con gli utenti che ci seguono

• mettere un “favorito” ad un tweet come apprezzamento (aggiungere il tweet ai

nostri preferiti, una collezione dei tweet che troviamo interessanti e che

abbiamo deciso di conservare)

• condividere un tweet, anche aggiungendo nuove parole (retweet - RT)

• replicare ad un tweet o ad un’altra replica

• utilizzare degli hashtag (#) seguiti da parole che descrivano un contesto e

associno il nostro tweet con un trend

• ricercare e visualizzare tutti i tweet di un trend e/o altri utenti con ricerca

semplice

• mandare messaggi privati ad altri utenti

Le funzionalità sono molte, ma tutte molto intuitive e semplici da usare e capire.

Tutto ciò ha permesso un ampio sviluppo del servizio attraverso dispositivi mobili e ha

dettato la prerogativa di utilizzo di Twitter come piattaforma di microblogging.

Anche Twitter ha permesso la creazione di pagine da parte di aziende o brand, esse

sono pagine normali ma sottoposte a validazione da parte del sito.

Passiamo a presentare le possibili metriche specifiche per Twitter[6][9].

Engagement

Anche in Twitter questa metrica risulta definita a diversi livelli di granularità, a partire

dal singolo post fino all’engagement totale della pagina.

La formula del PostEngagement risulta pressoché identica.

/0�#1&2!2�%�&#(.)= &�%3��04��#D��#(.) + &�%3��04���.0&��(.)+ 4!A0��$#�70�&#(.)

Page 32: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

22

A livello invece di pagina le cose iniziano a cambiare, principalmente a causa della

relativa scarsità di informazioni che Twitter fornisce sulle pagine nella loro interezza.

a. Follow Engagement

Di fatto l’unico peso che può essere dato al nostro engagement è il numero di

followers e following che la nostra pagina ha.

Si distinguono quindi tre pesi differenti e tre metriche simili, ma utili in

circostanze diverse (indicando con P la pagina di interesse)

i. Total-follow Engagement

?@1&2!2�%�&# = ∑ /0�#1&2!2�%�&#(.):∈:<=>@0""0D���(/) + @0""0D$&2(/)

La metrica più immediata delle tre, ma non per questo la più corretta in

ogni circostanza; pesa l’engagement totale della pagina sul numero

totale di connessioni che la pagina ha stabilito sia in entrata (followers)

sia in uscita (following).

Considerando solo Twitter, questa metrica non dà una idea precisa del

valore totale, però risulta utile nei raffronti tra più social.

Soprattutto rende facile la comparazione con Facebook e la metrica del

Simple Engagement.

ii. Followers Engagement

@0""0D���1&2!2�%�&# = ∑ /0�#1&2!2�%�&#(.):∈:<=>@0""0D���(/)

Page 33: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

23

Esprime in modo chiaro la “forza” della pagina stessa, dato che prende

come peso il numero dei suoi seguaci (followers), però l’engagement

proveniente dall’esterno viene perso e sottovalutato.

iii. Following Engagement

@0""0D$&21&2!2�%�&# = ∑ /0�#1&2!2�%�&#(.):∈:<=>@0""0D$&2(/)

Metrica poco intuitiva, in quanto pesa l’engagement toale della pagina

sul numero di connessioni in uscita che essa ha stabilito.

Pur essendo utile in alcune osservazioni è difatto non molto utilizzata

senza il supporto delle precedenti.

Content Cycle

Anche per il content cycle si possono trovare molte similarità con Facebook, ma anche

alcune piccole differenze nei parametri di calcolo[9].

È possibile fare un parallelo like/favourite, comment/response, share/retweet, ma è

possibile limitarsi a riportare l’unica metrica utilizzata per rappresentare la vitalità di

un post su Twitter, calcolata considerando i retweet del post.

• Retweet Cycle

�?C,7"� = B!�#��#D��#?$%�(.) − /�3"$�ℎ?$%�(.)

Come si può vedere la formula è speculare a quella dello Share Cycle, ma

utilizza come parametro il retweet, cioè la condivisione del post p sui feed dei

profili nostri seguaci.

Page 34: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

24

È una metrica semplice che non considera la direzione della connessione e

considera inoltre, anche, i RT dati dall’essere presenti in un trend hashtag, cioè

un hashtag che guida un trend di discussione tra più utenti, cosa di vitale

importanza su questa piattaforma.

Il Favourite Cycle e il Response Cycle non vengono utilizzati, in quanto

sottostimerebbero di molto il valore effettivo di awareness.

1.4 Brand, Utenti Privati e Influencer

Dopo aver presentato genericamente il mondo delle reti sociali online, è necessario

approfondire quale ruolo gli utenti e i brand assumono in questo universo, i loro ruoli

di interconnessione e le loro dinamiche.

Iniziamo col dire che l’utilizzo dei social network da parte dei brand è indirizzato verso

il marketing e la brand promotion, mentre l’utente privato utilizza il social come mezzo

principalmente di svago, ma spesso (sempre di più) questi due mondi collidono

generando connessioni e dinamiche interessanti.

Spesso e volentieri utenti privati, rinomati e conosciuti entrano a far parte di un sub-

network di qualche brand e ne diventano volontari o involontari portavoce,

influenzando a loro volta altri utenti privati, allestendo, così, una sorta di pubblicità

tramite passaparola.

Questi soggetti, chiamati influencer, oggigiorno hanno un ruolo di importanza vitale

per i brand sui social, riportando informazioni e pubblicità all’esterno del network

originario e importando opinioni e nuovi utenti dall’esterno.

Il concetto di influence e le sue implicazioni sono state in passato oggetto di studio

approfondito da parte di sociologi ed esperti di comunicazione, basti pensare a delle

Page 35: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

25

elezioni politiche e alle dinamiche che si sviluppano nei vari talk show con opinioni

contrastanti su varie idee ed ipotesi e di come queste opinioni di fatto guidino la scelta

del semplice votante all’interno del seggio elettorale.

Nel 1962 uno studio di Rogers[10] affermò che una minoranza di individui, nota come

influencer, è dotata di un’elevata capacità di persuasione nei confronti degli altri nelle

decisioni di scelta. Queste teorie affermano che, attraverso l’individuazione di questo

specifico e ben definito gruppo di singoli, è possibile raggiungere, proprio grazie al

word-of-mouth (passaparola), una reazione a catena su larga scala, contraddistinta da

un’elevata efficienza e da un costo molto basso[11].

Nel 1998 la Burson-Masteller e la Roper Starch Worldwide, due aziende leader

nell’opinion marketing, coniarono il termine e-fluentials per rappresentare meglio

come la teoria degli influencer impatti nell’era del Web e più tardi con l’avvento del

web 2.0 o social web l’importanza di ciò è diventata centrale e ormai cardine

dell’interazione Brand - utente finale su Internet.

1.4.1 Impatto degli influencer sul brand network

Si può analizzare dal punto di vista formale come gli influencer riescano ad

incrementare la forza di un network[12] e quindi in ultima analisi riescano ad

incrementarne dimensioni e qualità (fanbase ed engagement se vogliamo vedere ciò

applicato al caso Facebook).

Si provi a guardare ad un influencer come ad un singolo nodo della rete che mette in

connessione due network precedentemente distinti[13].

Il network A, cioè il nostro brand-network e il network B cioè un network formato da

utenti privati e/o altri brand.

Page 36: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

26

L’unione dei due network avverrà solo se le connessioni saranno forti, cioè non basterà

un singolo utente privato nel nostro network che conosce un altro singolo utente

nell’altro a formare l’unione, bensì servirà un nodo con molte connessioni in entrata e

in uscita.

Un influencer può tecnicamente essere visto in questo modo e come si intuisce

qualsiasi brand del network A è fortemente interessato ad entrare anche nel network

B per ampliare il suo bacino di connessioni (utenza/fanbase).

Per formalizzare meglio questo concetto è utile riferirsi alle due metriche (dimensione

del network e coesione) che erano state presentate ad inizio capitolo e distinguere i

tre attori principali:

• brand

• utente privato

• influencer

Classificando questi tre attori lungo le due direttive della dimensione del network

corrispondente e della coesione del network si ottiene la seguente tabella.

dimensione network coesione network

brand piccola/media alta

utente privato Piccola media

influencer alta/molto alta media/alta

Tabella 1 - Classificazione secondo Network Size e Cohesion

network A

network B influencer

Figura 2 - Network e infleuncer

Page 37: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

27

Rifacendosi alla tassonomia dei tipi di utenti in rete data da Forrester nel 2009[14] è

possibile associare al brand la caratteristica di Source, cioè fonte delle informazioni che

mostra autorevolezza su una determinata area tematica e all’influencer (e

genericamente anche all’utente privato) le altre due tassonomie di Spider, nodo

connesso attraverso una rete estesa su più livelli e di Sun, alto numero di connessioni

di primo livello.

Figura 3 – “The Source, the Spider and the Sun”

In definitiva si può dire che l’aggiunta di un nodo influencer ad un brand network ne

favorisce notevolmente l’espansione, andando a creare connessioni con utenti privati

prima non raggiungibili.

1.4.2 Influencer e social network

Ora che la posizione e la funzione degli influencer è stata chiarita, è necessario capire

come, nel mondo dei social network, si formino queste dinamiche e connessioni[15].

Forrester, oltre ad averci fornito una tassonomia efficiente, ha posto alcune

interessanti considerazioni di base su come “funziona” il ruolo degli influencer sui

social network (principalmente Facebook, ma facilmente estendibile ad altri).

Di seguito si prova a riassumerle e rielaborarle attualizzandole brevemente.

� sono presenti un brand E, un influencer F e una serie di utenti privati �/�

Page 38: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

28

� E ha una pagina e dunque un network A, pubblica un post . menzionando

(taggando) F (che può o meno aver messo “mi piace “ o seguire la pagina del

brand)

� F ha una pagina (privata o fanpage) e dunque un network B.

� se la pagina di F è una fanpage, il post . verrà visualizzato sia dai fan della

pagina del brand, sia dai fan della pagina dell’influencer.

� se la pagina dell’influencer è privata gli basterà mettere un “like”, commentare

o addirittura condividere il post per permettere a tutto il suo network di

vederlo

� una serie di utenti privati visualizzerà il post e deciderà di mettere “mi piace”

alla pagina di provenienza, cioè alla pagina del brand e di entrare di fatto nel

network A

Come si può vedere ancora una volta, l’influencer si comporta da nodo centrale tra i

due network e permette la diffusione del contenuto in entrambi, permettendo, in

ultima analisi, l’espansione del network A.

Il punto focale della serie di eventi qui sopra esposta sta nel modo in cui e per cui

l’utente finale decide di dare credito al post e diventare fan della pagina brand.

Questo avviene poiché tramite la condivisione o il like da parte dell’influencer vi è una

“trasmissione di autorevolezza” (ancora una volta possiamo parlare di passaparola) tra

la fonte e l’influencer, cioè l’utente finale vede la condivisione del post da parte

dell’influencer come un dimostrare e rafforzare l’autorevolezza della fonte e quindi

sarà maggiormente portato a connettersi con il brand.

Questo fenomeno è noto come Authority Diffusion o Spreading[10] e ancora una volta

getta le sue basi nelle scienze sociali e delle comunicazioni.

Page 39: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

29

1.5 Conclusioni

In questo capitolo è stato presentato un breve excursus della letteratura disponibile, di

come vengono presentati e di come possono essere studiati i social network,

studiandone prima i modelli precursori e presentando e caratterizzando degli esempi.

I concetti presentati sono molto generici e coprono una ampia area di ricerca teorica

tutt’oggi in forte crescita, poiché divenuta fondamentale in molti ambiti tecnologici e

sociali.

Le nozioni presentate qui serviranno per il prosieguo della trattazione e saranno il

punto di partenza per le considerazioni, le evoluzioni e la discussione che segue.

Page 40: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

30

Capitolo 2

Ottenere Dati e Informazioni dai Social

2.1 Introduzione

In questo capitolo si presenta brevemente e a livello “astratto” un modello di processo

che permetta di estrarre le informazioni necessarie alle analisi direttamente dai social

network in studio.

Nel paragrafo 2.2 viene data una idea generale di quali caratteristiche debba avere il

processo di estrazione dei dati e di quali dati ci si aspetta in input ed output.

Nel paragrafo 2.3 si analizzano a fondo i dati in input definendoli secondo un modello a

due livelli composto da dati visibili e metadati e ciò verrà caratterizzato per i due social

network presi precedentemente in esame.

Nel paragrafo 2.4 si presentano le API, le interfacce per poter accedere e archiviare i

dati di nostro interesse presenti sulle piattaforme social e si definiscono le

caratteristiche generali e il formato dei dati che si otterranno come output.

Nel paragrafo 2.5 si presenta il processo di workflow a livello astratto, con la coesione

di tutti gli elementi definiti precedentemente, che porrà la base per la successiva

trattazione.

Nel paragrafo 2.6, infine, viene presa in analisi la qualità dei dati ottenuti tramite

questo processo, vengono presentate le problematiche tipiche legate alla data quality

nei social network e viene data una classificazione di esse.

Page 41: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

31

2.2 Scelta e Definizione dell’Input e dell’Output

A livello astratto si possono definire quali caratteristiche si vogliano avere nei dati

prima e dopo il processo di elaborazione.

L’input, nel nostro caso, è rappresentato dai post o dai tweet delle piattaforme social,

mentre l’output sarà rappresentato da questi dati in formati ottimali per analisi e

archiviazione.

2.3 Formato di Input

Per poter applicare le metriche ed analizzare i dati derivati dai social network[16]

occorre innanzitutto trovare un modo per ottenere questi dati ed occorre definire un

processo chiaro e facilmente ripetibile attraverso la conoscenza dei dati in input e la

definizione del formato dell’output.

Si parte col definire in modo univoco in che modo Facebook e Twitter elaborino ed

archivino i dati dei propri post.

Entrambi i social network utilizzano per i propri post una struttura che identifica due

diverse parti fondamentali: i dati e i metadati.

I dati sono le informazioni del post o di un profilo visibili all’utente tramite l’interfaccia

grafica del social network, esse sono anche le informazioni su cui un utente può

effettivamente e consapevolmente intervenire modificandole.

I metadati a differenza sono le informazioni del post o di un profilo non visibili

all’utente, ma reperibili tramite precise richieste alle API.

Page 42: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

32

La distinzione tra queste due entità non è spesso semplice da fare soprattutto perché i

principali Social non utilizzano un formato univoco né per la visualizzazione dei post,

né per la loro archiviazione, ciò sfocia nell’avere diversi formati e metadati nei diversi

social network disponibili.

2.3.1 Facebook: dati e metadati

Analizzando un singolo post di Facebook si possono estrapolare le informazioni

effettivamente visualizzabili dall’utente e quindi formare il set dei dati che vengono

forniti[17].

Figura 4 – Esempio di post su Facebook

Facendo uso di un esempio, è possibile riassumerli come segue.

POST

Autore del Post Jasper’s Market

Contenuto testo e foto

Like numero di like e dettagli sui like

Commenti numero di commenti e dettagli sui commenti

Condivisioni numero di condivisioni

Tabella 2 - Dati di un post su Facebook

Page 43: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

33

Questi cinque punti rappresentano la totalità delle informazioni che qualsiasi utente

vede guardando il post ma Facebook per poterlo elaborare ha bisogno di maggiori

informazioni e necessita di un modo per poter archiviare il tutto e qui subentrano i

metadati.

Scomponendo i punti precedenti per metadati(Tabella 3), è possibile subito notare

l’elevato numero di campi che compongono i metadati di un post, si è passati da soli

cinque campi a ventitré campi di primo livello, poiché molti di essi contengono svariati

sottocampi come nel caso delle informazioni sull’autore dove vengono riportati

user_ID, userpage_Link, username.

La maggioranza di queste informazioni è di interesse estremamente limitato a

particolari applicazioni o analisi, mentre per i nostri interessi è possibile ridursi

all’utilizzo dei soli metadati fondamentali.

POST

post_ID identificativo univoco del post

post_link URL del post

admin_creator informazioni sull’autore del post

app da quale tipo di dispositivo è stato pubblicato

il post

created_time data di creazione del post

intra-link_description descrizione del link eventualmente presente

(reperito in automatico)

feed-targeting indicazioni per i feed RSS e i gruppi

publish_time data di pubblicazione del post

from utente di provenienza del post (usato per i

tagging post e le condivisioni mirate)

hidden “true” se il post è non visibile

link serie di link presenti nel post

message messaggio testuale del post

message_tags informazioni sulle menzioni del post

entity-properties utilizzato in caso di video

shares numero di condivisioni e informazioni su di

esse

likes numero di like e informazioni su di essi

Page 44: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

comments

to

type

updated_time

picture

place

privacy_settings

Tabella 3 - Metadati di un post su Facebook

2.3.2 Twitter: dati e metadati

Osservando un tweet d’esempio è possibile scoprire come Twitter distingua

metadati[18].

Anche qui si riassumono

TWEET

Autore del tweet

Contenuto

Retweet

Favoriti

Tabella 4 - Dati di un tweet

numero di commenti e informazioni su di essi

utente a cui è indirizzato il post (usato per i

tagging post e le condivisioni mirate)

tipo di post (video, photo, text, …)

data di ultima modifica del post

foto allegata al post

luogo di pubblicazione del post

indicazioni per la privacy del post

Metadati di un post su Facebook

2.3.2 Twitter: dati e metadati

Osservando un tweet d’esempio è possibile scoprire come Twitter distingua

Figura 5 - Esempio di Tweet

si riassumono brevemente le informazioni più rilevanti:

Rockstar Games

testo

numero di retweet e retweet

numero di favoriti e favoriti

34

numero di commenti e informazioni su di essi

utente a cui è indirizzato il post (usato per i

tagging post e le condivisioni mirate)

(video, photo, text, …)

data di ultima modifica del post

luogo di pubblicazione del post

indicazioni per la privacy del post

Osservando un tweet d’esempio è possibile scoprire come Twitter distingua tra dati e

e retweet

numero di favoriti e favoriti

Page 45: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

35

Questi punti come prima sono, di fatto, tutto ciò che l’utente vede e che può

attivamente influenzare, ma Twitter elabora e archivia il tutto secondo un diverso

formato.

Scomponendo il tutto secondo i metadati (Tabella 5) si ottiene.

TWEET

contributors informazioni sui possibili coautori del

tweet

coordinates coordinate del luogo di pubblicazione del

post

created_at data di pubblicazione del post

entities hashtags hashtag usati nel tweet

URLs link presenti nel tweet

user_mentions utenti menzionati nel tweet

favourite_count numero di favoriti

favorited “true” se l’autore ha messo favorito al

tweet

ID ID del tweet

ID_str ID del tweet in formato stringa

in_reply_to_screen_name screen_name dell’utente al quale è

indirizzato il tweet

in_reply_to_status_ID status_ID del tweet al quale è indirizzato

il nostro tweet di risposta

in_reply_to_status_ID_str

status_ID (in formato stringa) del tweet al

quale è indirizzato il nostro tweet di

risposta

in_reply_to_status_user_ID user_ID dell’utente al quale è indirizzato

il nostro tweet di risposta

in_reply_to_status_user_ID_str

user_ID (in formato stringa) dell’utente al

quale è indirizzato il nostro tweet di

risposta

lang lingua del tweet

place Informazioni sui luoghi menzionati nel

tweet

possibly_sensitive “true” se il link contenuto nel tweet

conduce a contenuto di tipo sensibile

quoted_status_ID status_ID del tweet quotato

quoted_status_ID_str status_ID (in formato stringa) del tweet

quotato

Page 46: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

36

quoted_status tweet quotato

scopes Informazioni riguardo gruppi e feed RSS

retweet_count Numero di retweet

retweeted “true” se l’autore ha retweettato il tweet

source da quale tipo di dispositivo è stato

pubblicato il post

text messaggio testuale del post

truncated “true” se il messaggio è stato troncato a

140 caratteri (solo da mobile)

user Informazioni sull’autore del tweet Tabella 5 - Metadati di un tweet

Ancor più di prima si può notare come vi sia un’esplosione di campi nel passaggio ai

metadati, basti pensare che un tweet completo dei suoi metadati occupa circa il 140%

in più rispetto alla semplice archiviazione dei suoi 140 caratteri.

Un altro aspetto interessante sta nel notare come il formato dei metadata di Twitter

sia in continua evoluzione ancora oggi, possiamo vedere come effettivamente si

presentava un tweet nel 2010.

Page 47: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

37

Figura 6 - "Map of a Twitter status object" (Raffi Krikoria; 2010)

Nel 2016 è previsto un ulteriore aggiornamento del formato con l’introduzione delle

annotations, una versione rinnovata delle entities che raggrupperà più campi di

informazione.

Page 48: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

38

2.4 Ottenere i Dati: API e Formati di Output

Dopo aver distinto e definito i macroformati occorre capire come poter ottenere i dati

dalle due piattaforme e in che formato archiviarle per poi poterle elaborare al meglio.

Per poter scaricare i dati e i metadati e, in definitiva, le informazioni che occorrono è

necessario stabilire una connessione con il social network di interesse; per fare ciò

vengono messe a disposizione delle API (Application Programming Interface) ufficiali.

Queste API possono essere utilizzate per interfacciarsi in svariati modi con la

piattaforma, nel nostro caso torneranno utili per richiedere informazioni e dati.

Entrambi i siti per la distribuzione hanno adottato una politica di tipo shareware, la

maggioranza delle funzionalità non prevede abbonamenti o pagamenti, ma vengono

poste varie limitazioni sul tempo di utilizzo e connessione.

Di seguito vengono riassunte brevemente le principali somiglianze e differenze nelle

due API e nelle principali funzioni che offrono per i nostri scopi.

2.4.1 Le API di Facebook

Nel 2007 Facebook ha rilasciato gradualmente vari componenti della propria

piattaforma sotto il termine-ombrello di Facebook Platform[17]

.

I componenti di alto livello in cui si può scomporre la piattaforma lasciano libera scelta

nei gradi di integrazione e di utilizzo della stessa e sono:

• Graph API

il core della Facebook Platform, permette agli sviluppatori di leggere e

scrivere dati e informazioni, manipolare gli oggetti quali profili, contenuti e

pagine e le connessioni tra essi

Page 49: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

39

• Authentication

il sistema di autenticazione permette di mantenere diversi livelli di accesso

alle API e alle sue informazioni

• Social plugins

funzioni semplici che permettono di visualizzare informazioni e attività base

(like, comment, share, …) su siti di terze parti in modo da aumentare

l’esperienza social del sito di destinazione, sono implementate

appositamente in modo da non inviare alcun dato sensibile senza

autenticazione

• Open Graph protocol

funzioni avanzate simili a dei plugins che permettono però una maggiore

integrazione delle pagine e dei siti andando a formare il così detto social

graph

• Iframes

funzioni avanzate che permettono ad applicazioni terze di essere utilizzate

tramite la piattaforma di Facebook durante una normale sessione utente (ne

sono un esempio gli svariati giochi presenti su Facebook)

• Facebook Connect (Log in with Facebook)

sistema di autenticazione per applicazione che utilizza le credenziali di un

profile Facebook

• Microformats

svariati formati di output proprietari per utilizzo esterno di informazioni

provenienti dal social network

Tecnicamente le API di Facebook, come la maggior parte delle API dei servizi web

moderni, sono di tipo RESTful, in cui un client comunica con uno o più server tramite

semplici funzioni GET/POST utilizzando il protocollo HTTP.

Altra particolarità della piattaforma risiede nell’utilizzo del Facebook Query Language

(FQL) un ibrido SQL che permette di interrogare in maniera semplice e veloce la

piattaforma.

Page 50: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

40

Attualmente non più supportato come linguaggio a sé stante (molte sue funzioni sono

state integrate nelle Graph API), FQL forma il nocciolo duro delle API di Facebook e

definisce il tipo di dati che le varie funzioni ricevono in input e danno in output e

permette la fruizione delle informazioni all’utente finale in formato JSON.

Per poter ottenere i dati che ci occorrono verranno utilizzate principalmente le Graph

API con vari metodi di tipo GET, che restituiranno delle informazioni in formato JSON e

la piattaforma di Authentication tramite protocollo OpenID che utilizza quattro campi

univoci o token (User Access Token, App Access Token, Page Access Token, Client

Token) per identificare un’applicazione o un utente che si deve interfacciare con

Facebook.

La connessione ha una durata limitata e, una volta conclusasi, l’accesso viene

interrotto e bloccato.

Questa è di fatto l’unica limitazione che Facebook pone nell’utilizzo delle sue API,

limitazione che si può facilmente superare nel caso di utilizzo commerciale delle API.

2.4.2 Le API di Twitter

Fin dalla nascita di Twitter la compagnia ha deciso di pubblicare delle API[18] per poter

permettere una maggiore diffusione del social tramite applicazioni terze,

gradualmente molte funzionalità sono state limitate o del tutto abbandonate a causa

di problemi di privacy con le informazioni sensibili degli utenti.

Ad oggi, similarmente a Facebook, anche Twitter offre diversi livelli e tipologie di API in

modo da permettere con il minimo sforzo la fruizione dei contenuti voluti; si

distinguono due macro-categorie:

• REST APIs

• Streaming APIs

Page 51: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

41

La prima categoria racchiude le funzionalità classiche delle API per un servizio web e,

come si può dedurre dal nome, anche esse sono di tipo RESTful come in precedenza, a

differenza della controparte però non permettono una totale integrazione real-time e

soffrono di pesanti limitazioni sulla quantità di dati in download.

La seconda categoria racchiude funzionalità per monitorare e processare i tweet in

real-time permettendo il continuo download e di conseguenza un più accurato

monitoraggio dei trend tipici di questo social network; chiaramente vi sono pesanti

limitazioni per quanto riguarda la pubblicazione di contenuti tramite questa categoria

di API.

Per i nostri scopi utilizzeremo le REST API poiché le nostre analisi non richiedono

elaborazioni e monitoraggio real-time.

Come in precedenza, anche Twitter richiede un metodo di autenticazione per poter

usufruire dei servizi e delle funzionalità delle API che in questo caso avviene attraverso

OAuth, un protocollo open che permette l’autenticazione sicura tramite svariate

piattaforme e sfrutta anche esso quattro token univoci (Consumer Key, Consumer

Secret, Access Token, Access Token Secret).

Le REST API come è stato detto sono di tipo REST e quindi utilizzano anch’esse metodi

GET/POST tramite semplice protocollo HTTP e, come in precedenza, restituiscono dati

in formato JSON.

2.4.3 JSON e i formati di output

Come si è visto entrambe le API danno come output dei loro metodi GET dei file in

formato JSON, acronimo di JavaScript Object Notation, formato open nato proprio per

l’interscambio di dati fra applicazioni client-server.

Page 52: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

42

JSON utilizza uno standard a coppie attributo-valore e sta rapidamente sostituendo

XML come formato di interscambio dati sul web.

Figura 7 - Esempio di output delle API di Facebook in JSON

I tipi di dati supportati da questo formato sono:

• booleani

• interi, reali e virgola mobile

• stringhe

• array

• array associativi

Un numero esiguo che non permette una piena rappresentazione di tutte le

informazioni che possiamo ottenere tramite le API, per ovviare a ciò molti campi di

tipo complesso finiscono per essere archiviati come di tipo stringa o array e ciò pur

rendendo semplice la loro lettura, non rende immediata l’elaborazione automatica e

l’analisi, quindi il processo richiederà un’ulteriore rielaborazione per ottenere uno o

più formati finali di facile utilizzo.

Questi formati sono di solito di tipo relazionale (SQL, SQLite) o non relazionale

orientato ai documenti (NoSQL come MongoDB).

Page 53: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

2.5 Workflow

Ora che si dispone di maggi

meglio, in linea generale

sia possibile attuare, in seguito

Il grafico presenta in modo sistematico e schematico i vari passaggi, in questo caso non

sono più ben distinguibil

poiché si è usciti dal singolo contesto di processo di elaborazione e si è voluto

mostrare l’interezza del processo e degli attori che portano alle analisi finali.

È possibile, infatti, distinguere gli attori principali di ques

Analisi) e gli attori meno visibili (

presenti in modo diretto,

piattaforma social tramite le API.

maggiori informazioni sui dati che occorrono,

in linea generale, un workflow che permetta di arrivare a dei dataset sui quali

in seguito, le nostre analisi.

Figura 8 - Processo e social network platform

ico presenta in modo sistematico e schematico i vari passaggi, in questo caso non

più ben distinguibili l’input e l’output che erano stati individuati

poiché si è usciti dal singolo contesto di processo di elaborazione e si è voluto

mostrare l’interezza del processo e degli attori che portano alle analisi finali.

distinguere gli attori principali di questo processo (API,

gli attori meno visibili (social network e metadati), che pur non essendo

diretto, vengono rappresentati dall’interfaccia esposta dalla

piattaforma social tramite le API.

43

è possibile definire

permetta di arrivare a dei dataset sui quali

ico presenta in modo sistematico e schematico i vari passaggi, in questo caso non

erano stati individuati a inizio capitolo

poiché si è usciti dal singolo contesto di processo di elaborazione e si è voluto

mostrare l’interezza del processo e degli attori che portano alle analisi finali.

o (API, Download, e

), che pur non essendo

vengono rappresentati dall’interfaccia esposta dalla

Page 54: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

44

2.5.1 Download dei dati

Una volta definito il workflow e l’interfacciamento con le piattaforme social, resta da

definire meglio come sia possibile ottenere (scaricare) i dati e predisporli nei formati

precedentemente discussi.

Gli script per il download e la trasformazione nei formati di output sono presentati

brevemente nell’appendice A, in coda a questo lavoro e permettono, partendo dalla

conoscenza delle API, delle piattaforme e dei metadati, di ottenere le informazioni di

nostro interesse in un formato, precedentemente definito, adatto alle nostre analisi.

Interfacciandosi direttamente con la piattaforma software in esame permettono di

definire di volta in volta quali singoli metadati ottenere per ogni post e quindi,

rappresentano degli script duttili e adattabili a svariate esigenze di analisi.

2.5.2 Il processo di analisi

A questo punto si dispone di un database contenente tutte le informazioni di nostro

interesse.

Il processo di analisi si sviluppa, principalmente, lungo la direttiva di crescita della

granularità, partendo dal singolo post fino ad osservare la totalità dei post di una

pagina e quindi ad osservare la pagina stessa.

Considerando le sole metriche standard a nostra disposizione, si può calcolare:

• engagement del singolo post, partendo dai suoi valori di numero di like,

numero di commenti e numero di condivisioni

• content cycle del singolo post, partendo da tre date disponibili: pubblicazione,

inserimento e ultimo commento

Questi valori, una volta calcolati, verranno anche essi salvati nel database originario in

modo che saranno poi riutilizzabili per le analisi successive.

Page 55: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

45

Il database così ottenuto disporrà di tutte le informazioni di interesse riguardanti i post

scaricati e rappresenterà il punto di partenza per ogni analisi e considerazione

successiva siano esse basate sulle sole metriche standard o siano definizioni e

applicazioni di nuove metriche derivate.

2.6 Cenni sulla Data Quality

Per tutto il capitolo si sono trattati i dati e le informazioni ottenuti tramite API e

provenienti dalla piattaforma social come corretti e completi, ma nella realtà non è

così.

Le API non si preoccupano della bontà dei dati e chiaramente le informazioni

provenienti dalla fonte social si presentano ricche di problemi che intaccano la qualità

complessiva di essi e in ultima analisi intaccano la qualità finale delle nostre analisi.

Il problema della Data Quality è onnipresente quando si parla di dati e soprattutto

quando questi sono in grande quantità, ma nel mondo dei social network[19] questo

problema prende una piega abbastanza diversa.

Normalmente una bassa qualità dei dati è dovuta a errori d’immissione, campi vuoti ed

errori di elaborazione, ma nel mondo social questi tre elementi non sono presenti per

costruzione (su un profilo Facebook le informazioni di base sono necessarie e se non

vengono fornite non si può utilizzare il servizio, quindi un livello minimo di

completezza è assicurato), d’altro canto essa si presenta sotto nuove forme:

• falsificazione volontaria di informazioni

• applicativi automatici che generano traffico e dati sui social (bot)

Page 56: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

46

Il primo punto è auto-esplicativo; le persone, soprattutto sui social, tendono a mentire

su delle informazioni sensibili non controllabili e di poco interesse per il loro scopo

(luogo, età, lavoro, istruzione, etc).

Per le consuete analisi riguardanti i post e le pagine, per fortuna queste informazioni

non sono di alcun rilievo, però basti pensare ad una analisi della distribuzione

geografica o demografica rispetto ad un post o ad un interesse per capire quanto

queste falsificazioni inficino pesantemente i risultati finali.

Il secondo punto è prerogativa unica del mondo social e da un paio di anni prende

sempre più piede.

Attualmente l’utilizzo di bot[20] ha tre scopi precisi e distinti che ci permettono anche di

darne una classificazione:

• fan bot

• spam bot

• influencer bot

I primi sono i bot più semplici, ma che ne rappresentano la maggioranza, spesso

fanpage di dimensioni ridotte sono portate ad acquistare like per vedersi incrementata

la fanbase e per aumentare la loro network size in modo da rendersi più visibili e

incrementare i loro guadagni, queste pratiche sono molto diffuse soprattutto su

Facebook tanto da creare di fatto un “mercato nero” dei like.

I secondi sono presenti in modo abbastanza capillare nelle pagine di forte rilevanza in

tutti i social network in cui sia possibile commentare o rispondere in qualche modo a

dei post o a delle pagine.

Gli spam bot lasciano dei messaggi, spesso contenenti link, che indirizzano ad altre

pagine del social o a siti esterni, di fatto, come dice il nome, lasciano dello spam nei

Page 57: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

47

vari commenti ai post e nelle varie risposte, in modo da pubblicizzare la pagina o il sito

da cui sono stati creati/ingaggiati.

La terza categoria è meno diffusa delle altre due e difficilmente distinguibile ed

individuabile se il bot è ben programmato.

Gli influencer bot sono presenti sui maggiori social network e interferiscono con le

metriche d’importanza per le pagine, rilasciando like casuali, commenti, spesso senza

senso, o condividendo/retwettando più e più volte lo stesso contenuto.

Queste tre categorie concorrono a ridurre in certi casi in modo drastico ed evidente la

qualità dei dati di nostro interesse, ma purtroppo sono ancora oggi di difficile

individuazione e debellazione.

Un primo metodo per assicurarsi una buona accettabilità delle informazioni scaricate

sta nell’individuare ed eliminare i dati maggiormente corrotti, generati da bot che sono

facilmente visibili anche ad occhio nudo, osservando determinati pattern nel dataset

(centinaia di retweet identici dallo stesso utente, continui post con la presenza della

stessa menzione, picchi molto anomali nelle metriche, etc…).

Figura 9 - Esempio di retweet da parte di bot (Milano Fashion Week 2014)

In questa immagine si nota come vi sia una serie di RT identici, con la presenza di due

menzioni e un link esterno, che si rivela non concernente al contesto, che “rimbalzano”

tra vari utenti.

Page 58: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

Figura 10 - Mentions Network del dataset Milano Fashion Week 2014 e individuazione di bot

Osservando il network creato da questi

grande quantità di tweet che presentano caratteristiche simili, quasi identiche, ai

retweet precedenti.

In ultima analisi, grazie anche a conoscenza nel

conosciuti, gli utenti @amyboom90 e @brandymaclegit sono stati individuati come

bot di tipologia spam e quindi si è potuto effettuare un raffinamento nel dataset.

Mentions Network del dataset Milano Fashion Week 2014 e individuazione di bot

k creato da questi utenti, è possibile notare

grande quantità di tweet che presentano caratteristiche simili, quasi identiche, ai

ultima analisi, grazie anche a conoscenza nel dominio e all’uso di archivi di bot

, gli utenti @amyboom90 e @brandymaclegit sono stati individuati come

bot di tipologia spam e quindi si è potuto effettuare un raffinamento nel dataset.

48

Mentions Network del dataset Milano Fashion Week 2014 e individuazione di bot

è possibile notare come vi sia una

grande quantità di tweet che presentano caratteristiche simili, quasi identiche, ai

e all’uso di archivi di bot

, gli utenti @amyboom90 e @brandymaclegit sono stati individuati come

bot di tipologia spam e quindi si è potuto effettuare un raffinamento nel dataset.

Page 59: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

49

2.7 Conclusioni

In questo capitolo si è brevemente presentato il processo di download ed elaborazione

delle informazioni ottenibili dalle piattaforme social, definendo i necessari input e

come essi vengono gestiti sulle piattaforme social; gli output opportuni e necessari alle

analisi; le metodologie di download ed interfacciamento con le API e le prime analisi

effettuabili con le sole metriche standard.

Nel prosieguo si trarranno le prime considerazioni sulle possibilità offerte dalle

metriche precedentemente introdotte e sulla loro applicabilità.

Verranno dedotte quindi nuove metriche e nuove metodologie di analisi possibili sui

dati in nostro possesso.

Page 60: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

50

Capitolo 3

Metodo di Analisi e Metriche Derivate

3.1 Introduzione

In questo capitolo si presentano e definiscono, partendo dalle metriche standard,

nuove metriche derivate per analizzare a più livelli i dati in nostro possesso e ricavarne

informazioni più di dettaglio.

Nel paragrafo 3.2 si applicano le metriche standard presentate in precedenza ad un

esempio concreto per meglio capire in che contesto andremo a muoverci e si traggono

considerazioni sui pro e i contro che il loro uso garantisce.

Nel paragrafo 3.3 vengono definite e presentate nuove metriche derivate e raffinate

che permettono diverse considerazioni più approfondite e dettagliate in fase di

analisi.

Nel paragrafo 3.4 vengono applicate a degli esempi concreti per visualizzare meglio,

ancora una volta, il contesto in cui andare ad utilizzarle e che tipo di osservazioni ci

permettono di fare, traendo, anche qui considerazioni sul loro uso e sulla loro

applicabilità.

Nel paragrafo 3.5 si presenta una analisi dettagliata del ciclo di vita di un post,

considerando le variazioni dei componenti essenziali dell’engagement e osservandone

l’evoluzione.

Page 61: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

51

Tutte le metriche e le analisi qui presentate riguardano solamente Facebook essendosi

rivelato un miglior bacino per l’approccio seguito, ciò nonostante crediamo sia

attuabile una trasposizione parziale delle nuove metriche e quindi delle possibili analisi

anche al caso di Twitter, naturalmente con le dovute limitazioni e cambiamenti

necessari.

3.2 Applicazione delle Metriche Standard e Considerazioni

Si prova, ora, ad applicare le metriche standard viste nei capitoli precedenti ai dati

appena scaricati e se ne osservino i risultati.

Di seguito si vede un estratto, relativo al solo mese di Settembre 2015 dei post

scaricati dalla pagina di “Luisa Via Roma” con le informazioni principali che ci

occorreranno e con annotati il numero di like, commenti e condivisioni, nonché il

valore di /0�#1&2!2�%�&# e di C0&#�&#C,7"� per ogni singolo post.

Figura 11 - Post "Luisa Via Roma" (Settembre 2015)

Page 62: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

52

Queste informazioni di base sono già di per sé molto interessanti e permettono alcune

riflessioni:

• il post con ID 4 presenta l’engagement più alto, ha creato maggiore interesse

rispetto agli altri

• il post con ID 21 presenta il cycle più alto, è rimasto vivo più a lungo degli altri

• la maggioranza di post del brand presentano una o più foto, lo si nota dalla

predominanza della tipologia photo nell’attributo TYPE

Apparentemente queste tipologie di analisi sono tutte quelle possibili in questo ambito

e con queste conoscenze e metriche.

Si provi, ora, ad aggregare l’engagement sulla totalità del periodo e otteniamo:

?0#!"1&2!2�%�&#:>��GHGIJ�K> = L /0�#1&2!2�%�&#(.):∈:<=>∩:∈:>��GHGIJ�K>

= ?0#!"1&2!2�%�&#NO/�N�Q = 83834

Come si è precedentemente visto con questo dato aggregato e con l’utilizzo di dati

quali la numerosità dei fan possiamo ottenere ulteriori risultati.

Data una:

?0#!"@!&3!�� = 1703571

possiamo calcolare:

($%."�1&2!2�%�&#:>��GHGIJ�K> = ($%."�1&2!2�%�&#NO/�N�Q = 0,049210746

Questa semplice metrica fa capire quanto in realtà i fan della pagina abbiano interagito

relativamente poco, rispetto alla loro mole, con i brand post del periodo in analisi.

Page 63: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

53

Allargando l’analisi alla totalità dei post della pagina è possibile ripetere le sopracitate

misurazioni ottenendo:

?0#!"1&2!2�%�&# = 1530371

e di conseguenza:

($%."�1&2!2�%�&# = 0,8983312

che a differenza del precedente caso dà adito alla presenza di una abbastanza elevata

interazione dei fan con la pagina stessa.

Di seguito sono state tratte alcune considerazioni, sia positive che negative, sulle

metriche standard anche grazie a questo esempio.

Queste metriche sono semplici da utilizzare e altamente comprensibili, anche in ambiti

non scientifici, permettono quindi, una rapidità di analisi, di osservazione e di

considerazione molto elevata.

D’altra parte, presentano poca profondità e dettaglio, considerano l’engagement e il

content cycle come valori a sé, senza considerarne le singole componenti e le possibili

interazioni, privando quindi, l’utilizzatore finale di dati importanti per capire in maniera

migliore i fenomeni in corso e per prevederne di successivi.

Sono metriche “totali”, cioè considerano la totalità del periodo in esame o della

pagina, permettendo una visione d’insieme utile a trarre considerazioni primitive che

portano alla sola intuizione di possibili problemi.

In questo modo però, non considerano la loro evoluzione e variazione all’interno dei

range in esame, non le pesano sul numero di post che le hanno generate, non

permettendo, di fatto, alcuna possibilità di comparazione con altre pagine concorrenti

o meno attraverso l’uso di medie e variazioni percentuali delle stesse.

Page 64: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

54

In definitiva riducono il problema dell’analisi all’osservazione di soli due valori

numerici, riducendo di gran lunga la profondità e lo spettro delle analisi possibili

sull’operato di una brand page e del suo network.

3.3 Metriche derivate

Per poter approfondire le analisi è necessario, quindi, introdurre nuovi strumenti

facilmente applicabili in ogni ambito di analisi.

3.3.1 Average Engagement

Precedentemente si sono applicate le formule standard utilizzando quindi il costrutto

del ?0#!"1&2!2�%�&#, che pur dando una visione della pagina come totalità, fa

perdere la visione frammentaria di “insieme di singoli post”.

Per ovviare a questo problema si utilizza una media pesata dell’engagement totale sul

numero di post in oggetto, siano essi di un periodo temporale o della totalità della

pagina.

YA��!2�1&2!2�%�&# = ?0#!"1&2!2�%�&#&�%3��04.0�#�

Questa metrica permette di capire quanto un singolo post, in media, abbia contribuito

alla totalità dell’engagement della pagina o del periodo preso in esame.

Questo dato è di estremo interesse internamente al brand poiché fornisce un punto di

riferimento per osservare le variazioni dell’engagement e, quindi, di capire quanto una

variazione improvvisa nell’engagement sia o meno di interesse in base a quanto essa si

discosta dalla media globale.

Page 65: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

55

Questo valore può chiaramente, in modo identico al precedente totale, essere usato

come numeratore in rapporto con la numerosità dei fan:

($%."�YA��!2�1&2!2�%�&# = YA��!2�1&2!2�%�&#?0#!"@!&3!��

Questa ulteriore metrica permette di capire quanto in media ogni singolo fan abbia

contribuito all’engagement della pagina.

Permette quindi di capire in maniera indiretta quanto un singolo fan ha interagito con

la pagina stessa durante il periodo preso in esame.

Più questo valore (può anche essere reso in percentuale per meglio visualizzare queste

considerazioni) sarà alto, più il singolo fan avrà visualizzato e interagito attivamente

con ogni singolo post della pagina.

3.3.2 Speaking Range e RangeEngagement

Oltre alla numerosità dei fan, Facebook, da poco e a libera scelta della pagina, rende

disponibile un dato interessante chiamato Speaking Range, un numero che indica

quanto le persone parlino di una data pagina.

Lo Speaking Range viene calcolato, e di conseguenza visualizzato, su periodi mensili e

soffre ancora molte limitazioni dovute alle impostazioni scelte per la privacy, ma in

generale tiene conto di quanta interazione la pagina riceve fuori dai brand post, quindi

quanti post in bacheca, commenti ad essi, risposte, risposte ad inviti e citazioni riceve

da utenti unici (unico poiché un utente che interagisce con la pagina molte volte

nell’arco del periodo in esame verrà conteggiato solamente una volta).

Questo interessante dato può essere utilizzato come sostituto della ?0#!"@!&3!�� e

ci permette di trarre ulteriori nuove conclusioni.

Si modificano, di conseguenza, le formule presentate precedentemente, ottenendo:

Page 66: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

56

�!&2�1&2!2�%�&#:>��GHGIJ�K> = ?0#!"1&2!2�%�&#:>��GHGIJ�K>(.�!5$&2�!&2�:>��GHGIJ�K>

�!&2�YA��!2�1&2!2�%�&#:>��GHGIJ�K> = YA��!2�1&2!2�%�&#:>��GHGIJ�K>(.�!5$&2�!&2�:>��GHGIJ�K>

Queste due metriche, all’apparenza non si discostano molto dalle precedenti realizzate

con la numerosità dei fan, ma danno una informazione, relativa al solo periodo

temporale in oggetto, sull’engagement prodotto dagli “utenti unici attivi” sulla pagina

in quel periodo.

3.3.3 Like, Comment e Share percentage

Fino ad ora si è utilizzato l’engagement come somma di Like, Commenti e Condivisioni,

quindi come un unico valore derivato da questi tre.

Per approfondire maggiormente le nostre analisi si può pensare di scorporare le tre

azioni possibili ed analizzarle singolarmente o come vedremo successivamente unirle

in sottogruppi.

Per fare ciò la prima considerazione necessaria è calcolare quanto ogni tipologia di

azione abbia influito sulla somma e quindi sul /0�#1&2!2�%�&#. Si calcolano quindi la percentuale di Like, Commenti e Condivisioni per ogni singolo

post rispetto alla totalità dell’engagement che genera.

B%(.) = &�%3��04"$5��(.)/0�#1&2!2�%�&#(.)%

C%(.) = &�%3��0470%%�&#�(.)/0�#1&2!2�%�&#(.) %

(%(.) = &�%3��04�ℎ!���(.)/0�#1&2!2�%�&#(.)%

Page 67: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

57

Come sempre in questi casi è possibile calcolarne la media sulla totalità della pagina o

su un singolo periodo temporale.

Queste metriche permettono di capire quali tipi di azioni su post il pubblico della

pagina predilige e su quali post o tipologie di post questi valori varino rispetto ad una

media globale o di periodo, così da poter indirizzare meglio la pubblicazione e la

comunicazione dell’azienda in una direzione che garantisce il massimo engagement.

Per migliorare ancora questo tipo di considerazioni è necessario affiancare, alle

metriche precedenti, il numero grezzo di Like, Commenti e Condivisioni di ogni post,

scorporando quindi, di fatto, l’engagement calcolato, in modo da visualizzare più dati

possibili sulle singole azioni.

Per esempio se i post con foto generano un’alta percentuale di condivisioni e like

rispetto alla media della pagina per quelle azioni, mentre un post di tipo

esclusivamente testuale genera un alto numero di commenti e like ma poche

condivisioni, si potrà impostare l’attività della pagina per massimizzare due dei

parametri sopracitati generando post di una tipologia anziché dell’altra.

3.3.4 Scorporare l’engagement

Continuando con l’analisi delle singole azioni, è ora possibile riformulare l’engagement

totale e medio utilizzando singole azioni o gruppi di esse.

B$5�?0#!"1&2!2�%�&# = L &�%3��04"$5��(.):∈:<=>

C0%%�&#?0#!"1&2!2�%�&# = L &�%3��0470%%�&#�(.):∈:<=>

(ℎ!��?0#!"1&2!2�%�&# =L &�%3��04�ℎ!���(.):∈:<=>

Page 68: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

58

Come sempre queste metriche possono essere calcolate per la globalità della pagina

oppure per un singolo periodo temporale preso in esame e ne può essere calcolata la

media ottenendo i relativi YA��!2�1&2!2�%�&#. Esse permettono di analizzare approfonditamente le singole azioni e quanto loro

impattino sull’engagement della pagina o del periodo.

Permettono inoltre di fare considerazioni sull’efficacia dei nostri post e del modo in cui

“stimolino” l’utenza finale.

Il passo successivo nell’analisi consiste nell’integrare a due a due le metriche appena

presentate per ottenerne di nuove che ci permettano considerazioni ancora più

precise sul tipo di engagement che stiamo creando e ricevendo.

Anche qui verranno presentate solo le formule totali, ma è sempre possibile calcolare

queste metriche come media, su un periodo temporale o su singolo post.

+��.?0#!"1&2!2�%�&#= (ℎ!��?0#!"1&2!2�%�&# + C0%%�&#?0#!"1&2!2�%�&#

= L &�%3��04�ℎ!���(.) + &�%3��0470%%�&#�(.):∈:<=>

Il +��.?0#!"1&2!2�%�&# dà l’idea dell’engagement profondo che si genera, cioè

dell’engagement che prevede una forte interazione con l’utente, cioè commenti e

condivisioni, e che mostra, quindi, forte interesse (poiché questi tipi di azione rendono

noto il nostro profilo e le nostre opinioni), positivo o negativo, nei confronti del post in

oggetto o della pagina.

F&/!2�?0#!"1&2!2�%�&#= B$5�?0#!"1&2!2�%�&# + C0%%�&#?0#!"1&2!2�%�&#

= L &�%3��04"$5��(.) + &�%3��0470%%�&#�(.):∈:<=>

Page 69: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

59

L’F&/!2�?0#!"1&2!2�%�&# permette di conoscere quanto dell’engagement totale

viene generato sulla pagina stessa, non conta quindi la condivisione di contenuti, ma

solo le azioni attuabili sulla pagina stessa (like e commenti). Delle tre è la metrica

meno utile poiché non riesce a escludere in toto i like generati attraverso le

condivisioni e per questo andrebbe utilizzata come una stima e non come un valore

preciso.

/0"!�$)�[?0#!"1&2!2�%�&#= B$5�?0#!"1&2!2�%�&# + (ℎ!��?0#!"1&2!2�%�&#

= L &�%3��04"$5��(.) + &�%3��04�ℎ!���(.):∈:<=>

Infine troviamo il /0"!�$)�[1&2!2�%�&# che è l’indicatore più interessante dei tre

poiché fornisce una metrica per valutare l’engagement generato che è certamente

positivo, escludendo quindi l’engagement negativo quali commenti di protesta o

repost con annotazioni.

Questa metrica risulta utilissima per stimare quanto la pagina stia effettivamente

producendo engagement sano e non stia producendo polemiche o hate verso se

stessa.

Risulta di estrema utilità per monitorare periodi inerenti a campagne marketing o

periodi particolari in caso di offerte, festività o eventi di interesse per il contesto della

pagina.

3.3.5 Variazioni dell’engagement

Fino ad ora si è trattato l’engagement e tutte le metriche derivate come singoli valori

numerici, ma per analisi e considerazioni ancora più utili, ora, è necessario considerare

ogni singolo /0�#1&2!2�%�&#(.) come parte di una serie e quindi visualizzare,

tramite grafici, le variazioni di esso, temporalmente e in base alla sequenza dei post.

Page 70: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

60

Attraverso dei grafici è possibile unire in un’unica visualizzazione molte delle metriche

qui presentate e osservarle in relazione alla variazione dell’engagement per singolo

post.

Ciò permette di osservare quando le variazioni, siano esse positive o negative, si

distacchino troppo dalla media o presentino comportamenti anomali rispetto a periodi

precedenti che per qualche ragione dovevano risultare simili.

Permettono inoltre una visualizzazione semplice e intuitiva delle misurazioni fatte che

risulta utile nel caso debba essere usata per interfacciarsi con settori aziendali o ambiti

non prettamente informatici o non avvezzi a determinate analisi.

3.3.6 Liveliness percentage

Dopo aver parlato dell’engagement, si passa ora ad analizzare il content cycle.

Come abbiamo visto questa metrica ci fornisce un’indicazione in termini di tempo di

quanto un post sia rimasto vivo, nella maggioranza dei casi e, di fatto, anche nelle

nostre analisi ciò significherà che dopo quel lasso di tempo il post ha ricevuto il suo

ultimo commento di primo livello (utilizziamo il CC,7"�).

Questa metrica seppur significativa non fornisce esattamente un indicatore univoco e

preciso col quale confrontare vari post.

Per fare ciò, infatti, occorre introdurre in maniera più diretta il tempo attuale di

sistema, il tempo di inserimento del post nel nostro database.

B$A�"$&���%(.) = CC,7"�(.)B$4��.!&(.)% = B!�#C0%%�&#?$%�(.) − /�3"$�ℎ?$%�(.)

Y7#�!"(,�#�%?$%� − /�3"$�ℎ?$%�(.) %

Dove si è definito B$4��.!&(.) = Y7#�!"(,�#�%?$%� − /�3"$�ℎ?$%�(.) per

indicare per quanto tempo il post è rimasto pubblicato.

Page 71: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

61

Per capire meglio di seguito sono visualizzate queste metriche.

Questo valore permette di conoscere la percentuale di tempo in cui il post è rimasto

vivo rispetto al tempo totale in cui è rimasto pubblicato.

Risulta utile, soprattutto se utilizzato su un periodo di tempo limitato (sostituendo

l’Y7#�!"(,�#�%?$%�con il termine finale del periodo in esame), per considerare la

vivacità dei post in relazione al tempo effettivo in cui sono rimasti visibili, ad esempio

in caso di campagne marketing o eventi di interesse per l’azienda, permettendo di

confrontare tra loro i post che ne fanno parte o che vi ricadono.

3.3.7 Riassunto delle metriche presentate

Nella Tabella 6, qui di seguito, sono ora riassunte le metriche presentate, ognuna con

una breve descrizione per meglio capire quali considerazioni si possano trarre dal loro

uso e in quali contesti utilizzare l’una anziché l’altra.

Metrica Descrizione

TotalEngagement engagement totale generato dalla pagina

SimpleEngagement

engagement totale pesato sul numero di fan

della pagina – engagement totale generato

dal singolo fan

AverageEngagement engagement medio generato dalla pagina

SimpleAverageEngagement

engagement medio pesato sul numero di

fan – engagement medio generato dal

singolo fan

Figura 12 - CCycle e Lifespan

Page 72: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

62

RangeEngagement engagement totale generato dagli utenti

unici di una pagina in un periodo di tempo

RangeAverageEngagement

engagement medio generato dagli utenti

unici di una pagina in un periodo di tempo –

engagement medio generato dal singolo

utente unico

LikeTotalEngagement numero totale di like generati dalla pagina

sui propri post

CommentTotalEngagement numero totale di commenti generati dalla

pagina sui propri post

ShareTotalEngagement numero totale di condivisioni generate dalla

pagina sui propri post

LikeAverageEngagement

numero medio di like generati dalla pagina

sui propri post – numero medio di like

rilasciati sulla pagina da un utente

CommentAverageEngagement

numero medio di commenti generati dalla

pagina sui propri post – numero medio di

commenti rilasciati sulla pagina da un

utente

ShareAverageEngagement

numero medio di condivisioni generati dalla

pagina sui propri post – numero medio di

condivisioni rilasciati sulla pagina da un

utente

AverageL% percentuale media di like che compongono

l’engagement di un post

AverageC% percentuale media di commenti che

compongono l’engagement di un post

AverageS% percentuale media di condivisioni che

compongono l’engagement di un post

DeepTotalEngagement

engagement totale considerando solo

commenti e condivisioni – engagement

denotato da forte interesse verso il post

generato dalla pagina

InPageTotalEngagement

engagement totale considerando solo like e

commenti – engagement generato

direttamente sulla pagina stessa

PolarizedTotalEngagement

engagement totale considerando solo like e

condivisioni – engagement denotato da

sicura accezione positiva verso il post

generato dalla pagina

DeepAverageEngagement engagement medio considerando solo

commenti e condivisioni – engagement

Page 73: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

63

denotato da forte interesse verso il post

generato dalla pagina

InPageAverageEngagement

engagement medio considerando solo like e

commenti – engagement generato

direttamente sulla pagina stessa

PolarizedAverageEngagement

engagement medio considerando solo like e

condivisioni – engagement denotato da

sicura accezione positiva verso il post

generato dalla pagina

AverageCCycle numero medio di secondi in cui un post

risulta vivo

AverageLiveliness% percentuale media di vitalità dei post in un

dato periodo di tempo o di una data pagina

Tabella 6- Metriche

3.4 Applicazioni ed Esempi sui Dati

Si applichino, ora, come fatto in precedenza per le metriche standard, queste nuove

metriche ad esempi reali presi ancora una volta dalla pagina di “Luisa Via Roma”.

Verranno utilizzati principalmente la totalità della pagina e il periodo di Settembre

2015 (i cui dati si possono vedere nella figura a inizio capitolo).

Le stesse analisi sono effettuabili sulla globalità della pagina o prendendo in

considerazione periodi temporali più grossi o più piccoli relativi ad eventi precisi o a

lunghe campagne marketing o di vendita.

Settembre 2015 Pagina globale

TotalEngagement 83834 1530371

SimpleEngagement 0,0492 0,8983

AverageEngagement 644,9569 1633,2668

SimpleAverageEngagement 0,0021 0,0009

RangeEngagement 5,0756

RangeAverageEngagement 0,2207

LikeTotalEngagement 78786 1457057

CommentTotalEngagement 1582 17763

ShareTotalEngagement 3466 55551

LikeAverageEngagement 3425,4783 1555,0235

CommentAverageEngagement 68,7826 18,9573

Page 74: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

64

ShareAverageEngagement 150,6956 59,2860

AverageL% 95,41% 93,70%

AverageC% 1,40% 1,95%

AverageS% 3,18% 4,35%

DeepTotalEngagement 5048 73314

InPageTotalEngagement 80368 1474820

PolarizedTotalEngagement 82252 1512608

DeepAverageEngagement 219,4782 78,2433

InPageAverageEngagement 3494,2608 1573,9808

PolarizedAverageEngagement 3576,1739 1614,3095

AverageCCycle 293283s 5686007s

AverageLiveliness% 30,93% 5,43%

Tabella 7 - Valori metriche "Luisa Via Roma"

Con questi dati è ora possibile trarre alcune conclusioni di carattere generale sulla

pagina e sul periodo preso in esame:

• il periodo preso in esame ha creato molto interesse verso la pagina, è possibile

notare, infatti, che le metriche medie superano quasi tutte le medie globali con

un elevato scarto

• questo aumento dell’engagement è in gran parte dovuto allo Speaking Range

(valore molto elevato nel periodo) piuttosto che alle normali interazioni coi fan,

infatti i valori di SImpleEngagement e SimpleAverageEngagement risultano

bassi

• i post del periodo. pur presentando una liveliness elevata rispetto alla globale,

sono rimasti vivi in media per un terzo del periodo stesso, soffrendo quindi di

un drastico calo nell’interesse sul lungo periodo

• nel periodo in esame le principali interazioni con la pagina sono avvenute

tramite i Like, che infatti presentano una percentuale in media più elevata della

norma globale

Page 75: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

65

Si prova ora a visualizzare dei grafici concernenti il solo periodo in esame, dove l’asse x

indicherà sempre l’ID del post relativo al mese di Settembre quindi il post con ID 1 sarà

il più recente, mentre quello con ID 23 il meno.

Figura 13 - Variazione engagement 09/2015 "Luisa Via Roma"

Qui è visualizzato il grafico della variazione dell’engagement totale nel periodo, in

rosso è visualizzata la media e in nero possiamo vedere la linea di tendenza lineare del

grafico.

Da ciò è possibile dedurre che durante il mese di Settembre l’engagement è risultato in

crescita; probabilmente uscendo dai mesi estivi sono ricominciate le visualizzazioni e

interazioni di routine di molti utenti con la pagina e ciò ha portato benefici soprattutto

nell’ultima parte del periodo.

0

2000

4000

6000

8000

10000

12000

1234567891011121314151617181920212223

Engagement

Post

Variazione TotalEngagement - Settembre 2015

Page 76: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

66

Figura 14 - Variazione Polarized vs Deep 09/2015 "Luisa Via Roma"

A questo punto è necessario scorporare l’engagement per poter visualizzare quanto

effettivamente l’azione del Like sia influente sulla totalità della metrica, come si era

notato nella tabella riassuntiva dei valori poco sopra.

Si noti l’enorme divario tra il grafico del DeepEngagement e quello del

PolarizedEngagement, ciò permette di notare quanto la fanbase nel momento

dell’interazione prediliga fortemente l’azione del Like, quindi un’interazione rapida

(ricordiamoci che risulta essere la più semplice da eseguire soprattutto con dispositivi

mobili).

Come riconferma la linea di tendenza in nero, il valore di entrambe le metriche risulta

in crescita lungo tutto il periodo.

Si analizzano ora i valori di content cycle.

0

2000

4000

6000

8000

10000

12000

1357911131517192123

Engagement

Post

Variazione Polarized vs Deep - Settembre 2015

PolarizedEngagement

DeepEngagement

Page 77: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

67

Figura 15 - Variazione content cycle 09/2015 "Luisa Via Roma"

Nella figura qui sopra si visualizza la variazione del semplice CCycle calcolato

precedentemente per il periodo.

Anche qui la media è indicata in rosso e la tendenza in nero e si nota una brusca

diminuzione sul finire del periodo in esame, ciò è dovuto principalmente a due fattori:

i. I post più recenti sono online da meno tempo, quindi presentano un

lifespan breve rispetto ai post iniziali del periodo

ii. Il fattore dell’uscita dai mesi estivi e il ritorno in routine, che

precedentemente aveva alzato i valori delle metriche di engagement,

tende invece a far scemare il valore delle metriche relative al content

cycle puro, poiché, prendendo in considerazione l’ultimo commento

come parametro di calcolo, ci si pone nella situazione di risentire del

fatto che gli utenti utilizzino dispositivi mobile e visualizzino la pagina

per poco tempo soprattutto nei periodi iniziali del ritorno alla normale

attività quotidiana (evitando quindi di interagire in modo deep con

commenti)

0

172800

345600

518400

691200

864000

1036800

1209600

1382400

1555200

1234567891011121314151617181920212223

CCycle

Post

Variazione Content Cycle - Settembre 2015

Page 78: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

68

Figura 16 - Variazione Liveliness% 09/2015 "Luisa Via Roma"

Per ovviare al primo dei punti sopracitati è possibile osservare la variazione della

Liveliness% e, di fatto, si nota che la linea di tendenza risulta in crescita, ciò sta a

significare che i post più recenti risultano tutt’ora attivi e vivi e ciò, riduce di molto le

considerazioni e reazioni negative che il grafico precedente ci forniva.

Come ultima considerazione, date le premesse e ipotesi fatte sulla transizione da

periodo estivo a periodo di routine, è possibile andare a verificarle semplicemente

osservando la variazione dell’engagement nel mese antecedente di Agosto 2015.

Figura 17 - Variazione engagement 08/2015 "Luisa Via Roma"

0,000%

20,000%

40,000%

60,000%

80,000%

100,000%

1234567891011121314151617181920212223

Liveliness%

Post

Variazione Liveliness% - Settembre 2015

0

10000

20000

30000

40000

50000

1234567891011121314

Engagement

Post

Variazione TotalEngagement - Agosto 2015

Page 79: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

69

È possibile notare, come effettivamente era atteso, che la linea di tendenza risulta

decrescente e i valori relativi risultano più bassi, non facendosi trarre in inganno dalla

media che risulta elevata a causa del picco avvenuto col post ID 12.

Il grafico in toto risulta meno variabile e ciò fa propendere a pensare che l’attività

presente sulla pagina in quel periodo sia una attività effettuata da utenti assidui, che

formano quindi buona base dell’engagement percepito, anziché da visitatori

occasionali o fan “normali”.

Come si vede la profondità e i dettagli delle analisi possibili con le nuove metriche

hanno permesso considerazione molto più accurate e puntuali, permettendo l’analisi

anche di singoli periodi temporali e della transizione da un periodo all’altro.

Questa maggiore libertà di analisi permette una ricostruzione abbastanza completa del

perché e del come sia avvenuto un dato fenomeno di interesse per l’azienda o per il

brand e ciò porta a realizzare reportistiche più complete e accurate.

Il tutto non intacca in alcun modo la leggibilità e la comprensione delle metriche anzi,

la capacità di visualizzare graficamente più informazioni dipendenti tra loro e di

scorporare le precedenti metriche, rende ancora più immediati e visibili i fenomeni, le

cause e le conseguenze di essi, anche da parte di persone appartenenti ad ambiti e

contesti di lavoro non abituati all’uso di strumenti di analisi e visualizzazione di dati.

Non si deve però dimenticare che tutte le considerazione che si effettuano dopo aver

analizzato i dati vanno calate nel contesto di azione e nell’ambito dell’azienda e del

brand stesso nonché pesate sulle modalità di interazione che la pagina si è posta di

utilizzare.

Negli esempi del capitolo molte considerazioni, come quella sulla “stagionalità” delle

variazioni e dell’interazione con gli utenti, sono frutto del fatto che “Luisa Via Roma”

svolga attività nell’ambito dell’e-commerce dell’alta moda e prêt-à-porter e che quindi

la sua pagina social subisca un naturale calo di visite e quindi di interazioni, soprattutto

occasionali, durante i periodi estivi e di ferie lavorative, in cui l’utente medio non è

intenzionato ad acquistare o a visualizzare capi di moda a fine stagione (ricordiamoci

Page 80: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

70

che le collezioni autunno/inverno vengono presentate nella seconda metà di

Settembre) e non prettamente adatti a periodi di vacanza.

3.5 Post Lifecycle

Precedentemente si è visto come sia possibile analizzare in modo approfondito una

fanpage e i post che la compongono, sia da un punto di vista di attrattività che di

vitalità.

Studiando invece l’evoluzione del singolo post, in termini soprattutto di engagement,

si vedrà che è possibile stabilire un ciclo di vita tipico, il quale vede l’alternanza e il

susseguirsi delle azioni possibili sul post durante il suo periodo di vita (lifespan).

Queste considerazioni sono inizialmente scaturite, come tutti i risultati e le

considerazioni fatte, nell’ambito della moda e del fashion, ma, con le dovute

proporzioni, si è visto possibile applicarle anche ad altri ambiti, deducendone, di fatto,

un modello di ciclo di vita di un post generico su Facebook.

Come sempre l’esempio è basato su dati raccolti dalla pagina “Luisa Via Roma” e in

particolare si andrà ad analizzare nel dettaglio l’evoluzione temporale del seguente

post.

Figura 18 - Post d'esempio per l'osservazione del lifecycle

Come si può vedere la lifespan è abbastanza ampia ed il post è rimasto attivo a lungo,

ricevendo l’ultimo commento poco più di due settimane dopo la pubblicazione.

È possibile vedere i dati raccolti e analizzarli.

Page 81: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

71

Figura 19 - Iterazioni per il calcolo del lifecycle

Il procedimento per ottenere questi dati è stato quello di eseguire lo script

Engagement Updater (in Appendice A.3.2) ripetutamente a intervalli abbastanza

regolari e brevi (1 giorno circa) su un pool definito di post da esaminare.

Quello che si può notare e che è evidenziato in tabella, sono due significativi picchi

nelle condivisioni rispettivamente all’iterazione 6 e 10 che come risposta hanno

provocato un incremento notevole nei like e nei commenti nelle interazioni appena

successive.

Per meglio chiarire questa importante osservazione si guardi il grafico che segue.

Figura 20 - Grafico d'esempio di Post Lifecycle

0,00%

20,00%

40,00%

60,00%

80,00%

100,00%

120,00%

i1 i2 i3 i4 i5 i6 i7 i8 i9 i10 i11 i12 i13 i21 in

Iterazioni

Post Lifecycle

Like%

Comment%

Share%

Page 82: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

72

Qui si vede ancor meglio la relazione che intercorre tra incrementi delle condivisioni e

incrementi rispettivi negli altri parametri.

In particolare il primo picco nello Share% (quello all’iterazione i6) permette un

incremento nei Like del 21,89% e nei commenti del 19,15%.

Le stesse tecniche sono state applicate ad altri post della pagina stessa, ad altre pagine

di settore quali Alberto Guardiani e Il Gufo e a pagine di settori ortogonalmente diversi

e si è notata la costante presenza, seppur con piccole e auspicabili differenze in termini

quantitativi, della risposta all’incremento di Share%.

Questo interessante fenomeno può essere giustificato dalla natura stessa dei network

che si vengono a creare in questi ambiti, che come abbiamo spiegato nel Capitolo 1,

dipendono fortemente dai nodi influencer.

Il singolo post, inizialmente poco condiviso e visto/apprezzato solo dagli utenti più

vicini alla pagina, appena raggiunge uno di questi nodi, riesce a propagarsi con più

rapidità e forza all’interno di un network più vasto e quindi ad incrementare

ulteriormente i suoi valori di engagement.

Questo fenomeno “periodico” smette di funzionare nel momento in cui il post ha

esaurito la sua vitalità o perché non raggiunge più alcun nodo influencer o perché

surclassato da un più interessante e nuovo post pubblicato (nell’esempio precedente il

07/09 viene pubblicato il post con ID 23).

3.6 Conclusioni

In questo capitolo si sono, partendo da considerazione sulle metriche standard,

definite nuove metriche che permettono analisi maggiormente dettagliate e

approfondite, se ne sono viste le applicazioni su una pagina esempio e sono state

tratte varie considerazioni.

Page 83: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

73

Sono state introdotte anche alcune analisi sulla variazione delle metriche stesse ed è

stata analizzata l’evoluzione del singolo post a livello di valori delle tre azioni

fondamentali.

Tutte le conclusioni teoriche e le considerazione tratte fin qui, pur essendo state

sperimentate e applicate ad un ambito ben specifico, sono facilmente adattabili a

qualsivoglia ambito in cui i dati di base necessari sono resi disponibili.

Nel prossimo e ultimo capitolo verranno utilizzate alcune tecniche di mining per

ottenere ulteriori considerazioni.

Page 84: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

74

Capitolo 4

Clustering e Sequential Pattern Discovery

4.1 Introduzione

In questo capitolo viene presentato un metodo di analisi avanzato, che sfrutta tecniche

di data e text mining, per poter meglio analizzare la sequenza e le dinamiche dei post

di una pagina.

Nel paragrafo 4.2 si presenta l’algoritmo principale che verrà usato nel seguito, con

alcuni esempi chiarificatori.

Nel paragrafo 4.3 viene studiato il processo di creazione dei cluster partendo

dall’analisi testuale dei post.

Nel paragrafo 4.4, infine, vengono applicati i metodi sopra esposti al caso della pagina

Facebook di “Luisa Via Roma”, osservandone i risultati ed estrapolandone le

considerazioni e osservazioni.

Ancora una volta le tecniche qui utilizzate[22] non sono che un esempio di tutte le

possibili, vengono applicate al solo contesto di Facebook, ma sono da considerarsi

utilizzabili in ambiti simili con poco sforzo.

Page 85: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

75

4.2 Sequential Pattern Discovery

Se si considerano i dati e i post in possesso non come oggetti a sé stanti ma come parti

di una sequenza è possibile altresì effettuare nuove interessanti analisi, andando ad

utilizzare strumenti di mining.

Il principale metodo che è possibile applicare nel nostro contesto è quello del

Sequential Pattern Mining o Sequential Pattern Discovery (SPD), un insieme di metodi

di mining che permettono di rilevare sequenze statisticamente rilevanti di oggetti, cioè

di trovare pattern interessanti e rilevanti nella nostra sequenza di post.

La principale differenza con le regole di associazione sta nel fatto che le tecniche di

SPD danno importanza all’ordine degli oggetti all’interno delle sequenze in esame.

Comunemente queste tecniche sono utilizzate per l’analisi dei logfile, in Biologia per

l’analisi di sequenze di genoma e nell’organizzazione d’impresa all’interno delle

tecniche di process mining.

Esistono moltissimi algoritmi di SPD che si suddividono[24] in:

• Apriori-Like

• Breath-First Search based

• Depth-First Search based

• Closed Sequential Pattern based

• Incremental based

Fondamentalmente essi si distinguono sulla base del metodo di ricerca dei pattern

nella sequenza e di sviluppo dei pattern di lunghezza maggiore di uno.

Per gli scopi prefissati si andrà ad approfondire, senza andare nel dettaglio, un preciso

algoritmo che ricade nella categoria dei Depth-First Search based: il PrefixSpan.

Page 86: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

76

4.2.1 L’algoritmo PrefixSpan

Il PrefixSpan (Prefix-projected Sequential Pattern mining) è un algoritmo per SPD

presentato nel 2001[24].

L’algoritmo calcola tutti i possibili pattern di dimensione 1 e poi iterativamente, con

approccio Depth-First, calcola quelli di dimensioni superiori.

L’approccio di scansione dei dati è di tipo “divide et impera” e a ciò si deve la sua

grande efficienza e scalabilità.

Un pattern viene ritenuto frequente se si presenta non meno di V volte, dove V indica

una soglia stabilita in precedenza.

L’algoritmo riceve in input le sequenze di dati da analizzare nella forma seguente:

ogni riga rappresenta una sequenza di itemset separati dal separatore -1 e termina col

separatore -2 e ogni numero un oggetto, avviando l’algoritmo con una soglia di

accettabilità \ = 75% il risultato ottenuto è il seguente:

dove sono indicate le sequenze con il relativo supporto, ad esempio la riga due è da

leggersi come “la sequenza <1, 2> compare 3 volte nell’input”.

1 2 -1 3 7 7 -1 3 8 -1 4 8 3 6 -2 1 2 -1 8 3 -1 2 3 8 -1 7 5 8 -2 5 6 -1 1 2 8 4 6 -1 3 8 2 8 -2 5 8 7 -1 8 1 -1 6 8 -1 3 8 -1 2 8 3 8 -2

Figura 21 - Esempio di input per PrefixSpan

1 -1 #SUP: 4 1 2 -1 #SUP: 3 1 -1 3 -1 #SUP: 3 1 -1 3 8 -1 #SUP: 3 1 -1 8 -1 #SUP: 3 2 -1 #SUP: 3 3 -1 #SUP: 3 3 8 -1 #SUP: 3 8 -1 #SUP: 4

Figura 22 - Esempio di output per PrefixSpan

Page 87: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

77

4.3 Processo di Mining e Clustering dei Post

Introdotto l’algoritmo, è necessario trovare il modo di raffigurare i post in esame come

singoli oggetti in sequenza in modo da poterli trattare con le tecniche di SPD[25].

Il metodo più semplice consiste nel classificare ogni post in base a delle sue

caratteristiche di costruzione, siano esse la tipologia di post (foto, video, testo, etc)

oppure il contenuto.

Il primo metodo pur essendo il più intuitivo non permette una distinzione e

classificazione netta poiché, in base al contesto in cui ci si trova, alcune tipologie di

post risulteranno fortemente maggiori in percentuale rispetto alle altre, per esempio

nell’ambito della moda la tipologia foto rappresenterebbe la stragrande maggioranza

dei post di una pagina.

Il secondo metodo, molto più complesso, invece permette di ottenere una

classificazione ad hoc per ogni contesto di analisi dato che raggrupperebbe in post in

base al loro contenuto sintattico.

4.3.1 Ottenere i Cluster

Per poter applicare il secondo metodo e quindi ottenere dei cluster che suddividano e

classifichino i nostri post, è necessario, prima, applicarvi del text processing in modo da

avere un modo oggettivo di classificazione e in modo da mitigare le intrinseche

anomalie presenti nei testi scritti.

Per fare ciò verrà utilizzato RapidMiner che offre tutti i tool necessari per velocizzare il

lavoro.

Di seguito si osserverà in che modo costruire il processo per ottenere i cluster voluti.

Page 88: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

Nella figura 23 si osserva

(utilizzandone solo il campo testo)

Document Processor ed infine ad un modulo di Clustering.

Si analizzano, ora, quali operazioni esegue

I dati in input nel processo principale subiscono una operazione di “tokenizzazione”,

cioè i testi vengono suddivisi parola per parola separandoli con il metodo basato su

English Linguistic Tokens,

Successivamente, ogni singolo token viene reso minuscolo per rendere eguali possibili

discrepanze nei testi e per ultimo viene applicato un filtro che elimina i token lunghi

Figura 23 - Processo principale di Mining

si osserva il processo principale, che riceve in input la sequenza di post

(utilizzandone solo il campo testo) leggendola da un file Excel o CSV, la passa

Document Processor ed infine ad un modulo di Clustering.

quali operazioni esegue il Document Processor.

Figura 24 - Sottoprocesso del Document Processor

dati in input nel processo principale subiscono una operazione di “tokenizzazione”,

cioè i testi vengono suddivisi parola per parola separandoli con il metodo basato su

English Linguistic Tokens, un dizionario di termini inglesi.

ogni singolo token viene reso minuscolo per rendere eguali possibili

discrepanze nei testi e per ultimo viene applicato un filtro che elimina i token lunghi

78

in input la sequenza di post

leggendola da un file Excel o CSV, la passa a un

dati in input nel processo principale subiscono una operazione di “tokenizzazione”,

cioè i testi vengono suddivisi parola per parola separandoli con il metodo basato sugli

ogni singolo token viene reso minuscolo per rendere eguali possibili

discrepanze nei testi e per ultimo viene applicato un filtro che elimina i token lunghi

Page 89: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

meno di quattro caratteri

sintattico/stilistico, quali avverbi, preposizioni

Nell’ambito in cui ci si è mossi

stemming, cioè eliminazione di prefissi e suffissi che contraddistinguono declinazione

di verbi o singolari e plurali

persone, brand e pagine inficiava i risultati del metodo (per esempio

diventato “ad”, o “Nike”

All’uscita di questo sottoprocesso si ottie

filtrato per ottenere una occorrenza minima nel documento di almeno 3 volte

ogni token viene calcolato l’indice TF

Questo indice è utilizzato per calcolare l’importanza di un termine all’interno di

documento o di una collezione di documenti;

di volte che esso è contenuto nel documento e cresce in maniera inversamente

proporzionale rispetto alla frequenza del termine nel documento stesso, in modo da

dare maggiore importanza ai termini che compaiono in molti

frequenti (andando a ridurre l’impatto di forme fraseologiche, avverbi e altri costrutti

sintattici).

meno di quattro caratteri e le stopwords, cioè parole di uso pur

sintattico/stilistico, quali avverbi, preposizioni e articoli.

si è mossi non è stato possibile applicare un sottoprocesso di

stemming, cioè eliminazione di prefissi e suffissi che contraddistinguono declinazione

golari e plurali di sostantivi, poiché l’elevata presenza di nomi propri di

persone, brand e pagine inficiava i risultati del metodo (per esempio

” sarebbe diventato “ni”).

All’uscita di questo sottoprocesso si ottiene un vettore di parole (token)

filtrato per ottenere una occorrenza minima nel documento di almeno 3 volte

ogni token viene calcolato l’indice TF-IDF.

Questo indice è utilizzato per calcolare l’importanza di un termine all’interno di

di una collezione di documenti; aumenta proporzionalmente al numero

di volte che esso è contenuto nel documento e cresce in maniera inversamente

proporzionale rispetto alla frequenza del termine nel documento stesso, in modo da

dare maggiore importanza ai termini che compaiono in molti documenti ma sono poco

frequenti (andando a ridurre l’impatto di forme fraseologiche, avverbi e altri costrutti

Figura 25 - TF-IDF

79

e le stopwords, cioè parole di uso puramente

non è stato possibile applicare un sottoprocesso di

stemming, cioè eliminazione di prefissi e suffissi che contraddistinguono declinazione

, poiché l’elevata presenza di nomi propri di

persone, brand e pagine inficiava i risultati del metodo (per esempio “Adidas” sarebbe

ne un vettore di parole (token) ulteriormente

filtrato per ottenere una occorrenza minima nel documento di almeno 3 volte e per

Questo indice è utilizzato per calcolare l’importanza di un termine all’interno di un

aumenta proporzionalmente al numero

di volte che esso è contenuto nel documento e cresce in maniera inversamente

proporzionale rispetto alla frequenza del termine nel documento stesso, in modo da

documenti ma sono poco

frequenti (andando a ridurre l’impatto di forme fraseologiche, avverbi e altri costrutti

Page 90: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

80

Arrivati a questo punto, l’output del Document Processor verrà passato al modulo di

Clustering che applicherà l’algoritmo partizionale K-means, per suddividere i

documenti (post) in k cluster massimizzando la distanza tra cluster e minimizzando la

distanza intra-cluster partendo da dei punti medi.

Il risultato finale di questo processo sarà un file simile a quello di input nel quale ad

ogni post sarà stata attribuita una classe di appartenenza (cluster).

4.4 Applicazione del Mining

È possibile applicare questo procedimento ai dati in nostro possesso.

Considerando sempre la pagina Facebook di “Luisa Via Roma”, per prima cosa si

applica il processo di tokenizzazione e clustering (con k pari a 10) e se ne osservano i

risultati.

Figura 26 – Cluster

Page 91: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

In questa immagine è possibile osservare

partenza e la distribuzione dei 10 cluster.

Come si nota la dimensione dei cluster non è uniforme e su tutti spicca il

composto da buona parte

enorme varietà di token che il processo ha generato e che, di conseguenza, ha portato

ad avere molti termini poco frequenti e con valori di TF

portano all’inclusione degli oggetti stessi in unica grande classe di uguaglianza che

potremmo paragonare all’insieme dei post “randomici” che non presentano regolarità

forti nella loro composizione e contenuto.

Nel contesto in cui ci

estremamente negativo, anzi, un post randomico, di fatto, può essere considerato un

unicum, un post particolare e differente dagli altri per la presenza o meno di certe

caratteristiche intrinseche e in un conte

post che aumenta la text diversity,

documento finale.

Per capire meglio è come se avessimo una serie di oggetti identici e un singolo oggetto

differente, chiaramente

è possibile osservare il nodo root che rappresenta il dataset di

partenza e la distribuzione dei 10 cluster.

Figura 27 - Cluster Model

la dimensione dei cluster non è uniforme e su tutti spicca il

buona parte degli elementi totali, questa disuniformità è dovuta alla

enorme varietà di token che il processo ha generato e che, di conseguenza, ha portato

ad avere molti termini poco frequenti e con valori di TF-IDF molto bassi che a loro volta

e degli oggetti stessi in unica grande classe di uguaglianza che

potremmo paragonare all’insieme dei post “randomici” che non presentano regolarità

forti nella loro composizione e contenuto.

si muove, però, questo ultimo punto non va visto come

estremamente negativo, anzi, un post randomico, di fatto, può essere considerato un

unicum, un post particolare e differente dagli altri per la presenza o meno di certe

caratteristiche intrinseche e in un contesto di text analysis può essere visto come un

post che aumenta la text diversity, cioè la diversità di contenuto e forma, del

meglio è come se avessimo una serie di oggetti identici e un singolo oggetto

differente, chiaramente il singolo diverso sarà quello di maggiore interesse.

81

che rappresenta il dataset di

la dimensione dei cluster non è uniforme e su tutti spicca il Cluster 7

degli elementi totali, questa disuniformità è dovuta alla

enorme varietà di token che il processo ha generato e che, di conseguenza, ha portato

IDF molto bassi che a loro volta

e degli oggetti stessi in unica grande classe di uguaglianza che

potremmo paragonare all’insieme dei post “randomici” che non presentano regolarità

, però, questo ultimo punto non va visto come

estremamente negativo, anzi, un post randomico, di fatto, può essere considerato un

unicum, un post particolare e differente dagli altri per la presenza o meno di certe

sto di text analysis può essere visto come un

la diversità di contenuto e forma, del

meglio è come se avessimo una serie di oggetti identici e un singolo oggetto

il singolo diverso sarà quello di maggiore interesse.

Page 92: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

82

Una serie del genere ripetuta molte volte porterà alla formazione di una classe degli

oggetti “diversi” che quindi non andranno visti come oggetti di dubbio interesse, ma

andranno dotati di una connotazione unica.

Un altro cluster di interesse è il Cluster 4 che rappresenta la classe di post contenenti

una menzione, cioè una parola preceduta dal simbolo “@” e il Cluster 8 contenente i

post con link, denotati dalla presenza della clausola “http” o “https”.

Gli altri cluster non presentano particolare interesse se osservati in modo generico

come stiamo facendo, assumono invece interesse se si vuole ricercare la presenza di

singole parole o insiemi di esse e verificarne l’impatto attraverso le tecniche qui

presentate.

Ottenuti i 10 cluster si passa, ora, ad applicare l’algoritmo di SPD[26] presentato

precedentemente, per fare ciò organizziamo l’input nel seguente modo:

• dalla sequenza globale, si ottengono delle sottosequenze interrompendo al

termine di ogni mese rispetto alla data di pubblicazione del post (ponendo il

separatore -2)

• si individua un fenomeno, chiamato catastrofe, che vogliamo analizzare e di cui

vogliamo verificare la presenza o meno di pattern generativi

• in ogni sottosequenza si individua un punto in cui osservare la catastrofe e si

suddivide di conseguenza il tutto in itemset (ponendo il separatore -1)

La scelta del fenomeno da analizzare è molteplice, dalla variazione di una delle

metriche sopra una certa soglia, alla presenza di un dato commento, menzione o altro.

Si è scelto di analizzare la variazione dell’engagement rispetto alla media del periodo,

cioè se il post & presenta un engagement pari a /0�#1&2!2�%�&#(&) che supera di

Page 93: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

83

una soglia ? l’engagement medio del periodo allora inseriamo il separatore appena

dopo il post.

F&���# − 1$&."!7�(& + 1)$4/0�#1&2!2�%�&#(&)> ? ∗ YA��!2�1&2!2�%�&#:>��GH

Il file di input risultante è mostrato di seguito (Figura 28 - i numeri diversi dai

separatori indicano il cluster di appartenenza del post).

3 7 -1 7 1 7 -2 7 1 5 -1 7 5 -2 2 7 1 4 7 -1 7 2 7 -1 7 1 5 5 -2 5 7 1 5 -1 3 4 -1 7 8 3 3 -1 4 3 -2 3 7 3 3 -1 3 3 7 1 -1 3 3 4 7 -1 7 0 0 -1 0 0 0 0 -1 4 8 -1 0 0 0 -1 8 0 0 7 4 -2 7 4 7 -1 7 3 7 2 7 -1 4 7 4 7 -1 7 4 -1 7 3 4 7 -1 8 7 4 -2 4 2 -1 4 4 7 -1 7 4 7 -1 2 -1 5 2 -1 2 -2 7 4 0 -1 0 0 0 -1 7 0 0 8 0 8 -1 0 7 0 4 0 -1 8 0 8 -1 0 0 0 -2 0 7 0 -1 7 4 7 -1 7 2 7 4 -2 7 2 -1 4 2 -1 4 2 -1 7 4 7 -2 4 7 -1 3 5 5 -1 7 4 4 3 -2 3 3 7 -1 7 3 3 -1 7 3 7 4 -1 7 5 7 0 -1 0 8 0 3 -1 8 8 0 0 8 -1 8 4 4 3 8 -1 0 0 -1 8 7 5 -1 4 3 4 -1 7 3 7 -1 3 2 5 5 -2 7 4 3 7 5 -1 7 8 7 -1 7 8 8 7 4 7 4 -1 0 7 4 2 -1 7 8 -1 7 0 7 -2 7 8 7 4 4 -1 7 4 4 2 2 7 -1 4 2 8 5 5 -1 7 6 5 -2 7 4 7 2 7 3 5 -1 5 5 7 4 2 7 8 5 5 7 -2 7 4 8 7 4 3 5 4 8 7 2 7 5 7 5 7 -2 7 4 7 5 -1 4 3 3 7 -1 7 3 3 7 3 -1 3 3 7 3 7 1 -1 1 1 -2 1 1 2 8 -1 4 3 8 3 -1 7 2 4 1 -1 2 7 5 -1 7 4 7 5 -1 2 4 4 -2 2 7 -1 4 7 4 -1 7 2 4 -1 4 2 5 2 -1 7 4 5 5 -2 7 2 8 -1 4 7 2 -1 4 7 -1 7 0 7 4 -1 7 2 0 0 1 -1 1 1 7 1 1 -1 7 1 1 1 -1 1 9 1 -2 1 4 4 -1 7 2 8 8 7 -1 7 2 2 4 5 7 -1 7 5 7 3 5 -1 5 5 2 7 6 2 4 -2 4 8 2 6 -1 6 8 2 6 -1 5 5 7 -1 5 6 7 -1 2 5 -2 1 6 6 2 -1 7 8 6 4 -1 1 1 5 8 1 5 -1 5 7 3 5 -2 6 3 -1 7 3 7 -1 7 3 4 3 7 3 -1 5 3 4 4 -1 4 4 4 3 -1 3 4 3 7 -1 2 7 4 -1 3 3 6 -1 7 6 7 -1 2 2 -1 4 7 -2 2 4 -1 7 4 -1 4 6 7 1 2 -1 3 7 2 4 4 -1 6 7 6 4 5 -1 6 4 6 7 -1 4 4 6 -2 5 4 6 2 -1 7 1 8 -1 7 2 6 -1 5 6 4 7 -1 7 6 -1 6 -1 4 2 -1 2 5 -2 7 -1 7 2 7 -1 7 5 3 -1 5 7 -1 7 2 7 4 -1 7 2 1 7 -1 7 5 -2 6 4 -1 2 6 7 -1 7 3 7 -1 8 4 6 -1 7 6 7 -1 3 2 -1 5 4 -2 7 6 2 -1 8 7 3 7 -1 7 3 7 -1 7 5 -1 5 8 4 -1 6 5 5 4 -1 8 8 4 -2 8 7 2 6 -1 7 -1 2 7 6 -1 2 7 4 -1 5 7 4 -2 2 7 -1 5 4 7 8 -1 7 2 7 2 -1 2 7 4 -2 4 7 4 -1 7 8 4 8 -1 6 7 4 7 -1 3 4 4 -1 6 7 8 -1 3 3 -2 7 4 4 -1 7 5 5 7 -1 4 4 8 -1 4 2 7 8 7 -1 7 6 -1 4 8 7 4 4 8 -2 8 -1 4 7 4 -1 2 2 7 -1 2 2 -1 5 7 -1 7 8 4 -1 7 6 -2 7 3 6 2 -1 5 2 8 -1 3 4 8 -1 2 5 4 -1 5 3 -1 2 5 8 -2 8 -1 2 7 -1 8 3 8 7 -1 3 7 -1 7 4 7 -1 7 5 -1 8 4 6 7 4 -1 2 4 8 3 8 7 -2 5 4 -1 7 2 -1 4 8 6 -1 2 4 -1 6 4 6 -1 5 2 -1 8 8 -2 8 2 -1 2 6 8 -1 8 5 4 -1 8 5 6 -1 8 5 8 -2 7 8 4 -1 7 4 7 -1 4 5 7 -1 2 7 -1 7 5 -2 2 4 -1 4 4 5 -1 7 2 7 -1 5 7 -1 7 -1 4 -1 2 7 -2 8 7 3 -1 4 3 3 7 4 4 7 4 7 4 4 3 3 4 5 7 8 -2 4 3 -1 4 3 2 -1 3 8 4 4 -1 8 2 9 -1 4 8 -2 4 5 9 -1 5 4 -1 4 9 -1 7 7 4 2 -1 2 4 -2 7 4 8 9 -1 8 -1 8 4 2 -1 8 2 8 -1 4 5 -1 7 5 -1 3 4 -1 8 8 -1 9 7 -2

Figura 28 - Input PrefixSpan "Luisa Via Roma"

Page 94: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

84

Di seguito sono riassunti i risultati con livello di soglia ? = 50%.

Qui si vede l’output dell’algoritmo con soglia \ = 60% e si nota come il Cluster 7 sia

effettivamente il più presente nei pattern ricorrenti ad una soglia così alta di supporto.

Qui, invece, si vede l’output con soglia \ = 40% e si nota un notevole incremento nei

pattern scoperti e nella lunghezza di questi ultimi.

1 -1 #SUP: 4 1 -1 7 -1 #SUP: 3 3 -1 #SUP: 3 4 -1 #SUP: 3 4 -1 7 -1 #SUP: 3 7 -1 #SUP: 5 7 1 -1 #SUP: 4 7 1 -1 7 -1 #SUP: 3 7 -1 7 -1 #SUP: 3

Figura 29 - Output 0.6 PrefixSpan "Luisa Via Roma"

1 -1 #SUP: 4 1 5 -1 #SUP: 2 1 -1 3 -1 #SUP: 2 1 -1 3 3 -1 #SUP: 2 1 -1 3 4 -1 #SUP: 2 1 -1 3 4 -1 7 -1 #SUP: 2 1 -1 3 4 -1 8 -1 #SUP: 2 1 -1 3 -1 7 -1 #SUP: 2 1 -1 3 -1 8 -1 #SUP: 2 1 -1 4 -1 #SUP: 2 1 -1 4 -1 7 -1 #SUP: 2 1 -1 4 -1 8 -1 #SUP: 2 1 -1 7 -1 #SUP: 3 1 -1 8 -1 #SUP: 2 3 -1 #SUP: 3 3 3 -1 #SUP: 2 3 4 -1 #SUP: 2 3 4 -1 7 -1 #SUP: 2 3 4 -1 8 -1 #SUP: 2 3 -1 3 -1 #SUP: 2 3 -1 3 3 -1 #SUP: 2 3 7 -1 #SUP: 2 3 -1 7 -1 #SUP: 2 3 -1 8 -1 #SUP: 2 4 -1 #SUP: 3 4 7 -1 #SUP: 2 4 7 -1 7 -1 #SUP: 2 4 -1 7 -1 #SUP: 3 4 -1 8 -1 #SUP: 2 5 -1 #SUP: 2 7 -1 #SUP: 5 7 1 -1 #SUP: 4

7 1 5 -1 #SUP: 2 7 1 -1 3 -1 #SUP: 2 7 1 -1 3 3 -1 #SUP: 2 7 1 -1 3 4 -1 #SUP: 2 7 1 -1 3 4 -1 7 -1 #SUP: 2 7 1 -1 3 4 -1 8 -1 #SUP: 2 7 1 -1 3 -1 7 -1 #SUP: 2 7 1 -1 3 -1 8 -1 #SUP: 2 7 1 -1 4 -1 #SUP: 2 7 1 -1 4 -1 7 -1 #SUP: 2 7 1 -1 4 -1 8 -1 #SUP: 2 7 1 -1 7 -1 #SUP: 3 7 1 -1 8 -1 #SUP: 2 7 3 -1 #SUP: 2 7 3 3 -1 #SUP: 2 7 5 -1 #SUP: 2 7 -1 3 -1 #SUP: 2 7 -1 3 3 -1 #SUP: 2 7 -1 3 4 -1 #SUP: 2 7 -1 3 4 -1 7 -1 #SUP: 2 7 -1 3 4 -1 8 -1 #SUP: 2 7 -1 3 -1 3 -1 #SUP: 2 7 -1 3 -1 3 3 -1 #SUP: 2 7 -1 3 -1 7 -1 #SUP: 2 7 -1 3 -1 8 -1 #SUP: 2 7 -1 4 -1 #SUP: 2 7 -1 4 -1 7 -1 #SUP: 2 7 -1 4 -1 8 -1 #SUP: 2 7 -1 7 -1 #SUP: 3 7 -1 8 -1 #SUP: 2 8 -1 #SUP: 2

Figura 30 - Output 0.4 PrefixSpan "Luisa Via Roma"

Page 95: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

85

Le soglie usate possono sembrare basse rispetto alle applicazioni di mining classico,

dove ci si aggira attorno all’85% di supporto minimo, ma la particolarità del contesto

rende questi risultati comunque molto interessanti, vista l’alta variabilità possibile in

ogni post.

Queste analisi portano a concludere, con buona probabilità, che le variazioni di

engagement sono più probabili a seguito della presenza di un post randomico (Cluster

7) nella sottosequenza in esame, ciò indica che una forte diversificazione dei contenuti

dei post vicini temporalmente porta allo sviluppo di una variazione dell’engagement.

Questa conclusione può essere fonte utilissima per l’azienda e il brand poiché, oltre a

permettere di capire come si sviluppa il fenomeno engagement sulla propria pagina e

nel proprio ambito di azione, fornisce una indicazione di massima su come, in via del

tutto teorica, incrementarlo.

Questo tipo di analisi e considerazioni permette all’azienda di impostare una politica

comunicativa adeguata al bacino di utenza della propria pagina, adattando, quindi, i

contenuti in base alle dinamiche evolutive imposte dalla base utenti stessa.

4.5 Conclusioni

In questo capitolo si sono adottate metodologie tipiche del text mining e del log

mining (process mining) e sono state adattate allo scopo di creare cluster di post e

scoprire interessanti ricorrenze all’interno della sequenza di post di una pagina.

Come sempre, bisogna ribadire, che i concetti qui esposti tramite degli esempi presi

nel contesto della moda e su Facebook hanno carattere generale e con pochi

accorgimenti possono essere adattati ai più disparati ambiti e social network.

Page 96: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

86

Conclusioni e Sviluppi Futuri

Come abbiamo visto numerose sono le metodologie e le analisi possibili nell’ambito

dei social network e ciò che abbiamo presentato fino ad ora è un tentativo di unificare,

definire meglio e formalizzare le più utilizzate e partendo da esse definirne di nuove,

più “stringenti”, che siano in grado di dettagliare maggiormente e giustificare le

considerazioni che si evincono dai loro risultati.

Per lo scopo iniziale dal quale il progetto di tesi è scaturito, le metriche presentate

devono essere considerate come un’unica metodologia che osserva lo stesso

problema, o singoli sottoproblemi, da facce differenti e che quindi nell’integrazione

rende possibile l’analisi a più livelli di profondità del problema iniziale, permettendo, in

ultima analisi, una più completa reportistica.

Se osserviamo il problema dal punto di vista aziendale, le tecniche presentate

rappresentano un bacino di metodologie e metriche dal quale attingere in base ai

requisiti che, di volta in volta, si vogliono soddisfare nelle analisi e nei report.

È fondamentale quindi un approccio basato sul dialogo tra le parti, l’azienda definisce

dei requisiti e la tipologia di reportistica voluta, l’esperto di analisi decide quali

metodologie, metriche e tecniche utilizzare e come impostare il report in base ad una

conoscenza dell’azienda target e del contesto in cui si muove e per fare ciò è

necessaria una terza figura, quella dell’esperto di dominio, senza il quale non si

possono superare svariati problemi che, come abbiamo visto, affliggono questo ambito

di studio.

In ultima istanza il problema dell’analisi dei social media e della reportistica dei risultati

scaturisce in svariati problemi di comprensione dei requisiti, scelta degli strumenti più

adatti, adattamento degli strumenti, recupero dei dati necessari per le analisi, analisi

dei dati ed estrapolazione di risultati e considerazioni e, per ultimo, ma non meno

Page 97: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

87

importante, di presentazione di essi in un modo formale, quanto più comprensibile

dall’azienda richiedente.

Nel miglioramento di ogni singolo passaggio di questo processo scomposto troviamo

dei problemi ancora da analizzare e studiare che rappresentano o possono

rappresentare sviluppi in corso e futuri.

Il principale tra essi è rappresentato dalla valutazione e dal miglioramento della qualità

dei dati da analizzare.

Come abbiamo visto nel Capitolo 2, i dati presenti sui social network sono spesso ricchi

di errori, imprecisioni e ancor più spesso sono contaminati da dati fraudolenti generati

da bot.

Per migliorare i risultati delle nostre analisi è quindi di fondamentale importanza avere

un modo e una metodologia, supportata da strumenti automatici, per ripulire i dati e

alzarne la qualità complessiva.

Lungo questa direttiva il mondo scientifico e accademico sta muovendo i primi passi

cercando di adattare metodologie studiate in altri ambiti, quali database relazionali e

non relazionali e data streaming, all’ambito dei dati non strutturati e provenienti dai

social.

Le tecniche principali cercano di trovare soluzione al problema dei bot, individuandoli

tramite anomalie nelle serie di valori, o tramite comportamenti sospetti con metodi di

pattern recognition e di previsione e classificazione.

Una soluzione, anche solo parziale, a questo problema, porterà sicuramente enormi

benefici a tutto il campo della Social Media Analysis che potrà così essere applicata in

un numero maggiore di ambiti e di situazioni per fornire analisi ancora più precise e

dettagliate.

Un settore sicuramente in crescita è rappresentato dalle applicazioni di data mining su

dati non strutturati, sia seguendo la strada dell’analisi testuale e della pattern

discovery, come abbiamo fatto noi, sia seguendo altri approcci basati sulla sentiment

analysis o su tecniche simili.

Page 98: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

88

In questo ambito vanno affrontati molti problemi incontrati durante la trattazione:

trovare metodi di classificazione dei post più efficaci e basati sull’uso sia del testo che

della parte strutturata di dati; definire processi e algoritmi di tokenizzazione, filtering e

stemming adatti all’ambito dei social e ancor di più ad ambienti di nicchia come quello

della moda o simili (uno stemming che riconosca tramite un semplice dizionario i

termini propri comuni del mondo della moda e i vari brand).

Questi sviluppi permetterebbero un ancor più dettagliato e profondo uso dei metodi

presentati e di altri metodi correlati.

Altri settori di futuro sviluppo prevedono il miglioramento delle tecniche di Data

Exploration utili sia a ricavare considerazioni ulteriori sia a presentare la reportistica in

modo chiaro e preciso.

Un’ultima considerazione va data allo sviluppo di tecniche che studiano le interazioni

di un utente o di una pagina su più social network ricreandone pattern di “movimento”

e network congiunti di amicizie e contatti.

Avanzamenti in questa direzione porterebbero giovamento al problema di indagare più

approfonditamente il qui presentato post lifecycle per scoprire in che modo la

diffusione dei post ai nodi influencer porti quel giovamento.

In generale l’ambito in cui ci siamo mossi è ancora poco studiato e discusso, ma al

centro dell’interesse generale, le aziende e i brand mostrano sempre maggiore

interesse verso questo tipo di analisi e verso i risultati che possono portare, per

migliorare piazzamento nel mercato, campagne marketing e comunicazione con i

clienti oltre che fidelizzazione degli stessi.

Page 99: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare
Page 100: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

90

Appendice A

Implementazione e Script

A.1 Introduzione

In questo capitolo di appendice sono presentati i principali script[21] utilizzati per

scaricare i post e le loro informazioni dai due social network presentati in precedenza.

Nel paragrafo A.2 vengono presentati i due script utilizzati per Twitter, il primo per

scaricare la totalità dei post di un utente o di una pagina, il secondo per cercare e

scaricare i post che presentano determinate keywords

Nel paragrafo A.3 vengono presentati in sequenza lo script utilizzato per scaricare

l’interezza de post di una pagina pubblica di Facebook e uno script ausiliario necessario

per aggiornare i parametri che concorrono a formare engagement e content cycle di

ogni singolo post.

Gli script qui presentati sono esposti tramite pseudocodice per brevità di esposizione,

ma mantengo le parti salienti degli originali script Python.

Il principale ambiente di sviluppo ed esecuzione utilizzato è stato iPython Notebook

versione 3.1.0.

Page 101: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

91

A.2 Script per Twitter

A.2.1 Page post download

Questo script permette il download degli ultimi 3240 tweet (secondo le limitazioni

delle API) di una pagina pubblica e li salva in formato csv (comma-separated value)

tramite un’apposita libreria.

Per interfacciarsi con le API utilizza tweepy, una libreria che mette a disposizione

funzioni di più alto livello e permette facilmente il download delle informazioni

necessarie per ogni tweet.

Risulta molto utile nel momento in cui si voglia monitorare una singola pagina pubblica

e i suoi tweet, dato che in questo modo si incappano in limitazioni minori rispetto ad

una ricerca per keywords.

Page 102: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

92

#TWITTER PAGE POST DOWNLOAD

import necessary library (tweepy, csv)

define OAuth credentials (consumer_key, consumer_secret, access_key, access_secret)

define function get_all_tweets(screen_name) {

authenticate with OAuth and pass credentials and access token to tweepy to initialize it create a list to hold all the tweepy tweets

#Twitter API let us download only 200 tweets at single call

make initial request for top 200 recent timeline tweets save tweets in the array

save the grabbed oldest ID

while there are new tweets {

make further request passing oldest ID save tweets in the array

update oldest ID }

#here we can further choose which information save and which discard transform the tweepy tweets into a 2D array that will populate the csv

create a blank csv file

{ using functions form csv library populate the csv reading from the 2D array

} }

define function main() {

call get_all_tweets(screen_name) passing wanted screen_name }

Codice 1 - Twitter page post download

Page 103: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

93

A.2.2 Keywords post download

Questo script permette il download di tweet in base ad una ricerca via keywords può

essere impostato per scaricare i più recenti, i più popolari o un mix dei precedenti, il

tutto entro le limitazioni imposte dalle API.

Utilizza anch’esso svariate librerie per poter interpretare ed elaborare l’output in

formato JSON delle chiamate ad API, per potersi autenticare e per poi poter salvare il

tutto in un database di tipo SQLite.

Risulta molto utile per seguire i trend (hashtags o insiemi di essi molto in voga in un

dato momento) soprattutto se eseguito più volte di seguito nello stesso periodo, in

modo da, in parte, superare le limitazioni imposte.

Page 104: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

94

#TWITTER KEYWORDS POST DOWNLOAD import necessary library (sys, urllib, string, simplejson, sqlite3, time, datetime, pprint, sqlalchemy, types, twython) define an array of ID (keywords, name or hashtags) separated by a coma define OAuth credentials (consumer_key, consumer_secret, access_key, access_secret) define a declarative base for the SQLite db define class Messages(declarative base) { define a tablename define all the attributes and type of the db define function init(all the attributes of the db) { initialize the db

} } #there is a limitation of 200 grabbed tweets by call so use the id of the single tweet to iterate define function get_data(ID, max_id) { get data with twython choosing the type of search (recent, popular, mixed) save data object } define function write_data(data object) { search data object and populate a db object for all the fields previously defined update the db } define class Scrape() { create a SQLite db and a open a connection session define function mainscrape()

{ enumerate IDs call get_data(ID, max_id) if returned data object is not empy { call write_data(data object) } commit session change ID and redo }

} define function main() { call Messages(declarative base) call Scrape() }

Codice 2 - Twitter keywords post download

Page 105: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

95

A.3 Script per Facebook

A.3.1 Page post download

Questo script permette il download dei post di una o più pagine pubbliche (fanpage) di

Facebook tramite ricerca dei loro ID e ne salva il contenuto e le informazioni volute in

un database SQLite.

Utilizza varie librerie per avere a disposizione funzioni di alto livello nell’interfacciarsi

con le API e con i formati di output delle richieste e per gestire il database.

Risulta utile nel momento in cui si voglia monitorare l’attività di una pagina e dei suoi

frequentatori, in questo senso Facebook non pone limitazioni sulla quantità di post

scaricati, ma solo sulla durata della connessione.

Page 106: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

96

#FACEBOOK PAGE POST DOWNLOAD import necessary library (sys, urllib, string, simplejson, sqlite3, time, datetime, pprint, sqlalchemy, types, re) define a declarative base for the SQLite db define class STATUS(declarative base) { define a tablename

define all the attributes and type of the db (including first-page and beyond comments array)

define function init(all the attributes of the db) { initialize the db

} } define the GRAPH API url with your own access token define function get_data(ID) { get data with simplejson save data object } define function write_data(data object) { search data object and populate a db object for all the fields previously defined update the db commit session } define class Scrape() { create a SQLite db and a open a connection session define function mainscrape()

{ define possible keywords

define IDs call get_data(ID) if returned data object is not empy { call write_data(data object) } commit session change ID and redo }

} define function main() { call STATUS(declarative base) call Scrape() }

Codice 3 - Facebook page post download

Page 107: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

97

A.3.2 Engagement updater

Questo script ausiliario permette di inserire le informazioni riguardanti numero di like,

commenti e condivisioni nonché calcolo del /0�#1&2!2�%�&# e del C0&#�&#C,7"�

per ogni singolo post.

Viene tenuto separato dal precedente script poiché, in questo modo, risulta possibile

eseguirlo più volte in un breve periodo di tempo in modo da avere i dati aggiornati

senza di volta in volta scaricare l’interezza del post e delle sue informazioni.

Per il funzionamento si appoggia al database SQLite creato in precedenza con l’altro

script, arricchendolo con alcuni attributi, per fare ciò utilizza ulteriori librerie.

La risorsa ottenuta è ancora una volta un database di tipo SQLite con tutte le

informazioni necessarie alle analisi successive.

Page 108: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

98

#FACEBOOK ENGAGEMENT UPDATER import necessary library (sys, string, simplejson, sqlite3, time, datetime, pprint, sqlalchemy, types, re, csv, urllib2, bs4, dateparser) define a declarative base for the SQLite db define class STATUS(declarative base) { define a tablename corresponding to the previous one

define all the attributes and type of the db (including first-page and beyond comments array) and add new attributes (feed_id, content_cycle, content_cycle_new, engagement)

define function init(all the attributes of the db) { initialize the db

} } open a connection with the existing defined db grab all statuses for each row in statuses { update attributes commit session } close session

Codice 4 - Facebook engagement updater

Page 109: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare
Page 110: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

100

Bibliografia

[1] Giacoma, Casali - “Elementi Teorici per la Progettazione dei Social Network”

Creative Commons Attribution-Share (2007)

[2] Freeman – “Lo Sviluppo dell’Analisi delle Reti Sociali. Uno Studio di Sociologia della Scienza”

FrancoAngeli Edizioni (2007)

[3] Salvini – “L’analisi delle Reti Sociali. Risorse e Meccanismi”

Edizioni Plus University Press, Pisa (2005)

[4] Boyd, Ellison - “Social Network Sites: Definition, History, and Scholarship”

Journal of Computer-Mediated Communication, 13(1), article 11 (2008)

[5] Solis – “Introducing The Conversation Prism”

www.briansolis.com (2008)

[6] Sterne – “Social Media Metrics”

John Wiley & Sons, Inc. (2010)

[7] Smitha – “Facebook Metrics Defined”

www.simplymeasured.com (2013)

[8] Xu – “Awareness Span in Facebook and Twitter”

www.simplymeasured.com (2014)

[9] Boyd, Golder, Lotan – “Tweet, Tweet, Retweet. Conversational Aspects of Retweeting on Twitter”

Proceedings of the 43rd

Hawaii International Conference on System Science (2010)

[10] Rogers – “Diffusion of Innovations”

Simon and Schuster (1962)

[11] Lazarsfeld, Katz – “Personal Influence,. The Part Played by People in the Flow of Mass

Communications”

Transaction Publishers (1955)

[12] Bakshy, Hofman, Mason, Watts – “Everyone’s an Influencer: Quantifying Influence on twitter”

Proceedings of the 4th

ACM International Conference on Web Search and Data Mining (2011)

[13] Backstrom, Huttenlocher, Kleinberg, Lan – “Group Formation in Large Social Networks:

Memebership, Growth, and Evolution”

Proceedings of the 12th

ACM SIGKDD International Conference on Knowledge Discovery and Data

Mining (2006)

[14] Katz, Shall, Doty, Murphy – “Defining Influence as a Strategic Marketing Metric”

Forrester (2009)

Page 111: SCUOLA DI INGEGNERIA INDUSTRIALE E DELL ...CYCLE NEI SOCIAL MEDIA Carlo Alberto Maria Viola Anno Accademico 2014 – 2015 Candidato Matricola 817407 Ringraziamenti Desidero ringraziare

101

[15] Aabrahamson, Rosenkopf – “Social Network Effects on the Extent of Innovation Diffusion: A

Computer Simulation”

Organization Science, Vol. 8, No. 3 (1997)

[16] Ramzan, van Zwol, Lee, Clüver, Hua – “Social Media Retrieval”

Springer (2013)

[17] Facebook API Documentations

www.developers.facebook.com/docs

[18] Twitter API Documentations

www.dev.twitter.com/overview/documentation

[19] Czernek – “Social Measurement Depends on Data Quantity and Quality”

MillwardBrown

[20] Okalow – “Investigating Social Media’s Spam-bot Problem”

www.b2bnn.com (2015)

[21] Russel – “Mining the Social Web”

O’Reilly Media (2013)

[22] Agrawal, Rakesh, Srikant – “Mining Sequential Patterns”

Proceedings of the 11th

International Conference on Data Engineering (1995)

[23] Slimani, Thabet, Lazzez – “Sequential Mining: Patterns and Algorithms Analysis”

arXiv preprint (2013)

[24] Pei, Jian, et al. “PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern

Growth”

Proceedings of the 29th

IEEE (ICDE) International Conference on Data Engineering (2001)

[25] Marzuran, Simoni, Tanca – “AIDA: An Application of Sequential Pattern Mining”

Politecnico di Milano

[26] SPMF

www.philippe-fournier-viger.com/spmf