Post on 15-Feb-2019
Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Intelligenza artificiale
Analisi semantica delle reti sociali
Anno Accademico 2017/2018 Candidato: Lorenzo Pinto matr. N46002189
Indice
Introduzione 1
1 Metodologie e tecniche per il trattamento delle informazioni nel
network semantico 3
1.1 Tecniche di crawling dei dati . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Analisi della distribuzione dei topic : metriche di centralita . . . . . . 5
2 Utilizzo delle reti semantiche per l’identificazione dei trends su
internet 6
3 Caso di studio: utilizzo delle reti semantiche per analizzare le
opinioni riguardo i vaccini sui social media 19
4 Caso di studio: utilizzo delle reti semantiche per lo studio della
nomofobia 30
Conclusioni e sviluppi futuri 36
Ringraziamenti 37
Bibliografia 38
ii
Elenco delle figure
2.0.1 Rete dei documenti pesati in base alla posizione dell’attore e per
similarita di contenuti . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.0.2 Ricerca per gradi di separazione per le parole: “Hillary Clinton” . . . 10
2.0.3 Ricerca per gradi di separazione per le parole: gun control, abortion,
gay marriage, iraq war, abortion . . . . . . . . . . . . . . . . . . . . . 11
2.0.4 Ricerca per gradi di separazione dei candidati presidenti nel 2006 . . 12
2.0.5 Valori di Betweenness dei candidati nel 2006 . . . . . . . . . . . . . . 13
2.0.6 Valori di Betweenness dei candidati considerando lo scorrere dei giorni 14
2.0.7 Valori di “positivita” e “negativita” per la Goldman Sachs . . . . . . 16
2.0.8 Correlazione dei prezzi azionari in base al web buzz . . . . . . . . . . 17
2.0.9 Curva del prezzo in base allo scorrere dei giorni . . . . . . . . . . . . 18
3.0.1 Documenti presi in esame . . . . . . . . . . . . . . . . . . . . . . . . 20
3.0.2 Risultati delle misurazioni . . . . . . . . . . . . . . . . . . . . . . . . 22
3.0.3 Rete dei concetti “positivi” scegliendo K = 4 . . . . . . . . . . . . . . 23
3.0.4 Rete dei concetti “negativi” scegliendo K = 4 . . . . . . . . . . . . . 24
3.0.5 Rete dei concetti “neutrali” scegliendo K = 2 . . . . . . . . . . . . . 25
3.0.6 Misurazioni di: Closeness, Betweenness, Degree . . . . . . . . . . . . 26
3.0.7 Misurazioni di: Eigenvector, Sentiment . . . . . . . . . . . . . . . . . 27
3.0.8 Nodi piu importanti classificati tramite la Eigenvector centrality . . . 28
iii
Analisi semantica delle reti sociali
4.0.1 Demografica dei partecipanti al sondaggio . . . . . . . . . . . . . . . 32
4.0.2 Occorrenza delle parole con misurazioni di centrality . . . . . . . . . . 33
4.0.3 Comparazione tra i gruppi “high” e “low” . . . . . . . . . . . . . . . 33
4.0.4 Rete del gruppo ad alto livello di nomofobia . . . . . . . . . . . . . . 34
4.0.5 Rete del gruppo a basso livello di nomofobia . . . . . . . . . . . . . . 35
iv
Introduzione
Un Social Network, nel web 2.0, e una struttura formata da attori che sono intercon-
nessi tra di loro mediante delle interazioni sociali. Aristotele, filosofo greco vissuto
nel IV sec. a. C., nella sua opera “Politica” descrisse l’uomo per la prima volta co-
me “Animale sociale”, ovvero tendente a vivere a stretto contatto con altri individui
condividendo con essi opinioni, pensieri, abitudini e in fin dei conti, la vita stessa.
L’antropologo A.R Radcliffe-Brown (17 Gennaio 1881 – 24 ottobre 1955), uno dei
pioneri nell’analisi del network sociale, ebbe l’intuizione che le strutture sociali non
dovessero essere solo rappresentate e capite in maniera simbolica ma anche misurate
ed analizzate. Infatti l’analisi del social network consente di mettere in risalto i feno-
meni di influenza sociale e di analizzare la diffusione di informazioni e la formazione
di opinioni e credenze.
Oggi la definizione di “Animale Sociale” e ancor piu vera poiche con la nascita del
web 2.0, l’umanita ha avuto accesso ad una piattaforma per una condivisione fa-
cile, accessibile ed immediata, delle proprie opinioni e, grazie all’analisi del social
network, e possibile studiare questa mole di informazioni. Gli utenti possono strin-
gere amicizie, condividere hobbies e informazioni coi propri amici; possono cercare
le news piu recenti disponibili online, informazioni riguardo i propri contatti, infor-
mazioni riguardo uno specifico argomento oppure condividere le proprie opinioni in
qualsiasi momento inviando o ricevendo messaggi formati da testo, immagini, video,
oppure una combinazione di questi tre tipi di dati.
1
Analisi semantica delle reti sociali
Questa composizione rende i dati provenienti dai social network estremamente etero-
genei poiche composti da piu attributi come il time-stamp o la posizione di quando il
messaggio e stato pubblicato. Spesso ai post sono correlati anche degli hashtag, un ti-
po di metadato utilizzato dagli utenti per classificare un determinato post, immagine
o video oppure per cercare contenuti aventi l’hashtag immesso nella ricerca.
La SNA (Social Network Analysis) viene utilizzata anche in sociologia per studiare
l’influenza di un determinato argomento sul comportamento collettivo oppure puo
essere sfruttata per studiare le opinioni di un gruppo di utenti, facenti parte di un
Social Network, riguardo un argomento in particolare.
Nella presente tesi, attraverso lo studio di articoli esposti nella piu recente lettera-
tura scientifica, si riportano le metodologie e le tecniche per l’analisi dei dati sui
social network. In particolare sono state analizzate diverse applicazioni utilizzate
nei seguenti casi di studio.
Il trattato Web Science 2.0: Identifying Trends through Semantic Social Network
Analysis (scritto da Peter A. Gloor, Jonas Krauss, Ste-fan Nann, Kai Fischbach,
Detlef Schoder) ci descrive utilizzando 3 esempi di come il web influenza il mondo
“offline” e com’e possibile identificare gli argomenti di maggior rilievo su internet.
Nel primo caso di studio estratto dall’articolo Semantic network analysis of vaccine
sentiment in online social media (scritto da Gloria J. Kang , Sinclair R. Ewing-
Nelson, Lauren Mackey, James T. Schlitt, Achla Marathe, Kaja M. Abbas, Samarth
Swarup) la SNA viene utilizzata per studiare le opinioni degli Americani sui vaccini
mediante Twitter.
Il secondo caso di studio, presente nel trattato Understanding Nomophobia: Struc-
tural Equation Modeling and Semantic Network Analysis of Smartphone Separation
Anxiety (scritto da Seunghee Han, Ki Joon Kim, Jang Hyun Kim) studia la nomo-
fobia identificando alcuni fattori che scatenano l’ansia di separazione dallo smart-
phone tramite un’analisi sul network semantico delle espressioni verbali utilizzate
dai possessori dei dispositivi mobili.
2
Capitolo 1
Metodologie e tecniche per il
trattamento delle informazioni nel
network semantico
Il network semantico e una struttura espressa in termini di nodi (attori) ed archi
che collegano i nodi mettendo in luce delle relazioni tra di essi. Una rete sociale
puo contenere dei dati estremamente eterogenei; ad esempio i dati prelevati da un
Social Network come Facebook o Twitter saranno formati da piu attributi come
il time-stamp o la posizione di quando il messaggio e stato pubblicato. Spesso
ai post sono correlati anche degli hashtag, un tipo di metadato utilizzato dagli
utenti per classificare un determinato post, immagine o video oppure per cercare
contenuti aventi l’hashtag immesso nella ricerca. Questo grande quantitativo di dati,
recuperati dai Social Network mediante specifiche tecniche di data crawling, puo
essere utile per effettuare un’analisi della rete sociale utilizzando la teoria dei grafi
con un approccio matematico sfruttando le misurazioni delle metriche di centralita.
3
Analisi semantica delle reti sociali
1.1 Tecniche di crawling dei dati
I dati possono essere ottenuti in piu modi possibili, ad esempio:
1. Mediante le interfacce API rese disponibili dai Social Network stessi (ad esem-
pio Twitter e Facebook), i dati vengono acquisiti mantenendo aperta una
connessione socket dopo aver passato la validazione OAuth L’OAuth e un pro-
tocollo che consente ai service provider di garantire l’accesso da parte di terzi
ai dati degli utenti senza pero fornire le loro password di accesso al sito, i dati
dopo esser stati raccolti, ovviamente devono esser resi anonimi.
2. Mediante l’utilizzo di software come ChatterGrabber, utilizzato nel trattato
Semantic network analysis of vaccine sentiment in online social media scrit-
to da Gloria J. Kang , Sinclair R. Ewing-Nelson, Lauren Mackey, James T.
Schlitt, Achla Marathe, Kaja M. Abbas, Samarth Swarup. ChatterGrabber
e un toolset opensource sviluppato per acquisire e schedare grandi volumi di
dati a basso costo. Ad esempio questo puo usare le RESTFUL API di Twitter
per realizzare ricerche in determinate zone geografiche locali, nazionali oppure
internazionali.
3. Utilizzando un tool chiamato Condor che include delle funzionalita per l’a-
nalisi automatica del testo consentendo inoltre l’individuazione dei valori di
betweenness centrality.
4
Analisi semantica delle reti sociali
1.2 Analisi della distribuzione dei topic : metri-
che di centralita
L’analisi delle reti sociali utilizza l’approccio matematico della teoria dei grafi che ri-
guarda insiemi di elementi e le relazioni tra di essi, gli elementi sono rappresentati dai
nodi mentre le relazioni dagli archi. Un nodo puo influire fortemente sugli altri nodi
ad esso vicini e vengono effettuate delle misurazioni di “centralita” che ci consentono
di determinare quali sono i nodi di rilievo all’interno della rete. Queste misurazioni
sono state effettuate mediante la degree centrality, betweenness centrality, closeness
centrality e la eigenvector centrality.
• La degree centrality e legata al numero di connessioni associate ad ogni singolo
nodo esprimendo il grado di connettivita di un nodo con la rete stessa.
• La betweenness centrality e uno strumento utile per calcolare il nodo piu im-
portante all’interno di un grafo; infatti questa puo esser vista come un’appros-
simazione dell’influenza che un nodo ha sul grafo complessivo, in altre parole
puo esser vista come una stima dell’importanza dei nodi all’interno della re-
te. La betweenness centrality in un Social Network tiene traccia del numero
di percorsi geodetici attraverso l’intera rete, ovvero tiene traccia dei percorsi
piu brevi che collegano le varie coppie di nodi. Il risultato del calcolo della
betweenness centrality di un concetto ha come risultato un valore numero com-
preso tra 0 e 1, con 0 significa che non c’e influenza di quel concetto nella sua
rispettiva sfera informativa, mentre se il valore sara diverso da zero significa
che quel concetto ha un’importanza relativa rispetto gli altri.
• La closeness centrality e legata alla soluzione del problema dello shortest path,
ovvero tra un nodo e tutti quelli raggiungibili tramite esso. Consente di
esprimere quanto due concetti sono vicini tra loro.
• La eigenvector centrality e legata all’influenza di un nodo nel network e misura
la reputazione del nodo considerato in base ai nodi circostanti.
5
Capitolo 2
Utilizzo delle reti semantiche per
l’identificazione dei trends su
internet
Internet e diventato un mezzo di comunicazione estremamente importante per la
diffusione di notizie dell’ultima ora, infatti esso puo esser visto come uno specchio
del “mondo reale”. Analizzando cio che le persone scrivono su internet e possibile
scoprire delle notizie recenti prima che esse diventino disponibili al resto del mondo
“offline”. Per compiere quest’analisi e possibile introdurre un metodo che misura
i cambiamenti della popolarita di alcuni politici solo basandosi sulle informazioni
reperibili da internet.
Per compiere quest’analisi si analizzano la comunicazione non strutturata e le infor-
mazioni provenienti dal web. Il web puo essere suddiviso in tre categorie differenti
che vengono studiate separatamente.
1. I forum, chiamati anche Wisdom of Swarms. I forum sono delle comunita
autorganizzate che contengono informazioni specifiche e recenti riguardo un
determinato soggetto, queste sono conservate e discusse in un topic ove piu
utenti collaborano alla discussione.
6
Analisi semantica delle reti sociali
2. I blog, chiamati anche Wisdom of Experts. Il numero dei blog e dei blogger e
aumentato in maniera esponenziale negli ultimi anni ed e in continua crescita.
In maniera differente rispetto ai forum, dove la news porta discussione tra gli
utenti, i bloggers sono degli individui esperti che esprimono la propria opinione
senza lasciare spazio a discussioni aperte agli altri utenti. Poiche un esperto
non ha sempre ragione e sarebbe rischioso affidarsi solo ad una singola opinione,
ma combinando piu blog differenti si puo raggiungere un’opinione collettiva di
utenti esperti riguardo un determinato argomento.
3. Il web in generale, chiamato anche Wisdom of Crowds. Gli argomenti possono
essere discussi su siti popolari o meno, oppure che trattano di argomenti di
attualita. Questa mole di informazioni e certamente la piu grande delle tre.
Queste tre differenti fonti sono utilizzate per l’analisi semantica dell’informazione e
della comunicazione. Nel corso di 6 anni e stato sviluppato un sofisticato strumento
di analisi sociale dei Social Network chiamato Condor che include un’analisi del testo
automatica capace di pesare il contenuto di cio che sta analizzando con la posizione
dell’attore (l’utente coinvolto nella discussione) all’interno del Social Network, infatti
la centralita dell’attore nella rete e un punto cardine dell’analisi compiuta da Condor.
7
Analisi semantica delle reti sociali
Figura 2.0.1: Rete dei documenti pesati in base alla posizione dell’attore e persimilarita di contenuti
Sono illustrati due screenshots dell’analisi compiuta da condor nello stesso documen-
to. Nell’immagine superiore della figura 1 [1] viene rappresento un Social Network
di attori basato sullo scambio di email, dove coloro che inviano e ricevono sono
rappresentati con dei nodi mentre gli archi rappresentano lo scambio di email.
L’immagine inferiore della figura 1 mostra la stessa rete ma in piu gli attori sono
raggruppati per similarita di contenuti della loro discussione. La densa zona blu
centrale rappresenta tutti gli attori che parlano di uno stesso argomento tramite
email.
8
Analisi semantica delle reti sociali
Viene definita un’analisi formata da “3 steps”: “Cosa, Chi, Come”
1. Cosa: i concetti estratti e misurati durante l’analisi.
2. Chi : gli attori che usano i concetti dei quali si vuole tener traccia.
3. Come: classifica i pensieri degli attori come negativi oppure positivi.
Il Cosa e il primo step per misurare l’importanza di un argomento all’interno della
corrispondente sfera di informazione (Web, Blog, Forum). Per calcolare un’appros-
simazione dell’importanza di un argomento in una determinata sfera informativa
occorre calcolare la betweenness centrality di questo argomento nella sfera stessa,
questa e stata calcolata in maniera periodica (ad esempio una volta al giorno oppure
una volta all’ora).
Per costruire il Social Network semantico di una sfera informativa occorre introdurre
una ricerca basata sui gradi di separazione. La ricerca basata sui gradi di separazione
costruisce una mappa del network che mostra come dei siti web o dei blog sono
correlati tra loro a seguito di una query di ricerca; ad esempio una ricerca per
ottenere il valore di betweenness di Hillary Clinton sul web funziona in questo modo:
1. Si inizia scrivendo “Hillary Clinton” in un motore di ricerca.
2. Si prendono i primi N risultati che la query, effettuata sul motore di ricerca,
ritorna.
3. Si ottengono M siti web che sono collegati a ciascuno degli N risultati ottenuti
al punto 2 mandando in esecuzione una “link: URL” query, dove l’URL e il
sito ottenuto al punto 2.
4. Si ripete lo step numero 3 fino a quando non si raggiunge il grado di separazione
desiderato.
9
Analisi semantica delle reti sociali
Figura 2.0.2: Ricerca per gradi di separazione per le parole: “Hillary Clinton”
Il nodo di livello 0 e la query stessa. I nodi di livello 1 sono gli URL collegati
direttamente alla query, ovvero i link ottenuti dalla ricerca originale. I nodi di livello
2 sono i risultati con rank maggiore ottenuti dalla “Link: URL” query e correlati ai
nodi del livello 1. La figura 2 [1] da una visuale di come i nodi di livello 1 e 2 sono
collegati; piu link sono collegati a quel nodo, piu centrale esso sara. Ad esempio, il
nodo etichettato come http://clinton.senate.gov e collegato ad un gruppo di nodi di
livello 2 che a loro volta sono collegati a dei nodi di livello 3, cio indica che il nodo
http://clinton.senate.gov e piuttosto centrale all’interno del grafo.
10
Analisi semantica delle reti sociali
Figura 2.0.3: Ricerca per gradi di separazione per le parole: gun control, abortion,gay marriage, iraq war, abortion
La ricerca basata sui gradi di separazione puo essere utile per mettere a paragone
l’importanza di concetti come gun control, abortion, gay marriage e iraq war. Argo-
menti che apparentemente non sono correlati tra loro potrebbero essere collegati su
internet da riferimenti o link. Cio significa che l’importanza individuale di un con-
cetto dipende da come esso e collegato con altri nodi e dalla sua centralita, rispetto
agli altri concetti, nel network. Le query compiute da Condor sono state eseguite
nel 2006, dove la guerra in Iraq stava dominando le testate giornalistiche americane
e dalla figura 3 si puo evincere come il network semantico mette a paragone questi
4 concetti. I quadrati sono le query, i cerchi sono gli URL. La grandezza denota il
valore di betweenness associata a quell’argomento.
La misurazione degli argomenti in voga su internet puo essere usata non solo per
misurare concetti astratti ma anche per misurare la popolarita delle persone. Ad
esempio consideriamo un esempio dove viene illustrata la popolarita sul web di
politici Repubblicani e Democratici.
11
Analisi semantica delle reti sociali
Figura 2.0.4: Ricerca per gradi di separazione dei candidati presidenti nel 2006
La figura 4 [1] mostra come 10 potenziali presidenti sono correlati tra loro mediante
la ricerca con angoli di separazione. Ogni colore identifica il set di nodi e link
tra loro recuperati dalla sfera informativa per ogni singolo candidato. Ad esempio
in blu troviamo i siti web e i link ritornati dalla query avente come concetto “Al
Gore”, in rosso vengono rappresentati i siti web ritornati da piu di una query. Piu
un nodo e grande maggiore importanza avra nel relativo network. La posizione
relativa di due concetti all’interno della rete puo essere interpreta come quanto essi
sono simili, in questo caso possiamo vedere come nella figura “Rudolph Giuliani” e
“Newt Gingrich” sembrano trovarsi assieme ma molto lontani sulla destra.
12
Analisi semantica delle reti sociali
Figura 2.0.5: Valori di Betweenness dei candidati nel 2006
La figura 5 [1] mostra la lista dei due sondaggi presidenziali alla fine del 2006 e li
compara in termini di valori di betweenness. Ci aspetteremmo che Hillary Clinton
e Rudy Giuliani fossero gli attori con maggiori connessioni nella nostra analisi, ma
basandoci sui valori della realta abbiamo che Al Gore e John Edwards si trovano in
prima posizione. La ragione l’inaspettata popolarita del non candidato Al Gore e
il rilascio del suo film An inconvenient truth, trattante il surriscaldamento globale,
che rende le ricerche su Al Gore non solo incentrate sulla sua figura come politico
ma anche come attore ed ambientalista. Difatti Al Gore connette varie comunita
web e argomenti portandolo ad avere un alto valore di betweenness centrality. Ri-
petendo le misurazioni nel tempo ci permette di notare dei cambiamenti dei valori
di betweenness centrality dei vari candidati e cio importante per misurare anche gli
argomenti in voga nelle sfere informative.
13
Analisi semantica delle reti sociali
Figura 2.0.6: Valori di Betweenness dei candidati considerando lo scorrere dei giorni
La figura 6 [1] illustra i cambiamenti dei valori di betweenness centrality di 14 conten-
denti alla presidenza nell’arco di 14 giorni e possiamo notare che questa, in generale,
diminuisce con lo scorrere dei giorni
Per quanto riguarda invece, lo step del Chi ci basiamo sull’idea che le parole di
alcune persone abbiano maggiore rilievo rispetto ad altre persone. Per approssimare
la loro influenza usiamo nuovamente la betweenness centrality e aggiungiamo un peso
relativo che varia con il variare dell’attore in gioco che sta usando quella frase. In
base alla sfera informativa desiderata, l’attore sara un sito Web, un blog oppure un
forum online.
Per pesare il concetto in base all’attore occorre moltiplicare il valore di between-
ness centrality associata all’attore con il valore di betweenness centrality associata
al concetto. Facendo riferimento all’esempio dei candidati in politica, la stima della
popolarita degli attori puo variare in base a dei siti definiti come Kingmakers. I
Kingmakers sono dei siti web che possono aumentare la betweenness centrality del
concetto originale grazie al loro valore elevato di betweenness centrality.
14
Analisi semantica delle reti sociali
Nel sondaggio presidenziale i siti Kingmakers sono wikipedia.org e ovaloffice2008.com.
Non sorprende il fatto che wikipedia sia moltro centrale come sito poiche i candidati
tendono a mantenere aggiornate le proprie pagine sul sito. Per ogni network ge-
nerato dalla ricerca per gradi di seperazione, se consideriamo siti come Wikipedia,
New York Times, Washington Post oppure i giornali nazionali, la popolarita del
candidato aumenta poiche questi siti saranno uniti al candidato tramite dei gradi di
separazione. Inoltre grazie ai siti Kingmakers otteniamo sempre un grafo connesso
poiche questi sono detti anche come superconnettori dato che collegano siti differen-
ti ad un unico individuo. Misurare come varia la betweenness centrality in base al
tempo e pesandola per contenuto o per individuo ci consente anche di identificare
ed analizzare nuovi argomenti in voga.
Bisogna considerare un terzo componente che deve essere introdotto all’interno del-
l’analisi. Non dobbiamo considerare solamente il Cosa e il Chi ma e importante
guardare anche i pensieri negativi e positivi all’interno della discussione. Per l’esem-
pio finale sono state caricate 21 discussioni, riguardo titoli azionari dalla community
di Yahoo! Finance, in Condor. Yahoo! Finance offre la possibilita a centinaia di
compagnie industriali di scambiare messaggi e il modo in cui gli attori parlano ri-
guardo un determinato argomento puo essere determinato sfruttando la Sentiment
Analysis effettuata da Condor. Tramite la funzionalita di analisi del testo, il software
puo identificare in maniera autonoma le parole e le coppie di parole piu frequenti
all’interno di un testo molto grande. Si vede che l’estrazione automatica delle parole
e delle coppie di parole risulta essere piu precisa del selezionare le parole positive o
negative a mano. E stato implementato un approccio a due passaggi, in un primo
momento si utilizza l’algoritmo di Condor per ottenere le parole singole o a coppie
che ricorrono con maggiore frequenza. Successivamente viene creata una lista di pa-
role e coppie di parole con pensieri positivi e negativi estratta dall’insieme ottenuto
nel primo passaggio.
15
Analisi semantica delle reti sociali
La lista dei concetti inoltre viene creata in base ad una determinata azienda. Con-
dor provvede la possibilita di escludere parole estremamente comuni come “the”,
“for”, “and”. Dopo l’identificazione delle liste positive e negative e stata estratta
la frequenza con la quale la compagnia scelta e stata associata ai termini presenti
nelle due liste come si evince dalla figura 7 [1] . La combinazione di queste tre
metriche, frequenza, positivita e negativita rappresenta il pensiero degli utenti del
forum riguardo una compagnia.
Figura 2.0.7: Valori di “positivita” e “negativita” per la Goldman Sachs
Pero questo approccio spesso non tiene conto della grammatica della frase consi-
derata, ad esempio la frase “Goldman is not good” potrebbe essere classifica come
positiva; ma in effetti e un problema che sembra essere raro. Leggendo un grande
numero di messaggi provenienti dai forum si puo verificare empiricamente che gli
attori usano con maggiore frequenza le frasi negative piuttosto che usare dei falsi
positivi. Ad esempio gli attori tendono ad utilizzare “is bad” anziche “is not good”.
Ora andiamo a combinare i tre step definiti in precedenza, il “Cosa, Chi, Come”.
Per testare questo approccio combinato sono stati raccolti su Yahoo! Finance dati
di 21 titoli azionari nell’arco di 213 giorni tra aprile ed ottobre nel 2008. Gli autori
hanno implementato un algoritmo che determina la correlazione tra il web buzz e
l’attuale prezzo del titolo azionario. Il web buzz e un’unione della betweenness delle
3 sfere informative riguardo quel titolo azionario. I “pensieri” degli attori del forum
16
Analisi semantica delle reti sociali
sono calcolati utilizzando le metriche introdotte in precedenza: frequenza, positivita
e negativita.
Ognuna di queste metriche e stata calcolata in due modi differenti: il modo piu
semplice e quello di considerare solo il pensiero in se mentre il secondo metodo
consiste nel pesare il pensiero rispetto alla posizione presa da un determinato attore
del Social Network.
Questo e reso possibile pesando la discussione all’interno del forum in base all’im-
portanza di colui che ha creato il post.
Possiamo vedere che questa classificazione influenza 8 indici: Web Betweenness,
Blog Betweenness, Positivity, Positivity Betweenness, Negativity, Negativity Bet-
weenness, WordCount (che rappresenta la frequenza) e infine WordCount between-
ness. I valori di questi indici sono stati calcolati in una finestra di 30 giorni. La
correlazione tra i prezzi dei titoli azionari ed gli indici del web buzz per la GoldMan
Sachs sono mostrati in figura 8 [1] e 9 [1].
Figura 2.0.8: Correlazione dei prezzi azionari in base al web buzz
17
Analisi semantica delle reti sociali
Figura 2.0.9: Curva del prezzo in base allo scorrere dei giorni
Notiamo che nei giorni in cui i commenti negativi diminuiscono, il prezzo del titolo
azionario sale e viceversa. Sviluppando questi esempi abbiamo visto come il web
in realta e uno specchio del mondo reale. Tenendo traccia dei concetti sul web,
differenziandoli secondo la loro sfera informativa di appartenenza e pesandoli in
base all’attore ci permette di scoprire degli argomenti in voga prima che il mondo
reale si accorga di essi.
18
Capitolo 3
Caso di studio: utilizzo delle reti
semantiche per analizzare le
opinioni riguardo i vaccini sui
social media
Utilizzando le reti semantiche e possibile studiare anche quali sono le opinioni degli
utenti dei social network riguardo specifici argomenti. Ad esempio un social media
come Twitter consente di acquisire in tempo reale dati riguardo le abitudini, cre-
denze e comportamenti di un gruppo di utenti usati come campione per l’utenza
complessiva del Social Network.
Facendo leva sui dati online, e possibile esaminare tramite degli studi come la popola-
zione reagisce riguardo argomenti come la salute pubblica, la possibilita di diffusione
di malattie e mediante queste ricerche si potrebbe trovare una soluzione all’incer-
tezza per le vaccinazioni. Lo sviluppo di internet ha provvisto nuove piattaforme
per la diffusione di informazione, spesso sono definibili anche di “disinformazione”,
portando nuovi problemi e sfide al vecchio problema della salute pubblica.
19
Analisi semantica delle reti sociali
Figura 3.0.1: Documenti presi in esame
L’obiettivo di quest’analisi e quello di esaminare cio che gli Americani provano
riguardo i vaccini usando le informazioni condivise da loro su Twitter.
Utilizzando il network semantico, i nodi rappresentano i concetti trovati nei messaggi
degli utenti (cio che gli utenti pensano riguardo i vaccini) e le connessioni tra i nodi
rappresentano le relazioni logiche tra i singoli concetti.
L’analisi del testo per la ricerca dei concetti richiede metodi e tecniche semi auto-
matiche dove l’informazione estratta dal Social Network e trattata sia in maniera
automatica sia elaborado i dati manualmente. Per far fronte a problemi come la
risoluzione dei sinonimi, e la riduzione delle ambiguita nel testo, la rete e stata
costruita manualmente per poi applicare successivamente l’analisi del network.
Per l’analisi dei tweets viene usato ChattersGrabber, un tool che acquisisce in maniera
casuale i tweets degli utenti negli Stati Uniti. Sono stati raccolti circa 27000 tweets,
tra il 16 aprile 2015 e il 29 maggio 2016, che contengono dei link o riferimenti testuali
a degli articoli o documenti trattanti i vaccini escludendo pero gli studi accademici
e i documenti di tribunale.
Come si evince dalla figura 1 [2], sono stati selezionati i 100 link piu condivisi e
sono stati scelti 50 di questi in maniera casuale per l’analisi, successivamente sono
stati classificati manualmente con aggettivi del tipo “positivo”, “negativo” oppure
20
Analisi semantica delle reti sociali
“neutrale” che esprimono se quell’articolo e favorevole o meno alla vaccinazione; gli
articoli che presentano ambiguita oppure opinioni contrastanti sono stati classificati
come neutrali. Sui 50 esempi scelti sono stati rappresentati 23 documenti aventi
pareri positivi nei confronti dei vaccini, 21 negativi e sono stati classificati come
neutrali. I blog post sono stati i documenti piu condivisi in generale, seguiti dalle
news. I documenti segnalati come “positivi” invece sono incentrati maggiormente
sulle vaccinazioni infantili, adolescenziali ed adulte mentre i documenti “negativi”
sono concentrati solo sulle vaccinazioni infantili.
La figura 1 rappresenta un riassunto dei documenti analizzati suddividendoli per
tipologia di pensiero, che esso sia positivo negativo oppure neutrale. Inoltre vengono
descritte anche la tipologia del documento, la provenienza, la popolazione target del
vaccino con la sua applicazione e infine il nome del vaccino se specificato.
Prima di procedere nell’analisi definiamo i nodi della rete come i singoli concetti
dei documenti analizzati, che potrebbero essere positivi, negativi oppure neutrali
mentre gli archi collegano i singoli concetti tra loro. L’analisi sul pensiero positivo,
negativo, neutrale si concentra sul componente piu connesso; sono state utilizzate
diverse misurazioni come ad esempio la grandezza della rete creata, il numero totale
di nodi presenti con la loro densita, la densita degli archi che misura il livello di
interconnessione dei nodi ed infine il diametro che misura la compattezza della rete.
Sono state effettuate delle misurazioni riguardo la centralita di un concetto e co-
me questo viene messo in risalto nella rete specificando la sua influenza sugli altri
concetti e la sua importanza.
Degli algoritmi di community detection descrivono i gruppi coesi della rete e i gruppi
dei concetti importanti sono rappresentati da una rete avente al massimo k-core,
dove k e il numero minimo di gradi che i nodi devono avere; ovvero scegliendo k =
4 significa che un nodo deve avere al minimo 4 connessioni con 4 nodi differenti per
essere rappresentato dalla rete.
21
Analisi semantica delle reti sociali
Figura 3.0.2: Risultati delle misurazioni
La figura 2 [2] rappresenta le misurazioni specifiche per le tre reti. La rete semantica
piu grande e formata dai sentimenti “negativi” (n=21) con 90.9 concetti (nodi) per
documento, decisamente maggiore rispetto ai sentimenti ”positivi” e “neutrali”.
Riguardo la misura greatest component subgraph si fa riferimento, appunto, al com-
ponente piu grande del sottografo. Il piu grande per quando riguarda il network
negativo e grande 1140 concetti rispetto ai 585 del network positivo e 171 del net-
work neutrale ma quello negativo e meno denso rispetto gli altri due.
22
Analisi semantica delle reti sociali
Mediante le figure 3 [2], 4 [2] e 5 [2]; sono mostrati i sottografi aventi K core (ogni no-
do ha almeno K connessioni verso gli altri nodi) e facenti riferimento alle 3 tipologie
di network.
Figura 3.0.3: Rete dei concetti “positivi” scegliendo K = 4
23
Analisi semantica delle reti sociali
Figura 3.0.4: Rete dei concetti “negativi” scegliendo K = 4
24
Analisi semantica delle reti sociali
Figura 3.0.5: Rete dei concetti “neutrali” scegliendo K = 2
La grandezza della rete indica il numero dei concetti presenti e la densita esprime il
grado di interconnessione dei concetti stessi. Ora consideriamo gli argomenti trattati
da ogni tipo di rete.
25
Analisi semantica delle reti sociali
Figura 3.0.6: Misurazioni di: Closeness, Betweenness, Degree
La figura 6 [2] include le misure di centralita per i concetti piu importanti delle
tre reti. La degree centrality e rappresentata dal raggio del nodo, la betweenness
centrality sull’asse x e la csull’asse y.
26
Analisi semantica delle reti sociali
Figura 3.0.7: Misurazioni di: Eigenvector, Sentiment
La figura 7 [2] mostra invece i concetti piu importanti classificati tramite la eigen-
vector centrality.
27
Analisi semantica delle reti sociali
Figura 3.0.8: Nodi piu importanti classificati tramite la Eigenvector centrality
I nodi centrali per i pensieri positivi sono parents, vaccines, children, measles. Per
i pensieri negativi invece sono vaccines, children, vaccine industry e cosı via; infine
per i pensieri neutrali i nodi centrali risultano essere vaccines, side effect, pertussis
vaccine e cosı via.
Quella della centralita e una metrica utile per capire l’organizzazione del network
semantico dei vaccini, infatti essa e vista come una misurazione diretta dei concet-
ti che sono “attivati” con maggiore frequenza dagli utenti. Molti concetti centrali
della rete positiva sono presenti in quella negativa, ma non viceversa. Ad esempio,
I documenti positivi e neutrali fanno un riferimento esplicito al concetto di “anti
vaccinazione” mentre cio non accade in quelli negativi, nei documenti positivi non
sono presenti riferimenti all’industria dei vaccini e ai media. Concetti significativi
relativi alla sfera positiva sono correlati al mondo della salute e alla medicina come
autismo, vaccino HPV, collegamento tra vaccini e autismo, vaccino MMR.
28
Analisi semantica delle reti sociali
Mentre la sfera negativa ha molti riferimenti al mondo dell’industria e delle orga-
nizzazioni come CDC, industria dei vaccini, dottori, compagnie parafarmaceutiche
e Stati uniti. Possiamo evincere un notevole contrasto tra il nodo parents che e il
concetto centrale della rete positiva e il nodo children il nodo centrale della rete ne-
gativa. La prevalenza dei pensieri negativi e dimostrata attraverso uno scetticismo
ed una mancanza di fiducia nei confronti delle istituzioni e delle organizzazioni che
presentano prove dei benefici dei vaccini. I pensieri positivi invece si concentrano
sulla fiducia nei confronti delle prove scientifiche messe a disposizione e nei confronti
delle autorita. Quelli neutrali invece presentano un insieme dei pensieri positivi e
negativi. Nel momento in cui e stato effettuato lo studio, numerosi documenti pre-
sentavano dei riferimenti alla legge 277 proposta dal Senato della California la quale
proponeva la rimozione dell’obbligo di vaccinazione all’interno delle scuole; infatti
la news ha condizionato sia dei documenti con pensieri positivi che negativi.
I documenti trattanti pensieri positivi e neutrali presentano una rete semantica piu
densa ma con meno componenti se paragonata alla rete negativa dove e presente un
alto numero di concetti ma con bassa connettivita. Se paragonato al network posi-
tivo, quello negativo ha meno componenti, minore densita degli archi, un diametro
maggiore e un path tra i nodi maggiore. I documenti che descrivono i pensieri positi-
vi indicano una grande coesione rispetto a quelli raffiguranti i pensieri negativi e cio
significa che ci sono piu argomenti costituenti una rete negativa piu grande e di con-
seguenza possiamo dedurre che ci sono piu fattori che contribuiscono all’esitazione
nei confronti delle vaccinazioni.
Ovviamente viene supposto che la mole di informazioni condivisa su Twitter fosse
rappresentativa dei pensieri degli americani nei confronti dei vaccini ma potrebbe
non riflettere appieno i pensieri dell’intera popolazione; pero lo studio ha consentito
di affermare che mediante l’analisi della rete semantica di un social network e stato
possibile studiare i pensieri di una cerchia della popolazione riguardo un determinato
argomento.
29
Capitolo 4
Caso di studio: utilizzo delle reti
semantiche per lo studio della
nomofobia
Le reti semantiche permettono di evidenziare come e quanto le persone si sentono
legate ai propri cellulari mobili sfruttando, in questo studio, i dati ottenuti da un
sondaggio. Gli smartphone sono diventati parte integrale della vita di ogni giorno
e cosı come hanno portato degli effetti positivi influenzando sia la vita della societa
che la vita dell’individuo, hanno portato anche problemi come il sovrautilizzo ed un
senso di dipendenza. In maniera specifica, e provato che la separazione da smartpho-
ne sia causa di aumento della pressione sanguigna, ansia e sentimenti poco piacevoli
come l’impossibilita di essere reperibili oppure la mancata comunicazione virtuale
abituale. Questa particolare condizione d’animo e detta nomofobia. Degli studi sug-
geriscono che la nomofobia possa essere un indicatore della presenza di un disturbo
sociale per individui che hanno una forte dipendenza nel comunicare esclusivamente
mediante sistemi di comunicazione virtuali. La dipendenza da smartphone e in conti-
nuo aumento grazie all’avanzamento tecnologico che rende questi dispositivi sempre
piu irresistibili ed indispensabili con l’introduzione di funzionalita estremamente utili
30
Analisi semantica delle reti sociali
per la vita di tutti i giorni.
Andiamo a definire alcune ipotesi che ci consentono di delineare la nomofobia e il
suo studio mediante il network semantico.
Russel Belk, nel suo trattato Possession and the extend self afferma che l’individuo,
che esso sia consapevole o meno, vede cio che possiede come un’estensione di se
stesso ed il possesso di uno smartphone non solo comporta un cordone ombelicale
con l’infrastruttura di informazione digitale della societa ma forma anche un archivio
di memorie personali.
Kleine in Journal of Consumer Research scrive che anche il recupero immediato
di memorie personali giochi un ruolo preponderante nel considerare lo smartphone
come estensione di se stessi. Questi dispositivi offrono caratteristiche sia computa-
zionali che di memoria che li rende paragonabili a dei computer e sono degli utilissimi
strumenti per conservare, condividere e recuperare memorie personali che riflettono
l’identita dell’utilizzatore; cio ovviamente aumenta il senso di estensione di se stessi.
Inoltre alcuni studi hanno dimostrato che l’individuo tende a stringere un legame
emozionale con un oggetto quando questo viene percepito come un’estensione di se
stessi. Quando viene formato il senso di attaccamento con l’oggetto, l’individuo non
solo desidera starne a contatto ma e anche riluttante a separarsene, provando senti-
menti negativi quando essi ne sono allontanati. Questo suggerisce che la nomofobia
e una funzione del grado con il quale l’utilizzatore e “affezionato” al proprio disposi-
tivo. Una ovvia conseguenza della nomofobia e che l’utilizzatore tende a controllare
continuamente il proprio device tendendolo sempre a stretto contatto. Nell’ottobre
del 2016 in Sud Corea e stato creato un sondaggio utilizzando Google Form e diffuso
tra varie comunita online di studenti universitari per studiare il loro attaccamento
al dispositivo mobile. Tutte le variabili sono state misurate con una scala che va da
il valore 1 (Fortemente in disaccordo) a 7 (Fortemente d’accordo). Inoltre e stata
aggiunta una domanda a risposta aperta che chiedeva a coloro che rispondevano al
songaggio di descrivere cosa essi provavano riguardo i propri smartphone.
31
Analisi semantica delle reti sociali
Al sondaggio hanno risposto 301 individui (138 uomini e 163 donne) con un’eta
variabile tra i 18 ed i 37 anni.
Figura 4.0.1: Demografica dei partecipanti al sondaggio
Il risultato del sondaggio e espresso in figura 1 [3]:
Su questi dati e stata condotta un’analisi semantica del network. L’analisi e stata
realizzata utilizzando Wordij 3.0 che ha creato una matrice di occorrenze che mostra
la frequenza delle parole di coloro che hanno risposto alla domanda aperta presente
nel questionario.
Lo studio ha diviso le 301 persone in due gruppi distinti. Il primo gruppo formante
i soggetti estremamente soggetti alla nomofobia (circa il 25%) e nel secondo gruppo
coloro non soggetti alla nomofobia. Il primo viene chiamato high mentre il secondo
low.
32
Analisi semantica delle reti sociali
Dopo aver effettuato delle misurazioni statistiche e stata generata la rete semantica
che mette a paragone le differenze nella percezione degli smartphone tra i due gruppi
di persone. La rete e state creata utilizzando Ucinet versione 6 e Netdraw.
Figura 4.0.2: Occorrenza delle parole con misurazioni di centrality
La figura 2 [3] mostra le parole piu frequenti nelle risposte libere con le misurazio-
ni statistiche dell’analisi semantica della rete, le prime dieci parole sono quelle piu
utilizzate e sono inoltre quelle ad avere maggior centralita all’interno della rete. L’a-
nalisi ha rivelato che le parole come cons, easy, eyes, medium sono frequentemente
utilizzate in entrambi i gruppi come riportato all’interno della figura 3 [3].
Figura 4.0.3: Comparazione tra i gruppi “high” e “low”
33
Analisi semantica delle reti sociali
Common word indica che le parole sono comunemente utilizzate in entrambi i gruppi.
Le parole sotto la categoria “High > Low” sono quelle usate maggiormente dal
gruppo con alta nomofobia e Unique words indica le parole uniche usate da ciascun
gruppo. Le parole comuni sono in ordine alfabetico, quelle uniche in ordine di
frequenza.
Figura 4.0.4: Rete del gruppo ad alto livello di nomofobia
La figura 4 [3] illustra il network semantico del gruppo classificato come high. Questa
consiste in 66 nodi e 115 archi e le parole utilizzate da questo gruppo descrivono
gli smartphone come mezzi per cercare informazioni, utili per la comunicazione,
descrivono un utilizzo quotidiano e i pro ed i contro del loro utilizzo.
34
Analisi semantica delle reti sociali
Figura 4.0.5: Rete del gruppo a basso livello di nomofobia
D’altro canto la figura 5 [3] illustra il network semantico del gruppo classificato come
low che consiste di 71 nodi e 107 archi.
Questo studio propone e valida un modello teorico che spiega un possibile processo
in cui gli utilizzatori di smartphone sono indotti alla nomofobia. Nel momento in
cui uno smartphone evoca delle memorie personali, l’utente estende maggiormen-
te la propria identita con quella del dispositivo stesso. Quando l’utente percepi-
sce lo smartphone come una propria estensione, egli sara sempre piu attaccato al
dispositivo e cio porta alla nomofobia e alla tendenza a tenere con se il device.
35
Conclusioni
Le reti semantiche, quindi, risultano essere uno strumento estremamente utile per lo
studio dei fenomeni sociali creando una rappresentazione della conoscenza dei dati,
nei casi presi in considerazione, estratti da internet. Queste basano la loro strut-
tura sulla teoria dei grafi ed utilizzando un approccio matematico e stato possibile
misurare quanto determinati argomenti risultano importanti nel panorama preso in
considerazione e quanto questi abbiano la capacita di influire gli argomenti correlati.
Nel capitolo 2 tramite le reti semantiche sono stati studiati i trends su internet,
ovvero gli argomenti maggiormente in voga in una ristretta cerchia di persone, e come
determinati avvenimenti, o siti specifici, possano addirittura cambiare la popolarita
di alcuni politici.
Nel capitolo 3 le reti semantiche sono state utilizzate, estraendo i dati da Twitter,
per capire quali fossero i fattori causanti l’allontanamento delle persone dai vaccini.
Infine nel capitolo 4 e stato compiuto uno studio mediante le reti semantiche, su
dei dati ottenuti mediante un sondaggio pubblicato online, sugli effetti, cause e
conseguenze della nomofobia.
36
Ringraziamenti
Ringrazio i miei genitori che non hanno mai smesso di credere in me, nonostante le
difficolta che ho incontrato durante il mio percorso. Ringrazio anche i miei amici
senza i quali l’universita e la mia vita non sarebbero state le stesse. Infine ringrazio
Arianna che, anche durante la mia carriera triennale, mi ha sopportato nei miei
momenti peggiori dopo gli esami peggiori.
37
Bibliografia
Articoli di riviste:
[1] Peter A. Gloor, Jonas Krauss, Stefan Nann, Kai Fischbach, Detlef Schoder, Web
Science 2.0: Identifying Trends through Semantic Social Network Analysis, (2009)
International Conference on Computational Science and Engineering.
[2] Gloria J. Kang, Sinclair R. Ewing-Nelson, Lauren Mackey, James T. Schlitt,
Achla Marathe, Kaja M. Abbas, Samarth Swarup, Semantic network analysis of
vaccine sentiment in online social media, (2017), Science Direct.
[3] Seunghee Han, Ki Joon and Jang Hyun Kim, Understanding Nomophobia: Struc-
tural Equation Modeling and Semantic Network Analysis of Smartphone Separation
Anxiety, (2017), CyberPsychology, Behavior, and social networking.
Documenti consultati su internet:
“Social network analysis e le metriche di misurazione”, http://www.leonardomilan.it/
?post=network-analysis-valore-nodi-metriche-misurazione
38