Analisi semantica delle reti sociali · 2 Utilizzo delle reti semantiche per l’identi cazione dei...

Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Intelligenza artificiale

Analisi semantica delle reti sociali

Anno Accademico 2017/2018 Candidato: Lorenzo Pinto matr. N46002189

Indice

Introduzione 1

1 Metodologie e tecniche per il trattamento delle informazioni nel

network semantico 3

1.1 Tecniche di crawling dei dati . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Analisi della distribuzione dei topic : metriche di centralita . . . . . . 5

2 Utilizzo delle reti semantiche per l’identificazione dei trends su

internet 6

3 Caso di studio: utilizzo delle reti semantiche per analizzare le

opinioni riguardo i vaccini sui social media 19

4 Caso di studio: utilizzo delle reti semantiche per lo studio della

nomofobia 30

Conclusioni e sviluppi futuri 36

Ringraziamenti 37

Bibliografia 38

Elenco delle figure

2.0.1 Rete dei documenti pesati in base alla posizione dell’attore e per

similarita di contenuti . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.0.2 Ricerca per gradi di separazione per le parole: “Hillary Clinton” . . . 10

2.0.3 Ricerca per gradi di separazione per le parole: gun control, abortion,

gay marriage, iraq war, abortion . . . . . . . . . . . . . . . . . . . . . 11

2.0.4 Ricerca per gradi di separazione dei candidati presidenti nel 2006 . . 12

2.0.5 Valori di Betweenness dei candidati nel 2006 . . . . . . . . . . . . . . 13

2.0.6 Valori di Betweenness dei candidati considerando lo scorrere dei giorni 14

2.0.7 Valori di “positivita” e “negativita” per la Goldman Sachs . . . . . . 16

2.0.8 Correlazione dei prezzi azionari in base al web buzz . . . . . . . . . . 17

2.0.9 Curva del prezzo in base allo scorrere dei giorni . . . . . . . . . . . . 18

3.0.1 Documenti presi in esame . . . . . . . . . . . . . . . . . . . . . . . . 20

3.0.2 Risultati delle misurazioni . . . . . . . . . . . . . . . . . . . . . . . . 22

3.0.3 Rete dei concetti “positivi” scegliendo K = 4 . . . . . . . . . . . . . . 23

3.0.4 Rete dei concetti “negativi” scegliendo K = 4 . . . . . . . . . . . . . 24

3.0.5 Rete dei concetti “neutrali” scegliendo K = 2 . . . . . . . . . . . . . 25

3.0.6 Misurazioni di: Closeness, Betweenness, Degree . . . . . . . . . . . . 26

3.0.7 Misurazioni di: Eigenvector, Sentiment . . . . . . . . . . . . . . . . . 27

3.0.8 Nodi piu importanti classificati tramite la Eigenvector centrality . . . 28

4.0.1 Demografica dei partecipanti al sondaggio . . . . . . . . . . . . . . . 32

4.0.2 Occorrenza delle parole con misurazioni di centrality . . . . . . . . . . 33

4.0.3 Comparazione tra i gruppi “high” e “low” . . . . . . . . . . . . . . . 33

4.0.4 Rete del gruppo ad alto livello di nomofobia . . . . . . . . . . . . . . 34

4.0.5 Rete del gruppo a basso livello di nomofobia . . . . . . . . . . . . . . 35

Introduzione

Un Social Network, nel web 2.0, e una struttura formata da attori che sono intercon-

nessi tra di loro mediante delle interazioni sociali. Aristotele, filosofo greco vissuto

nel IV sec. a. C., nella sua opera “Politica” descrisse l’uomo per la prima volta co-

me “Animale sociale”, ovvero tendente a vivere a stretto contatto con altri individui

condividendo con essi opinioni, pensieri, abitudini e in fin dei conti, la vita stessa.

L’antropologo A.R Radcliffe-Brown (17 Gennaio 1881 – 24 ottobre 1955), uno dei

pioneri nell’analisi del network sociale, ebbe l’intuizione che le strutture sociali non

dovessero essere solo rappresentate e capite in maniera simbolica ma anche misurate

ed analizzate. Infatti l’analisi del social network consente di mettere in risalto i feno-

meni di influenza sociale e di analizzare la diffusione di informazioni e la formazione

di opinioni e credenze.

Oggi la definizione di “Animale Sociale” e ancor piu vera poiche con la nascita del

web 2.0, l’umanita ha avuto accesso ad una piattaforma per una condivisione fa-

cile, accessibile ed immediata, delle proprie opinioni e, grazie all’analisi del social

network, e possibile studiare questa mole di informazioni. Gli utenti possono strin-

gere amicizie, condividere hobbies e informazioni coi propri amici; possono cercare

le news piu recenti disponibili online, informazioni riguardo i propri contatti, infor-

mazioni riguardo uno specifico argomento oppure condividere le proprie opinioni in

qualsiasi momento inviando o ricevendo messaggi formati da testo, immagini, video,

oppure una combinazione di questi tre tipi di dati.

Questa composizione rende i dati provenienti dai social network estremamente etero-

genei poiche composti da piu attributi come il time-stamp o la posizione di quando il

messaggio e stato pubblicato. Spesso ai post sono correlati anche degli hashtag, un ti-

po di metadato utilizzato dagli utenti per classificare un determinato post, immagine

o video oppure per cercare contenuti aventi l’hashtag immesso nella ricerca.

La SNA (Social Network Analysis) viene utilizzata anche in sociologia per studiare

l’influenza di un determinato argomento sul comportamento collettivo oppure puo

essere sfruttata per studiare le opinioni di un gruppo di utenti, facenti parte di un

Social Network, riguardo un argomento in particolare.

Nella presente tesi, attraverso lo studio di articoli esposti nella piu recente lettera-

tura scientifica, si riportano le metodologie e le tecniche per l’analisi dei dati sui

social network. In particolare sono state analizzate diverse applicazioni utilizzate

nei seguenti casi di studio.

Il trattato Web Science 2.0: Identifying Trends through Semantic Social Network

Analysis (scritto da Peter A. Gloor, Jonas Krauss, Ste-fan Nann, Kai Fischbach,

Detlef Schoder) ci descrive utilizzando 3 esempi di come il web influenza il mondo

“offline” e com’e possibile identificare gli argomenti di maggior rilievo su internet.

Nel primo caso di studio estratto dall’articolo Semantic network analysis of vaccine

sentiment in online social media (scritto da Gloria J. Kang , Sinclair R. Ewing-

Nelson, Lauren Mackey, James T. Schlitt, Achla Marathe, Kaja M. Abbas, Samarth

Swarup) la SNA viene utilizzata per studiare le opinioni degli Americani sui vaccini

mediante Twitter.

Il secondo caso di studio, presente nel trattato Understanding Nomophobia: Struc-

tural Equation Modeling and Semantic Network Analysis of Smartphone Separation

Anxiety (scritto da Seunghee Han, Ki Joon Kim, Jang Hyun Kim) studia la nomo-

fobia identificando alcuni fattori che scatenano l’ansia di separazione dallo smart-

phone tramite un’analisi sul network semantico delle espressioni verbali utilizzate

dai possessori dei dispositivi mobili.

Capitolo 1

Metodologie e tecniche per il

trattamento delle informazioni nel

network semantico

Il network semantico e una struttura espressa in termini di nodi (attori) ed archi

che collegano i nodi mettendo in luce delle relazioni tra di essi. Una rete sociale

puo contenere dei dati estremamente eterogenei; ad esempio i dati prelevati da un

Social Network come Facebook o Twitter saranno formati da piu attributi come

il time-stamp o la posizione di quando il messaggio e stato pubblicato. Spesso

ai post sono correlati anche degli hashtag, un tipo di metadato utilizzato dagli

utenti per classificare un determinato post, immagine o video oppure per cercare

contenuti aventi l’hashtag immesso nella ricerca. Questo grande quantitativo di dati,

recuperati dai Social Network mediante specifiche tecniche di data crawling, puo

essere utile per effettuare un’analisi della rete sociale utilizzando la teoria dei grafi

con un approccio matematico sfruttando le misurazioni delle metriche di centralita.

1.1 Tecniche di crawling dei dati

I dati possono essere ottenuti in piu modi possibili, ad esempio:

1. Mediante le interfacce API rese disponibili dai Social Network stessi (ad esem-

pio Twitter e Facebook), i dati vengono acquisiti mantenendo aperta una

connessione socket dopo aver passato la validazione OAuth L’OAuth e un pro-

tocollo che consente ai service provider di garantire l’accesso da parte di terzi

ai dati degli utenti senza pero fornire le loro password di accesso al sito, i dati

dopo esser stati raccolti, ovviamente devono esser resi anonimi.

2. Mediante l’utilizzo di software come ChatterGrabber, utilizzato nel trattato

Semantic network analysis of vaccine sentiment in online social media scrit-

to da Gloria J. Kang , Sinclair R. Ewing-Nelson, Lauren Mackey, James T.

Schlitt, Achla Marathe, Kaja M. Abbas, Samarth Swarup. ChatterGrabber

e un toolset opensource sviluppato per acquisire e schedare grandi volumi di

dati a basso costo. Ad esempio questo puo usare le RESTFUL API di Twitter

per realizzare ricerche in determinate zone geografiche locali, nazionali oppure

internazionali.

3. Utilizzando un tool chiamato Condor che include delle funzionalita per l’a-

nalisi automatica del testo consentendo inoltre l’individuazione dei valori di

betweenness centrality.

1.2 Analisi della distribuzione dei topic : metri-

che di centralita

L’analisi delle reti sociali utilizza l’approccio matematico della teoria dei grafi che ri-

guarda insiemi di elementi e le relazioni tra di essi, gli elementi sono rappresentati dai

nodi mentre le relazioni dagli archi. Un nodo puo influire fortemente sugli altri nodi

ad esso vicini e vengono effettuate delle misurazioni di “centralita” che ci consentono

di determinare quali sono i nodi di rilievo all’interno della rete. Queste misurazioni

sono state effettuate mediante la degree centrality, betweenness centrality, closeness

centrality e la eigenvector centrality.

• La degree centrality e legata al numero di connessioni associate ad ogni singolo

nodo esprimendo il grado di connettivita di un nodo con la rete stessa.

• La betweenness centrality e uno strumento utile per calcolare il nodo piu im-

portante all’interno di un grafo; infatti questa puo esser vista come un’appros-

simazione dell’influenza che un nodo ha sul grafo complessivo, in altre parole

puo esser vista come una stima dell’importanza dei nodi all’interno della re-

te. La betweenness centrality in un Social Network tiene traccia del numero

di percorsi geodetici attraverso l’intera rete, ovvero tiene traccia dei percorsi

piu brevi che collegano le varie coppie di nodi. Il risultato del calcolo della

betweenness centrality di un concetto ha come risultato un valore numero com-

preso tra 0 e 1, con 0 significa che non c’e influenza di quel concetto nella sua

rispettiva sfera informativa, mentre se il valore sara diverso da zero significa

che quel concetto ha un’importanza relativa rispetto gli altri.

• La closeness centrality e legata alla soluzione del problema dello shortest path,

ovvero tra un nodo e tutti quelli raggiungibili tramite esso. Consente di

esprimere quanto due concetti sono vicini tra loro.

• La eigenvector centrality e legata all’influenza di un nodo nel network e misura

la reputazione del nodo considerato in base ai nodi circostanti.

Capitolo 2

Utilizzo delle reti semantiche per

l’identificazione dei trends su

internet

Internet e diventato un mezzo di comunicazione estremamente importante per la

diffusione di notizie dell’ultima ora, infatti esso puo esser visto come uno specchio

del “mondo reale”. Analizzando cio che le persone scrivono su internet e possibile

scoprire delle notizie recenti prima che esse diventino disponibili al resto del mondo

“offline”. Per compiere quest’analisi e possibile introdurre un metodo che misura

i cambiamenti della popolarita di alcuni politici solo basandosi sulle informazioni

reperibili da internet.

Per compiere quest’analisi si analizzano la comunicazione non strutturata e le infor-

mazioni provenienti dal web. Il web puo essere suddiviso in tre categorie differenti

che vengono studiate separatamente.

1. I forum, chiamati anche Wisdom of Swarms. I forum sono delle comunita

autorganizzate che contengono informazioni specifiche e recenti riguardo un

determinato soggetto, queste sono conservate e discusse in un topic ove piu

utenti collaborano alla discussione.

2. I blog, chiamati anche Wisdom of Experts. Il numero dei blog e dei blogger e

aumentato in maniera esponenziale negli ultimi anni ed e in continua crescita.

In maniera differente rispetto ai forum, dove la news porta discussione tra gli

utenti, i bloggers sono degli individui esperti che esprimono la propria opinione

senza lasciare spazio a discussioni aperte agli altri utenti. Poiche un esperto

non ha sempre ragione e sarebbe rischioso affidarsi solo ad una singola opinione,

ma combinando piu blog differenti si puo raggiungere un’opinione collettiva di

utenti esperti riguardo un determinato argomento.

3. Il web in generale, chiamato anche Wisdom of Crowds. Gli argomenti possono

essere discussi su siti popolari o meno, oppure che trattano di argomenti di

attualita. Questa mole di informazioni e certamente la piu grande delle tre.

Queste tre differenti fonti sono utilizzate per l’analisi semantica dell’informazione e

della comunicazione. Nel corso di 6 anni e stato sviluppato un sofisticato strumento

di analisi sociale dei Social Network chiamato Condor che include un’analisi del testo

automatica capace di pesare il contenuto di cio che sta analizzando con la posizione

dell’attore (l’utente coinvolto nella discussione) all’interno del Social Network, infatti

la centralita dell’attore nella rete e un punto cardine dell’analisi compiuta da Condor.

Figura 2.0.1: Rete dei documenti pesati in base alla posizione dell’attore e persimilarita di contenuti

Sono illustrati due screenshots dell’analisi compiuta da condor nello stesso documen-

to. Nell’immagine superiore della figura 1 [1] viene rappresento un Social Network

di attori basato sullo scambio di email, dove coloro che inviano e ricevono sono

rappresentati con dei nodi mentre gli archi rappresentano lo scambio di email.

L’immagine inferiore della figura 1 mostra la stessa rete ma in piu gli attori sono

raggruppati per similarita di contenuti della loro discussione. La densa zona blu

centrale rappresenta tutti gli attori che parlano di uno stesso argomento tramite

email.

Viene definita un’analisi formata da “3 steps”: “Cosa, Chi, Come”

1. Cosa: i concetti estratti e misurati durante l’analisi.

2. Chi : gli attori che usano i concetti dei quali si vuole tener traccia.

3. Come: classifica i pensieri degli attori come negativi oppure positivi.

Il Cosa e il primo step per misurare l’importanza di un argomento all’interno della

corrispondente sfera di informazione (Web, Blog, Forum). Per calcolare un’appros-

simazione dell’importanza di un argomento in una determinata sfera informativa

occorre calcolare la betweenness centrality di questo argomento nella sfera stessa,

questa e stata calcolata in maniera periodica (ad esempio una volta al giorno oppure

una volta all’ora).

Per costruire il Social Network semantico di una sfera informativa occorre introdurre

una ricerca basata sui gradi di separazione. La ricerca basata sui gradi di separazione

costruisce una mappa del network che mostra come dei siti web o dei blog sono

correlati tra loro a seguito di una query di ricerca; ad esempio una ricerca per

ottenere il valore di betweenness di Hillary Clinton sul web funziona in questo modo:

1. Si inizia scrivendo “Hillary Clinton” in un motore di ricerca.

2. Si prendono i primi N risultati che la query, effettuata sul motore di ricerca,

ritorna.

3. Si ottengono M siti web che sono collegati a ciascuno degli N risultati ottenuti

al punto 2 mandando in esecuzione una “link: URL” query, dove l’URL e il

sito ottenuto al punto 2.

4. Si ripete lo step numero 3 fino a quando non si raggiunge il grado di separazione

desiderato.

Figura 2.0.2: Ricerca per gradi di separazione per le parole: “Hillary Clinton”

Il nodo di livello 0 e la query stessa. I nodi di livello 1 sono gli URL collegati

direttamente alla query, ovvero i link ottenuti dalla ricerca originale. I nodi di livello

2 sono i risultati con rank maggiore ottenuti dalla “Link: URL” query e correlati ai

nodi del livello 1. La figura 2 [1] da una visuale di come i nodi di livello 1 e 2 sono

collegati; piu link sono collegati a quel nodo, piu centrale esso sara. Ad esempio, il

nodo etichettato come http://clinton.senate.gov e collegato ad un gruppo di nodi di

livello 2 che a loro volta sono collegati a dei nodi di livello 3, cio indica che il nodo

http://clinton.senate.gov e piuttosto centrale all’interno del grafo.

Figura 2.0.3: Ricerca per gradi di separazione per le parole: gun control, abortion,gay marriage, iraq war, abortion

La ricerca basata sui gradi di separazione puo essere utile per mettere a paragone

l’importanza di concetti come gun control, abortion, gay marriage e iraq war. Argo-

menti che apparentemente non sono correlati tra loro potrebbero essere collegati su

internet da riferimenti o link. Cio significa che l’importanza individuale di un con-

cetto dipende da come esso e collegato con altri nodi e dalla sua centralita, rispetto

agli altri concetti, nel network. Le query compiute da Condor sono state eseguite

nel 2006, dove la guerra in Iraq stava dominando le testate giornalistiche americane

e dalla figura 3 si puo evincere come il network semantico mette a paragone questi

4 concetti. I quadrati sono le query, i cerchi sono gli URL. La grandezza denota il

valore di betweenness associata a quell’argomento.

La misurazione degli argomenti in voga su internet puo essere usata non solo per

misurare concetti astratti ma anche per misurare la popolarita delle persone. Ad

esempio consideriamo un esempio dove viene illustrata la popolarita sul web di

politici Repubblicani e Democratici.

Figura 2.0.4: Ricerca per gradi di separazione dei candidati presidenti nel 2006

La figura 4 [1] mostra come 10 potenziali presidenti sono correlati tra loro mediante

la ricerca con angoli di separazione. Ogni colore identifica il set di nodi e link

tra loro recuperati dalla sfera informativa per ogni singolo candidato. Ad esempio

in blu troviamo i siti web e i link ritornati dalla query avente come concetto “Al

Gore”, in rosso vengono rappresentati i siti web ritornati da piu di una query. Piu

un nodo e grande maggiore importanza avra nel relativo network. La posizione

relativa di due concetti all’interno della rete puo essere interpreta come quanto essi

sono simili, in questo caso possiamo vedere come nella figura “Rudolph Giuliani” e

“Newt Gingrich” sembrano trovarsi assieme ma molto lontani sulla destra.

Figura 2.0.5: Valori di Betweenness dei candidati nel 2006

La figura 5 [1] mostra la lista dei due sondaggi presidenziali alla fine del 2006 e li

compara in termini di valori di betweenness. Ci aspetteremmo che Hillary Clinton

e Rudy Giuliani fossero gli attori con maggiori connessioni nella nostra analisi, ma

basandoci sui valori della realta abbiamo che Al Gore e John Edwards si trovano in

prima posizione. La ragione l’inaspettata popolarita del non candidato Al Gore e

il rilascio del suo film An inconvenient truth, trattante il surriscaldamento globale,

che rende le ricerche su Al Gore non solo incentrate sulla sua figura come politico

ma anche come attore ed ambientalista. Difatti Al Gore connette varie comunita

web e argomenti portandolo ad avere un alto valore di betweenness centrality. Ri-

petendo le misurazioni nel tempo ci permette di notare dei cambiamenti dei valori

di betweenness centrality dei vari candidati e cio importante per misurare anche gli

argomenti in voga nelle sfere informative.

Figura 2.0.6: Valori di Betweenness dei candidati considerando lo scorrere dei giorni

La figura 6 [1] illustra i cambiamenti dei valori di betweenness centrality di 14 conten-

denti alla presidenza nell’arco di 14 giorni e possiamo notare che questa, in generale,

diminuisce con lo scorrere dei giorni

Per quanto riguarda invece, lo step del Chi ci basiamo sull’idea che le parole di

alcune persone abbiano maggiore rilievo rispetto ad altre persone. Per approssimare

la loro influenza usiamo nuovamente la betweenness centrality e aggiungiamo un peso

relativo che varia con il variare dell’attore in gioco che sta usando quella frase. In

base alla sfera informativa desiderata, l’attore sara un sito Web, un blog oppure un

forum online.

Per pesare il concetto in base all’attore occorre moltiplicare il valore di between-

ness centrality associata all’attore con il valore di betweenness centrality associata

al concetto. Facendo riferimento all’esempio dei candidati in politica, la stima della

popolarita degli attori puo variare in base a dei siti definiti come Kingmakers. I

Kingmakers sono dei siti web che possono aumentare la betweenness centrality del

concetto originale grazie al loro valore elevato di betweenness centrality.

Nel sondaggio presidenziale i siti Kingmakers sono wikipedia.org e ovaloffice2008.com.

Non sorprende il fatto che wikipedia sia moltro centrale come sito poiche i candidati

tendono a mantenere aggiornate le proprie pagine sul sito. Per ogni network ge-

nerato dalla ricerca per gradi di seperazione, se consideriamo siti come Wikipedia,

New York Times, Washington Post oppure i giornali nazionali, la popolarita del

candidato aumenta poiche questi siti saranno uniti al candidato tramite dei gradi di

separazione. Inoltre grazie ai siti Kingmakers otteniamo sempre un grafo connesso

poiche questi sono detti anche come superconnettori dato che collegano siti differen-

ti ad un unico individuo. Misurare come varia la betweenness centrality in base al

tempo e pesandola per contenuto o per individuo ci consente anche di identificare

ed analizzare nuovi argomenti in voga.

Bisogna considerare un terzo componente che deve essere introdotto all’interno del-

l’analisi. Non dobbiamo considerare solamente il Cosa e il Chi ma e importante

guardare anche i pensieri negativi e positivi all’interno della discussione. Per l’esem-

pio finale sono state caricate 21 discussioni, riguardo titoli azionari dalla community

di Yahoo! Finance, in Condor. Yahoo! Finance offre la possibilita a centinaia di

compagnie industriali di scambiare messaggi e il modo in cui gli attori parlano ri-

guardo un determinato argomento puo essere determinato sfruttando la Sentiment

Analysis effettuata da Condor. Tramite la funzionalita di analisi del testo, il software

puo identificare in maniera autonoma le parole e le coppie di parole piu frequenti

all’interno di un testo molto grande. Si vede che l’estrazione automatica delle parole

e delle coppie di parole risulta essere piu precisa del selezionare le parole positive o

negative a mano. E stato implementato un approccio a due passaggi, in un primo

momento si utilizza l’algoritmo di Condor per ottenere le parole singole o a coppie

che ricorrono con maggiore frequenza. Successivamente viene creata una lista di pa-

role e coppie di parole con pensieri positivi e negativi estratta dall’insieme ottenuto

nel primo passaggio.

La lista dei concetti inoltre viene creata in base ad una determinata azienda. Con-

dor provvede la possibilita di escludere parole estremamente comuni come “the”,

“for”, “and”. Dopo l’identificazione delle liste positive e negative e stata estratta

la frequenza con la quale la compagnia scelta e stata associata ai termini presenti

nelle due liste come si evince dalla figura 7 [1] . La combinazione di queste tre

metriche, frequenza, positivita e negativita rappresenta il pensiero degli utenti del

forum riguardo una compagnia.

Figura 2.0.7: Valori di “positivita” e “negativita” per la Goldman Sachs

Pero questo approccio spesso non tiene conto della grammatica della frase consi-

derata, ad esempio la frase “Goldman is not good” potrebbe essere classifica come

positiva; ma in effetti e un problema che sembra essere raro. Leggendo un grande

numero di messaggi provenienti dai forum si puo verificare empiricamente che gli

attori usano con maggiore frequenza le frasi negative piuttosto che usare dei falsi

positivi. Ad esempio gli attori tendono ad utilizzare “is bad” anziche “is not good”.

Ora andiamo a combinare i tre step definiti in precedenza, il “Cosa, Chi, Come”.

Per testare questo approccio combinato sono stati raccolti su Yahoo! Finance dati

di 21 titoli azionari nell’arco di 213 giorni tra aprile ed ottobre nel 2008. Gli autori

hanno implementato un algoritmo che determina la correlazione tra il web buzz e

l’attuale prezzo del titolo azionario. Il web buzz e un’unione della betweenness delle

3 sfere informative riguardo quel titolo azionario. I “pensieri” degli attori del forum

sono calcolati utilizzando le metriche introdotte in precedenza: frequenza, positivita

e negativita.

Ognuna di queste metriche e stata calcolata in due modi differenti: il modo piu

semplice e quello di considerare solo il pensiero in se mentre il secondo metodo

consiste nel pesare il pensiero rispetto alla posizione presa da un determinato attore

del Social Network.

Questo e reso possibile pesando la discussione all’interno del forum in base all’im-

portanza di colui che ha creato il post.

Possiamo vedere che questa classificazione influenza 8 indici: Web Betweenness,

Blog Betweenness, Positivity, Positivity Betweenness, Negativity, Negativity Bet-

weenness, WordCount (che rappresenta la frequenza) e infine WordCount between-

ness. I valori di questi indici sono stati calcolati in una finestra di 30 giorni. La

correlazione tra i prezzi dei titoli azionari ed gli indici del web buzz per la GoldMan

Sachs sono mostrati in figura 8 [1] e 9 [1].

Figura 2.0.8: Correlazione dei prezzi azionari in base al web buzz

Figura 2.0.9: Curva del prezzo in base allo scorrere dei giorni

Notiamo che nei giorni in cui i commenti negativi diminuiscono, il prezzo del titolo

azionario sale e viceversa. Sviluppando questi esempi abbiamo visto come il web

in realta e uno specchio del mondo reale. Tenendo traccia dei concetti sul web,

differenziandoli secondo la loro sfera informativa di appartenenza e pesandoli in

base all’attore ci permette di scoprire degli argomenti in voga prima che il mondo

reale si accorga di essi.

Capitolo 3

Caso di studio: utilizzo delle reti

semantiche per analizzare le

opinioni riguardo i vaccini sui

social media

Utilizzando le reti semantiche e possibile studiare anche quali sono le opinioni degli

utenti dei social network riguardo specifici argomenti. Ad esempio un social media

come Twitter consente di acquisire in tempo reale dati riguardo le abitudini, cre-

denze e comportamenti di un gruppo di utenti usati come campione per l’utenza

complessiva del Social Network.

Facendo leva sui dati online, e possibile esaminare tramite degli studi come la popola-

zione reagisce riguardo argomenti come la salute pubblica, la possibilita di diffusione

di malattie e mediante queste ricerche si potrebbe trovare una soluzione all’incer-

tezza per le vaccinazioni. Lo sviluppo di internet ha provvisto nuove piattaforme

per la diffusione di informazione, spesso sono definibili anche di “disinformazione”,

portando nuovi problemi e sfide al vecchio problema della salute pubblica.

Figura 3.0.1: Documenti presi in esame

L’obiettivo di quest’analisi e quello di esaminare cio che gli Americani provano

riguardo i vaccini usando le informazioni condivise da loro su Twitter.

Utilizzando il network semantico, i nodi rappresentano i concetti trovati nei messaggi

degli utenti (cio che gli utenti pensano riguardo i vaccini) e le connessioni tra i nodi

rappresentano le relazioni logiche tra i singoli concetti.

L’analisi del testo per la ricerca dei concetti richiede metodi e tecniche semi auto-

matiche dove l’informazione estratta dal Social Network e trattata sia in maniera

automatica sia elaborado i dati manualmente. Per far fronte a problemi come la

risoluzione dei sinonimi, e la riduzione delle ambiguita nel testo, la rete e stata

costruita manualmente per poi applicare successivamente l’analisi del network.

Per l’analisi dei tweets viene usato ChattersGrabber, un tool che acquisisce in maniera

casuale i tweets degli utenti negli Stati Uniti. Sono stati raccolti circa 27000 tweets,

tra il 16 aprile 2015 e il 29 maggio 2016, che contengono dei link o riferimenti testuali

a degli articoli o documenti trattanti i vaccini escludendo pero gli studi accademici

e i documenti di tribunale.

Come si evince dalla figura 1 [2], sono stati selezionati i 100 link piu condivisi e

sono stati scelti 50 di questi in maniera casuale per l’analisi, successivamente sono

stati classificati manualmente con aggettivi del tipo “positivo”, “negativo” oppure

“neutrale” che esprimono se quell’articolo e favorevole o meno alla vaccinazione; gli

articoli che presentano ambiguita oppure opinioni contrastanti sono stati classificati

come neutrali. Sui 50 esempi scelti sono stati rappresentati 23 documenti aventi

pareri positivi nei confronti dei vaccini, 21 negativi e sono stati classificati come

neutrali. I blog post sono stati i documenti piu condivisi in generale, seguiti dalle

news. I documenti segnalati come “positivi” invece sono incentrati maggiormente

sulle vaccinazioni infantili, adolescenziali ed adulte mentre i documenti “negativi”

sono concentrati solo sulle vaccinazioni infantili.

La figura 1 rappresenta un riassunto dei documenti analizzati suddividendoli per

tipologia di pensiero, che esso sia positivo negativo oppure neutrale. Inoltre vengono

descritte anche la tipologia del documento, la provenienza, la popolazione target del

vaccino con la sua applicazione e infine il nome del vaccino se specificato.

Prima di procedere nell’analisi definiamo i nodi della rete come i singoli concetti

dei documenti analizzati, che potrebbero essere positivi, negativi oppure neutrali

mentre gli archi collegano i singoli concetti tra loro. L’analisi sul pensiero positivo,

negativo, neutrale si concentra sul componente piu connesso; sono state utilizzate

diverse misurazioni come ad esempio la grandezza della rete creata, il numero totale

di nodi presenti con la loro densita, la densita degli archi che misura il livello di

interconnessione dei nodi ed infine il diametro che misura la compattezza della rete.

Sono state effettuate delle misurazioni riguardo la centralita di un concetto e co-

me questo viene messo in risalto nella rete specificando la sua influenza sugli altri

concetti e la sua importanza.

Degli algoritmi di community detection descrivono i gruppi coesi della rete e i gruppi

dei concetti importanti sono rappresentati da una rete avente al massimo k-core,

dove k e il numero minimo di gradi che i nodi devono avere; ovvero scegliendo k =

4 significa che un nodo deve avere al minimo 4 connessioni con 4 nodi differenti per

essere rappresentato dalla rete.

Figura 3.0.2: Risultati delle misurazioni

La figura 2 [2] rappresenta le misurazioni specifiche per le tre reti. La rete semantica

piu grande e formata dai sentimenti “negativi” (n=21) con 90.9 concetti (nodi) per

documento, decisamente maggiore rispetto ai sentimenti ”positivi” e “neutrali”.

Riguardo la misura greatest component subgraph si fa riferimento, appunto, al com-

ponente piu grande del sottografo. Il piu grande per quando riguarda il network

negativo e grande 1140 concetti rispetto ai 585 del network positivo e 171 del net-

work neutrale ma quello negativo e meno denso rispetto gli altri due.

Mediante le figure 3 [2], 4 [2] e 5 [2]; sono mostrati i sottografi aventi K core (ogni no-

do ha almeno K connessioni verso gli altri nodi) e facenti riferimento alle 3 tipologie

di network.

Figura 3.0.3: Rete dei concetti “positivi” scegliendo K = 4

Figura 3.0.4: Rete dei concetti “negativi” scegliendo K = 4

Figura 3.0.5: Rete dei concetti “neutrali” scegliendo K = 2

La grandezza della rete indica il numero dei concetti presenti e la densita esprime il

grado di interconnessione dei concetti stessi. Ora consideriamo gli argomenti trattati

da ogni tipo di rete.

Figura 3.0.6: Misurazioni di: Closeness, Betweenness, Degree

La figura 6 [2] include le misure di centralita per i concetti piu importanti delle

tre reti. La degree centrality e rappresentata dal raggio del nodo, la betweenness

centrality sull’asse x e la csull’asse y.

Figura 3.0.7: Misurazioni di: Eigenvector, Sentiment

La figura 7 [2] mostra invece i concetti piu importanti classificati tramite la eigen-

vector centrality.

Figura 3.0.8: Nodi piu importanti classificati tramite la Eigenvector centrality

I nodi centrali per i pensieri positivi sono parents, vaccines, children, measles. Per

i pensieri negativi invece sono vaccines, children, vaccine industry e cosı via; infine

per i pensieri neutrali i nodi centrali risultano essere vaccines, side effect, pertussis

vaccine e cosı via.

Quella della centralita e una metrica utile per capire l’organizzazione del network

semantico dei vaccini, infatti essa e vista come una misurazione diretta dei concet-

ti che sono “attivati” con maggiore frequenza dagli utenti. Molti concetti centrali

della rete positiva sono presenti in quella negativa, ma non viceversa. Ad esempio,

I documenti positivi e neutrali fanno un riferimento esplicito al concetto di “anti

vaccinazione” mentre cio non accade in quelli negativi, nei documenti positivi non

sono presenti riferimenti all’industria dei vaccini e ai media. Concetti significativi

relativi alla sfera positiva sono correlati al mondo della salute e alla medicina come

autismo, vaccino HPV, collegamento tra vaccini e autismo, vaccino MMR.

Mentre la sfera negativa ha molti riferimenti al mondo dell’industria e delle orga-

nizzazioni come CDC, industria dei vaccini, dottori, compagnie parafarmaceutiche

e Stati uniti. Possiamo evincere un notevole contrasto tra il nodo parents che e il

concetto centrale della rete positiva e il nodo children il nodo centrale della rete ne-

gativa. La prevalenza dei pensieri negativi e dimostrata attraverso uno scetticismo

ed una mancanza di fiducia nei confronti delle istituzioni e delle organizzazioni che

presentano prove dei benefici dei vaccini. I pensieri positivi invece si concentrano

sulla fiducia nei confronti delle prove scientifiche messe a disposizione e nei confronti

delle autorita. Quelli neutrali invece presentano un insieme dei pensieri positivi e

negativi. Nel momento in cui e stato effettuato lo studio, numerosi documenti pre-

sentavano dei riferimenti alla legge 277 proposta dal Senato della California la quale

proponeva la rimozione dell’obbligo di vaccinazione all’interno delle scuole; infatti

la news ha condizionato sia dei documenti con pensieri positivi che negativi.

I documenti trattanti pensieri positivi e neutrali presentano una rete semantica piu

densa ma con meno componenti se paragonata alla rete negativa dove e presente un

alto numero di concetti ma con bassa connettivita. Se paragonato al network posi-

tivo, quello negativo ha meno componenti, minore densita degli archi, un diametro

maggiore e un path tra i nodi maggiore. I documenti che descrivono i pensieri positi-

vi indicano una grande coesione rispetto a quelli raffiguranti i pensieri negativi e cio

significa che ci sono piu argomenti costituenti una rete negativa piu grande e di con-

seguenza possiamo dedurre che ci sono piu fattori che contribuiscono all’esitazione

nei confronti delle vaccinazioni.

Ovviamente viene supposto che la mole di informazioni condivisa su Twitter fosse

rappresentativa dei pensieri degli americani nei confronti dei vaccini ma potrebbe

non riflettere appieno i pensieri dell’intera popolazione; pero lo studio ha consentito

di affermare che mediante l’analisi della rete semantica di un social network e stato

possibile studiare i pensieri di una cerchia della popolazione riguardo un determinato

argomento.

Capitolo 4

Caso di studio: utilizzo delle reti

semantiche per lo studio della

nomofobia

Le reti semantiche permettono di evidenziare come e quanto le persone si sentono

legate ai propri cellulari mobili sfruttando, in questo studio, i dati ottenuti da un

sondaggio. Gli smartphone sono diventati parte integrale della vita di ogni giorno

e cosı come hanno portato degli effetti positivi influenzando sia la vita della societa

che la vita dell’individuo, hanno portato anche problemi come il sovrautilizzo ed un

senso di dipendenza. In maniera specifica, e provato che la separazione da smartpho-

ne sia causa di aumento della pressione sanguigna, ansia e sentimenti poco piacevoli

come l’impossibilita di essere reperibili oppure la mancata comunicazione virtuale

abituale. Questa particolare condizione d’animo e detta nomofobia. Degli studi sug-

geriscono che la nomofobia possa essere un indicatore della presenza di un disturbo

sociale per individui che hanno una forte dipendenza nel comunicare esclusivamente

mediante sistemi di comunicazione virtuali. La dipendenza da smartphone e in conti-

nuo aumento grazie all’avanzamento tecnologico che rende questi dispositivi sempre

piu irresistibili ed indispensabili con l’introduzione di funzionalita estremamente utili

per la vita di tutti i giorni.

Andiamo a definire alcune ipotesi che ci consentono di delineare la nomofobia e il

suo studio mediante il network semantico.

Russel Belk, nel suo trattato Possession and the extend self afferma che l’individuo,

che esso sia consapevole o meno, vede cio che possiede come un’estensione di se

stesso ed il possesso di uno smartphone non solo comporta un cordone ombelicale

con l’infrastruttura di informazione digitale della societa ma forma anche un archivio

di memorie personali.

Kleine in Journal of Consumer Research scrive che anche il recupero immediato

di memorie personali giochi un ruolo preponderante nel considerare lo smartphone

come estensione di se stessi. Questi dispositivi offrono caratteristiche sia computa-

zionali che di memoria che li rende paragonabili a dei computer e sono degli utilissimi

strumenti per conservare, condividere e recuperare memorie personali che riflettono

l’identita dell’utilizzatore; cio ovviamente aumenta il senso di estensione di se stessi.

Inoltre alcuni studi hanno dimostrato che l’individuo tende a stringere un legame

emozionale con un oggetto quando questo viene percepito come un’estensione di se

stessi. Quando viene formato il senso di attaccamento con l’oggetto, l’individuo non

solo desidera starne a contatto ma e anche riluttante a separarsene, provando senti-

menti negativi quando essi ne sono allontanati. Questo suggerisce che la nomofobia

e una funzione del grado con il quale l’utilizzatore e “affezionato” al proprio disposi-

tivo. Una ovvia conseguenza della nomofobia e che l’utilizzatore tende a controllare

continuamente il proprio device tendendolo sempre a stretto contatto. Nell’ottobre

del 2016 in Sud Corea e stato creato un sondaggio utilizzando Google Form e diffuso

tra varie comunita online di studenti universitari per studiare il loro attaccamento

al dispositivo mobile. Tutte le variabili sono state misurate con una scala che va da

il valore 1 (Fortemente in disaccordo) a 7 (Fortemente d’accordo). Inoltre e stata

aggiunta una domanda a risposta aperta che chiedeva a coloro che rispondevano al

songaggio di descrivere cosa essi provavano riguardo i propri smartphone.

Al sondaggio hanno risposto 301 individui (138 uomini e 163 donne) con un’eta

variabile tra i 18 ed i 37 anni.

Figura 4.0.1: Demografica dei partecipanti al sondaggio

Il risultato del sondaggio e espresso in figura 1 [3]:

Su questi dati e stata condotta un’analisi semantica del network. L’analisi e stata

realizzata utilizzando Wordij 3.0 che ha creato una matrice di occorrenze che mostra

la frequenza delle parole di coloro che hanno risposto alla domanda aperta presente

nel questionario.

Lo studio ha diviso le 301 persone in due gruppi distinti. Il primo gruppo formante

i soggetti estremamente soggetti alla nomofobia (circa il 25%) e nel secondo gruppo

coloro non soggetti alla nomofobia. Il primo viene chiamato high mentre il secondo

Dopo aver effettuato delle misurazioni statistiche e stata generata la rete semantica

che mette a paragone le differenze nella percezione degli smartphone tra i due gruppi

di persone. La rete e state creata utilizzando Ucinet versione 6 e Netdraw.

Figura 4.0.2: Occorrenza delle parole con misurazioni di centrality

La figura 2 [3] mostra le parole piu frequenti nelle risposte libere con le misurazio-

ni statistiche dell’analisi semantica della rete, le prime dieci parole sono quelle piu

utilizzate e sono inoltre quelle ad avere maggior centralita all’interno della rete. L’a-

nalisi ha rivelato che le parole come cons, easy, eyes, medium sono frequentemente

utilizzate in entrambi i gruppi come riportato all’interno della figura 3 [3].

Figura 4.0.3: Comparazione tra i gruppi “high” e “low”

Common word indica che le parole sono comunemente utilizzate in entrambi i gruppi.

Le parole sotto la categoria “High > Low” sono quelle usate maggiormente dal

gruppo con alta nomofobia e Unique words indica le parole uniche usate da ciascun

gruppo. Le parole comuni sono in ordine alfabetico, quelle uniche in ordine di

frequenza.

Figura 4.0.4: Rete del gruppo ad alto livello di nomofobia

La figura 4 [3] illustra il network semantico del gruppo classificato come high. Questa

consiste in 66 nodi e 115 archi e le parole utilizzate da questo gruppo descrivono

gli smartphone come mezzi per cercare informazioni, utili per la comunicazione,

descrivono un utilizzo quotidiano e i pro ed i contro del loro utilizzo.

Figura 4.0.5: Rete del gruppo a basso livello di nomofobia

D’altro canto la figura 5 [3] illustra il network semantico del gruppo classificato come

low che consiste di 71 nodi e 107 archi.

Questo studio propone e valida un modello teorico che spiega un possibile processo

in cui gli utilizzatori di smartphone sono indotti alla nomofobia. Nel momento in

cui uno smartphone evoca delle memorie personali, l’utente estende maggiormen-

te la propria identita con quella del dispositivo stesso. Quando l’utente percepi-

sce lo smartphone come una propria estensione, egli sara sempre piu attaccato al

dispositivo e cio porta alla nomofobia e alla tendenza a tenere con se il device.

Conclusioni

Le reti semantiche, quindi, risultano essere uno strumento estremamente utile per lo

studio dei fenomeni sociali creando una rappresentazione della conoscenza dei dati,

nei casi presi in considerazione, estratti da internet. Queste basano la loro strut-

tura sulla teoria dei grafi ed utilizzando un approccio matematico e stato possibile

misurare quanto determinati argomenti risultano importanti nel panorama preso in

considerazione e quanto questi abbiano la capacita di influire gli argomenti correlati.

Nel capitolo 2 tramite le reti semantiche sono stati studiati i trends su internet,

ovvero gli argomenti maggiormente in voga in una ristretta cerchia di persone, e come

determinati avvenimenti, o siti specifici, possano addirittura cambiare la popolarita

di alcuni politici.

Nel capitolo 3 le reti semantiche sono state utilizzate, estraendo i dati da Twitter,

per capire quali fossero i fattori causanti l’allontanamento delle persone dai vaccini.

Infine nel capitolo 4 e stato compiuto uno studio mediante le reti semantiche, su

dei dati ottenuti mediante un sondaggio pubblicato online, sugli effetti, cause e

conseguenze della nomofobia.

Ringraziamenti

Ringrazio i miei genitori che non hanno mai smesso di credere in me, nonostante le

difficolta che ho incontrato durante il mio percorso. Ringrazio anche i miei amici

senza i quali l’universita e la mia vita non sarebbero state le stesse. Infine ringrazio

Arianna che, anche durante la mia carriera triennale, mi ha sopportato nei miei

momenti peggiori dopo gli esami peggiori.

Bibliografia

Articoli di riviste:

[1] Peter A. Gloor, Jonas Krauss, Stefan Nann, Kai Fischbach, Detlef Schoder, Web

Science 2.0: Identifying Trends through Semantic Social Network Analysis, (2009)

International Conference on Computational Science and Engineering.

[2] Gloria J. Kang, Sinclair R. Ewing-Nelson, Lauren Mackey, James T. Schlitt,

Achla Marathe, Kaja M. Abbas, Samarth Swarup, Semantic network analysis of

vaccine sentiment in online social media, (2017), Science Direct.

[3] Seunghee Han, Ki Joon and Jang Hyun Kim, Understanding Nomophobia: Struc-

tural Equation Modeling and Semantic Network Analysis of Smartphone Separation

Anxiety, (2017), CyberPsychology, Behavior, and social networking.

Documenti consultati su internet:

“Social network analysis e le metriche di misurazione”, http://www.leonardomilan.it/

?post=network-analysis-valore-nodi-metriche-misurazione

Analisi semantica delle reti sociali · 2 Utilizzo delle reti semantiche per l’identi cazione dei...

Documents

Transcript of Analisi semantica delle reti sociali · 2 Utilizzo delle reti semantiche per l’identi cazione dei...

D:i miei hobbies inascita frinascita.de/wp-content/uploads/2016/04/rf_3_2010.pdf · percento di crescita del PIL contro l’1,2 tedesco e l’1,5 francese; disoccupazione dall’8

I-XVI romane CS3 - zanichelli.it · 1.1 Tassonomia convenzionale (fenotipica) A - 4 Metodi chimici: analisi di costituenti batterici A - 5 Test biochimici per l’identi˜cazione

LE RETI D’IMPRESA€¦ · Reti d’impresa con imprese del SETTORE AGRICOLTURA RETI SOGGETTO RETI CONTRATTO TOTALE n. iilimprese agricole 3 95 98 n. reti con imprese agricole 22325

COME PRENDERE E UTILIZZARE APPUNTI CHIAVE DEGLI ESERCIZI · 2015-07-19 · 10 Soluzioni degli esercizi Hobbies and sports I. Indoor activities A. Listening to music B. Reading 1.

Dalle reti sociali alle reti (tecno)politicheopenaccess.uoc.edu/webapps/o2/bitstream/10609/100386/1/...Dalle reti sociali alle reti (tecno)politiche Reti di terza generazione per la

Metodologie Informatiche Applicate al Turismo · 2014-11-08 · La spedizione di un messaggio SMTP avviene attraverso l’identi cazione del mittente (MAIL FROM), del/dei destinatari

reti multimediali.ppt [modalità compatibilità]conan.diei.unipg.it/RCM/lucidiRCM/reti multimediali.pdf · 2010. 3. 16. · Reti multimediali Reti di calcolatori e Internet: Un approccio

Aviva Italia S.p.A. Grave invalidità permanente Aviva ... · Italia S.p.A. - Servizio Reclami, con sede in Milano – Viale Abruzzi, 94 – numero di fax ... compresi gli hobbies

Lezione 1: Dalle reti sociali alle reti complesse

Guida reti PC Panella - valtercaria.it pc.pdf · GUIDA ALLE RETI DI PC Prof. Ettore Panella Reti locali Le reti locali, note col termine LAN (Local Area Network), sono reti private

modulo 8:reti di reti

Reti tra imprese, reti tra professionisti e reti miste ... · Simone Rossini – Contratto di rete tra imprese, reti tra professionisti e reti miste – Profili Giuridici Ing. Andrea

Infortuni Individuale e Cumulativa - avivaitalia.it · stazioni attinenti al governo della casa, compresi gli hobbies ed i lavori domestici di ordinaria ... che per gli infortuni

Introduzione - maggini/Teaching/RdC/Lectures/01... · Perché le reti di calcolatori Reti aziendali Reti domestiche Reti Mobili Terminologia e classificazione delle reti

RETI PER ESTENSIONI GEOGRAFICHE - ingdanielecorti.it · di reti metropolitane (MAN) o di reti geograficamente estese (WAN). Figura 3 - Gerarchia reti RETI INTERNE – NO Sono reti

Reti di impresa: Presentazione reti d'impresa

RETI – Mezzi trasmissivi e reti digitali trasmissivi.pdf · Reti analogiche e reti digitali \Poiché W reti grandi distanze, inizialmente Sl decise di utilizzare come sottorete

RETI INFORMATICHE - lumsa.it · • Reti locali (Local Area Network, LAN) – di limitata estensione ... • Reti metropolitane (Metropolitan Area Network, MAN) ... • Reti geografiche

Riassunto: reti IP - unibg.it · A1 Reti IP Paolo Salvaneschi 2 A1 Reti IP Paolo Salvaneschi 2 •Reti IP – Reti di elaboratori – Protocolli – Il modello ISO-OSI – La pila

RETI DI CALCOLATORI - talia/aa0203/reti/reti-lezione1x2.pdf · 5 D. Talia – RETI DI CALCOLATORI - UNICAL 9 10110 01100 01011 Reti di Calcolatori – Modalità di esame Prerequisiti