Social Network Analysis: Soundcloud -...

30
Social Network Analysis: Soundcloud By Alessandro Sperotti Matricola 855331

Transcript of Social Network Analysis: Soundcloud -...

Page 1: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Social Network Analysis: SoundcloudBy Alessandro Sperotti

Matricola 855331

Page 2: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Indice

▪ La Social Network: Soundcloud

▪ Acquisizione del dataset

▪ Distribuzione del degree

▪ Analisi della network

▪ Musicisti o Ascoltatori?

▪ I generi di Soundcloud

▪ Soundcloud nel mondo

Page 3: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

La Social Network: Soundcloud

▪ Soundcloud nasce a Berlino nel 2007 come servizio di condivisione e di distribuzione di musica. Ad oggi conta circa 180 milioni di utenti iscritti.

▪ Soundcloud presenta una doppia natura:

1. È uno strumento per artisti emergenti (e non) che vogliono distribuire la propria musica

2. È una social network per chiunque voglia un servizio gratis di streaming audio, con

possibilità di seguire i propri artisti preferiti, e di commentare e condividere le loro

canzoni.

Page 4: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

La Social Network: Soundcloud

▪ Ogni utente iscritto può:

1. Pubblicare sulla pagina personale i propri brani, o ripubblicare i brani di altri artisti

2. Seguire altri artisti, in maniera simile a come avviene su Instagram

3. Commentare un brano, o una determinata parte di esso

4. Condividere il proprio brano e quello di altri artisti su altre Social Network, come

Facebook, Twitter, Pinterest, ecc.

Page 5: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa
Page 6: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Acquisizione del Dataset

▪ I passi per l’acquisizione del dataset sono stati i seguenti:

▪ Sono stati acquisiti i dati da Soundcloud tramite lo script scraper.py, che si è occupato di

creare una edge list, e un altro file in cui sono stati memorizzati gli attributi dei vari nodi.

▪ I due file sono stati elaborati dallo script data_extractor.py, che si è occupato di:

▪ Creare il grafo a partire dalla edge list

▪ Aggiungere gli attributi ai vari nodi del grafo

▪ Esportare il grafo ottenuto in .gexf, per poterlo elaborare con Gephi.

Estrazione dati:

Scraper.py

Creazione grafico:

data_extractor.py

Analisi della Network:

Gephi e NetworkX

Page 7: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Acquisizione del DatasetDettagli Dataset

Utenti analizzati 1.303.500

Edges analizzati 2.151.285

Tempo di acquisizione ~ 7 giorni

Dettagli Grafo

Numero di nodi 753.893

Numero di edges 1.767.258

▪ Durante l’elaborazione dei dati sono stati scartati

circa 500.000 profili (utenti inattivi, errori di scrittura

nel file)

▪ Le informazioni di rilevanza che sono state acquisite

sono:

▪ Id dell’utente

▪ Paese di provenienza

▪ Numero di tracce pubblicate

▪ Numero di playlist

▪ Genere delle tracce ed etichetta discografica

Page 8: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Rappresentazione della Network

Metriche Network

Numero di Nodi 753.893

Numero di Edges 1.767.258

Degree Medio 4,68835

Degree Minimo 1

Degree Massimo 901

Densità 3.1094 * 10-6

Numero componenti

fortemente connesse610.415

Page 9: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Distribuzione del Degree

▪ Possiamo approssimare la distribuzione del degree della network ad una power law.

▪ Tuttavia possiamo notare un evidente “salto” all’interno del grafico: più precisamente, vi è un alto numero di utenti che ha un degree vicino a 50.

▪ Questo risultato può essere dato dalladimensione del campione: infatti, nonostanteil numero di nodi acquisito sia vicino al milione, il campione preso in considerazionerappresenta meno dell’1% di tutti gli utenti di Soundcloud.

▪ Possiamo vedere il “salto” anche nellaCCDF e nella PDF plottata su scalalogaritmica.

Page 10: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Distribuzione del Degree

Page 11: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Distribuzione del Degree

Page 12: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Analisi della Network

▪ La network presenta un coefficiente di clustering globale molto basso rispetto ad altre social network quali facebook, e twitter: possiamo quindi affermare che Soundcloud è una network poco transitiva.

▪ La network presenta una bassa reciprocity, che ci può suggerire che gli utenti seguano una persona solo per poter risalire velocemente a determinate canzoni.

Metriche Network

Global Clustering

Coefficient0,007038

Reciprocity 0,166345

Massima Eigenvector

Centrality0,06601

Massima Degree

Centrality0,00108

Page 13: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Analisi della Network

▪ L’utente con la degreecentrality più alta è The Noise Union, che conta ben 496 mila followers.

▪ Questo profilo, invece di un essere un singolo artista, sembra essere più un profilo che condivide musica di più artisti di generi simili.

▪ Il numero di followers non coincide con il grado massimo in quanto è stato preso solo un piccolo campione della network.

Page 14: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Componenti connesse

▪ La network è composta da grandissimo numero di componenti fortemente connesse di piccole dimensioni, ed una giant connected component.

▪ I nodi appartenenti alla GCC sono abbastanza eterogenei, sia in termini di paese di provenienza che in termini di canzoni pubblicate.

▪ Il Global Clustering Coefficient della componente è pari a circa 0,014: circa ildoppio del Clustering Coefficient dell’intera network analizzata.

▪ L’Average Path Length della giant connected component è pari a 6,34904. Questorisultato è vicino all’Average Path Length osservato in altre real networks. Possiamoaffermare, con una certa approssimazione, che lo Small World Phenomenonavviene anche nella network analizzata.

Page 15: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Giant Connected Component

Metriche GCC

Numero di Nodi 139.379

Numero di Edges 747.036

Degree Medio 10,7194

Diametro 17,790

Densità 1,8152 * 10-5

Global Clustering

Coefficient0,01490

Average Path Length 6,34904

Page 16: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Musicisti o Ascoltatori?

▪ Dai dati raccolti si può affermare che Soundcloud è una social network per musicisti: Infatti, il 63,3%degli utenti attivi ha pubblicato almeno una canzone.

▪ Si può anche notare che solo l’8,3% degli utenti ha pubblicato più di 50 tracce: ciò suggerisce che Soundcloud sia composta prevalentemente da musicisti emergenti.

▪ È possibile confermare questa affermazione andando ad osservare il numero di tracce pubblicate da un’etichetta discografica.

Page 17: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Musicisti o Ascoltatori?

▪ Dall’analisi dei dati risulta, come previsto, che la maggior parte delle tracce sono senza etichetta discografica.

▪ Le restanti etichette discografiche sono per la maggior parte etichette indipendenti, ossia etichette discografiche di piccole dimensioni che trattano generi musicali «underground»

▪ Quindi, concludiamo affermando che Soundcloud è una social network principalmente per musicisti emergenti.

Page 18: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Musicisti o Ascoltatori?

Page 19: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Generi Soundcloud

▪ Gli utenti del dataset acquisito hanno pubblicato complessivamente ben 16 milioni di tracce.

▪ Tuttavia, di queste tracce sono risultati ben 284 generi diversi!

▪ Possiamo osservare che il genere più popolare in Soundcloud è il Rap, seguito dall’Hip-hop, l’House, la musica elettronica, ecc.

▪ Generi più «classici», come il Rock ed il Jazz sono meno popolari.

Page 20: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Soundcloud Nel Mondo

Page 21: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Soundcloud nel mondo

▪ Nonostante Soundcloud sia un prodotto 100% europeo, si può notare che la maggior parte degli utenti proviene dagli Stati Uniti.

▪ La Germania, patria di Soundcloud è al terzo posto, mentre l’Italia è al settimo posto.

▪ L’Italia si classifica al quarto posto tra i paesi europei.

▪ Possiamo quindi affermare che escludendo gli Stati Uniti, l’Italia si ritrova ad essere uno dei paesi in cui Soundcloud è più popolare.

Utilizzatori di Soundcloud

per paese

Stati Uniti 37,38%

Regno Unito 5,23%

Germania 4,9%

Francia 4,24%

Canada 3,49%

Brasile 3,36%

Italia 3,35%

Australia 2,77%

Egitto 2,27%

Resto del mondo 33,90%

Page 22: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Souncloud nel mondo – Stati Uniti

Metriche Network

Numero di Nodi 137.505

Numero di Edges 102.424

Degree Medio 1,4897

Numero Componenti

Fortemente Connesse126.538

Densità 2,0411 * 10-6

Global Clustering

Coefficient0,006680

Page 23: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Souncloud nel mondo – Regno Unito

Metriche Network

Numero di Nodi 19.601

Numero di Edges 3.807

Degree Medio 0,388

Numero Componenti

Fortemente Connesse19.237

Densità 9,9094* 10-6

Global Clustering

Coefficient0,02524

Page 24: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Soundcloud nel mondo - Germania

Metriche Network

Numero di Nodi 18.314

Numero di Edges 6.088

Degree Medio 0,6648

Numero Componenti

Fortemente Connesse17.790

Densità 1,8152 * 10-5

Global Clustering

Coefficient0,001389

Page 25: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Soundcloud nel mondo - Francia

Metriche Network

Numero di Nodi 15.604

Numero di Edges 4.892

Degree Medio 0,6270

Numero Componenti

Fortemente Connesse15.124

Densità 2,0092* 10-5

Global Clustering

Coefficient0,002212

Page 26: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Soundcloud nel mondo - Canada

Metriche Network

Numero di Nodi 12.869

Numero di Edges 3.089

Degree Medio 0,4800

Numero Componenti

Fortemente Connesse12.443

Densità 1,8653 * 10-5

Global Clustering

Coefficient0.013071

Page 27: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Soundcloud nel mondo - Brasile

Metriche Network

Numero di Nodi 12.387

Numero di Edges 6.538

Degree Medio 1,0556

Numero Componenti

Fortemente Connesse11.911

Densità 4,2613 * 10-5

Global Clustering

Coefficient0,009383

Page 28: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Soundcloud nel mondo - Italia

Metriche Network

Numero di Nodi 12.312

Numero di Edges 5.903

Degree Medio 0.9589

Numero Componenti

Fortemente Connesse11.554

Densità 3,8944* 10-5

Global Clustering

Coefficient0.006524

Page 29: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Soundcloud nel mondo - Riepilogo

▪ Possiamo osservare che le sub-network dei paesi più popolari sono, a parte gliStati Uniti, poco connesse e poco “social”, in quanto hanno un grado medio minore di 1 (ad eccezione del Brasile) e un clustering coefficient basso.

▪ Possiamo cercare di interpretare questo fenomeno in due modi:

▪ La grandezza del campione è ancora una volta non sufficiente ad avere un quadro davverocompleto della situazione

▪ La maggior parte degli utenti dei vari paesi tendono a socializzare più con utenti di altri paesirispetto ai propri compaesani. Inoltre, considerando che la maggior parte degli utenti di Soundcloud è statunitense, possiamo inoltre intuire che gli utenti tendano a socliazzare di piùcon artisti statunitensi.

Page 30: Social Network Analysis: Soundcloud - unimi.itsomeni.di.unimi.it/progetti2017/Sperotti-Soundcloud.pdf · Il Global Clustering Coefficient della componente è pari a circa 0,014: circa

Grazie per l’attenzione