Social Network Analysis: Soundcloud -...
Transcript of Social Network Analysis: Soundcloud -...
Social Network Analysis: SoundcloudBy Alessandro Sperotti
Matricola 855331
Indice
▪ La Social Network: Soundcloud
▪ Acquisizione del dataset
▪ Distribuzione del degree
▪ Analisi della network
▪ Musicisti o Ascoltatori?
▪ I generi di Soundcloud
▪ Soundcloud nel mondo
La Social Network: Soundcloud
▪ Soundcloud nasce a Berlino nel 2007 come servizio di condivisione e di distribuzione di musica. Ad oggi conta circa 180 milioni di utenti iscritti.
▪ Soundcloud presenta una doppia natura:
1. È uno strumento per artisti emergenti (e non) che vogliono distribuire la propria musica
2. È una social network per chiunque voglia un servizio gratis di streaming audio, con
possibilità di seguire i propri artisti preferiti, e di commentare e condividere le loro
canzoni.
La Social Network: Soundcloud
▪ Ogni utente iscritto può:
1. Pubblicare sulla pagina personale i propri brani, o ripubblicare i brani di altri artisti
2. Seguire altri artisti, in maniera simile a come avviene su Instagram
3. Commentare un brano, o una determinata parte di esso
4. Condividere il proprio brano e quello di altri artisti su altre Social Network, come
Facebook, Twitter, Pinterest, ecc.
Acquisizione del Dataset
▪ I passi per l’acquisizione del dataset sono stati i seguenti:
▪ Sono stati acquisiti i dati da Soundcloud tramite lo script scraper.py, che si è occupato di
creare una edge list, e un altro file in cui sono stati memorizzati gli attributi dei vari nodi.
▪ I due file sono stati elaborati dallo script data_extractor.py, che si è occupato di:
▪ Creare il grafo a partire dalla edge list
▪ Aggiungere gli attributi ai vari nodi del grafo
▪ Esportare il grafo ottenuto in .gexf, per poterlo elaborare con Gephi.
Estrazione dati:
Scraper.py
Creazione grafico:
data_extractor.py
Analisi della Network:
Gephi e NetworkX
Acquisizione del DatasetDettagli Dataset
Utenti analizzati 1.303.500
Edges analizzati 2.151.285
Tempo di acquisizione ~ 7 giorni
Dettagli Grafo
Numero di nodi 753.893
Numero di edges 1.767.258
▪ Durante l’elaborazione dei dati sono stati scartati
circa 500.000 profili (utenti inattivi, errori di scrittura
nel file)
▪ Le informazioni di rilevanza che sono state acquisite
sono:
▪ Id dell’utente
▪ Paese di provenienza
▪ Numero di tracce pubblicate
▪ Numero di playlist
▪ Genere delle tracce ed etichetta discografica
Rappresentazione della Network
Metriche Network
Numero di Nodi 753.893
Numero di Edges 1.767.258
Degree Medio 4,68835
Degree Minimo 1
Degree Massimo 901
Densità 3.1094 * 10-6
Numero componenti
fortemente connesse610.415
Distribuzione del Degree
▪ Possiamo approssimare la distribuzione del degree della network ad una power law.
▪ Tuttavia possiamo notare un evidente “salto” all’interno del grafico: più precisamente, vi è un alto numero di utenti che ha un degree vicino a 50.
▪ Questo risultato può essere dato dalladimensione del campione: infatti, nonostanteil numero di nodi acquisito sia vicino al milione, il campione preso in considerazionerappresenta meno dell’1% di tutti gli utenti di Soundcloud.
▪ Possiamo vedere il “salto” anche nellaCCDF e nella PDF plottata su scalalogaritmica.
Distribuzione del Degree
Distribuzione del Degree
Analisi della Network
▪ La network presenta un coefficiente di clustering globale molto basso rispetto ad altre social network quali facebook, e twitter: possiamo quindi affermare che Soundcloud è una network poco transitiva.
▪ La network presenta una bassa reciprocity, che ci può suggerire che gli utenti seguano una persona solo per poter risalire velocemente a determinate canzoni.
Metriche Network
Global Clustering
Coefficient0,007038
Reciprocity 0,166345
Massima Eigenvector
Centrality0,06601
Massima Degree
Centrality0,00108
Analisi della Network
▪ L’utente con la degreecentrality più alta è The Noise Union, che conta ben 496 mila followers.
▪ Questo profilo, invece di un essere un singolo artista, sembra essere più un profilo che condivide musica di più artisti di generi simili.
▪ Il numero di followers non coincide con il grado massimo in quanto è stato preso solo un piccolo campione della network.
Componenti connesse
▪ La network è composta da grandissimo numero di componenti fortemente connesse di piccole dimensioni, ed una giant connected component.
▪ I nodi appartenenti alla GCC sono abbastanza eterogenei, sia in termini di paese di provenienza che in termini di canzoni pubblicate.
▪ Il Global Clustering Coefficient della componente è pari a circa 0,014: circa ildoppio del Clustering Coefficient dell’intera network analizzata.
▪ L’Average Path Length della giant connected component è pari a 6,34904. Questorisultato è vicino all’Average Path Length osservato in altre real networks. Possiamoaffermare, con una certa approssimazione, che lo Small World Phenomenonavviene anche nella network analizzata.
Giant Connected Component
Metriche GCC
Numero di Nodi 139.379
Numero di Edges 747.036
Degree Medio 10,7194
Diametro 17,790
Densità 1,8152 * 10-5
Global Clustering
Coefficient0,01490
Average Path Length 6,34904
Musicisti o Ascoltatori?
▪ Dai dati raccolti si può affermare che Soundcloud è una social network per musicisti: Infatti, il 63,3%degli utenti attivi ha pubblicato almeno una canzone.
▪ Si può anche notare che solo l’8,3% degli utenti ha pubblicato più di 50 tracce: ciò suggerisce che Soundcloud sia composta prevalentemente da musicisti emergenti.
▪ È possibile confermare questa affermazione andando ad osservare il numero di tracce pubblicate da un’etichetta discografica.
Musicisti o Ascoltatori?
▪ Dall’analisi dei dati risulta, come previsto, che la maggior parte delle tracce sono senza etichetta discografica.
▪ Le restanti etichette discografiche sono per la maggior parte etichette indipendenti, ossia etichette discografiche di piccole dimensioni che trattano generi musicali «underground»
▪ Quindi, concludiamo affermando che Soundcloud è una social network principalmente per musicisti emergenti.
Musicisti o Ascoltatori?
Generi Soundcloud
▪ Gli utenti del dataset acquisito hanno pubblicato complessivamente ben 16 milioni di tracce.
▪ Tuttavia, di queste tracce sono risultati ben 284 generi diversi!
▪ Possiamo osservare che il genere più popolare in Soundcloud è il Rap, seguito dall’Hip-hop, l’House, la musica elettronica, ecc.
▪ Generi più «classici», come il Rock ed il Jazz sono meno popolari.
Soundcloud Nel Mondo
Soundcloud nel mondo
▪ Nonostante Soundcloud sia un prodotto 100% europeo, si può notare che la maggior parte degli utenti proviene dagli Stati Uniti.
▪ La Germania, patria di Soundcloud è al terzo posto, mentre l’Italia è al settimo posto.
▪ L’Italia si classifica al quarto posto tra i paesi europei.
▪ Possiamo quindi affermare che escludendo gli Stati Uniti, l’Italia si ritrova ad essere uno dei paesi in cui Soundcloud è più popolare.
Utilizzatori di Soundcloud
per paese
Stati Uniti 37,38%
Regno Unito 5,23%
Germania 4,9%
Francia 4,24%
Canada 3,49%
Brasile 3,36%
Italia 3,35%
Australia 2,77%
Egitto 2,27%
Resto del mondo 33,90%
Souncloud nel mondo – Stati Uniti
Metriche Network
Numero di Nodi 137.505
Numero di Edges 102.424
Degree Medio 1,4897
Numero Componenti
Fortemente Connesse126.538
Densità 2,0411 * 10-6
Global Clustering
Coefficient0,006680
Souncloud nel mondo – Regno Unito
Metriche Network
Numero di Nodi 19.601
Numero di Edges 3.807
Degree Medio 0,388
Numero Componenti
Fortemente Connesse19.237
Densità 9,9094* 10-6
Global Clustering
Coefficient0,02524
Soundcloud nel mondo - Germania
Metriche Network
Numero di Nodi 18.314
Numero di Edges 6.088
Degree Medio 0,6648
Numero Componenti
Fortemente Connesse17.790
Densità 1,8152 * 10-5
Global Clustering
Coefficient0,001389
Soundcloud nel mondo - Francia
Metriche Network
Numero di Nodi 15.604
Numero di Edges 4.892
Degree Medio 0,6270
Numero Componenti
Fortemente Connesse15.124
Densità 2,0092* 10-5
Global Clustering
Coefficient0,002212
Soundcloud nel mondo - Canada
Metriche Network
Numero di Nodi 12.869
Numero di Edges 3.089
Degree Medio 0,4800
Numero Componenti
Fortemente Connesse12.443
Densità 1,8653 * 10-5
Global Clustering
Coefficient0.013071
Soundcloud nel mondo - Brasile
Metriche Network
Numero di Nodi 12.387
Numero di Edges 6.538
Degree Medio 1,0556
Numero Componenti
Fortemente Connesse11.911
Densità 4,2613 * 10-5
Global Clustering
Coefficient0,009383
Soundcloud nel mondo - Italia
Metriche Network
Numero di Nodi 12.312
Numero di Edges 5.903
Degree Medio 0.9589
Numero Componenti
Fortemente Connesse11.554
Densità 3,8944* 10-5
Global Clustering
Coefficient0.006524
Soundcloud nel mondo - Riepilogo
▪ Possiamo osservare che le sub-network dei paesi più popolari sono, a parte gliStati Uniti, poco connesse e poco “social”, in quanto hanno un grado medio minore di 1 (ad eccezione del Brasile) e un clustering coefficient basso.
▪ Possiamo cercare di interpretare questo fenomeno in due modi:
▪ La grandezza del campione è ancora una volta non sufficiente ad avere un quadro davverocompleto della situazione
▪ La maggior parte degli utenti dei vari paesi tendono a socializzare più con utenti di altri paesirispetto ai propri compaesani. Inoltre, considerando che la maggior parte degli utenti di Soundcloud è statunitense, possiamo inoltre intuire che gli utenti tendano a socliazzare di piùcon artisti statunitensi.
Grazie per l’attenzione