I Big Data e la Statistica: un progetto internazionale
-
Upload
carlo-vaccari -
Category
Technology
-
view
955 -
download
1
Transcript of I Big Data e la Statistica: un progetto internazionale
I Big Data e la Statistica: un progetto internazionale
Carlo Vaccari
Progetto presentato nel 2013 a HLG e a CES
Gruppo di lavoro composto da tecnici di 13 organizzazioni (UN, EU, OECD, NSIs)
Quattro sottogruppi:
Partnership Task Team
Privacy TT
Quality TT
Sandbox TT
Big Data nella Statistica Ufficiale
Prime spinte
Tre obiettivi:
Identificare le possibilit e le sfide strategiche e metodologiche che i BD pongono alla Statistica Ufficiale
Verificare la fattibilit della produzione di dati statistici a partire da Big Data e la replicabilit nei vari contesti nazionali
Facilitare la condivisione di conoscenza, strumenti e metodi tra le organizzazioni
Big Data nella Statistica Ufficiale
Sandbox: ambiente accessibile dal web dove i ricercatori esplorano strumenti e metodi per la produzione di statistiche a partire da Big Data
Strumenti software selezionati: Hadoop, Hortonworks (agreement), Pentaho (agreement), RHadoop (...opensource!)
Lista aperta a nuovi inserimenti
Sandbox
Ospitata dall'ICHEC, un centro di High Performance Computing irlandeseLinux cluster composto da 30 nodi, ognuno con due quad-core, 48GB di RAM e 1TB di disco locale
Ogni nodo connesso a due reti, una per accedere al fs Lustre e una Gigabit per la gestione
20TB di shared filesystem disponibili
Sandbox technicalities
Sorgenti:
Scanner data dai supermercati UK
Scanner data da Istat
Verifica delle prestazioni di tecnologie BD nel calcolare un indice dei prezzi semplificato testato su prezzi generati automaticamente
Caricati 11 miliardi di prezzi nella Sandbox comparazione tra diverse tecnologie: Hadoop NoSQL RDBMS
Visualizzazione dati con Pentaho
Sandbox esperimenti Prezzi al Consumo
Dataset da Orange dalla Costa d'Avorio (non CDR, ma sottoinsiemi limitati nello spazio/tempo)
Esperimenti:
Classificare le SIM: lavoratori, studenti, non FL, aziende
Classificare le zone (celle): industriali, residenziali, scuola/universit, basso/alto traffico
Distribuzione temporale delle chiamate: orarie / settimanali / stagionali
Studio della mobilit degli utenti
Sandbox esperimenti Mobile Data
Sandbox esperimenti Mobile Data
Dati dall'Irlanda (a livello di utenza, collegati con due indagini)
Dati dal Canada(livello di utenza, molti anni, dati orari con cosumo e temperatura e prezzo, collegati con indagini trimestrali)
Esperimenti: con RHadoop visualizzare dati sintetici per il Canada e provvedere analisi temporale per:
Consumo orario (kWh) vs Temperatura (C)
Consumo Orario (kWh) vs Prezzo Orario (c)
Sandbox esperimenti Contatori
In Olanda, 20,000 rilevatori di traffico su 3,000 km di strade, dati raccolti da un'agenzia centrale, NDW (National data warehouse for traffic)
Esperimenti:
Come gestire molteplici file in Hadoop
Come cambia il traffico durante l'anno
Deliverables:
Codice per aggregare i dati in Hive e con RHadoop
Rappresentazione grafica sullo sviluppo del traffico
Sandbox esperimenti Dati sul Traffico
Sandbox esperimenti Dati sul Traffico
Tweets generati in Mexico da Gennaio a Luglio 2014:
Sentimental analysis per ottenere indicatori di benessere soggettivo (e compararlo con statistiche su clima economico)
Tweets geo-referenziati per analizzare il movimento degli utenti
Prossimi passi:
Tweet geo-referenziati per movimenti stagionali e migrazioni al confine con USA (pendolarismo interno / esterno)
Lavoro sugli emoticon: dizionario, conteggio e comparazione internazionale degli emoticon e del loro potenziale espressivo
Rivisitazione degli algoritmi con MapReduce, Spark e Scala
Sandbox esperimenti Social Network
Sandbox esperimenti Social Network
Mobilit degli utenti Twitter verso le Citt magiche messicane
Gruppi di provenienza mista (skill/nazioni) sui vari esperimenti
Tutti i gruppi stanno conducendo esperimenti e hanno definito i deliverable: risultati preliminari per novembre, finali per fine anno
Si stanno sviluppando materiali per la formazione
Ottima cooperazione e scambio di esperienze: i partecipanti chiedono maggiore tempo per sviluppare altri esperimenti
richiesta di estensione del progetto
Stato del progetto
La cooperazione (internazionale) un moltiplicatore di idee
L'acquisizione dei (big) dati un processo lungo: approci diversi (Partnership TT) e sponsorship politica/legale
Avviare un ambiente tecnologico completo e stabile richiede tempo
Per cooperare servono incontri sia in presenza che virtuali
La formazione serve su diverse competenze: IT, stat e math serve personale aperto al nuovo: tecniche, software e metodi
Lessons learned
Grazie
Q&A
Firenze, 25 Settembre
Firenze, 25 Settembre
Firenze, 25 Settembre