I Big Data e la Statistica: un progetto internazionale

download I Big Data e la Statistica: un progetto internazionale

If you can't read please download the document

Transcript of I Big Data e la Statistica: un progetto internazionale

I Big Data e la Statistica: un progetto internazionale

Carlo Vaccari

Progetto presentato nel 2013 a HLG e a CES

Gruppo di lavoro composto da tecnici di 13 organizzazioni (UN, EU, OECD, NSIs)

Quattro sottogruppi:

Partnership Task Team

Privacy TT

Quality TT

Sandbox TT

Big Data nella Statistica Ufficiale

Prime spinte

Tre obiettivi:

Identificare le possibilit e le sfide strategiche e metodologiche che i BD pongono alla Statistica Ufficiale

Verificare la fattibilit della produzione di dati statistici a partire da Big Data e la replicabilit nei vari contesti nazionali

Facilitare la condivisione di conoscenza, strumenti e metodi tra le organizzazioni

Big Data nella Statistica Ufficiale

Sandbox: ambiente accessibile dal web dove i ricercatori esplorano strumenti e metodi per la produzione di statistiche a partire da Big Data

Strumenti software selezionati: Hadoop, Hortonworks (agreement), Pentaho (agreement), RHadoop (...opensource!)

Lista aperta a nuovi inserimenti

Sandbox

Ospitata dall'ICHEC, un centro di High Performance Computing irlandeseLinux cluster composto da 30 nodi, ognuno con due quad-core, 48GB di RAM e 1TB di disco locale

Ogni nodo connesso a due reti, una per accedere al fs Lustre e una Gigabit per la gestione

20TB di shared filesystem disponibili

Sandbox technicalities

Sorgenti:

Scanner data dai supermercati UK

Scanner data da Istat

Verifica delle prestazioni di tecnologie BD nel calcolare un indice dei prezzi semplificato testato su prezzi generati automaticamente

Caricati 11 miliardi di prezzi nella Sandbox comparazione tra diverse tecnologie: Hadoop NoSQL RDBMS

Visualizzazione dati con Pentaho

Sandbox esperimenti Prezzi al Consumo

Dataset da Orange dalla Costa d'Avorio (non CDR, ma sottoinsiemi limitati nello spazio/tempo)

Esperimenti:

Classificare le SIM: lavoratori, studenti, non FL, aziende

Classificare le zone (celle): industriali, residenziali, scuola/universit, basso/alto traffico

Distribuzione temporale delle chiamate: orarie / settimanali / stagionali

Studio della mobilit degli utenti

Sandbox esperimenti Mobile Data

Sandbox esperimenti Mobile Data

Dati dall'Irlanda (a livello di utenza, collegati con due indagini)

Dati dal Canada(livello di utenza, molti anni, dati orari con cosumo e temperatura e prezzo, collegati con indagini trimestrali)

Esperimenti: con RHadoop visualizzare dati sintetici per il Canada e provvedere analisi temporale per:

Consumo orario (kWh) vs Temperatura (C)

Consumo Orario (kWh) vs Prezzo Orario (c)

Sandbox esperimenti Contatori

In Olanda, 20,000 rilevatori di traffico su 3,000 km di strade, dati raccolti da un'agenzia centrale, NDW (National data warehouse for traffic)

Esperimenti:

Come gestire molteplici file in Hadoop

Come cambia il traffico durante l'anno

Deliverables:

Codice per aggregare i dati in Hive e con RHadoop

Rappresentazione grafica sullo sviluppo del traffico

Sandbox esperimenti Dati sul Traffico

Sandbox esperimenti Dati sul Traffico

Tweets generati in Mexico da Gennaio a Luglio 2014:

Sentimental analysis per ottenere indicatori di benessere soggettivo (e compararlo con statistiche su clima economico)

Tweets geo-referenziati per analizzare il movimento degli utenti

Prossimi passi:

Tweet geo-referenziati per movimenti stagionali e migrazioni al confine con USA (pendolarismo interno / esterno)

Lavoro sugli emoticon: dizionario, conteggio e comparazione internazionale degli emoticon e del loro potenziale espressivo

Rivisitazione degli algoritmi con MapReduce, Spark e Scala

Sandbox esperimenti Social Network

Sandbox esperimenti Social Network

Mobilit degli utenti Twitter verso le Citt magiche messicane

Gruppi di provenienza mista (skill/nazioni) sui vari esperimenti

Tutti i gruppi stanno conducendo esperimenti e hanno definito i deliverable: risultati preliminari per novembre, finali per fine anno

Si stanno sviluppando materiali per la formazione

Ottima cooperazione e scambio di esperienze: i partecipanti chiedono maggiore tempo per sviluppare altri esperimenti

richiesta di estensione del progetto

Stato del progetto

La cooperazione (internazionale) un moltiplicatore di idee

L'acquisizione dei (big) dati un processo lungo: approci diversi (Partnership TT) e sponsorship politica/legale

Avviare un ambiente tecnologico completo e stabile richiede tempo

Per cooperare servono incontri sia in presenza che virtuali

La formazione serve su diverse competenze: IT, stat e math serve personale aperto al nuovo: tecniche, software e metodi

Lessons learned

Grazie

Q&A

Firenze, 25 Settembre

Firenze, 25 Settembre

Firenze, 25 Settembre