DJS3 - Quando il Dato non c'è

24
Roma, Scuola superiore di statistica e di analisi sociali ed economiche 06/06/2013 Quando il dato non c’è Ovvero come partire senza dati ma con un’idea

description

Lezione di gestione dati e scraping per DJS3-Roma

Transcript of DJS3 - Quando il Dato non c'è

Page 1: DJS3 - Quando il Dato non c'è

Roma,

Scuola superiore di statistica

e di analisi sociali ed

economiche

06/06/2013

Quando il dato non c’è

Ovvero come partire senza dati ma con

un’idea

Page 2: DJS3 - Quando il Dato non c'è

Guido RomeoMarco Montanari

@ingmmo, [email protected], sirmmo.blogspot.com

• Sviluppatore, Appassionato di giochi, Nerd…

– passione per i dati

• “I am a journalist looking for coder friends.”– Jens Finnäs (HacksHackers Helsinki)

• “I am a coder with journalist friends.”– Marco Montanari

Page 3: DJS3 - Quando il Dato non c'è

Scopo del gioco

• Volete scrivere un articolo su un trend che avete percepito

• Vi servono dati per corroborare la vostra tesi

• Contattate l’ente che potrebbe avere quei dati....

Page 4: DJS3 - Quando il Dato non c'è

... E ...

Page 5: DJS3 - Quando il Dato non c'è

ARGH!!!! :/

• Ci mancano i dati

• Chi dovrebbe fornirceli non sa come trovarli

• «Ma c’è una pagina on-line»

– con i dati in tabelle scomodissime

– o in PDF

– o in grafici strani

Page 6: DJS3 - Quando il Dato non c'è

Programmazione, si…

• I dati possono trovarsi sul web in tanti formati

– Tabellari• xls xlsx csv tsv ods dbf

– Strutturati• xml json (shp)

– Linked data• RDF

– Altro…• HTML

75%

20%

5

50%

Page 7: DJS3 - Quando il Dato non c'è

Programmazione, si…

• I dati possono trovarsi sul web in tanti formati

– Tabellari• xls xlsx csv tsv ods dbf

– Strutturati• xml json (shp)

– Linked data• RDF

– Altro…• HTML

75%

20%

5

50%

Page 8: DJS3 - Quando il Dato non c'è

Roma,

Scuola superiore di statistica

e di analisi sociali ed

economiche

06/06/2013

DEMO

Dove si analizza una pagina web

Page 10: DJS3 - Quando il Dato non c'è

Scraping via browser

Estrazione di dati tramite Table Capture

Page 12: DJS3 - Quando il Dato non c'è

Scraping

Page 13: DJS3 - Quando il Dato non c'è

…ma semplice…

Page 15: DJS3 - Quando il Dato non c'è

… e in ogni caso…

… chiamate l’amico sviluppatore!!

Page 16: DJS3 - Quando il Dato non c'è

Roma,

Scuola superiore di statistica

e di analisi sociali ed

economiche

06/06/2013

DEMO

HTTP://SIRMMO.GITHUB.IO/DATABOULDER/

Dove si costruisce un semplice scraper di una pagina

Page 17: DJS3 - Quando il Dato non c'è

Struttura del dato

• 5W

– Who is it about?

– What happened?

– When did it take place?

– Where did it take place?

– Why did it happen?

Page 18: DJS3 - Quando il Dato non c'è

Dimensioni dei dati

• Ogni «W» è una dimensione

• Ogni dimensione mette in correlazione un aspetto

• Più aspetti implicano più sfaccettature della storia

Fatto

Chi

Cosa

QuandoPerché

Dove

Page 19: DJS3 - Quando il Dato non c'è

Roma,

Scuola superiore di statistica

e di analisi sociali ed

economiche

06/06/2013

DEMO

Dove si prende il dataset e si analizzano i dati

Page 20: DJS3 - Quando il Dato non c'è

Uso del dato

• Dati tabellari – Amati dai

manager

– Non ideali per una «storia»

• Nemmeno ai manager piacciono i dati «puri», ma degli aggregati– Magari in forma

grafica (Dashboard)

Page 21: DJS3 - Quando il Dato non c'è

Pivoting

• Tabella Pivot– Aggregazioni

semplici

– Fattibile con Excel e/o Libreoffice

Page 22: DJS3 - Quando il Dato non c'è

Cubi di dati

• Datacube (Big Data?)

– Aggregazioni complesse

– Strumenti più specializzati (Excel le supporta)

Page 23: DJS3 - Quando il Dato non c'è

Roma,

Scuola superiore di statistica

e di analisi sociali ed

economiche

06/06/2013

DEMO

Dove si prende la tabella e la si analizza attraverso aggregazioni

Page 24: DJS3 - Quando il Dato non c'è

That’s all Folks!

GRAZIE!

Per qualsiasi domanda:

@[email protected], …sirmmohttp://it.linkedin.com/in/montanarim/https://www.facebook.com/marco.montanarimarco.montanari