DataJournalism@RCS

Post on 05-Dec-2014

407 views 0 download

description

Data Journalism con un po' di info sugli strumenti di base: Excel, OpenRefine, Pivot Tables e qualche tool di visualizzazione

Transcript of DataJournalism@RCS

Data Journalism

seconda giornataOvvero Perché Excel è un amico

Marco Montanari

@ingmmo, marco.montanari@gmail.com, sirmmo.blogspot.com

Sviluppatore, Appassionato di giochi, Nerd…

passione per i dati

“I am a journalist looking for coder friends.”

Jens Finnäs (HacksHackers Helsinki 2012)

“I am a coder with journalist friends.”

Marco Montanari

Struttura della notizia

5W

Who is it about?

What happened?

When did it take place?

Where did it take place?

Why did it happen?

Thought Experiment

Volete scrivere un articolo su un confronto fra due politici basandovi su

alcune affermazioni fatte nel tempo.

Vi servono dati per corroborare la vostra tesi

Raccogliete le posizioni dei politici sulle affermazioni

Dati raccolti

Politico 1: «Certo, i matrimoni omosessuali sono un diritto civile»

Politico 2: «Mai due gay all’altare»

Politico 1: «Ognuno ha diritto di autodeterminazione, nella vita e nella

morte»

Politico 2: «Se Dio avesse voluto che ci uccidessimo, non l’avrebbe reso

peccato capitale»

Politico 1: «Renzi si sta comportando un po’ come Grillo»

Politico 2: «Spero che Renzi sia candidato: rappresenta aria nuova,

finalmente»

Dati raccolti

Politico 1: «Certo, i matrimoni omosessuali sono un diritto civile»

Politico 2: «Mai due gay all’altare»

Politico 1: «Ognuno ha diritto di autodeterminazione, nella vita e nella

morte»

Politico 2: «Se Dio avesse voluto che ci uccidessimo, non l’avrebbe reso

peccato capitale»

Politico 1: «Renzi si sta comportando un po’ come Grillo»

Politico 2: «Spero che Renzi sia candidato: rappresenta aria nuova,

finalmente»

Dati raccolti

Argomento Politico 1 Politico 2

Matrimoni

omosessuali

Favorevole Contrario

Eutanasia Contrario Favorevole

Renzi Contrario Favorevole

Ma le 5W?

Sono diventate tre colonne di argomento specifico!

E ora possiamo vedere le posizioni in modo preciso!

Struttura del dato

5W

Who is it about?

What happened?

When did it take place?

Where did it take place?

Why did it happen?

Dimensioni dei dati

Ogni «W» è una dimensione

Ogni dimensione mette in

correlazione un aspetto

Più aspetti implicano più

sfaccettature della storia

Fatto

Chi

Cosa

QuandoPerché

Dove

Dimensioni dei dati del Thought

Experiment

Politico 1

Matrimoni omosessuali

RenziEutanasia

Politico 2

Matrimoni omosessuali

RenziEutanasia

Fonti di dati

I dati possono trovarsi sul web in tanti formati

Tabellari

xls xlsx csv tsv ods dbf

Strutturati

xml json (shp)

Linked data

RDF

Altro…

HTML

75%

20%

5

50%

75%

20%

5

50%

Fonti di dati

I dati possono trovarsi sul web in tanti formati

Tabellari

xls xlsx csv tsv ods dbf

Strutturati

xml json (shp)

Linked data

RDF

Altro…

HTML

DemoDove si analizza un dataset

http://dati.istat.it/

http://dati.comune.bologna.it/dati

Excel - Importazione dati csv - 1

Importazione

da file

Excel - Importazione dati csv - 2

Testo delimitato

da virgole e altri

simboli

Excel - Importazione dati csv - 3

In questo caso il

testo è delimitato

da punti e virgola

Excel - Importazione dati csv - 4

ATTENZIONE!!! Alcuni dati

numerici potrebbero essere solo

sequenza di caratteri numerici

(iniziando con 0)

Per concludere

Ma a volte i dati sono sporchi...

OpenRefine

Scaricare da http://openrefine.org

Scompattare archivio

Eseguire la applicazione con il simbolo del diamante

OpenRefine – Pulizia dei dati - 1

Modalità di importazione dei dati:

File locale

Indirizzo web (del file o dei diversi file)

Dati da Google

OpenRefine – Pulizia dei dati - 2

Preview dell’importazione

Modalità di importazione

Intestazione della colonna

Righe “inutili” con intestazioni

o descrizioni dei dati

Non interpretare il contenuto

(codici numerici con “0” iniziali)

Abuso di virgolette (“)

OpenRefine – Pulizia dei dati - 3

Clustering degli elementi affini all’interno della

colonna per omogeneizzare i dati

OpenRefine – Pulizia dei dati - 3Metodo di riconoscimento dell’affinità

Funzione di ricerca

Per unire i dati: selezionare le fusioni e “merge”

OpenRefine – Pulizia dei dati - 3

Trasformazione manuale dei dati

(per pulire la modalità “italiana” di scrittura dei numeri)

Trasformazioni “standard”

(eliminare spazi iniziali, finali, troppi spazi in mezzo)

OpenRefine – Pulizia dei dati - 3

Operazione: value.replace(".","").replace(",",".")

Anteprima della trasfromazione

Dato originario

Operazione di trasformazione

AIUTO!!!! (guida)

Uso del dato

Dati tabellari

Amati dai

manager

Non ideali per

una «storia»

Nemmeno ai

manager

piacciono i dati

«puri», ma

degli aggregati

Magari in forma

grafica

(Dashboard)

Pivoting

Tabella Pivot

Aggregazioni

semplici

Fattibile con

Excel e/o

Libreoffice

Cubi di dati

Datacube (Big Data?)

Aggregazioni complesse

Strumenti più specializzati (Excel le supporta)

DemoDove si prende la tabella e la si analizza attraverso aggregazioni

Pivoting in Excel - 1

Plugin Tabella Pivot

Pivoting in Excel - 2

Dove deve prendere I dati e

dove deve metterli?

Le impostazioni di default

vanno generalmente bene

Pivoting in Excel – Dimensioni - 1

A destra compare il Sistema di

gestione delle dimensioni del

dato

Pivoting in Excel – Dimensioni - 2

Genera

Ma “count”

rappresenta

solo la quantità

di progetti, non

l’ammontare

Pivoting in Excel – Dimensioni - 3

Il menu

accessibile

dalla freccina

consente di

modificare le

impostazioni

del singolo

campo,

portandoci a

selezionare

“somma” in

vece di “conta”

Pivoting in Excel – Dimensioni - 4

Aggiungendo una dimensione

nelle colonne, possiamo

analizzare gli incroci e

vedere le dinamiche

Totali per ogni aggregazione

Esplorazione dei dati con altri strumenti

Raw http://raw.densitydesign.org/

Datawrapper http://datawrapper.de/

Tableau http://www.tableausoftware.com/public/

Google Fusion Tables

Geojson.io

Scraping via browser

https://chrome.google.com/webstore/detail/table-

capture/iebpjdmgckacbodjpijphcplhebcmeop

https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaff

ohmbkdlecaccepngjd

Scraping via browser

Estrazione di dati tramite Table Capture

Si, è complesso, quindi…

… chiamate l’amico sviluppatore!!

That’s all Folks!

GRAZIE!

Per qualsiasi domanda:

@ingmmo

marco.montanari@gmail.com

sirmmo.blogspot.com, …

sirmmo

http://it.linkedin.com/in/montanarim/

https://www.facebook.com/marco.montanari

marco.montanari