DataJournalism@RCS

41
Data Journalism seconda giornata Ovvero Perché Excel è un amico

description

Data Journalism con un po' di info sugli strumenti di base: Excel, OpenRefine, Pivot Tables e qualche tool di visualizzazione

Transcript of DataJournalism@RCS

Page 1: DataJournalism@RCS

Data Journalism

seconda giornataOvvero Perché Excel è un amico

Page 2: DataJournalism@RCS

Marco Montanari

@ingmmo, [email protected], sirmmo.blogspot.com

Sviluppatore, Appassionato di giochi, Nerd…

passione per i dati

“I am a journalist looking for coder friends.”

Jens Finnäs (HacksHackers Helsinki 2012)

“I am a coder with journalist friends.”

Marco Montanari

Page 3: DataJournalism@RCS

Struttura della notizia

5W

Who is it about?

What happened?

When did it take place?

Where did it take place?

Why did it happen?

Page 4: DataJournalism@RCS

Thought Experiment

Volete scrivere un articolo su un confronto fra due politici basandovi su

alcune affermazioni fatte nel tempo.

Vi servono dati per corroborare la vostra tesi

Raccogliete le posizioni dei politici sulle affermazioni

Page 5: DataJournalism@RCS

Dati raccolti

Politico 1: «Certo, i matrimoni omosessuali sono un diritto civile»

Politico 2: «Mai due gay all’altare»

Politico 1: «Ognuno ha diritto di autodeterminazione, nella vita e nella

morte»

Politico 2: «Se Dio avesse voluto che ci uccidessimo, non l’avrebbe reso

peccato capitale»

Politico 1: «Renzi si sta comportando un po’ come Grillo»

Politico 2: «Spero che Renzi sia candidato: rappresenta aria nuova,

finalmente»

Page 6: DataJournalism@RCS

Dati raccolti

Politico 1: «Certo, i matrimoni omosessuali sono un diritto civile»

Politico 2: «Mai due gay all’altare»

Politico 1: «Ognuno ha diritto di autodeterminazione, nella vita e nella

morte»

Politico 2: «Se Dio avesse voluto che ci uccidessimo, non l’avrebbe reso

peccato capitale»

Politico 1: «Renzi si sta comportando un po’ come Grillo»

Politico 2: «Spero che Renzi sia candidato: rappresenta aria nuova,

finalmente»

Page 7: DataJournalism@RCS

Dati raccolti

Argomento Politico 1 Politico 2

Matrimoni

omosessuali

Favorevole Contrario

Eutanasia Contrario Favorevole

Renzi Contrario Favorevole

Ma le 5W?

Sono diventate tre colonne di argomento specifico!

E ora possiamo vedere le posizioni in modo preciso!

Page 8: DataJournalism@RCS

Struttura del dato

5W

Who is it about?

What happened?

When did it take place?

Where did it take place?

Why did it happen?

Page 9: DataJournalism@RCS

Dimensioni dei dati

Ogni «W» è una dimensione

Ogni dimensione mette in

correlazione un aspetto

Più aspetti implicano più

sfaccettature della storia

Fatto

Chi

Cosa

QuandoPerché

Dove

Page 10: DataJournalism@RCS

Dimensioni dei dati del Thought

Experiment

Politico 1

Matrimoni omosessuali

RenziEutanasia

Politico 2

Matrimoni omosessuali

RenziEutanasia

Page 11: DataJournalism@RCS

Fonti di dati

I dati possono trovarsi sul web in tanti formati

Tabellari

xls xlsx csv tsv ods dbf

Strutturati

xml json (shp)

Linked data

RDF

Altro…

HTML

75%

20%

5

50%

Page 12: DataJournalism@RCS

75%

20%

5

50%

Fonti di dati

I dati possono trovarsi sul web in tanti formati

Tabellari

xls xlsx csv tsv ods dbf

Strutturati

xml json (shp)

Linked data

RDF

Altro…

HTML

Page 13: DataJournalism@RCS

DemoDove si analizza un dataset

http://dati.istat.it/

http://dati.comune.bologna.it/dati

Page 14: DataJournalism@RCS

Excel - Importazione dati csv - 1

Importazione

da file

Page 15: DataJournalism@RCS

Excel - Importazione dati csv - 2

Testo delimitato

da virgole e altri

simboli

Page 16: DataJournalism@RCS

Excel - Importazione dati csv - 3

In questo caso il

testo è delimitato

da punti e virgola

Page 17: DataJournalism@RCS

Excel - Importazione dati csv - 4

ATTENZIONE!!! Alcuni dati

numerici potrebbero essere solo

sequenza di caratteri numerici

(iniziando con 0)

Per concludere

Page 18: DataJournalism@RCS

Ma a volte i dati sono sporchi...

Page 19: DataJournalism@RCS

OpenRefine

Scaricare da http://openrefine.org

Scompattare archivio

Eseguire la applicazione con il simbolo del diamante

Page 20: DataJournalism@RCS

OpenRefine – Pulizia dei dati - 1

Modalità di importazione dei dati:

File locale

Indirizzo web (del file o dei diversi file)

Dati da Google

Page 21: DataJournalism@RCS

OpenRefine – Pulizia dei dati - 2

Preview dell’importazione

Modalità di importazione

Intestazione della colonna

Righe “inutili” con intestazioni

o descrizioni dei dati

Non interpretare il contenuto

(codici numerici con “0” iniziali)

Abuso di virgolette (“)

Page 22: DataJournalism@RCS

OpenRefine – Pulizia dei dati - 3

Clustering degli elementi affini all’interno della

colonna per omogeneizzare i dati

Page 23: DataJournalism@RCS

OpenRefine – Pulizia dei dati - 3Metodo di riconoscimento dell’affinità

Funzione di ricerca

Per unire i dati: selezionare le fusioni e “merge”

Page 24: DataJournalism@RCS

OpenRefine – Pulizia dei dati - 3

Trasformazione manuale dei dati

(per pulire la modalità “italiana” di scrittura dei numeri)

Trasformazioni “standard”

(eliminare spazi iniziali, finali, troppi spazi in mezzo)

Page 25: DataJournalism@RCS

OpenRefine – Pulizia dei dati - 3

Operazione: value.replace(".","").replace(",",".")

Anteprima della trasfromazione

Dato originario

Operazione di trasformazione

AIUTO!!!! (guida)

Page 26: DataJournalism@RCS

Uso del dato

Dati tabellari

Amati dai

manager

Non ideali per

una «storia»

Nemmeno ai

manager

piacciono i dati

«puri», ma

degli aggregati

Magari in forma

grafica

(Dashboard)

Page 27: DataJournalism@RCS

Pivoting

Tabella Pivot

Aggregazioni

semplici

Fattibile con

Excel e/o

Libreoffice

Page 28: DataJournalism@RCS

Cubi di dati

Datacube (Big Data?)

Aggregazioni complesse

Strumenti più specializzati (Excel le supporta)

Page 29: DataJournalism@RCS

DemoDove si prende la tabella e la si analizza attraverso aggregazioni

Page 30: DataJournalism@RCS

Pivoting in Excel - 1

Plugin Tabella Pivot

Page 31: DataJournalism@RCS

Pivoting in Excel - 2

Dove deve prendere I dati e

dove deve metterli?

Le impostazioni di default

vanno generalmente bene

Page 32: DataJournalism@RCS

Pivoting in Excel – Dimensioni - 1

A destra compare il Sistema di

gestione delle dimensioni del

dato

Page 33: DataJournalism@RCS

Pivoting in Excel – Dimensioni - 2

Genera

Ma “count”

rappresenta

solo la quantità

di progetti, non

l’ammontare

Page 34: DataJournalism@RCS

Pivoting in Excel – Dimensioni - 3

Il menu

accessibile

dalla freccina

consente di

modificare le

impostazioni

del singolo

campo,

portandoci a

selezionare

“somma” in

vece di “conta”

Page 35: DataJournalism@RCS

Pivoting in Excel – Dimensioni - 4

Aggiungendo una dimensione

nelle colonne, possiamo

analizzare gli incroci e

vedere le dinamiche

Totali per ogni aggregazione

Page 36: DataJournalism@RCS

Esplorazione dei dati con altri strumenti

Raw http://raw.densitydesign.org/

Datawrapper http://datawrapper.de/

Tableau http://www.tableausoftware.com/public/

Google Fusion Tables

Geojson.io

Page 37: DataJournalism@RCS

Scraping via browser

https://chrome.google.com/webstore/detail/table-

capture/iebpjdmgckacbodjpijphcplhebcmeop

https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaff

ohmbkdlecaccepngjd

Page 38: DataJournalism@RCS

Scraping via browser

Estrazione di dati tramite Table Capture

Page 40: DataJournalism@RCS

Si, è complesso, quindi…

… chiamate l’amico sviluppatore!!

Page 41: DataJournalism@RCS

That’s all Folks!

GRAZIE!

Per qualsiasi domanda:

@ingmmo

[email protected]

sirmmo.blogspot.com, …

sirmmo

http://it.linkedin.com/in/montanarim/

https://www.facebook.com/marco.montanari

marco.montanari