Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

71
@Alessio Cimarelli / @Andrea Nelson Mauro DAI DATI ALLA NOTIZIA IN QUATTRO MOSSE INTRODUZIONE AL DATA JOURNALISM Che cos’è il Datajournalism school.dataninja.it BETA

description

Prima dispensa in italiano dedicata al data journalism. I condivisi sono suddivisi in una introduzione più quattro capitoli

Transcript of Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

Page 1: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

@Alessio Cimarelli / @Andrea Nelson Mauro

DAI DATI ALLA NOTIZIAIN QUATTRO MOSSE

INTRODUZIONE AL DATA JOURNALISM

Che cos’è il Datajournalism

school.dataninja.it

BETA

Page 2: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> INDICE DELLA DISPENSA

● Pag 3 - Introduzione, cenni storici

● Pag 11 - Dove trovare i dati e come scaricarli

● Pag 28 - Pulire i dati

● Pag 41 - Esplorare i dati

● Pag 54 - Visualizzare i dati

● Pag 69 - Credits

● Pag 70 - Chandelog

school.dataninja.it 2

Page 3: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> UNA STORIA CHE VIENE DA LONTANO.

Il primo uso del computer a fini giornalistici risale al 1952 negli USA: nasce il C.A.R. (Computer Assisted Reporting)http://www.wired.com/science/discoveries/news/2008/11/dayintech_1104

Nel 1967 Philip Meyer consacra questa pratica con un’inchiesta di successohttp://www.nieman.harvard.edu/reports/article/102053/1968-A-Newspapers-Role-Between-the-Riots.aspx

Nel 1973 Meyer stesso fonda il “giornalismo di precisione”, coniugando uso della tecnologia e metodo scientifico“The New Precision Journalism”: http://www.unc.edu/~pmeyer/book/“Giornalismo e metodo scientifico”: http://www.armando.it/schedalibro/20046/Giornalismo-e-metodo-scientifico

1952

1967

1973

school.dataninja.it 3

Page 4: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> UNA STORIA CHE VIENE DA LONTANO..

Il salto si ha con l’aumento esponenziale della quantità e della qualità dei dati digitali a disposizione, oltre che degli strumenti tecnologici e concettuali per gestirli e analizzarli.

school.dataninja.it 4

Page 5: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> UNA STORIA CHE VIENE DA LONTANO...

Nato in ambito anglosassone, oggi il data journalism (DDJ) è una pratica adottata un po’ ovunque. La si trova in luoghi dedicati (datablog, giornali ad-hoc), ma è sempre più pervasiva nel giornalismo in generale, anche perché si può applicare a qualsiasi tema e contesto.

L’Italia è indietro, ma anni-luce avanti rispetto a pochi anni fa.

school.dataninja.it 5

Page 6: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PECULIARITÀ E LIMITI DEL DDJ

Richiede competenze multi-disciplinari e quindi team di professionisti:● giornalista● data scientist / statistico● sviluppatore● designer / grafico

Porta facilmente a prodotti giornalistici di lunga vita.

Richiede molta accortezza nell’uso degli strumenti statistici.

Si rischiano prodotti giornalistici “belli”, ma fini a se stessi.

school.dataninja.it 6

Page 7: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PECULIARITÀ E LIMITI TECNOLOGICI DEL DDJ

Gli strumenti e le piattaforme cambianomolto velocemente e bisogna rimanere aggiornati.

● Spesso si usano servizi di terze parti di cui non si ha il controllo.● Ci sono ampie libertà di riutilizzo e riciclo.● Il rilascio dei dati permette di costruire comunità attorno ad essi.

Spesso è necessario imparare a usare software con curve di apprendimento abbastanza ripide.

school.dataninja.it 7

Page 8: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PECULIARITÀ E LIMITI ITALIANI DEL DDJ

● Richiede competenze multi-disciplinari e tecnologicamente avanzate in una professione in cui si inizia a parlare ora di formazione continua. http://www.odg.it/content/formazione-continua

● Si intreccia con la crisi dei media, dell’editoria e del giornalismo.

● Cerca di farsi spazioin una cultura giornalistica votata al giornalismo di opinione.Daniel Hallin, Paolo Mancini, “Modelli di giornalismo. Mass Media e politica nelle democrazie occidentali”. Editore Laterza (2004)

school.dataninja.it 8

Page 9: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> LA GENESI DI UN’INCHIESTA DATA-DRIVEN

Mi imbatto in un insieme di dati e sento il profumo di una possibile notizia: li raccolgo, li analizzo, faccio delle ipotesi, le verifico, scopro la notizia.

Ho un interesse, un’idea, una tesi, cerco i dati che la riguardano, li analizzo, rivedo l’idea iniziale, torno ai dati, scopro una notizia.

http://www.theguardian.com/news/datablog/2011/apr/07/data-journalism-workflow

school.dataninja.it 9

Page 10: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> SCHEMA DEL PROCESSO DI PRODUZIONE

1. Trovare2. Pulire3. Analizzare4. Raccontare

school.dataninja.it 10

Page 11: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

DAI DATI ALLA NOTIZIAIN QUATTRO MOSSE

INTRODUZIONE AL DATA JOURNALISM

1. Dove trovare i dati e come scaricarli

school.dataninja.it 11

Page 12: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> COSA SONO I DATI: UNA DEFINIZIONE

Singoli pezzi di informazione di ogni natura, descrizioni di fatti riproducibili senza ambiguità, parti di informazioni strutturate che possono essere archiviate in formato digitale

Maurizio Napolitano, Technologist presso la Fondazione Bruno Kessler

“”school.dataninja.it 12

Page 13: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> COSA SONO I DATI: IL CONTESTO

Eric Schmidt Google’s executive chairman

From the dawn of civilization until

2003, humankind generated five

exabytes of data. Now we produce

five exabytes every two days… and

the pace is accelerating!

”“1 exabyte = 1018 bytes = 1.000.000.000.000.000.000 (un trilione di) bytes1 byte ~= 1 carattere di testo | Divina Commedia: ~ 500.000 caratteri

school.dataninja.it 13

Page 14: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> TIPI DI DATI: DATI NON STRUTTURATI

school.dataninja.it 14

Page 15: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> TIPI DI DATI: DATI STRUTTURATI E METADATI

Un metadato è un’informazione che descrive un dato e ne descrive anche la relazione con gli altri dati.

Strutturare un insieme di dati significa esplicitarne il significato e le relazioni reciproche.

Esempio:● 110 (dato)● Superficie calpestabile dell’abitazione in mq (metadato)school.dataninja.it 15

Page 16: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> TIPI DI DATI: OPEN E CLOSED (LICENZE)

Open Definition: http://opendefinition.org/od

Un dato è aperto se chiunque è libero di

usarlo, riutilizzarlo, ridistribuirlo, ed è

soggetto tutt’al più all’obbligo di citazione o

condivisione allo stesso modo“”

school.dataninja.it 16

Page 17: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> TIPI DI DATI: QUELLI CHE PRODUCIAMO NOI

Sondaggi, informazioni, interviste giornalistiche, dati personali: è importante capire con che tipo di dati abbiamo a che fare e quali sono le regole che vogliamo darci nel diffonderli.

Ormai siamo anche noi produttori di dati e dataset, quindi dobbiamo scegliere una licenza di distribuzione!

school.dataninja.it 17

Page 18: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> A CACCIA DI DATI: UNA BUONA DOMANDA

UN EVENTO

LA NOSTRA

INCHIESTA PUÒ

NASCERE DA UN

EVENTO DI CRONACA

CHE VOGLIAMO

APPROFONDIRE

FOLLOW THE MONEY

SE VUOI FARE UN’

INCHIESTA E NON SAI

DA DOVE PARTIRE,

PROVA A SEGUIRE L’

ODORE DEI SOLDI!

UN TEMA

VOGLIAMO

CONTESTUALIZZARE,

ANALIZZARE E

INDAGARE UNA

TEMATICA SPECIFICA

O UN FENOMENO

school.dataninja.it 18

Page 19: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> A CACCIA DI DATI: FONTI

PUBBLICA AMMINISTRAZIONE

LEAKS

ASSOCIAZIONIONG

TERZO SETTORE

COMUNITÀ DI INTERESSECOMITATI DI CITTADINI ATTIVI

NOI STESSI...GIORNALISTI

SOCIAL NETWORK

ORGANISMI INTERNAZIONALI

school.dataninja.it 19

Page 20: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> FONTI DI DATI: PUBBLICA AMMINISTRAZIONE

Legislazioni sull’Open Data By Default - Nel 2013 è entrato in vigore il Codice dell’Amministrazione Digitale (CAD) che prevede l’”Open Data by Default”. Il formato di tipo aperto è “un formato di dati reso pubblico, documentato esaustivamente e neutro rispetto agli strumenti tecnologici necessari per la fruizione dei dati stessi”.Fonte: http://goo.gl/zmjbY7

Diritto (e richieste) di accesso ai dati - Chiunque può chiedere accesso ai dati della PA, se in possesso dei requisiti come stabilito dalla Legge 214 del 1990. Fonte: http://goo.gl/T8LHXK

school.dataninja.it 20

Page 21: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> FONTI DI DATI: SOGGETTI PRIVATI

● Editori, giornali di carta / on-line● Organizzazioni non governative● Associazioni● Fondazioni● Istituti di ricerca● Grandi aziende private / a

partecipazione pubblica

school.dataninja.it 21

Page 22: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> FONTI DI DATI: SONO QUALIFICATE?

● Chi è la nostra fonti di dati e quali sono i suoi scopi?

● È un soggetto comunemente ritenutoaffidabile nel contesto in cui opera?

● È possibile verificare altrove se i dati che fornisce sono credibili?

● Qualcun altro ha usato datida questa fonte?

school.dataninja.it 22

Page 23: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> SCARICARE I DATI: FORMATI DEI FILE

Se i dati sono strutturati e offerti in un formato machine readable, il lavoro è semplice: è sufficiente scaricare il file e aprirlo con un software apposito (spesso un foglio di calcolo).

● Alcuni formati comuni: xls(x), csv, tsv, ods● Formati strutturati, ma meno gestibili con

pacchetti di ufficio: xml, sql, json, shp, kml

school.dataninja.it 23

Page 24: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> SCARICARE I DATI: E SE SONO TROPPI?

Se i dati sono suddivisi in una grande quantità di file, pubblicati per esempio come un elenco di indirizzi web, ci sono diversi strumenti di download massivo che automatizzano il lavoro e scaricano tutto sostanzialmente da soli.

Esempio: https://www.gnu.org/software/wget/

school.dataninja.it 24

Page 25: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> SCRAPING: GRATTARE DAL WEB (HTML)

I dati possono trovarsi pubblicati direttamente su pagine web sotto forma di tabelle o liste: prima di essere elaborati su fogli di calcolo è necessario estrarli e riorganizzarli in formati machine readable (xls, csv, tsv, ods).

Spesso, più che una scienza, è un’arte. Ci sono molti strumenti con cui partire (DataMiner, ScraperWiki, …)

school.dataninja.it 25

Page 26: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> SCRAPING: GRATTARE DAL WEB (PDF)

I dati possono trovarsi sotto forma di tabelle inserite in un file PDF. Sono ben strutturati solo visivamente e quindi non sono usabili direttamente in fogli di calcolo, ma vanno estratti. Anche qui serve un lavoro di scraping per estrarli e renderli machine readable (xls, csv, tsv, ods).È uno dei compiti di scraping più difficili, spesso impossibile (per esempio quando i documenti sono scansioni): alcuni strumenti utili sono Okular, Tabula, la suite professionale di Adobe.

school.dataninja.it 26

Page 27: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> SCRAPING: SE SERVE UNO SVILUPPATORE

Anche se ci si trova nelle condizioni di fare scraping, non sempre ci sono software già pronti: può essere necessario uno strumento ad hoc costruito da uno sviluppatore professionista.Uno scraper è un software appositamente scritto in un qualche linguaggio di programmazione (python, javascript, java, …)

Non tutti i dati possono essere estratti in maniera automatica.

school.dataninja.it 27

Page 28: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

DAI DATI ALLA NOTIZIAIN QUATTRO MOSSE

INTRODUZIONE AL DATA JOURNALISM

2. Pulire i dati

school.dataninja.it 28

Page 29: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PULIRE I DATI: UN PASSAGGIO IMPORTANTE

La pulizia dei dati è fondamentale per assicurarsi che siano strutturati bene all’interno delle righe e delle colonne, che i valori inseriti siano coerenti, che siano stati inseriti correttamente.

Analizzare i dati senza fare un attento data cleaning potrebbe portare successivamente a gravi errori o a difficoltà ingestibili.

school.dataninja.it 29

Page 30: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PULIRE I DATI: I TIPI DI DATI

Di fronte all’enorme varietà del mondo, il computer comprende pochi tipi di variabili:

● numeri interi (con segno, incluso lo 0)● numeri decimali (con segno)● date e orari● stringhe di caratteri (case sensitive)● valore mancante (o NULL)

school.dataninja.it 30

Page 31: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PULIRE I DATI: LA TABELLA

Una tabella è composta da colonne e righe. ● Ogni colonna rappresenta e contiene uno e un

solo tipo di dato. ● Ogni riga rappresenta e contiene uno e un solo

oggetto, definito univocamente dalla collezione di dati inseriti nelle varie colonne.

● Non possono esistere righe completamente vuote o più righe perfettamente identiche.

school.dataninja.it 31

Page 32: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PULIRE I DATI: CHECKLIST DI CONTROLLI / 1

Controlla che la struttura dei dati sia corretta. Ogni colonna deve contenere valori dello stesso tipo. Se la colonna indica una data, in tutte le righe di quella colonna devono esserci solo date (o NULL). Se contiene nomi di persone, devono esserci solo quelli (o NULL). Nella colonna “Nato il” non può esserci un nome di persona, e nella colonna “Nome” non possono esserci date.

school.dataninja.it 32

Page 33: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PULIRE I DATI: CHECKLIST DI CONTROLLI / 2

Controlla che i dati siano scritti alla stessa maniera. Se una colonna contiene date, le date devono essere scritte con la stessa struttura (esempio: nella notazione italiana GG/MM/AAAA).

Attenzione a quando si mescolano notazione italiana e anglosassone (MM/GG/AAAA): alcune date sono valide, ma sbagliate!

school.dataninja.it 33

Page 34: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PULIRE I DATI: CHECKLIST DI CONTROLLI / 3

Controlla che all’interno delle righe le parole siano scritte in maniera omogenea. Ad esempio nella colonna dei nomi è un errore scrivere in una riga “Italia” e nella riga successiva “ITALIA”: l’applicazione potrebbe capire che si tratta di cose differenti. È necessario scrivere “Italia” (oppure “ITALIA”) in entrambe le righe, e in tutte quelle dov’è presente il valore “Italia” sia in maiuscolo che in minuscolo.

school.dataninja.it 34

Page 35: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PULIRE I DATI: CHECKLIST DI CONTROLLI / 4

Controlla quale sistema di numerazione stai usando. Europeo o anglosassone? È importante perché esistono separatori diversi per indicare i decimali e le migliaia.

● Le migliaia – In Europa si scrive 1.000 (mille), mentre negli Stati Uniti e in Gran Bretagna si scrive 1,000. In questo caso in Europa indichiamo le migliaia con un punto, non con la virgola.

● I decimali – In Europa si scrive 1,5 (uno e mezzo), mentre negli Stati Uniti e in Gran Bretagna si scrive 1.5. In questo caso in Europa indichiamo i decimali con una virgola, non con il punto.

school.dataninja.it 35

Page 36: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PULIRE I DATI: CHECKLIST DI CONTROLLI / 5

Controlla le intestazioni e assicurati che siano sempre nella prima riga della tua tabella. Le intestazioni sono i “nomi” dei tuoi dati, che si trovano suddivisi in colonne. Ogni intestazione dà il nome alla colonna nella quale si trova: perché però il tutto funzioni, le intestazioni devono trovarsi nella prima riga della tua tabella (e solo lì, non devono ripetersi in mezzo alla tabella).

school.dataninja.it 36

Page 37: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PULIRE I DATI: CHECKLIST DI CONTROLLI / 6

Controlla le righe e le celle bianche / vuote. La tua tabella potrebbe averne, perché spesso i fogli di calcolo vengono usati in maniera impropria. Le righe vuote non devono esistere. Le celle vuote possono invece indicare valori mancanti, l’importante è essere coerenti (tutte le celle vuote indicano sempre valori mancanti).Attenzione a celle fintamente vuote: il carattere spazio c’è, anche se non si vede!

school.dataninja.it 37

Page 38: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PULIRE I DATI: CHECKLIST DI CONTROLLI / 7

Controlla le somme se lavori su tabelle numeriche e le stai modificando, esportando o salvando in altri file. Le somme dei dati numerici dai vecchi ai nuovi file possono essere dei check molto utili per evidenziare degli errori.

school.dataninja.it 38

Page 39: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PULIRE I DATI: CHECKLIST DI CONTROLLI / 8

È sempre meglio avere a che fare con dati il più granulari e dettagliati possibile. Se si può, quindi, meglio suddividere le informazioni in più colonne possibile (per esempio se si hanno nomi completi, meglio dividerli in “nome” e “cognome”, se si hanno “codice fiscale” e “partita iva”, meglio prevedere due campi separati, ...).

school.dataninja.it 39

Page 40: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> PULIRE I DATI: GLI STRUMENTI

I dati possono essere puliti anche da foglio di calcolo o con un semplice editor di testo, ma uno degli strumenti migliori è OpenRefine, un’applicazione open-source che permette di filtrare, riorganizzare e trasformare anche grandi quantità di dati in pochi click: http://openrefine.org/.

school.dataninja.it 40

Page 41: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

DAI DATI ALLA NOTIZIAIN QUATTRO MOSSE

INTRODUZIONE AL DATA JOURNALISM

3. Esplorare i dati

school.dataninja.it 41

Page 42: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> ANALISI: ESPLORARE I DATI

Le possibili strade per esplorare i dati dipendono dalla loro quantità e dalla loro qualità. Tra gli elementi da tenere presenti ci sono le dimensioni che li caratterizzano.

● I nostri dati hanno una dimensione geografica e permettono un confronto tra territori?

● Hanno una dimensione temporale e possono permetterci di valutare come un fenomeno cambia nel tempo?

school.dataninja.it 42

Page 43: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> ANALISI / 1. LA NORMALIZZAZIONE DEI DATI

La normalizzazione è un aspetto cruciale per confrontare i dati tra loro.È indispensabile se un valore muta in relazione al contesto al quale afferisce. Esempio: non ha senso confrontare direttamente i disoccupati di un territorio più popoloso con quelli di un territorio meno popoloso.La normalizzazione si ottiene costruendo un rapporto tra il dato e il contesto. Per confrontare i disoccupati di Lombardia e Molise, li dobbiamo relazionare alla popolazione (“Disoccupati Lombardia / Residenti Lombardia” vs. “Disoccupati Molise / Residenti Molise”).

school.dataninja.it 43

Page 44: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> ANALISI / 2. ANDAMENTO NEL TEMPO

Confrontare i dati nel tempo è importante. La disoccupazione cresce? Il reddito è in aumento? Per rispondere a queste domande dobbiamo misurarne la variazione.

Concentriamoci sul reddito a base regionale: per sapere se nel 2013 è aumentato rispetto al 2012 (e dove), dobbiamo avere entrambi i dati per ogni regione. Ci serve un dataset costruito così: nella prima colonna avremo il nome dalla regione, nella seconda il corrispondente reddito del 2012, nella terza quello del 2013.

school.dataninja.it 44

Page 45: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> ANALISI / 2. ANDAMENTO NEL TEMPO

Per sapere di quanto è aumentato o diminuito il reddito è sufficiente calcolarne la variazione relativa per ogni regione:

(reddito 2013 - reddito 2012)

reddito 2012

Il risultato è un indice di variazione relativa del reddito espresso in percentuale (es. +12%).

school.dataninja.it 45

Page 46: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> ANALISI / 3. LA DISTRIBUZIONE

Quando si ha un insieme di numeri abbastanza grande (centinaia o più), come per esempio le superfici degli esercizi commerciali di una città, è utile conoscerne la distribuzione, cioè il modo in cui popolano tutti i possibili valori che possono assumere teoricamente.

Per esempio una superficie è misurata con un numero decimale positivo di metri quadrati. Quindi nel nostro dataset di esercizi commerciali possiamo trovare qualsiasi valore tra 0 e (teoricamente) infinito.

school.dataninja.it 46

Page 47: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> ANALISI / 3. LA DISTRIBUZIONE

Operativamente si divide l’intero intervallo di valori possibili (es. 0 -> +infinito) in tanti piccoli intervallini (es. 0-50 -> 50-100 -> …), quindi si contano per ognuno di essi quanti valori del dataset ci cadono dentro.

Il grafico qui accanto mostra per esempio la distribuzione della superficie di 109.654 esercizi commerciali italiani. La maggior parte ha un superficie intorno ai 50 mq, quasi tutti sono sotto i 200 mq.

school.dataninja.it 47

Page 48: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> ANALISI / 4. GLI INDICATORI STATISTICI

Attraverso analisi quantitative i dati possono essere confrontati, per esempio costruendo un indicatore.Poniamo di avere un dataset con tre colonne: nella prima l'elenco delle regioni italiane, nella seconda il numero totale di disoccupati per regione, nella terza il numero di giovani disoccupati per regione.I giovani disoccupati sono una parte del totale dei disoccupati: dividendo "giovani disoccupati" per "totale dei disoccupati" in ciascuna regione, possiamo costruire il nostro indicatore (il risultato sarà sempre compreso tra 0 e 1). Ora possiamo confrontare i territori attraverso un indice di disoccupazione giovanile.

school.dataninja.it 48

Page 49: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> ANALISI / 5. LE CORRELAZIONI

Nel mondo reale oggetti e fenomeni interagiscono tra loro. Un fenomeno può essere causa di un altro, o può manifestarsi come un effetto di una qualche causa, o due fenomeni possono dipendere da una causa comune.

Un primo indizio di un legame tra due fenomeni è dato dalla loro eventuale correlazione: la tendenza di uno a variare in funzione dell’altro.

school.dataninja.it 49

Page 50: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> ANALISI / 5. LE CORRELAZIONI

Per verificare qualitativamente una possibile correlazione tra due variabili è sufficiente costruire un grafico ponendo una variabile su ogni asse. Es. l’altezza dei padri vs. l’altezza dei figli mostra una correlazione positiva (cresce una, cresce l’altra per questioni genetiche).

Quantitativamente si possono calcolare degli indici o coefficienti di correlazione. Il più semplice e utile è quello di Pearson (valori d’esempio mostrati in figura).

school.dataninja.it 50

Page 51: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> ANALISI / 6. ORDINARE I DATI

Ordinare i dati è un’operazione tanto semplice quanto utile: la facciamo ogni giorno, per esempio per sapere quali sono le nostre spese più o meno importanti, oppure organizzando i nomi dei contatti della rubrica secondo l’ordine alfabetico.

Durante l’analisi dei dati può essere utilissima perché ci permette di conoscere immediatamente i valori massimi e minimi dei dati che stiamo analizzando. Nell’esempio sulla disoccupazione, ordinando i dati finali scopriamo facilmente dove la disoccupazione è maggiore e dov’è minore.

school.dataninja.it 51

Page 52: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> ANALISI / 7. FILTRARE I DATI

Filtrare i dati è un’operazione semplice che può avere varie utilità.

● Filtriamo i dati per concentrarci su quelli che ci interessano di più in base a un parametro comune. Avendo i valori della disoccupazione per tutte le province italiane, potrebbero servirci solo quelli della Lombardia: li filtriamo quindi per la chiave “Lombardia”.

● Filtriamo i dati anche per isolare i valori più significativi: ad esempio se ci interessano solo le province dove la disoccupazione è in aumento, filtreremo solo le righe con valori positivi.

school.dataninja.it 52

Page 53: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> ANALISI / 8. RAGGRUPPARE I DATI

Raggruppare i dati è un’operazione che permette di aggregarli secondo criteri specifici, funzionali alla nostra ricerca giornalistica. Nei fogli di calcolo questa operazione è assolta dalle Tabelle Pivot.

Poniamo che la nostra inchiesta non sia sull’occupazione in generale, ma solo su quella giovanile e che abbiamo i dati dei disoccupati suddivisi non solo per regione, ma anche per età. Per ogni riga abbiamo quindi “Territorio” / “Fascia d’età” / “Disoccupati”. Possiamo ricavare i dati complessivi per regione raggruppando i dati originali per Fascia d’età (inferiore a 24 anni), sommando i relativi singoli valori.

school.dataninja.it 53

Page 54: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

DAI DATI ALLA NOTIZIAIN QUATTRO MOSSE

INTRODUZIONE AL DATA JOURNALISM

4. Visualizzare i dati

school.dataninja.it 54

Page 55: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> VISUALIZZARE I DATI: PERCHÉ

Come non era mai successo nelle nostre vite, oggi abbiamo accesso a un’infinità di informazioni libere e gratuite. Con gli strumenti giusti possiamo cominciare a dare un senso a questi dati per vedere schemi e trend che altrimenti per noi sarebbero invisibili. Trasformando i numeri in forma grafica, permetteremo ai lettori di conoscere le storie che quei numeri nascondono. Alberto Cairo

The functional art

”“

school.dataninja.it 55

Page 56: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> VISUALIZZARE I DATI: COME

La visualizzazione dei dati è un aspetto cruciale: è fondamentale scegliere un tipo di visualizzazione adeguata al tipo di dati che si hanno a disposizione perché

● se corretta, permette di comprendere a fondo il senso dei dati;

● se sbagliata, ne può falsare completamente il significato.

school.dataninja.it 56

Page 57: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> VIZ / 1. GRAFICO DI DISPERSIONE

Grafico a punti o di dispersione

È il più semplice per evidenziare una dipendenza tra due variabili (correlazione).

school.dataninja.it 57

Page 58: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> VIZ / 2. GRAFICO A LINEE

Grafico a linee

Il più usato per mostrare i cambiamenti o gli andamenti nel tempo.

school.dataninja.it 58

Page 59: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> VIZ / 3. ISTOGRAMMA

Istogramma

Quando i valori di ciascun elemento, come le nazioni dell’esempio, non hanno una relazione reciproca gli uni con gli altri, o quando è importante evidenziare alcuni valori specifici, è preferibile un istogramma piuttosto che un grafico a punti o a linee.

school.dataninja.it 59

Page 60: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> VIZ / 4. GRAFICO A BARRE

Grafico a barre

Questa variante è molto utile se si hanno molte etichette lunghe da mostrare. Qui le informazioni sono nella parte sinistra della visualizzazione, in modo da lasciare più spazio e rendere più facile e piacevole la lettura.

school.dataninja.it 60

Page 61: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> VIZ / 5. GRAFICO A TORTA

Grafico a torta

Da usare solo per mostrare dati che sommati insieme rappresentano un totale (e presi singolarmente rappresentano le parti del totale).

Il grafico a ciambella è una variante del grafico a torta: spesso è usato in ambito politico per indicare la distribuzione del parlamentari di maggioranza e opposizione.

school.dataninja.it 61

Page 62: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> VIZ / 6. LE MAPPE INTERATTIVE

Visualizzare i dati su una mappa richiede un requisito fondamentale: che i dati contengano almeno una dimensione geografica. La rappresentazione dei dati avviene in tre modalità differenti:

● Punti - Luoghi geografici con specifiche coordinate (latitudine e longitudine) ai quali i dati si riferiscono (indirizzi, città, …)

● Linee - Serie di punti collegati e relativi dati (strade, percorsi, …)● Perimetri - Poligoni che definiscono determinate aree afferenti ai

dati (quartieri, comuni, province, regioni, nazioni, …)

school.dataninja.it 62

Page 63: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> VIZ / 6. PRINCIPALI TIPI DI MAPPE

CHOROPLETH HEATMAP

Numero figli per donnaPerimetri deformati in base al valore dei dati

Diffusione dei giornaliPerimetri colorati in base al valore dei dati

Distribuzione slotColore in base al valore medio di punti adiacenti

CARTOGRAMMI

school.dataninja.it 63

Page 64: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> VIZ / 7. LE RETI

Una visualizzazione a rete è adatta per evidenziare rapporti reciproci tra elementi.Sono necessari due ingredienti: i nodi, individuati da un id unico e caratterizzati da vari parametri, e i collegamenti, individuati da una coppia ordinata di nodi e caratterizzati a loro volta da vari parametri.

Esempio: un gruppo di persone (nodi) e i loro rapporti di amicizia (collegamenti). Ed ecco visualizzato Facebook, per esempio…

school.dataninja.it 64

Page 65: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> VISUALIZZARE I DATI: I SOFTWARE

Esistono numerosi software che permettono in maniera più o meno semplice di visualizzare i dati tradurre i numeri in immagini.

● Datawrapper (grafici di base) http://datawrapper.de/

● Quantum GIS (mappe) http://www.qgis.org/it/site/

● CartoDB (mappe di ogni genere) http://cartodb.com/

● Google Fusion Tables (grafici di base e mappe con GMaps)● Infogr.am (grafici di vario genere organizzati in una infografica)● Gephi (reti) https://gephi.org/

● D3js (libreria javascript per scrivere web app interattive) http://d3js.org/

school.dataninja.it 65

Page 66: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> RACCONTARE UNA STORIA

Mai dimenticare che il data journalism non è altro che giornalismo.

● 5 W (+ H di How, come)● Verifica delle fonti● Deontologia professionale● Trasparenza (citazione delle fonti,

rilascio dei dati)E poi una buona scrittura (e belle foto, bei video, interviste utili, applicazioni interattive chiare e fruibili, …).

school.dataninja.it 66

Page 67: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> RISORSE VARIE: SU WEB

● http://www.dataninja.it

● http://www.datajournalism.it

● http://www.ascuoladiopencoesione.it

● http://www.openricostruzione.it

● http://www.wired.it/data

● http://www.theguardian.com/data

● http://www.datajournalismblog.com/

● http://flowingdata.com/

● http://www.ahref.eu/it/

● http://datajournalismhandbook.org/

● http://datadrivenjournalism.net/

● http://datajcrew.sudmediatika.it/

● http://it.okfn.org/

● http://www.spaghettiopendata.org/

● http://www.datamediahub.it/

● http://simonrogers.net/

school.dataninja.it 67

Page 68: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> RISORSE VARIE: LIBRI

● Paul Bradshaw, “Scraping for Journalists”, Leanpub (2014)

● John Mair, Richard Lance Keeble, “Data Journalism”, abramis (2014)

● Paul Bradshaw, “Data Journalism Heist”, Leanpub (2013)

● Claire Miller, “Getting Started with Data Journalism”, Leanpub (2013)

● Nathan Yau, “Data Points: Visualization That Means Something”, Wiley (2013)

● Simon Rogers, “Facts are Sacred”, Faber & Faber (2013)

● Jonathan Gray et al., “The Data Journalism Handbook”, O'Reilly (2012)

● Nathan Yau, “Visualize This”, Wiley (2011)

school.dataninja.it 68

Page 69: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> CREDITS

Alessio Cimarelli / "jenkin27"

[email protected]

@jenkin27

school.dataninja.it 69

Andrea Nelson Mauro / "nelsonmau"

[email protected]

@nelsonmauDataninja

www.dataninja.it|

http://school.dataninja.it

Newsletterhttp://dataninja.it/newsletter

Q&Ahttp://school.dataninja.it/qa

Page 70: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> CREDITS

Le immagini utilizzate in questa presentazione sono prodotte da Dataninja.it, o messe a

disposizione dai relativi autori in formato CC-by. Alcune delle immagini sono tratte da:

● School of Data (Open Knowledge Foundation)

● Datadrivenjournalism.net

● Openclipart

● Pixabay

● De.straba.us (blog di Maurizio Napolitano)

Per maggiori info sui contenuti, puoi contattarci all’indirizzo email [email protected]

school.dataninja.it 70

Page 71: Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

> CHANGELOG

La dispensa è stata realizzata da dataninja.it a maggio 2014. In questa pagina terremo traccia

delle modifiche che effettueremo.

● Ultimo aggiornamento: 16/05/2014 by @nelsonmau

school.dataninja.it 71