Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per...

Post on 02-May-2015

219 views 0 download

Transcript of Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per...

Numeri e notizie:un’introduzione

al data journalism

Aggiornamento professionaleper l’Associazione lombarda

dei giornalistiLezione del 4 dicembre 2014

Un titolo sbagliato

• Il titolo di questo corso non è del tutto corretto: il data journalism non è il giornalismo che si occupa di numeri

• Il giornalismo nasce dai numeri: le prime gazzette si occupavano di merci arrivate nei porti e dei loro prezzi

• Da sempre il giornalismo sportivo si occupa di numeri

Un titolo sbagliato

• Il data journalism è l’applicazione al giornalismo delle nuove tecnologie di elaborazione dei dati, non necessariamente numerici

• È un campo in rapida crescita che richiede molte competenze diverse: in questo senso questa è un’introduzione

• Si parlerà poco di grafica, ma molto di numeri: da qui la scelta del titolo

Le nuove tecnologie

• Un esempio di elaborazione dati

Esempi di data journalism

• Dottori e dollari• Obama e Romney, 2012 (in D3)• Il budget di Obama, 2012 (in D3)• Siccità negli Usa, 2012 (in R)• Formula 1 (in Rchart e D3)

…ma anche:

L’immigrazione in Germania e Gran Bretagna, 2014

Il data journalism

• Il data journalism si compone di diverse fasi:1. La ricerca e il recupero dei dati2. La pulizia dei dati3. L’esplorazione e l’elaborazione dei dati4. La pubblicazione e la visualizzazione dei

dati

Data visualisation

• I grafici non sono l’unica conclusione possibile per un lavoro di data journalism anche se è innegabile che la presentazione grafica dei dati è molto efficace

• La data visualization va molto al di là delle semplici infografiche: è compito complesso, spesso svolto da statistici e fa parte della scienza statistica. La disciplina si allarga fino a lambire l’Intelligenza artificiale (machine learning)

• Questa introduzione si occuperà poco dell’elaborazione grafica finale, anche se l’attenzione ai grafici costituirà comunque una parte importante della lezione

Gli strumenti del data journalism

Gli strumenti del data journalism

• Ogni fase del data journalism può avvalersi di programmi software diversi, di complessità variabile

• Il data journalist «lone ranger» dovrebbe imparare a usare diversi programmi. Per questo il data journalism appare da subito come un lavoro di équipe

Gli strumenti del data journalism

• La quantità di strumenti a disposizione è tale che è possibile perdersi

• Data visualisation, una lista di software

Gli strumenti del data journalism

• Esistono anche strumenti molto duttili – come R, o anche Python – che permettono di fare cose diverse come estrarre, pulire, elaborare e visualizzare i dati

• Sono però linguaggi di programmazione, duttili perché poco «friendly»

• In ogni caso, il sostegno di strumenti più semplici può essere utile

• R è un programma e un linguaggio di programmazione disegnato per l’elaborazione statistica dei dati.

• È un open source ed è stato via via ampliato: oggi permette anche grafici interattivi (per i quali esistono però strumenti dedicati più adeguati

• È gratuito e funziona anche sui computer «bloccati» dalle aziende

• Rivela un’impostazione scientifica• Si scarica da http://www.r-project.org/

Gli strumenti di questo corso

Gli strumenti di questo corso

•Per la pulitura dei dati, si illustrerà l’uso di OpenRefine, disegnato per il data journalism•Per l’elaborazione dei dati si userà un foglio di calcolo – Excel e/o Calc della suite LibreOffice

Gli strumenti di questo corso

• OpenRefine è un foglio elettronico disegnato dalla Google per il data journalism

• È molto prezioso, ma i comandi non sono immediati. Esiste un breve manuale, in inglese

• È gratuito e funziona anche sui computer «bloccati» dalle aziende

• Si scarica da openrefine.org/

Gli strumenti di questo corso

• Excel è un foglio elettronico della suite Office di Windows. Usato anche dall’Fmi o dalle Università per l’elaborazione dei dati.

• Calc è un prodotto analogo opensource, gratuito. Non funziona sui computer «bloccati». La suite LibreOffice si scarica da www.libreoffice.org/

• Per lo scraping dei dati da internet si illustrerà la procedura su Google Spreadsheet. Lavora on line e si trova su docs.google.com/spreadsheets

Gli strumenti di questo corso

• Sarà comunque fornito un elenco di altri prodotti software utilizzabili dai data journalist

La ricerca dei dati

Dove cercare i dati

• Quando non sono forniti da fonti personali, i dati sono da cercare su internet

• Esistono diverse modalità di accesso:– Banche dati pubbliche e internazionali

• Quasi sempre producono frame di dati su richiesta

– Banche dati private– Siti internet

Banche dati internazionali

• Sono banche dati legate a organizzazioni internazionali

• Quasi tutte hanno una banca dati• Esempi:

– Fondo monetario internazionale– Nazioni Unite– Ocse 1 e 2– Federal Reserve di St. Louis– Eurostat

Banche dati internazionali

Molto spesso nelle banche dati internazionali è possibile ricavare dati sui paesi in via di sviluppo che non sono disponibili nel paese stesso

Esempi:Banca mondialeOpenData for Africa

Banche dati internazionali

• Qui l’elenco delle agenzie statistiche dell’Onu

• Qui l’elenco delle agenzie statistiche internazionali

• Qui l’elenco di altre agenzie internazionali

Banche dati internazionali

• Non mancano banche dati internazionali gestite da privati o non-profit

• Esempi:– Quandl– OpenCorporates (aziende)– Investigative Dashboard– Alltime Athletics

Istituti di Statistica

• La maggior parte dei paesi ha un suo istituto nazionale di statistica, non sempre indipendente non sempre attendibile

• Qui l’elenco• Per l’Italia è l’Istat• Più utile della home page è la sua banca

dati I.Stat– Per il commercio estero c’è Coeweb

Cercare altri dati: dove?

• La ricerca di dati non ufficiali, non pubblici, o non immediatamente reperibili segue le stesse regole della ricerca delle notizie

• Molte istituzioni e organizzazioni hanno a disposizioni banche dati

• In più, si hanno a disposizione i motori di ricerca, a cominciare da Google

Usare Google per cercare dati

• Per cercare dati con Google occorre usare gli operatori di ricerca.

• Qui la guida• Con site: si può limitare la ricerca a un

sito particolare. Per esempio site:ilsole24ore.com (senza www)

• Con type: posso individuare i file di dati usando l’estensione. Per esempio type: xls

Le estensioni dei files di dati

• .xls, .xlsx -> Excel• .cvs, tsv e simili -> dati separati da

virgole e tabulazioni (molto usati)• .htm, .html, .xlm -> file web• Attenzione: i dati separati da

virgole, .cvs, usano sicuramente il punto (e non la virgola), come decimali

I database ufficiali

• Due ricerche su Eurostat

Lo scraping dei dati

«Grattare» i dati dal web

• A volte i dati sono semplicemente presenti su una pagina web, per esempio una voce Wikipedia

• Per scaricarli ci sono diversi software che permettono di fare scraping. Alcuni di essi sono a pagamento

• Il più semplice è Google Spreadsheet, simile a Excel o Calc

Scraping con Google Spreadsheet

• Il comando da inserire è:=ImportHtml("URL","query",index)

• Url è l’indirizzo del sito• Query è la forma assunta dai dati, in

generale è table• Index è il numero della query, per

esempio il numero della tabella.

Un esempio di scraping

• Una pagina di Wikipedia

• Un secondo esempio

Altri strumenti di scraping

• Altri strumenti di scraping sono:– OutWit Hub – Import.io– Chrome extension Scraper – Scraperwiki

• Permettono, per esempio, di fare scraping su dati che compaiono su una serie di pagine web 

Lo scraping dei testi pdf

• Il pdf è uno dei sistemi più diffusi: a differenza di html, il linguaggio del web, è stato però disegnato per la stampa non per strutturare logicamente i contenuti: recuperare i dati è complicato

• Scraperwiki permette di fare scraping su pdf, ma a pagamento (dopo il 5°)

• Un’altra opzione è il Salva come testo di Adobe Acrobat

• Altrimenti occorre usare Python…

Scraping da pdf

Scraping da un comunicato della Bce

Quando il sito è bloccato

• Si discute se lo scraping sia legale: non mancano sentenze

• Non tutti i siti permettono di fare scraping

Ripulire i dati: OpenRefine

Ripulire i dati

• Non sempre le banche dati sono mantenute in modo ordinato

• Spesso sono riempite da più persone, in tempi diversi: nomi, vie, numeri possono essere inseriti con modalità diverse. Gli errori di battitura sono sempre in agguato

• Per ripulire (ma anche per esplorare) i dati, Google ha creato – sostanzialmente per i giornalisti – OpenRefine: gratuito, non è sempre di uso immediato

• Si scarica anche sui computer «bloccati»

Un esempio di ripulitura dei dati

L’elaborazione dei dati

Partendo dai numeri

• Dedichiamoci ora soprattutto ai dati numerici, che sono il centro del nostro discorso e che sono i più difficili da elaborare

• L’idea che può venire subito in mente è che occorre innanzitutto esaminare i numeri e trarne qualche indicazione, per esempio calcolando variazioni, medie, e così via

Otto serie di dati

• Un esempio. Prendiamo in considerazione otto serie di dati, da accoppiare due a due:

X1 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5Y1 = 8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68

X2 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5Y2 = 9.14, 8.14, 8.74, 8.77, 9.26, 8.10, 6.13, 3.10, 9.13, 7.26, 4.74

X3 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5Y3 = 7.46, 6.77, 12.74, 7.11, 7.81, 8.84, 6.08, 5.39, 8.15, 6.42, 5.73

X4 = 8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8Y4 = 6.58, 5.76, 7.71, 8.84, 8.47, 7.04, 5.25, 12.50, 5.56, 7.91, 6.89

Un’analisi numerica

• La media delle x è uguale a 9, in tutti i quattro casi

• La varianza delle x è uguale a 11• La media delle y è uguale a 7,50• La varianza delle y è 4.122 o 4.127• La correlazione tra le x e le y è 0.816• Si può «riassumere» ciascuna coppia di dati

con l’equazione y = 3 + 0.5x

ma…

La sorpresa

L’importanza dei grafici

• L’analisi esplorativa, sia effettuata dai giornalisti che dagli statistici più esperti, comincia sempre dai grafici

• I grafici dell’analisi esploratoria possono non avere nulla a che fare con i grafici finali, che hanno una funzione diversa, di comunicazione efficace: il grafico più utile per l’analisi – il boxplot – non comparirà mai sui giornali, il meno utile – la torta, magari in 3d – c’è spessissimo

• Molte regole sono comunque simili

Mostrare dati con i grafici

Napoleone e Charles Minard

Florence Nightingale

Trovare i casi estremi

I casi estremi

• Per valutare i singoli dati, occorre avere un punto di riferimento.

• A volte è esterno ai dati. Molte banche centrali tra cui la Bce, per esempio, hanno un obiettivo di inflazione del 2% nel medio periodo. Ogni singolo dato può essere valutato con quel punto di riferimento

• Altri hanno origine statistica: il Fondo monetario internazionale considera per esempio un livello di debito/pil superiore all’85% insostenibile per i paesi con accesso ai mercati e uno del 60% insostenibile per i paesi più poveri

I casi estremi

• In altri casi, è lo stesso insieme dei dati a fornire delle indicazioni

• Un minimo o un massimo, per esempio, danno già l’idea di trovarsi di fronte a un caso estremo

• Analogamente può accadere con un minimo o un massimo da x mesi, nelle serie temporali

• E’ però importante avere un punto di riferimento più preciso per i casi estremi importanti perché:

1. Possono rivelare una notizia2. Possono segnalare un errore nel data base

Riassumere i dati

• Per riassumere un insieme di dati la prima variabile da usare è la media:

µ = (x1 + x2 + … + xn-1 + xn)/n

• Una volta calcolata la media è molto importante capire quanto i singoli dati si allontanano dalla media:

( xi - µ )2

• La media di queste distanze è la varianza, la radice quadrata della varianza è la deviazione standard

• La deviazione standard serve come unità di misura per confrontare insiemi diversi di dati

Riassumere i dati

• La deviazione standard serve come unità di misura per confrontare insiemi diversi di dati

• L’idea è quella di misurare la distanza dei singoli dati dalla media con un’unità standard. Si può allora dire che il dato x1 è per esempio a due deviazioni standard dalla media.

• Quando i dati sono molto… ordinati – poi vedremo come ipotizzare questa simmetria - il 95% si colloca tra -2 e 2 deviazioni standard dalla media, il 99,7% tra -3 e 3 deviazioni standard.

Riassumere i dati

• Attenzione a non usare con troppa leggerezza questi parametri, pur molto diffusi.

• Su queste indicazioni, una flessione di Borsa del 6,8% (31 agosto 1998) potrebbe capitare in un caso su 20 milioni (o 76628 anni); una flessione del 7,7% (avvenuta un anno prima) in un caso su 50 miliardi (310,6 milioni di anni) e un crollo del 29,7% (19 ottobre 1987) di un caso su 1050, ossia 100.000 miliardi di miliardi di miliardi di miliardi di miliardi di giorni. L’universo ha circa 3.600 miliardi di giorni borsistici (365 meno sabati e domeniche in un anno).

• Si parla a volte di «code grasse», «fat tails».

Confrontare dati diversi

• Un esempio:– Antonio ha avuto 83/100– Francesca ha avuto 89/100

• Quindi Francesca è andata meglio di Antonio.• Ma Francesca e Antonio erano in due classi

diverse• Nella classe di Antonio la media è stata 74, in

quella di Francesca 80: i professori di Francesca erano più generosi

• Nella classe di Antonio la deviazione standard è stata di 4, in quella di Francesca di 6

Confrontare dati diversi

• VotoAntonio = 83 VotoFrancesca = 89

• MediaClasseAntonio = 74 MediaClasseFrancesca = 80

• SdClasseAntonio = 4 SdClasseFrancesca = 6

• Il voto «normalizzato» di Antonio è allora:(83-74)/4 = 2.25

• Il voto «normalizzato» di Francesca è:(89-80)/6 = 1.5

In realtà Antonio ha ottenuto un risultato migliore di Francesca

Il problema della media

• La media, e la deviazione standard, non sono però dati stabili

• Sono molto influenzati da quei «casi limite» che noi vogliamo individuare

• E’ come avere un Autovelox che a ogni multa fa salire la velocità alla quale scatta la foto

• Qualche anno fa, la Guinea Equatoriale appariva come uno dei paesi con il maggior reddito pro capite: in realtà c’erano poche persone e poche aziende ricchissime e la maggior parte della popolazione molto povera

La mediana

• Ci sono molti strumenti per ottenere un valore più stabile o «robusto»

• Nello sport si usa la «media olimpica»: il voto più alto e quello più basso vengono scartati

• L’altro sistema è calcolare la mediana: se metto in fila indiana, in ordine di reddito crescente, un insieme di persone, il reddito mediano è il reddito della persona «in mezzo» e divide il gruppo in due parti (oppure la media delle due persone «al centro» se il numero di persone è pari)

• Se su 100 persone, 99 guadagnano mille euro al mese e 1 un milione, il reddito mediano è mille euro

Verso un po’ di ordine

• La prima cosa da fare è confrontare la mediana e la media

• Se sono molto vicine i dati sono simmetrici e posso continuare a usare la media, la deviazione standard e i valori critici della deviazione standard

• Se sono lontane e la media è maggiore della mediana: è possibile trovare casi limite (o più casi limite) superiori alla media

• Se sono lontane e la media è minore della mediana, è possibile trovare casi limite (o più casi limite) inferiori alla media

La mediana

• Una volta diviso l’insieme in due parti, attraverso la mediana, posso ulteriormente dividere in due i due sottogruppi con lo stesso sistema: ottengo il primo quartile Q1 e il terzo quartile Q3(la mediana è il secondo quartile)

• La differenzaIQR = Q3 - Q1

(lo… scarto interquartile) può sostituire la deviazione standard

La mediana

IQR = Q3 - Q1

•I casi limite sono al di sotto diQ1 – 1,5*IQR

e al di sopra diQ3 + 1,5*IQR

•Tutto un po’ complicato… Come semplificare?

•La soluzione è sul sito www.alcula.com

Deviazioni standard

• Se si accetta di perdere precisione, si ci può comunque affidare alla deviazione standard.

• La probabilità che un dato sia alla distanza di due deviazioni standard della media non è mai maggiore di ¼ (25%) o 1/22 .

• La probabilità che sia alla distanza di tre deviazioni standard non è mai maggiore dell’11% (1/32)

• La probabilità che sia alla distanza di sei deviazioni standard no è mai maggiore del 2.8%.

• Quando i dati sono «ordinati», la probabilità che un dato sia a distanza di sei deviazioni standard è di 0,000000001 % …

Le serie temporali

Le serie temporali

• La prima valutazione, di fronte a una serie temporale è piuttosto il calcolo delle variazioni

• Per dati quotidiani si calcola in primo luogo la variazione quotidiani, per dati mensili variazioni mensili

• Nei dati macroeconomici si usa spesso anche la variazione annuale

• La formula per la percentuale è:

(Xn/xn-1 - 1)*100

Le medie mobili

• Per alcuni dati particolarmente volatili, per esempio quelli su import, export, quantità di moneta, è opportuno cercare di individuare una tendenza di fondo isolandola dalle variazioni temporanee

• Il modo più semplice è quello di calcolare la media mobile

• In genere trimestrale per i dati macroeconomici, ma per le quotazioni finanziari si può usare, insieme, la media a 14 giorni, quella a 200 giorni ecc.

Le medie mobili

• Per usare la media mobile, al posto del dato di novembre si usa la media novembre-ottobre-settembre, al posto del dato di ottobre la media ottobre-settembre-agosto ecc.

• Si disegna il grafico, sovrapponendolo a quello con i dati puntuali

• Se serve, si calcolano le variazioni tra un mese e l’altro usando la stessa formula dei dati puntuali

Le insidie della statistica

• Le statistiche possono essere molto insidiose, e occorre fare tanta attenzione su come usarle

• Non sarebbe impossibile ricavare dai dati ufficiali l’indicazione secondo cui nell’Unione europea il numero degli analfabeti è di circa 26 milioni

• Non sarebbe impossibile trovare anche una correlazione tra il livello di alfabetismo e la misura delle scarpe

• Una notizia…

Le insidie della statistica

Le insidie della statistica

• In passato sono state elaborate correlazioni perfette tra l’inflazione britannica e la temperatura di Londra, due variabili senza alcun legame

• E’ possibile stabilire, in alcuni paesi, una correlazione tra il consumo di gelati e il numero dei morsi di serpente. Sono due grandezze indipendenti ma legate alle stagioni e alla temperatura atmosferica

• In ogni caso, la correlazione statistica non segnala mai, da sola, un rapporto di causa ed effetto ma soltanto un legame che può anche rivelarsi temporaneo o mutare caratteristiche nel tempo

Le insidie della statistica

Il paradosso di Simpson

University of California, Berkeley - 1973Candidati Ammessi

Uomini 8442 44%Donne 4321 35%

Il paradosso di Simpson

DipartimentoCandidati Ammessi Candidati Ammessi

A 825 62% 108 82%B 560 63% 25 68%C 325 37% 593 34%D 417 33% 375 35%E 191 28% 393 24%F 373 6% 341 7%

Uomini Donne

riccardo.sorrentino@ilsole24ore.com

riccardo.sorrentino@yahoo.com