Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per...

72
Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014

Transcript of Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per...

Page 1: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Numeri e notizie:un’introduzione

al data journalism

Aggiornamento professionaleper l’Associazione lombarda

dei giornalistiLezione del 4 dicembre 2014

Page 2: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Un titolo sbagliato

• Il titolo di questo corso non è del tutto corretto: il data journalism non è il giornalismo che si occupa di numeri

• Il giornalismo nasce dai numeri: le prime gazzette si occupavano di merci arrivate nei porti e dei loro prezzi

• Da sempre il giornalismo sportivo si occupa di numeri

Page 3: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Un titolo sbagliato

• Il data journalism è l’applicazione al giornalismo delle nuove tecnologie di elaborazione dei dati, non necessariamente numerici

• È un campo in rapida crescita che richiede molte competenze diverse: in questo senso questa è un’introduzione

• Si parlerà poco di grafica, ma molto di numeri: da qui la scelta del titolo

Page 4: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Le nuove tecnologie

• Un esempio di elaborazione dati

Page 5: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Esempi di data journalism

• Dottori e dollari• Obama e Romney, 2012 (in D3)• Il budget di Obama, 2012 (in D3)• Siccità negli Usa, 2012 (in R)• Formula 1 (in Rchart e D3)

…ma anche:

L’immigrazione in Germania e Gran Bretagna, 2014

Page 6: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Il data journalism

• Il data journalism si compone di diverse fasi:1. La ricerca e il recupero dei dati2. La pulizia dei dati3. L’esplorazione e l’elaborazione dei dati4. La pubblicazione e la visualizzazione dei

dati

Page 7: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Data visualisation

• I grafici non sono l’unica conclusione possibile per un lavoro di data journalism anche se è innegabile che la presentazione grafica dei dati è molto efficace

• La data visualization va molto al di là delle semplici infografiche: è compito complesso, spesso svolto da statistici e fa parte della scienza statistica. La disciplina si allarga fino a lambire l’Intelligenza artificiale (machine learning)

• Questa introduzione si occuperà poco dell’elaborazione grafica finale, anche se l’attenzione ai grafici costituirà comunque una parte importante della lezione

Page 8: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Gli strumenti del data journalism

Page 9: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Gli strumenti del data journalism

• Ogni fase del data journalism può avvalersi di programmi software diversi, di complessità variabile

• Il data journalist «lone ranger» dovrebbe imparare a usare diversi programmi. Per questo il data journalism appare da subito come un lavoro di équipe

Page 10: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Gli strumenti del data journalism

• La quantità di strumenti a disposizione è tale che è possibile perdersi

• Data visualisation, una lista di software

Page 11: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Gli strumenti del data journalism

• Esistono anche strumenti molto duttili – come R, o anche Python – che permettono di fare cose diverse come estrarre, pulire, elaborare e visualizzare i dati

• Sono però linguaggi di programmazione, duttili perché poco «friendly»

• In ogni caso, il sostegno di strumenti più semplici può essere utile

Page 12: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

• R è un programma e un linguaggio di programmazione disegnato per l’elaborazione statistica dei dati.

• È un open source ed è stato via via ampliato: oggi permette anche grafici interattivi (per i quali esistono però strumenti dedicati più adeguati

• È gratuito e funziona anche sui computer «bloccati» dalle aziende

• Rivela un’impostazione scientifica• Si scarica da http://www.r-project.org/

Gli strumenti di questo corso

Page 13: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Gli strumenti di questo corso

•Per la pulitura dei dati, si illustrerà l’uso di OpenRefine, disegnato per il data journalism•Per l’elaborazione dei dati si userà un foglio di calcolo – Excel e/o Calc della suite LibreOffice

Page 14: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Gli strumenti di questo corso

• OpenRefine è un foglio elettronico disegnato dalla Google per il data journalism

• È molto prezioso, ma i comandi non sono immediati. Esiste un breve manuale, in inglese

• È gratuito e funziona anche sui computer «bloccati» dalle aziende

• Si scarica da openrefine.org/

Page 15: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Gli strumenti di questo corso

• Excel è un foglio elettronico della suite Office di Windows. Usato anche dall’Fmi o dalle Università per l’elaborazione dei dati.

• Calc è un prodotto analogo opensource, gratuito. Non funziona sui computer «bloccati». La suite LibreOffice si scarica da www.libreoffice.org/

• Per lo scraping dei dati da internet si illustrerà la procedura su Google Spreadsheet. Lavora on line e si trova su docs.google.com/spreadsheets

Page 16: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Gli strumenti di questo corso

• Sarà comunque fornito un elenco di altri prodotti software utilizzabili dai data journalist

Page 17: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

La ricerca dei dati

Page 18: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Dove cercare i dati

• Quando non sono forniti da fonti personali, i dati sono da cercare su internet

• Esistono diverse modalità di accesso:– Banche dati pubbliche e internazionali

• Quasi sempre producono frame di dati su richiesta

– Banche dati private– Siti internet

Page 19: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Banche dati internazionali

• Sono banche dati legate a organizzazioni internazionali

• Quasi tutte hanno una banca dati• Esempi:

– Fondo monetario internazionale– Nazioni Unite– Ocse 1 e 2– Federal Reserve di St. Louis– Eurostat

Page 20: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Banche dati internazionali

Molto spesso nelle banche dati internazionali è possibile ricavare dati sui paesi in via di sviluppo che non sono disponibili nel paese stesso

Esempi:Banca mondialeOpenData for Africa

Page 21: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Banche dati internazionali

• Qui l’elenco delle agenzie statistiche dell’Onu

• Qui l’elenco delle agenzie statistiche internazionali

• Qui l’elenco di altre agenzie internazionali

Page 22: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Banche dati internazionali

• Non mancano banche dati internazionali gestite da privati o non-profit

• Esempi:– Quandl– OpenCorporates (aziende)– Investigative Dashboard– Alltime Athletics

Page 23: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Istituti di Statistica

• La maggior parte dei paesi ha un suo istituto nazionale di statistica, non sempre indipendente non sempre attendibile

• Qui l’elenco• Per l’Italia è l’Istat• Più utile della home page è la sua banca

dati I.Stat– Per il commercio estero c’è Coeweb

Page 24: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Cercare altri dati: dove?

• La ricerca di dati non ufficiali, non pubblici, o non immediatamente reperibili segue le stesse regole della ricerca delle notizie

• Molte istituzioni e organizzazioni hanno a disposizioni banche dati

• In più, si hanno a disposizione i motori di ricerca, a cominciare da Google

Page 25: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Usare Google per cercare dati

• Per cercare dati con Google occorre usare gli operatori di ricerca.

• Qui la guida• Con site: si può limitare la ricerca a un

sito particolare. Per esempio site:ilsole24ore.com (senza www)

• Con type: posso individuare i file di dati usando l’estensione. Per esempio type: xls

Page 26: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Le estensioni dei files di dati

• .xls, .xlsx -> Excel• .cvs, tsv e simili -> dati separati da

virgole e tabulazioni (molto usati)• .htm, .html, .xlm -> file web• Attenzione: i dati separati da

virgole, .cvs, usano sicuramente il punto (e non la virgola), come decimali

Page 27: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

I database ufficiali

• Due ricerche su Eurostat

Page 28: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Lo scraping dei dati

Page 29: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

«Grattare» i dati dal web

• A volte i dati sono semplicemente presenti su una pagina web, per esempio una voce Wikipedia

• Per scaricarli ci sono diversi software che permettono di fare scraping. Alcuni di essi sono a pagamento

• Il più semplice è Google Spreadsheet, simile a Excel o Calc

Page 30: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Scraping con Google Spreadsheet

• Il comando da inserire è:=ImportHtml("URL","query",index)

• Url è l’indirizzo del sito• Query è la forma assunta dai dati, in

generale è table• Index è il numero della query, per

esempio il numero della tabella.

Page 31: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Un esempio di scraping

• Una pagina di Wikipedia

• Un secondo esempio

Page 32: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Altri strumenti di scraping

• Altri strumenti di scraping sono:– OutWit Hub – Import.io– Chrome extension Scraper – Scraperwiki

• Permettono, per esempio, di fare scraping su dati che compaiono su una serie di pagine web 

Page 33: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Lo scraping dei testi pdf

• Il pdf è uno dei sistemi più diffusi: a differenza di html, il linguaggio del web, è stato però disegnato per la stampa non per strutturare logicamente i contenuti: recuperare i dati è complicato

• Scraperwiki permette di fare scraping su pdf, ma a pagamento (dopo il 5°)

• Un’altra opzione è il Salva come testo di Adobe Acrobat

• Altrimenti occorre usare Python…

Page 34: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Scraping da pdf

Scraping da un comunicato della Bce

Page 35: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Quando il sito è bloccato

• Si discute se lo scraping sia legale: non mancano sentenze

• Non tutti i siti permettono di fare scraping

Page 36: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Ripulire i dati: OpenRefine

Page 37: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Ripulire i dati

• Non sempre le banche dati sono mantenute in modo ordinato

• Spesso sono riempite da più persone, in tempi diversi: nomi, vie, numeri possono essere inseriti con modalità diverse. Gli errori di battitura sono sempre in agguato

• Per ripulire (ma anche per esplorare) i dati, Google ha creato – sostanzialmente per i giornalisti – OpenRefine: gratuito, non è sempre di uso immediato

• Si scarica anche sui computer «bloccati»

Page 38: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Un esempio di ripulitura dei dati

Page 39: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

L’elaborazione dei dati

Page 40: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Partendo dai numeri

• Dedichiamoci ora soprattutto ai dati numerici, che sono il centro del nostro discorso e che sono i più difficili da elaborare

• L’idea che può venire subito in mente è che occorre innanzitutto esaminare i numeri e trarne qualche indicazione, per esempio calcolando variazioni, medie, e così via

Page 41: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Otto serie di dati

• Un esempio. Prendiamo in considerazione otto serie di dati, da accoppiare due a due:

X1 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5Y1 = 8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68

X2 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5Y2 = 9.14, 8.14, 8.74, 8.77, 9.26, 8.10, 6.13, 3.10, 9.13, 7.26, 4.74

X3 = 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5Y3 = 7.46, 6.77, 12.74, 7.11, 7.81, 8.84, 6.08, 5.39, 8.15, 6.42, 5.73

X4 = 8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8Y4 = 6.58, 5.76, 7.71, 8.84, 8.47, 7.04, 5.25, 12.50, 5.56, 7.91, 6.89

Page 42: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Un’analisi numerica

• La media delle x è uguale a 9, in tutti i quattro casi

• La varianza delle x è uguale a 11• La media delle y è uguale a 7,50• La varianza delle y è 4.122 o 4.127• La correlazione tra le x e le y è 0.816• Si può «riassumere» ciascuna coppia di dati

con l’equazione y = 3 + 0.5x

ma…

Page 43: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

La sorpresa

Page 44: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

L’importanza dei grafici

• L’analisi esplorativa, sia effettuata dai giornalisti che dagli statistici più esperti, comincia sempre dai grafici

• I grafici dell’analisi esploratoria possono non avere nulla a che fare con i grafici finali, che hanno una funzione diversa, di comunicazione efficace: il grafico più utile per l’analisi – il boxplot – non comparirà mai sui giornali, il meno utile – la torta, magari in 3d – c’è spessissimo

• Molte regole sono comunque simili

Page 45: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Mostrare dati con i grafici

Page 46: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Napoleone e Charles Minard

Page 47: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Florence Nightingale

Page 48: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Trovare i casi estremi

Page 49: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

I casi estremi

• Per valutare i singoli dati, occorre avere un punto di riferimento.

• A volte è esterno ai dati. Molte banche centrali tra cui la Bce, per esempio, hanno un obiettivo di inflazione del 2% nel medio periodo. Ogni singolo dato può essere valutato con quel punto di riferimento

• Altri hanno origine statistica: il Fondo monetario internazionale considera per esempio un livello di debito/pil superiore all’85% insostenibile per i paesi con accesso ai mercati e uno del 60% insostenibile per i paesi più poveri

Page 50: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

I casi estremi

• In altri casi, è lo stesso insieme dei dati a fornire delle indicazioni

• Un minimo o un massimo, per esempio, danno già l’idea di trovarsi di fronte a un caso estremo

• Analogamente può accadere con un minimo o un massimo da x mesi, nelle serie temporali

• E’ però importante avere un punto di riferimento più preciso per i casi estremi importanti perché:

1. Possono rivelare una notizia2. Possono segnalare un errore nel data base

Page 51: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Riassumere i dati

• Per riassumere un insieme di dati la prima variabile da usare è la media:

µ = (x1 + x2 + … + xn-1 + xn)/n

• Una volta calcolata la media è molto importante capire quanto i singoli dati si allontanano dalla media:

( xi - µ )2

• La media di queste distanze è la varianza, la radice quadrata della varianza è la deviazione standard

• La deviazione standard serve come unità di misura per confrontare insiemi diversi di dati

Page 52: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Riassumere i dati

• La deviazione standard serve come unità di misura per confrontare insiemi diversi di dati

• L’idea è quella di misurare la distanza dei singoli dati dalla media con un’unità standard. Si può allora dire che il dato x1 è per esempio a due deviazioni standard dalla media.

• Quando i dati sono molto… ordinati – poi vedremo come ipotizzare questa simmetria - il 95% si colloca tra -2 e 2 deviazioni standard dalla media, il 99,7% tra -3 e 3 deviazioni standard.

Page 53: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Riassumere i dati

• Attenzione a non usare con troppa leggerezza questi parametri, pur molto diffusi.

• Su queste indicazioni, una flessione di Borsa del 6,8% (31 agosto 1998) potrebbe capitare in un caso su 20 milioni (o 76628 anni); una flessione del 7,7% (avvenuta un anno prima) in un caso su 50 miliardi (310,6 milioni di anni) e un crollo del 29,7% (19 ottobre 1987) di un caso su 1050, ossia 100.000 miliardi di miliardi di miliardi di miliardi di miliardi di giorni. L’universo ha circa 3.600 miliardi di giorni borsistici (365 meno sabati e domeniche in un anno).

• Si parla a volte di «code grasse», «fat tails».

Page 54: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Confrontare dati diversi

• Un esempio:– Antonio ha avuto 83/100– Francesca ha avuto 89/100

• Quindi Francesca è andata meglio di Antonio.• Ma Francesca e Antonio erano in due classi

diverse• Nella classe di Antonio la media è stata 74, in

quella di Francesca 80: i professori di Francesca erano più generosi

• Nella classe di Antonio la deviazione standard è stata di 4, in quella di Francesca di 6

Page 55: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Confrontare dati diversi

• VotoAntonio = 83 VotoFrancesca = 89

• MediaClasseAntonio = 74 MediaClasseFrancesca = 80

• SdClasseAntonio = 4 SdClasseFrancesca = 6

• Il voto «normalizzato» di Antonio è allora:(83-74)/4 = 2.25

• Il voto «normalizzato» di Francesca è:(89-80)/6 = 1.5

In realtà Antonio ha ottenuto un risultato migliore di Francesca

Page 56: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Il problema della media

• La media, e la deviazione standard, non sono però dati stabili

• Sono molto influenzati da quei «casi limite» che noi vogliamo individuare

• E’ come avere un Autovelox che a ogni multa fa salire la velocità alla quale scatta la foto

• Qualche anno fa, la Guinea Equatoriale appariva come uno dei paesi con il maggior reddito pro capite: in realtà c’erano poche persone e poche aziende ricchissime e la maggior parte della popolazione molto povera

Page 57: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

La mediana

• Ci sono molti strumenti per ottenere un valore più stabile o «robusto»

• Nello sport si usa la «media olimpica»: il voto più alto e quello più basso vengono scartati

• L’altro sistema è calcolare la mediana: se metto in fila indiana, in ordine di reddito crescente, un insieme di persone, il reddito mediano è il reddito della persona «in mezzo» e divide il gruppo in due parti (oppure la media delle due persone «al centro» se il numero di persone è pari)

• Se su 100 persone, 99 guadagnano mille euro al mese e 1 un milione, il reddito mediano è mille euro

Page 58: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Verso un po’ di ordine

• La prima cosa da fare è confrontare la mediana e la media

• Se sono molto vicine i dati sono simmetrici e posso continuare a usare la media, la deviazione standard e i valori critici della deviazione standard

• Se sono lontane e la media è maggiore della mediana: è possibile trovare casi limite (o più casi limite) superiori alla media

• Se sono lontane e la media è minore della mediana, è possibile trovare casi limite (o più casi limite) inferiori alla media

Page 59: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

La mediana

• Una volta diviso l’insieme in due parti, attraverso la mediana, posso ulteriormente dividere in due i due sottogruppi con lo stesso sistema: ottengo il primo quartile Q1 e il terzo quartile Q3(la mediana è il secondo quartile)

• La differenzaIQR = Q3 - Q1

(lo… scarto interquartile) può sostituire la deviazione standard

Page 60: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

La mediana

IQR = Q3 - Q1

•I casi limite sono al di sotto diQ1 – 1,5*IQR

e al di sopra diQ3 + 1,5*IQR

•Tutto un po’ complicato… Come semplificare?

•La soluzione è sul sito www.alcula.com

Page 61: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Deviazioni standard

• Se si accetta di perdere precisione, si ci può comunque affidare alla deviazione standard.

• La probabilità che un dato sia alla distanza di due deviazioni standard della media non è mai maggiore di ¼ (25%) o 1/22 .

• La probabilità che sia alla distanza di tre deviazioni standard non è mai maggiore dell’11% (1/32)

• La probabilità che sia alla distanza di sei deviazioni standard no è mai maggiore del 2.8%.

• Quando i dati sono «ordinati», la probabilità che un dato sia a distanza di sei deviazioni standard è di 0,000000001 % …

Page 62: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Le serie temporali

Page 63: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Le serie temporali

• La prima valutazione, di fronte a una serie temporale è piuttosto il calcolo delle variazioni

• Per dati quotidiani si calcola in primo luogo la variazione quotidiani, per dati mensili variazioni mensili

• Nei dati macroeconomici si usa spesso anche la variazione annuale

• La formula per la percentuale è:

(Xn/xn-1 - 1)*100

Page 64: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Le medie mobili

• Per alcuni dati particolarmente volatili, per esempio quelli su import, export, quantità di moneta, è opportuno cercare di individuare una tendenza di fondo isolandola dalle variazioni temporanee

• Il modo più semplice è quello di calcolare la media mobile

• In genere trimestrale per i dati macroeconomici, ma per le quotazioni finanziari si può usare, insieme, la media a 14 giorni, quella a 200 giorni ecc.

Page 65: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Le medie mobili

• Per usare la media mobile, al posto del dato di novembre si usa la media novembre-ottobre-settembre, al posto del dato di ottobre la media ottobre-settembre-agosto ecc.

• Si disegna il grafico, sovrapponendolo a quello con i dati puntuali

• Se serve, si calcolano le variazioni tra un mese e l’altro usando la stessa formula dei dati puntuali

Page 66: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Le insidie della statistica

• Le statistiche possono essere molto insidiose, e occorre fare tanta attenzione su come usarle

• Non sarebbe impossibile ricavare dai dati ufficiali l’indicazione secondo cui nell’Unione europea il numero degli analfabeti è di circa 26 milioni

• Non sarebbe impossibile trovare anche una correlazione tra il livello di alfabetismo e la misura delle scarpe

• Una notizia…

Page 67: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Le insidie della statistica

Page 68: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Le insidie della statistica

• In passato sono state elaborate correlazioni perfette tra l’inflazione britannica e la temperatura di Londra, due variabili senza alcun legame

• E’ possibile stabilire, in alcuni paesi, una correlazione tra il consumo di gelati e il numero dei morsi di serpente. Sono due grandezze indipendenti ma legate alle stagioni e alla temperatura atmosferica

• In ogni caso, la correlazione statistica non segnala mai, da sola, un rapporto di causa ed effetto ma soltanto un legame che può anche rivelarsi temporaneo o mutare caratteristiche nel tempo

Page 69: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Le insidie della statistica

Page 70: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Il paradosso di Simpson

University of California, Berkeley - 1973Candidati Ammessi

Uomini 8442 44%Donne 4321 35%

Page 71: Numeri e notizie: un’introduzione al data journalism Aggiornamento professionale per l’Associazione lombarda dei giornalisti Lezione del 4 dicembre 2014.

Il paradosso di Simpson

DipartimentoCandidati Ammessi Candidati Ammessi

A 825 62% 108 82%B 560 63% 25 68%C 325 37% 593 34%D 417 33% 375 35%E 191 28% 393 24%F 373 6% 341 7%

Uomini Donne