Dati per comunicare

24
Open data e data science Dati per capire e comunicare 18 Febbraio 2017 Ghirardi Nicola Master “Web communication e social media”

Transcript of Dati per comunicare

Open data e data scienceDati per capire e comunicare

18 Febbraio 2017Ghirardi Nicola

Master “Web communication e social media”

Fact checking

“There are three kinds of lies: lies, damned lies and statistics”

Dati sbagliati

Errori di visualizzazione dati (e la scelta della

visualizzazione: 1 , 2 )

Fallacie logiche e statistiche

Eccessiva generalizzazione (la trappola delle medie e

confronti inadeguati)

Ipotesi nella raccolta dati: quantificazione

Nel linguaggio

Nella raccolta dati

Ipotesi nella raccolta dati: bias nascosti

Campionatura casuale● Area specifica● Autoselezione

● Passaparola (la bolla)

Altri bias● Autocertificazione

● Domande che inducono una risposta

Campionatura, margine d’errore e livello di confidenza (e grandezza

campione)

Il caso: p-valueIndica la probabilità che i dati derivati da un campione siano dovuti al caso, e

non rappresentino quindi il tutto

p<0,05 (5% prob) è preso come convenzione per escludere il caso

E’ applicato a modelli predittivi (e.g. trend di crescita o correlazione): con p<0,05 allora la relazione è statisticamente significativa (non umanamente,

economicamente o scientificamente)

NON indica la probabilità che la correlazione o la causalità esistano

NON indica l’errore nei dati

Correlation is not causation

Spurious correlation

A/B testing (aka esperimento controllato)

● Ricerca scientifica● Applicazioni

Alla ricerca della verità

Sarebbe successo altrimenti?

Confrontare realtà simili

Alla ricerca della verità (modelli di causalità)

Verità per eliminazione

Stimare le cause attraverso

● Parlare con esperti● Chiedere agli interessati

● Studiare il dominio● Caffe

● Studiare il lavoro di altri● Cambiare idea

● Discutere con altri

Test● Con dati

● Nella strada

Iterare

Sport e dati (a pagamento)

Baseball:Tradizionalmente statisticoNuovi dati sulle partiteData about fans

Il Basket e il monitoraggio dei giocatori

Calcio: expected goal e dati a pagamento

Raccolta dati

Arricchimento, pulizia e

integrazione

Esplorazione,

comprensione e analisi

Produzione della storia

Produzione grafica e

pubblicazione

Il flusso di lavoro al Guardian

Data journalism teams & skillsUnicorno: singolo innovatore tuttofore -> prototipi, semplici visualizzazioni, buon impatto

Duo: solitamente una figura più tradizionale e una più tecnica o statistica -> investigative dj, great stories

Small team: Reporter, designer, programmatore(2) , statistico -> great and innovative dj

Grandi team: Distribuiti, molti informatici-> big data stories

MOOC (Coursera, JournalismCourses,

Learno, ...)

Read, Read, Read!(it’s f…..g good journalism)

Imparare gli strumenti e costruire la propria toolbox

Frequentare community open data e hackathons

(andare a SOD17 in Sicilia)