Chi controlla l'integrità dei dati?

Post on 05-Dec-2014

2.397 views 0 download

description

Traccia di discussione presentata al SOD14 Barcamp del 28 Marzo 2014 a Bologna

Transcript of Chi controlla l'integrità dei dati?

Chi controlla l’integritàdei dati?

Matteo Fortini

28 Marzo 2014

#SOD14 Barcamp

Bologna

La bontà di un lavoro di data

analysis non può superare la

bontà dei dati su cui si basa

La bontà di un lavoro di data

analysis non può superare la

bontà dei dati su cui si basa

oppure no?

Il percorso

Acquisizione

Organizzazione/Pulizia

Analisi

Dataviz

Storia

Li raccolgo io

Me li ha forniti qualcuno

Conservare

Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .

Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .

◮ In un sistema di versioning: GIT, SVN, . . .

Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .

◮ In un sistema di versioning: GIT, SVN, . . .

◮ In un container con checksum: ZIP, RAR, 7Z, . . .

Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .

◮ In un sistema di versioning: GIT, SVN, . . .

◮ In un container con checksum: ZIP, RAR, 7Z, . . .

◮ In una cartella separata . . .

Conservare

Conservare◮ Registrare la fonte: url, ufficio, persona, . . .

Conservare◮ Registrare la fonte: url, ufficio, persona, . . .

◮ Registrare data e ora

Conservare◮ Registrare la fonte: url, ufficio, persona, . . .

◮ Registrare data e ora

◮ Registrare un checksum: md5sum, SHA, . . .

Checksum

Checksum

Integritài dati sono rimasti uguali

Checksum

Integritài dati sono rimasti uguali

Ripudionon sono i miei dati!

Checksum “analogici”

◮ Codice Fiscale

◮ Carte di credito

◮ Gli altri dati?

Coerenza

Coerenza◮ Hanno delle proprietà note? (es. Bilanci, livelli,

temperature. . . )

Coerenza◮ Hanno delle proprietà note? (es. Bilanci, livelli,

temperature. . . )

◮ Fanno parte di un insieme noto? (es. Persone, Seriestoriche. . . )

Outliers

Outliers

Il nostro

problema?

Outliers

Il nostro

problema?

La nostra

notizia?

Elaborazione◮ Come verificare che non ci siano stati errori?

Elaborazione◮ Come verificare che non ci siano stati errori?

◮ Cercare sempre di partire dai dati raw

Elaborazione◮ Come verificare che non ci siano stati errori?

◮ Cercare sempre di partire dai dati raw

◮ Bloccare i dati (al limite i fogli. . . )

Elaborazione◮ Come verificare che non ci siano stati errori?

◮ Cercare sempre di partire dai dati raw

◮ Bloccare i dati (al limite i fogli. . . )

◮ Separare Raw->Cooked->Elaborazione

Elaborazione◮ Come verificare che non ci siano stati errori?

◮ Cercare sempre di partire dai dati raw

◮ Bloccare i dati (al limite i fogli. . . )

◮ Separare Raw->Cooked->Elaborazione

◮ Documentare le trasformazioni

Elaborazione◮ Come verificare che non ci siano stati errori?

◮ Cercare sempre di partire dai dati raw

◮ Bloccare i dati (al limite i fogli. . . )

◮ Separare Raw->Cooked->Elaborazione

◮ Documentare le trasformazioni

◮ Trasformazioni ripetibili

Portali Opendata:

l’esempio di

http://dati.gov.it

◮ Non hanno un checksum dei dati

◮ Non dichiarano la versione

◮ Mostrano la storia, ma non permettono di accedere alpassato

◮ Il problema dei dati continuamente aggiornati

Riferimenti◮ Broken egg photo by Stewart Butterfield http://www.flickr.com/photos/stewart/

◮ Rubbish emergency in Campania by Chiara Marra https://www.flickr.com/photos/chiaramarra/

◮ Winding road by Wayne Silver https://www.flickr.com/photos/psycho-pics/

◮ US Customs and Border Protection Agriculture Specialist inspects flower by US Customs and Border Protectionhttps://www.flickr.com/photos/cbpphotos/

◮ Decision by Cristi B https://www.flickr.com/photos/cristib/

◮ Thing in a jar by Windell Oskay https://www.flickr.com/photos/oskay/

◮ Darwin Center by Adam Foser https://www.flickr.com/photos/twosevenoneonenineeightthreesevenatenzerosix/

◮ Bubble by Ali T https://www.flickr.com/photos/77682540@N00/

◮ Fowl storm by JD Hancock https://www.flickr.com/photos/jdhancock/

◮ Codice Fiscale by krypt http://openclipart.org/detail/129043/codice-fiscale---tax-code-by-krypt

◮ Dress by Michael http://www.flickr.com/photos/helloturkeytoe/

◮ Outlier by Robert S. Donovan http://www.flickr.com/photos/booleansplit/8482641188/

◮ Bad Apples Fallen Apples Grass by Emilian Robert Vicol http://www.flickr.com/photos/free-stock/

◮ Pot of Gold by Jeremy Schultz http://www.flickr.com/photos/tao_zhyn/

◮ Meat grinder by Anfuehrer http://www.flickr.com/photos/planetbene/

◮ Logo http://dati.gov.it

◮ Chain by SFU Marcin https://www.flickr.com/photos/svoo/