Chi controlla l'integrità dei dati?

33
Chi controlla l’integrità dei dati? Matteo Fortini 28 Marzo 2014 #SOD14 Barcamp Bologna

description

Traccia di discussione presentata al SOD14 Barcamp del 28 Marzo 2014 a Bologna

Transcript of Chi controlla l'integrità dei dati?

Page 1: Chi controlla l'integrità dei dati?

Chi controlla l’integritàdei dati?

Matteo Fortini

28 Marzo 2014

#SOD14 Barcamp

Bologna

Page 2: Chi controlla l'integrità dei dati?

La bontà di un lavoro di data

analysis non può superare la

bontà dei dati su cui si basa

Page 3: Chi controlla l'integrità dei dati?

La bontà di un lavoro di data

analysis non può superare la

bontà dei dati su cui si basa

oppure no?

Page 4: Chi controlla l'integrità dei dati?

Il percorso

Acquisizione

Organizzazione/Pulizia

Analisi

Dataviz

Storia

Page 5: Chi controlla l'integrità dei dati?

Li raccolgo io

Page 6: Chi controlla l'integrità dei dati?

Me li ha forniti qualcuno

Page 7: Chi controlla l'integrità dei dati?

Conservare

Page 8: Chi controlla l'integrità dei dati?

Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .

Page 9: Chi controlla l'integrità dei dati?

Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .

◮ In un sistema di versioning: GIT, SVN, . . .

Page 10: Chi controlla l'integrità dei dati?

Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .

◮ In un sistema di versioning: GIT, SVN, . . .

◮ In un container con checksum: ZIP, RAR, 7Z, . . .

Page 11: Chi controlla l'integrità dei dati?

Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .

◮ In un sistema di versioning: GIT, SVN, . . .

◮ In un container con checksum: ZIP, RAR, 7Z, . . .

◮ In una cartella separata . . .

Page 12: Chi controlla l'integrità dei dati?

Conservare

Page 13: Chi controlla l'integrità dei dati?

Conservare◮ Registrare la fonte: url, ufficio, persona, . . .

Page 14: Chi controlla l'integrità dei dati?

Conservare◮ Registrare la fonte: url, ufficio, persona, . . .

◮ Registrare data e ora

Page 15: Chi controlla l'integrità dei dati?

Conservare◮ Registrare la fonte: url, ufficio, persona, . . .

◮ Registrare data e ora

◮ Registrare un checksum: md5sum, SHA, . . .

Page 16: Chi controlla l'integrità dei dati?

Checksum

Page 17: Chi controlla l'integrità dei dati?

Checksum

Integritài dati sono rimasti uguali

Page 18: Chi controlla l'integrità dei dati?

Checksum

Integritài dati sono rimasti uguali

Ripudionon sono i miei dati!

Page 19: Chi controlla l'integrità dei dati?

Checksum “analogici”

◮ Codice Fiscale

◮ Carte di credito

◮ Gli altri dati?

Page 20: Chi controlla l'integrità dei dati?

Coerenza

Page 21: Chi controlla l'integrità dei dati?

Coerenza◮ Hanno delle proprietà note? (es. Bilanci, livelli,

temperature. . . )

Page 22: Chi controlla l'integrità dei dati?

Coerenza◮ Hanno delle proprietà note? (es. Bilanci, livelli,

temperature. . . )

◮ Fanno parte di un insieme noto? (es. Persone, Seriestoriche. . . )

Page 23: Chi controlla l'integrità dei dati?

Outliers

Page 24: Chi controlla l'integrità dei dati?

Outliers

Il nostro

problema?

Page 25: Chi controlla l'integrità dei dati?

Outliers

Il nostro

problema?

La nostra

notizia?

Page 26: Chi controlla l'integrità dei dati?

Elaborazione◮ Come verificare che non ci siano stati errori?

Page 27: Chi controlla l'integrità dei dati?

Elaborazione◮ Come verificare che non ci siano stati errori?

◮ Cercare sempre di partire dai dati raw

Page 28: Chi controlla l'integrità dei dati?

Elaborazione◮ Come verificare che non ci siano stati errori?

◮ Cercare sempre di partire dai dati raw

◮ Bloccare i dati (al limite i fogli. . . )

Page 29: Chi controlla l'integrità dei dati?

Elaborazione◮ Come verificare che non ci siano stati errori?

◮ Cercare sempre di partire dai dati raw

◮ Bloccare i dati (al limite i fogli. . . )

◮ Separare Raw->Cooked->Elaborazione

Page 30: Chi controlla l'integrità dei dati?

Elaborazione◮ Come verificare che non ci siano stati errori?

◮ Cercare sempre di partire dai dati raw

◮ Bloccare i dati (al limite i fogli. . . )

◮ Separare Raw->Cooked->Elaborazione

◮ Documentare le trasformazioni

Page 31: Chi controlla l'integrità dei dati?

Elaborazione◮ Come verificare che non ci siano stati errori?

◮ Cercare sempre di partire dai dati raw

◮ Bloccare i dati (al limite i fogli. . . )

◮ Separare Raw->Cooked->Elaborazione

◮ Documentare le trasformazioni

◮ Trasformazioni ripetibili

Page 32: Chi controlla l'integrità dei dati?

Portali Opendata:

l’esempio di

http://dati.gov.it

◮ Non hanno un checksum dei dati

◮ Non dichiarano la versione

◮ Mostrano la storia, ma non permettono di accedere alpassato

◮ Il problema dei dati continuamente aggiornati

Page 33: Chi controlla l'integrità dei dati?

Riferimenti◮ Broken egg photo by Stewart Butterfield http://www.flickr.com/photos/stewart/

◮ Rubbish emergency in Campania by Chiara Marra https://www.flickr.com/photos/chiaramarra/

◮ Winding road by Wayne Silver https://www.flickr.com/photos/psycho-pics/

◮ US Customs and Border Protection Agriculture Specialist inspects flower by US Customs and Border Protectionhttps://www.flickr.com/photos/cbpphotos/

◮ Decision by Cristi B https://www.flickr.com/photos/cristib/

◮ Thing in a jar by Windell Oskay https://www.flickr.com/photos/oskay/

◮ Darwin Center by Adam Foser https://www.flickr.com/photos/twosevenoneonenineeightthreesevenatenzerosix/

◮ Bubble by Ali T https://www.flickr.com/photos/77682540@N00/

◮ Fowl storm by JD Hancock https://www.flickr.com/photos/jdhancock/

◮ Codice Fiscale by krypt http://openclipart.org/detail/129043/codice-fiscale---tax-code-by-krypt

◮ Dress by Michael http://www.flickr.com/photos/helloturkeytoe/

◮ Outlier by Robert S. Donovan http://www.flickr.com/photos/booleansplit/8482641188/

◮ Bad Apples Fallen Apples Grass by Emilian Robert Vicol http://www.flickr.com/photos/free-stock/

◮ Pot of Gold by Jeremy Schultz http://www.flickr.com/photos/tao_zhyn/

◮ Meat grinder by Anfuehrer http://www.flickr.com/photos/planetbene/

◮ Logo http://dati.gov.it

◮ Chain by SFU Marcin https://www.flickr.com/photos/svoo/