La qualita’ dei dati nei sistemi informativi C. Batini - Aipa

51
1 La qualita’ dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain

description

La qualita’ dei dati nei sistemi informativi C. Batini - Aipa. A man with a watch knows what time it is A man with two is never sure Mark Twain. Indice della presentazione. Motivazioni per la qualita’ dei dati La qualita’ dei dati nei diversi tipi di sistemi informativi - PowerPoint PPT Presentation

Transcript of La qualita’ dei dati nei sistemi informativi C. Batini - Aipa

Page 1: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

1

La qualita’ dei dati nei sistemi informativi

C. Batini - Aipa

A man with a watch knows what time it is

A man with two is never sure

Mark Twain

Page 2: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

2

Indice della presentazione

• Motivazioni per la qualita’ dei dati

• La qualita’ dei dati nei diversi tipi di sistemi informativi

• Le dimensioni della qualita’ dei dati

• Le metodologie per la misurazione e il miglioramento della qualita’ dei dati in sistemi informativi tradizionali

• Cenni alle metodologie per misurazione & miglioramento in sistemi informativi cooperativi

Page 3: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

3

Motivazioni per la qualita’ dei dati

Page 4: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

4

Perche’ la qualita’ dei dati e’ importante

• La scarsa qualita’ dei dati e’ pervasiva, soprattutto in un approccio a rete

• Influenza il successo e l’ immagine della organizzazione

• Eleva i costi

• Influenza i processi decisionali

• Impedisce il re-engineering

• Rende difficile una strategia a lungo termine

Page 5: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

5

La qualità dei dati nei diversi tipi di sistemi informativi

Page 6: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

6

Diversi tipi di sistemi informativi

• Sistemi informativi monoorganizzazione– Centralizzati classici– Distribuiti

• Sistemi informativi cooperativi

• Sistemi informativi direzionali di tipo data wharehouse

Page 7: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

Rete unitaria e sistema informativo unitario della PA: situazione di partenza

Amministrazione 2

Processi

ApplicazioniDati

Amministrazione 1

Processi

ApplicazioniDati

Page 8: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

Sistema “AmmCentrale to AmmCentrale”

Amministrazione 1

Processi

Applicazioni

interne

Datiesposti

Dati

Servizi di interoperabilità

Servizi di trasporto

Dati e servizi esposti

Amministrazione 2

Processi

Applicazioni

interne

Datiesposti

Dati

Dati e serviziesposti

Page 9: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

Sistema “AmmCentrale to AmmLocale”

Amministrazione 1

Processi

Applicazioni

interne

Datiesposti

Dati

Servizi di interoperabilità

Servizi di trasporto

Dati e servizi esposti

Amministrazione 2

Processi

Applicazioni

interne

Datiesposti

Dati

Dati e serviziesposti

Amministrazione 1

Processi

Applicazioni

interne

Datiesposti

Dati

Servizi di interoperabilità

Servizi di trasporto

Dati e servizi esposti

Amministrazione 2

Processi

Applicazioni

interne

Datiesposti

Dati

Dati e serviziesposti

Servizi di interoperabilità

Servizi di trasporto

Page 10: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

Sistema “Amministrazione to Cittadino”Amministrazione 1

Processi

Applicazioni

interne

Datiesposti

Dati

Servizi di interoperabilità

Servizi di trasporto

Dati e servizi esposti

Amministrazione 2

Processi

Applicazioni

interne

Datiesposti

Dati

Dati e serviziesposti

Amministrazione 1

Processi

Applicazioni

interne

Datiesposti

Dati

Servizi di interoperabilità

Servizi di trasporto

Dati e servizi esposti

Amministrazione 2

Processi

Applicazioni

interne

Datiesposti

Dati

Dati e serviziesposti

Servizi di interoperabilità

Servizi di trasporto

Internet e altri canali

Page 11: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

11

Nei data wharehouse

• Integrazione di schemi logici

• Integrazione dei dati

• Individuazione e risoluzione delle incoerenze

• Pulizia dei dati

Page 12: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

12

Le dimensioni della qualita’dei dati

Page 13: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

13

• Il livello dello schema logico– Es archivio dipendenti, archivio stipendi, ecc.

• Il livello dei valori e del formato dei dati– Es per i valori

• Archivio dipendenti

• Mario Rossi, nato a Brescia il 21-12-1977

– Es per il formato • Campo Cognome

• PICTURE X(12)

In una qualunque base di dati o archivio possiamo distinguere ..

Page 14: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

14

Lo schema logicoComune

Particella

Bene

Fabbricato Terreno

Soggetto fisicoo giuridico

Catastogeometrico

Catastofabbricati

Catastoterreni

Page 15: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

15

I valori

Page 16: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

16

Il formato

Page 17: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

17

Schema logico dei dati

Page 18: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

18

Le dimensioni dello schema logico

• Contenuto• Copertura, cioe’ grado in cui lo schema logico

comprende un adeguato numero di archivi e campi da incontrare le necessita’ delle applicazioni

• Livello di dettaglio• Composizione, cioe’ la struttura interna dello schema• Consistenza• Economicita’• Flessibilita’ al cambiamento

Page 19: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

19

Dettaglio delle proprietà

Contenuto

Rilevanza

Ottenibilità

Chiarezza della definizione

Copertura

Completezza

Essenzialità

Livello di dettaglio

Granularità degli attributi

Precisione dei domini

Composizione

Naturalezza

Identificabilità

Omogeneità

Ridondanza minima necessaria

Consistenza

Consistenza semantica

Consistenza strutturale

Reazione al cambiamento

Robustezza

Flessibilità

Page 20: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

20

Esempi di alcune proprietà

• Granularità degli attributi– Es. Il concetto di “indirizzo” può essere rappresentato in alcune

applicazioni semplicemente da “Stato”, in altre da “via”+”numero civico”+ “Città”+” Stato”

• Precisione dei domini– Es. Un dominio dell’attributo “altezza” di una persona che la esprime in

cm, risulta più preciso di un dominio che prevede i valori ALTA, MEDIA, BASSA

• Naturalezza– Es. Un attributo composto <Sesso,Stato Matrimoniale> è poco naturale

perché esprime due fatti naturalmente scorrelati

Page 21: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

21

Esempi di alcune proprietà (continua)

• Consistenza strutturale– Es. Tutte le date devono avere un formato comune,

anche se rappresentano attributi di archivi diversi

• Ottenibilità– Es. I dati di una società commerciale non sono

disponibili nell’anno corrente, per non facilitare la concorrenza (ma sono ottenibili solo quelli di anni precedenti)

Page 22: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

22

Copertura

• Completezza - Ogni archivio e campo necessario agli utenti e’ incluso nello schema logico

• Essenzialita’ - nessun archivio e campo non indispoensabile agli utenti e’ incluso nello schema logico

Page 23: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

23

Ma tradizionalmente anche ..

• Normalita’: – Prima forma normale– Seconda forma normale – Terza forma normale– Quarta forma normale – Boyce Codd Normal Form– Quinta forma normale– Domain Key Normal Form

Page 24: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

24

Le dimensioni non sono ortogonali

• Le dimensioni (o caratteristiche) non sono indipendenti tra di loro:– correlazioni positive : migliorare una caratteristica migliora anche

l’altra– correlazioni negative: migliorare una peggiora l’altra

• Esempi:– Gode di correlazione positiva la terna

• comprensività, • granularità degli attributi e • precisione del dominio

– Gode di correlazione negativa la coppia • Economicita’• Completezza

Page 25: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

25

Dimensioni dei valori e del formato

Page 26: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

26

Valori dei dati• Accuratezza, vicinanza del dato ad un valore nel dominio di

definizione considerato corretto– importante, difficile da misurare (cfr realta’, storici)

• Correttezza, accuratezza al grado massimo• Completezza, l’ estensione con cui i valori sono presenti nella

base di dati. – Importante, difficile da misurare – null values

• Tempestivita’, adeguatezza dell’ aggiornamento – Importante, forse la maggior causa di processi scorretti– Esempio PA

• Dichiarazioni dei redditi (fino all’ anno scorso) 3 anni di ritardo• Informazioni sugli impiegati 2 anni di ritardo

• Consistenza di differenti valori.– Quando tra dati consistenti vi e’ rapporto funzionale, porta a ridondanza

Page 27: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

27

Formato

• Appropriatezza, rispetto alle esigenze dell’ utente– dipende dal mezzo usato (es. Codici a barre, grafi)

• Interpretabilita’, aiuta l’ utente a interpretare i valori correttamente – Es. (1,2,3,4) vs (scarso, insufficiente, sufficiente, buono)

• Portabilita’, o Universalita’ tra diverse tipologie di utenti– es le icone agli aeroporti

• Precisione, capacita’ di discriminare tra diversi valori– critica con le icone

• Flessibilita’, rispetto ai requisiti utente• Capacita’ di rappresentare valori nulli• Uso efficiente della memoria Es. (0,1) vs ( , )

Page 28: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

28

Come procedere alla misura della qualita’ dei dati

• 1. Individuazione delle caratteristiche (dimensioni) e sottocaratteristiche (proprieta’) prioritarie

• 2. Individuazione dei criteri (proprieta’ misurabili)• 3. Scelta della procedura di misurazione • 4. Processo di misurazione • 5. Aggiunta delle valutazioni non quantitative• 6. Valutazione complessiva

Page 29: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

29

Esempio del passo 1: linee strategiche dell’ Aipa 1998-2000

“Nel campo specifico della qualita’ dei dati, da intendersi principalmente come correttezza, tempestivita’ di aggiornamento, completezza e coerenza, occorre intervenire …….”

Page 30: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

30

Proprieta’ richieste dalle metriche–misurabilita’ quanto possibile con strumenti automatici

–affidabilità (essere non affette da errori casuali in maniera eccessiva),

–ripetibilità (misure rilevate sul medesimo componente in differenti momenti nelle stesse condizioni di rilevazione devono dare lo stesso risultato),

– riproducibilità (differenti valutatori debbono poter ottenere uguali risultati in uguali condizioni di valutazione),

–disponibilità ad essere utilizzata,

–efficacia (in relazione al costo di suo impiego),

–correttezza (imparzialità e precisione),

–obiettività (in grado di dare risultati non influenzabili dal valutatore o da altri fattori esterni),

–significatività (dare indicazioni significative sul comportamento del componente valutato rispetto al requisito in esame);

Page 31: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

31

Le metodologie per la misurazione e il miglioramento della qualita’ dei dati in sistemi

informativi tradizionali

Page 32: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

32

Metodi

• Ispezione e correzione– Comparazione dati con le controparti reali

– Database bashing

– Utilizzo di business rules

• Controllo e Miglioramento

del Processo

• Reingegnerizzazione

del Processo

Approccio basato sui Processi

Page 33: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

33

Ispezione e correzione: tre approcci • 1. Confronto dei dati con la realta’ che rappresentano

• costoso, a campione, molto preciso, una tantum per orientare l’ intervento

• 2. Confronto dei dati tra due o piu’ archivi– + Facilmente applicabile, costo medio

– - Il matching non garantisce, se un dato e’ manifestamente errato forza a considerare l’ altro corretto, non garantisce per il futuro, “abitua male”, cioe’ falso senso di sicurezza (es. fatture vs fatture attese)

• 3. Confronto dei dati con vincoli o business rules– un campo, piu’ campi, probabilistico

• + spesso efficace, poco costoso

• - non garantisce per il futuro, riguarda solo la conformita’ alle regole, non la accuratezza, “abitua male”

• particolarmente adatti a dati permanenti

Page 34: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

34

Miglioramento basato sui processi

Realizzare gli interventi di miglioramento

Identificare il process owner (Data Steward)

Descrivere il processo

Stabilire un sistema di misura

Definire un sistema di monitoraggio e controllo (deidati e/ del processo)

Identificare gli obiettivi di miglioramento

Identificare il processo

Page 35: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

35

Stabilire un sistema di misura

• Passo 1 Cosa misurare: processi, campi, metriche

• Passo 2 Definire il campionamento

• Passo 3 Tracking

• Passo 4 Identificazione degli errori e del tempo di ritardo

Page 36: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

36

Il processo suddiviso in 5 sottoprocessi che alimentano 2 basi di dati DB1 e DB2

P1 P2 P3 P4

P5

DB1

DB2

Page 37: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

37

Esempio: accuratezza per un campo a

della base dati DB1

P5 DB2

P1 P2 P3 P4 DB11% 2% 17% 0.5%

Page 38: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

38

Esempio: consistenza tra due DB per un campo b

P3 P4

P5

DB1

DB2

11% 0%

0%

.5%

11% 11.5%

Page 39: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

39

Miglioramento Costo TotaleMetodo

BreveTermine

LungoTermine

BreveTermine

LungoTermine

Quando

Laissez faire Basso Basso Alto Alto Dati non importanti

Comparazionemondo reale, una

volta

Alto Basso Alto Alto Per stimare lacorrente DQ

Comparazionemondo reale,

periodico

Alto Alto Alto Molto Alto Mai

Databasebashing, una volta

Medio Basso Medio Alto Su dati che cambianolentamente (stabili),quando un secondo

databaseindipendente è

disponibile

Databasebashing, periodico

Medio Medio Medio Molto Alto Mai

Clean-up conedits, una volta

Medio Basso Medio Alto Su dati che cambianolentamente (stabili)

Clean-up conedits, periodico

Medio Medio Medio Alto Mai

Controllo eMiglioramento del

Processo

Medio Alto Medio Basso Su tutti i dati chevengono manipolati

frequentemente

Ingegnerizazionedel Processo

Medio Alto Medio Molto Basso Quando si progettauna information chain

Page 40: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

40

Cenni alle metodologie per misurazione & miglioramento in sistemi informativi cooperativi

Page 41: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

41

Qualità dei Dati più complessa

• Sistemi eterogenei implicano con elevata probabilità schemi logici differenti

• La necessità di scambiarsi dati può determinare l’insorgere di problemi nello scambio (es.data entry dei dati acquisiti da un’altra organizzazione)

• Maggiore latenza del sistema cooperativo (es. la duplicazione di un dato su più organizzazioni comporta valori variabili della “tempestività” del dato)

Page 42: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

42

Misurazione

• Possibilità di mutuare i risultati ottenuti per la QD delle sorgenti del World Wide Web (WWW)

• Sono stati realizzati sistemi che fanno un assessment della QD delle sorgenti mediante l’utilizzo di metadati per la qualità dei dati

Page 43: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

43

Metadati per la qualità dei dati• Esempi di metadati da associare ai dati esposti dalle

singole organizzazioni cooperanti sono:– data dell’ultimo aggiornamento;– codifica del Data Steward del dato;– codifica della sorgente che ha effettuato l’ultimo

aggiornamento, etc.

• La valutazione dei metadati fornisce un livello di soglia di alcune dimensioni:– Tempestività (data dell’ultimo aggiornamento)– Affidabilità (se la sorgente che ha effettuato l’ultimo

aggiornamento è il Data Steward è massima)– …

Page 44: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

44

Miglioramento

• Le tecnologie attuali abilitano un miglioramento della qualità dei dati quando sistemi diversi necessitano di cooperare: reingegnerizzaione IT-driven– Due esempi: XML e Publish and Subscribe

Page 45: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

45

XML come driver del re-engineering DQ-oriented

• XML: tecnologia per lo scambio dei dati fra le organizzazioni cooperanti

• Per ogni macro-processo accordo tra le organizzazioni partecipanti sullo schema logico delle informazioni di scambio (Es. DTD XML)

Page 46: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

46

Le caratteristiche che migliorano: i valori

+ Accuratezza: si automatizza la fase di data entry, e quindi minor numero di errori

= Completezza+ Tempestivita’ + Consistenza : la consistenza semantica

aumenta in virtù dell’ accordo tra le organizzazioni

Page 47: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

47

Le caratteristiche che migliorano: il formato

= Appropriatezza

+ Interpretabilità

+ Portabilità

- Precisione

+ Flessibilità

= Capacità di rappresentare valori nulli

- Efficienza nell’impiego dei mezzi di registrazione

Page 48: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

48

Publish&Subscribe come driver del re-

engineering DQ-oriented • Meccanismo di notifica basato su eventi • Il ruolo dei Data Steward

– Esempio PA: il Data Steward delle informazioni anagrafiche (Es. l’indirizzo di nascita) è il Comune di nascita, e quindi idealmente una seconda amministrazione dovrebbe aggiornare i propri archivi solo in seguito all’emissione di un evento da parte del data steward.

Page 49: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

49

Una possibile architettura di P&S

DATA STEWARD

Page 50: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

50

Le caratteristiche che migliorano

• Tempestività: l’architettura del P&S consente un miglioramento in termini di velocità con cui i dati sono aggiornati

• Ma anche: – Accuratezza (assegnazione di responsabilità

definita sul dato al Data Steward…)– Consistenza etc.

Page 51: La qualita’ dei dati  nei sistemi informativi C. Batini  - Aipa

51

Riferimenti

• REDMAN Thomas C. Redman - Data Quality for the information Age - 1996 Artech House

• BALLOU D. Ballou, G. Tayi - Enhancing Data quality in Data Warehouse Environments, Comm ACM January 1999, 42,1.

• MIHAILA G.,RASHID L.,VIDAL M.: “Querying quality of data metadata”. In Proceedings of the 6th International Conference on Extending Database Technology (EDBT), Valencia, Spain , 1998.

• MIHAILA G.: Publishing, Locating, and Querying Networked Information Sources. PhD thesis, University of Toronto, 2000.

• GALHARDAS H.,FLORESCU D. et alii: An Extensible Framework for Data Cleaning. In Proceedings of the 16th International Conference on Data Engineering (2000)