Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf ·...

29
Lezione 2 Dati e Architetture per il Data Warehousing ETL 27/02/2010 27/02/2010 1

Transcript of Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf ·...

Page 1: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Lezione 2

�Dati e Architetture per il Data

Warehousing

�ETL

27/02/201027/02/2010 1

Page 2: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Introduzione al DW: Dati

� I dati possono essere classificati in vari modi nel DW si adotta una classificazione a tre assi:� significato

� “business data”� dati come prodotto

27/02/201027/02/2010 2

� dati come prodotto� metadati

� struttura� strutturati� non-strutturati

� scopo� pubblici� personali

Page 3: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Introduzione al DW: Dati

� Uso nell’organizzazione� dati operazionali� dati “informazionali”

� Granularità dei dati business

27/02/201027/02/2010 3

� Granularità dei dati business� dati di dettaglio� dati aggregati

Page 4: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Introduzione al DW: Dati

� Tipi di elaborazione� read/write data � read-only data

� Caratterizzazione temporale

27/02/201027/02/2010 4

� Caratterizzazione temporale� dati correnti� snapshots� dati periodici

Page 5: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Introduzione al DW: Dati

� Caratterizzazione Funzionale:� Dati real-time

� dati operazionali “up-to-date” utilizzati per il funzionamento dell’organizzazione ed gestiti attraverso transazioni R/W tipicamente predefinite e “semplici”

27/02/201027/02/2010 5

transazioni R/W tipicamente predefinite e “semplici”

� Dati derivati� dati organizzati a snapshot o come dati periodici� In forma dettagliata o aggregata che sono derivati,

applicando un qualche procedimento di calcolo, dai dati real-time

� utilizzati tipicamente per il supporto alle decisioni

Page 6: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Introduzione al DW: Dati

� Dati riconciliati� forma di dati derivati, storicizzati e dettagliati il cui

scopo è quello di garantire una visibilità univoca di tutte le informazioni presenti nell’organizzazione; vengono periodicamente prodotti dai dati real-time

27/02/201027/02/2010 6

vengono periodicamente prodotti dai dati real-time attraverso procedure di ripulitura ed integrazione

� Dati business non-strutturati� immagini, testi ed, in generale, qualsiasi forma di

registrazione cui non sia facilmente ascrivibile una struttura in termini di campi/tipi

Page 7: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Introduzione del DW: Dati

� Alcuni esempi.....� Dati real-time

� anagrafiche clienti� conti bancari

27/02/201027/02/2010 7

� conti bancari� fatturazioni/magazzino

� Dati derivati� dati aggregati di vendita� analisi di mercato� indicatori economici chiave

Page 8: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Introduzione del DW: Dati

� un DW fa riferimento soprattutto a dati� strutturati e pubblici sia di tipo business che

metadati� non-strutturati, pubblici di tipo metadati

dati non-strutturati pubblici di tipo business

27/02/201027/02/2010 8

� dati non-strutturati pubblici di tipo business (soprattutto in tempi molto recenti, con l’affermarsi di tecnologie evolute di estrazione semantica di informazioni)

� utilizza (o dovrebbe utilizzare) molto limitatamente dati privati

Page 9: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Introduzione del DW: Dati

� Le organizzazioni tipicamente possiedono altri dati che non entrano direttamente a far parte del DW

� Questi includono, come esempi importanti, i

27/02/201027/02/2010 9

Questi includono, come esempi importanti, i “dati come prodotto”, i dati “esterni” ed i dati che risiedono e vengono elaborati in maniera personale

Page 10: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Introduzione del DW: Dati

� i dati esterni e quelli personali, in certi casi, possono essere utili ai fini dell’assunzione di decisioni, ma il loro scopo rimane al di fuori dei confini del DW

� i dati esterni, in particolare, rivestono sempre

27/02/201027/02/2010 10

� i dati esterni, in particolare, rivestono sempre maggiore importanza (ad es., fonti informative su andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro aggiunta ai dati gestiti dal DW deve essere attentamente regolata al fine di evitare l’insorgere di problemi di consistenza e qualitàdelle informazioni fornite agli utenti del DW

Page 11: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Architetture Data Warehouse

� Descrivono la struttura generale del DW

� Diversamente dal caso dei sistemi operazionali, l’enfasi in questo caso di

27/02/201027/02/2010 11

operazionali, l’enfasi in questo caso di concentra quasi esclusivamente sulla progettazione della struttura dei dati (e non delle funzioni che li utilizzano)

Page 12: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Architetture Data Warehouse

� Caratteristiche essenziali:� Separazione tra elaborazione analitica e

transazionale� Scalabilità di fronte alla crescita nel tempo

dei volumi di dati

27/02/201027/02/2010 12

dei volumi di dati� Estendibilità nei confronti di nuove

tecnologie e applicazioni� Sicurezza dei dati memorizzati� Amministrabilità

Page 13: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Architetture Data Warehouse

� le varie architetture si distinguono in base al numero di livelli che le caratterizzano

� questa caratterizzazione è indipendente,

27/02/201027/02/2010 13

� questa caratterizzazione è indipendente, “in una certa misura”, dalla organizzazione fisica che viene adottata per i dati ed, in particolare, dalla scelta di realizzare ogni livello in modalità “materializzata” ovvero “virtuale”

Page 14: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Architetture DW: 1 livello

Dati operazionali

Livellodelle

sorgenti

Livello

� Vantaggi:� Minimizzazione del

volume di dati memorizzati

� Sviluppo rapido e costi ridotti

� Evita il problema della sincronizzazione dei dati

27/02/201027/02/2010 14

MIDDLEWARE

Strumenti direportistica

StrumentiOLAP

Livellodel

warehouse

Livellodi analisi

sincronizzazione dei dati ripetuti

� Svantaggi:� Esecuzione ripetuta della

stessa query� Mancanza di

storicizzazione dei dati� Contesa sui dati tra

sistemi operazionali e sistemi decisionali

Page 15: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Architetture DW: 1 livello

� lo sviluppo di un DW che si proponga di interfacciare una sola sorgente operazionale è, in genere, molto meno impegnativo rispetto al caso in cui ci siano più fonti coinvolte

27/02/201027/02/2010 15

� “DW virtuale”: termine con cui si indica un DW ad un solo livello in cui l’utente può accedere più sorgenti operazionali attraverso strati di middleware che realizzano i necessari mapping tra dati

Page 16: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Architetture DW: 2 livelli

Datioperazionali

Livellodelle

sorgenti

� Vantaggi:� Soluzione del

problema della concorrenza tra applicazioni operazionali e decisionali

Dati esterni

ETLLivello di

alimentazione

27/02/201027/02/2010 16

Livello delwarehouse

Livello dianalisi

decisionali� Diverse derivazioni

degli stessi dati

� Svantaggi:� Alto livello di

duplicazione dei dati, spesso incontrollato

Data Warehouse

Datamart

Meta-dati

Report Data mining

OLAP

Page 17: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Architettura DW: 2 livelli

� In questa architettura la complessità del sistema è, in larga misura, “nascosta”

� Nonostante i suoi difetti è, storicamente, una delle architetture maggiormente utilizzate, anche perché ben si presta a sviluppi di tipo “pilota”, che coinvolgono una singola porzione

27/02/201027/02/2010 17

anche perché ben si presta a sviluppi di tipo “pilota”, che coinvolgono una singola porzione dell’organizzazione

� “Data mart”: termine con il quale si indica comunemente un’implementazione a due livelli con un dominio applicativo molto ben definito e ristretto

Page 18: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Architetture DW: 3 livelli

Datioperazionali

Livellodelle

sorgenti

� Vantaggi:� Dati storici memorizzati

nel livello dei dati riconciliati e conseguente semplificazione dei sistemi operazionali

� Notevole riduzione dei problemi di duplicazione dei dati

Dati esterni

ETL

Meta-dati

Livello dialimentazione

Dari Riconciliati Livello deidati riconciliati

27/02/201027/02/2010 18

Livello delwarehouse

Livello dianalisi

dei dati� La riconciliazione è

effettuata una sola volta� Svantaggi:

� Inadeguatezza del modello nel caso di sorgenti operazionali particolarmente eterogenee fra loro

Data Warehouse

Datamart

Meta-dati

Report Data mining OLAP

Page 19: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Architetture DW: 3 livelli

� Il livello riconciliato è la realizzazione materializzata del modello dati che descrive l’intera organizzazione

� L’elevato livello di duplicazione in questa

27/02/201027/02/2010 19

� L’elevato livello di duplicazione in questa tipologia di architettura è più apparente che reale; in ogni caso, il costo in termini di spazio di memorizzazione è ampiamente ripagato in termini di efficienza, manutenibilità e controllabilità

Page 20: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

� La problematica principale di questa tipologia di architettura, dal punto di vista progettuale e realizzativo, consiste nella difficoltà della definizione del livello riconciliato

� La grande complessità di questo problema rende l’architettura inadatta (salvo casi particolari) ad

Architetture DW: 3 livelli

27/02/201027/02/2010 20

l’architettura inadatta (salvo casi particolari) ad applicazioni di piccola dimensione

� Diventa, viceversa, l’architettura di più conveniente nel caso di sistemi DW di dimensione significativa o che, comunque, coinvolgano più basi di dati sorgente eterogenee tra loro

Page 21: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Strumenti ETL

Extraction

Transformation

Loading

Riconciliazione

27/02/201027/02/2010 21

� Ruolo:� Alimentare il livello “Dati Riconciliati”

� Esauriente� Di alta qualità

Page 22: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Strumenti ETL

� Riconciliazione:

� Avviene in due occasioni� Creazione del DW

27/02/201027/02/2010 22

� Creazione del DW� Aggiornamento del DW

� È l’operazione più complessa e impegnativa

Page 23: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Strumenti ETL

� Fasi della riconciliazione

1. EstrazioneRipulitura � Correzione Valori

27/02/201027/02/2010 23

2. Ripulitura � Correzione Valori3. Trasformazione� Correzione Formato4. Caricamento

Page 24: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Strumenti ETL: Estrazione

� Fase di estrazione dei dati dalla sorgente� Estrazione statica: popolamento iniziale del

DW� Estrazione incrementale: aggiornamento del

DW, catturando solo i cambiamenti

27/02/201027/02/2010 24

DW, catturando solo i cambiamenti dall’ultima estrazione� Basata sul “giornale” (log) nel DBMS

operazionale� Guidata dalle sorgenti che notificano i

cambiamenti (per es. trigger)

Page 25: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Strumenti ETL: Pulitura

� Fase di ripulitura dei dati estratti� Fase critica per migliorare la qualità dei dati

� Tipiche situazioni di dati sporchi:� Dati duplicati� Inconsistenze tra valori logicamente associati

27/02/201027/02/2010 25

� Inconsistenze tra valori logicamente associati� Dati mancanti� Uso non previsto di un campo� Valori impossibili� Valori inconsistenti dovuti a diverse convenzioni o

abbreviazioni� Valori inconsistenti dovuti a errori di data entry

Page 26: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Strumenti ETL: Pulitura

� Correzioni:

� Dizionari: correggere errori di scrittura, abbreviazioni, sinonimi

27/02/201027/02/2010 26

abbreviazioni, sinonimi� Regole: (proprie del dominio applicativo)

stabilire le corrette corrispondenze

Page 27: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Strumenti ETL: Trasformazione

� Fase centrale del processo di riconciliazione

� Conversione dati:Formato Operazionale�Formato DW

27/02/201027/02/2010 27

Formato Operazionale�Formato DW

� Corrispondenza dei formati complicata dalla presenza di più sorgenti eterogenee � Fase di integrazione

Page 28: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Strumenti ETL: Trasformazione

� Situazioni tipiche:� Testi liberi� Formati differenti (per es. date)

� Funzionalità:

27/02/201027/02/2010 28

� Funzionalità:� Conversione e normalizzazione� Matching tra campi equivalenti di diverse

fonti� Alimentazione:

� Denormalizzazione e Aggregazione

Page 29: Dati e Architetture per il Data Warehousing ETLsi.deis.unical.it/~cuzzocrea/dw/Lezione02.pdf · andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro

Strumenti ETL: Caricamento

� Refresh� Dati del DW integralmente riscritti sostituendo i

precedenti� Normalmente utilizzata solo per il popolamento

iniziale, abbinata a estrazione statica

27/02/201027/02/2010 29

iniziale, abbinata a estrazione statica

� Update� Cambiamenti alle sorgenti aggiunti al DW, senza

distruggere o alterare dati esistenti� Normalmente utilizzata per l’aggiornamento

periodico del DW, abbinata a estrazione incrementale