Post on 21-Feb-2019
Lezione 2
�Dati e Architetture per il Data
Warehousing
�ETL
27/02/201027/02/2010 1
Introduzione al DW: Dati
� I dati possono essere classificati in vari modi nel DW si adotta una classificazione a tre assi:� significato
� “business data”� dati come prodotto
27/02/201027/02/2010 2
� dati come prodotto� metadati
� struttura� strutturati� non-strutturati
� scopo� pubblici� personali
Introduzione al DW: Dati
� Uso nell’organizzazione� dati operazionali� dati “informazionali”
� Granularità dei dati business
27/02/201027/02/2010 3
� Granularità dei dati business� dati di dettaglio� dati aggregati
Introduzione al DW: Dati
� Tipi di elaborazione� read/write data � read-only data
� Caratterizzazione temporale
27/02/201027/02/2010 4
� Caratterizzazione temporale� dati correnti� snapshots� dati periodici
Introduzione al DW: Dati
� Caratterizzazione Funzionale:� Dati real-time
� dati operazionali “up-to-date” utilizzati per il funzionamento dell’organizzazione ed gestiti attraverso transazioni R/W tipicamente predefinite e “semplici”
27/02/201027/02/2010 5
transazioni R/W tipicamente predefinite e “semplici”
� Dati derivati� dati organizzati a snapshot o come dati periodici� In forma dettagliata o aggregata che sono derivati,
applicando un qualche procedimento di calcolo, dai dati real-time
� utilizzati tipicamente per il supporto alle decisioni
Introduzione al DW: Dati
� Dati riconciliati� forma di dati derivati, storicizzati e dettagliati il cui
scopo è quello di garantire una visibilità univoca di tutte le informazioni presenti nell’organizzazione; vengono periodicamente prodotti dai dati real-time
27/02/201027/02/2010 6
vengono periodicamente prodotti dai dati real-time attraverso procedure di ripulitura ed integrazione
� Dati business non-strutturati� immagini, testi ed, in generale, qualsiasi forma di
registrazione cui non sia facilmente ascrivibile una struttura in termini di campi/tipi
Introduzione del DW: Dati
� Alcuni esempi.....� Dati real-time
� anagrafiche clienti� conti bancari
27/02/201027/02/2010 7
� conti bancari� fatturazioni/magazzino
� Dati derivati� dati aggregati di vendita� analisi di mercato� indicatori economici chiave
Introduzione del DW: Dati
� un DW fa riferimento soprattutto a dati� strutturati e pubblici sia di tipo business che
metadati� non-strutturati, pubblici di tipo metadati
dati non-strutturati pubblici di tipo business
27/02/201027/02/2010 8
� dati non-strutturati pubblici di tipo business (soprattutto in tempi molto recenti, con l’affermarsi di tecnologie evolute di estrazione semantica di informazioni)
� utilizza (o dovrebbe utilizzare) molto limitatamente dati privati
Introduzione del DW: Dati
� Le organizzazioni tipicamente possiedono altri dati che non entrano direttamente a far parte del DW
� Questi includono, come esempi importanti, i
27/02/201027/02/2010 9
Questi includono, come esempi importanti, i “dati come prodotto”, i dati “esterni” ed i dati che risiedono e vengono elaborati in maniera personale
Introduzione del DW: Dati
� i dati esterni e quelli personali, in certi casi, possono essere utili ai fini dell’assunzione di decisioni, ma il loro scopo rimane al di fuori dei confini del DW
� i dati esterni, in particolare, rivestono sempre
27/02/201027/02/2010 10
� i dati esterni, in particolare, rivestono sempre maggiore importanza (ad es., fonti informative su andamenti di mercato su Web), tuttavia l’accesso ad essi ed, ancora di più, la loro aggiunta ai dati gestiti dal DW deve essere attentamente regolata al fine di evitare l’insorgere di problemi di consistenza e qualitàdelle informazioni fornite agli utenti del DW
Architetture Data Warehouse
� Descrivono la struttura generale del DW
� Diversamente dal caso dei sistemi operazionali, l’enfasi in questo caso di
27/02/201027/02/2010 11
operazionali, l’enfasi in questo caso di concentra quasi esclusivamente sulla progettazione della struttura dei dati (e non delle funzioni che li utilizzano)
Architetture Data Warehouse
� Caratteristiche essenziali:� Separazione tra elaborazione analitica e
transazionale� Scalabilità di fronte alla crescita nel tempo
dei volumi di dati
27/02/201027/02/2010 12
dei volumi di dati� Estendibilità nei confronti di nuove
tecnologie e applicazioni� Sicurezza dei dati memorizzati� Amministrabilità
Architetture Data Warehouse
� le varie architetture si distinguono in base al numero di livelli che le caratterizzano
� questa caratterizzazione è indipendente,
27/02/201027/02/2010 13
� questa caratterizzazione è indipendente, “in una certa misura”, dalla organizzazione fisica che viene adottata per i dati ed, in particolare, dalla scelta di realizzare ogni livello in modalità “materializzata” ovvero “virtuale”
Architetture DW: 1 livello
Dati operazionali
Livellodelle
sorgenti
Livello
� Vantaggi:� Minimizzazione del
volume di dati memorizzati
� Sviluppo rapido e costi ridotti
� Evita il problema della sincronizzazione dei dati
27/02/201027/02/2010 14
MIDDLEWARE
Strumenti direportistica
StrumentiOLAP
Livellodel
warehouse
Livellodi analisi
sincronizzazione dei dati ripetuti
� Svantaggi:� Esecuzione ripetuta della
stessa query� Mancanza di
storicizzazione dei dati� Contesa sui dati tra
sistemi operazionali e sistemi decisionali
Architetture DW: 1 livello
� lo sviluppo di un DW che si proponga di interfacciare una sola sorgente operazionale è, in genere, molto meno impegnativo rispetto al caso in cui ci siano più fonti coinvolte
27/02/201027/02/2010 15
� “DW virtuale”: termine con cui si indica un DW ad un solo livello in cui l’utente può accedere più sorgenti operazionali attraverso strati di middleware che realizzano i necessari mapping tra dati
Architetture DW: 2 livelli
Datioperazionali
Livellodelle
sorgenti
� Vantaggi:� Soluzione del
problema della concorrenza tra applicazioni operazionali e decisionali
Dati esterni
ETLLivello di
alimentazione
27/02/201027/02/2010 16
Livello delwarehouse
Livello dianalisi
decisionali� Diverse derivazioni
degli stessi dati
� Svantaggi:� Alto livello di
duplicazione dei dati, spesso incontrollato
Data Warehouse
Datamart
Meta-dati
Report Data mining
OLAP
Architettura DW: 2 livelli
� In questa architettura la complessità del sistema è, in larga misura, “nascosta”
� Nonostante i suoi difetti è, storicamente, una delle architetture maggiormente utilizzate, anche perché ben si presta a sviluppi di tipo “pilota”, che coinvolgono una singola porzione
27/02/201027/02/2010 17
anche perché ben si presta a sviluppi di tipo “pilota”, che coinvolgono una singola porzione dell’organizzazione
� “Data mart”: termine con il quale si indica comunemente un’implementazione a due livelli con un dominio applicativo molto ben definito e ristretto
Architetture DW: 3 livelli
Datioperazionali
Livellodelle
sorgenti
� Vantaggi:� Dati storici memorizzati
nel livello dei dati riconciliati e conseguente semplificazione dei sistemi operazionali
� Notevole riduzione dei problemi di duplicazione dei dati
Dati esterni
ETL
Meta-dati
Livello dialimentazione
Dari Riconciliati Livello deidati riconciliati
27/02/201027/02/2010 18
Livello delwarehouse
Livello dianalisi
dei dati� La riconciliazione è
effettuata una sola volta� Svantaggi:
� Inadeguatezza del modello nel caso di sorgenti operazionali particolarmente eterogenee fra loro
Data Warehouse
Datamart
Meta-dati
Report Data mining OLAP
Architetture DW: 3 livelli
� Il livello riconciliato è la realizzazione materializzata del modello dati che descrive l’intera organizzazione
� L’elevato livello di duplicazione in questa
27/02/201027/02/2010 19
� L’elevato livello di duplicazione in questa tipologia di architettura è più apparente che reale; in ogni caso, il costo in termini di spazio di memorizzazione è ampiamente ripagato in termini di efficienza, manutenibilità e controllabilità
� La problematica principale di questa tipologia di architettura, dal punto di vista progettuale e realizzativo, consiste nella difficoltà della definizione del livello riconciliato
� La grande complessità di questo problema rende l’architettura inadatta (salvo casi particolari) ad
Architetture DW: 3 livelli
27/02/201027/02/2010 20
l’architettura inadatta (salvo casi particolari) ad applicazioni di piccola dimensione
� Diventa, viceversa, l’architettura di più conveniente nel caso di sistemi DW di dimensione significativa o che, comunque, coinvolgano più basi di dati sorgente eterogenee tra loro
Strumenti ETL
Extraction
Transformation
Loading
Riconciliazione
27/02/201027/02/2010 21
� Ruolo:� Alimentare il livello “Dati Riconciliati”
� Esauriente� Di alta qualità
Strumenti ETL
� Riconciliazione:
� Avviene in due occasioni� Creazione del DW
27/02/201027/02/2010 22
� Creazione del DW� Aggiornamento del DW
� È l’operazione più complessa e impegnativa
Strumenti ETL
� Fasi della riconciliazione
1. EstrazioneRipulitura � Correzione Valori
27/02/201027/02/2010 23
2. Ripulitura � Correzione Valori3. Trasformazione� Correzione Formato4. Caricamento
Strumenti ETL: Estrazione
� Fase di estrazione dei dati dalla sorgente� Estrazione statica: popolamento iniziale del
DW� Estrazione incrementale: aggiornamento del
DW, catturando solo i cambiamenti
27/02/201027/02/2010 24
DW, catturando solo i cambiamenti dall’ultima estrazione� Basata sul “giornale” (log) nel DBMS
operazionale� Guidata dalle sorgenti che notificano i
cambiamenti (per es. trigger)
Strumenti ETL: Pulitura
� Fase di ripulitura dei dati estratti� Fase critica per migliorare la qualità dei dati
� Tipiche situazioni di dati sporchi:� Dati duplicati� Inconsistenze tra valori logicamente associati
27/02/201027/02/2010 25
� Inconsistenze tra valori logicamente associati� Dati mancanti� Uso non previsto di un campo� Valori impossibili� Valori inconsistenti dovuti a diverse convenzioni o
abbreviazioni� Valori inconsistenti dovuti a errori di data entry
Strumenti ETL: Pulitura
� Correzioni:
� Dizionari: correggere errori di scrittura, abbreviazioni, sinonimi
27/02/201027/02/2010 26
abbreviazioni, sinonimi� Regole: (proprie del dominio applicativo)
stabilire le corrette corrispondenze
Strumenti ETL: Trasformazione
� Fase centrale del processo di riconciliazione
� Conversione dati:Formato Operazionale�Formato DW
27/02/201027/02/2010 27
Formato Operazionale�Formato DW
� Corrispondenza dei formati complicata dalla presenza di più sorgenti eterogenee � Fase di integrazione
Strumenti ETL: Trasformazione
� Situazioni tipiche:� Testi liberi� Formati differenti (per es. date)
� Funzionalità:
27/02/201027/02/2010 28
� Funzionalità:� Conversione e normalizzazione� Matching tra campi equivalenti di diverse
fonti� Alimentazione:
� Denormalizzazione e Aggregazione
Strumenti ETL: Caricamento
� Refresh� Dati del DW integralmente riscritti sostituendo i
precedenti� Normalmente utilizzata solo per il popolamento
iniziale, abbinata a estrazione statica
27/02/201027/02/2010 29
iniziale, abbinata a estrazione statica
� Update� Cambiamenti alle sorgenti aggiunti al DW, senza
distruggere o alterare dati esistenti� Normalmente utilizzata per l’aggiornamento
periodico del DW, abbinata a estrazione incrementale