Carme Thesis Presentation
-
Upload
andreacarme -
Category
Documents
-
view
549 -
download
0
Transcript of Carme Thesis Presentation
UN APPROCCIO DI REVERSE-ENGINEERING PER INDIVIDUARE I FATTI ALL’INTERNO DI SORGENTI DATI RELAZIONALI
Presentato da Andrea Carmè Cesena, 21 ottobre 2010
DATI E INFORMAZIONI
Sorgenti dati relazionali
Data Warehouse
Informazioni
Modello multidimensionale
Modello relazionale
-Fatti-Dimensioni
- Relazioni- Attributi
PROGETTAZIONE CONCETTUALE
Una progettazione concettuale accurata è fondamentale per la costruzione di un Data Warehouse
Ben documentatoSoddisfare i bisogni degli utenti del business
Analisi delle sorgenti relazionaliIndividuazione degli elementi multidimensionali
Scopo
PROGETTAZIONE GUIDATA DAI DATI
INDIVIDUAZIONE DEGLI ELEMENTI MD
Linee guida
Glossari Vendite Ciclo Fertilità
APPROCCI MANUALI
APPROCCI AUTOMATIZZATI
S_CCCP
Documentazione sorgenti dati
Focalizzati sulle dimensioni
Vendite Ciclo Fertilità
S_CCCP
PROBLEMI
PROBLEMI
I fatti sono gli elementi multidimensionali più importanti dal momento che corrispondono agli eventi di interesse del business
INDIVIDUAZIONE DEI FATTI
APPROCCIO PER FORMALIZZARE L’INDIVIDUAZIONE DEI FATTI
Documentazione sorgenti dati
Basato su euristiche
CWM Relazionale Profilo UML
CARATTERISTICHE
Basato e guidato dai modelli
Vendite Ciclo Fertilità
S_CCCP
UFRO TAHE Fertilidad
APPROCCIO PER INDIVIDUARE I FATTI
ESTRAZIONE ELEMENTI RELAZIONALI
Dizionariodati CWM relazionale
CWM relazionale
Richiesta la partecipazione
degli utenti
INDIVIDUAZIONE STRUTTURE MD
Store City
R = Select idCity from Store where idCity is not null
P = Select distinct idCity from RStore City
M-1
0 0
INDIVIDUAZIONE STRUTTURE MD
MISURE EURISTICHE UTILIZZATE
Ratio degli attributi numerici: Le misure sono sempre numeriche e le tabelle con un alto ratio sono più adatte a ricoprire il ruolo di fatto
Numero di istanze: Le tabelle con il maggior numero di istanze potrebbero corrispondere a fatti
Grado d’ingresso: Le tabelle con poche o nessuna chiavi importate in ingresso potrebbero corrispondere a fatti
SOGLIA: > 25-esimo percentile
SOGLIA: > 75-esimo percentile
SOGLIA: < 0 o 1
INDIVIDUAZIONE STRUTTURE MD
F
D
D
D
1-1 F
M-1M-1
M-1
M-1
M-1
DERIVAZIONE SCHEMA MD
F
D
D
D
1-1 FM-1
M-1
M-1
M-1
M-1
Modello CWM marcato
Schema concettuale multidimensionaleTrasformazione formale tra modelli
CONCLUSIONI
Approccio per formalizzare il processo di identificazione dei fatti a partire da sorgenti dati relazionali
Non richiede la documentazione delle sorgenti dati relazionali
Basato su misure euristiche
Bassa complessità computazionale
~ 30 secondi
(130 tabelle, 140 FKs)
CARATTERISTICHE
SVILUPPI FUTURI
Derivare anche le altre strutture multidimensionali: gerarchie delle dimensioni
Considerare anche le sorgenti non-relazionali
Considerare anche misure euristiche basate sulle caratteristiche semantiche delle sorgenti
DOMANDE?
UN APPROCCIO DI REVERSE-ENGINEERING PER INDIVIDUARE I FATTI ALL’INTERNO DI SORGENTI DATI RELAZIONALI
Andrea Carmè Cesena, 21 ottobre 2010