Carme Thesis Presentation

14
UN APPROCCIO DI REVERSE- ENGINEERING PER INDIVIDUARE I FATTI ALL’INTERNO DI SORGENTI DATI RELAZIONALI Presentato da Andrea Carmè Cesena, 21 ottobre 2010

Transcript of Carme Thesis Presentation

Page 1: Carme Thesis Presentation

UN APPROCCIO DI REVERSE-ENGINEERING PER INDIVIDUARE I FATTI ALL’INTERNO DI SORGENTI DATI RELAZIONALI

Presentato da Andrea Carmè Cesena, 21 ottobre 2010

Page 2: Carme Thesis Presentation

DATI E INFORMAZIONI

Sorgenti dati relazionali

Data Warehouse

Informazioni

Modello multidimensionale

Modello relazionale

-Fatti-Dimensioni

- Relazioni- Attributi

Page 3: Carme Thesis Presentation

PROGETTAZIONE CONCETTUALE

Una progettazione concettuale accurata è fondamentale per la costruzione di un Data Warehouse

Ben documentatoSoddisfare i bisogni degli utenti del business

Analisi delle sorgenti relazionaliIndividuazione degli elementi multidimensionali

Scopo

PROGETTAZIONE GUIDATA DAI DATI

Page 4: Carme Thesis Presentation

INDIVIDUAZIONE DEGLI ELEMENTI MD

Linee guida

Glossari Vendite Ciclo Fertilità

APPROCCI MANUALI

APPROCCI AUTOMATIZZATI

S_CCCP

Documentazione sorgenti dati

Focalizzati sulle dimensioni

Vendite Ciclo Fertilità

S_CCCP

PROBLEMI

PROBLEMI

I fatti sono gli elementi multidimensionali più importanti dal momento che corrispondono agli eventi di interesse del business

Page 5: Carme Thesis Presentation

INDIVIDUAZIONE DEI FATTI

APPROCCIO PER FORMALIZZARE L’INDIVIDUAZIONE DEI FATTI

Documentazione sorgenti dati

Basato su euristiche

CWM Relazionale Profilo UML

CARATTERISTICHE

Basato e guidato dai modelli

Vendite Ciclo Fertilità

S_CCCP

UFRO TAHE Fertilidad

Page 6: Carme Thesis Presentation

APPROCCIO PER INDIVIDUARE I FATTI

Page 7: Carme Thesis Presentation

ESTRAZIONE ELEMENTI RELAZIONALI

Dizionariodati CWM relazionale

CWM relazionale

Richiesta la partecipazione

degli utenti

Page 8: Carme Thesis Presentation

INDIVIDUAZIONE STRUTTURE MD

Store City

R = Select idCity from Store where idCity is not null

P = Select distinct idCity from RStore City

M-1

0 0

Page 9: Carme Thesis Presentation

INDIVIDUAZIONE STRUTTURE MD

MISURE EURISTICHE UTILIZZATE

Ratio degli attributi numerici: Le misure sono sempre numeriche e le tabelle con un alto ratio sono più adatte a ricoprire il ruolo di fatto

Numero di istanze: Le tabelle con il maggior numero di istanze potrebbero corrispondere a fatti

Grado d’ingresso: Le tabelle con poche o nessuna chiavi importate in ingresso potrebbero corrispondere a fatti

SOGLIA: > 25-esimo percentile

SOGLIA: > 75-esimo percentile

SOGLIA: < 0 o 1

Page 10: Carme Thesis Presentation

INDIVIDUAZIONE STRUTTURE MD

F

D

D

D

1-1 F

M-1M-1

M-1

M-1

M-1

Page 11: Carme Thesis Presentation

DERIVAZIONE SCHEMA MD

F

D

D

D

1-1 FM-1

M-1

M-1

M-1

M-1

Modello CWM marcato

Schema concettuale multidimensionaleTrasformazione formale tra modelli

Page 12: Carme Thesis Presentation

CONCLUSIONI

Approccio per formalizzare il processo di identificazione dei fatti a partire da sorgenti dati relazionali

Non richiede la documentazione delle sorgenti dati relazionali

Basato su misure euristiche

Bassa complessità computazionale

~ 30 secondi

(130 tabelle, 140 FKs)

CARATTERISTICHE

Page 13: Carme Thesis Presentation

SVILUPPI FUTURI

Derivare anche le altre strutture multidimensionali: gerarchie delle dimensioni

Considerare anche le sorgenti non-relazionali

Considerare anche misure euristiche basate sulle caratteristiche semantiche delle sorgenti

Page 14: Carme Thesis Presentation

DOMANDE?

UN APPROCCIO DI REVERSE-ENGINEERING PER INDIVIDUARE I FATTI ALL’INTERNO DI SORGENTI DATI RELAZIONALI

Andrea Carmè Cesena, 21 ottobre 2010