Thematica -...
Transcript of Thematica -...
Software Technologies
Thematica
Sperimentazione di Servizi Innovativialle Imprese Produttrici di Software
Giovanni LaboccettaThematica s.r.l. [email protected]à della Calabria 21-10-2004
Software Technologies
Thematica Perché i data warehouse?
L’idea di base del concetto di Data Warehouse consiste nell’osservare come le esigenze dei
• processi operativi
• processi decisionali
siano profondamente diverse e che sia quindi sbagliato tentare di soddisfarle tutte con uno stesso ambiente.
Software Technologies
Thematica Confronto tra DW e OLTP
DATA WAREHOUSEDATA WAREHOUSE SISTEMA OPERAZIONALESISTEMA OPERAZIONALE
90% di query estemporanee 90% di query predefinite
Accessi in sola lettura Accessi in lettura/scrittura
Denormalizzato Normalizzato
Gestisce versioni storiche dei dati Non gestisce versioni storiche dei dati
Ottimizzato per accessi che coinvolgono gran parte del database
Ottimizzato per accessi che coinvolgono una piccola frazione del
databaseContiene prevalentemente dati
numericiContiene sia dati numerici che
alfanumericiBasato su dati di sintesi Basato su dati elementari
On Line Analytical Processing (OLAP)
On Line Transaction Processing (OLTP)
Software Technologies
Thematica A chi serve?
Un management che dispone di un sistema informativo e che si domandi:
"cosa è successo?“
"perché è successo?" e
"come posso ripeterlo?" oppure
"come posso evitarlo?“
è un buon candidato all'installazione di un sistema decisionale
Software Technologies
Thematica Integrazione
Nel Data Warehouse il significato di un dato deve essere concordNel Data Warehouse il significato di un dato deve essere concorde e a livello aziendale e definito con precisione in termini informaa livello aziendale e definito con precisione in termini informatici.tici.
Sistemi OperazionaliSistemi Operazionali Data Warehouse Data Warehouse Appl Appl A A –– Description1Description1
Appl Appl B B –– Description2Description2
Appl Appl C C –– Description3Description3
Appl Appl A A –– Date(Date(yymmddyymmdd))
Appl Appl B B –– Data(Data(mmddaammddaa))
Appl Appl C C –– Data (assolutaData (assoluta))
PopolamentoPopolamento
DescriptionDescription
Data(Data(ddmmyyddmmyy))
m,fm,f
ApplAppl A A –– m,fm,f
Appl Appl B B –– 1,01,0
Appl Appl C C –– x,yx,y
Software Technologies
Thematica Architettura concettuale di un DW
Ad un livello
A due livelli
A tre livelli
Software Technologies
Thematica Architettura ad un livello
Minimizzazione del volumeMinimizzazione del volumedi dati memorizzatiDecisionDecision
SupportSupport SystemSystem di dati memorizzati
Sviluppo rapido Sviluppo rapido e costi ridotti
Dati Dati RealReal--TimeTime
OperationalOperationalSystemSystem
VantaggiVantaggi e costi ridottiEvita il problema della Evita il problema della sincronizzazione dei sincronizzazione dei dati ripetutidati ripetuti
Esecuzione ripetutaEsecuzione ripetutadella stessa della stessa queryquery
Mancanza di Mancanza di storicizzazionestoricizzazionedei dati
SvantaggiSvantaggidei dati
Contesa sui dati tra sistemi Contesa sui dati tra sistemi operazionali e sistemi decisionalioperazionali e sistemi decisionali
Software Technologies
Thematica Architettura a due livelli
Assenza di Assenza di concorrenza tra concorrenza tra applicazioni applicazioni operazionali e operazionali e decisionali
OperationalOperationalSystemSystem
DecisionDecisionSupportSupport SystemSystem
DatiDati RealReal--TimeTime
Dati DerivatiDati Derivati
VantaggiVantaggi decisionali
Diverse Diverse derivazioni derivazioni degli stessi datidegli stessi dati
SvantaggiSvantaggi
Alto livello di Alto livello di duplicazione dei duplicazione dei dati, spesso dati, spesso incontrollatoincontrollato
Software Technologies
Thematica Architettura a tre livelli
Dati storici memorizzati nel Dati storici memorizzati nel livello dei dati riconciliati
OperationalOperationalSystemSystem
DatiDati RealReal--TimeTime
Dati RiconciliatiDati Riconciliati
Dati DerivatiDati Derivati
DecisionDecisionSupportSupport SystemSystem
VantaggiVantaggi
livello dei dati riconciliati
Notevole riduzione dei Notevole riduzione dei problemi di duplicazione problemi di duplicazione dei datidei dati
SvantaggiSvantaggi
Supporto ad esigenze non Supporto ad esigenze non previste previste
Inadeguatezza del modello Inadeguatezza del modello nel caso di sorgenti nel caso di sorgenti operazionali particolarmente operazionali particolarmente eterogenee fra loroeterogenee fra loro
Software Technologies
Thematica Architettura logica a tre livelli
Staging BIWA questo livello vi sono le applicazioni per il supporto alle decisioni
Software Technologies
Thematica Un modello concettuale per i DW
Per i DBMS relazionali viene usato il modello Entity/Relatioship(E/R)
Non utilizzabile per i DW perché:
1. I DW utilizzano una visione multidimensionale dei dati, mentre l'E/R propone una visione piatta degli stessi
2. Non risulta semplice formulare le interrogazioni sullo schema E/R
3. Il modello E/R è difficilmente comprensibile dai non addetti ai lavori, quindi non rende semplice il dialogo tra progettista ed utente
4. L'E/R produce una documentazione non sempre priva di ambiguità e non sempre sufficientemente espressiva
Software Technologies
Thematica Dimensional Fact Model (DFM)
ModelloMultidimensionale
FattoFatto
Processo di business da modellare
DimensioneDimensione
Rappresentazione della granularità
dei fatti
GerarchieGerarchie
Aggregazione delle istanze dei
fatti
MisureMisure
Attributo numerico di un fatto
Software Technologies
Thematica Analisi multidimensionale
I dati raccolti vengono visti come un ipercubo in cui ogni
dimensione rappresenta una classe di dati
Software Technologies
ThematicaPrincipali tecniche per esplorare i dati
Drilling Down/Up
Nazione
Regione
Provincia
Drill Down
Drill Up
Software Technologies
Thematica Slice and DiceProdotti Regioni Vendite
Noccioline Calabria 50
Noccioline Sicilia 60
Noccioline Basilicata 100
Pistacchi Calabria 40
Pistacchi Sicilia 70
Pistacchi Basilicata 80
Patatine Calabria 90
Patatine Sicilia 120
Patatine Basilicata 140
Vendite per Regione Calabria Sicilia Basilicata
Noccioline 50 60 100
Pistacchi 40 70 80
Patatine 90 120 140
Software Technologies
Thematica OLAP
(On Line Analytical Processing)
• Supportare complesse analisi del processo decisionale
• Analizzare i dati da varie prospettive
• Agire dinamicamente su enormi quantità di dati
Per supportare un sistema OLAP, i dati devono essere organizzati attraverso modelli multidimensionali
Software Technologies
Thematica OLAP
ROLAP (Relational OLAP) Uso di strutture relazionali
MOLAP (Multidimensional OLAP) Uso di strutture fisiche specializzate
Software Technologies
Thematica ETL
L’ETL (extract transform and load) è il processo di estrazione, trasformazione e consolidamento didati da sorgenti eterogenee in un data warehouse.Supportato da tools grafici:– Microsoft SQL Server 2000 DTS (DataTransformation Services)– DB2 Warehouse Manager– Oracle Warehouse Builder– Business Objects Data Integrator
Software Technologies
Thematica ETL
Operazioni ETLExtract: accesso alle sorgenti di dati
Interne vs Esterne, Localizzazione e formato
Transform: trasformazione, pulizia e integrazione dei dati
Selezionedati non necessari, duplicati, corrotti, fuori dai limiti
(eta=999)
Valori mancantidefault, valor medio, filtro
Codifiche e normalizzazionidei dati al fine di risolvere differenti codifiche della stessa
informazione (metri, pollice; formato data ecc.)
Splitting/mergingdi attributi (attributo Indirizzo vs attributi
Software Technologies
Thematica La piattaforma Business Objects
SupervisorSupervisor: : permette di installare ed amministrare un ambiente sicuro per tutto il sistema Business Objects.
DesignerDesigner: : permette di creare lo strato semantico su cui si farà OLAP.
Infoview: portale web per l’accesso ai vari strumenti di reporting
BusinessObject: Applicazione client con cui si definiscono i report
WebIntelligenceWebIntelligence: : estende le capacità del DSS alle intranet, extranet ed Internet. Permette di creare e modificare reports attraverso un ActiveX (o un’applet) scaricato in un browser Web
Repository: utilizzato come contenitore dei dati e dei metadati della sicurezza, degli universi e dei report
Data Integrator: utilizzato per le operazioni di ETL
Software Technologies
Thematica Microstrategy
• ROLAP(Relational On-Line Analytical Processing )
• Pseudo MOLAP(Multidimensional On-Line
Analytical Processing ) con Olap Servicesed Intelligent Cubes
Software Technologies
Thematica Microstrategy Desktop
Architect : mappatura verso schema multidimensionale(fatti , metriche , attributi , gerarchie , …)
Administrator : gestione utenti , privilegi sui singolioggetti , configurazione server microstrategy , accesso al warehouse catalog, …
Report Editor : creazione report, advanced reporting ,…
Software Technologies
Thematica Architect : oggetti di design
Public Objects (Metriche , Filtri , Prompt , Report, …) : oggetti utilizzabili dall’utente finale evoluto , sviluppatore del reporting layer.
Schema Objects (Attributi , Fatti , Gerarchie, …) : tipici oggetti di design per la modellizzazionemultidimensionale.
Software Technologies
Thematica Administrator
User Manager : gestione utenti e gruppi , diritti di accesso al singolo oggettoMicrostrategy.
Database Instance Manager : gestioneconnessioni alle origini dati.
Schedule Manager : gestione schedulazioneeventi.
Cache Monitor : gestione oggetti in cache
Software Technologies
Thematica Report Editor
Creazione report tramite drag and drop deiPublic/Schema Objects.
Gestione parametri singolo report (cache , tipi di join , …).
Gestione dei report objects per la definizionedegli Intelligence Cubes.
Software Technologies
Thematica Microstrategy Web
Interfaccia web per il reporting e l’analisi dei dati
Accesso tramite browser
Semplicità nelle Analisi e nel Reporting
Possibilità di salvare i report in aree riservate al singolo utente
Software Technologies
ThematicaComponenti
Discoverer Administrator Edition : progettazione strato multidimensionale intermedio(componente stand-alone)
Discoverer Plus : progettazione reporting
Discoverer Viewer : componente per la visualizzazione
Software Technologies
Thematica
Concetti chiave
EUL (End User Layer) : metalayer che protegge l’utente finale dalla complessità del database, concettualmente risiede tra il DB e Discoverer e comprende un certo numero di viste e tabelle del DB.
Business Area : sotto insieme di oggetti(tabelle , viste , gerarchie , misure, filtri, condizioni, …) costituenti un raggruppamento logico (Data Mart), rappresentante l’area di lavoro da cui ottenere I report.
Software Technologies
Thematica Analysis server
Strumento MOLAP Fornito con Microsoft Sql-Server 2000
Server di livello intermedio per la gestione di cubi multi-dimensionali
Rapido accesso dei client alle informazioni del cubo
Organizzazione dei dati in cubi con dati aggregati precalcolati
Software Technologies
Thematica
Concetti chiave
Tabelle dei Fatti
Dimensioni
Gerarchie
Misure
Reporting tramite MS Excel con il supporto degliOffice Web Components
Software Technologies
Thematica Architettura Analysis Server
ServerAnalysysManager
CustomApplications
DSO
AnalysisServer
Data Storage
ROLAP data
MOLAP
HOLAP
Source data
Cube
RelationalRelationalDatabaseDatabase
ClientClient
Application
ADO MDClientApplication
OLE DB
PivotTableService
Software Technologies
Thematica ADO MD
Modello a oggetti semplificato, concettualmente vicino a ADOIncapsula l’accesso attraverso OLEDB MDAccede a dati e metadatiUtilizzabile da qualsiasi tool di sviluppo (VB, VC++, VBScript, JScript, ...)Facile da usare
Software Technologies
Thematica Oggetti ADOMD
ConnectionConnection
CatalogCatalog
CubeDefCubeDef
CellSetCellSet
AxisAxis
CellCell
CubeCubeMeta DataMeta Data DataData
AccessAccess
CubeCube
Software Technologies
Thematica Data Transformation Services
DTS DesignerIl DTS designer permette di creare, modificare e configurare un DTS package utilizzando un interfaccia grafica con funzionalitàdrag and drop.