Pentaho: una soluzione Open per la progettazione e ... · ISTAT – Istituto Nazionale di...
-
Upload
trannguyet -
Category
Documents
-
view
216 -
download
0
Transcript of Pentaho: una soluzione Open per la progettazione e ... · ISTAT – Istituto Nazionale di...
ISTAT – Istituto Nazionale di Statistica
DPTS - DCMT/1
06/11/2008
Mariano Crea
Pentaho: una soluzione Open
per la progettazione e sviluppo di
Data Warehouse
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT2 06/11/2008
Agenda
Data Warehouse Overview
La Suite Pentaho
Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale
La classificazione dei dipendenti ISTAT (studio di caso)
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT3 06/11/2008
Agenda
Data Warehouse Overview
La Suite Pentaho
Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale
La classificazione dei dipendenti ISTAT (studio di caso)
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT4 06/11/2008
Data Warehouse Overview
Cosa è un Data Warehouse?
Il flusso dei dati
Data base
OLAP (On-Line Analytical Processing)
ETL (Extract Transform and Load)
Data Mining
Sistema di Reportistica
Progettazione del Data Warehouse
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT5 06/11/2008
Cosa è un Data Warehouse? (1/2)Un data warehouse è una base di daticontenente dati storici integratagestita fuori lineausata per il supporto alle decisioni direzionali
Obiettivi di un data warehouserendere l’informazioneaccessibileconsistenteaffidabilesicurausabile per il supporto alle decisioni
Corporate data (active)
Off-line data (archived)
External data Data Warehouse
BI SystemsInformational Applications
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT6 06/11/2008
Cosa è un Data Warehouse? (2/2)Tre possibili tipi
Data Source
Management Information System“Virtual” Data Warehouse
Data Source
One-tier Data WarehouseData Marts or departmental solutions
Data Source
Two-tier DWCorporate Data Warehousing
Data Warehouse Enviroment
Central DW Data Marts
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT7 06/11/2008
Il Flusso dei Dati
Central DataWarehouse
Data MartData MartData MartData MartData Mart
Sorgenti EsterneBasi di dati Operazionali
ETL1
ETL2 ReportsCentral DataWarehouse
Data MartData MartData MartData MartData MartData
Gli ETL1 estraggono i dati dalle sorgenti esterne (OLTP, file etc), quindi trasformano tali dati integrandoli, consolidandoli e pulendoli da informazioni spurie. Nell’ultimo step gli ETL1 caricano i dati appena trasformati nel Central Data Warehouse database.
Gli ETL2 estraggono i dati dal Central Data Warehouse. Tali dati sono successivamente trasformati e caricati nei Data Mart database.
I Reports sono i sorgenti delle informazioni per le applicazione di supporto alle decisioni.Questi prendono i dati on-demand dai Data Mart.
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT8 06/11/2008
Data base (1/2)Il DW è formato, generalmente, da tre Tipi di Database
Stage – ricalca la struttura delle sorgenti esterne, contiene strutture e metadati per il controllo delle estrazioni dei dati
CDW – contiene la completezza dei dati storici, metadati e strutture di controllo; è in terza forma normale
Mart – contiene un sottoinsieme dei dati del CDW, la sua architettura è a Star Schema con modellazione dimensionale
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT9 06/11/2008
Data base (2/2)
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT10 06/11/2008
OLAP (On-Line Analytical Processing)OLAP (On-Line Analytical Processing) è l’attività di interrogazione e presentazione dei dati di un Data Warehouse in uno stile dimensionale.
Esistono tre tipologie di sistemi OLAP:Multidimensionale MOLAP: Multidimensional OLAPRelazionale ROLAP: Relational OLAPIbrido HOLAP: Hybrid OLAP
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT11 06/11/2008
ETL (Extract Transform and Load)ETL1
ETL2
FASE 1FASE 2
FASE 1
FASE 1
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT12 06/11/2008
Data MiningEstrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire schemi, detti pattern, significativi.
Tra le tecniche maggiormente utilizzate in questo ambito vi sono:Clustering;Reti neurali;Alberi di decisione;Analisi delle associazioni
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT13 06/11/2008
Sistema di Reportistica
L'obiettivo di un Sistema di Reportistica è quello di fornire documentazione analitica e “sistemi per il supporto alle decisioni" (Decision Support Systems o DSS).
Funzionalità in aggiunta ai report “standard”:Report con tecnologia OLAPAnalisi di tipo tradizionale statistico Rappresentazione con GISBalanced scorecard (BSC)Dashboard
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT14 06/11/2008
Progettazione del Data Warehouse
La progettazione del data warehouse avviene su tre step paralleli
A. progettazione dei dati progettazione logica (data base e cubi) del data warehouse progettazione fisica dei data base Progettazione procedure di ETL
A. progettazione tecnologica progettazione dell’architettura del data warehouse scelta e installazione di prodotti
A. progettazione delle applicazioni di business intelligence specifica delle applicazioni sviluppo delle applicazioni
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT15 06/11/2008
Agenda
Data Warehouse Overview
La Suite Pentaho
Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale
La classificazione dei dipendenti ISTAT (studio di caso)
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT16 06/11/2008
La Suite
Pentaho Business Intelligence Platform
Strumenti di Analisi
Report e Cruscotti
Strumenti di Integrazione dei Dati
Strumenti per il Data Mining
Link
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT17 06/11/2008
Pentaho Business Intelligence Platform
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT18 06/11/2008
Strumenti di Analisi
Mondrian è un OLAP server (ROLAP) scritto in Java.
Prodotti disponibili: Aggregation Designer 1.0 RC1 Mondrian 3.0.4
Mondrian è usato per: Esplorazione dei dati di tipo "Dimensionale“ Parsing di espressioni nel linguaggio Multi-Dimensional eXpression
(MDX) e conversione in Structured Query Language (SQL) per recuperare i risultati delle queries dimensionali
Espressioni calcolate in MDX Api
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT19 06/11/2008
Report e Cruscotti
Pentaho Reporting è una collezione di progetti open focalizzati alla creazione, generazione e distribuzione di reportProdotti disponibili:Pentaho Design Studio 2.0 RC1Pentaho Classic-Reporting Engine 0.8.9.9
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT20 06/11/2008
Strumenti di Integrazione dei Dati
Kettle Pentaho Data Integration è un tool per sviluppare ETLLa versione disponibile è:Data Integration 3.1.0 GA. Maggiori Caratteristiche: Si connette ad una vasta varietà di DB, flat file, file in formato xml, excel e web
services. GUI e toolbar facili da apprendere e da usare per progettare sia processi sia flussi di
dati. Debugger integrato.
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT21 06/11/2008
ETL Tools Comparison (Jonathan Levin)
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT22 06/11/2008
Strumenti per il Data Mining
Pentaho Data Mining, è basato su Weka project.
La versione attualmente utilizzabile è:Weka 3.5.8
È un insieme di tool per “machine learning” e data mining,
di algoritmi di clustering, classificazione, regressione e regole di associazione.
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT23 06/11/2008
Link
http://wiki.pentaho.com/
http://community.pentaho.com/faq/
http://forums.pentaho.org/
http://www.pentaho.com/
http://sourceforge.net/
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT24 06/11/2008
Agenda
Data Warehouse Overview
La Suite Pentaho
Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale
La classificazione dei dipendenti ISTAT (studio di caso)
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT25 06/11/2008
Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale
Eclipse
Librerie di Mondrian / JPivot
web.xml
Codice java
Cubi
report
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT26 06/11/2008
Eclipse
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT27 06/11/2008
Librerie di Mondrian / JPivot
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT28 06/11/2008
Librerie di Mondrian / JPivot
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT29 06/11/2008
web.xml
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT30 06/11/2008
Codice java
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT31 06/11/2008
Codice java
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT32 06/11/2008
Cubi
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT33 06/11/2008
Cubi
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT34 06/11/2008
Report
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT35 06/11/2008
Agenda
Data Warehouse Overview
La Suite Pentaho
Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale
La classificazione dei dipendenti ISTAT (studio di caso)
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT36 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Home Page dell’applicazione
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT37 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT38 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT39 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT40 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT41 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT42 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT43 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT44 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT45 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT46 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT47 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT48 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT49 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT50 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT51 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT52 06/11/2008
La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT53 06/11/2008
References:Data Warehouse
Ralph Kimball, Laura Reeves, Margy Ross, Warren Thornthwaite, The Data
Warehouse Lifecycle Toolkit, John Wiley & Sons, 1998
Ralph Kimball, Margy Ross, The Data Warehouse Toolkit: The Complete Guide
To Dimensional Modeling (second edition), John Wiley & Sons, 2002 - in
italiano, Data Warehouse: La guida completa, Hoepli, 2002
Pentaho
http://www.pentaho.com/
Applicazione Demo
http://austria2:8095/ISTAT20081106
DPTS | DCMT / 1
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT54 06/11/2008
Contacts:
Q / A
email: [email protected]: 06 4674.2722
Il presente materiale è distribuito con la licenza CreativeCommons “Attribuzione - Non commerciale - Condividi allostesso modo - 2.5 Italia”, reperibile presso il seguente sito
Internet: http://creativecommons.org/licenses/by-nc-sa/2.5/it/.