Pentaho: una soluzione Open per la progettazione e ... · ISTAT – Istituto Nazionale di...

54
ISTAT – Istituto Nazionale di Statistica DPTS - DCMT/1 06/11/2008 Mariano Crea Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse

Transcript of Pentaho: una soluzione Open per la progettazione e ... · ISTAT – Istituto Nazionale di...

ISTAT – Istituto Nazionale di Statistica

DPTS - DCMT/1

06/11/2008

Mariano Crea

Pentaho: una soluzione Open

per la progettazione e sviluppo di

Data Warehouse

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT2 06/11/2008

Agenda

Data Warehouse Overview

La Suite Pentaho

Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale

La classificazione dei dipendenti ISTAT (studio di caso)

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT3 06/11/2008

Agenda

Data Warehouse Overview

La Suite Pentaho

Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale

La classificazione dei dipendenti ISTAT (studio di caso)

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT4 06/11/2008

Data Warehouse Overview

Cosa è un Data Warehouse?

Il flusso dei dati

Data base

OLAP (On-Line Analytical Processing)

ETL (Extract Transform and Load)

Data Mining

Sistema di Reportistica

Progettazione del Data Warehouse

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT5 06/11/2008

Cosa è un Data Warehouse? (1/2)Un data warehouse è una base di daticontenente dati storici integratagestita fuori lineausata per il supporto alle decisioni direzionali

Obiettivi di un data warehouserendere l’informazioneaccessibileconsistenteaffidabilesicurausabile per il supporto alle decisioni

Corporate data (active)

Off-line data (archived)

External data Data Warehouse

BI SystemsInformational Applications

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT6 06/11/2008

Cosa è un Data Warehouse? (2/2)Tre possibili tipi

Data Source

Management Information System“Virtual” Data Warehouse

Data Source

One-tier Data WarehouseData Marts or departmental solutions

Data Source

Two-tier DWCorporate Data Warehousing

Data Warehouse Enviroment

Central DW Data Marts

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT7 06/11/2008

Il Flusso dei Dati

Central DataWarehouse

Data MartData MartData MartData MartData Mart

Sorgenti EsterneBasi di dati Operazionali

ETL1

ETL2 ReportsCentral DataWarehouse

Data MartData MartData MartData MartData MartData

Gli ETL1 estraggono i dati dalle sorgenti esterne (OLTP, file etc), quindi trasformano tali dati integrandoli, consolidandoli e pulendoli da informazioni spurie. Nell’ultimo step gli ETL1 caricano i dati appena trasformati nel Central Data Warehouse database.

Gli ETL2 estraggono i dati dal Central Data Warehouse. Tali dati sono successivamente trasformati e caricati nei Data Mart database.

I Reports sono i sorgenti delle informazioni per le applicazione di supporto alle decisioni.Questi prendono i dati on-demand dai Data Mart.

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT8 06/11/2008

Data base (1/2)Il DW è formato, generalmente, da tre Tipi di Database

Stage – ricalca la struttura delle sorgenti esterne, contiene strutture e metadati per il controllo delle estrazioni dei dati

CDW – contiene la completezza dei dati storici, metadati e strutture di controllo; è in terza forma normale

Mart – contiene un sottoinsieme dei dati del CDW, la sua architettura è a Star Schema con modellazione dimensionale

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT9 06/11/2008

Data base (2/2)

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT10 06/11/2008

OLAP (On-Line Analytical Processing)OLAP (On-Line Analytical Processing) è l’attività di interrogazione e presentazione dei dati di un Data Warehouse in uno stile dimensionale.

Esistono tre tipologie di sistemi OLAP:Multidimensionale MOLAP: Multidimensional OLAPRelazionale ROLAP: Relational OLAPIbrido HOLAP: Hybrid OLAP

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT11 06/11/2008

ETL (Extract Transform and Load)ETL1

ETL2

FASE 1FASE 2

FASE 1

FASE 1

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT12 06/11/2008

Data MiningEstrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire schemi, detti pattern, significativi.

Tra le tecniche maggiormente utilizzate in questo ambito vi sono:Clustering;Reti neurali;Alberi di decisione;Analisi delle associazioni

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT13 06/11/2008

Sistema di Reportistica

L'obiettivo di un Sistema di Reportistica è quello di fornire documentazione analitica e “sistemi per il supporto alle decisioni" (Decision Support Systems o DSS).

Funzionalità in aggiunta ai report “standard”:Report con tecnologia OLAPAnalisi di tipo tradizionale statistico Rappresentazione con GISBalanced scorecard (BSC)Dashboard

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT14 06/11/2008

Progettazione del Data Warehouse

La progettazione del data warehouse avviene su tre step paralleli

A. progettazione dei dati progettazione logica (data base e cubi) del data warehouse progettazione fisica dei data base Progettazione procedure di ETL

A. progettazione tecnologica progettazione dell’architettura del data warehouse scelta e installazione di prodotti

A. progettazione delle applicazioni di business intelligence specifica delle applicazioni sviluppo delle applicazioni

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT15 06/11/2008

Agenda

Data Warehouse Overview

La Suite Pentaho

Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale

La classificazione dei dipendenti ISTAT (studio di caso)

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT16 06/11/2008

La Suite

Pentaho Business Intelligence Platform

Strumenti di Analisi

Report e Cruscotti

Strumenti di Integrazione dei Dati

Strumenti per il Data Mining

Link

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT17 06/11/2008

Pentaho Business Intelligence Platform

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT18 06/11/2008

Strumenti di Analisi

Mondrian è un OLAP server (ROLAP) scritto in Java.

Prodotti disponibili: Aggregation Designer 1.0 RC1 Mondrian 3.0.4

Mondrian è usato per: Esplorazione dei dati di tipo "Dimensionale“ Parsing di espressioni nel linguaggio Multi-Dimensional eXpression

(MDX) e conversione in Structured Query Language (SQL) per recuperare i risultati delle queries dimensionali

Espressioni calcolate in MDX Api

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT19 06/11/2008

Report e Cruscotti

Pentaho Reporting è una collezione di progetti open focalizzati alla creazione, generazione e distribuzione di reportProdotti disponibili:Pentaho Design Studio 2.0 RC1Pentaho Classic-Reporting Engine 0.8.9.9

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT20 06/11/2008

Strumenti di Integrazione dei Dati

Kettle Pentaho Data Integration è un tool per sviluppare ETLLa versione disponibile è:Data Integration 3.1.0 GA. Maggiori Caratteristiche: Si connette ad una vasta varietà di DB, flat file, file in formato xml, excel e web

services. GUI e toolbar facili da apprendere e da usare per progettare sia processi sia flussi di

dati. Debugger integrato.

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT21 06/11/2008

ETL Tools Comparison (Jonathan Levin)

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT22 06/11/2008

Strumenti per il Data Mining

Pentaho Data Mining, è basato su Weka project.

La versione attualmente utilizzabile è:Weka 3.5.8

È un insieme di tool per “machine learning” e data mining,

di algoritmi di clustering, classificazione, regressione e regole di associazione.

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT23 06/11/2008

Link

http://wiki.pentaho.com/

http://community.pentaho.com/faq/

http://forums.pentaho.org/

http://www.pentaho.com/

http://sourceforge.net/

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT24 06/11/2008

Agenda

Data Warehouse Overview

La Suite Pentaho

Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale

La classificazione dei dipendenti ISTAT (studio di caso)

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT25 06/11/2008

Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale

Eclipse

Librerie di Mondrian / JPivot

web.xml

Codice java

Cubi

report

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT26 06/11/2008

Eclipse

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT27 06/11/2008

Librerie di Mondrian / JPivot

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT28 06/11/2008

Librerie di Mondrian / JPivot

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT29 06/11/2008

web.xml

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT30 06/11/2008

Codice java

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT31 06/11/2008

Codice java

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT32 06/11/2008

Cubi

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT33 06/11/2008

Cubi

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT34 06/11/2008

Report

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT35 06/11/2008

Agenda

Data Warehouse Overview

La Suite Pentaho

Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale

La classificazione dei dipendenti ISTAT (studio di caso)

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT36 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Home Page dell’applicazione

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT37 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT38 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT39 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT40 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT41 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT42 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT43 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT44 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT45 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT46 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT47 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT48 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT49 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT50 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT51 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT52 06/11/2008

La classificazione dei dipendenti ISTAT (studio di caso)Applicazione di Analisi Multidimensionale mediante Pentaho

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT53 06/11/2008

References:Data Warehouse

Ralph Kimball, Laura Reeves, Margy Ross, Warren Thornthwaite, The Data

Warehouse Lifecycle Toolkit, John Wiley & Sons, 1998

Ralph Kimball, Margy Ross, The Data Warehouse Toolkit: The Complete Guide

To Dimensional Modeling (second edition), John Wiley & Sons, 2002 - in

italiano, Data Warehouse: La guida completa, Hoepli, 2002

Pentaho

http://www.pentaho.com/

Applicazione Demo

http://austria2:8095/ISTAT20081106

DPTS | DCMT / 1

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse ISTAT54 06/11/2008

Contacts:

Q / A

email: [email protected]: 06 4674.2722

Il presente materiale è distribuito con la licenza CreativeCommons “Attribuzione - Non commerciale - Condividi allostesso modo - 2.5 Italia”, reperibile presso il seguente sito

Internet: http://creativecommons.org/licenses/by-nc-sa/2.5/it/.