20120419 business intelligence ed analisi multidimensionale dei dati

25
Raffaele Perrotta Ingegnere dell’informazione P.IVA 01182640308 iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected] bi ed analisi multidimensionale dei dati.docx 1/25 autore: ing. R. Perrotta Business Intelligence e Analisi multidimensionale dei dati Premessa I sistemi gestionali d’impresa stanno evolvendo sotto la spinta dei sistemi per la qualità verso normative che dettano i criteri per la corretta conduzione degli affari nel contesto ampio dell’economia, della società e dell’ambiente in cui operano. Il fenomeno è diffuso in tutto il mondo e si assiste ad un continuo fiorire di ricerche, iniziative e imprese che si impegnano a definire tali criteri ed a proporre modelli organizzativi e strumenti di gestione, che ne consentano l’applicazione. In campo europeo “i l libro verde della Commissione Europea del 2001 1 identifica chiaramente i fattori che giustificano l’adozione di norme gestionali orientate a obiettivi di qualità in tutte le innumerevoli relazioni d’affari. Il fattore fondamentale è quello di assicurare all’impresa la capacità di produrre reddito nel lungo periodo, adattandosi ed evolvendo sotto la spinta della competizione e della trasformazione dei mercati a livello globale. Gli altri fattori sono da identificare principalmente nei “criteri sociali che influiscono sempre più sulle decisioni di investimento degli individui o delle istituzioni, sia in quanto consumatori che in quanto investitori; nelle inquietudini crescenti suscitate dal deterioramento dell’ambiente provocato dall’attività economica e nella trasparenza arrecata dai mezzi di comunicazione e dalle tecnologie moderne dell’informazione e della comunicazione nell’attività delle imprese”. Altro fattore importante è il mantenimento della buona reputazione dell’impresa, che può soffrire per le critiche formulate nei riguardi delle sue prassi commerciali e si riflette direttamente sul valore del suo marchio e la sua immagine. L’impresa che vuole mantenere nel tempo il suo successo non può più accontentarsi di soddisfare le esigenze esplicite ed implicite dei propri clienti, come prospettato dai sistemi di gestione per la qualità, standardizzati nelle norme ISO 9000:2000, ma deve cercare di soddisfare anche le aspettative di tutte le altri parti interessate, o “stakeholder”: investitori, banche, fornitori, dipendenti, collaboratori, comunità, pubblica amministrazione, ambiente. In particolare deve dimostrare di svolgere un ruolo positivo nella comunità in cui opera, recependo e attuando correttamente le politiche di sviluppo a livello locale, nazionale ed internazionale. Da queste considerazioni deriva la definizione di Responsabilità Sociale d'Impresa (o Corporate Social Responsibility CSR, per usare la definizione e l’acronimo angloamericano) data nel Libro verde, in cui si afferma che “è l'integrazione volontaria, da parte delle imprese, delle preoccupazioni sociali ed ambientali nelle loro operazioni commerciali e nei loro rapporti con le parti interessate”. Questo concetto si collega strettamente con quello di “sostenibilità”, che si declina principalmente in tre dimensioni 2 : “la sostenibilità economica, intesa come capacità di generare reddito, profitti e lavoro; la sostenibilità sociale, intesa come capacità di garantire condizioni di benessere e opportunità di crescita equamente distribuite e come capacità di rispettare i diritti umani e del lavoro; 1 Libro verde “Promuovere un quadro europeo per la responsabilità sociale delle imprese” – COM (2001) 366 2 Dino Bogazzi, Direttore Qualità e organizzazione del Consorzio Cooperative Costruzioni, Presidente del Settore Costruzioni Civili dell’AICQ, Vicepresidente ICIC - Istituto Certificazione Imprese di Costruzione - Responsabilità sociale: Bilancio di Sostenibilità Rivista AICQ marzo-aprile 2007

description

Lezione sulla Business Intelligence (Analytics) e sull'analisi multidimesionale dei dati per i candidati all'Esame di Stato per l'abilitazione alla professione di Ingegnere dell'Informazione 2012.

Transcript of 20120419 business intelligence ed analisi multidimensionale dei dati

Page 1: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 1/25 autore: ing. R. Perrotta

Business Intelligence e Analisi multidimensionale dei dati

Premessa I sistemi gestionali d’impresa stanno evolvendo sotto la spinta dei sistemi per la qualità verso normative che dettano i criteri per la corretta conduzione degli affari nel contesto ampio dell’economia, della società e dell’ambiente in cui operano. Il fenomeno è diffuso in tutto il mondo e si assiste ad un continuo fiorire di ricerche, iniziative e imprese che si impegnano a definire tali criteri ed a proporre modelli organizzativi e strumenti di gestione, che ne consentano l’applicazione. In campo europeo “il libro verde della Commissione Europea del 20011 identifica chiaramente i fattori che giustificano l’adozione di norme gestionali orientate a obiettivi di qualità in tutte le innumerevoli relazioni d’affari. Il fattore fondamentale è quello di assicurare all’impresa la capacità di produrre reddito nel lungo periodo, adattandosi ed evolvendo sotto la spinta della competizione e della trasformazione dei mercati a livello globale. Gli altri fattori sono da identificare principalmente nei “criteri sociali che influiscono sempre più sulle decisioni di investimento degli individui o delle istituzioni, sia in quanto consumatori che in quanto investitori; nelle inquietudini crescenti suscitate dal deterioramento dell’ambiente provocato dall’attività economica e nella trasparenza arrecata dai mezzi di comunicazione e dalle tecnologie moderne dell’informazione e della comunicazione nell’attività delle imprese”. Altro fattore importante è il mantenimento della buona reputazione dell’impresa, che può soffrire per le critiche formulate nei riguardi delle sue prassi commerciali e si riflette direttamente sul valore del suo marchio e la sua immagine. L’impresa che vuole mantenere nel tempo il suo successo non può più accontentarsi di soddisfare le esigenze esplicite ed implicite dei propri clienti, come prospettato dai sistemi di gestione per la qualità, standardizzati nelle norme ISO 9000:2000, ma deve cercare di soddisfare anche le aspettative di tutte le altri parti interessate, o “stakeholder”: investitori, banche, fornitori, dipendenti, collaboratori, comunità, pubblica amministrazione, ambiente. In particolare deve dimostrare di svolgere un ruolo positivo nella comunità in cui opera, recependo e attuando correttamente le politiche di sviluppo a livello locale, nazionale ed internazionale. Da queste considerazioni deriva la definizione di Responsabilità Sociale d'Impresa (o Corporate Social Responsibility – CSR, per usare la definizione e l’acronimo angloamericano) data nel Libro verde, in cui si afferma che “è l'integrazione volontaria, da parte delle imprese, delle preoccupazioni sociali ed ambientali nelle loro operazioni commerciali e nei loro rapporti con le parti interessate”. Questo concetto si collega strettamente con quello di “sostenibilità”, che si declina principalmente in tre dimensioni2:

“la sostenibilità economica, intesa come capacità di generare reddito, profitti e lavoro;

la sostenibilità sociale, intesa come capacità di garantire condizioni di benessere e opportunità di crescita equamente distribuite e come capacità di rispettare i diritti umani e del lavoro;

1 Libro verde “Promuovere un quadro europeo per la responsabilità sociale delle imprese” – COM (2001)

366

2 Dino Bogazzi, Direttore Qualità e organizzazione del Consorzio Cooperative Costruzioni, Presidente del

Settore Costruzioni Civili dell’AICQ, Vicepresidente ICIC - Istituto Certificazione Imprese di Costruzione -

Responsabilità sociale: Bilancio di Sostenibilità – Rivista AICQ marzo-aprile 2007

Page 2: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 2/25 autore: ing. R. Perrotta

la sostenibilità ambientale, intesa come capacità di salvaguardare le risorse naturali e la possibilità dell'ecosistema di assorbire e tollerare gli impatti diretti ed indiretti generati dall'attività produttiva”.

Rendere conto dell’impegno e dei risultati ottenuti dall’impresa nel perseguimento dei suoi obiettivi economici, sociali ed ambientali comporta un ampliamento dei suoi documenti di Bilancio da quello puramente Economico-Patrimoniale a quello Sociale. Questo aspetto implica un notevole impegno da parte dell’alta direzione nell’impostazione e attuazione di un sistema gestionale che identifichi tutte le parti interessate alle proprie attività (i famosi “stakeholder”), gli indicatori di risultato degli obiettivi e le politiche che consentano di perseguire tali obiettivi. Inoltre, è necessario sviluppare un sistema informativo che consenta di raccogliere tutti i dati e misurare gli indicatori di risultato in modo da redigere il Bilancio Sociale in modo esauriente e credibile e darne informazione agli interessati. Occorre quindi entrare in contatto con tutte le parti che usufruiscono dei prodotti e servizi dell’impresa o che comunque influiscono a vario titolo sul suo successo, rilevarne le esigenze, prospettare attività che concorrano alla crescita economica, alla coesione sociale ed alla tutela dell’ambiente in modo efficace e convincente e rendicontare i risultati di tale attività nella prospettiva di un miglioramento continuo”

3.

Definizione di Business Intelligence Raccogliere, riepilogare, interpretare, documentare, diffondere le informazioni sui propri affari comporta

un’attività di “intelligence”, cioè di servizio informativo, che, essendo orientata agli affari ed alla gestione

aziendale, è detta propriamente di “Business Intelligence” (BI), che potremmo tradurre come “servizio

informativo sulla gestione aziendale”.

Il termine “Business Intelligence” è stato coniato da Howard Dresner, nei

primi anni ’90, quando era Vice Presidente di Gartner Group e

responsabile dell’area di ricerca in questo campo. Attualmente Dresner è

Chief Research Officer della società indipendente di consulenza da lui

fondata, Dresner Advisory Services, ed è riconosciuto come un’autorità

nelle aree della BI e del BPM - Business Performance Management

(Gestione delle prestazioni aziendali) (http://howarddresner.com/ ).

Da un primo punto di vista la Business Intelligence può essere assimilata

ad una forma di controllo di gestione o di gestione delle prestazioni,

essendo orientata alla rilevazione e valutazione dei principali indicatori

strategici aziendali (KPI – Key Performance Indicator). Tuttavia, valutare

le prestazioni significa avere l’occhio rivolto al passato, cioè alla

valutazione dei risultati ottenuti con le azioni manageriali impostate,

decise ed attuate nel periodo precedente alla data in cui si valuta, e non

dice nulla sul presente e sul futuro. La Business Intelligence, invece, può

rispondere anche a queste esigenze: può dare informazioni sulla struttura del proprio modello di business

e sullo stato degli affari; può cercare di esplicitare, estraendole dalla base dati del sistema informativo

3 Ing. R. Perrotta – La responsabilità sociale d’impresa – Bollettino del Governatore Rotary 2060 - ____

2010

Figura 1 - Howard Dresner

Page 3: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 3/25 autore: ing. R. Perrotta

aziendale, informazioni nascoste o implicite e produrre nuove conoscenze su tali modelli o suggerirne di

nuovi; può studiare l’andamento storico degli indicatori per rilevare tendenze e formulare previsioni sui

loro andamenti futuri.

Consegue che la Business Intelligence può essere definita in generale come il processo per esplorare e

analizzare informazioni strutturate e non strutturate, specifiche di un dominio, per valutare prestazioni e

rilevare modelli e tendenze di business da cui derivare interpretazioni, trarre conclusioni e prendere

decisioni. Tali domini comprendono clienti, fornitori, prodotti, servizi, concorrenti ed, in genere, tutti gli

stakeholder aziendali. Storicamente la BI ha trattato i dati strutturati, ma negli ultimi anni la ricerca e le

applicazioni hanno esteso il loro campo anche alle informazioni non strutturate.

Architettura dei sistemi di BI – Data Warehouse Il sistema informatico a supporto della BI è detto “Data Warehouse” (DW) (magazzino dei dati). Spesso i

due termini si confondono e si include nel significato di BI anche il riferimento alla tecnologia di supporto.

Il primo professionista che ha parlato esplicitamente

di data warehouse è stato William H. Inmon, che lo

ha definito come una raccolta di dati integrata,

orientata al soggetto, variabile nel tempo e non

volatile di supporto ai processi decisionali. A suo

modo di vedere, l'integrazione dei dati costituisce la

principale caratteristica distintiva del DW rispetto ad

altri sistemi di supporto alle decisioni.

Un altro importante professionista, considerato

pioniere del Data Warehouse accanto ad Inmon, è

Ralph Kimball.

L’architettura caratteristica del Data Warehouse prevede, in genere, che i dati vengano estratti da varie

fonti esterne, costituite dai sistemi informatici che gestiscono le transazioni operative (Operational

Applications), raccolti in un’area di trasformazione (DW Staging Area), caricati nel Data Warehouse vero e

proprio ed infine trasferiti ad un insieme di “Data Mart” (fiere dei dati specializzate, tramite cui i dati

vengono diffusi agli utenti finali), riferiti ai vari domini di interesse per gli analisti. I dati vengono copiati da

un data base all’altro usando una tecnologia denominata genericamente ETL (Extract, Transform, Load)

(Estrai, Trasforma, Carica)4.

4 http://data-warehouses.net

Figura 3 - Ralph Kimball (1944)

Figura 2 - William H. Inmon (San Diego, 20 luglio 1945)

Page 4: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 4/25 autore: ing. R. Perrotta

Figura 4 - Tipica architettura Data Warehouse

Applicazioni operative (Operational Applications)

La ragione principale per cui le organizzazioni hanno bisogno di creare dei DW è che i loro dati sono

dispersi e frammentati in una molteplicità di sistemi, che utilizzano sistemi operativi e piattaforme

applicative diverse in varie postazioni fisiche.

Alcune informazioni risiedono sui sistemi gestionali aziendali, che presiedono, ad esempio, alla gestione di

Contabilità, Fatturazione, Vendite, Magazzino, Produzione, altre su sistemi dipartimentali quali Qualità,

Risorse Umane, Schedulazione della Produzione, altre su sistemi remoti in outsourcing quali Paghe, SCM

(Supply Chain Management - Gestione della catena di distribuzione), siti di e-commerce. Ogni sistema

gestisce i dati di dettaglio della propria area applicativa, indipendentemente dagli altri; a volte gli stessi dati

vengono trattati in modo ridondante su diversi sistemi, generando problemi di coerenza per effetto di

diversi metodi di trattamento, diverse fonti informative e diverse periodicità di elaborazione (ad esempio

anagrafiche, listini, dati contabili dipartimentali, valutazioni di prestazione); spesso è difficile raccogliere e

visualizzare tutte le informazioni sulla gestione aziendale per prendere le decisioni in tempo utile.

Inoltre, i sistemi informatici per la gestione delle singole transazioni operative non sono progettati in

genere per fornire informazioni rapide sugli indicatori sintetici di risultato che interessano alla direzione ed

agli analisti.

La sfida per il Data Warehousing è di poter consolidare rapidamente, pulire ed integrare dati originati da

svariati data base multipli che girano su piattaforme tecniche diverse in postazioni geografiche differenti.

Processi ETL

Il software ETL è un componente importante dell’architettura, che interconnette i vari data base nelle

diverse fasi del processo di generazione del DW.

Page 5: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 5/25 autore: ing. R. Perrotta

Serve ad estrarre i dati, trasformare i valori di dati incoerenti, pulire, filtrare e caricare i dati nei data base

di destinazione. La schedulazione dei processi ETL deve essere pianificata con accuratezza, essendo

un’attività critica da eseguire in modo coordinato e completo.

Area di trasformazione

L’area di trasformazione (DW Staging Area) è una locazione temporanea in cui vengono copiati i dati dai

sistemi di origine. L’esigenza di quest’area deriva essenzialmente dalla necessità di coordinare i processi

asincroni di estrazione dei dati e renderli tutti disponibili prima dell’inizio della fase di trasformazione.

Ad esempio, potrebbe essere ragionevole estrarre i dati di vendita su base giornaliera, mentre questa

periodicità potrebbe non essere adatta ai dati finanziari, che vengono riconciliati su base mensile.

Analogamente, in un’azienda globalizzata, potrebbe non essere possibile estrarre contemporaneamente i

dati di vendita di filiali che risiedono in continenti diversi con diversi fusi orari.

Alcuni dati del DW possono essere persistenti, soprattutto se si tratta di dati storici, mentre altri possono

essere volatili, se rimangono in vita solo per un breve periodo di tempo.

L’area di trasformazione, tuttavia, non è sempre presente nell’architettura, in quanto a volte i dati vengono

estratti direttamente verso il DW, soprattutto in ambienti in cui siano installati sistemi ERP integrati ed il

fenomeno della frammentazione dipartimentale e geografica sia ridotto.

Data Warehouse

Lo scopo del data base detto propriamente “DW” è di integrare tutti i dati aziendali o dell’organizzazione.

Contiene i “veri5” dati aziendali, che sono stati costruiti attentamente a partire dai vari sistemi gestionali

interni ed esterni all’organizzazione stessa.

La quantità di dati presenti nel DW è di norma massiccia. Essi sono accumulati ad un livello di dettaglio

granulare. Ad esempio, ogni vendita viene registrata e correlata alle dimensioni di classificazione e analisi

che interessano. Ciò consente di riepilogare, raggruppare e correlare i dati in molteplici modi, spesso

inimmaginabili.

Contrariamente a quanto si possa credere, il DW non contiene tutti i dati dell’organizzazione. Il suo scopo è

infatti quello di fornire le metriche chiave che sono necessarie all’organizzazione per le sue decisioni

tattiche e strategiche.

Gli analisti ed i dirigenti che debbono prendere le decisioni non accedono direttamente al DW, ma tramite

vari strumenti di interfaccia (front-end tools) che leggono i dati da specifici Data Mart specializzati per

dominio o argomento applicativo.

5 Il tema della “verità” dei dati o del loro “grado di verità” è ampiamente dibattuto nel campo del Data

Warehousing.

Page 6: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 6/25 autore: ing. R. Perrotta

La struttura del DW può essere “relazionale” oppure “dimensionale” a seconda di come l’organizzazione

intenda usare le informazioni. La discussione di questo aspetto verrà approfondita nei paragrafi successivi.

Data Mart

I Data Mart vengono popolati estraendo i dati dal DW a beneficio dei vari gruppi di decisori

dell’organizzazione.

Ogni Data Mart contiene combinazioni differenti di tabelle, colonne e righe estratte dal DW generale. Ad

esempio, un’unità organizzativa o un gruppo di utenti che non ha bisogno dei dati storici potrebbe chiedere

di inserire nel Data Mart solo le transazioni dell’anno corrente; oppure l’Ufficio del Personale potrebbe

aver bisogno di vedere tutti i dettagli dei dipendenti, mentre i dati della paga o dell’indirizzo potrebbero

non interessare gli analisti del Data Mart delle vendite.

Infine, alcuni Data Mart potrebbero richiedere un aggiornamento giornaliero, mentre altri potrebbero

essere aggiornati solo mensilmente.

Tecnologia di accesso ai DW – OLAP La tecnologia di accesso ai dati, caratteristica dei DW e della BI, è denominata OLAP - OnLine Analytical

Processing perché è orientata in modo specifico all’elaborazione di registrazioni ed interrogazioni per

l’analisi dei dati aziendali. Essa risponde alle esigenze degli analisti di BI, che sono essenzialmente le

seguenti:

ottenere risposte rapide e coerenti ad interrogazioni basate su data base di ampie dimensioni;

usare strumenti facili ed intuitivi per l’interrogazione e l’analisi, che consentano di:

o esaminare i dati aziendali in forma riepilogata, rispetto a varie dimensioni di analisi,

correlabili in modo dinamico, con la possibilità anche di:

o esaminare i dati di dettaglio, che generano tali dati riepilogati.

Questa tecnologia, per certi versi, si contrappone a quella orientata all’elaborazione delle transazioni,

denominata OLTP – OnLine Transaction Processing, che è tipica dei sistemi gestionali operativi per

applicazioni di inserimento di documenti (data entry) e ricerca e reperimento di dati o interrogazioni

operative e gestionali (data retrieval). È possibile ottenere informazioni a supporto delle decisioni e delle

analisi dei dati aziendali anche con la tecnologia OLTP, ma, soprattutto nel caso di grandi basi dati, questa è

meno efficiente dell’OLAP. Quest’ultima d’altra parte è particolarmente efficiente quando venga

implementata su data base di tipo dimensionale anziché relazionale. Per comprendere meglio queste

affermazioni conviene riprendere i concetti fondamentali dei modelli di strutturazione dei dati

“relazionale” e “dimensionale” ed esaminarne le caratteristiche rispetto alle esigenze della BI.

Page 7: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 7/25 autore: ing. R. Perrotta

Dal punto di vista storico i due modelli sono stati teorizzati da Edgar Frank

(Ted) Codd6. I primi studi risalgono agli anni ‘60-’70 del secolo scorso; la

consacrazione del modello relazionale risale agli inizi degli anni ‘80, quella

del modello dimensionale agli inizi degli anni ‘907

Il modello relazionale8

Il modello relazionale è applicato in gran parte dei DBMS (Database

Management System) in uso per le applicazioni gestionali di tipo

transazionale e la sua conoscenza è ampiamente diffusa. In questo

paragrafo, quindi, mi limiterò solo a citare alcuni concetti fondamentali e le

caratteristiche da prendere in considerazione per il confronto con il

modello dimensionale.

La struttura fondamentale di questo modello è la “tabella”, cioè una

struttura bidimensionale costituita da righe (record, tuple) e da colonne

(attributi). La tabella è un insieme di righe, ciascuna delle quali è costituita da una combinazione di valori

degli attributi, posti in “relazione” tra loro (la tabella è una relazione). L’insieme delle tabelle costituisce il

data base.

ID Nome Cognome Luogo nascita

Data nascita

Codice fiscale Qualifica

1 Loris Degano Udine 15/05/1975 LRSDGN75E15L483O Operaio

2 Fulvio Ribis Moggio 25/04/1981 FLVRBS81D25F265K Impiegato

3 Aldo De Stalis Udine 30/05/1978 LDADTL78E30L483F Dirigente

Tabella 1 - Esempio di tabella (Anagrafica dipendenti)

Ogni riga (record) della tabella è un’“istanza” (v. Tabella 2 - Concetti base sulle tabelle) delle combinazioni

di attributi costitutive della tabella, cioè l’insieme dei valori degli attributi, che caratterizzano uno specifico

elemento della tabella considerata. Ad esempio, se consideriamo la tabella anagrafica dei Dipendenti di

un’azienda, ogni istanza si riferisce ad un particolare dipendente dell’azienda.

Per distinguere una riga da un'altra si utilizza il concetto di "chiave primaria", che è l’insieme di attributi

che si sceglie per identificare univocamente una riga della relazione.

6 Edgar Frank Codd (23 agosto 1923 – 18 aprile 2003) era uno scienziato informatico inglese che, mentre

lavorava per IBM, inventò il modello relazionale per la gestione dei data base, la base teorica per i data

base relazionali.

7 http://www.olap.com/w/index.php/Category:OLAP_History

8 Tratto da http://database.html.it/guide/lezione/1308/il-modello-relazionale/ e altri

Figura 5 - Edgar Frank Codd (23 agosto 1923 – 18 aprile 2003)

Page 8: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 8/25 autore: ing. R. Perrotta

Le tabelle di un data base vengono associate mediante le chiavi. Ad esempio, per specificare che un

dipendente dell’azienda è nato nel comune di Udine si assegnerà all’istanza del dipendente il valore

dell’attributo “Comune di nascita” costituito dalla chiave primaria dell’entità “Comuni” corrispondente ad

Udine. Tale attributo di collegamento viene denominato “chiave esterna”.

Tabella 2 - Concetti base sulle tabelle

Uno dei grandi vantaggi del modello relazionale è che è possibile operare sulle tabelle con l’algebra degli

insiemi. Tutte le manipolazioni possibili sulle tabelle sono ottenibili grazie alla combinazione di cinque soli

operatori: RESTRICT, PROJECT, TIMES, UNION e MINUS. Per comodità sono stati anche definiti tre

operatori addizionali che comunque possono essere ottenuti applicando i soli cinque operatori

fondamentali: JOIN, INTERSECT e DIVIDE. Gli operatori relazionali ricevono come argomento una tabella o

un insieme di tabelle e restituiscono una singola tabella come risultato.

Normalmente, tuttavia, l'utente non utilizza direttamente questi operatori sul database, ma interagisce

mediante l’SQL - Structured Query Language, progettato per leggere, modificare e gestire dati memorizzati

in un data base relazione (RDBMS), per creare e modificare schemi di database, per creare e gestire

strumenti di controllo ed accesso ai dati. Le istruzioni SQL vengono scomposte dal DBMS in una serie di

operazioni propriamente relazionali.

Il DBMS è in grado di effettuare ricerche di record con prestazioni elevate grazie alla definizione di “indici”.

Un indice è una struttura in cui vengono memorizzati e ordinati i valori di uno o più attributi (colonne) di

una tabella di database, associando ad essi i puntatori ai record che li contengono. Se si cerca una

determinata istanza in base al valore di un attributo indicizzato, l'indice agevola la ricerca e la rende più

Page 9: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 9/25 autore: ing. R. Perrotta

rapida rispetto a una ricerca sequenziale in tutti i record della tabella (mediante una ricerca dicotomica). Il

database utilizza l'indice in modo analogo all'indice di un libro: vi cerca un determinato valore e quindi

segue il puntatore alla pagina che contiene tale valore.

Tali indici migliorano la velocità di ricerca ed estrazione dei dati dalle tabelle, ma rallentano le operazioni di

scrittura, dal momento che comportano anche l’aggiornamento dell’indice, ed aumentano l’occupazione di

spazio su disco.

Il modello dimensionale9

A differenza del modello relazionale, il

modello dimensionale prevede che i dati

vengano memorizzati all’interno di

strutture denominate “cubi”.

Le dimensioni del cubo sono associate

con i “fatti” (detti anche “misure”) così

come, le coordinate x, y e z sono

associate ad un punto nella descrizione

cartesiana dello spazio. Nel nostro caso,

le dimensioni identificano una cella

all’interno della quale sono memorizzate

le misure. In termini relazionali, i fatti

sono in relazione uno-a-molti con le

dimensioni.

Per maggiore chiarezza, facciamo riferimento al seguente caso di studio.

La Cablaggi Forniture SpA vende cavi per cablaggi strutturati e gestisce un data base delle vendite. Le

dimensioni di analisi degli affari sono usualmente: Clienti, Prodotti e Tempo (mese, trimestre, anno, ecc.).

La quantità di vendita per un prodotto specifico (Cavo Cat5e) ad un cliente specifico (Ferrari) durante uno

specifico periodo di tempo (Agosto 2011) è una “misura”. Le dimensioni sono memorizzate in tabelle

individuali separate come lo sono i fatti; nel nostro caso la misura è la quantità di vendita. In questo modo,

la tabella dei fatti, con terminologia relazionale, è una tabella figlio delle tabelle dimensionali e lo schema

della struttura è “a stella”.

Ma qui l’analogia finisce. L’accesso alle misure con la struttura relazionale dovrebbe avvenire mediante gli

indici memorizzati nelle colonne cliente, prodotto o tempo della tabella dei fatti.

9 Tratto da: Data Warehousing and OLAP : Cube-Organized Materialized Views; Posted by Aisyah Runi on

Saturday, January 3, 2009 - http://oraclezine.blogspot.com/2009/01/data-warehousing-and-olap-

cube.html

Figura 6 - Cubo multidimensionale

Page 10: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 10/25 autore: ing. R. Perrotta

Con l’approccio dimensionale, si accede alle celle specifiche (contenenti le misure) attraverso il cubo: nel

nostro esempio, andando alla sezione che contiene il tempo (Agosto 2011); poi il prodotto (Cavo Cat5e);

ed infine il cliente (Ferrari). L’accesso ai dati viene gestito in modo inverso: nell’approccio “relazionale” si

ricerca il dato (nel nostro caso il “fatto”, la “misura”) e si decodifica la dimensione, facendo uso degli indici,

mentre nell’approccio “dimensionale” si ricercano le dimensioni, si rilevano i puntatori e, tramite le

coordinate così identificate, si individua la misura.

Il software di gestione del data base sa come andare a queste sezioni calcolando la destinazione come se

fosse in una schiera e non in una tabella, cioè mediante le coordinate e non mediante gli indici.

Ad esempio, supponiamo che le dimensioni siano organizzate nel seguente modo:

Dimensione Tempo := {'Maggio','Giugno','Luglio','Agosto'}

Dimensione Cliente := {'ENI','Pirelli','Ferrari','Telecom'}

Dimensione Prodotto := {'Cavo Fibra','Cavo Cat6e','Cavo Cat5e','Cavo Seriale'}

Per trovare la misura per Ferrari + Agosto + Cavo Cat5e il motore sviluppa la navigazione in questo modo:

1. “Agosto 2011” è il quarto elemento della schiera denominata Tempo, così va alla quarta cella della

dimensione tempo del cubo.

2. “Cavo Cat5e” è il terzo elemento della schiera Prodotto, quindi va al terzo elemento.

3. “Ferrari” è il terzo elemento della schiera Cliente, quindi va al terzo elemento.

In questo modo si arriva alla misura desiderata. Tutto viene eseguito senza ricorrere ad indici dal momento

che gli indicatori di dimensione servono come puntatori di schiera. Analogamente, se si vogliono calcolare

le vendite totali a tutti i clienti di Agosto 2011, si opera nello stesso modo appena detto, eccetto che al

passo 3 si totalizzano le misure di tutti gli elementi della schiera senza andare a nessuna cella specifica.

Nell’approccio tipico del data base relazionale, si dovrebbe fare la “join” (unione) della tabella dei “fatti”

con tutte le dimensioni. Ogni volta che si ricercano dati, occorrerebbe selezionare il singolo dato dalla

tabella dei fatti, eventualmente tramite indici, e unirlo con ogni dimensione una a una, ancora tramite

indici. Sebbene sia tecnicamente possibile, questo approccio è quasi irrealizzabile su grandi data base.

In alternativa, per evitare le strutture a cubo, si potrebbe ricorrere alle “viste”, che sono delle tabelle

generate mediante “query” sulle tabelle del data base ed evitano di eseguire “join” a richiesta. Nel caso

precedente, per rispondere a tutte le possibili combinazioni delle tre dimensioni, ognuna di quattro

elementi, occorrerebbe prevedere 4x4x4=64 viste diverse. Ognuna di queste viste dovrebbe essere

aggiornata ogniqualvolta intervenissero cambiamenti nei dati. Consegue che la creazione e la gestione di

queste viste richiederebbe un grande dispendio di spazio su disco e sarebbe molto svantaggiosa nel caso di

grandi masse di dati da analizzare su molte dimensioni.

Da quanto detto, è evidente che le strutture dimensionali sono più prossime a “parallelepipedi” che a veri

e propri cubi, dal momento che le schiere delle dimensioni possono avere ampiezze diverse, ma,

soprattutto, sono dotate in genere di più di tre dimensioni, per cui vengono anche denominate, con

linguaggio iperbolico, “ipercubi”.

Page 11: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 11/25 autore: ing. R. Perrotta

Membri delle Dimensioni 10, Gerarchie11e Formule12

A maggiore chiarimento del funzionamento dei data base dimensionali e delle loro differenze rispetto a

quelli relazionali, è opportuno rilevare che le dimensioni possono essere specificate mediante due tipi di

membri: i Membri di Dettaglio ed i Membri Aggregati. Ad esempio, nella dimensione Tempo potrebbero

essere specificati come Membri di Dettaglio i mesi (Gennaio, Febbraio, Marzo, ecc.) e come Membri

Aggregati 1° Trimestre, 2° Trimestre, ecc., dove il 1° Trimestre sarà definito come somma di Gennaio,

Febbraio e Marzo, il 2° Trimestre come somma di Aprile, Maggio, Giugno e così via. I Membri di dettaglio

sono espressi al livello minimo di granularità disponibile, mentre i Membri Aggregati sono riepiloghi di tali

dati.

Una volta definiti i Membri di una Dimensione, la Gerarchia di questi Membri deve essere definita a sua

volta per determinare l’aggregazione dei Membri delle Dimensioni.

Nel nostro caso, dovremo specificare che i Membri Gennaio, Febbraio e Marzo sono gerarchicamente

dipendenti da 1° Trimestre per definire la regola di aggregazione dei dati dei mesi nel corrispondente

Membro Aggregato.

La formula di base per l’aggregazione dei Membri è la Somma, ma è possibile specificare anche altre

formule per eseguire calcoli matematici tra tutti i membri del cubo. Con tali formule si possono eseguire

calcoli per popolare celle, insiemi di celle e perfino interi nuovi cubi.

10 http://www.olap.com/w/index.php/Example_2

11 http://www.olap.com/w/index.php/Example_3

12 http://www.olap.com/w/index.php/Example_5

Page 12: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 12/25 autore: ing. R. Perrotta

Analisi multidimensionale dei dati13 Operazioni tipiche previste per manipolare i dati in un modello logico multidimensionale sono le seguenti.

Slice

Figura 7 - Slice

È l’operatore che permette di vedere il cubo trasversalmente (letteralmente “a fette”), fissando un valore

per almeno una delle dimensioni e analizzando i dati relativamente a tutte le altre, cioè concentrando

l’attenzione su un ipercubo (n-1) dimensionale del cubo n-dimensionale (contrazione dimensionale)

Dice

Figura 8 - Dice

È l’operatore per cui fissato un intervallo su ciascuna dimensione, si analizza una riduzione volumetrica,

senza contrazioni del numero di dimensioni.

13 Tratto da Donato Malerba - Business Intelligence Technologies - Dipartimento di Informatica Università

degli Studi, Bari, Italy - http://www.di.uniba.it/˜malerba

Page 13: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 13/25 autore: ing. R. Perrotta

Drill-down e Roll up

Figura 9 - Drill down e Roll up

Drill down è l’operatore che consente di scendere nel dettaglio lungo una o più dimensioni gerarchiche.

Esempio: mediante un’operazione di drill-down è possibile passare da un’analisi delle vendite per provincia

ad un’analisi più particolareggiata, distinguendo in base alle differenti città. Questo operatore è utile

quando si vuole analizzare una causa o un effetto per qualche fenomeno osservato nei dati aggregati.

Roll-up o consolidation o drill-up è l’operatore duale del drill-down, in quanto consente di risalire lungo

una o più dimensioni gerarchiche. Esempio: partendo dall’analisi di un particolare prodotto si potrebbe

passare all’analisi di un’intera gamma di prodotti.

Drill-across è l’estensione dell’operatore di drilldown, che consente di scendere nel dettaglio

contemporaneamente su più dimensioni.

Pivot

Figura 10 - Pivot

L’operazione, detta anche Rotate (rotazione), consente di riorientare la vista multidimensionale dei dati,

ovvero di poter cambiare la dimensione di analisi. Se lo spazio di analisi è m-dimensionale, sono possibili

m! prospettive diverse di analisi dei dati.

Page 14: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 14/25 autore: ing. R. Perrotta

Tipi di sistemi OLAP

La tecnologia OLAP può essere implementata sia sulla base di data base dimensionali che relazionali, anche

se dalla discussione precedente è evidente che il modello nativo per l’OLAP è quello dimensionale. In

commercio, infatti, esistono tre tipologie di sistemi OLAP: multidimensionale (MOLAP - Multidimensional

OLAP), relazionale (ROLAP - Relational OLAP) e ibrido (HOLAP - Hybrid OLAP) 14

.

MOLAP

È la tipologia che realizza il modello dimensionale vero e proprio. Lavora con un database di riepilogo

avente un motore specifico per l'analisi multidimensionale e crea le "dimensioni" con un misto di dettaglio

ed aggregazioni.

Le interrogazioni sono ottimizzate tramite strumenti di query proprietari.

Vantaggi

elevata efficienza nell’esecuzione di query complesse

stretta aderenza al modello concettuale

Svantaggi

elevata occupazione di spazio (viene allocato lo spazio per ogni possibile ennupla dimensionale)

mancanza di standard, sia di rappresentazione dei dati che di interrogazione

scarsa familiarità con il modello da parte degli operatori

Per tutti questi motivi non è comunemente usato.15

ROLAP

Lavora direttamente con database relazionali; i dati e le tabelle delle dimensioni sono memorizzati come

tabelle relazionali e nuove tabelle sono create per memorizzare le informazioni di aggregazione.

Le interrogazioni sono realizzate mediante query SQL standard.

Vantaggi

minima occupazione di spazio

elevata conoscenza degli strumenti relazionali da parte degli operatori

Svantaggi

esecuzione di query poco efficiente

14 http://it.wikipedia.org/wiki/OLAP

15 Lorenzo Sarti – Datawarehousing – Università di Siena – Sistemi informativi per la Gestione Aziendale

2009-10

Page 15: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 15/25 autore: ing. R. Perrotta

le soluzioni per il miglioramento della velocità di risposta implicano un aumento della complessità

e dell’occupazione di spazio

HOLAP

È una soluzione intermedia che combina i vantaggi di MOLAP e ROLAP

Data warehouse realizzato su base relazionale

o semplicità di sviluppo e di manutenzione delle procedure di popolamento dei fatti

o scalabilità del sistema

Data mart realizzati su base multidimensionale

o efficienza nelle interrogazioni

o dimensioni contenute

Schemi multidimensionali su basi di dati relazionali Lo schema relazionale comunemente usato per rappresentare un “cubo” è detto “a stella”. Lo schema

deriva immediatamente dal diagramma ER (Enti-relazioni) rappresentativo del modello concettuale dei

dati.

Figura 11 - Modello ER

Al centro della stella viene posta una tabella, detta del “fatto”, contenente gli attributi caratteristici del

fatto da analizzare, che sono i campi delle misure (un campo per ogni misura) e le chiavi delle dimensioni

(una chiave esterna per ogni dimensione); sulle punte della stella vengono poste le tabelle delle

dimensioni: una per ogni dimensione di analisi, contenente un campo per ogni attributo dimensionale

della gerarchia che ha radice nella dimensione rappresentata (denormalizzazione completa). Il vantaggio

dello schema è la massima velocità nel reperimento delle informazioni; gli svantaggi sono la ridondanza

Page 16: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 16/25 autore: ing. R. Perrotta

delle tabelle delle dimensioni, lo spazio occupato, le anomalie e l’elevata complessità di aggiornamento in

caso di cambiamento delle gerarchie (che sono i difetti tipici delle tabelle denormalizzate).

Figura 12 - Schema a stella per un Data Mart delle Vendite

Nel caso in cui le tabelle delle dimensioni siano normalizzate, lo schema assume la forma del “fiocco di

neve”, in quanto la tabella delle dimensioni viene decomposta in tante tabelle normali (in genere in terza

forma normale) quanti sono i livelli della gerarchia, e la stella perde la sua forma.

Page 17: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 17/25 autore: ing. R. Perrotta

Figura 13 - Schema a fiocco di neve per un Data Mart delle Vendite

Nel caso estremo della massima denormalizzazione dello schema, il cubo sarà rappresentato da una sola

tabella (detta in gergo “flat file” (v. Tabella 3 - Flat File per un Data Mart delle Vendite)), in cui le misure e

le dimensioni sono attributi della stessa unica tabella. Le istanze delle dimensioni vengono registrate in

modo esplicito su ogni record (tupla) contenente le misure dei fatti, amplificando al massimo la ridondanza

e le anomalie di aggiornamento. Questa struttura, d’altra parte, rende immediato l’accesso alle decodifiche

dimensionali per ogni misura. Tuttavia, nel caso specifico della BI, in cui i dati da analizzare sono, in genere,

statici e non soggetti ad aggiornamenti, questi difetti non sono molto gravi e giustificano anche l’uso di

questa soluzione. Vedremo, anzi, che questa è la soluzione di base per le analisi di BI fatta tramite Excel

con tecnologia push.

Nel caso in cui alcune dimensioni siano comuni a più tabelle dei fatti, lo schema complessivo assume la

forma della “costellazione” di stelle.

Page 18: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 18/25 autore: ing. R. Perrotta

Giorno Mese Trimestre

Anno Filiale Comune

Provincia

Regione Stato CodiceAg

Agente Area CodiceCli Cliente TipoCliente CodiceArt

Articolo TipoArticolo Materiale

Quantità

13 1 1 2012 Udine Udine UD FVG Italia 103 Lirussi Nord 136237 Gremese Professionale 100023 Viti 4 mm

Fer01 Acciaio 2.000

13 1 1 2012 Udine Udine UD FVG Italia 115 Vezzil Nord 284569 Rugo Professionale 100023 Viti 4 mm

Fer01 Acciaio 5.000

13 1 1 2012 Lazio Latina LT Lazio Italia 235 Ricci Centro 933645 Fontana Professionale 100023 Viti 4 mm

Fer01 Acciaio 1.500

14 1 1 2012 Napoli Napoli NA Campania

Italia 467 Cacace Sud 254912 D coop Aziendale 100023 Viti 4 mm

Fer01 Acciaio 10.000

15 4 2 2012 Udine Udine UD FVG Italia 103 Lirussi Nord 136237 Gremese Professionale 100234 Viti 2 mm

Fer01 Acciaio 2.000

23 5 2 2012 Udine Udine UD FVG Italia 115 Vezzil Nord 284569 Rugo Professionale 100724 Viti 9 mm

Fer01 Acciaio 5.000

31 7 3 2012 Lazio Latina LT Lazio Italia 235 Ricci Centro 933645 Fontana Professionale 100127 Viti 6 mm

Fer03 Ottone 1.500

25 10 4 2012 Napoli Napoli NA Campania

Italia 467 Cacace Sud 254912 AZ srl Aziendale 200425 Viti 8 mm

Fer03 Ottone 10.000

Tabella 3 - Flat File per un Data Mart delle Vendite

Page 19: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 19/25 autore: ing. R. Perrotta

Strumenti di presentazione dei dati di BI16 Esistono vari strumenti di presentazione dei dati di BI residenti nei DW e nei Data Mart, che ne rendono

fruibile il contenuto ad analisti e decisori. Questi, in genere, sono inesperti delle tecnologie informatiche e

hanno bisogno di strumenti intuitivi, semplici e flessibili per eseguire i loro controlli, studi e indagini. L’uso

di strumenti appropriati può garantire che le informazioni giuste arrivino alle persone giuste al tempo

giusto attraverso i canali giusti e per questo motivo sono stati messi a punto diversi strumenti che

rispondono alle varie esigenze degli utenti.

Allarmi automatici

Gli allarmi automatici sono messaggi di attenzione che vengono generati automaticamente da programmi

di monitoraggio studiati per controllare che alcuni parametri critici presenti nel DW non superino una

soglia prefissata oppure che non vengano raggiunti secondo le attese. Questi allarmi possono essere

comunicati al responsabile via e-mail, messaggi telefonici o altri tipi di notifiche elettroniche. In genere i

sistemi di monitoraggio sono progettati in modo che sia agevole modificare le regole di controllo,

adattandole alle mutevoli esigenze dell’organizzazione. Si facilita in questo modo l’attività di supervisione

dei responsabili, che possono intervenire tempestivamente per evitare problemi più gravi.

A volte è possibile associare alla rilevazione dei valori critici dei parametri di controllo anche delle azioni di

telecomando per l’esecuzione di procedure di sicurezza. Queste azioni di controllo e comando sono simili a

quelle offerte dai sistemi SCADA (dall'inglese "Supervisory Control And Data Acquisition", cioè "controllo di

supervisione e acquisizione dati" ) o nei sistemi di livello superiore DCS (Distributed Control System) per il

controllo e comando automatico di sistemi industriali di produzione.

Strumenti di Data Mining

Questi strumenti sono motori analitici che vengono usati per scoprire relazioni nascoste tra i dati del DW.

Gli analisti se ne avvalgono per acquisire nuove conoscenze attraverso l’identificazione e l’osservazione di

tendenze, problemi e anomalie.

Dal momento che l’ambiente gestionale è molto dinamico, risulta spesso difficoltoso riconoscere

velocemente nuovi modelli e tendenze di affari. Gli strumenti di Data Mining aiutano le aziende a

identificare prontamente problemi e opportunità e prendere tempestivamente le decisioni appropriate

sulla base delle nuove conoscenze acquisite.

Questi strumenti sono spesso utilizzati nel campo del marketing. Ad esempio, la rilevazione che l’acquisto

di un prodotto di marca risulta statisticamente associato ad una serie di altri prodotti meno conosciuti, può

indurre la direzione a lanciare una campagna di “sottocosto” sul prodotto di marca per attrarre compratori

che compenseranno la perdita di margine nella vendita di questo prodotto con i maggiori margini

conseguiti sui prodotti sconosciuti, ma di largo consumo.

16 http://data-warehouses.net/tools/index.html

Page 20: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 20/25 autore: ing. R. Perrotta

OLAP

Della tecnologia OLAP abbiamo già parlato in precedenza. In questa sede ricordiamo che OLAP è l’acronimo

di On-Line Analytical Processing (Elaborazione analitica on-line). Questi strumenti offrono agli utenti mezzi

molto potenti per identificare e osservare tendenze e per scavare in profondità (drill-down) nella massa dei

dati per rivelare i dettagli che sottendono a tali tendenze, utilizzando gli operatori tipici dell’analisi

multidimensionale.

Come dice il nome stesso, sono strumenti orientati all’”analisi” dei dati e non alla gestione di “transazioni”

operative mediante elaborazioni on-line. Molte organizzazioni stanno abbandonando la reportistica

cartacea, statica sui dati aziendali a favore di questi strumenti di accesso on-line.

Cruscotti aziendali (Performance Dashboards)

I cruscotti aziendali sono strumenti di presentazione dei dati del DW che consuntivano in forma grafica le

prestazioni gestionali e le confrontano con gli obiettivi misurabili.

Sono rivolti ai decisori di alto livello che hanno bisogno di vedere a colpo d’occhio come stanno andando gli

affari. Tipicamente vengono mostrati gli obiettivi strategici dell’organizzazione, i loro andamenti storici e le

tendenze. Questi indicatori vengono spesso detti “key performance indicators (KPI)” (indicatori chiave di

prestazione) e si riferiscono agli aspetti finanziari, marketing, produttivi, commerciali, di crescita e ad altre

metriche importanti.

Fogli di calcolo Excel

I fogli di calcolo di Excel sono spesso usati nelle applicazioni di BI per accedere ai dati e presentarli

all’utente. Questi fogli sono strumenti potenti, flessibili, relativamente economici e comodi da usare per

molti analisti e responsabili. Essi possono sfruttare due diverse tecnologie, che potremmo definire

rispettivamente “pull” e “push”17

Tecnologia pull

Prima che si diffondessero i DW, I vari responsabili avevano difficoltà ad accedere ai dati aziendali. Era

necessario riempire tabelle da molteplici fonti informative e integrare manualmente i dati raccolti. Questo

processo era molto lento e soggetto ad errori. Inoltre, nel momento in cui gli utenti iniziarono a registrare

copie personali dei dati sensibili aziendali nei propri PC nacquero anche problemi di privacy, ridondanza e

aggiornamento dei dati.

In ambiente DW, un sottoinsieme di dati aziendali puliti e integrati viene copiato nei Data Mart. Se il

motore OLAP utilizzato lo consente, il foglio di calcolo accede direttamente al Data Mart ed opera quindi

sempre su dati aggiornati. Solo se strettamente necessario, sarà consentito di registrare questi dati sul

proprio PC. Il foglio di calcolo viene utilizzato sia per presentare che per inserire dati nei cubi, secondo le

politiche di riservatezza e integrità stabilite.

17 http://www.olap.com/w/index.php/Category:OLAP_and_Excel

Page 21: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 21/25 autore: ing. R. Perrotta

Tecnologia push

Nel caso in cui il motore OLAP non sia integrato con Excel, gli utenti devono utilizzare l’interfaccia utente

del data base, da cui estrarre i dati, per sceglierli e scriverli in blocco su Excel. In questo caso, come già

detto nel paragrafo “Schemi multidimensionali su basi di dati relazionali”, si adotta lo schema relazionale

del “flat file”, costituito da una tabella unica denormalizzata, in cui le righe (tuple, record) sono costituite

da attributi contenenti sia i fatti da analizzare che la decodifica delle dimensioni di analisi. Tale “flat file”

può essere costruito anche direttamente, senza necessariamente prelevare dati da altre fonti digitali: ad

es. quando si parte da una raccolta di questionari strutturati per la rilevazione e la misurazione di fatti

specifici, quali, ad esempio, questionari sulla Customer Satisfaction, sul gradimento di Corsi di Formazione,

sugli Exit Poll ed altri analoghi.

Excel offre le funzioni di Tabella Pivot che consentono agli utenti di separare i “fatti” dalle “dimensioni” ed,

inoltre, di filtrare, riordinare e aggregare i fatti misurati. È possibile in questo modo eseguire le operazioni

tipiche dell’analisi multidimensionale dei cubi (SLICE, DICE, DRILL DOWN, ROLL UP), oltre al “pivoting”

propriamente detto.

Excel fornisce anche rappresentazioni grafiche che permettono all’utente finale di presentare le

informazioni in svariate forme. Queste possono essere facilmente inserite in documenti MS Word,

PowerPoint, presentazioni, pagine web, ecc.

La BI all’Ordine degli Ingegneri

Sistema informatico dell’Ordine

Il sistema informatico dell’Ordine degli Ingegneri della Provincia di Udine è composto dai seguenti

sottosistemi:

Gestionale, che supporta i processi di:

o Manutenzione dell’Albo professionale

o Contabilità economica e finanziaria

Office:

o Posta elettronica

o Elaborazione dei documenti di testo

o Valutazione di Gradimento dei Corsi di formazione

Sito Web istituzionale:

o Area Pubblica:

Pubblicazione Albo

News

Portale della Formazione

o Aree Riservate:

Agli Iscritti per la manutenzione delle Competenze professionali

Alle PA locali per la interrogazione degli Elenchi PEC degli Iscritti (Posta Elettronica

certificata)

Page 22: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 22/25 autore: ing. R. Perrotta

Il Data base dell’Albo per il Sito istituzionale è aggiornato periodicamente mediante un processo “batch”

asincrono a partire dal Data Base gestionale, a cui è attribuita la responsabilità della manutenzione

corrente dell’Albo.

Applicazioni BI

Le applicazioni di BI dell’Ordine sono state progettate per supportare:

La Funzione designativa mediante il Data Mart dell’Albo, e

La Formazione, mediante il Data Mart della Valutazione di Gradimento dei Corsi.

I due Data Mart non sono integrati in un vero e proprio DW, né sono integrati tra loro, sebbene sia

possibile, in via teorica, integrarli in una costellazione, che condivida la dimensione degli Iscritti.

Il Data Mart dell’Albo per la Funzione designativa

“In forza di alcune norme di legge o regolamentari, ovvero per prassi invalsa presso diverse

Amministrazioni, oppure per iniziativa di privati, il Consiglio dell’Ordine è spesso investito del compito di

designare terne o singoli iscritti all’Albo per lo svolgimento di funzioni da assolvere per diretto mandato del

soggetto richiedente.”18 Per svolgere questa funzione il Consiglio dell’Ordine deve effettuare una

valutazione dei titoli, della formazione e dell’esperienza in capo ai designandi. Le risorse informative a

disposizione dei Consigli sono, in genere, scarse, essendo limitate ai titoli di studio, dichiarati all’atto

dell’iscrizione, alle informazioni che il Consiglio raccoglie attraverso i propri membri per i contatti di lavoro

che intervengono con gli iscritti o per la notorietà pubblica delle opere di questi. Allo scopo di estendere la

conoscenza delle competenze a tutti i propri iscritti, l’Ordine di Udine ha messo a loro disposizione, in

un’apposita area riservata del sito istituzionale, la possibilità di dichiarare le proprie competenze, acquisite

tramite i corsi di formazione e l’esperienza professionale, ed inserire il proprio curriculum professionale. Al

momento attuale, le competenze che è possibile dichiarare si riferiscono ad un insieme strutturato e finito

di conoscenze e capacità tecniche. Non vengono trattate le competenze trasversali, relazionali e gestionali,

che sono parte essenziale del profilo professionale dell’ingegnere, ma, in genere, non sono specificate nelle

richieste di designazione.

A partire dal Data Base del sito, tramite un processo ETL di estrazione dei dati, viene generato un Data

Mart, riferibile allo schema relazionale di Figura 14, ma in realtà costituito da un “flat file” completamente

denormalizzato, analizzabile tramite Tabelle Pivot di Excel.

18 Giancarlo Modonesi, La professione di ingegnere, Editrice Clueb Bologna, 1992, pag. 46

Page 23: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 23/25 autore: ing. R. Perrotta

Figura 14 - Il Data Mart dell'Albo dell'Ordine degli Ingegneri di Udine

La funzione principale del Data Mart è quella di misurare il numero di iscritti in possesso di una o più

competenze, mediante operazioni di “Slice and Dice” sull’ipercubo delle Competenze degli Iscritti, e

produrre l’elenco di quelli che rispondono ai requisiti mediante un’operazione di “Drill down”. L’elenco può

essere ordinato per Sezione, Settore, Posizione e Luogo di lavoro in modo da rilevare sia l’anzianità di

iscrizione che la vicinanza alla sede del richiedente.

Il Data Mart della Valutazione di Gradimento dei Corsi

A partire dal 2010 l’Ordine degli Ingegneri ha iniziato a rilevare in modo sistematico le valutazioni di

gradimento dei Corsi di formazione da parte degli iscritti partecipanti. La rilevazione viene effettuata a fine

corso mediante la somministrazione di un modulo che richiede i seguenti dati:

Nome e Cognome dell’iscritto partecipante

Titolo del Corso (Evento)

Data dell’edizione del Corso

Nome e Cognome del Docente

Rilevanza dell’evento per la propria professione;

Efficacia dell’azione formativa;

Capacità didattica del o dei docenti;

Durata dell’evento;

Calendario della programmazione;

Page 24: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 24/25 autore: ing. R. Perrotta

Orario delle sessioni formative;

Organizzazione generale dell’evento;

Valutazione sintetica globale;

Domanda 9

Domanda 10

Commenti

I dati vengono registrati nel Data Base delle Valutazioni di Gradimento su cui è fondato un Data Mart,

riferibile allo schema relazionale di Figura 15, ma in realtà costituito da un “flat file” completamente

denormalizzato, analizzabile tramite Tabelle Pivot di Excel.

Figura 15 - Il Data Mart della Valutazione di Gradimento dei Corsi dell'Ordine degli Ingegneri di Udine

Le analisi principali a favore della Commissione Formazione, che presiede alla pianificazione e

programmazione della Formazione, sono le seguenti:

Valutazione media di gradimento della Formazione per tutti, parte o singoli Corsi, con “Drill down”

sulle valutazioni dei singoli partecipanti;

Valutazione media di gradimento dei Docenti per tutti, parte o singoli Corsi;

Trend di evoluzione del gradimento nel tempo;

Analisi dei Mezzi di Informazione per la promozione dei Corsi.

La costellazione dei Data Mart dell’Ordine

A titolo puramente esemplificativo la Figura 16 mostra lo schema relazionale della costellazione di Data

Mart che si potrebbe ottenere mediante la condivisione della tabella dimensionale degli Iscritti. In questo

caso sarebbe possibile estendere le funzioni del Data Mart della Formazione con la possibilità di analizzare

le pricipali misure anche per Sezione, Settore e Luogo di lavoro.

Page 25: 20120419   business intelligence ed analisi multidimensionale dei dati

Raffaele Perrotta Ingegnere dell’informazione

P.IVA 01182640308 – iscritto all’Albo degli Ingegneri dell’Ordine della Provincia di Udine al n. 1250 Via Marinoni, 10 - 33100 Udine tel. +39 335 368960 e-mail: [email protected] PEC: [email protected]

bi ed analisi multidimensionale dei dati.docx 25/25 autore: ing. R. Perrotta

Figura 16 - La costellazione dei Data Mart dell’Ordine degli Ingegneri di Udine