SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero...

27
Prof. Andrea Borghesan venus.unive.it/borg [email protected] Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 SISTEMI INFORMATIVI AZIENDALI

Transcript of SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero...

Page 1: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Prof. Andrea Borghesan

venus.unive.it/borg

[email protected]

Ricevimento:

Alla fine di ogni lezione

Modalità esame: scritto

1

SISTEMI INFORMATIVI AZIENDALI

Page 2: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Data Mining. Introduzione

La crescente popolarità dei sistemi di data mining all’interno dei

sistemi informativi aziendali è giustificata dalla grande

disponibilità di enormi quantità di dati generati dai vari processi

aziendali informatizzati.

Questi dati contengono sicuramente informazioni potenzialmente

utili al processo decisionali ma spesso tali informazioni non sono

facilmente identificabili (es. complessità delle relazioni).

Per evitare che una decisione venga presa solo sulla base

dell’esperienza o dell’intuito dell’imprenditore si utilizzano

strumenti di data mining al fine di elevare il grado di obiettività e

di precisione dell’analisi inglobando magari anche aspetti che

potrebbero addirittura non valutati

2

Page 3: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Cosa sono i sistemi Data Mining. Il data mining è l’attività volta a riconoscere

automaticamente ed estrarre informazione da base di dati

di grandi dimensioni.

Il data mining è spesso definito anche come il processo di scoperta

della conoscenza da basi di dati (Knowledge Discovery in

Databases, KDD).

Il processo di scoperta della conoscenza si articola nei seguenti

passaggi:

Pulizia dei dati, significa eliminare le inconsistenze e

correggere gli eventuali errori

Integrazione dei dati, integrare fonti diverse in un unico

modello

3

Page 4: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Selezione dei dati, significa selezionare solo i dati che servono

all’analisi

Trasformazione dei dati, significa riorganizzare o aggregare i

dati in base al tipo di elaborazione

Data mining, il processo vero e proprio di analisi

Valutazione dei pattern, significa che spesso le tecniche di data

mining portano alla luce informazioni che possono essere

classificate come non rilevanti per l’indagine

Presentazione della conoscenza, le informazioni devono essere

presentate all’utente tramite opportune rappresentazioni

grafiche (a colpo d’occhio l’utente deve comprendere la

conoscenza che scaturisce dalle informazioni)

4

Page 5: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Architetture dei sistemi di data

mining

5

Data

Warehouse

Base di

conoscenza

Motore di data

mining

Valutazione

delle condizioni

Presentazione

Page 6: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Componenti dell’architteturaL’archichettura della slide precedente, si fonda sui seguenti componenti:

DataWarehouse, è la base di dati di analisi

Base di conoscenza (Knowledge Base), contiene l’insieme di regole

e conoscenze “date per note” che verranno utilizzate per guidare la

ricerca e per filtrare i risultati valutando l’effettivo interesse dei

pattern rilevati

Motore di data mining (Data Mining Engine), è composto

dall’intero insieme di funzioni di analisi dei dati provenienti da

discipline diverse come la statistica, l’intelligenza artificiale, reti

neurali, l’analisi dei segnali…

Sistema di valutazione delle condizioni (Pattern Evaluation),

focalizza la ricerca sui pattern (condizioni) interessanti

Sistema di presentazione, è l’interfaccia tramite la quale l’utente può

specificare le tecniche di data mining, formulare nuove ipotesi o

semplicemente visualizzare i risultati ottenuti6

Page 7: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Data Mining e Data WarehouseUn sistema di data mining può non essere integrato nel sistema di data

warehousing, allora il sistema di data mining deve mantenere una

copia propria dei dati informazionali e periodicamente aggiornarla.

Oppure integrarsi “perfettamente”, il sistema data mining viene visto

come una componente funzionale del sistema informazionale, il

vantaggio sta in una facilità di implementazione delle funzioni di

data mining e in prestazioni elevate.

Altre 2 caratteristiche sono:

Scalabilità, capacità di elaborare le funzioni di analisi con tempi di

risposta lineari rispetto alla numerosità dei dati. Requisito non sempre

soddisfatto in quanto le informazioni superano una soglia critica il

sistema rallenta in modo evidente (soluzione: calcolo parallelo)

Interpretabilità, facilità con cui l’utente interagisce con l’interfaccia

del sistema per l’attivazione delle funzioni di analisi e rappresentazione

dei dati7

Page 8: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Funzioni di mining 1/3In generale le funzioni di mining possono essere ripartite in 2 macro

classi:

Il mining descrittivo, descrive le proprietà generali dei dati.

Il mining predittivo, che analizzando i dati presenti, determina

delle regole e crea modelli per predire il futuro.

Tipologie di analisi:

Descrizione di classi e concetti

Concetto: è una astrazione dei fatti (clienti e vendite)

Classe: raggruppamento di elementi aventi stesse caratteristiche

Analisi associativa, scopre le regole associative identificando

nella massa dei dati i valori di attributi che si presentano insieme

con elevata frequenza (importanti nei piani di marketing,

campagne prodotti)8

Page 9: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Funzioni di mining 2/3

Tecniche di classificazione e predizione, utilizzate per costruire

modelli a partire dall’analisi dei dati di un campione (es. analisi

rischio-clienti). Tali modelli permettono di ricondurre ad una

classe nota qualsiasi elemento in base alle caratteristiche di suoi

attributi.

Analisi cluster, i dati vengono raggruppati in classi (cluster) sulla

base della similitudine; elementi che appartengono alla stessa classe

hanno caratteristiche comuni che li rendono simili. Le regole di

similitudine non sono date a priori ma sono determinate dal

sistema sulla base dell’osservazione dei valori assunti dai dati

9

Page 10: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Funzioni di mining 2/3 Analisi degli outlier, gli outlier sono gli elementi che si

discostano dal modello generale dei dati, quelli che presentano

qualche anomalia rispetto al profilo generale, esempio:

La ricerca di frodi (operazioni o importi sospetti)

La ricerca di intrusioni non autorizzate nei sistemi elettronici

Valutazione efficienza impianti (individuazione macchine con guasti

superiori alla media)

Analisi evolutiva dei dati, descrive il comportamento nel tempo

degli elementi sottoposti ad analisi, sottolineandone regolarità

(comportamenti stagionali o ciclici) e tendenze. Analisi utilizzata

per predire comportamenti futuri e quindi guidare le decisioni

sulle politiche aziendali.

10

Page 11: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Processo di mining dei dati

Ogni analisi di mining dei dati richiede, da parte dell’utente,

l’indicazione dei parametri elencati di seguito:

Insieme dei dati di analisi

Tipo di informazioni da ricercare

Misure di interesse

Base di conoscenza

Presentazione dei pattern

11

Page 12: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Insieme dei dati di analisi

L’insieme dei dati di analisi definisce la porzione dei dati da fornire

in ingresso alle funzioni di data mining.

Esempio, un’analisi delle abitudini di acquisto dei propri clienti ha

come base i fatti di vendita e non avrebbe alcun senso lanciare

l’analisi comprendendo fatti di produzione o fatti legati alla

logistica.

Circoscrivere l’insieme dei dati di partenza migliora le prestazioni.

È possibile che questa attività sia fatta da un utente che non ha una

idea precisa ne consegue che potrebbe vanificare l’attività di

mining sui dati

12

Page 13: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Tipo di informazioni da ricercare

L’utente può/deve indicare quali informazioni ricercare scegliendo

tra le funzioni disponibili quella che si presta meglio al suo

obiettivo di conoscenza (descrittivo, di classificazione, predittivo

o di analisi delle eccezioni).

13

Page 14: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Misure di interesse dei pattern

Le analisi di mining possono produrre un insieme assai numeroso di

elementi in uscita. È necessario un passaggio di post-processing per

focalizzare l’attenzione, un pattern interessante si caratterizza per:

• Novità, si intende informazione nuova, non ancora conosciuta (non

duplicata)

• Semplicità, facilmente comprensibile da chi conduce l’analisi

• Certezza, la regola definita dal pattern deve essere valida anche su dati

nuovi o diversi

• Utilità, la regola identificata deve avere una qualche utilità potenziale

per il decisore

14

Page 15: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Base di conoscenza

Alcuni parametri che potrebbero essere utili per discriminare i

pattern significativi dipendono dalla struttura dei dati, dalle

regole aziendali e dall’esperienza di chi conduce l’analisi.

Tali parametri devono essere descritti all’interno di una base di dati

dedicata, la base di conoscenza, sotto forma di regole, di relazioni

tra elementi.

Per esempio, la base di conoscenza potrebbe descrivere le varie

gerarchie (strutturali, di raggruppamento) all’interno del

sistema.

15

Page 16: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Visualizzazione dei pattern

La visualizzazione dei risultati ottenuti non è un elemento da

sottovalutare, si può considerare come uno dei fattori di successo

di qualsiasi sistema di analisi dei dati.

Nei sistemi di data mining alcuni tipi di visualizzazione sono

particolarmente utili. Esempio, gli alberi di decisione si utilizzano

prevalentemente nelle analisi di classificazione, i diagrammi di

dispersione nelle analisi di clustering.

16

Page 17: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Statistiche elementari e analisi

relative

Un primo insieme di funzioni di mining dei dati è costituito dagli

strumenti che permettono di descrivere in modo sintetico ma

preciso le informazioni contenuti nel database.

Gli strumenti descrittivi operano tramite:

Generalizzazione, attività che permette di ripartire i dati

elementari in gruppi caratterizzati da attributi comuni

Caratterizzazione, descrive le particolarità

Discriminazione, che marca le differenze tra gruppo e gruppo

17

Page 18: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

CaratterizzazioneSi utilizzano misure di tendenza al fine di capire come i dati si

dispongono attorno ad un determinato valore:

Media,media pesata, “centro numerico” di un insieme di valori

Mediana, valore/modalità che si trova nel mezzo della distribuzione

Moda, valore che ha la massima frequenza

Oppuremisure di dispersione:

Varianza, come i dati si distribuiscono attorno al valore medio

Confidenza, identifica l’intervallo di valori intorno alla media che si

distribuiscono come una Gaussiana all’interno di una probabilità data

(intervallo di confidenza pari al 98%)

Percentili, rappresentano, dato un insieme ordinato di misure, il

limite al di sotto del quale ricade una certa percentuale dei dati

(quartili)18

Page 19: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

DiscriminazioneNella discriminazione le caratteristiche di una classe vengono messe a

confronto con quelle di classi diverse ma ovviamente paragonabili.

19

Rappresentazione graficaI principali sono:

• Istogramma di frequenza

• Plot quantile

• Scatter plot

• Uno degli strumenti grafici più efficace per vedere a colpo

d’occhio se è presente una relazione di qualsiasi genere tra 2

misure descrittive della stessa classe. La coppia di valori è vista

come una coppia di coordinate. Si evidenziano blocchi di

aggregazione o tendenze o punti isolati

Page 20: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Analisi associativeI meccanismi di associazione permettono di identificare le condizioni

che tendenzialmente si verificano contemporaneamente.

Nati principalmente per l’analisi delle vendite, tracciano le propensioni

d’acquisto legate alle caratteristiche dei clienti.

Le informazioni che scaturiscono permettono di pianificare campagne

promozionali efficaci, strutturare i listini o addirittura identificare

clienti potenzialmente a rischio di insoluti.

In sostanza si cerca di individuare dei pattern che si ripetono in

determinate condizioni e che consentono di derivare delle regole di

implicazione del tipo A => B (se si verifica A allora è probabile si

verifichi anche B).

Le condizioni vengono rappresentate nella forma:

Attributo(soggetto, valore)

Attributo1(soggetto, valore1) ANDAttributo2(soggetto, valore2)20

Page 21: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Significatività delle associazioni 1/2La significatività di un’associazione viene principalmente valutata in base a

2 misure particolari: confidenza e supporto.

Confidenza, è una misura della certezza del pattern. Definita come la

probabilità condizionata P(A|B), cioè la probabilità che un elemento

che contenga A contenga anche B.

Calcolato come P(A|B) = P(AB)/P(B)

Supporto, è una misura della frequenza con cui il pattern è stato

identificato sulla base di dati.

È calcolato come

(elementi che soddisfano la regola)/(totale elementi dell’insieme dati di analisi)

21

Page 22: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Significatività delle associazioni 2/2Esempio, la regola:

Compra(X, “divano a 2 posti”) => Compra(X, “poltrona”)

Ha una misura di confidenza dell’85% e una di supporto del 30%.

Come si legge?

Significa che tutti coloro che hanno comprato un divano a 2 posti erano

all’85% intenzionati a comprare anche una poltrona ma solo nel 30%

delle vendite il cliente ha comprato sia un divano a 2 posti che una

poltrona

Le associazioni forti sono quelle che il supporto è significativo (oltre

una certa soglia) e la confidenza è elevata.

22

Page 23: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

ClassificazioneLe tecniche di classificazione sono anche definite tecniche di

apprendimento assistito: i parametri per la creazione del modello

sono infatti forniti dall’utente che specifica le classi, i dati per il

modello e a che classe appartiene il dato.

Nella creazione del modello l’utente divide i dati in 2 sottoinsiemi, il

training set (per l’apprendimento) e il testing set (per la validazione

del modello).

Le tecniche usate sono molteplici:

Alberi di decisione

Reti neurali e algoritmi genetici

Reti bayesiane

23

Page 24: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Alberi di decisione 1/3

Titolo di studio Zona Età Acquista divano

Laurea Nord < 40 Sì

Laurea Sud 41-50 No

Laurea Nord >50 Sì

Diploma Sud < 40 Sì

Diploma Nord 41-50 Sì

Laurea Sud 41-50 No

Diploma Nord < 40 Sì

Laurea Sud >50 No

Laurea Nord >50 Sì

Diploma Nord >50 No

24

Page 25: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Alberi di decisione 2/3Data la tabella slide precedente, costruiamo l’albero delle decisioni.

Prima di iniziare definiamo la struttura:

I nodi interni sono attributi del soggetto da classificare

Gli archi in uscita da un nodo sono etichettati con i valori che

l’attributo può assumere

I nodi foglia sono le classi

La tecnica di costruzione usa raffinamenti successivi: sceglie un attributo

come radice, divide gli elementi in sottoinsiemi sulla base dei valori

assunti dall’attributo e crea gli archi, uno per ogni possibile valore

dell’attributo, che portano a nuovi nodi. Se tutti gli elementi di un

sottoinsieme appartengono alla stessa classe, il nodo corrente è una

foglia, altrimenti sceglie un nuovo attributo per etichettare il nodo e

riprende la divisione.25

Page 26: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Alberi di decisione 3/3L’albero avrà la seguente forma:

26

Età

Titolo di

studio ZonaSì

No NoTitolo di

studio

No

<40>50

41-50

diploma laurea sud nord

diploma laurea

Page 27: SISTEMI INFORMATIVI AZIENDALI - venus.unive.itvenus.unive.it/borg/SistInf-3.pdf · dall’intero insieme di funzioni di analisi dei dati provenienti da ... Tecniche di classificazione

Caratteristiche dei classificatori

Accuratezza della previsione

Velocità, tempo impiegato sia per costruire il modello sia che per

classificare gli elementi

Scalabilità

Robustezza, capacità del modello di classificare correttamente

elementi anche in presenza di dati errati o mancanti

Interpretabilità, modello di facile comprensione (vedi l’albero delle

decisioni) a differenza delle reti neurali o quelle bayesiane

27