Seminario Di Data Mining

27
Il Data Mining Il Data Mining

Transcript of Seminario Di Data Mining

Page 1: Seminario Di Data Mining

Il Data MiningIl Data Mining

Page 2: Seminario Di Data Mining

Del termine Data Mining sono state date diverse ed utili definizioni

    Che cosa è il Data MiningChe cosa è il Data Mining

Il Data Mining (noto anche come Knowledge Discovery in Databases – KDD) è l’insieme di tecniche innovative, sviluppate nel campo della statistica e del “machine learning”, utilizzante per analizzare i dati presenti in azienda, impiegando strumenti di esplorazione e modellazione per cercare informazioni utili, nascoste e non evidenti, all’interno di grandi volumi di dati, con un processo iterativo e interattivo e metterle in una forma facilmente comprensibile all’uomo. 

 

Il Data Mining è l’ ”automatica” estrazione di pattern di informazioni da dati storici, che permettono alle compagnie di focalizzare i più importanti aspetti del loro business. Tali informazioni sono rivelatrici di cose che non si conoscono o ancora più impensabili. 

Il termine “Data Mining” è basato sull’analogia delle operazioni dei minatori

che “scavano” all’interno delle miniere grandi quantità di materiale di poco

valore per trovare l’oro. Nel Data Mining, l’”oro” è l’informazione,

precedentemente sconosciuta o indiscernibile, il materiale di poco valore

sono i dati e le operazioni di scavo sono le tecniche di esplorazione dei dati.

Page 3: Seminario Di Data Mining

Logica del Data MiningLogica del Data Mining

Nel Data Mining si mettono insieme sia tecniche esplorative sia confermative in una logica ciclica:

si sceglie cosa studiare, si costruisce un modello matematico che tenti di spiegare gli impatti del variare del campione di input

sui risultati, si verifica la sua robustezza e la sua correttezza, se non è soddisfacente ad una prima analisi si raffina

il modello e si procede nuovamente al suo test, e così via fino a quando si ottengono dei risultati soddisfacenti.

alla fine, quando il modello è sufficientemente accurato, si rende disponibile a tutti gli utenti interessati.

LE FASILE FASI

Nella fase di Problem (problema di business) si passano in rivista le informazioni di business o gli indicatori chiave che identificano il problema che si vuole conoscere meglio. E’ anche la fase di assessment della metodologia

La fase di Model assolve al processo di comprensione delle relazioni tra i diversi fattori che

influenzano il problema in esame per ottenere delle conoscenze approfondite.

Infine, la fase di Plan comprende il processo di crescita della conoscenza ottenuta dall’analisi di fatti

storici e dall’utilizzo del modello costruito nella fase di Model per formulare le linee guida che deve

adottare l’azienda in riferimento al problema studiato.

Page 4: Seminario Di Data Mining

      Tecniche di analisiTecniche di analisiNel Data Mining, per scoprire le relazioni nascoste tra i dati e costruire di conseguenza dei modelli che le rappresentano, esistono due “famiglie” di tecniche di analisi o approcci: quelle di verifica e quelle di indagine o rispettivamente

approccio top-down

Nell’approccio top-down, chi effettua l’analisi dei dati utilizzando la teoria statistica cerca durante l’esplorazione di trovare conferme a fatti che ipotizza o che già conosce (ad esempio quali fattori hanno prodotto un risultato conosciuto), o di ampliare la sua conoscenza su nuovi aspetti di un fenomeno che già conosce in parte. A questo scopo si utilizzano le tecniche statistiche di clustering, l’analisi fattoriale, i metodi previsionali, per cui l’approccio risulta difficile da applicare se gli utenti non hanno buone conoscenze statistiche.

approccio bottom-up

Nell’approccio bottom-up l’utente si mette alla ricerca di informazioni utili che ignora “scavando” fra i dati e i collegamenti tra loro in modo non aprioristico, per costruire ipotesi, ad esempio quali fattori sono le cause più probabili che producono un certo risultato. In questo caso è lo strumento (con la tecnologia delle reti neurali, degli alberi decisionali o altro) che deve essere in grado di guidare l’utente nel modo migliore nell’esplorazione dei dati alla ricerca di fatti utili.

Page 5: Seminario Di Data Mining

Data mining Analisi Statistica

Precisione Scelta del modello

Generalizzabilità Stima dei parametri

Complessità del modello Controllo diagnostico

Complessità computazionale Confronto del modello

Velocità computazionale Asintoticità

Le differenze di approccio nell’analisi dei dati

0

20

40

60

80

100

Est

Ovest

Nord

Data mining

statistical analysis

Grado di indeterminatezza

Num

erosità dei casi

Le tecniche di Data mining sono un’estensione dell’analisi statistica, ma si Le tecniche di Data mining sono un’estensione dell’analisi statistica, ma si differenziano per il diverso approccio al trattamento dei datidifferenziano per il diverso approccio al trattamento dei dati

• permette di analizzare grandi volumi di dati (Gb - Tb)• basato sulla filosofia dell' "apprendimento"• utilizzo estensivo di modelli complessi e cross-validation

• utilizzo di modelli semplici, con scarse implicazioni di problemi computazionali• presenta una componente soggettiva dovuta alla scelta del modello• enfatizza le proprietà asintotiche per samples di grandi dimensioni

Page 6: Seminario Di Data Mining

Identificazione problema business

Predisposizione dati input

Valutazione ambiente IT

Revisione

START

Valutazione modello/i

Tool di Data Mining

Monitoraggio

Utilizzo modello nelle analisi

Validazione esterna

Scelta modello finaleDispiegamento modello

Raffinamento modello/i

Preparaz. dati analisi

Costruzione modello/i

  Flusso di un processo di Data MiningFlusso di un processo di Data Mining

Page 7: Seminario Di Data Mining

Le attività delle fasi della metodologia di miningLe attività delle fasi della metodologia di mining

• Scelta degli indicatori

• Definizione del livello dell’indicatore

• Definizione dei dati di contesto rilevanti

• Scelta delle variabili

• Acquisizione campioni casuali di Clienti per training e per validazione del modello (dimensione significativa)

• Scelta dell’algoritmo predittivo (regressione logistica, RBF, rete neurale ‘backward propagation’)

• Definizione del modello predittivo (processo iterativo con selezione variabili e loro trasformazioni):

– Training del modello

– Validazione sui dati DWH

– Valutazione dei risultati

Utenti

Scelta Indicatori

Def. Livello indicatore

Def. Dati contesto

Scelta variabili

Acq. Campioni Clienti

Tuning algoritmo predittivo

Def. Modello predittivo

-Training

-Validazione

-Valutazione

Page 8: Seminario Di Data Mining

Il processo adottato per lo sviluppo della prima fase di Assessment della Metodologia si basa su una continua interazione con l’utente

Utenti Finali

Fase 1:Fase 1: preparazione ed acquisizione di documenti sui requisiti prodotto.

Fase 2:Fase 2: Elaborazione di documenti di “Proposta Metodologica”, in risposta ai requirements esposti

Fase 3:Fase 3: Presentazione, verbalizzazione e discussione dei documenti prodotti con l’utente

Fase 4:Fase 4: Integrazione delle modifiche proposte, approfondimento dei punti di discussione

Specifiche di Specifiche di modellomodello

Fase di Assessment dellaFase di Assessment della MetodologiaMetodologia

Page 9: Seminario Di Data Mining

Le fasi successive servono per definire precisamente fattibilità/priorità/compatibilità economica

Gruppo

Dati

Fase 1:Fase 1: Definizione delle tipologie di dati necessari per ciascun indicatore

Fase 2:Fase 2: Incontro con il gruppo dati per l’analisi dei dati disponibili

Fase 3:Fase 3: Valutazione di fattibilità in relazione alla disponibilità dati ed ai “costi” connessi

Fase 4:Fase 4: Integrazione della analisi di fattibilità con le priorità degli utenti e le compatibilità di progetto

Specifiche datiSpecifiche dati

Decisione sugli indicatori da

implementare

Studio di FattibilitàStudio di Fattibilità

Page 10: Seminario Di Data Mining

Modello di BusinessModello di Business

In modo formale, un modello è una formula matematica che spiega l’effetto degli input sugli output. Come tale, può essere raffinato e messo a punto per una maggiore precisione attraverso un processo iterativo di comprensione dei dati che sono alla sua base.

Il modello è quindi la topologia delle relazioni che mappa quali condizioni di input hanno influenza su specifiche condizioni di output e come alcune relazioni possono influenzare significativamente altre relazioni.

Una volta che il modello è stato creato e raffinato ad un accettabile grado di accuratezza, esso può essere usato in due modi:

descrittivo

permettendo agli utenti finali di studiare le relazioni scoperte tra i dati per migliorare la comprensione dei fattori chiave che influenzano il business.

predittivo

determinando la più probabile condizione di output associata agli input forniti.

Il modello è la rappresentazione delle relazioni chiave che sono scoperte durante il processo di Data Mining.

Page 11: Seminario Di Data Mining

Predisposizione della base dati in inputPredisposizione della base dati in inputConsiste nella creazione della matrice dei dati disegnata sulla base del modello dati dettato dalle esigenze di analisi e dagli obiettivi preposti. Questa matrice viene indicata in vari modi: da Data Mart delle Analisi (DMA), a Data Mart del Data Mining a tabelle per il Data Mining.

Il modello dati impone sicuramente delle trasformazioni dei dati originari al fine di disporre i dati di input nella forma propria per i successivi processi di analisi quantitativa. Il rilascio del DMA è subordinato ad un’attività di controllo di qualità dei contenuti informativi:

Controllo formale

per l’individuazione delle variabili non utilizzabili, variabili fisicamente esistenti ma non implementate

   Controllo sostanziale

per la verifica del contenuto delle variabili implementate, presenza di modalità non previste

 

Effettuati i controlli formali e sostanziali, potrebbe emergere la mancanza di alcuni elementi informativi essenziali per il proseguimento dell’attività di analisi. In questi casi è necessario riciclare sulla fase di individuazione delle fonti, individuazione di nuove e/o procedendo alle opportune trasformazioni.

Page 12: Seminario Di Data Mining

ConsiderazioniConsiderazioni

Assenza sulle basi di dati delle informazioni necessarie ad una teoria consolidata del consumatore

Limitata profondità storica nella base informativa disponibile

La base informativa utile e disponibile per l’analisi comprende

Dati sull’Anagrafica

Dati sulle Componenti Geografiche

Dati sul Comportamento (recency)

Dati sull’Utilizzo del Prodotto (frequency)

Dati sulle Transazioni (monetary value)

alcuni elementi che possono influire sull’efficacia dell’analisi

Per ogni cliente devono essere identificati un insieme di misure necessarie alla costruzione degli indici comportamentali e predittivi

Page 13: Seminario Di Data Mining

Le motivazioni che portano all’estrazione di un campione rappresentativo si basano sulle seguenti considerazioni:

l’entità dell’errore campionario è tenuta sotto controllo dalla teoria dei campioni;

i migliori tempi di elaborazione;

la suddivisione dei dati in tre (o più) sottoinsiemi per il training, la validazione e il test del modello;

avere a disposizione più basi di confronto per la costruzione e per la scelta dei modelli di sintesi.

 

In particolare lavorare su un sotto-insieme rappresentativo dell’universo di riferimento permette di tenere sotto controllo il rischio di costruire modelli auto-esplicativi: la bontà di una regola consiste nella sua capacità discriminante, ma anche nella sua robustezza. In questo caso si dice che la regola è “over-fitted” o si è verificato un “overtraining”.

Quando il modello è stato addestrato intensamente sul training set può apprendere il noise dei dati in esso contenuti invece dei sottostanti pattern. Per questa ragione è indispensabile un secondo insieme di dati “nuovo” per la validazione.

Il maggiore timore dell’utilizzo della base campionaria rispetto all’intera popolazione è di perdere cruciali informazioni per la costruzione di un buon modello. Comunque, statisticamente si può avere un’ottima confidenza se ci sono abbastanza dati e l’effetto della ricerca (come una propensione all’acquisto o un buon rischio di credito) è sufficientemente prevalente, il tal caso si ha un buon modello.

CampionamentoCampionamentoIn generale è opportuno impostare l’attività di analisi su base campionaria, soltanto in alcune circostanze è consigliabile lavorare sull’intera popolazione di riferimento.

Page 14: Seminario Di Data Mining

 

Bisogna quindi consolidare i dati e risolvere il più possibile i problemi individuati nella fase di esplorazione.

Solitamente si individuano quattro categorie di problemi:

valori mancanti

dati sporchi

Outliers

dati incerti

In questa fase si studia il comportamento dei dati per l’individuazione di andamenti non omogenei e degli outliers.

Preprocessing e scouting dei datiPreprocessing e scouting dei dati

Consolidamento e cleaning

Viene “costruito” un database con dati “omogenei” che saranno alla base della costruzione del modello.

Page 15: Seminario Di Data Mining

 Le trasformazioni potrebbero essere dettate da esigenze di migliore comprensione del fenomeno e dalla massimizzazione delle informazioni contenute nei dati: una combinazione di variabili può portare alla creazione di una nuova dimensione maggiormente esplicativa. La trasformazione è inoltre dettata anche da esigenze di sintesi: l’applicazione del metodo delle componenti principali, ad esempio, riduce le dimensioni del problema individuando un limitato numero di variabilità essenziale del fenomeno indagato.

Sostanzialmente le trasformazioni possono essere di due tipi:

 

1.       Trasformazioni sulla distribuzione dei dati:

modificazioni matematiche alla distribuzione delle variabili.

 

2.       Creazioni di dati:

creazione di nuove variabili dalla combinazione di variabili esistenti per eseguire tassi, differenze e così via.

 

Per le analisi statistiche, la fase della trasformazione dei dati è critica poiché alcune metodologie statistiche richiedono che i dati siano linearmente collegate ad una variabile obiettivo, normalmente distribuiti e liberi dagli outliers. Mentre i metodi dell’intelligenza artificiale e del machine learning non richiedono rigorosamente che i dati siano normalmente distribuiti o lineari, e alcuni metodi – gli alberi decisionali, per esempio – non richiedono che gli outliers siano trattati preventivamente. Questa è la maggiore differenza tra le analisi statistiche e il data mining. Gli algoritmi del machine learning hanno la capacità di trattare automaticamente con distribuzioni non lineari e non normali, anche se in molti casi gli algoritmi lavoreranno meglio se questi criteri sono verificati.

Trasformazione dei datiTrasformazione dei datiDopo che i dati sono stati “puliti”, trattati tutti i valori non validi e mancanti e valutata la consistenza dei dati si è pronti per effettuare le trasformazioni necessarie.

Page 16: Seminario Di Data Mining

Identificato il problema di business e preparati i dati da esplorare bisogna scegliere quale tecnica si vuole applicare per analizzare i dati. In molte situazioni un analista può usare una varietà di tecniche, ma ogni tecnica guida l’analisi in una particolare direzione e rappresenta i risultati in modo differente.

Le varie tecniche di analisi, chiamate anche approcci, modelli o funzioni, in accordo alle categorie di applicazioni in cui possono essere usate, sono raggruppate in sei classi principali come segue:

 

Classificazioni,

Regressioni,

Serie storiche

Clustering,

Associazioni,

Reti neurali

Tecniche di analisi per la costruzione del modelloTecniche di analisi per la costruzione del modello

AED

CB

E

0

20

40

60

80

100

Est

Ovest

Nord

Page 17: Seminario Di Data Mining

Algoritmo demograficoAlgoritmo demografico

• I record sono confrontati a coppie rispetto al valore di ogni singolo campo

il numero di campi che hanno valori simili/dissimili determina il grado con cui i record sono giudicati simili/dissimili

questi possono essere considerati come voti pro e contro la similarità di due record

• I segmenti sono costruiti confrontando ogni record con i segmenti costruiti fino a quel momento

un record viene attribuito al segmento per il quale è massima la differenza tra i voti pro e contro l'assegnazione del record

• Il processo e' iterativo

dopo una prima assegnazione di tutti i record, nei passi successivi si prova ad assegnare ogni record ad ogni altro segmento e si valuta se riassegnarlo ad un segmento differente da quello di appartenenza

nuovi segmenti possono essere creati durante tutto il processo

• Il numero di segmenti viene determinato automaticamente

• Si basa sul concetto di similarita', non su quello di distanza

• Gestisce sia le variabili categoriche che quelle continue

• Veloce e scalabile, lavora bene su grosse moli di data

Page 18: Seminario Di Data Mining

Algoritmo gerarchicoAlgoritmo gerarchico

Fatturato mese

<£100000 >£100000

<5yr >5yr

Posizione geografica

Grande centro Piccolo centro

Utilizzo servizi

HIghLowLowHIghFatturato

mesePosizione geografica

Grande centro

Anzianità cliente

<£50000 >£50000 Piccolo centro

>5yr<5yr

Utilizzo servizi

HIghLow

ChurnerChurner marginale

Non churner

Page 19: Seminario Di Data Mining

Kohonen MapsKohonen Maps

0.1

0.2

0.7

0.2

0.6

0.6

0.1

0.9

0.4OUTPUT

età

Ultima fattura

Prod. Acquistati

INPUT

Margine

Le reti di Kohonen, conosciute anche come self-organizing map, nascono per il riconoscimento di suoni ed immagini: producono una "mappa delle caratteristiche"

Per ogni record nella base dati, ogni segmento compete per l'assegnazione del record concordemente con i propri parametri. I parametri dei segmenti vengono modificati ad ogni iterazione sui dati.

Si differenziano dalle altri reti neurali per la topologia e per la non applicabilita' del metodo di apprendimento backpropagation

Page 20: Seminario Di Data Mining

……alcuni esempialcuni esempi

Page 21: Seminario Di Data Mining

L’accurata segmentazione della clientela consente di conoscere i propri clienti, di definire nuovi 'prodotti/tariffe/sconti‘, di utilizzare i risultati ottenuti per identificare le azioni migliori di “customer retention” ed attuare la riduzione del churn e delle morositá.

Per consentire di chiarire che tipo di prodotti/servizi vengano utilizzati e come i clienti li utilizzino è possibile analizzare la popolazione effettuando due clustering distinti, riferiti ai comportamenti generali ed ai pattern di consumo

Modello 1 - descrive e classifica i Clienti individuando diverse tipologie di comportamento e di utilizzo del servizio

Modello 2 - descrive e classifica i Clienti in riferimento ai diversi pattern di consumo

Ai fini di un’analisi dinamica dei segmenti si renderà necessaria la revisione dei modelli di clustering in funzione di cambiamenti nello scenario proprio del settore, di

azioni intraprese dai competitors, e dall’emergere di nuovi trends

Page 22: Seminario Di Data Mining

Chi e' il cliente?CHI

Prodotti &

ServiziQUALI

Per quali prodotti e/o servizi ha stipulato un contratto?

Come usa i prodotti e i servizi?

DOVE

QUANDO

QUANTO

Il Clustering è in generale il punto di partenza del processo di sviluppo degli Indicatori Predittivi in quanto capace di fornire una prima comprensione della Customer base

Le informazioni ottenute dalla segmentazione sono poi utilizzate per completare e ottimizzare l’analisi degli Indicatori Predittivi

Applicando metodologie di mining è possibile classificare i clienti in gruppi omogenei per differenti stili di comportamenti e consumi

Page 23: Seminario Di Data Mining

La Cluster Analysis si basa sulla logica di Knowledge Discovery che dai dati conduce alla generazione e validazione delle ipotesi

Step di analisi

Fase 1 - Unsupervised learning su campione

•Preparazione e trasformazione dei dati

•Selezione delle variabili di input per il modello di segmentazione

•Campionamento

•Cluster Analysis

Fase 2 – Supervised learning su campione

Identificazione delle regole di assegnazione ai cluster

Fase 3 – Applicazione su tutta la popolazione

Proiezione sull’intera popolazione

Page 24: Seminario Di Data Mining

La segmentazione della clientela consentirà non solo di individuare gruppi omogenei di clienti ma anche di verificare l’evolversi del loro comportamento nel tempo

Una visione unitaria di dimensioni e movimenti dell'intero portafoglio di Segmenti

Un meccanismo di registrazione dei movimenti che permetta di analizzare le tendenze nei passaggi di clienti fra segmenti nel corso del tempo

Un metodo d i targeting strategico per favorire i movimenti verso i segmenti a maggior valore

La capacità di mirare gli sforzi sui segmenti:

al mantenimento della lealtàalla promozione verso segmenti migliorialla rimozione dei clienti in perdita

Migrazione dei Clienti Fornisce

Va

lore

Po

ten

zia

le

FedeleInfedele

Bas

so

Alt

o

Stars Leali

Nuve Stars

Stagionali

Acquisti Ripetuti

Restitutori

L'Area del Profitto

Acquirenti Nuovi,

Occasionale

Anziani

Lealtà/Profittabilità

Previsione sulla tipologia di acquisti

&E sul potenziale di crescita

per segmento

Page 25: Seminario Di Data Mining

Il LifeTime Value è l’indicatore di redditività attesa da ciascun cliente, e

permette il riconoscimento dei clienti su cui investire maggiormente

Il Life Time Value è il valore attuale netto dei margini che il cliente potrà generare per l’azienda nel corso della sua vita economica.

L’indicatore ha lo scopo di permettere all’utilizzatore finale di svolgere:

Il Ranking della base clienti in funzione di

LTV

ovvero sarà possibile effettuare una classificazione dei

clienti in base al valore futuro atteso dei margini

Page 26: Seminario Di Data Mining

La definizione dell’indicatore di LifeTime Value si presta a 3 differenti strategie di analisi, ciascuna delle quali presenta un livello di complessità diverso

Modello 1:Modello 1:

tecniche di forecasting classiche, basate sull’utilizzo di medie mobili / exponential smoothing.

Modello 2:Modello 2:• suddivisione della popolazione in differenti segmenti omogenei;• stima di differenti funzioni per i singoli segmenti;• conduzione di due distinti esercizi di stima per M(t) e P(t);• costruzione dell’ indicatore LTV come sommatoria di prodotti M(t) P(t).

0

20

40

60

80

100

Est

Ovest

Nord

AED

CB

E

0

20

40

60

80

100

Est

Ovest

Nord

Modello 3:Modello 3:

utilizzo di reti neurali, basandosi sul modello di stima elaborato per l’indicatore di churn.

Preciso ed efficace, per quanto più complesso; permette di utilizzare informazioni supplementari derivanti dalla cluster analysis e dall’indicatore di churn.

Soggetto a problematiche inerenti la possibile correlazione negli errori di stima tra M(t) e P(t).

Gen-Feb ‘99 Mar-Apr ‘99

Semplice e poco oneroso; produce risultati eccellenti in relazione al contesto di analisi, se supportato da un’alta stabilità nel tempo del ranking dei clienti in termini di margine.

Page 27: Seminario Di Data Mining

Il data mining è una grande proposta di aiuto per le organizzazioni a scoprire i pattern nascosti nei loro dati.Comunque, gli strumenti di data mining devono essere guidati da utenti che conoscono il business, i dati e la natura generale dei complessi metodi analitici. Realistiche aspettative possono raccogliere risultati attraverso un ampio range di applicazioni, dal miglioramento delle entrate alla riduzione dei costi.Costruire i modelli non è solo un passo nella scoperta della conoscenza. Il “migliore” modello è spesso trovato dopo la costruzione di modelli di diversi tipi e provando varie tecnologie e/o algoritmi

ConsiderazioniConsiderazioni

Chi e' il cliente?CHI

Prodotti &

ServiziQUALI

Per quali prodotti e/o servizi ha stipulato un contratto?

Come usa i prodotti e i servizi?

DOVE

QUANDO

QUANTO