Costruzione di Modelli Previsionali - Intranet...
Transcript of Costruzione di Modelli Previsionali - Intranet...
Metodologie per SistemiIntelligenti
Ing. Igor RossiniLaurea in Ingegneria InformaticaPolitecnico di MilanoPolo Regionale di Como
Costruzione diModelli Previsionali
© Igor Rossini
Agenda
• Knowledge discovery in database • Costruzione di modelli previsionali• Dati dipendenti dal tempo• Ciclo di vita del cliente
© Igor Rossini
Agenda
• Knowledge discovery in database • Costruzione di modelli previsionali• Dati dipendenti dal tempo• Ciclo di vita del cliente
© Igor Rossini
Knowledge Discovery in Databases (KDD)• E’ il processo per identificare nei dati
pattern con caratteristiche di validità, novità, utilità potenziale e facilità di comprensione(Frawley, Piatetsky, Shapiro, Mattheus, 1991)
© Igor Rossini
Dati
© Igor Rossini
Pattern o forme (1)
• Espressione (o regola) che descrive un fatto
• Esempio: “se il cliente auto ha un etàcompresa tra i 18 e i 21 anni allora ha una elevata probabilità di causare un sinistro”
© Igor Rossini
Pattern o forme (2)
Età
Sinistro
18-21 21-27 27-35
Si
No
…..
© Igor Rossini
Caratteristiche dei pattern
• Validità: il pattern individuato potrebbe essere valido per i nuovi dati con lo stesso livello di certezza
• Novità: i pattern rappresentano delle novità che possono essere valutate attraverso un confronto tra i valori dei dati attuali e i valori dei dati passati
• Utilità Potenziale: i pattern individuati dovrebbero potenzialmente condurre ad azioni utili
• Facilità di comprensione: i pattern devono essere definiti allo scopo di migliorare e facilitare la comprensibilità dei dati
© Igor Rossini
Il processo di KDD
Dati Dati Selezionati
Dati Preparati Dati Trasformati
Risultati
Selezione
PreparazioneTrasformazione
Data Mining
Valutazione
Conoscenza
© Igor Rossini
Le fasi principali (1)
Selezione dati
Definizionedel problema
Pulizia dati
Caratteristiche fenomeno
- Selezione dominio di applicazione
- Definizione degli obiettivi aziendali
- Selezione delle fonti dati da utilizzare
- Pulizia e normalizzazione dei dati
- Eliminazione dei dati rumorosi (noise) e dei valori estremi (outlier)
- Gestione dei campi vuoti (missing value)
- Realizzazione di una struttura dati piùadatta agli scopi e agli obiettivi prefissati
- Applicazione di tecniche di riduzione dimensionale
- Selezione del set di variabili più adatte per il processo di analisi
- Applicazione di metodi di trasformazione
© Igor Rossini
Le fasi principali (2)
Selezione tecniche
Data MiningScelta del task Data Mining
Analisi eValidazione
risultati
- Definizione del tipo di analisi da effettuare (classificazione, previsione, ecc.)
- Selezione delle tecniche di datamining da utilizzare per ricercare i pattern nei dati
- Ricerca dei pattern di interersse
- Interpretazione dei pattern scoperti con possibilità di reiterare l’intero processo
- Consolidamento della conoscenza acquisita
- Analisi esplorative dei modelli e definizione di opportune ipotesi
© Igor Rossini
Esempio: Identificazioni Frodi (1)
• Definizione del problema: Ottenere un profilo degli utenti che commettono delle frodi, allo scopo di riuscire a capire se un nuovo contratto può essere pericoloso per l’azienda
• Raccolta dati: i dati provengono da filiali differenti. Sono omogenei? Sono nello stesso formato? Sono memorizzati su supporti compatibili?
• Data “cleaning”: I dati contengono informazioni che sono sicuramente inutili? Se si è utile eliminarla.
© Igor Rossini
Esempio: Identificazioni Frodi (2)
• Conoscenza Implicita/Esplicita: “..le frodi generalmente vengono effettuate da utenti che chiamano numeri stranieri o service provider(166/144)..”
• DATA MINING: dai dati forniti su casi utenti che hanno commesso frodi e di utenti che non ne hanno commesse, generare una serie di profili che:– caratterizzano gli utenti che devono essere considerati
rischiosi– ma che non si applicano ad utenti sicuri!
© Igor Rossini
Esempio: Identificazioni Frodi (3)
• Validazione: il risultato ottenuto è quello che il committente si aspettava? E’ ragionevole?
• Proposta di nuovi goal:– “… I risultati sono interessanti…riuscireste ad…”– “… automatizzare il processo in modo che sia
possibile aggiornare i profili ogni settimana o mese?”– “… essere tanto accurati da scoprire con buona
certezza se c’è una possibile frode in atto nelle ultime sei ore?”
© Igor Rossini
KDD
In generale il KDD è il processo di trasformazione ….
• ….dei dati in informazione e• dell’informazione in conoscenza• allo scopo di migliorare…di capire….
© Igor Rossini
Dal Dato alla Conoscenza
Dati
Informazione
ConoscenzaProcesso
Decisionale
Settore Operativo
Richieste
© Igor Rossini
Catena del Valore dell’Informazione
Dati-Demografici-Geografici-Transazionali-Customer base
Informazioni-Bianchi vive a Roma -Rossi ha acquistato un palmare-Verdi ha 32 anni-Neri ha collezionato 3 sinistri auto
Conoscenza-Il conto corrente on-line è acquistato da clienti giovani
-Chi ha una polizza vita compra anche una polizza malattia-I clienti di classe medio-alta hanno una propensione all’abbandono più alta
Decisioni-Promuovere Il conto corrente on-line a clienti giova
-Offrire una polizza malattia a chi possiede già polizzavita-Effetuare campagne anti-attrition per i clienti di classmedio alta
© Igor Rossini
Conoscenza e Metaconoscenza
Si sa di Sapere Si sa di non Sapere
Non si sa di Sapere Non si sa di non Sapere
Con
osci
uto
Non
C
onos
ciut
o
Conosciuto Non ConosciutoM
etac
onos
cenz
a
Conoscenza Vera
© Igor Rossini
Data Mining (1)
• Il Data Mining consiste in una serie di applicazioni di tecniche statistiche, algoritmiche e di visualizzazionefinalizzate alla scoperta, quanto piùautomatizzata, di fenomeni interessanti(pattern, regolarità, outlier, ecc.) in grandi volumi di dati
© Igor Rossini
Data Mining (2)
• “Il Data Mining si occupa della scoperta di pattern non prevedibili a priori e nuove regole da grandi basi di dati”. [A. Zantiage, Data Mining, Addison-Wesley, 1998]
• “Il Data Mining è il processo di esplorazione e analisi, automatico o semiautomatico, di un ampia mole di dati al fine di scoprire modelli e regole significative. “[M. J. A. Berry, G. S. Linoff, , Data Mining, Apogeo,2001]
• “Per Data Mining si intende il processo di selezione, esplorazione e modellazione di grandi masse di dati al fine di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile al proprietario del database.”[P. Giudici, Data Mining, McGraw- Hill, 2001]
© Igor Rossini
Data Mining Predittivo (1)
• si usa quando si conosce cosa cercare e si indirizzano gli sforzi d’analisi verso un obiettivo specifico
• il modello predittivo è costruito secondo la modalità top-down a partire da esempi giànoti e si applica poi a esempi non noti
© Igor Rossini
Data Mining Predittivo (2)
• Il modello predittivo è rappresentato da una black box: a volte non interessa il meccanismo di funzionamento ma interessa la migliore previsione possibile
Input Output
© Igor Rossini
Esempi
• Previsione della possibile risposta del consumatore ad una certa campagna di mercato
• Previsione delle possibili perdite di consumatori nel medio/lungo periodo
• Classificare le richieste di prestiti, mutui, applicazioni per carte di credito in fasce di basso/medio/alto rischio
• Individuazione di richieste di rimborsi assicurativifraudolenti
• Stima della spesa media dei consumatori rispetto ad una campagna pubblicitaria
• Stima delle quantità richieste o acquistate di certi beni
© Igor Rossini
Agenda
• Knowledge discovery in database • Costruzione di modelli previsionali• Dati dipendenti dal tempo• Ciclo di vita del cliente
© Igor Rossini
Processo di costruzione dei modelli (1)
1-Set di addestramento (Training set)
Il modello viene sperimentato utilizzando dati preclassificati.In questa fase gli algoritmi di data mining trovano pattern di valore previsionale
2-Set di prova(Test set)
Questo set di dati serve a garantire che il modello non memorizzi il set di addestramento garantendo che sia il più generale possibile e che funzioni meglio con dai sconosciuti
3-Set di Valutazione (Evaluation set)
Questo set di dati serve a verificare ulteriormente il rendimento del modello
4-Set di calcolo (Score set)
Questo set di dati è non preclassificato e genera la previsione
© Igor Rossini
Set di Calcolo4
3
Processo di costruzione dei modelli(2)
Set di Addestramento
Modello (grezzo)
Set di Prova Modello (grezzo)
Modello (grezzo)
Modello (grezzo)
Modello (migliore)
Set di Valutazione
Previsione
1
2
© Igor Rossini
Valutazione delle prestazioni
• Matrice di Confusione: matrice che permette di individuare quali tra le previsioni fornite dal modello previsionale siano corrette e quali errate
• Curva Lift: grafico che raffigura le prestazioni di un modello previsionalecome funzione della dimensione del campione
© Igor Rossini
Matrice di Confusione (1)
• Hp: 3 classi C1, C2, C3.
C11
C1 C2 C3
C12 C13
C21 C22 C23
C31 C32 C33
C1
C2
C3
© Igor Rossini
Matrice di Confusione (2)
• Regola 1– I valori della diagonale principale rappresentano le classificazioni corrette– Esempio: il valore C11 rappresenta il numero totale di casi della classe C1
correttamente classificati dal modello• Regola 2
– I valori nella riga Ci rappresentano quei casi che appartengono alla classi Ci.– Esempio: se i=2 I casi associati alle celle C21 , C22 , C23 appartengono tutti alla
classe C2.– Il numero totale di casi della classe C2 erroneamente classificati sono pari alla
somma di C21 e C23.• Regola 3
– I valori nella colonna Ci indicano i casi classificati come membri della classe Ci.– Esempio: se i=2 I casi associati alle celle C12 , C22 , C32 sono classificati come
membri della C2.– Il numero totale di casi erroneamente classificati come membri della classe C2
sono pari alla somma di C12 e C32.
© Igor Rossini
Esempio (1)
• Modello che accetta o rifiuta le richieste dicarta di credito
Richieste Rifiutate
(calcolate)
Accettate correttamente
Richieste Accettate
(calcolate)
Accettate
Rifiutate
Rifiutate erroneamente
Accettate erroneamente Rifiutate correttamente
© Igor Rossini
Esempio (2)
Richieste Rifiutate
600
Richieste Accettate
Accettate
Rifiutate
75
75 300
MODELLO A
Hp: Tasso di errore del 10%
Richieste Rifiutate
600
Richieste Accettate
Accettate
Rifiutate
75
25 300
MODELLO A
Quale il modello migliore?
Occorre valutare il costo medio del mancato pagamento della carta di credito con la perdita media di profitto che si ottienerifiutando i soggetti che sono buoni candidati
Nell‘esempio il modello B è il migliore perché la matrice indicache ha meno probabilità di accordare erroneamente una carta dicredito a un soggetto che probabilmente sarà insolvente
© Igor Rossini
Curva Lift
10 20 30 40 50 60 70 80 90 100
10
20
30
40
50
60
70
80
90
100
0
Dati suddivisi in Percentili
% R
ispo
ste
corr
ette
Lift=3,5 (70/20)
© Igor Rossini
Esempio di buon modello
10 20 30 40 50 60 70 80 90 100
10
20
30
40
50
60
70
80
90
100
0
Richieste di risarcimento in %
% F
rodi
rile
vate
Training Set
Test Set
Evaluation Set
Baseline
© Igor Rossini
Incremento teorico massimo (1)
10 20 30 40 50 60 70 80 90 100
10
20
30
40
50
60
70
80
90
100
0
Clienti in %
% A
bbon
ati a
l ser
vizi
o
Miglior Risultato Teorico
Curva di Modello
Baseline
© Igor Rossini
Incremento teorico massimo (2)
• Il primo 10% dei clienti corrisponde ad appena il 16% dei clienti con avviso di chiamata
• In realtà il 55% dei clienti possiede l’avviso di chiamata
• Quindi se tutti i clienti con il maggior punteggio avessero l’avviso di chiamata essi inciderebbero per il 18%
• L’averne trovati il 16% costituisce un buon risultato
© Igor Rossini
Sovrapprendimento
10 20 30 40 50 60 70 80 90 100
10
20
30
40
50
60
70
80
90
100
0
Clienti in %
% A
bbon
ati a
l ser
vizi
o
Curva di Modello
Baseline
© Igor Rossini
Correlazione Input-Output
10 20 30 40 50 60 70 80 90 100
10
20
30
40
50
60
70
80
90
100
0
Clienti in %
% A
bbon
ati a
l ser
vizi
o
Curva di Modello
Baseline
© Igor Rossini
Promozioni Carte di Credito (1)
10 20 30 40 50 60 70 80 90 100
100
200
300
400
500
600
700
800
900
1000
0
% Campionata
Num
ero
Ris
post
e
Risultato del Modello
Baseline
Utilizzando il 20% della popolazione possiamo aspettarci una risposta da 625 delle 20.000 persone campionate
© Igor Rossini
Promozioni Carte di Credito (2)
Offerte Rifiutate(calcolate)
1.000
Offerte Accettate(calcolate)
Accettate
Rifiutate
0
99.000 0
NESSUNMODELLO
1.000Accettate
Rifiutate
0
0 99.000
MODELLOIDEALE
Offerte Rifiutate(calcolate)
Offerte Accettate(calcolate)
Nessun Modello: a tutti i clienti con saldo nullo é statainviato il rendiconto con l‘offerta promozionale
Il lift del modello é pari a 1 perchè il campione e la popolazione sono uguali
© Igor Rossini
Promozioni Carte di Credito (3)
Offerte Rifiutate(calcolate)
540
Offerte Accettate(calcolate)
Accettate
Rifiutate
460
23.460 75.540
MODELLO A
450Accettate
Rifiutate
550
19.950 79.450
MODELLO BOfferte Rifiutate
(calcolate)Offerte Accettate
(calcolate)
Due matrici di confusione per modelli alternativi con liftpari a 2,25
Lift (Modello A) = (540/24.000)/(1.000/100.000) = 2,25
Lift (Modello B) = (450/20.000)/(1.000/100.000) = 2,25
© Igor Rossini
Promozioni Carte di Credito (4)
• Quale il modello migliore?• Occorre considerare i costi delle scelte dei
falsi positivi e dei falsi negativi• Il modello Y è la scelta migliore se la
riduzione delle spese delle spedizionipostali (4.000 spedizioni in meno) compensano la riduzione di profittoderivante dalle minori vendite (90 venditein meno)
© Igor Rossini
Densità del Set di Costruzione
• Campionatura– creazione di un insieme di dati che contiene
una quantità di record inferiore rispetto a quella del set di dati originario
• Sovracampionatura– creazione di un set di dati di costruzione con
una quantità maggiore di risultati rari e unainferiore di quelli comuni per bilanciare ilrapporto fra il numero dei valori in output nelset di costruzione
© Igor Rossini
Utilizzo della Sovracampionatura
• L'output può essere molto raro, come nelcaso dei guasti nei macchinari
• L'output può richiedere una convalidaprima di poter essere usato nellamodellazione, come nei casi di frode
• L'output può interessare un lasso di tempo limitato, come gli abbandoni dei clienti o glistorni dall'attivo di un singolo mese
© Igor Rossini
`
Esempio (1)
`
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
Set di dati iniziale con una densità del 10%
2 9 10
12 19 20
25 29 30
31 39 40
35 49 50
Set di dati sovracampionati con una densità del 33,3%
© Igor Rossini
`
Esempio (2)
2 9 10
12 19 20
25 29 30
31 39 40
35 49 50
Un algoritmo di data mining assegna il suo punteggio maggiore al 40% del set di costruzione sovracampionato attribuendo un incremento (o lift) di 2
Accuratezza previsionale pari al 66,7% (4 record rossi nei 6 trovati)
Incremento pari a 2 essendo nel set di dati sovracampionato il 33,3% dei record rossi (2=66,7%/33,3%)
Dimensione del 40% (40%=6/15)
© Igor Rossini
`
Esempio (3)
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
I 10 risultati chiari del set sovracampionato ne rappresentano 45 (2:9) nel set iniziale
I 5 risultati rossi del set sovracampionato li rappresentano tutti e 5 (1:1)
L'accuratezza previsionale sarebbe del 30,7% perché i 4 rossi e i 2 chiaricorrispondono ora ai 4 rossi e ai 9 chiari trovati dall'algoritmo
L‘incremento è del 3,07% perché i dati originali sono scuri al 10% (3,07=30,7%/10%)
La dimensione equivale ora a 26%(=13/50)
Sui dati originali (senza sovracampionatura) il segmento con il maggior punteggio di questo modello corrisponde al 26% dei dati e ad un incremento di 3 punti
© Igor Rossini
Effetti della Sovracampionatura
• Occorre sempre convertire il punteggio generato da un modello costruito su un set sovracampionato in unaprobabilità sui dati originali
• Analogamente occorre valutare l'impatto dellasovracampionatura sul numero dei record selezionati per un'iniziativa di marketing con un punteggio assegnato dalmodello superiore ad certo valore soglia
Set di dati SovracampionatiLift di 2 sul 40% dei dati
Set di dati OriginaleLift di 3 sul 26% dei dati
Set di dati SovracampionatiValore soglia corrispondente 1% dei dati
Set di dati OriginaleValore soglia corrispondente 0,07% dei dati
© Igor Rossini
Agenda
• Knowledge discovery in database • Costruzione di modelli previsionali• Dati dipendenti dal tempo• Ciclo di vita del cliente
© Igor Rossini
Dati dipendenti dal tempo
• Il timeframe (intervalli temporali) gioca un ruolofondamentale nella costruzione di modelliprevisionali
• Si divide in tre categorie temporali principali:
PassatoConsiste in quello che si è giàverificato e nelle informazioni giàraccolte e processate. Contienele informazioni del passato
PASSATO REMOTO: utilizzatoper i dati di inputPASSATO RECENTE: determinagli outputLATENZA: rappresenta ilpresente
PresenteE' il periodo di tempo in cui il modello è costruito. Le informazioni sul presente non sono disponibili perché ancora in fase di elaborazione dei sistemi operazionali.
FuturoE' il periodo di tempo della previsione. Costruisce il modello sui dati del passato con le informazioni del passato e del presente.
© Igor Rossini
Dati dipendenti dal tempo
Passato Presente Futuro
Il passato serve a prevedere il futuro
Punto in cui finiscono i dati
Punto in cui iniziano le previsioni
Passato LatenzaOutputModello
Per costruire un modello efficace, i dati nel set di costruzionedevono imitare il timeframe in cui il modello verrà applicato
© Igor Rossini
Input e Output di un modello (1)
• La definizione degli output di un modello èsolitamente complessa
• Tutti i dati di input del modello devonoessere disponibili prima di qualsiasiinformazione utilizzata per determinare glioutput
• La violazione di questa regola determina la creazione di modelli che non riescono a prevedere correttamente il futuro
© Igor Rossini
Input e Output di un modello (2)
• Campagna di marketing dello scorso anno:
• Tutti i dati disponibili fino al passatorecente costituiscono gli input
Passato Remoto Consiste di tutti i dati a disposizione prima che venisse lanciata la campagna
Passato Recente Consiste nelle informazioni successive alla campagna
Presente Periodo in cui stiamo costruendo il modello per la campagna di quest'anno
Futuro Risposte all‘ultima campagna che non si sono ancora avute
© Igor Rossini
Caso Banca di Credito (1)
• Titolo: analisi dinamiche di acquistoportafoglio clienti
• Obiettivo: costruzione di un modelloprevisionale per prevedere i diversicomportamenti dei clienti
• Dati: storico di 18 mesi
© Igor Rossini
Caso Banca di Credito (2)
18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
Obiettivo: avere uno storico di 12 mesi per prevedere 6 mesi del futuro
Input MODELLO Output
Mesi del Passato
© Igor Rossini
Caso Banca di Credito (3)
L'utilizzo della variabile derivata Totale Saldi Scoperticalcolata con informazioni relative ai 12 mesi precedentidistorse i risultati
18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
Input MODELLO Output
Totale saldi scoperti
© Igor Rossini
Caso Supermercati Alfa (1)
• Titolo: promozione clienti Platino mese diagosto
• Obiettivo: proporre un'offerta speciale aiclienti che presentano maggiori probabilitàdi effettuare l‘acquisto nel mese di agosto
• Data Inizio Progetto: 1 giugno 2004• Dati: dal 1 settembre 2003 al 31 maggio
2004
© Igor Rossini
Caso Supermercati Alfa (2)
Set Ott Nov Dic Gen Feb Mar Apr Mag Giu
Input MODELLO Output
Metodologia: sviluppo di un modello per prevedere chi ha effettuato un'acquisto in maggio utilizzando i dati da settembre ad aprile
Cosa succede a Luglio?
© Igor Rossini
Caso Supermercati Alfa (3)
Set Ott Nov Dic Gen Feb Mar Apr Mag Giu
Input MODELLO Output
Lug Ago
Occorrono i dati di luglio per calcolare il modello ed effettuare una previsione ad Agosto
Le previsioni relative ad Agosto non sono disponibili alla fine dellostesso mese!!
1 Agosto: il modello è pronto in attesa dei dati di luglio richiesti come input
14 Agosto: i dati di luglio sono disponibili
16 Agosto: i dati sono stati puliti ed è stato assegnato loro un punteggio
20 Agosto: le previsioni del modello sono state preparate ed utilizzate
© Igor Rossini
Caso Supermercati Alfa (4)
Set Ott Nov Dic Gen Feb Mar Apr Mag Giu
Input MODELLO Output
Metodologia: i dati di aprile non vengono utilizzati come input nel modello. In tal modo tutte le informazioni sono disponibili quando il modello sarà calcolato
Aprile è il mese di latenza usato per calcolare e per preparare i risultati
© Igor Rossini
Caso Supermercati Alfa (5)
Metodologia: nessun problema per il calcolo del modello perché gli input sono ora disponibili a metà luglio
Set Ott Nov Dic Gen Feb Mar Apr Mag Giu
Input MODELLO Output
Lug Ago
© Igor Rossini
Modelli che si adattano nel tempo (1)
1 2 3 4 5 6 7 8 9 10
Input MODELLO
11 12
Output
Metodologia: il set di costruzione utilizza 10 mesi di storico per ricavare gli input e 1 mese per gli output.Le informazioni del mese di latenza non vengono usate.
L'utilizzo di tutto lo storico presenta lo svantaggio che il modello può attingere a caratteristiche del passato che non siapplicano al futuro.
© Igor Rossini
Modelli che si adattano nel tempo (2)
1 2 3 4 5 6 7 8
Input MODELLO Output
Metodologia: utilizzo di dati storici per realizzare set di costruzione con periodi di tempo che si sovrappongono
2 3 4 5 6 7 8 9
3 4 5 6 7 8 9 10
5 6 7 8 9 10 114
5 6 7 8 9 10 10 11
Gli algoritmi in tal modo conoscono strutture dati che non sono fissate in un dato momento cronologico
© Igor Rossini
Modelli Multipli (1)
Com
bina Modelli a combinazione di input
segmentati: utilizzano modelli diversi per parti diverse dell'input. Un solo modello viene impiegato per ogni record di input dato.
Modelli a combinazione di segmantazioni modellate: utilizzano i risultati di un modello per segmentare l'input e poi impiegare un altro modello per determinare l‘output.
© Igor Rossini
Modelli Multipli (2)
Se l‘affidabilità è alta, utilizza i risultatidel primo modello.Altrimenti impiega i risultati di un modello a bassa affidabilità.
Modelli a combinazione di correzione degli errori: utilizzano i risultati ad alta affidabilità da un modello e ne costruisconouno separato impiegando I risultati a bassaaffidabilità.
Modelli a combinazione di perfezionamento dei dati: utilizzano i risultati di un modello come input di un altro modello.
© Igor Rossini
Agenda
• Knowledge discovery in database • Costruzione di modelli previsionali• Dati dipendenti dal tempo• Ciclo di vita del cliente
© Igor Rossini
Ciclo di Vita del Cliente
Mercato Target
Nuovo Cliente
Alto Valore
Cliente Iniziale
AltoPotenziale
BassoValore
AbbandonoVolontario
AbbandonoForzato
Prospect ResponderCliente Effettivo
Ex Cliente
Acquisizione Attivazione Gestione del Rapporto e Retention
© Igor Rossini
Eventi Principali
Mercato Target
Nuovo Cliente
Alto Valore
Cliente Iniziale
AltoPotenziale
BassoValore
AbbandonoVolontario
AbbandonoForzato
Prospect ResponderCliente Effettivo
Ex Cliente
Campagne di AcquisizioneRisposta alla campagna di acquisizioneRichiesta InformazioniAdesione Formale
Utilizzo
Campagne di Cross-SellingCampagne di Up-Selling
Campagne Anti AttritionChurn
© Igor Rossini
Dati ricavabili nelle varie fasi
Mercato Target
Nuovo Cliente
Alto Valore
Cliente Iniziale
AltoPotenziale
BassoValore
AbbandonoVolontario
AbbandonoForzato
Cronologia Campagne
Dati demografici acquisiti
AltroCredit ReportInformazioni fornite spontaneamenteAltro
Utilizzo del prodottoStorico pagamentiRisposta alle campagne
Preferenze di canale
Altro
Motivazioni Abbandono
© Igor Rossini
Applicazioni di Data Mining
Mercato Target
Nuovo Cliente
Alto Valore
Cliente Iniziale
AltoPotenziale
BassoValore
AbbandonoVolontario
AbbandonoForzato
Modello Predittivo per la Vendita
Modello Predittivo per campagne di Cross/Up-Selling
Modello Predittivo per Risk AnalysisModelli Descrittivi su attributi “Rilevanti”
Modello Descrittivo sul comportamento del cliente
Modello Predittivo per individuazione di frodi
Modello Predittivo per il Churn
© Igor Rossini
Caso Acme Corporation
• Profilo: società di vendite per corrispondenza specializzata nella vendita diequipaggiamenti per la caccia
• Campagna di Marketing: lancio del nuovoprodotto esca per bip-bip pensato per I clienti più fedeli
• Budget: 300.000$• Obiettivo: ottimizzazione dei costi
© Igor Rossini
Lift del modello
10 20 30 40 50 60 70 80 90 100
10
20
30
40
50
60
70
80
90
100
0 Clienti %
% R
espo
nder
Modello di Risposta
Baseline
Curva di guadagno percentuale utilizzata ottenuta con il modello di risposta. Il 10% dei clienti con il punteggio più alto rappresenta il 30% deiresponder
© Igor Rossini
Dati di Marketing
• Costo spedizione offerta: 1 $• Previsione ordine cliente: 100 $
(di questi 55 $ coprono i costi del prodotto, della spedizione e di gestione)
• Ricavo netto cliente: 44 $ (100 – 55 – 1)• Spese fisse generali: 20.000 $• Percentuale di Risposta: 1%• Clienti: 1 milione
© Igor Rossini
Matrice di Ricavo
Si 44 $ - 1 $
0 $ 0 $No
Si No
EffettiviPr
evis
ti
© Igor Rossini
Foglio di Calcolo ricavi
Decile Ricavi Cum Lift Dim Dim (SI) Dim (NO) Profitto $
0 % 0,0 % 0 % 0,000 0 0 0 (20.000)
10 % 30,0 % 30 % 3.000 100.000 3.000 97.000 15.000
20 % 20,0 % 50 % 2.500 200.000 5.000 195.000 5.000
30 % 15,0 % 65 % 2.167 300.000 6.500 293.500 (27.500)
40 % 13,0 % 78 % 1.950 400.000 7.800 392.200 (69.000)
50 % 7,0 % 85 % 1.700 500.000 8.500 491.500 (137.500)
60 % 5,0 % 90 % 1.500 600.000 9.000 591.000 (215.000)
70 % 4,0 % 94 % 1.343 700.000 9.400 690.600 (297.000)
80 % 4,0 % 98 % 1.225 800.000 9.800 790.200 (379.000)
90 % 2,0 % 100 % 1.111 900.000 10.000 890.000 (470.000)
100 % 0,0 % 100 % 1.000 1.000.000 10.000 990.200 (570.000)
© Igor Rossini
Curve di profitto
0 1 2 3 4
(100.000 $)
0
(200.000 $)
100.000 $
200.000 $
300.000 $
400.000 $
500.000 $
5 6 7 8 9
Si = 100 $; No = 1 $
Si = 44 $; No = 1 $
Si = 44 $; No = 2 $
© Igor Rossini
Ottimizzazione dei clienti (1)
• Profilo: ampliamento della gamma dei prodotti. ACME è ha ora diversi reparti specializzati nelladisinfestazione di animali nocivi e parassiti
• Campagne di Marketing: gestite più campagnecontemporaneamente per promuovere tutta la vasta gamma di prodotti
• Obiettivo: dato un certo numero di campagne, sipunta all'ottimizzazione della campagna successivaper ogni cliente
© Igor Rossini
Ottimizzazione dei clienti (2)
Campagne Successive
Val
ore
Pote
nzia
le
Campagna 1
Campagna 2
Campagna 3Approccio basato sull‘ottimizzazione del profitto
Per quasi tutte le campagne viene scelto lo stesso segmento di clienti, mentre altri vengono completamente ignorati
Occorre evitare di sommergere i clienti di messaggi diversi perchè potrebbero ignorare il messaggio o peggio passare alla concorrenza
© Igor Rossini
Ottimizzazione dei clienti (3)
Campagne Successive
Val
ore
Pote
nzia
le
Campagna 1
Campagna 2
Campagna 3
Approccio basato sulla massimizzazione del valore di ogni cliente
Sono presi in considerazione tutti i possibili canali e messaggi che possono essere diretti ad ogni tipologia di clientela
Campagna 4
Campagna 5
Ottimizzare significa assegnare un precisomessaggio al cliente giusto