Costruzione di Modelli Previsionali - Intranet...

Metodologie per SistemiIntelligenti

Ing. Igor RossiniLaurea in Ingegneria InformaticaPolitecnico di MilanoPolo Regionale di Como

Costruzione diModelli Previsionali

© Igor Rossini

Agenda

• Knowledge discovery in database • Costruzione di modelli previsionali• Dati dipendenti dal tempo• Ciclo di vita del cliente

© Igor Rossini

Knowledge Discovery in Databases (KDD)• E’ il processo per identificare nei dati

pattern con caratteristiche di validità, novità, utilità potenziale e facilità di comprensione(Frawley, Piatetsky, Shapiro, Mattheus, 1991)

© Igor Rossini

Dati

© Igor Rossini

Pattern o forme (1)

• Espressione (o regola) che descrive un fatto

• Esempio: “se il cliente auto ha un etàcompresa tra i 18 e i 21 anni allora ha una elevata probabilità di causare un sinistro”

© Igor Rossini

Pattern o forme (2)

Età

Sinistro

18-21 21-27 27-35

Si

No

…..

© Igor Rossini

Caratteristiche dei pattern

• Validità: il pattern individuato potrebbe essere valido per i nuovi dati con lo stesso livello di certezza

• Novità: i pattern rappresentano delle novità che possono essere valutate attraverso un confronto tra i valori dei dati attuali e i valori dei dati passati

• Utilità Potenziale: i pattern individuati dovrebbero potenzialmente condurre ad azioni utili

• Facilità di comprensione: i pattern devono essere definiti allo scopo di migliorare e facilitare la comprensibilità dei dati

© Igor Rossini

Il processo di KDD

Dati Dati Selezionati

Dati Preparati Dati Trasformati

Risultati

Selezione

PreparazioneTrasformazione

Data Mining

Valutazione

Conoscenza

© Igor Rossini

Le fasi principali (1)

Selezione dati

Definizionedel problema

Pulizia dati

Caratteristiche fenomeno

- Selezione dominio di applicazione

- Definizione degli obiettivi aziendali

- Selezione delle fonti dati da utilizzare

- Pulizia e normalizzazione dei dati

- Eliminazione dei dati rumorosi (noise) e dei valori estremi (outlier)

- Gestione dei campi vuoti (missing value)

- Realizzazione di una struttura dati piùadatta agli scopi e agli obiettivi prefissati

- Applicazione di tecniche di riduzione dimensionale

- Selezione del set di variabili più adatte per il processo di analisi

- Applicazione di metodi di trasformazione

© Igor Rossini

Le fasi principali (2)

Selezione tecniche

Data MiningScelta del task Data Mining

Analisi eValidazione

risultati

- Definizione del tipo di analisi da effettuare (classificazione, previsione, ecc.)

- Selezione delle tecniche di datamining da utilizzare per ricercare i pattern nei dati

- Ricerca dei pattern di interersse

- Interpretazione dei pattern scoperti con possibilità di reiterare l’intero processo

- Consolidamento della conoscenza acquisita

- Analisi esplorative dei modelli e definizione di opportune ipotesi

© Igor Rossini

Esempio: Identificazioni Frodi (1)

• Definizione del problema: Ottenere un profilo degli utenti che commettono delle frodi, allo scopo di riuscire a capire se un nuovo contratto può essere pericoloso per l’azienda

• Raccolta dati: i dati provengono da filiali differenti. Sono omogenei? Sono nello stesso formato? Sono memorizzati su supporti compatibili?

• Data “cleaning”: I dati contengono informazioni che sono sicuramente inutili? Se si è utile eliminarla.

© Igor Rossini


• Conoscenza Implicita/Esplicita: “..le frodi generalmente vengono effettuate da utenti che chiamano numeri stranieri o service provider(166/144)..”

• DATA MINING: dai dati forniti su casi utenti che hanno commesso frodi e di utenti che non ne hanno commesse, generare una serie di profili che:– caratterizzano gli utenti che devono essere considerati

rischiosi– ma che non si applicano ad utenti sicuri!

© Igor Rossini


• Validazione: il risultato ottenuto è quello che il committente si aspettava? E’ ragionevole?

• Proposta di nuovi goal:– “… I risultati sono interessanti…riuscireste ad…”– “… automatizzare il processo in modo che sia

possibile aggiornare i profili ogni settimana o mese?”– “… essere tanto accurati da scoprire con buona

certezza se c’è una possibile frode in atto nelle ultime sei ore?”

© Igor Rossini

KDD

In generale il KDD è il processo di trasformazione ….

• ….dei dati in informazione e• dell’informazione in conoscenza• allo scopo di migliorare…di capire….

© Igor Rossini

Dal Dato alla Conoscenza

Dati

Informazione

ConoscenzaProcesso

Decisionale

Settore Operativo

Richieste

© Igor Rossini

Catena del Valore dell’Informazione

Dati-Demografici-Geografici-Transazionali-Customer base

Informazioni-Bianchi vive a Roma -Rossi ha acquistato un palmare-Verdi ha 32 anni-Neri ha collezionato 3 sinistri auto

Conoscenza-Il conto corrente on-line è acquistato da clienti giovani

-Chi ha una polizza vita compra anche una polizza malattia-I clienti di classe medio-alta hanno una propensione all’abbandono più alta

Decisioni-Promuovere Il conto corrente on-line a clienti giova

-Offrire una polizza malattia a chi possiede già polizzavita-Effetuare campagne anti-attrition per i clienti di classmedio alta

© Igor Rossini

Conoscenza e Metaconoscenza

Si sa di Sapere Si sa di non Sapere

Non si sa di Sapere Non si sa di non Sapere

Con

osci

uto

Non

C

onos

ciut

o

Conosciuto Non ConosciutoM

etac

onos

cenz

a

Conoscenza Vera

© Igor Rossini

Data Mining (1)

• Il Data Mining consiste in una serie di applicazioni di tecniche statistiche, algoritmiche e di visualizzazionefinalizzate alla scoperta, quanto piùautomatizzata, di fenomeni interessanti(pattern, regolarità, outlier, ecc.) in grandi volumi di dati

© Igor Rossini

Data Mining (2)

• “Il Data Mining si occupa della scoperta di pattern non prevedibili a priori e nuove regole da grandi basi di dati”. [A. Zantiage, Data Mining, Addison-Wesley, 1998]

• “Il Data Mining è il processo di esplorazione e analisi, automatico o semiautomatico, di un ampia mole di dati al fine di scoprire modelli e regole significative. “[M. J. A. Berry, G. S. Linoff, , Data Mining, Apogeo,2001]

• “Per Data Mining si intende il processo di selezione, esplorazione e modellazione di grandi masse di dati al fine di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile al proprietario del database.”[P. Giudici, Data Mining, McGraw- Hill, 2001]

© Igor Rossini

Data Mining Predittivo (1)

• si usa quando si conosce cosa cercare e si indirizzano gli sforzi d’analisi verso un obiettivo specifico

• il modello predittivo è costruito secondo la modalità top-down a partire da esempi giànoti e si applica poi a esempi non noti

© Igor Rossini

Data Mining Predittivo (2)

• Il modello predittivo è rappresentato da una black box: a volte non interessa il meccanismo di funzionamento ma interessa la migliore previsione possibile

Input Output

© Igor Rossini

Esempi

• Previsione della possibile risposta del consumatore ad una certa campagna di mercato

• Previsione delle possibili perdite di consumatori nel medio/lungo periodo

• Classificare le richieste di prestiti, mutui, applicazioni per carte di credito in fasce di basso/medio/alto rischio

• Individuazione di richieste di rimborsi assicurativifraudolenti

• Stima della spesa media dei consumatori rispetto ad una campagna pubblicitaria

• Stima delle quantità richieste o acquistate di certi beni

© Igor Rossini

Agenda


© Igor Rossini

Processo di costruzione dei modelli (1)

1-Set di addestramento (Training set)

Il modello viene sperimentato utilizzando dati preclassificati.In questa fase gli algoritmi di data mining trovano pattern di valore previsionale

2-Set di prova(Test set)

Questo set di dati serve a garantire che il modello non memorizzi il set di addestramento garantendo che sia il più generale possibile e che funzioni meglio con dai sconosciuti

3-Set di Valutazione (Evaluation set)

Questo set di dati serve a verificare ulteriormente il rendimento del modello

4-Set di calcolo (Score set)

Questo set di dati è non preclassificato e genera la previsione

© Igor Rossini

Set di Calcolo4

3

Processo di costruzione dei modelli(2)

Set di Addestramento

Modello (grezzo)

Set di Prova Modello (grezzo)

Modello (grezzo)

Modello (grezzo)

Modello (migliore)

Set di Valutazione

Previsione

1

2

© Igor Rossini

Valutazione delle prestazioni

• Matrice di Confusione: matrice che permette di individuare quali tra le previsioni fornite dal modello previsionale siano corrette e quali errate

• Curva Lift: grafico che raffigura le prestazioni di un modello previsionalecome funzione della dimensione del campione

© Igor Rossini

Matrice di Confusione (1)

• Hp: 3 classi C1, C2, C3.

C11

C1 C2 C3

C12 C13

C21 C22 C23

C31 C32 C33

C1

C2

C3

© Igor Rossini

Matrice di Confusione (2)

• Regola 1– I valori della diagonale principale rappresentano le classificazioni corrette– Esempio: il valore C11 rappresenta il numero totale di casi della classe C1

correttamente classificati dal modello• Regola 2

– I valori nella riga Ci rappresentano quei casi che appartengono alla classi Ci.– Esempio: se i=2 I casi associati alle celle C21 , C22 , C23 appartengono tutti alla

classe C2.– Il numero totale di casi della classe C2 erroneamente classificati sono pari alla

somma di C21 e C23.• Regola 3

– I valori nella colonna Ci indicano i casi classificati come membri della classe Ci.– Esempio: se i=2 I casi associati alle celle C12 , C22 , C32 sono classificati come

membri della C2.– Il numero totale di casi erroneamente classificati come membri della classe C2

sono pari alla somma di C12 e C32.

© Igor Rossini

Esempio (1)

• Modello che accetta o rifiuta le richieste dicarta di credito

Richieste Rifiutate

(calcolate)

Accettate correttamente

Richieste Accettate

(calcolate)

Accettate

Rifiutate

Rifiutate erroneamente

Accettate erroneamente Rifiutate correttamente

© Igor Rossini

Esempio (2)

Richieste Rifiutate

600

Richieste Accettate

Accettate

Rifiutate

75

75 300

MODELLO A

Hp: Tasso di errore del 10%

Richieste Rifiutate

600

Richieste Accettate

Accettate

Rifiutate

75

25 300

MODELLO A

Quale il modello migliore?

Occorre valutare il costo medio del mancato pagamento della carta di credito con la perdita media di profitto che si ottienerifiutando i soggetti che sono buoni candidati

Nell‘esempio il modello B è il migliore perché la matrice indicache ha meno probabilità di accordare erroneamente una carta dicredito a un soggetto che probabilmente sarà insolvente

© Igor Rossini

Curva Lift

10 20 30 40 50 60 70 80 90 100

10

20

30

40

50

60

70

80

90

100

0

Dati suddivisi in Percentili

% R

ispo

ste

corr

ette

Lift=3,5 (70/20)

© Igor Rossini

Esempio di buon modello

10 20 30 40 50 60 70 80 90 100

10

20

30

40

50

60

70

80

90

100

0

Richieste di risarcimento in %

% F

rodi

rile

vate

Training Set

Test Set

Evaluation Set

Baseline

© Igor Rossini

Incremento teorico massimo (1)

10 20 30 40 50 60 70 80 90 100

10

20

30

40

50

60

70

80

90

100

0

Clienti in %

% A

bbon

ati a

l ser

vizi

o

Miglior Risultato Teorico

Curva di Modello

Baseline

© Igor Rossini

Incremento teorico massimo (2)

• Il primo 10% dei clienti corrisponde ad appena il 16% dei clienti con avviso di chiamata

• In realtà il 55% dei clienti possiede l’avviso di chiamata

• Quindi se tutti i clienti con il maggior punteggio avessero l’avviso di chiamata essi inciderebbero per il 18%

• L’averne trovati il 16% costituisce un buon risultato

© Igor Rossini

Sovrapprendimento

10 20 30 40 50 60 70 80 90 100

10

20

30

40

50

60

70

80

90

100

0

Clienti in %

% A

bbon

ati a

l ser

vizi

o

Curva di Modello

Baseline

© Igor Rossini

Correlazione Input-Output

10 20 30 40 50 60 70 80 90 100

10

20

30

40

50

60

70

80

90

100

0

Clienti in %

% A

bbon

ati a

l ser

vizi

o

Curva di Modello

Baseline

© Igor Rossini

Promozioni Carte di Credito (1)

10 20 30 40 50 60 70 80 90 100

100

200

300

400

500

600

700

800

900

1000

0

% Campionata

Num

ero

Ris

post

e

Risultato del Modello

Baseline

Utilizzando il 20% della popolazione possiamo aspettarci una risposta da 625 delle 20.000 persone campionate

© Igor Rossini


Offerte Rifiutate(calcolate)

1.000

Offerte Accettate(calcolate)

Accettate

Rifiutate

0

99.000 0

NESSUNMODELLO

1.000Accettate

Rifiutate

0

0 99.000

MODELLOIDEALE



Nessun Modello: a tutti i clienti con saldo nullo é statainviato il rendiconto con l‘offerta promozionale

Il lift del modello é pari a 1 perchè il campione e la popolazione sono uguali

© Igor Rossini



540


Accettate

Rifiutate

460

23.460 75.540

MODELLO A

450Accettate

Rifiutate

550

19.950 79.450

MODELLO BOfferte Rifiutate

(calcolate)Offerte Accettate

(calcolate)

Due matrici di confusione per modelli alternativi con liftpari a 2,25

Lift (Modello A) = (540/24.000)/(1.000/100.000) = 2,25

Lift (Modello B) = (450/20.000)/(1.000/100.000) = 2,25

© Igor Rossini


• Quale il modello migliore?• Occorre considerare i costi delle scelte dei

falsi positivi e dei falsi negativi• Il modello Y è la scelta migliore se la

riduzione delle spese delle spedizionipostali (4.000 spedizioni in meno) compensano la riduzione di profittoderivante dalle minori vendite (90 venditein meno)

© Igor Rossini

Densità del Set di Costruzione

• Campionatura– creazione di un insieme di dati che contiene

una quantità di record inferiore rispetto a quella del set di dati originario

• Sovracampionatura– creazione di un set di dati di costruzione con

una quantità maggiore di risultati rari e unainferiore di quelli comuni per bilanciare ilrapporto fra il numero dei valori in output nelset di costruzione

© Igor Rossini

Utilizzo della Sovracampionatura

• L'output può essere molto raro, come nelcaso dei guasti nei macchinari

• L'output può richiedere una convalidaprima di poter essere usato nellamodellazione, come nei casi di frode

• L'output può interessare un lasso di tempo limitato, come gli abbandoni dei clienti o glistorni dall'attivo di un singolo mese

© Igor Rossini

`

Esempio (1)

`

1 2 3 4 5 6 7 8 9 10

11 12 13 14 15 16 17 18 19 20

21 22 23 24 25 26 27 28 29 30

31 32 33 34 35 36 37 38 39 40

41 42 43 44 45 46 47 48 49 50

Set di dati iniziale con una densità del 10%

2 9 10

12 19 20

25 29 30

31 39 40

35 49 50

Set di dati sovracampionati con una densità del 33,3%

© Igor Rossini

`

Esempio (2)

2 9 10

12 19 20

25 29 30

31 39 40

35 49 50

Un algoritmo di data mining assegna il suo punteggio maggiore al 40% del set di costruzione sovracampionato attribuendo un incremento (o lift) di 2

Accuratezza previsionale pari al 66,7% (4 record rossi nei 6 trovati)

Incremento pari a 2 essendo nel set di dati sovracampionato il 33,3% dei record rossi (2=66,7%/33,3%)

Dimensione del 40% (40%=6/15)

© Igor Rossini

`

Esempio (3)

1 2 3 4 5 6 7 8 9 10

11 12 13 14 15 16 17 18 19 20

21 22 23 24 25 26 27 28 29 30

31 32 33 34 35 36 37 38 39 40

41 42 43 44 45 46 47 48 49 50

I 10 risultati chiari del set sovracampionato ne rappresentano 45 (2:9) nel set iniziale

I 5 risultati rossi del set sovracampionato li rappresentano tutti e 5 (1:1)

L'accuratezza previsionale sarebbe del 30,7% perché i 4 rossi e i 2 chiaricorrispondono ora ai 4 rossi e ai 9 chiari trovati dall'algoritmo

L‘incremento è del 3,07% perché i dati originali sono scuri al 10% (3,07=30,7%/10%)

La dimensione equivale ora a 26%(=13/50)

Sui dati originali (senza sovracampionatura) il segmento con il maggior punteggio di questo modello corrisponde al 26% dei dati e ad un incremento di 3 punti

© Igor Rossini

Effetti della Sovracampionatura

• Occorre sempre convertire il punteggio generato da un modello costruito su un set sovracampionato in unaprobabilità sui dati originali

• Analogamente occorre valutare l'impatto dellasovracampionatura sul numero dei record selezionati per un'iniziativa di marketing con un punteggio assegnato dalmodello superiore ad certo valore soglia

Set di dati SovracampionatiLift di 2 sul 40% dei dati

Set di dati OriginaleLift di 3 sul 26% dei dati

Set di dati SovracampionatiValore soglia corrispondente 1% dei dati

Set di dati OriginaleValore soglia corrispondente 0,07% dei dati

© Igor Rossini

Agenda


© Igor Rossini

Dati dipendenti dal tempo

• Il timeframe (intervalli temporali) gioca un ruolofondamentale nella costruzione di modelliprevisionali

• Si divide in tre categorie temporali principali:

PassatoConsiste in quello che si è giàverificato e nelle informazioni giàraccolte e processate. Contienele informazioni del passato

PASSATO REMOTO: utilizzatoper i dati di inputPASSATO RECENTE: determinagli outputLATENZA: rappresenta ilpresente

PresenteE' il periodo di tempo in cui il modello è costruito. Le informazioni sul presente non sono disponibili perché ancora in fase di elaborazione dei sistemi operazionali.

FuturoE' il periodo di tempo della previsione. Costruisce il modello sui dati del passato con le informazioni del passato e del presente.

© Igor Rossini

Dati dipendenti dal tempo

Passato Presente Futuro

Il passato serve a prevedere il futuro

Punto in cui finiscono i dati

Punto in cui iniziano le previsioni

Passato LatenzaOutputModello

Per costruire un modello efficace, i dati nel set di costruzionedevono imitare il timeframe in cui il modello verrà applicato

© Igor Rossini

Input e Output di un modello (1)

• La definizione degli output di un modello èsolitamente complessa

• Tutti i dati di input del modello devonoessere disponibili prima di qualsiasiinformazione utilizzata per determinare glioutput

• La violazione di questa regola determina la creazione di modelli che non riescono a prevedere correttamente il futuro

© Igor Rossini

Input e Output di un modello (2)

• Campagna di marketing dello scorso anno:

• Tutti i dati disponibili fino al passatorecente costituiscono gli input

Passato Remoto Consiste di tutti i dati a disposizione prima che venisse lanciata la campagna

Passato Recente Consiste nelle informazioni successive alla campagna

Presente Periodo in cui stiamo costruendo il modello per la campagna di quest'anno

Futuro Risposte all‘ultima campagna che non si sono ancora avute

© Igor Rossini

Caso Banca di Credito (1)

• Titolo: analisi dinamiche di acquistoportafoglio clienti

• Obiettivo: costruzione di un modelloprevisionale per prevedere i diversicomportamenti dei clienti

• Dati: storico di 18 mesi

© Igor Rossini


18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1

Obiettivo: avere uno storico di 12 mesi per prevedere 6 mesi del futuro

Input MODELLO Output

Mesi del Passato

© Igor Rossini


L'utilizzo della variabile derivata Totale Saldi Scoperticalcolata con informazioni relative ai 12 mesi precedentidistorse i risultati

18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1


Totale saldi scoperti

© Igor Rossini

Caso Supermercati Alfa (1)

• Titolo: promozione clienti Platino mese diagosto

• Obiettivo: proporre un'offerta speciale aiclienti che presentano maggiori probabilitàdi effettuare l‘acquisto nel mese di agosto

• Data Inizio Progetto: 1 giugno 2004• Dati: dal 1 settembre 2003 al 31 maggio

2004

© Igor Rossini


Set Ott Nov Dic Gen Feb Mar Apr Mag Giu


Metodologia: sviluppo di un modello per prevedere chi ha effettuato un'acquisto in maggio utilizzando i dati da settembre ad aprile

Cosa succede a Luglio?

© Igor Rossini




Lug Ago

Occorrono i dati di luglio per calcolare il modello ed effettuare una previsione ad Agosto

Le previsioni relative ad Agosto non sono disponibili alla fine dellostesso mese!!

1 Agosto: il modello è pronto in attesa dei dati di luglio richiesti come input

14 Agosto: i dati di luglio sono disponibili

16 Agosto: i dati sono stati puliti ed è stato assegnato loro un punteggio

20 Agosto: le previsioni del modello sono state preparate ed utilizzate

© Igor Rossini




Metodologia: i dati di aprile non vengono utilizzati come input nel modello. In tal modo tutte le informazioni sono disponibili quando il modello sarà calcolato

Aprile è il mese di latenza usato per calcolare e per preparare i risultati

© Igor Rossini


Metodologia: nessun problema per il calcolo del modello perché gli input sono ora disponibili a metà luglio



Lug Ago

© Igor Rossini

Modelli che si adattano nel tempo (1)

1 2 3 4 5 6 7 8 9 10

Input MODELLO

11 12

Output

Metodologia: il set di costruzione utilizza 10 mesi di storico per ricavare gli input e 1 mese per gli output.Le informazioni del mese di latenza non vengono usate.

L'utilizzo di tutto lo storico presenta lo svantaggio che il modello può attingere a caratteristiche del passato che non siapplicano al futuro.

© Igor Rossini

Modelli che si adattano nel tempo (2)

1 2 3 4 5 6 7 8


Metodologia: utilizzo di dati storici per realizzare set di costruzione con periodi di tempo che si sovrappongono

2 3 4 5 6 7 8 9

3 4 5 6 7 8 9 10

5 6 7 8 9 10 114

5 6 7 8 9 10 10 11

Gli algoritmi in tal modo conoscono strutture dati che non sono fissate in un dato momento cronologico

© Igor Rossini

Modelli Multipli (1)

Com

bina Modelli a combinazione di input

segmentati: utilizzano modelli diversi per parti diverse dell'input. Un solo modello viene impiegato per ogni record di input dato.

Modelli a combinazione di segmantazioni modellate: utilizzano i risultati di un modello per segmentare l'input e poi impiegare un altro modello per determinare l‘output.

© Igor Rossini

Modelli Multipli (2)

Se l‘affidabilità è alta, utilizza i risultatidel primo modello.Altrimenti impiega i risultati di un modello a bassa affidabilità.

Modelli a combinazione di correzione degli errori: utilizzano i risultati ad alta affidabilità da un modello e ne costruisconouno separato impiegando I risultati a bassaaffidabilità.

Modelli a combinazione di perfezionamento dei dati: utilizzano i risultati di un modello come input di un altro modello.

© Igor Rossini

Ciclo di Vita del Cliente

Mercato Target

Nuovo Cliente

Alto Valore

Cliente Iniziale

AltoPotenziale

BassoValore

AbbandonoVolontario

AbbandonoForzato

Prospect ResponderCliente Effettivo

Ex Cliente

Acquisizione Attivazione Gestione del Rapporto e Retention

© Igor Rossini

Eventi Principali

Mercato Target

Nuovo Cliente

Alto Valore

Cliente Iniziale

AltoPotenziale

BassoValore

AbbandonoVolontario

AbbandonoForzato

Prospect ResponderCliente Effettivo

Ex Cliente

Campagne di AcquisizioneRisposta alla campagna di acquisizioneRichiesta InformazioniAdesione Formale

Utilizzo

Campagne di Cross-SellingCampagne di Up-Selling

Campagne Anti AttritionChurn

© Igor Rossini

Dati ricavabili nelle varie fasi

Mercato Target

Nuovo Cliente

Alto Valore

Cliente Iniziale

AltoPotenziale

BassoValore

AbbandonoVolontario

AbbandonoForzato

Cronologia Campagne

Dati demografici acquisiti

AltroCredit ReportInformazioni fornite spontaneamenteAltro

Utilizzo del prodottoStorico pagamentiRisposta alle campagne

Preferenze di canale

Altro

Motivazioni Abbandono

© Igor Rossini

Applicazioni di Data Mining

Mercato Target

Nuovo Cliente

Alto Valore

Cliente Iniziale

AltoPotenziale

BassoValore

AbbandonoVolontario

AbbandonoForzato

Modello Predittivo per la Vendita

Modello Predittivo per campagne di Cross/Up-Selling

Modello Predittivo per Risk AnalysisModelli Descrittivi su attributi “Rilevanti”

Modello Descrittivo sul comportamento del cliente

Modello Predittivo per individuazione di frodi

Modello Predittivo per il Churn

© Igor Rossini

Caso Acme Corporation

• Profilo: società di vendite per corrispondenza specializzata nella vendita diequipaggiamenti per la caccia

• Campagna di Marketing: lancio del nuovoprodotto esca per bip-bip pensato per I clienti più fedeli

• Budget: 300.000$• Obiettivo: ottimizzazione dei costi

© Igor Rossini

Lift del modello

10 20 30 40 50 60 70 80 90 100

10

20

30

40

50

60

70

80

90

100

0 Clienti %

% R

espo

nder

Modello di Risposta

Baseline

Curva di guadagno percentuale utilizzata ottenuta con il modello di risposta. Il 10% dei clienti con il punteggio più alto rappresenta il 30% deiresponder

© Igor Rossini

Dati di Marketing

• Costo spedizione offerta: 1 $• Previsione ordine cliente: 100 $

(di questi 55 $ coprono i costi del prodotto, della spedizione e di gestione)

• Ricavo netto cliente: 44 $ (100 – 55 – 1)• Spese fisse generali: 20.000 $• Percentuale di Risposta: 1%• Clienti: 1 milione

© Igor Rossini

Foglio di Calcolo ricavi

Decile Ricavi Cum Lift Dim Dim (SI) Dim (NO) Profitto $

0 % 0,0 % 0 % 0,000 0 0 0 (20.000)

10 % 30,0 % 30 % 3.000 100.000 3.000 97.000 15.000

20 % 20,0 % 50 % 2.500 200.000 5.000 195.000 5.000

30 % 15,0 % 65 % 2.167 300.000 6.500 293.500 (27.500)

40 % 13,0 % 78 % 1.950 400.000 7.800 392.200 (69.000)

50 % 7,0 % 85 % 1.700 500.000 8.500 491.500 (137.500)

60 % 5,0 % 90 % 1.500 600.000 9.000 591.000 (215.000)

70 % 4,0 % 94 % 1.343 700.000 9.400 690.600 (297.000)

80 % 4,0 % 98 % 1.225 800.000 9.800 790.200 (379.000)

90 % 2,0 % 100 % 1.111 900.000 10.000 890.000 (470.000)

100 % 0,0 % 100 % 1.000 1.000.000 10.000 990.200 (570.000)

© Igor Rossini

Curve di profitto

0 1 2 3 4

(100.000 $)

0

(200.000 $)

100.000 $

200.000 $

300.000 $

400.000 $

500.000 $

5 6 7 8 9

Si = 100 $; No = 1 $

Si = 44 $; No = 1 $

Si = 44 $; No = 2 $

© Igor Rossini

Ottimizzazione dei clienti (1)

• Profilo: ampliamento della gamma dei prodotti. ACME è ha ora diversi reparti specializzati nelladisinfestazione di animali nocivi e parassiti

• Campagne di Marketing: gestite più campagnecontemporaneamente per promuovere tutta la vasta gamma di prodotti

• Obiettivo: dato un certo numero di campagne, sipunta all'ottimizzazione della campagna successivaper ogni cliente

© Igor Rossini


Campagne Successive

Val

ore

Pote

nzia

le

Campagna 1

Campagna 2

Campagna 3Approccio basato sull‘ottimizzazione del profitto

Per quasi tutte le campagne viene scelto lo stesso segmento di clienti, mentre altri vengono completamente ignorati

Occorre evitare di sommergere i clienti di messaggi diversi perchè potrebbero ignorare il messaggio o peggio passare alla concorrenza

© Igor Rossini


Campagne Successive

Val

ore

Pote

nzia

le

Campagna 1

Campagna 2

Campagna 3

Approccio basato sulla massimizzazione del valore di ogni cliente

Sono presi in considerazione tutti i possibili canali e messaggi che possono essere diretti ad ogni tipologia di clientela

Campagna 4

Campagna 5

Ottimizzare significa assegnare un precisomessaggio al cliente giusto

Costruzione di Modelli Previsionali - Intranet...

Documents

Transcript of Costruzione di Modelli Previsionali - Intranet...