Un’applicazione della segmentazione a priori: l’algoritmo CHAID

40
Un’applicazione della segmentazione a priori: l’algoritmo CHAID Di: Laura Croccia Daniele Medri Claudio Quevedo Romina Raimondi

description

Un’applicazione della segmentazione a priori: l’algoritmo CHAID. Di: Laura Croccia Daniele Medri Claudio Quevedo Romina Raimondi. OBIETTIVO:effettuare un’analisi di segmentazione a priori tramite l’algoritmo Chaid - PowerPoint PPT Presentation

Transcript of Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Page 1: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Un’applicazione della segmentazione a priori:

l’algoritmo CHAID

Di:Laura CrocciaDaniele Medri

Claudio QuevedoRomina Raimondi

Page 2: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

OBIETTIVO:effettuare un’analisi di segmentazione a priori tramite l’algoritmo ChaidPrima segmentazione effettuata utilizzando la variabile target “essere socio Coop” (50% del campione sono “soci”)Seconda segmentazione effettuata solo sui soci Coop utilizzando la variabile target “canale ipermercato o non ipermercato” (55 % del campione non usa il canale ipermercato)

Page 3: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Dataset “Coop”

7200 unità

42 variabili riguardanti:

- soddisfazione degli intervistati

- variazione della soddisfazione degli intervistati

- informazioni socio-demografiche

- informazioni su variabili “Coop”

Page 4: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Opzioni utilizzate

Nodo Tree del software Enterprise MinerNumero massimo di split in ogni nodo: 3 ( scelta effettuata in base al numero di modalità delle variabili categoriche prese in considerazione)Minimo numero di osservazioni in una foglia: 20 ( per non avere foglie con poca numerosità)

Page 5: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Fase 1

Analisi di segmentazione su tutti le unità del dataset

Page 6: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con variabile target “Socio”

Costruiti 4 diversi alberi utilizzando: - tutte le variabili - le variabili socio-demografiche - le variabili sulla soddisfazione - le variabili “Coop”

Dataset diviso in: - training set (70% del campione,5040 u.s.) - validation set (30% del campione,2160

u.s.)

Page 7: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Soddisfazione-Variazione

Problema di dipendenza tra soddisfazione e variazioneScarsa utilità dell’informazione apportata dalle variabili riguardanti la variazione perché manca un termina di confrontoTest 2 per testare l’indipendenza tra soddisfazione e variazione della soddisfazione per i diversi aspetti del servizioPer tutti i confronti l’ipotesi nulla di indipendenza risulta rifiutata

le variabili rappresentanti la variazione della soddisfazione sono state escluse dall’analisi

Page 8: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con tutte le variabili

Albero con 3 livelli di profondità e 5 nodi terminali

Tasso di corretta classificazione=87%

Le variabili ritenute significative per gli split sono “insegna” e “primo punto vendita”

Page 9: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Albero

Page 10: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmenti individuati

Segmento1: soci Coop che scelgono Coop sia come insegna che come primo punto vendita (58% circa del campione). Segmento2: non soci Coop che scelgono Coop come insegna ma non come primo punto vendita (3% circa)Segmento3:esclusivamente non soci Coop che scelgono altre insegne e Coop come primo punto vendita (10%circa)Segmento4:esclusivamente soci Coop che scelgono altre insegne e non scelgono Coop come primo punto vendita (2% circa)Segmento5:coloro che presentano un valore mancante per la variabile insegna (26% circa)

Page 11: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le variabili Socio-Demografiche

L’utilizzo delle suddette variabili non ha portato ad alcuna segmentazione. Si ritengono quindi ininfluenti queste variabili ai fini degli obiettivi anteposti.

Si 50 % 50 %

No 50 % 50 %

Si 2520 1080

No 2520 1080

totale 5040 2160

Page 12: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le sole variabili di soddisfazione

Albero con 4 livelli di profondità, 11 nodi terminali dei quali 4 relativi ai valori mancanti;

Tasso di corretta classificazione=74%

Le variabili ritenute significative per gli split sono “soddisfazione generale”, “soddisfazione verso promozioni” e “soddisfazione verso prodotti non alimentari”.

Page 13: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Albero

Page 14: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le sole variabili di soddisfazione

Segmento1: soci che hanno dimostrato una soddisfazione alta a livello generale e per le promozioni (23% circa del campione);Segmento2: non soci che hanno dimostrato una soddisfazione alta a livello generale e in misura medio bassa verso le promozioni (32% circa);Segmento3: in maggioranza non soci che hanno rivelato soddisfazione generale alta ma non hanno dato giudizio di preferenza per le promozioni (1% circa);Segmento4: persone che hanno indicato una bassa soddisfazione generale, alta o bassa per le promozioni e media per i prodotti non alimentari; sono sia soci che non soci (12% circa);Segmento5: non soci che hanno indicato una bassa soddisfazione generale ma un’elevata soddisfazione per i prodotti non alimentari (1%);Segmento 6: non soci che hanno indicato una bassa soddisfazione generale alta o bassa soddisfazione per le promozioni e non hanno espresso opinioni sui prodotti non alimentari (2%);Segmento 7: non soci con bassa soddisfazione generale, soddisfazione media verso le promozioni e alta soddisfazione per i prodotti non alimentari (1%);

Page 15: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le sole variabili di soddisfazione

Segmento8: soci con bassa soddisfazione generale, media soddisfazione verso le promozioni e i prodotti non alimentari (2% del campione)Segmento9: soci con bassa soddisfazione generale,media soddisfazione verso le promozioni e bassa soddisfazione verso i prodotti non alimentari (2%);Segmento10: non soci con bassa soddisfazione generale che non hanno espresso opinione nei confronti delle promozioni (1%);Segmento11: non soci che non ha espresso alcun giudizio di soddisfazione generale (24%).

Page 16: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le sole variabili “Coop”

Albero con 3 livelli di profondità, 5 nodi terminali dei quali 1 relativo ai valori mancanti;

Tasso di corretta classificazione=87%

Le variabili ritenute significative per gli split sono “insegna” e “primo punto vendita”.

Page 17: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Albero

Page 18: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le sole “Coop”

Segmento1: soci che scelgono l’insegna Coop e quest’ultima rappresenta il primo punto vendita (59% circa);Segmento2: non soci che scelgono l’insegna Coop ma per i quali non rappresenta il primo punto vendita (3% circa);Segmento3: esclusivamente non soci che scelgono altre insegne ma scelgono Coop come primo punto vendita (10% circa);Segmento4: esclusivamente soci Coop che scelgono altre insegne ma non Coop come primo punto vendita (2% circa);Segmento5: non soci Coop che non hanno dato giudizio di preferenza sull’insegna (26% circa).

Page 19: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Osservazione

Utilizzando tutte le variabili e le sole variabili “Coop” si ottiene la medesima segmentazione, quindi deduciamo che queste variabili sono molto rilevanti per i nostri scopi.

Page 20: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Confronto tra gli alberi

Corretta Classificazione

Tutte le

variabili

Variabili

Socio-demografiche

Variabili

soddisfazione

Variabili

Coop

Valore 0,87 0,5 0,74 0, 87

•La segmentazione migliore risulta essere quella che utilizza tutte le variabili, mentre quelle socio-demografiche risultano inutili.

Page 21: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Fase 2

Analisi di segmentazione sui soci “Coop”

Page 22: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con variabile target “Canale”

3600 unitàCostruiti 4 diversi alberi, utilizzando:

- tutte le variabili - le variabili socio-demografiche - le variabili sulla soddisfazione - le variabili “Coop”

Il Dataset “solo sui soci coop” è stato diviso in: - training set (70% del campione,2520 u.s.) - validation set (30% del campione, 1080 u.s.)

Page 23: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con tutte le variabili

Albero con 4 livelli di profondità e 11 nodi terminaliTasso di corretta classificazione=71 %

Le variabili ritenute significative per la segmentazione sono la “zona geografica di appartenenza”, la soddisfazione sull’”assortimento”, il “pesce” e i “prezzi”

Page 24: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Albero

Page 25: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con tutte le variabiliSegmento1: Soci Coop il cui canale di vendita è ipermercato, residenti a Bologna con una bassa soddisfazione rispetto al pesce e all’assortimento(circa il 5%).Segmento2: Soci che comprano in ipermercato, residenti a Bologna che hanno una soddisfazione bassa per il pesce e media per l’assortimento (circa il 4%).Segmento3: Soci che comprano in ipermercato, residenti a Bologna con una bassa soddisfazione del pesce e alta per l’assortimento (circa il 3%). Segmento4: Soci che comprano in ipermercato, residenti a Bologna, hanno una soddisfazione del pesce alta o media (circa il 27%).Segmento5: Soci che NON comprano in ipermercato, residenti a Bologna, che non hanno dichiarato sulla soddisfazione del pesce e che hanno una soddisfazione dell’assortimento bassa (circa il 4%).Segmento6: Soci che NON comprano in ipermercato, residenti a Bologna, che non hanno dichiarato punteggi di soddisfazione per il pesce e con una media soddisfazione per l’assortimento (circa il 3%).

Page 26: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con tutte le variabili

Segmento7: Soci che comprano in ipermercato, residenti a Bologna, non dichiarano la soddisfazione sul pesce e che segnalano un’alta soddisfazione per l’assortimento(circa il 4%).Segmento8: Soci che NON comprano in ipermercato, residenti in Romagna-Marche con un’alta soddisfazione del pesce e dei prezzi (circa il 13%).Segmento9: Soci che NON comprano in ipermercato, residenti in Romagna-Marche con una soddisfazione alta del pesce e bassa dei prezzi (circa il 6%).Segmento10: Soci che NON comprano in ipermercato residenti nella zona Romagna-Marche che presentano valori missing per la soddisfazione riguardo al pesce (circa il 12%).Segmento 11: Soci che NON comprano in ipermercato e abitano nella Regione del Veneto (circa il 18%).

Page 27: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le variabili Socio-Demografiche

Albero con 4 livelli di profondità e 6 nodi terminaliTasso di corretta classificazione= 68%

Le variabili che risultano significative per la segmentazione sono la “zona di appartenenza geografica”, il “numero di familiari riceventi reddito” e “il numero di auto possedute”

Page 28: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Albero

Page 29: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le variabili demografiche

Segmento 1: Soci che comprano in ipermercato,residenti a Bologna che hanno un auto (21% circa).

Segmento 2: Soci che comprano in ipermercato, residenti a Bologna con più di un auto (23% circa).

Segmento 3: Soci che comprano in ipermercato, residenti a Bologna, non hanno risposto sul numero delle auto che hanno più di una persona con reddito (2% circa).

Segmento 4: Soci che NON comprano in ipermercato residenti a Bologna, non presentano un valore per il numero auto e hanno una persona con reddito (3% circa).

Segmento 5: Soci che NON comprano in ipermercato che abitano nella zona Romagna-Marche (32% circa).

Segmento 6: Soci che NON comprano in ipermercato che abitano in Veneto (18% circa).

Page 30: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le variabili “Soddisfazione”

Albero con 4 livelli di profondità e 11 nodi terminaliTasso di corretta classificazione=68%

Le variabili che risultano significative per la segmentazione sono la soddisfazione per “l’assortimento”, “il pesce”, “il personale”, “la carne” e “i prezzi”

Page 31: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Albero

Page 32: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le variabili soddisfazione

Segmento 1: Soci che comprano in ipermercato con una soddisfazione del pesce e dei prezzi alta (24% circa).Segmento 2: Soci che NON comprano in ipermercato con una soddisfazione alta per il pesce, media per i prezzi e alta per la carne (6% circa). Segmento 3: Soci che usano il canale ipermercato, hanno un soddisfazione alta per il pesce, media per i prezzi e per la carne (11% circa).Segmento 4: Soci che comprano in ipermercato, hanno un soddisfazione alta per il pesce, media per i prezzi e bassa per la carne (6% circa).Segmento 5: Soci che NON comprano in ipermercato, molto soddisfatti del pesce poco soddisfatti dell’assortimento e dei prezzi (9% circa).

Page 33: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le variabili soddisfazione

Segmento 6: Soci che NON comprano in ipermercato, con una soddisfazione alta per il pesce dell’assortimento media, bassa per i prezzi e media per l’assortimento (6% circa).Segmento 7: Soci che comprano in ipermercato, con una soddisfazione alta per il pesce, bassa per i prezzi e alta per l’assortimento (3% circa).Segmento 8: Soci che NON comprano in ipermercato, non dichiarano la soddisfazione per il pesce, con una bassa soddisfazione dell’assortimento (12% circa).Segmento 9: Soci che NON comprano in ipermercato che non dichiarano la soddisfazione rispetto al pesce e con una soddisfazione media per l’assortimento e (10% circa).Segmento 10: Soci che NON comprano in ipermercato che non dichiarano la soddisfazione rispetto al pesce, con un’alta soddisfazione per il personale e per l’assortimento (8% circa).Segmento 11: Soci che comprano in ipermercato, che non dichiarano sulla soddisfazione rispetto al pesce con una alta soddisfazione per l’assortimento e bassa o media per il personale(3% circa).

Page 34: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le variabili “Coop”

Albero con 4 livelli di profondità e 4 nodi terminaliTasso di corretta classificazione=68%

Le variabili che risultano significative sono “la zona di residenza” e “il primo punto vendita”

Page 35: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Albero

Page 36: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Segmentazione con le variabili coop

Segmento 1: Soci che NON comprano in ipermercato,risiedono a Bologna e che non usano Coop come primo punto vendita (2% circa).Segmento 2: Soci che comprano in ipermercato, residenti a Bologna per i quali Coop è primo punto di vendita (48% circa).Segmento 3: Soci che NON comprano in ipermercato e presentano come zona di residenza Romagna-Marche (32% circa).Segmento 4: Soci che NON comprano in ipermercato e risiedono in Veneto (18% circa).

Page 37: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Confronto tra gli alberi

Corretta Classificazione

Tutte le

variabili

Variabili

Socio-demografiche

Variabili

soddisfazione

Variabili

Coop

Valore 0,71 0,68 0,68 0,68•La segmentazione migliore risulta essere quella che utilizza tutte le variabili

Page 38: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Osservazione: la questione “Pesce”

La variabile “soddisfazione per il pesce” risulta molto significativa nella segmentazionePer questo motivo si è ritenuto interessante andare ad osservare le caratteristiche socio-demografiche di coloro che rispondono alla soddisfazione riguardo al pesce e di coloro che non rispondono.Le distribuzioni di frequenza delle variabili socio-demografiche sono simili sia per coloro che rispondono sia per coloro che non rispondono. L’unica variabile che non si comporta nella stessa maniera è la “zona di residenza”. A Bologna sono presenti soprattutto coloro che consumano pesce, mentre in Veneto sono più presenti coloro che non lo consumano.

Page 39: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Fine

Page 40: Un’applicazione della segmentazione a priori: l’algoritmo CHAID

Test 2 di indipendenza

Variabile 2p-Value

Generale 131,8635 <.0001

Prezzi 135,2667 <.0001

Promozioni 184,3285 <.0001

Assortimento 130,3224 <.0001

Personale 166,8153 <.0001

Pulizia 78,5411 <.0001

Prodotti Freschi 117,5924 <.0001

Ortofrutta 240,6919 <.0001

Carne 231,4176 <.0001

Pane 171,2372 <.0001

Salumi 173,8725 <.0001

Pesce 167,6061 <.0001

Non_Food 90,6038 <.0001