6 Tecniche di analisi di dati multidimensionali 6.1...
Transcript of 6 Tecniche di analisi di dati multidimensionali 6.1...
345
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
6 Tecniche di analisi di dati multidimensionali
6.1 Cluster Analysis
La Classificazione: Analisi Discriminante e Cluster Analysis
I metodi statistici per la classificazione delle unità statistiche in gruppi omogenei possono distinguersi in :
• ANALISI DISCRIMINANTE • CLUSTER ANALYSIS
346
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
• Nell’ANALISI DISCRIMINANTE (classificazione con
supervisione) è noto a priori che le n unità osservate appartengono a due o più popolazioni differenti. Per ogni unità si conosce il corrispondente vettore dei valori delle p variabili. L’obiettivo dell’analisi discriminante è quello di stabilire un criterio (basato sulle p variabili) per assegnare correttamente ulteriori unità alla rispettiva popolazione di appartenenza, minimizzando la probabilità degli errori di attribuzione.
347
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
ESEMPIO Un interessante esempio è la classificazione delle aziende che richiedono un prestito ad una banca in aziende solvibili e aziende non solvibili. Sulla base dei dati passati, la banca può distinguere n aziende che hanno ottenuto un prestito in 2 categorie: quelle che hanno rimborsato regolarmente il medesimo e le altre (che hanno ritardato i pagamenti, non hanno effettuato i rimborsi, ecc.). Se per ognuna di tali aziende la banca conosce un insieme di variabili (desumibili, ad esempio, dai bilanci) mediante l’analisi discriminante è possibile classificare una nuova azienda che richiede un prestito (e che fornisce i valori delle suddette variabili) nella classe di quelle solvibili oppure di quelle a rischio, minimizzando la probabilità di errore nell’assegnazione. Tale conoscenza per la banca è importante per decidere se erogare o meno il prestito.
348
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
• La CLUSTER ANALYSIS (classificazione senza supervisione) è invece un metodo tipicamente esplorativo. Esso consiste nel ricercare nelle n osservazioni p-dimensionali gruppi di unità tra loro simili, non sapendo a priori se tali gruppi omogenei esistono effettivamente nel dataset e non sapendo nulla a priori circa le caratteristiche strutturali di eventuali gruppi. Classificazioni di questo tipo assumono una chiara valenza interpretativa solo nei casi in cui nei dati siano realmente presenti delle strutture di gruppo, che vengono individuate dalla metodologia statistica. L’obiettivo della Cluster Analysis è dunque quello di riconoscere gruppi che appaiono con “naturalezza” nelle osservazioni.
349
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
ESEMPIO 1 Una possibile applicazione della cluster analysis consiste nella classificazione dei comuni italiani in gruppi omogenei in base ad un insieme di indicatori turistici (come, ad esempio, indicatori dell’offerta turistica, indicatori del flusso turistico, indicatori di utilizzazione degli esercizi ricettivi). In tal modo si possono identificare delle aree geografiche che presentano analogie di situazioni e quindi richiedono medesimi interventi di politica economica in tema di turismo.
350
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
ESEMPIO 2 (Segmentazione del mercato e studio del comportamento della clientela) La segmentazione si pone l’obiettivo, attraverso la cluster analysis, di identificare gruppi omogenei (segmenti) di entità (consumatori, mercati, organizzazioni) con determinate caratteristiche simili (benefici ricercati nel prodotto/servizio, attitudine, propensione all’acquisto, preferenze nei confronti dei diversi media, etc.).
351
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
La Cluster Analysis: aspetti generali e approcci metodologici
La CLUSTER ANALYSIS è una tecnica statistica multivariata avente come
l’individuazione di una o più PARTIZIONI dell’insieme di n unità statistiche in gruppi (CLUSTER), a due a due disgiunti, in base ad un set di variabili osservate su esse, tali che i gruppi abbiano le caratteristiche di:
1) COESIONE INTERNA (le unità assegnate ad uno stesso gruppo devono essere tra loro simili) (gruppi omogenei).
2) SEPARAZIONE ESTERNA (i gruppi devono essere il più possibile distinti tra loro).
OBIETTIVO
352
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
OSSERVAZIONE Nella Cluster Analysis, contrariamente all’Analisi Discriminante, non si sa nulla a priori sulle caratteristiche strutturali dei gruppi. OSSERVAZIONE Nei metodi di clustering che considereremo (esclusi quelli con parziale sovrapposizione e fuzzy) ogni unità statistica appartiene ad uno ed un solo cluster, contrariamente ai metodi di clustering non tradizionali come i metodi di clustering con overlapping (clumping) e i metodi di clustering fuzzy, in cui ogni unità può appartenere a più cluster.
353
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Il primo lavoro in cui viene descritta in maniera sistematica la Cluster Analysis è dovuto a Tryon (1939). Successivamente, diversi sono stati i contributi teorici registrati. Negli ultimi decenni, grazie allo sviluppo dell’hardware e software, sono stati risolti molti problemi computazionali connessi ai metodi di clustering, che ne avevano limitato l’uso nei tempi passati. Ciò ha favorito lo sviluppo di nuovi metodi di clustering, i cui algoritmi operativi sono facilmente implementabili su PC. A sua volta ciò ha favorito la diffusione dell’utilizzo di tali procedure in vari ambiti applicativi (economia, marketing, sociologia, psicologia, medicina, antropologia, ecc.).
354
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
La Cluster Analysis è importante, ad esempio, nei seguenti casi: • ridurre i dati (nel senso delle unità), • identificare tipologie, • stratificare popolazioni da sottoporre a campionamento, • segmentare il mercato e studiare il comportamento della clientela, • individuare aree omogenee (geomarketing e aree-test di mercato).
355
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
I metodi di clustering si possono distinguere in:
• METODI GERARCHICI
• METODI NON GERARCHICI • I metodi gerarchici permetto di ottenere una famiglia di partizioni,
con un numero di gruppi da n a 1, partendo da quella banale in cui tutte le unità sono distinte per giungere, per aggregazioni successive, a quella, pure banale, in cui tutte le unità sono riunite in un unico gruppo (metodi gerarchici aggregativi)
356
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
oppure
da 1 a n, partendo da quella banale in cui tutte le unità sono riunite in un unico gruppo per giungere, per separazioni successive, a quella anch’essa banale, in cui tutte le unità sono distinte in n gruppi (metodi gerarchici scissori).
• I metodi non gerarchici forniscono un’unica partizione delle n unità in g gruppi, con g fissato a priori.
357
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
METODO DI CLUSTERING GERARCHICO SCISSORIO
METODO DI CLUSTERING GERARCHICO AGGREGATIVO
D
C
B
A
E
A B
D E
C D E
A B C D E
4 3 2 1 0
0 1 2 3 4
358
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
La Cluster Analysis gerarchica aggregativa
• Fasi • Informazione Empirica
• Matrice dei Dati • Matrice delle Prossimità
• Informazione Teorica
• Verifica dell’esistenza di cluster naturali • Fasi dei metodi gerarchici aggregativi • Principali metodi gerarchici aggregativi
• Metodo del Legame singolo • Metodo del Legame completo
359
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
• Metodo del Legame medio • Metodo dei Centroidi • Metodo di Ward
• Rappresentazione grafica dei risultati: il Dendrogramma
• Proprietà dei metodi gerarchici aggregativi • Formula generale di Lance-Williams • Determinazione del numero ottimo di cluster • Verifica e Interpretazione delle soluzioni gerarchiche
• Confronti tra partizioni e consenso
360
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
FASI DELLA CLUSTER ANALYSIS GERARCHICA AGGREGATIVA
MATRICE DEI DATI (organizzazione dell’informazione empirica in forma matriciale, pre-
processing, scelte delle variabili)
MATRICE DELLE PROSSIMITA’
VERIFICA DELL’ESISTENZA DI CLUSTER NATURALI
METODI DI CLUSTERING
RAPPRESENTAZIONE GRAFICA DEI RISULTATI: IL DENDROGRAMMA
DETERMINAZIONE DEL NUMERO OTTIMO DI CLUSTER
eℑ
tℑ
VERIFICA E INTERPRETAZIONE DELLE SOLUZIONI
361
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Matrice dei Dati L’informazione empirica viene raccolta nella Matrice dei Dati del tipo unità × variabili, di dimensione n × p:
⎟⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜⎜
⎝
⎛
=
npnsn
ipisi
ps
xxx
xxx
xxx
......
......
......
1
1
1111
MMM
MMM
X
ove xis rappresenta la determinazione della s-esima variabile quantitativa osservata sull’i-esima unità statistica (i=1,…,n; s=1,…,p). In forma compatta:
{ }psnixis ,...,1;,...,1: ===X .
vettore-unità
362
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
La matrice dei dati può essere trasformata considerando opportune procedure di centratura, normalizzazione, standardizzazione (data pre-processing). Ad esempio, si può considerare (al fine di rendere comparabili variabili originariamente espresse in unità di misura differenti e con diverso ordine di grandezza) la matrice degli scarti standardizzati
⎭⎬⎫
⎩⎨⎧
==−
== psniσ
xxzs
sisis ,...,1;,...,1:Z
ove zis rappresenta lo scarto standardizzato per l’unità i-esima e la variabile s-esima, sx =media, sσ =s.q.m.
363
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Matrice delle Prossimità
Una vasta classe di metodi gerarchici (aggregativi) si basa sull’utilizzo di una Matrice delle Prossimità calcolata per le n unità statistiche. Essa è una matrice simmetrica di dimensione n × n:
{ }jinjipij ≠== ;,...,1,:P ove pij rappresenta una misura di prossimità tra la coppi di unità i e j. In particolare possono costruirsi Matrici delle Distanze, Matrici delle Dissimilarità, Matrici delle Similarità.
364
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Ad esempio, nel caso di Matrice delle Distanze abbiamo una matrice simmetrica con valori nulli lungo la diagonale principale, quadrata e di dimensione n × n:
⎟⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜⎜
⎝
⎛
=
0
..........0
........ 0 11312
jn
n
d
ddd
D
Ovviamente devono essere soddisfatte le proprietà di non negatività, identità, simmetria, disuguaglianza triangolare.
O
O
365
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Verifica dell’esistenza di cluster naturali nella struttura dei dati
L’applicazione di un metodo di clustering ha senso se esiste una reale struttura di gruppo nei dati. La presenza di una effettiva struttura di gruppo nei dati multidimensionali può essere verificata attraverso opportune procedure. Distinguiamo:
PROCEDURE INFERENZIALI PROCEDURE ESPLORATIVE
366
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
• Procedure inferenziali: ad esempio, si sottopone a verifica l’ipotesi nulla di assenza di struttura nei dati (modello uniforme: le n unità sono distribuite uniformemente nello spazio di riferimento.
• Procedure esplorative: si può considerare il cosiddetto istogramma p-dimensionale (che rappresenta una generalizzazione dell’istogramma univariato). Nel caso p=2 si considerano le seguenti fasi: 1. A partire dalla matrice dei dati di dimensione n × 2 si
costruisce lo scatterplot. 2. Si fissa un origine x0 nello spazio bidimensionale per
costruire l’istogramma (si fissa l’origine in corrispondenza del punto che ah per coordinate, i valori minimi osservati sulle due variabili).
367
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
3. Allo scatterplot in R2 si sovrappone una griglia regolare a maglie rettangolari di dimensione h1 × h2. Si indica con q=numero di elementi della griglia in ogni dimensione e con Q=q × q=numero totale di rettangoli.
4. Si conta il numero di punti nello scatterplot che sono compresi in ogni rettangolo. Dopo tale operazione nj rappresenta la frequenza assoluta associata al rettangolo j
(j=1,…,Q) ( nnQ
jj =∑
=1).
5. L’istogramma bidimensionale è quindi ottenuto dalla rappresentazione delle densità di frequenza:
Qjhnh
nδ j
j ,...,121
==
ove h1h2=area di ogni rettangolo.
368
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Le jδ consentono di individuare l’esistenza di zone con elevata densità di punti (MODE) in R2 e quindi di possibili gruppi di unità. Inoltre le jδ danno informazioni anche sul numero di cluster.
Se p>2 si procede analogamente al caso p=2. Per quanto riguarda la rappresentazione grafica conviene ricondursi al caso bidimensionale operando in diversi modi, ad esempio, considerando la rappresentazione delle densità jδ per ciascuna coppia di variabili.
369
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Metodi di clustering gerarchici aggregativi
I metodi di clustering gerarchici aggregativi hanno le seguenti caratteristiche:
1. considerano tutti i livelli di distanza γ , ∞≤≤ γ0 ; 2. i gruppi che si ottengono ad un livello di distanza comprendono i
gruppi ottenuti ai livelli inferiori. Quindi quando 2 (o più) unità si uniscono tra loro, esse non possono essere separate nei passi successivi della procedura.
OSSERVAZIONE: considereremo nelle procedure di clustering analizzate come matrice delle prossimità, le matrici delle distanze.
370
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Le procedure di clustering gerarchiche aggregative si articolano in FASI. Tali fasi sono le seguenti: 1. Si individuano nella matrice D le 2 unità con la minore distanza
(cioè tra loro più simili) e si riuniscono a formare il 1° gruppo. Si ottiene una partizione con (n-1) gruppi di cui (n-2) costituiti da singole unità e l’altro formato da 2 unità.
2. Si ricalcola, adottando un certo criterio, la distanza del gruppo ottenuto dagli altri gruppi (eventualmente costituiti da una sola unità), ricavando una nuova matrice delle distanze, con dimensioni diminuite di uno.
3. Si individua nella nuova matrice delle distanze la coppia di unità (o gruppi) con minore distanza, riunendole in un unico gruppo.
4. Si ripetono le fasi 2 e 3 sino a quando tutte le unità sono riunite in un solo gruppo.
371
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Le differenze tra i vari metodi gerarchici (aggregativi) consistono nel criterio utilizzato per calcolare la distanza tra 2 gruppi di unità (uno dei quali eventualmente formato da una sola unità). OSSERVAZIONE: Se si parte da una matrice di indici di similarità, nella procedura precedente i termini “minore distanza” devono essere sostituite da “maggiore similarità”.
372
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
I più diffusi metodi di clustering gerarchici aggregativi sono: 1. METODO DEL LEGAME SINGOLO (O SINGLE LINKAGE O
DEL VICINO PIU’ PROSSIMO) 2. METODO DEL LEGAME COMPLETO (O COMPLETE LINKAGE
O DEL VICINO PIU’ LONTANO) 3. METODO DEL LEGAME MEDIO (TRA I GRUPPI) (O AVERAGE
LINKAGE) 4. METODO DEL LEGAME MEDIO NEI GRUPPI 5. METODO DI WARD (O DELLA MINIMA DEVIANZA) 6. METODO DEL CENTROIDE.
Siano considerati 2 cluster C1 e C2 con numerosità n1 e n2.
373
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
METODO DEL LEGAME SINGOLO La distanza tra 2 gruppi C1 e C2 è definita come il minimo delle n1n2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell’altro gruppo:
d(C1,C2)=min (drs) r∈ C1, s∈ C2
•••
•
•
•• •
C1 C2
374
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
METODO DEL LEGAME COMPLETO La distanza tra 2 gruppi C1 e C2 è definita come il massimo delle n1n2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell’altro gruppo:
d(C1,C2)=max (drs) r∈ C1, s∈ C2
•
•• •
•
•••
C1 C2
375
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
METODO DEL LEGAME MEDIO (tra i gruppi) La distanza tra 2 gruppi C1 e C2 è definita come la media aritmetica delle n1n2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell’altro gruppo:
2121
21 C s ,C r1),( ∈∈= ∑∑r s
rsdnn
CCd
•
••
•
•••
•
C1 C2
376
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
METODO DEL LEGAME MEDIO (nei gruppi) È una variante del metodo precedente. La distanza tra 2 gruppi C1 e C2 è definita come la media aritmetica tra tutte le possibili coppie di unità del nuovo gruppo che si ottiene (considerando quindi anche le distanze tra le unità appartenenti al medesimo gruppo di appartenenza):
21211 1
21 C s ,C r ;m2)1(
1),( ∈∈+=−
= ∑∑= =
nndmm
CCdm
r
m
srs .
•
••
•
•••
•
C1 C2
377
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
METODO DEL CENTROIDE La distanza tra 2 gruppi C1 e C2 è definita come la distanza tra i rispettivi centroidi 1x e 2x :
d(C1, C2)=d( 1x , 2x ). Ovviamente il calcolo del centroide di un cluster di unità richiede la conoscenza dei rispettivi valori delle p variabili. Il centroide del nuovo cluster che si forma può essere calcolato in funzione dei centroidi dei 2 cluster di partenza:
21
221121 )(
nnnnCC
++
=∪xx
.
centroide
•
••
•
•••
•
C1 C2
••
378
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
METODO DI WARD (o della devianza minima) Poiché l’obiettivo è quello di ottenere cluster con maggiore COESIONE INTERNA, si considera la scomposizione della devianza totale (T) delle p variabili in devianza nei cluster (Within, W) e devianza tra cluster (Between, B):
T=W+B Ove, data una partizione in g cluster:
∑∑= =
−=p
s
n
rsis xxT
1 1
2)( DEVIANZA TOTALE ottenuta come somma delle devianze delle singole variabili rispetto alla corrispondente media generale sx .
379
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
( )∑ ∑∑∑= = ==
⎥⎦
⎤⎢⎣
⎡−==
g
l
p
s
n
islis
g
ll
l
xxWW1 1 1
2
1 DEVIANZA NEI CLUSTER ottenuta come
somma delle devianze di cluster, ove Wl è la devianza delle p variabili nell’l-esimo cluster (di numerosità nl e centroide ),...,( 1 ′= plll xxx ).
( )∑∑= =
−=p
s
g
llssl nxxB
1 1
2 DEVIANZA TRA CLUSTER ottenuta come somma
delle devianze ponderate delle medie di cluster rispetto alla corrispondente media generale. Ad ogni passo della procedura gerarchica si aggregano tra loro i cluster che comportano il MINORE INCREMENTO DELLA DEVIANZA NEI CLUSTER (W), cioè che assicura la MAGGIORE COESIONE INTERNA.
380
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
OSSERVAZIONE Si dimostra che la minimizzazione della devianza Within equivale a considerare la distanza tra cluster:
221
21
2121 ),( xx −
+=
nnnnCCd
ove 2
2xx1 − = quadrato della distanza euclidea tra i centroidi di C1 e C2.
381
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Proprietà dei metodi di clustering gerarchici aggregativi e problemi di scelta
ESISTE UN METODO MIGLIORE DEGLI ALTRI? La risposta non è univoca. Il problema può porsi in termini di proprietà desiderabili. A tal proposito consideriamo le seguenti proprietà:
1. PARTIZIONE BEN STRUTTURATA MINIMALE 2. INVARIANZA PER TRASFORMAZIONI MONOTONE
DELLE DISTANZE
382
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
1. PARTIZIONE BEN STRUTTURATA MINIMALE
• Una PARTIZIONE si definisce BEN STRUTTURATA se max(dij)< min(drs)
ove i,j∈stesso cluster; r,s∈diversi cluster.
• Si definisce PARTIZIONE BEN STRUTTURATA MINIMALE una partizione ben strutturata con il minor numero di cluster.
••••
••••••
•• ••••
•••• ••••
•••• •
••r
s i
j
•
max(dij)
min(drs)
383
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
2. INVARIANZA PER TRASFORMAZIONI MONOTONE DELLE DISTANZE Un metodo di clustering gerarchico aggregativo è INVARIANTE PER TRASFORMAZIONI MONOTONE DELLE DISTANZE se fornisce la medesima famiglia di partizioni per ogni trasformazione monotona delle distanze. OSSERVAZIONE: i metodi del legame singolo, completo e medio, ad un certo punto della procedura, generano partizioni ben strutturate minimale. OSSERVAZIONE: il metodo del legame singolo e quello del legame completo soddisfano la proprietà 2; il metodo del legame medio no.
384
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Quali sono le caratteristiche dei principali metodi (legame singolo, completo, medio)? Il metodo del legame singolo e il metodo del legame completo individuano cluster con caratteristiche diverse. Il metodo del legame singolo presenta il cosiddetto EFFETTO CATENA, cioè può riunire in un unico cluster unità molto distanti quando tra esse esiste una successione di punti (unità) intermedi. Il metodo del legame completo individua invece CLUSTER COMPATTI DI FORMA CIRCOLARE (in R2) (o SFERICI in R3 o IPERSFERICI in Rp).
385
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Nella Figura si nota l’effetto catena. Si nota evidentemente l’esistenza di 3 cluster. Tuttavia, l’esistenza di alcuni punti tra i due cluster a sinistra fa si che per l’effetto catena il metodo del legame singolo individui 2 cluster (unificando i 2 cluster a sinistra), mentre il metodo del legame completo ne individua, in modo corretto, 3 (assegnando i punti intermedi un po’ ad un cluster un po’ all’altro).
•••• ••••
••••• •••••
••• •••••
•
••••••
•
•••• ••••• •••••• •
•
•••••••
••••
•••
•••
•••• ••••• •••••• •••••••••
•• ••
•• ••••
•••• ••••
•
386
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Tuttavia l’effetto catena del legame singolo ha il vantaggio di individuare cluster con forme allungate. In conclusione, il metodo del legame medio può costituire un giusto compromesso tra metodo del legame singolo e del legame completo.
•••• ••••
•• •
•
••••
•
•••• •
•
•••
•
•
••••
••••• •••••
•••••• •
•
••• •••
••
•
••
•••
•• ••••
•••••
•
••
••
•
••
•• •
••• •• •
••
•
••
•
• ••• ••••
••
387
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Rappresentazione grafica dei risultati ottenuti coi metodi di clustering gerarchici aggregativi La famiglia di partizione ottenuta con un metodo gerarchico aggregativo può essere rappresentata graficamente mediante un ALBERO n-DIMENSIONALE (n-TREE). In particolare, si considera un sistema di assi cartesiani in cui in ascisse si pongono le unità statistiche e in ordinata gli STADI della classificazione.
388
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Un esempio di albero n-dimensionale è il seguente
4
3 2 1
A B C D E
389
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Un’informazione più precisa può ottenersi considerando in ordinata i livelli di distanza che caratterizzano le aggregazioni delle diverse partizioni. Tale rappresentazione grafica è detta DENDROGRAMMA. Un esempio di Dendrogramma è il seguente
10
4
2.5 1
A B C D E
390
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Determinazione nel numero ottimo di cluster (partizione ottimale) Abbiamo visto che un algoritmo gerarchico aggregativo genera una famiglia di partizioni delle n unità con un numero di cluster via via decrescenti da n a 1. Si pone quindi in essere il problema di scegliere, tra le diverse partizioni, la partizione ottimale (e quindi il numero di cluster ottimale). Tale obiettivo può essere raggiunto considerando le condizioni desiderabili di coesione interna (piccola variabilità all’interno dei cluster) e separazione esterna (gruppi ben distinti tra loro) e quindi basandoci sulla scomposizione della devianza totale. In generale, si possono distinguere diversi CRITERI.
391
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
1 TEST DI SEPARAZIONE TRA CLUSTER Si considerano test per verificare se la distanza tra i centroidi dei cluster è significativa. 2. INDICI SINTETICI Sono stai proposti diversi indici (indice R2, indice RMSSTD, indice C di Calinski Harabatz, ecc,). Consideriamo l’indice R2. Una “buona” classificazione è caratterizzata da una ridotta quota di devianza nei cluster (W) e da un elevato valore delle devianza tra i cluster (B).
392
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Quindi, data una partizione costituita da g cluster, si può considerare l’indice:
TB
TWR =−= 12
]1,0[2 ∈R .
Se R2 è prossimo a 1 la corrispondente classificazione può ritenersi omogenea, poiché le unità appartenenti ad un medesimo cluster sono simili tra loro ( 0≅W ) e i cluster sono ben separati ( TB ≅ ).
393
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
OSSERVAZIONE Esiste un trade-off tra il numero di cluster e la coesione interna. In particolare, R2 assume valori non decrescenti al crescere di g (numero di cluster). Quindi, la ricerca del numero “ottimo” di cluster non può fondarsi semplicemente sulla massimizzazione di R2, che porterebbe a privilegiare la partizione banale formata da n cluster di una sola unità (per cui R2=1), ma deve compendiare le esigenze contrapposte di omogeneità interna dei cluster e di sintesi della classificazione.
394
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
3. ISPEZIONE (DIRETTA) DEL DENDROGRAMMA (α-TAGLIO) Si “taglia” il dendrogramma in corrispondenza di un “salto” nei livelli di distanza in cui è avvenuta l’aggregazione. Ad esempio
A B C D E
α-taglio
10
4
2.5
1
395
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Interpretazione dei risultati ottenuti coi metodi di clustering gerarchici aggregativi Si calcolano i vettori medi di ciascun cluster ottenuto e si confrontano i valori dei vettori pertinenti alle variabile in esame. Quindi, la caratterizzazione di ogni cluster avviene in base a tali valori. Ad esempio, supponiamo di aver rilevato una matrice dei dati in cui le unità siano i comuni di una regione e le variabili siano 2 (un indicatore dell’attività terziaria che, in particolare, misura la vocazione turistica e un indicatore dell’attività industriale).
396
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Supponiamo che, applicando un algoritmo di clustering (gerarchico aggregativo), otteniamo una classificazione dei comuni in 2 cluster, il primo, rispetto al secondo, con un valore molto più alto della prima variabile e molto più basso della seconda. Quindi, i cluster ottenuti si possono interpretare nel modo seguente: i comuni appartenenti al primo cluster sono caratterizzati da una spiccata vocazione terziaria (in particolare legata all’attività turistica), mentre i comuni appartenenti al secondo cluster sono caratterizzati da un maggiore propensione industriale.
397
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Esempio numerico 1 (Legame Singolo) Data la seguente matrice di distanza applicare il metodo del legame singolo.
⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜
⎝
⎛
0358904910
05602
0
Si ha che la distanza più piccola è tra A e B. Ricordando il metodo del legame singolo: d(C1,C2)=min (drs) r∈C1, s∈C2, occorre quindi calcolare la distanza tra il neo gruppo (AB) e le rimanenti unità.
A B C D E A
B
C
D
E
398
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Otteniamo quindi: d((AB) C)= min {d(AC), d(BC)}=5 d((AB) D)= min {d(AD), d(BD)}=9 d((AB) E)= min {d(AE), d(BE)}=8. Otteniamo, quindi, la nuova matrice delle distanze:
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
0358049
050
La distanza minima è 3. In tal caso: d((DE) (AB))= min {d(D (AB)), d(E (AB))}=8 d((DE) C)= min {d(DC), d(EC)}=4.
(AB) C D E (AB)
C
D
E
399
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Otteniamo, quindi :
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛
04805
0
La distanza minima è 4. Quindi : d((CDE) (AB))= min {d(C (AB)), d((DE) (AB))}=5. Infine, otteniamo la matrice:
⎟⎟⎠
⎞⎜⎜⎝
⎛05
0
(AB) C (DE) (AB)
C
(DE)
(AB)
(CDE)
(AB) (CDE)
400
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Nell’ultima iterazione tutte le unità sono aggregate in un unico cluster. La sequenza delle iterazioni è quindi: Iterazione Cluster Livello di distanza 0 (A) (B) (C) (D) (E) --- 1 (AB) (C) (D) (E) 2 2 (AB) (C) (DE) 3 3 (AB) (CDE) 4 4 (ABCDE) 5
Il dendrogramma è il seguente:
A B D E C
5
4
3
2
401
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Esempio numerico 2 (Legame Completo) Data la seguente matrice di distanza applicare il metodo del legame completo.
⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜
⎝
⎛
0358904910
05602
0
Si ha che la distanza più piccola è tra A e B. Ricordando il metodo del legame completo: d(C1,C2)=max (drs) r∈C1, s∈C2, occorre quindi calcolare la distanza tra il neo gruppo (AB) e le rimanenti unità.
A B C D E A
B
C
D
E
402
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Otteniamo quindi: d((AB) C)= max {d(AC), d(BC)}=6 d((AB) D)= max {d(AD), d(BD)}=10 d((AB) E)= max {d(AE), d(BE)}=9. Otteniamo, quindi, la nuova matrice delle distanze:
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
03590410
060
La distanza minima è 3. In tal caso:
(AB) C D E (AB)
C
D
E
403
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
d((DE) (AB))= max {d(D (AB)), d(E (AB))}=10 d((DE) C)= max {d(DC), d(EC)}=5. Otteniamo, quindi :
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛
051006
0
La distanza minima è 5. Quindi : d((CDE) (AB))= max {d(C (AB)), d((DE) (AB))}=10.
Infine, otteniamo la matrice:
⎟⎟⎠
⎞⎜⎜⎝
⎛010
0
Nell’ultima iterazione tutte le unità sono aggregate in un unico cluster.
(AB) C (DE) (AB)
C
(DE)
(AB)
(CDE)
(AB) (CDE)
404
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Il dendrogramma è il seguente:
In base al taglio del dendrogramma, la partizione ottimale è in 2 cluster:
(AB), (CDE).
A B D E C
α-taglio
10
5
3 2
405
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Esempio (forni a microonde)
Consideriamo il metodo del legame singolo e la distanza euclidea quadratica e utilizziamo l’SPSS. La sequenza dei comandi è quindi la seguente:
ANALIZZA → CLASSIFICAZIONE → CLUSTER GERARCHICA → SELEZIONA
VARIABILI → RAGGRUPPA CASI → STATISTICHE (MATRICE DELLE DISTANZE; GRAFICI (DENDROGRAMMA); METODO (METODO DI
RAGGRUPPAMENTO: DEL VICINO PIU’ VICINO (LEGAME SINGOLO); MISURA (INTERVALLO): DISTANCE EUCLIDEA QUADRATRICA).
406
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Otteniamo quindi il seguente output:
Nel seguito viene mostrata la sequenza delle operazioni con SPSS.
407
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
408
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
409
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
410
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
411
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
412
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Altri metodi di clustering gerarchici aggregativi Distinguiamo: • Metodi di clustering vincolati
• Metodi di clustering con parziali sovrapposizione.
413
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Metodi di clustering vincolati Col termine classificazione vincolata si indicano i metodi per ottenere gruppi di unità che risultino non soltanto simili tra loro, relativamente alle variabili in esame, ma che soddisfino anche ulteriori condizioni. Possiamo definire diverse tipologie di vincoli; in particolare:
- vincoli sul numero di unità assegnate ad ogni cluster; - vincoli di contiguità (nel caso in cui le unità da classificare siano di tipo territoriale).
- Vincoli sul numero di unità assegnate ad ogni cluster
Ogni cluster dev’essere formato da un numero di unità comprese in un certo intervallo, i cui estremi siano prefissati dal ricercatore.
414
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
- Vincoli di contiguità Un tipo di vincolo molto utilizzato nell’analisi di dati territoriali o spaziali è quello di CONTIGUITA’ (da definire opportunamente) tra le unità assegnate ad ogni cluster. Tale vincolo è essenziale in molti problemi di analisi territoriale, in cui le unità (comuni, province, regioni, mercati locali del lavoro, etc.) di un gruppo devono essere non solo simili, ma anche tra loro vicine.
Quando due unità sono contigue? È possibile definire il concetto di contiguità con riferimento al tipo di unità territoriale e alla dimensione dello spazio considerato. In questa sede consideriamo come spazio di riferimento R2.
415
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Vincoli di contiguità nello spazio bidimensionale R2 Il caso in cui le unità territoriali siano collocate su una superficie è il caso più importante nella pratica. Possiamo distinguere: • il caso di unità territoriali di forma REGOLARE: in tal caso, se
si fa riferimento ad un reticolo (griglia) regolare a maglie quadrate, si ritiene che 2 maglie sono tra loro contigue se hanno un lato in comune oppure se hanno un lato o un vertice in comune;
• il caso di unità territoriali di forma IRREGOLARE: in tal caso, si assume abitualmente che sono contigue 2 unità territoriali con una porzione di confine in comune.
Dopo aver definito, in uno dei diversi modi visti, la contiguità tra 2 unità territoriali, si possono costruire i cluster (aree omogenee) applicando un metodo di clustering (ad esempio, gerarchico) vincolata: • due unità territoriali possono essere assegnate allo stesso
cluster solo se sono tra loro spazialmente contigue;
416
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
• un’unità territoriale può essere assegnata ad un cluster già formato se essa è contigua con almeno una delle unità del cluster stesso;
• due unità si possono unire tra loro se almeno una unità di un cluster è contigua ad una unità dell’altro cluster.
Formalmente, il vincolo di contiguità (territoriale) viene considerato nelle procedure di clustering (ad esempio gerarchiche) affiancando alla matrice delle distanze D una matrice di contiguità (detta anche matrice di adiacenza), simmetrica, di dimensione n×n e con valori unitari lungo la diagonale principale,così definita:
C=[cij] ove
⎩⎨⎧
=.altrimenti 0
esima- junitàl' con contigua è esima-i unitàl'1ijc
417
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
OSSERVAZIONE (inversione) L’introduzione del vincolo di contiguità nei metodi di clustering (gerarchici) può produrre un inconveniente: INVERSIONE nei valori della distanza in corrispondenza della quale una unità territoriale si unisce ad un cluster (cfr. figura).
L’unità territoriale 4 che presenta una distanza pari a 0.3 dal gruppo [1,2], ma che non è spazialmente contigua ad esso, si unisce solo dopo che l’unità 3, contigua a [1,2] e a 4, si è aggregata al gruppo [1,2] alla distanza 0.5. Si dimostra che il metodo del legame completo col vincolo di contiguità non produce inversione.
0.5
0.3
0.1
1 2 3 4
418
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
La Cluster Analysis non gerarchica
L’OBIETTIVO dei metodi di clustering non gerarchici è quello di ottenere una SOLA PARTIZIONE di n unità in k gruppi (k<n), con k scelto a priori (contrariamente ai metodi gerarchici che determinano una famiglia di partizioni). Nei metodi di clustering non gerarchici la PROCEDURA DI ALLOCAZIONE delle unità ai cluster avviene attraverso l’OTTIMIZZAZIONE di una FUNZIONE OBIETTIVO (espressa di solito in termini della scomposizione della devianza totale). Di solito si ricerca la PARTIZIONE DI MASSIMA COESIONE INTERNA (minima devianza within). Inoltre, gli algoritmi raggiungono di solito un OTTIMO LOCALE.
419
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
I possibili vantaggi dell’approccio non gerarchico sono i seguenti:
1. Variando il numero di cluster, viene meno il vincolo che tutte le coppie di unità che sono unite ad un determinato livello di aggregazione gerarchica non possono più essere separate ai livelli successivi. Per ogni valore di k, infatti, l’algoritmo non gerarchico classifica ogni unità esclusivamente sulla base del criterio prescelto e i risultati ottenuti possono essere diversi al variare del numero di cluster. Ciò consente di superare i potenziali inconvenienti dovuti ad una fusione “errata” di unità eterogenee nei passi iniziali d una procedura gerarchica.
420
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
2. Il fatto di considerare una procedura iterativa, per un solo
valore di k (fissato), rende gli algoritmi non gerarchici assai veloci computazionalmente e non richiede la determinazione preliminare della matrice delle distanze tra le unità. Tali metodi sono quindi adatti alle situazioni in cui n è molto elevato (in tali casi invece l’uso di una procedura gerarchica sarebbe computazionalmente molto onerosa).
3. Gli algoritmi non gerarchici possono essere preferibili quando
l’interesse della ricerca consiste nella caratterizzazione delle peculiarità dei cluster (ad esempio, attraverso il calcolo dei centroidi e delle misure di variabilità dei cluster), piuttosto che nello studio del comportamento elle singole unità nei successivi passi dell’aggregazione gerarchica.
421
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
I modelli non gerarchici presentano tuttavia alcuni inconvenienti legati alla necessità di definire preventivamente:
1. il valore del numero dei cluster della partizione “ottima”; 2. la configurazione di partenza dei cluster (partizione iniziale).
Osservazione Purtroppo il numero di modi in cui è possibile suddividere n unità in k cluster non sovrapposti è assai grande anche per valori bassi di n e k. Quindi, l’enumerazione completa di tutte le possibili partizioni non risulta quasi mai perseguibile nelle applicazioni. È per questo motivo che (come abbiamo visto) gli algoritmi non gerarchici usualmente utilizzati considerano criteri meno vincolanti (procedure iterative (in cui si considera un solo (prefissato) valore di k) che consentono di ottenere ottimi “locali”).
422
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Osservazione (ottimo (minimo) locale) Tra una iterazione e la successiva, ci troviamo in una situazione in cui la funzione obiettivo da minimizzare non decresce significativamente ma si stabilizza su di un minimo, che purtroppo è locale.
t
f.o. Ottimo locale La funzione obiettivo non
decresce significativamente. L’algoritmo converge.
Ottimo globale
423
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Il metodo delle k-medie
Il metodo K-medie è il metodo di clustering non gerarchico più comune.
L’OBIETTIVO è quello di determinare una partizione delle n unità statistiche in un numero prefissato di cluster, minimizzando la devianza within (distanza euclidea tra unità e centroide) (MAX COESIONE INTERNA) attraverso una procedura iterativa:
1. Si scelgono (ad esempio casualmente) k poli iniziali (semi iniziali). I poli possono essere individuati attraverso criteri differenti, di solito in modo tale che essi siano abbastanza distanti tra loro (vedi in seguito). Quindi si costruisce la partizione iniziale, costituita da k cluster, allocando ciascuna unità al cluster il cui polo risulta il più vicino.
424
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
2. Per ogni cluster si calcolano i centroidi e per ogni unità si calcola la distanza euclidea dai centroidi dei k cluster: se la distanza minima non è ottenuta in corrispondenza del centroide del gruppo di appartenenza, l’unità viene riassegnata al cluster corrispondente al centroide più vicino. In caso di riallocazione di un’unità, si ricalcola il centroide sia del nuovo che del vecchio cluster di appartenenza.
3. Si ripete il passo 2 fino a quando l’algoritmo non converge,
cioè fino a quando non si verificano più modificazioni dei centroidi (e quindi dei cluster) rispetto all’iterazione precedente (regola d’arresto).
425
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Osserviamo inoltre che:
a. In alternativa, se vogliamo ridurre i tempi di calcolo, la regola di arresto (vedi passo 3) può essere sostituita da una regola meno restrittiva, che prevede l’interruzione del processo iterativo in uno dei seguenti casi:
- convergenza dell’algoritmo; - distanza tra ciascun centroide calcolato nell’iterazione
corrente e il corrispondente centroide dell’iterazione precedente non superi una soglia prefissata (valore molto piccolo);
- raggiungimento del numero massimo di iterazioni prefissato.
426
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
b. Per ottenere una partizione con un diverso numero di cluster, ad esempio k*, è necessario ripetere tutti i passi della procedura, sostituendo k con k*.
c. Le fasi del metodo delle k-medie richiedono il calcolo ripetuto della distanza tra ciascun punto e i centroidi dei k cluster: tale procedura appartiene alla classe di algoritmi di clustering che adottano la tecnica dell’ “ordinamento rispetto al centroide più vicino”.
d. La distanza utilizzata nel calcolo è la distanza Euclidea, poiché essa garantisce la convergenza della procedura iterativa (Anderberg, 1973). Quindi, all’iterazione t, la distanza tra l’unità i-esima e il centroide c-esimo è:
∑=
−=p
s
tcsis
tci hxd
1
2)()( )(),( hx .
427
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Si nota che il metodo delle k-medie (considerando la distanza Euclidea) ha come obiettivo implicito la ricerca della partizione (con k cluster) che soddisfa un criterio di coesione interna fondato sulla devianza nei cluster, cioè sulla minimizzazione della quantità W.
e. Una naturale misura della bontà della partizione ottenuta è R2. Non è invece applicabile l’indice RMSSTD (applicabile a strutture gerarchiche).
f. Il metodo delle k-medie produce tendenzialmente cluster di forma sferica e di dimensioni abbastanza simili tra loro.
g. Il metodo delle k-medie presenta il seguente inconveniente: la partizione finale può essere influenzata dall’ordine in cui sono elencate le unità nella matrice dei dati. Tale fatto è attribuibile al ricalcolo dei centroidi dei cluster ad ogni allocazione (Anderberg, 1973).
428
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
h. È possibile adottare una versione alternativa dell’algoritmo delle k-medie, in cui i centroidi dei cluster sono ricalcolati una sola volta in ciascuna iterazione, e cioè soltanto dopo aver assegnato tutte le unità al cluster con centroide più vicino.
i. Anche utilizzando la precedente variante non è possibile risolvere l’inconveniente indicato in precedenza. Quindi, per qualsiasi tipo di algoritmo iterativo del metodo delle k-medie, occorre tener conto della sensibilità del metodo all’ordinamento delle unità nella matrice dei dati. A tal riguardo occorre ripetere l’algoritmo partendo da differenti sequenze iniziali. Altrimenti, il metodo delle k-medie può portare a risultati instabili nei seguenti casi:
- se nei dati non esiste una chiara struttura di gruppo, ossia i cluster non sono ben separati;
429
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
- se si è interessati ad indagare su caratteristiche “locali” dei dati, come l’influenza di singole osservazioni o la presenza di dati anomali (outlier);
- se n è molto piccolo. l. Il metodo delle k-medie è implementato in SPSS, SAS,
STATISTICA, etc. Si tratta di algoritmi molto veloci e quindi applicabili anche a data set di dimensioni elevate, soprattutto quando k è piccolo rispetto a n.
m. Il metodo delle k-medie è sensibile alla presenza di outlier.
430
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Scelta del numero di cluster e dei poli iniziali
L’impossibilità pratica di considerare l’insieme completo delle partizioni di n unità in cluster distinti fa si che la partizione “ottima” ottenuta col metodo delle k-medie corrisponde ad un “minimo locale” della funzione obiettivo.
In tal caso la soluzione finale dipende dalla configurazione iniziale.
A tal proposito analizziamo i problemi connessi alla scelta:
- del numero di cluster della partizione,
- dei poli iniziali.
431
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Scelta del numero di cluster
Analogamente al caso gerarchico, è possibile seguire diversi approcci. • Il criterio più diffuso per la determinazione del numero di cluster
consiste nell’esecuzione ripetuta della procedura di clustering non gerarchica con differenti valori di k, nella valutazione (ad esempio con l’indice R2) della bontà delle partizioni ottenute e nella selezione della partizione finale ritenute più soddisfacente.
• Test di significatività (come nel caso gerarchico). • Se n non è molto grande, una possibile soluzione consiste nel far precedere l’analisi non gerarchica da un’analisi gerarchica, al fine di ottenere (ad esempio, dall’ispezione del dendrogramma) indicazioni sul valore di k.
• Utilizzo dell’istogramma p-dimensionale e individuazioni delle mode.
432
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Scelta dei poli della partizione iniziale Anche in tal caso possiamo distinguere diversi criteri. • Un criterio molto semplice e poco oneroso consiste nel prendere come semi iniziali le prime k osservazioni (p-dimensionali) della matrice dei dati.
• Un criterio leggermente formalizzato consiste nel selezionare i semi attraverso la selezione di un campione casuale semplice o un campione sistematico di k unità dalle n unità in esame.
• I criteri precedenti non garantiscono che i semi selezionati siano rappresentativi per l’intera nuvola dei punti sullo spazio p-dimensionale. Tale requisito è importante nelle applicazioni reali, poiché permette di migliorare le proprietà di convergenza degli algoritmi non gerarchici. Infatti esso aumenta la capacità degli algoritmi di fornire in tempi rapidi una partizione finale prossima alla soluzione “ottima” (in termini di coesione interna) e di
433
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
individuare le strutture di gruppo effettivamente presenti nei dati (cluster naturali). A tal proposito, si osserva che la rappresentatività dei poli è perseguita mediante la ricerca di osservazioni sufficientemente distanti nello spazio di riferimento. Ad esempio, la procedura implementata nel SAS effettua un test preliminare sui dati di partenza in modo da individuare k elementi la cui distanza (euclidea) reciproca sia non inferiore ad una soglia prefissata. Alternativamente, si esegue una serie di verifiche al fine di garantire che la distanza tra i semi prescelti sia comunque superiore a quella calcolata tra i poli stessi e le rimanenti unità. L’obiettivo di questi criteri è quello di cercare di garantire che nella partizione iniziale i centroidi risultino ben separati tra loro ed ogni unità sia relativamente prossima ad uno di essi.
434
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Osservazione I criteri finora descritti (eccetto quello basato sul campionamento casuale) dipendono dall’ordine in cui sono elencate le unità nella matrice dei dati: essi possono condurre a risultati differenti, al variare dell’ordine delle unità. • Un ulteriore criterio consiste nell’utilizzare l’istogramma p-
dimensionale. In particolare, dopo aver determinato il numero di cluster attraverso l’esame dei valori assunti dalle densità di frequenza, si definiscono i semi iniziali come centroidi calcolati sulle solo osservazioni comprese nei rettangoli (maglie della griglia) che individuano le mode.
• Un altro criterio consiste (nel caso di utilizzo preliminare di una procedura gerarchica per la selezione del numero dei cluster) nell’indicare come poli della partizione iniziale della procedura non gerarchica i centroidi dei cluster ottenuti dal taglio del dendrogramma.
435
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Una formalizzazione matematica
Il metodo delle k-medie si può formalizzare matematicamente nel seguente modo:
( )
{ }
1
1,0
,d:min
1
1 1
2
1 1
2
,
=
∈
−=
∑
∑ ∑∑∑
=
= == =
k
cic
ic
n
i
k
cciic
n
i
k
cciic
u
u
uu hxhxhU
dove ix , i=1,…n, è il vettore p-dimensionale (dove p indica il numero delle variabili) dei dati relativo all’osservazione i-esima e ch , c=1…,k, è il vettore anch’esso p-dimensionale che caratterizza il gruppo c-esimo. Tale vettore è denominato il centroide del gruppo c, c=1…,k.
436
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
L’informazione relativa all’appartenenza delle unità ai gruppi è data dalla cosiddetta matrice dei gradi di appartenenza U, il cui elemento generico è icu , i=1,…n; , c=,1…,k.
La somma degli elementi delle righe di tale matrice è unitaria.
Ciascuna riga si riferisce ad una osservazione e ciascuna colonna ad un gruppo.
In particolare, poiché gli elementi di U possono essere nulli o unitari, ciascuna riga è formata da un solo uno e da k-1 valori nulli.
437
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
L’algoritmo operativo La determinazione dei gruppi avviene attraverso il seguente algoritmo iterativo.
Passo 0 Si sceglie casualmente una matrice dei gradi di appartenenza ( )tU con 0=t .
Passo 1 Si aggiornano i centroidi con ( )
( )
( )∑
∑
=
=+ = n
i
tic
n
ii
tic
tc
u
u
1
11x
h .
Passo 2
Si aggiornano gli elementi di U con
( ) { }
( ){ }⎪⎩
⎪⎨⎧ −=
=+
′∈′
+
altrimenti0
minarg1 1
,,11
tci
kctic
cseu
hxK
Passo 3
Si verifica se tra due iterazioni non varia l’appartenenza delle unità ai cluster. Se la condizione è verificata, l’algoritmo è terminato, altrimenti si pone 1+=tt e si torna al Passo 1.
438
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Esempio 1 (forni a microonde) Consideriamo la matrice dei forni a microonde e utilizziamo l’SPSS. La sequenza dei comandi è: ANALIZZA → CLASSIFICA → CLUSTER K-MEDIE → SELEZIONA VARIABILI
→ SELEZIONA N° DI CLUSTER; METODO: ITERA E CLASSIFICA; ITERAZIONI: FISSA MAX N° DI ITERAZIONI; OPZIONI: CLUSTER PER OGNI
CASO; SALVA: CLUSTER DI APPARTENENZA; DISTANZA DEL CENTRO DEL CLUSTER
439
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
I risultati ottenuti con k=4 sono i seguenti:
Cluster di appartenenza
1 ,0004 ,5103 ,6044 ,6263 ,9593 ,6714 ,5862 ,000
Marca forniCANDYDELONGHIELECTROLUXMOULINEXOCEANPANASONICSAMSUNGSHARP
Cluster Distanza
Centri dei cluster finali
1,20761 -,72457 ,77824 -,939262,24246 -,52183 -,12693 -,44661,61197 2,05769 -,55994 -,32994
Punteg(altezza)Punteg(capacità)Punteg(prezzo)
1 2 3 4Cluster
Distanze tra i centri dei cluster finali
3,669 2,678 3,5683,669 3,044 2,3982,678 3,044 1,7623,568 2,398 1,762
Cluster1234
1 2 3 4
Numero di casi in ogni cluster
1,0001,0003,0003,0008,000,000
1234
Cluster
ValidiMancanti
Nel seguito viene mostrata la sequenza delle operazioni con SPSS.
440
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
441
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
442
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
443
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
444
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
445
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
446
STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009
Esempio 2 (aziende alimentari) Considerando l’SPSS si ottengono i seguenti risultati (posto k=3)
Cluster di appartenenza
2 1,1052 1,1733 1,4422 1,5472 1,4133 1,4422 1,5122 2,5631 ,0003 ,794
AziendaBARILLAERIDANIAFERREROGALBANIKRAFTLAVAZZANESTLE'PARMALATPLASMONSTAR
Cluster Distanza
Centri dei cluster finali
1,15 -,57 ,884,11 -,29 -,04
-1,97 ,20 -,562,24 -,55 ,71,45 ,36 -1,00
Econ.proCash.fatLavor.vaRoeInde.cap
1 2 3Cluster
Distanze tra i centri dei cluster finali
5,899 4,8645,899 2,4924,864 2,492
Cluster123
1 2 3
Numero di casi in ogni cluster
1,0006,0003,000
10,000,000
123
Cluster
ValidiMancanti