6 Tecniche di analisi di dati multidimensionali 6.1...

345

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

6 Tecniche di analisi di dati multidimensionali

6.1 Cluster Analysis

La Classificazione: Analisi Discriminante e Cluster Analysis

I metodi statistici per la classificazione delle unità statistiche in gruppi omogenei possono distinguersi in :

• ANALISI DISCRIMINANTE • CLUSTER ANALYSIS

346


• Nell’ANALISI DISCRIMINANTE (classificazione con

supervisione) è noto a priori che le n unità osservate appartengono a due o più popolazioni differenti. Per ogni unità si conosce il corrispondente vettore dei valori delle p variabili. L’obiettivo dell’analisi discriminante è quello di stabilire un criterio (basato sulle p variabili) per assegnare correttamente ulteriori unità alla rispettiva popolazione di appartenenza, minimizzando la probabilità degli errori di attribuzione.

347


ESEMPIO Un interessante esempio è la classificazione delle aziende che richiedono un prestito ad una banca in aziende solvibili e aziende non solvibili. Sulla base dei dati passati, la banca può distinguere n aziende che hanno ottenuto un prestito in 2 categorie: quelle che hanno rimborsato regolarmente il medesimo e le altre (che hanno ritardato i pagamenti, non hanno effettuato i rimborsi, ecc.). Se per ognuna di tali aziende la banca conosce un insieme di variabili (desumibili, ad esempio, dai bilanci) mediante l’analisi discriminante è possibile classificare una nuova azienda che richiede un prestito (e che fornisce i valori delle suddette variabili) nella classe di quelle solvibili oppure di quelle a rischio, minimizzando la probabilità di errore nell’assegnazione. Tale conoscenza per la banca è importante per decidere se erogare o meno il prestito.

348


• La CLUSTER ANALYSIS (classificazione senza supervisione) è invece un metodo tipicamente esplorativo. Esso consiste nel ricercare nelle n osservazioni p-dimensionali gruppi di unità tra loro simili, non sapendo a priori se tali gruppi omogenei esistono effettivamente nel dataset e non sapendo nulla a priori circa le caratteristiche strutturali di eventuali gruppi. Classificazioni di questo tipo assumono una chiara valenza interpretativa solo nei casi in cui nei dati siano realmente presenti delle strutture di gruppo, che vengono individuate dalla metodologia statistica. L’obiettivo della Cluster Analysis è dunque quello di riconoscere gruppi che appaiono con “naturalezza” nelle osservazioni.

349


ESEMPIO 1 Una possibile applicazione della cluster analysis consiste nella classificazione dei comuni italiani in gruppi omogenei in base ad un insieme di indicatori turistici (come, ad esempio, indicatori dell’offerta turistica, indicatori del flusso turistico, indicatori di utilizzazione degli esercizi ricettivi). In tal modo si possono identificare delle aree geografiche che presentano analogie di situazioni e quindi richiedono medesimi interventi di politica economica in tema di turismo.

350


ESEMPIO 2 (Segmentazione del mercato e studio del comportamento della clientela) La segmentazione si pone l’obiettivo, attraverso la cluster analysis, di identificare gruppi omogenei (segmenti) di entità (consumatori, mercati, organizzazioni) con determinate caratteristiche simili (benefici ricercati nel prodotto/servizio, attitudine, propensione all’acquisto, preferenze nei confronti dei diversi media, etc.).

351


La Cluster Analysis: aspetti generali e approcci metodologici

La CLUSTER ANALYSIS è una tecnica statistica multivariata avente come

l’individuazione di una o più PARTIZIONI dell’insieme di n unità statistiche in gruppi (CLUSTER), a due a due disgiunti, in base ad un set di variabili osservate su esse, tali che i gruppi abbiano le caratteristiche di:

1) COESIONE INTERNA (le unità assegnate ad uno stesso gruppo devono essere tra loro simili) (gruppi omogenei).

2) SEPARAZIONE ESTERNA (i gruppi devono essere il più possibile distinti tra loro).

OBIETTIVO

352


OSSERVAZIONE Nella Cluster Analysis, contrariamente all’Analisi Discriminante, non si sa nulla a priori sulle caratteristiche strutturali dei gruppi. OSSERVAZIONE Nei metodi di clustering che considereremo (esclusi quelli con parziale sovrapposizione e fuzzy) ogni unità statistica appartiene ad uno ed un solo cluster, contrariamente ai metodi di clustering non tradizionali come i metodi di clustering con overlapping (clumping) e i metodi di clustering fuzzy, in cui ogni unità può appartenere a più cluster.

353


Il primo lavoro in cui viene descritta in maniera sistematica la Cluster Analysis è dovuto a Tryon (1939). Successivamente, diversi sono stati i contributi teorici registrati. Negli ultimi decenni, grazie allo sviluppo dell’hardware e software, sono stati risolti molti problemi computazionali connessi ai metodi di clustering, che ne avevano limitato l’uso nei tempi passati. Ciò ha favorito lo sviluppo di nuovi metodi di clustering, i cui algoritmi operativi sono facilmente implementabili su PC. A sua volta ciò ha favorito la diffusione dell’utilizzo di tali procedure in vari ambiti applicativi (economia, marketing, sociologia, psicologia, medicina, antropologia, ecc.).

354


La Cluster Analysis è importante, ad esempio, nei seguenti casi: • ridurre i dati (nel senso delle unità), • identificare tipologie, • stratificare popolazioni da sottoporre a campionamento, • segmentare il mercato e studiare il comportamento della clientela, • individuare aree omogenee (geomarketing e aree-test di mercato).

355


I metodi di clustering si possono distinguere in:

• METODI GERARCHICI

• METODI NON GERARCHICI • I metodi gerarchici permetto di ottenere una famiglia di partizioni,

con un numero di gruppi da n a 1, partendo da quella banale in cui tutte le unità sono distinte per giungere, per aggregazioni successive, a quella, pure banale, in cui tutte le unità sono riunite in un unico gruppo (metodi gerarchici aggregativi)

356


oppure

da 1 a n, partendo da quella banale in cui tutte le unità sono riunite in un unico gruppo per giungere, per separazioni successive, a quella anch’essa banale, in cui tutte le unità sono distinte in n gruppi (metodi gerarchici scissori).

• I metodi non gerarchici forniscono un’unica partizione delle n unità in g gruppi, con g fissato a priori.

357


METODO DI CLUSTERING GERARCHICO SCISSORIO

METODO DI CLUSTERING GERARCHICO AGGREGATIVO

D

C

B

A

E

A B

D E

C D E

A B C D E

4 3 2 1 0

0 1 2 3 4

358


La Cluster Analysis gerarchica aggregativa

• Fasi • Informazione Empirica

• Matrice dei Dati • Matrice delle Prossimità

• Informazione Teorica

• Verifica dell’esistenza di cluster naturali • Fasi dei metodi gerarchici aggregativi • Principali metodi gerarchici aggregativi

• Metodo del Legame singolo • Metodo del Legame completo

359


• Metodo del Legame medio • Metodo dei Centroidi • Metodo di Ward

• Rappresentazione grafica dei risultati: il Dendrogramma

• Proprietà dei metodi gerarchici aggregativi • Formula generale di Lance-Williams • Determinazione del numero ottimo di cluster • Verifica e Interpretazione delle soluzioni gerarchiche

• Confronti tra partizioni e consenso

360


FASI DELLA CLUSTER ANALYSIS GERARCHICA AGGREGATIVA

MATRICE DEI DATI (organizzazione dell’informazione empirica in forma matriciale, pre-

processing, scelte delle variabili)

MATRICE DELLE PROSSIMITA’

VERIFICA DELL’ESISTENZA DI CLUSTER NATURALI

METODI DI CLUSTERING

RAPPRESENTAZIONE GRAFICA DEI RISULTATI: IL DENDROGRAMMA

DETERMINAZIONE DEL NUMERO OTTIMO DI CLUSTER

eℑ

tℑ

VERIFICA E INTERPRETAZIONE DELLE SOLUZIONI

361


Matrice dei Dati L’informazione empirica viene raccolta nella Matrice dei Dati del tipo unità × variabili, di dimensione n × p:

⎟⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜⎜

⎝

⎛

=

npnsn

ipisi

ps

xxx

xxx

xxx

......

......

......

1

1

1111

MMM

MMM

X

ove xis rappresenta la determinazione della s-esima variabile quantitativa osservata sull’i-esima unità statistica (i=1,…,n; s=1,…,p). In forma compatta:

{ }psnixis ,...,1;,...,1: ===X .

vettore-unità

362


La matrice dei dati può essere trasformata considerando opportune procedure di centratura, normalizzazione, standardizzazione (data pre-processing). Ad esempio, si può considerare (al fine di rendere comparabili variabili originariamente espresse in unità di misura differenti e con diverso ordine di grandezza) la matrice degli scarti standardizzati

⎭⎬⎫

⎩⎨⎧

==−

== psniσ

xxzs

sisis ,...,1;,...,1:Z

ove zis rappresenta lo scarto standardizzato per l’unità i-esima e la variabile s-esima, sx =media, sσ =s.q.m.

363


Matrice delle Prossimità

Una vasta classe di metodi gerarchici (aggregativi) si basa sull’utilizzo di una Matrice delle Prossimità calcolata per le n unità statistiche. Essa è una matrice simmetrica di dimensione n × n:

{ }jinjipij ≠== ;,...,1,:P ove pij rappresenta una misura di prossimità tra la coppi di unità i e j. In particolare possono costruirsi Matrici delle Distanze, Matrici delle Dissimilarità, Matrici delle Similarità.

364


Ad esempio, nel caso di Matrice delle Distanze abbiamo una matrice simmetrica con valori nulli lungo la diagonale principale, quadrata e di dimensione n × n:

⎟⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜⎜

⎝

⎛

=

0

..........0

........ 0 11312

jn

n

d

ddd

D

Ovviamente devono essere soddisfatte le proprietà di non negatività, identità, simmetria, disuguaglianza triangolare.

O

O

365


Verifica dell’esistenza di cluster naturali nella struttura dei dati

L’applicazione di un metodo di clustering ha senso se esiste una reale struttura di gruppo nei dati. La presenza di una effettiva struttura di gruppo nei dati multidimensionali può essere verificata attraverso opportune procedure. Distinguiamo:

PROCEDURE INFERENZIALI PROCEDURE ESPLORATIVE

366


• Procedure inferenziali: ad esempio, si sottopone a verifica l’ipotesi nulla di assenza di struttura nei dati (modello uniforme: le n unità sono distribuite uniformemente nello spazio di riferimento.

• Procedure esplorative: si può considerare il cosiddetto istogramma p-dimensionale (che rappresenta una generalizzazione dell’istogramma univariato). Nel caso p=2 si considerano le seguenti fasi: 1. A partire dalla matrice dei dati di dimensione n × 2 si

costruisce lo scatterplot. 2. Si fissa un origine x0 nello spazio bidimensionale per

costruire l’istogramma (si fissa l’origine in corrispondenza del punto che ah per coordinate, i valori minimi osservati sulle due variabili).

367


3. Allo scatterplot in R2 si sovrappone una griglia regolare a maglie rettangolari di dimensione h1 × h2. Si indica con q=numero di elementi della griglia in ogni dimensione e con Q=q × q=numero totale di rettangoli.

4. Si conta il numero di punti nello scatterplot che sono compresi in ogni rettangolo. Dopo tale operazione nj rappresenta la frequenza assoluta associata al rettangolo j

(j=1,…,Q) ( nnQ

jj =∑

=1).

5. L’istogramma bidimensionale è quindi ottenuto dalla rappresentazione delle densità di frequenza:

Qjhnh

nδ j

j ,...,121

==

ove h1h2=area di ogni rettangolo.

368


Le jδ consentono di individuare l’esistenza di zone con elevata densità di punti (MODE) in R2 e quindi di possibili gruppi di unità. Inoltre le jδ danno informazioni anche sul numero di cluster.

Se p>2 si procede analogamente al caso p=2. Per quanto riguarda la rappresentazione grafica conviene ricondursi al caso bidimensionale operando in diversi modi, ad esempio, considerando la rappresentazione delle densità jδ per ciascuna coppia di variabili.

369


Metodi di clustering gerarchici aggregativi

I metodi di clustering gerarchici aggregativi hanno le seguenti caratteristiche:

1. considerano tutti i livelli di distanza γ , ∞≤≤ γ0 ; 2. i gruppi che si ottengono ad un livello di distanza comprendono i

gruppi ottenuti ai livelli inferiori. Quindi quando 2 (o più) unità si uniscono tra loro, esse non possono essere separate nei passi successivi della procedura.

OSSERVAZIONE: considereremo nelle procedure di clustering analizzate come matrice delle prossimità, le matrici delle distanze.

370


Le procedure di clustering gerarchiche aggregative si articolano in FASI. Tali fasi sono le seguenti: 1. Si individuano nella matrice D le 2 unità con la minore distanza

(cioè tra loro più simili) e si riuniscono a formare il 1° gruppo. Si ottiene una partizione con (n-1) gruppi di cui (n-2) costituiti da singole unità e l’altro formato da 2 unità.

2. Si ricalcola, adottando un certo criterio, la distanza del gruppo ottenuto dagli altri gruppi (eventualmente costituiti da una sola unità), ricavando una nuova matrice delle distanze, con dimensioni diminuite di uno.

3. Si individua nella nuova matrice delle distanze la coppia di unità (o gruppi) con minore distanza, riunendole in un unico gruppo.

4. Si ripetono le fasi 2 e 3 sino a quando tutte le unità sono riunite in un solo gruppo.

371


Le differenze tra i vari metodi gerarchici (aggregativi) consistono nel criterio utilizzato per calcolare la distanza tra 2 gruppi di unità (uno dei quali eventualmente formato da una sola unità). OSSERVAZIONE: Se si parte da una matrice di indici di similarità, nella procedura precedente i termini “minore distanza” devono essere sostituite da “maggiore similarità”.

372


I più diffusi metodi di clustering gerarchici aggregativi sono: 1. METODO DEL LEGAME SINGOLO (O SINGLE LINKAGE O

DEL VICINO PIU’ PROSSIMO) 2. METODO DEL LEGAME COMPLETO (O COMPLETE LINKAGE

O DEL VICINO PIU’ LONTANO) 3. METODO DEL LEGAME MEDIO (TRA I GRUPPI) (O AVERAGE

LINKAGE) 4. METODO DEL LEGAME MEDIO NEI GRUPPI 5. METODO DI WARD (O DELLA MINIMA DEVIANZA) 6. METODO DEL CENTROIDE.

Siano considerati 2 cluster C1 e C2 con numerosità n1 e n2.

373


METODO DEL LEGAME SINGOLO La distanza tra 2 gruppi C1 e C2 è definita come il minimo delle n1n2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell’altro gruppo:

d(C1,C2)=min (drs) r∈ C1, s∈ C2

•••

•

•

•• •

C1 C2

374


METODO DEL LEGAME COMPLETO La distanza tra 2 gruppi C1 e C2 è definita come il massimo delle n1n2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell’altro gruppo:

d(C1,C2)=max (drs) r∈ C1, s∈ C2

•

•• •

•

•••

C1 C2

375


METODO DEL LEGAME MEDIO (tra i gruppi) La distanza tra 2 gruppi C1 e C2 è definita come la media aritmetica delle n1n2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell’altro gruppo:

2121

21 C s ,C r1),( ∈∈= ∑∑r s

rsdnn

CCd

•

••

•

•••

•

C1 C2

376


METODO DEL LEGAME MEDIO (nei gruppi) È una variante del metodo precedente. La distanza tra 2 gruppi C1 e C2 è definita come la media aritmetica tra tutte le possibili coppie di unità del nuovo gruppo che si ottiene (considerando quindi anche le distanze tra le unità appartenenti al medesimo gruppo di appartenenza):

21211 1

21 C s ,C r ;m2)1(

1),( ∈∈+=−

= ∑∑= =

nndmm

CCdm

r

m

srs .

•

••

•

•••

•

C1 C2

377


METODO DEL CENTROIDE La distanza tra 2 gruppi C1 e C2 è definita come la distanza tra i rispettivi centroidi 1x e 2x :

d(C1, C2)=d( 1x , 2x ). Ovviamente il calcolo del centroide di un cluster di unità richiede la conoscenza dei rispettivi valori delle p variabili. Il centroide del nuovo cluster che si forma può essere calcolato in funzione dei centroidi dei 2 cluster di partenza:

21

221121 )(

nnnnCC

++

=∪xx

.

centroide

•

••

•

•••

•

C1 C2

••

378


METODO DI WARD (o della devianza minima) Poiché l’obiettivo è quello di ottenere cluster con maggiore COESIONE INTERNA, si considera la scomposizione della devianza totale (T) delle p variabili in devianza nei cluster (Within, W) e devianza tra cluster (Between, B):

T=W+B Ove, data una partizione in g cluster:

∑∑= =

−=p

s

n

rsis xxT

1 1

2)( DEVIANZA TOTALE ottenuta come somma delle devianze delle singole variabili rispetto alla corrispondente media generale sx .

379


( )∑ ∑∑∑= = ==

⎥⎦

⎤⎢⎣

⎡−==

g

l

p

s

n

islis

g

ll

l

xxWW1 1 1

2

1 DEVIANZA NEI CLUSTER ottenuta come

somma delle devianze di cluster, ove Wl è la devianza delle p variabili nell’l-esimo cluster (di numerosità nl e centroide ),...,( 1 ′= plll xxx ).

( )∑∑= =

−=p

s

g

llssl nxxB

1 1

2 DEVIANZA TRA CLUSTER ottenuta come somma

delle devianze ponderate delle medie di cluster rispetto alla corrispondente media generale. Ad ogni passo della procedura gerarchica si aggregano tra loro i cluster che comportano il MINORE INCREMENTO DELLA DEVIANZA NEI CLUSTER (W), cioè che assicura la MAGGIORE COESIONE INTERNA.

380


OSSERVAZIONE Si dimostra che la minimizzazione della devianza Within equivale a considerare la distanza tra cluster:

221

21

2121 ),( xx −

+=

nnnnCCd

ove 2

2xx1 − = quadrato della distanza euclidea tra i centroidi di C1 e C2.

381


Proprietà dei metodi di clustering gerarchici aggregativi e problemi di scelta

ESISTE UN METODO MIGLIORE DEGLI ALTRI? La risposta non è univoca. Il problema può porsi in termini di proprietà desiderabili. A tal proposito consideriamo le seguenti proprietà:

1. PARTIZIONE BEN STRUTTURATA MINIMALE 2. INVARIANZA PER TRASFORMAZIONI MONOTONE

DELLE DISTANZE

382


1. PARTIZIONE BEN STRUTTURATA MINIMALE

• Una PARTIZIONE si definisce BEN STRUTTURATA se max(dij)< min(drs)

ove i,j∈stesso cluster; r,s∈diversi cluster.

• Si definisce PARTIZIONE BEN STRUTTURATA MINIMALE una partizione ben strutturata con il minor numero di cluster.

••••

••••••

•• ••••

•••• ••••

•••• •

••r

s i

j

•

max(dij)

min(drs)

383


2. INVARIANZA PER TRASFORMAZIONI MONOTONE DELLE DISTANZE Un metodo di clustering gerarchico aggregativo è INVARIANTE PER TRASFORMAZIONI MONOTONE DELLE DISTANZE se fornisce la medesima famiglia di partizioni per ogni trasformazione monotona delle distanze. OSSERVAZIONE: i metodi del legame singolo, completo e medio, ad un certo punto della procedura, generano partizioni ben strutturate minimale. OSSERVAZIONE: il metodo del legame singolo e quello del legame completo soddisfano la proprietà 2; il metodo del legame medio no.

384


Quali sono le caratteristiche dei principali metodi (legame singolo, completo, medio)? Il metodo del legame singolo e il metodo del legame completo individuano cluster con caratteristiche diverse. Il metodo del legame singolo presenta il cosiddetto EFFETTO CATENA, cioè può riunire in un unico cluster unità molto distanti quando tra esse esiste una successione di punti (unità) intermedi. Il metodo del legame completo individua invece CLUSTER COMPATTI DI FORMA CIRCOLARE (in R2) (o SFERICI in R3 o IPERSFERICI in Rp).

385


Nella Figura si nota l’effetto catena. Si nota evidentemente l’esistenza di 3 cluster. Tuttavia, l’esistenza di alcuni punti tra i due cluster a sinistra fa si che per l’effetto catena il metodo del legame singolo individui 2 cluster (unificando i 2 cluster a sinistra), mentre il metodo del legame completo ne individua, in modo corretto, 3 (assegnando i punti intermedi un po’ ad un cluster un po’ all’altro).

•••• ••••

••••• •••••

••• •••••

•

••••••

•

•••• ••••• •••••• •

•

•••••••

••••

•••

•••

•••• ••••• •••••• •••••••••

•• ••

•• ••••

•••• ••••

•

386


Tuttavia l’effetto catena del legame singolo ha il vantaggio di individuare cluster con forme allungate. In conclusione, il metodo del legame medio può costituire un giusto compromesso tra metodo del legame singolo e del legame completo.

•••• ••••

•• •

•

••••

•

•••• •

•

•••

•

•

••••

••••• •••••

•••••• •

•

••• •••

••

•

••

•••

•• ••••

•••••

•

••

••

•

••

•• •

••• •• •

••

•

••

•

• ••• ••••

••

387


Rappresentazione grafica dei risultati ottenuti coi metodi di clustering gerarchici aggregativi La famiglia di partizione ottenuta con un metodo gerarchico aggregativo può essere rappresentata graficamente mediante un ALBERO n-DIMENSIONALE (n-TREE). In particolare, si considera un sistema di assi cartesiani in cui in ascisse si pongono le unità statistiche e in ordinata gli STADI della classificazione.

388


Un esempio di albero n-dimensionale è il seguente

4

3 2 1

A B C D E

389


Un’informazione più precisa può ottenersi considerando in ordinata i livelli di distanza che caratterizzano le aggregazioni delle diverse partizioni. Tale rappresentazione grafica è detta DENDROGRAMMA. Un esempio di Dendrogramma è il seguente

10

4

2.5 1

A B C D E

390


Determinazione nel numero ottimo di cluster (partizione ottimale) Abbiamo visto che un algoritmo gerarchico aggregativo genera una famiglia di partizioni delle n unità con un numero di cluster via via decrescenti da n a 1. Si pone quindi in essere il problema di scegliere, tra le diverse partizioni, la partizione ottimale (e quindi il numero di cluster ottimale). Tale obiettivo può essere raggiunto considerando le condizioni desiderabili di coesione interna (piccola variabilità all’interno dei cluster) e separazione esterna (gruppi ben distinti tra loro) e quindi basandoci sulla scomposizione della devianza totale. In generale, si possono distinguere diversi CRITERI.

391


1 TEST DI SEPARAZIONE TRA CLUSTER Si considerano test per verificare se la distanza tra i centroidi dei cluster è significativa. 2. INDICI SINTETICI Sono stai proposti diversi indici (indice R2, indice RMSSTD, indice C di Calinski Harabatz, ecc,). Consideriamo l’indice R2. Una “buona” classificazione è caratterizzata da una ridotta quota di devianza nei cluster (W) e da un elevato valore delle devianza tra i cluster (B).

392


Quindi, data una partizione costituita da g cluster, si può considerare l’indice:

TB

TWR =−= 12

]1,0[2 ∈R .

Se R2 è prossimo a 1 la corrispondente classificazione può ritenersi omogenea, poiché le unità appartenenti ad un medesimo cluster sono simili tra loro ( 0≅W ) e i cluster sono ben separati ( TB ≅ ).

393


OSSERVAZIONE Esiste un trade-off tra il numero di cluster e la coesione interna. In particolare, R2 assume valori non decrescenti al crescere di g (numero di cluster). Quindi, la ricerca del numero “ottimo” di cluster non può fondarsi semplicemente sulla massimizzazione di R2, che porterebbe a privilegiare la partizione banale formata da n cluster di una sola unità (per cui R2=1), ma deve compendiare le esigenze contrapposte di omogeneità interna dei cluster e di sintesi della classificazione.

394


3. ISPEZIONE (DIRETTA) DEL DENDROGRAMMA (α-TAGLIO) Si “taglia” il dendrogramma in corrispondenza di un “salto” nei livelli di distanza in cui è avvenuta l’aggregazione. Ad esempio

A B C D E

α-taglio

10

4

2.5

1

395


Interpretazione dei risultati ottenuti coi metodi di clustering gerarchici aggregativi Si calcolano i vettori medi di ciascun cluster ottenuto e si confrontano i valori dei vettori pertinenti alle variabile in esame. Quindi, la caratterizzazione di ogni cluster avviene in base a tali valori. Ad esempio, supponiamo di aver rilevato una matrice dei dati in cui le unità siano i comuni di una regione e le variabili siano 2 (un indicatore dell’attività terziaria che, in particolare, misura la vocazione turistica e un indicatore dell’attività industriale).

396


Supponiamo che, applicando un algoritmo di clustering (gerarchico aggregativo), otteniamo una classificazione dei comuni in 2 cluster, il primo, rispetto al secondo, con un valore molto più alto della prima variabile e molto più basso della seconda. Quindi, i cluster ottenuti si possono interpretare nel modo seguente: i comuni appartenenti al primo cluster sono caratterizzati da una spiccata vocazione terziaria (in particolare legata all’attività turistica), mentre i comuni appartenenti al secondo cluster sono caratterizzati da un maggiore propensione industriale.

397


Esempio numerico 1 (Legame Singolo) Data la seguente matrice di distanza applicare il metodo del legame singolo.

⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜

⎝

⎛

0358904910

05602

0

Si ha che la distanza più piccola è tra A e B. Ricordando il metodo del legame singolo: d(C1,C2)=min (drs) r∈C1, s∈C2, occorre quindi calcolare la distanza tra il neo gruppo (AB) e le rimanenti unità.

A B C D E A

B

C

D

E

398


Otteniamo quindi: d((AB) C)= min {d(AC), d(BC)}=5 d((AB) D)= min {d(AD), d(BD)}=9 d((AB) E)= min {d(AE), d(BE)}=8. Otteniamo, quindi, la nuova matrice delle distanze:

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

0358049

050

La distanza minima è 3. In tal caso: d((DE) (AB))= min {d(D (AB)), d(E (AB))}=8 d((DE) C)= min {d(DC), d(EC)}=4.

(AB) C D E (AB)

C

D

E

399


Otteniamo, quindi :

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛

04805

0

La distanza minima è 4. Quindi : d((CDE) (AB))= min {d(C (AB)), d((DE) (AB))}=5. Infine, otteniamo la matrice:

⎟⎟⎠

⎞⎜⎜⎝

⎛05

0

(AB) C (DE) (AB)

C

(DE)

(AB)

(CDE)

(AB) (CDE)

400


Nell’ultima iterazione tutte le unità sono aggregate in un unico cluster. La sequenza delle iterazioni è quindi: Iterazione Cluster Livello di distanza 0 (A) (B) (C) (D) (E) --- 1 (AB) (C) (D) (E) 2 2 (AB) (C) (DE) 3 3 (AB) (CDE) 4 4 (ABCDE) 5

Il dendrogramma è il seguente:

A B D E C

5

4

3

2

401


Esempio numerico 2 (Legame Completo) Data la seguente matrice di distanza applicare il metodo del legame completo.

⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜

⎝

⎛

0358904910

05602

0

Si ha che la distanza più piccola è tra A e B. Ricordando il metodo del legame completo: d(C1,C2)=max (drs) r∈C1, s∈C2, occorre quindi calcolare la distanza tra il neo gruppo (AB) e le rimanenti unità.

A B C D E A

B

C

D

E

402


Otteniamo quindi: d((AB) C)= max {d(AC), d(BC)}=6 d((AB) D)= max {d(AD), d(BD)}=10 d((AB) E)= max {d(AE), d(BE)}=9. Otteniamo, quindi, la nuova matrice delle distanze:

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

03590410

060

La distanza minima è 3. In tal caso:

(AB) C D E (AB)

C

D

E

403


d((DE) (AB))= max {d(D (AB)), d(E (AB))}=10 d((DE) C)= max {d(DC), d(EC)}=5. Otteniamo, quindi :

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛

051006

0

La distanza minima è 5. Quindi : d((CDE) (AB))= max {d(C (AB)), d((DE) (AB))}=10.

Infine, otteniamo la matrice:

⎟⎟⎠

⎞⎜⎜⎝

⎛010

0

Nell’ultima iterazione tutte le unità sono aggregate in un unico cluster.

(AB) C (DE) (AB)

C

(DE)

(AB)

(CDE)

(AB) (CDE)

404


Il dendrogramma è il seguente:

In base al taglio del dendrogramma, la partizione ottimale è in 2 cluster:

(AB), (CDE).

A B D E C

α-taglio

10

5

3 2

405


Esempio (forni a microonde)

Consideriamo il metodo del legame singolo e la distanza euclidea quadratica e utilizziamo l’SPSS. La sequenza dei comandi è quindi la seguente:

ANALIZZA → CLASSIFICAZIONE → CLUSTER GERARCHICA → SELEZIONA

VARIABILI → RAGGRUPPA CASI → STATISTICHE (MATRICE DELLE DISTANZE; GRAFICI (DENDROGRAMMA); METODO (METODO DI

RAGGRUPPAMENTO: DEL VICINO PIU’ VICINO (LEGAME SINGOLO); MISURA (INTERVALLO): DISTANCE EUCLIDEA QUADRATRICA).

406


Otteniamo quindi il seguente output:

Nel seguito viene mostrata la sequenza delle operazioni con SPSS.

407


408


409


410


411


412


Altri metodi di clustering gerarchici aggregativi Distinguiamo: • Metodi di clustering vincolati

• Metodi di clustering con parziali sovrapposizione.

413


Metodi di clustering vincolati Col termine classificazione vincolata si indicano i metodi per ottenere gruppi di unità che risultino non soltanto simili tra loro, relativamente alle variabili in esame, ma che soddisfino anche ulteriori condizioni. Possiamo definire diverse tipologie di vincoli; in particolare:

- vincoli sul numero di unità assegnate ad ogni cluster; - vincoli di contiguità (nel caso in cui le unità da classificare siano di tipo territoriale).

- Vincoli sul numero di unità assegnate ad ogni cluster

Ogni cluster dev’essere formato da un numero di unità comprese in un certo intervallo, i cui estremi siano prefissati dal ricercatore.

414


- Vincoli di contiguità Un tipo di vincolo molto utilizzato nell’analisi di dati territoriali o spaziali è quello di CONTIGUITA’ (da definire opportunamente) tra le unità assegnate ad ogni cluster. Tale vincolo è essenziale in molti problemi di analisi territoriale, in cui le unità (comuni, province, regioni, mercati locali del lavoro, etc.) di un gruppo devono essere non solo simili, ma anche tra loro vicine.

Quando due unità sono contigue? È possibile definire il concetto di contiguità con riferimento al tipo di unità territoriale e alla dimensione dello spazio considerato. In questa sede consideriamo come spazio di riferimento R2.

415


Vincoli di contiguità nello spazio bidimensionale R2 Il caso in cui le unità territoriali siano collocate su una superficie è il caso più importante nella pratica. Possiamo distinguere: • il caso di unità territoriali di forma REGOLARE: in tal caso, se

si fa riferimento ad un reticolo (griglia) regolare a maglie quadrate, si ritiene che 2 maglie sono tra loro contigue se hanno un lato in comune oppure se hanno un lato o un vertice in comune;

• il caso di unità territoriali di forma IRREGOLARE: in tal caso, si assume abitualmente che sono contigue 2 unità territoriali con una porzione di confine in comune.

Dopo aver definito, in uno dei diversi modi visti, la contiguità tra 2 unità territoriali, si possono costruire i cluster (aree omogenee) applicando un metodo di clustering (ad esempio, gerarchico) vincolata: • due unità territoriali possono essere assegnate allo stesso

cluster solo se sono tra loro spazialmente contigue;

416


• un’unità territoriale può essere assegnata ad un cluster già formato se essa è contigua con almeno una delle unità del cluster stesso;

• due unità si possono unire tra loro se almeno una unità di un cluster è contigua ad una unità dell’altro cluster.

Formalmente, il vincolo di contiguità (territoriale) viene considerato nelle procedure di clustering (ad esempio gerarchiche) affiancando alla matrice delle distanze D una matrice di contiguità (detta anche matrice di adiacenza), simmetrica, di dimensione n×n e con valori unitari lungo la diagonale principale,così definita:

C=[cij] ove

⎩⎨⎧

=.altrimenti 0

esima- junitàl' con contigua è esima-i unitàl'1ijc

417


OSSERVAZIONE (inversione) L’introduzione del vincolo di contiguità nei metodi di clustering (gerarchici) può produrre un inconveniente: INVERSIONE nei valori della distanza in corrispondenza della quale una unità territoriale si unisce ad un cluster (cfr. figura).

L’unità territoriale 4 che presenta una distanza pari a 0.3 dal gruppo [1,2], ma che non è spazialmente contigua ad esso, si unisce solo dopo che l’unità 3, contigua a [1,2] e a 4, si è aggregata al gruppo [1,2] alla distanza 0.5. Si dimostra che il metodo del legame completo col vincolo di contiguità non produce inversione.

0.5

0.3

0.1

1 2 3 4

418


La Cluster Analysis non gerarchica

L’OBIETTIVO dei metodi di clustering non gerarchici è quello di ottenere una SOLA PARTIZIONE di n unità in k gruppi (k<n), con k scelto a priori (contrariamente ai metodi gerarchici che determinano una famiglia di partizioni). Nei metodi di clustering non gerarchici la PROCEDURA DI ALLOCAZIONE delle unità ai cluster avviene attraverso l’OTTIMIZZAZIONE di una FUNZIONE OBIETTIVO (espressa di solito in termini della scomposizione della devianza totale). Di solito si ricerca la PARTIZIONE DI MASSIMA COESIONE INTERNA (minima devianza within). Inoltre, gli algoritmi raggiungono di solito un OTTIMO LOCALE.

419


I possibili vantaggi dell’approccio non gerarchico sono i seguenti:

1. Variando il numero di cluster, viene meno il vincolo che tutte le coppie di unità che sono unite ad un determinato livello di aggregazione gerarchica non possono più essere separate ai livelli successivi. Per ogni valore di k, infatti, l’algoritmo non gerarchico classifica ogni unità esclusivamente sulla base del criterio prescelto e i risultati ottenuti possono essere diversi al variare del numero di cluster. Ciò consente di superare i potenziali inconvenienti dovuti ad una fusione “errata” di unità eterogenee nei passi iniziali d una procedura gerarchica.

420


2. Il fatto di considerare una procedura iterativa, per un solo

valore di k (fissato), rende gli algoritmi non gerarchici assai veloci computazionalmente e non richiede la determinazione preliminare della matrice delle distanze tra le unità. Tali metodi sono quindi adatti alle situazioni in cui n è molto elevato (in tali casi invece l’uso di una procedura gerarchica sarebbe computazionalmente molto onerosa).

3. Gli algoritmi non gerarchici possono essere preferibili quando

l’interesse della ricerca consiste nella caratterizzazione delle peculiarità dei cluster (ad esempio, attraverso il calcolo dei centroidi e delle misure di variabilità dei cluster), piuttosto che nello studio del comportamento elle singole unità nei successivi passi dell’aggregazione gerarchica.

421


I modelli non gerarchici presentano tuttavia alcuni inconvenienti legati alla necessità di definire preventivamente:

1. il valore del numero dei cluster della partizione “ottima”; 2. la configurazione di partenza dei cluster (partizione iniziale).

Osservazione Purtroppo il numero di modi in cui è possibile suddividere n unità in k cluster non sovrapposti è assai grande anche per valori bassi di n e k. Quindi, l’enumerazione completa di tutte le possibili partizioni non risulta quasi mai perseguibile nelle applicazioni. È per questo motivo che (come abbiamo visto) gli algoritmi non gerarchici usualmente utilizzati considerano criteri meno vincolanti (procedure iterative (in cui si considera un solo (prefissato) valore di k) che consentono di ottenere ottimi “locali”).

422


Osservazione (ottimo (minimo) locale) Tra una iterazione e la successiva, ci troviamo in una situazione in cui la funzione obiettivo da minimizzare non decresce significativamente ma si stabilizza su di un minimo, che purtroppo è locale.

t

f.o. Ottimo locale La funzione obiettivo non

decresce significativamente. L’algoritmo converge.

Ottimo globale

423


Il metodo delle k-medie

Il metodo K-medie è il metodo di clustering non gerarchico più comune.

L’OBIETTIVO è quello di determinare una partizione delle n unità statistiche in un numero prefissato di cluster, minimizzando la devianza within (distanza euclidea tra unità e centroide) (MAX COESIONE INTERNA) attraverso una procedura iterativa:

1. Si scelgono (ad esempio casualmente) k poli iniziali (semi iniziali). I poli possono essere individuati attraverso criteri differenti, di solito in modo tale che essi siano abbastanza distanti tra loro (vedi in seguito). Quindi si costruisce la partizione iniziale, costituita da k cluster, allocando ciascuna unità al cluster il cui polo risulta il più vicino.

424


2. Per ogni cluster si calcolano i centroidi e per ogni unità si calcola la distanza euclidea dai centroidi dei k cluster: se la distanza minima non è ottenuta in corrispondenza del centroide del gruppo di appartenenza, l’unità viene riassegnata al cluster corrispondente al centroide più vicino. In caso di riallocazione di un’unità, si ricalcola il centroide sia del nuovo che del vecchio cluster di appartenenza.

3. Si ripete il passo 2 fino a quando l’algoritmo non converge,

cioè fino a quando non si verificano più modificazioni dei centroidi (e quindi dei cluster) rispetto all’iterazione precedente (regola d’arresto).

425


Osserviamo inoltre che:

a. In alternativa, se vogliamo ridurre i tempi di calcolo, la regola di arresto (vedi passo 3) può essere sostituita da una regola meno restrittiva, che prevede l’interruzione del processo iterativo in uno dei seguenti casi:

- convergenza dell’algoritmo; - distanza tra ciascun centroide calcolato nell’iterazione

corrente e il corrispondente centroide dell’iterazione precedente non superi una soglia prefissata (valore molto piccolo);

- raggiungimento del numero massimo di iterazioni prefissato.

426


b. Per ottenere una partizione con un diverso numero di cluster, ad esempio k*, è necessario ripetere tutti i passi della procedura, sostituendo k con k*.

c. Le fasi del metodo delle k-medie richiedono il calcolo ripetuto della distanza tra ciascun punto e i centroidi dei k cluster: tale procedura appartiene alla classe di algoritmi di clustering che adottano la tecnica dell’ “ordinamento rispetto al centroide più vicino”.

d. La distanza utilizzata nel calcolo è la distanza Euclidea, poiché essa garantisce la convergenza della procedura iterativa (Anderberg, 1973). Quindi, all’iterazione t, la distanza tra l’unità i-esima e il centroide c-esimo è:

∑=

−=p

s

tcsis

tci hxd

1

2)()( )(),( hx .

427


Si nota che il metodo delle k-medie (considerando la distanza Euclidea) ha come obiettivo implicito la ricerca della partizione (con k cluster) che soddisfa un criterio di coesione interna fondato sulla devianza nei cluster, cioè sulla minimizzazione della quantità W.

e. Una naturale misura della bontà della partizione ottenuta è R2. Non è invece applicabile l’indice RMSSTD (applicabile a strutture gerarchiche).

f. Il metodo delle k-medie produce tendenzialmente cluster di forma sferica e di dimensioni abbastanza simili tra loro.

g. Il metodo delle k-medie presenta il seguente inconveniente: la partizione finale può essere influenzata dall’ordine in cui sono elencate le unità nella matrice dei dati. Tale fatto è attribuibile al ricalcolo dei centroidi dei cluster ad ogni allocazione (Anderberg, 1973).

428


h. È possibile adottare una versione alternativa dell’algoritmo delle k-medie, in cui i centroidi dei cluster sono ricalcolati una sola volta in ciascuna iterazione, e cioè soltanto dopo aver assegnato tutte le unità al cluster con centroide più vicino.

i. Anche utilizzando la precedente variante non è possibile risolvere l’inconveniente indicato in precedenza. Quindi, per qualsiasi tipo di algoritmo iterativo del metodo delle k-medie, occorre tener conto della sensibilità del metodo all’ordinamento delle unità nella matrice dei dati. A tal riguardo occorre ripetere l’algoritmo partendo da differenti sequenze iniziali. Altrimenti, il metodo delle k-medie può portare a risultati instabili nei seguenti casi:

- se nei dati non esiste una chiara struttura di gruppo, ossia i cluster non sono ben separati;

429


- se si è interessati ad indagare su caratteristiche “locali” dei dati, come l’influenza di singole osservazioni o la presenza di dati anomali (outlier);

- se n è molto piccolo. l. Il metodo delle k-medie è implementato in SPSS, SAS,

STATISTICA, etc. Si tratta di algoritmi molto veloci e quindi applicabili anche a data set di dimensioni elevate, soprattutto quando k è piccolo rispetto a n.

m. Il metodo delle k-medie è sensibile alla presenza di outlier.

430


Scelta del numero di cluster e dei poli iniziali

L’impossibilità pratica di considerare l’insieme completo delle partizioni di n unità in cluster distinti fa si che la partizione “ottima” ottenuta col metodo delle k-medie corrisponde ad un “minimo locale” della funzione obiettivo.

In tal caso la soluzione finale dipende dalla configurazione iniziale.

A tal proposito analizziamo i problemi connessi alla scelta:

- del numero di cluster della partizione,

- dei poli iniziali.

431


Scelta del numero di cluster

Analogamente al caso gerarchico, è possibile seguire diversi approcci. • Il criterio più diffuso per la determinazione del numero di cluster

consiste nell’esecuzione ripetuta della procedura di clustering non gerarchica con differenti valori di k, nella valutazione (ad esempio con l’indice R2) della bontà delle partizioni ottenute e nella selezione della partizione finale ritenute più soddisfacente.

• Test di significatività (come nel caso gerarchico). • Se n non è molto grande, una possibile soluzione consiste nel far precedere l’analisi non gerarchica da un’analisi gerarchica, al fine di ottenere (ad esempio, dall’ispezione del dendrogramma) indicazioni sul valore di k.

• Utilizzo dell’istogramma p-dimensionale e individuazioni delle mode.

432


Scelta dei poli della partizione iniziale Anche in tal caso possiamo distinguere diversi criteri. • Un criterio molto semplice e poco oneroso consiste nel prendere come semi iniziali le prime k osservazioni (p-dimensionali) della matrice dei dati.

• Un criterio leggermente formalizzato consiste nel selezionare i semi attraverso la selezione di un campione casuale semplice o un campione sistematico di k unità dalle n unità in esame.

• I criteri precedenti non garantiscono che i semi selezionati siano rappresentativi per l’intera nuvola dei punti sullo spazio p-dimensionale. Tale requisito è importante nelle applicazioni reali, poiché permette di migliorare le proprietà di convergenza degli algoritmi non gerarchici. Infatti esso aumenta la capacità degli algoritmi di fornire in tempi rapidi una partizione finale prossima alla soluzione “ottima” (in termini di coesione interna) e di

433


individuare le strutture di gruppo effettivamente presenti nei dati (cluster naturali). A tal proposito, si osserva che la rappresentatività dei poli è perseguita mediante la ricerca di osservazioni sufficientemente distanti nello spazio di riferimento. Ad esempio, la procedura implementata nel SAS effettua un test preliminare sui dati di partenza in modo da individuare k elementi la cui distanza (euclidea) reciproca sia non inferiore ad una soglia prefissata. Alternativamente, si esegue una serie di verifiche al fine di garantire che la distanza tra i semi prescelti sia comunque superiore a quella calcolata tra i poli stessi e le rimanenti unità. L’obiettivo di questi criteri è quello di cercare di garantire che nella partizione iniziale i centroidi risultino ben separati tra loro ed ogni unità sia relativamente prossima ad uno di essi.

434


Osservazione I criteri finora descritti (eccetto quello basato sul campionamento casuale) dipendono dall’ordine in cui sono elencate le unità nella matrice dei dati: essi possono condurre a risultati differenti, al variare dell’ordine delle unità. • Un ulteriore criterio consiste nell’utilizzare l’istogramma p-

dimensionale. In particolare, dopo aver determinato il numero di cluster attraverso l’esame dei valori assunti dalle densità di frequenza, si definiscono i semi iniziali come centroidi calcolati sulle solo osservazioni comprese nei rettangoli (maglie della griglia) che individuano le mode.

• Un altro criterio consiste (nel caso di utilizzo preliminare di una procedura gerarchica per la selezione del numero dei cluster) nell’indicare come poli della partizione iniziale della procedura non gerarchica i centroidi dei cluster ottenuti dal taglio del dendrogramma.

435


Una formalizzazione matematica

Il metodo delle k-medie si può formalizzare matematicamente nel seguente modo:

( )

{ }

1

1,0

,d:min

1

1 1

2

1 1

2

,

=

∈

−=

∑

∑ ∑∑∑

=

= == =

k

cic

ic

n

i

k

cciic

n

i

k

cciic

u

u

uu hxhxhU

dove ix , i=1,…n, è il vettore p-dimensionale (dove p indica il numero delle variabili) dei dati relativo all’osservazione i-esima e ch , c=1…,k, è il vettore anch’esso p-dimensionale che caratterizza il gruppo c-esimo. Tale vettore è denominato il centroide del gruppo c, c=1…,k.

436


L’informazione relativa all’appartenenza delle unità ai gruppi è data dalla cosiddetta matrice dei gradi di appartenenza U, il cui elemento generico è icu , i=1,…n; , c=,1…,k.

La somma degli elementi delle righe di tale matrice è unitaria.

Ciascuna riga si riferisce ad una osservazione e ciascuna colonna ad un gruppo.

In particolare, poiché gli elementi di U possono essere nulli o unitari, ciascuna riga è formata da un solo uno e da k-1 valori nulli.

437


L’algoritmo operativo La determinazione dei gruppi avviene attraverso il seguente algoritmo iterativo.

Passo 0 Si sceglie casualmente una matrice dei gradi di appartenenza ( )tU con 0=t .

Passo 1 Si aggiornano i centroidi con ( )

( )

( )∑

∑

=

=+ = n

i

tic

n

ii

tic

tc

u

u

1

11x

h .

Passo 2

Si aggiornano gli elementi di U con

( ) { }

( ){ }⎪⎩

⎪⎨⎧ −=

=+

′∈′

+

altrimenti0

minarg1 1

,,11

tci

kctic

cseu

hxK

Passo 3

Si verifica se tra due iterazioni non varia l’appartenenza delle unità ai cluster. Se la condizione è verificata, l’algoritmo è terminato, altrimenti si pone 1+=tt e si torna al Passo 1.

438


Esempio 1 (forni a microonde) Consideriamo la matrice dei forni a microonde e utilizziamo l’SPSS. La sequenza dei comandi è: ANALIZZA → CLASSIFICA → CLUSTER K-MEDIE → SELEZIONA VARIABILI

→ SELEZIONA N° DI CLUSTER; METODO: ITERA E CLASSIFICA; ITERAZIONI: FISSA MAX N° DI ITERAZIONI; OPZIONI: CLUSTER PER OGNI

CASO; SALVA: CLUSTER DI APPARTENENZA; DISTANZA DEL CENTRO DEL CLUSTER

439


I risultati ottenuti con k=4 sono i seguenti:

Cluster di appartenenza

1 ,0004 ,5103 ,6044 ,6263 ,9593 ,6714 ,5862 ,000

Marca forniCANDYDELONGHIELECTROLUXMOULINEXOCEANPANASONICSAMSUNGSHARP

Cluster Distanza

Centri dei cluster finali

1,20761 -,72457 ,77824 -,939262,24246 -,52183 -,12693 -,44661,61197 2,05769 -,55994 -,32994

Punteg(altezza)Punteg(capacità)Punteg(prezzo)

1 2 3 4Cluster

Distanze tra i centri dei cluster finali

3,669 2,678 3,5683,669 3,044 2,3982,678 3,044 1,7623,568 2,398 1,762

Cluster1234

1 2 3 4

Numero di casi in ogni cluster

1,0001,0003,0003,0008,000,000

1234

Cluster

ValidiMancanti

Nel seguito viene mostrata la sequenza delle operazioni con SPSS.

440


441


442


443


444


445


446


Esempio 2 (aziende alimentari) Considerando l’SPSS si ottengono i seguenti risultati (posto k=3)

Cluster di appartenenza

2 1,1052 1,1733 1,4422 1,5472 1,4133 1,4422 1,5122 2,5631 ,0003 ,794

AziendaBARILLAERIDANIAFERREROGALBANIKRAFTLAVAZZANESTLE'PARMALATPLASMONSTAR

Cluster Distanza

Centri dei cluster finali

1,15 -,57 ,884,11 -,29 -,04

-1,97 ,20 -,562,24 -,55 ,71,45 ,36 -1,00

Econ.proCash.fatLavor.vaRoeInde.cap

1 2 3Cluster

Distanze tra i centri dei cluster finali

5,899 4,8645,899 2,4924,864 2,492

Cluster123

1 2 3

Numero di casi in ogni cluster

1,0006,0003,000

10,000,000

123

Cluster

ValidiMancanti

6 Tecniche di analisi di dati multidimensionali 6.1...

Documents

Transcript of 6 Tecniche di analisi di dati multidimensionali 6.1...