6 Tecniche di analisi di dati multidimensionali 6.1...

102
345 STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009 6 Tecniche di analisi di dati multidimensionali 6.1 Cluster Analysis La Classificazione: Analisi Discriminante e Cluster Analysis I metodi statistici per la classificazione delle unità statistiche in gruppi omogenei possono distinguersi in : ANALISI DISCRIMINANTE CLUSTER ANALYSIS

Transcript of 6 Tecniche di analisi di dati multidimensionali 6.1...

Page 1: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

345

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

6 Tecniche di analisi di dati multidimensionali

6.1 Cluster Analysis

La Classificazione: Analisi Discriminante e Cluster Analysis

I metodi statistici per la classificazione delle unità statistiche in gruppi omogenei possono distinguersi in :

• ANALISI DISCRIMINANTE • CLUSTER ANALYSIS

Page 2: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

346

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

• Nell’ANALISI DISCRIMINANTE (classificazione con

supervisione) è noto a priori che le n unità osservate appartengono a due o più popolazioni differenti. Per ogni unità si conosce il corrispondente vettore dei valori delle p variabili. L’obiettivo dell’analisi discriminante è quello di stabilire un criterio (basato sulle p variabili) per assegnare correttamente ulteriori unità alla rispettiva popolazione di appartenenza, minimizzando la probabilità degli errori di attribuzione.

Page 3: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

347

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

ESEMPIO Un interessante esempio è la classificazione delle aziende che richiedono un prestito ad una banca in aziende solvibili e aziende non solvibili. Sulla base dei dati passati, la banca può distinguere n aziende che hanno ottenuto un prestito in 2 categorie: quelle che hanno rimborsato regolarmente il medesimo e le altre (che hanno ritardato i pagamenti, non hanno effettuato i rimborsi, ecc.). Se per ognuna di tali aziende la banca conosce un insieme di variabili (desumibili, ad esempio, dai bilanci) mediante l’analisi discriminante è possibile classificare una nuova azienda che richiede un prestito (e che fornisce i valori delle suddette variabili) nella classe di quelle solvibili oppure di quelle a rischio, minimizzando la probabilità di errore nell’assegnazione. Tale conoscenza per la banca è importante per decidere se erogare o meno il prestito.

Page 4: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

348

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

• La CLUSTER ANALYSIS (classificazione senza supervisione) è invece un metodo tipicamente esplorativo. Esso consiste nel ricercare nelle n osservazioni p-dimensionali gruppi di unità tra loro simili, non sapendo a priori se tali gruppi omogenei esistono effettivamente nel dataset e non sapendo nulla a priori circa le caratteristiche strutturali di eventuali gruppi. Classificazioni di questo tipo assumono una chiara valenza interpretativa solo nei casi in cui nei dati siano realmente presenti delle strutture di gruppo, che vengono individuate dalla metodologia statistica. L’obiettivo della Cluster Analysis è dunque quello di riconoscere gruppi che appaiono con “naturalezza” nelle osservazioni.

Page 5: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

349

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

ESEMPIO 1 Una possibile applicazione della cluster analysis consiste nella classificazione dei comuni italiani in gruppi omogenei in base ad un insieme di indicatori turistici (come, ad esempio, indicatori dell’offerta turistica, indicatori del flusso turistico, indicatori di utilizzazione degli esercizi ricettivi). In tal modo si possono identificare delle aree geografiche che presentano analogie di situazioni e quindi richiedono medesimi interventi di politica economica in tema di turismo.

Page 6: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

350

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

ESEMPIO 2 (Segmentazione del mercato e studio del comportamento della clientela) La segmentazione si pone l’obiettivo, attraverso la cluster analysis, di identificare gruppi omogenei (segmenti) di entità (consumatori, mercati, organizzazioni) con determinate caratteristiche simili (benefici ricercati nel prodotto/servizio, attitudine, propensione all’acquisto, preferenze nei confronti dei diversi media, etc.).

Page 7: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

351

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

La Cluster Analysis: aspetti generali e approcci metodologici

La CLUSTER ANALYSIS è una tecnica statistica multivariata avente come

l’individuazione di una o più PARTIZIONI dell’insieme di n unità statistiche in gruppi (CLUSTER), a due a due disgiunti, in base ad un set di variabili osservate su esse, tali che i gruppi abbiano le caratteristiche di:

1) COESIONE INTERNA (le unità assegnate ad uno stesso gruppo devono essere tra loro simili) (gruppi omogenei).

2) SEPARAZIONE ESTERNA (i gruppi devono essere il più possibile distinti tra loro).

OBIETTIVO

Page 8: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

352

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

OSSERVAZIONE Nella Cluster Analysis, contrariamente all’Analisi Discriminante, non si sa nulla a priori sulle caratteristiche strutturali dei gruppi. OSSERVAZIONE Nei metodi di clustering che considereremo (esclusi quelli con parziale sovrapposizione e fuzzy) ogni unità statistica appartiene ad uno ed un solo cluster, contrariamente ai metodi di clustering non tradizionali come i metodi di clustering con overlapping (clumping) e i metodi di clustering fuzzy, in cui ogni unità può appartenere a più cluster.

Page 9: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

353

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Il primo lavoro in cui viene descritta in maniera sistematica la Cluster Analysis è dovuto a Tryon (1939). Successivamente, diversi sono stati i contributi teorici registrati. Negli ultimi decenni, grazie allo sviluppo dell’hardware e software, sono stati risolti molti problemi computazionali connessi ai metodi di clustering, che ne avevano limitato l’uso nei tempi passati. Ciò ha favorito lo sviluppo di nuovi metodi di clustering, i cui algoritmi operativi sono facilmente implementabili su PC. A sua volta ciò ha favorito la diffusione dell’utilizzo di tali procedure in vari ambiti applicativi (economia, marketing, sociologia, psicologia, medicina, antropologia, ecc.).

Page 10: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

354

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

La Cluster Analysis è importante, ad esempio, nei seguenti casi: • ridurre i dati (nel senso delle unità), • identificare tipologie, • stratificare popolazioni da sottoporre a campionamento, • segmentare il mercato e studiare il comportamento della clientela, • individuare aree omogenee (geomarketing e aree-test di mercato).

Page 11: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

355

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

I metodi di clustering si possono distinguere in:

• METODI GERARCHICI

• METODI NON GERARCHICI • I metodi gerarchici permetto di ottenere una famiglia di partizioni,

con un numero di gruppi da n a 1, partendo da quella banale in cui tutte le unità sono distinte per giungere, per aggregazioni successive, a quella, pure banale, in cui tutte le unità sono riunite in un unico gruppo (metodi gerarchici aggregativi)

Page 12: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

356

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

oppure

da 1 a n, partendo da quella banale in cui tutte le unità sono riunite in un unico gruppo per giungere, per separazioni successive, a quella anch’essa banale, in cui tutte le unità sono distinte in n gruppi (metodi gerarchici scissori).

• I metodi non gerarchici forniscono un’unica partizione delle n unità in g gruppi, con g fissato a priori.

Page 13: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

357

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

METODO DI CLUSTERING GERARCHICO SCISSORIO

METODO DI CLUSTERING GERARCHICO AGGREGATIVO

D

C

B

A

E

A B

D E

C D E

A B C D E

4 3 2 1 0

0 1 2 3 4

Page 14: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

358

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

La Cluster Analysis gerarchica aggregativa

• Fasi • Informazione Empirica

• Matrice dei Dati • Matrice delle Prossimità

• Informazione Teorica

• Verifica dell’esistenza di cluster naturali • Fasi dei metodi gerarchici aggregativi • Principali metodi gerarchici aggregativi

• Metodo del Legame singolo • Metodo del Legame completo

Page 15: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

359

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

• Metodo del Legame medio • Metodo dei Centroidi • Metodo di Ward

• Rappresentazione grafica dei risultati: il Dendrogramma

• Proprietà dei metodi gerarchici aggregativi • Formula generale di Lance-Williams • Determinazione del numero ottimo di cluster • Verifica e Interpretazione delle soluzioni gerarchiche

• Confronti tra partizioni e consenso

Page 16: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

360

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

FASI DELLA CLUSTER ANALYSIS GERARCHICA AGGREGATIVA

MATRICE DEI DATI (organizzazione dell’informazione empirica in forma matriciale, pre-

processing, scelte delle variabili)

MATRICE DELLE PROSSIMITA’

VERIFICA DELL’ESISTENZA DI CLUSTER NATURALI

METODI DI CLUSTERING

RAPPRESENTAZIONE GRAFICA DEI RISULTATI: IL DENDROGRAMMA

DETERMINAZIONE DEL NUMERO OTTIMO DI CLUSTER

eℑ

tℑ

VERIFICA E INTERPRETAZIONE DELLE SOLUZIONI

Page 17: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

361

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Matrice dei Dati L’informazione empirica viene raccolta nella Matrice dei Dati del tipo unità × variabili, di dimensione n × p:

⎟⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜⎜

=

npnsn

ipisi

ps

xxx

xxx

xxx

......

......

......

1

1

1111

MMM

MMM

X

ove xis rappresenta la determinazione della s-esima variabile quantitativa osservata sull’i-esima unità statistica (i=1,…,n; s=1,…,p). In forma compatta:

{ }psnixis ,...,1;,...,1: ===X .

vettore-unità

Page 18: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

362

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

La matrice dei dati può essere trasformata considerando opportune procedure di centratura, normalizzazione, standardizzazione (data pre-processing). Ad esempio, si può considerare (al fine di rendere comparabili variabili originariamente espresse in unità di misura differenti e con diverso ordine di grandezza) la matrice degli scarti standardizzati

⎭⎬⎫

⎩⎨⎧

==−

== psniσ

xxzs

sisis ,...,1;,...,1:Z

ove zis rappresenta lo scarto standardizzato per l’unità i-esima e la variabile s-esima, sx =media, sσ =s.q.m.

Page 19: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

363

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Matrice delle Prossimità

Una vasta classe di metodi gerarchici (aggregativi) si basa sull’utilizzo di una Matrice delle Prossimità calcolata per le n unità statistiche. Essa è una matrice simmetrica di dimensione n × n:

{ }jinjipij ≠== ;,...,1,:P ove pij rappresenta una misura di prossimità tra la coppi di unità i e j. In particolare possono costruirsi Matrici delle Distanze, Matrici delle Dissimilarità, Matrici delle Similarità.

Page 20: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

364

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Ad esempio, nel caso di Matrice delle Distanze abbiamo una matrice simmetrica con valori nulli lungo la diagonale principale, quadrata e di dimensione n × n:

⎟⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜⎜

=

0

..........0

........ 0 11312

jn

n

d

ddd

D

Ovviamente devono essere soddisfatte le proprietà di non negatività, identità, simmetria, disuguaglianza triangolare.

O

O

Page 21: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

365

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Verifica dell’esistenza di cluster naturali nella struttura dei dati

L’applicazione di un metodo di clustering ha senso se esiste una reale struttura di gruppo nei dati. La presenza di una effettiva struttura di gruppo nei dati multidimensionali può essere verificata attraverso opportune procedure. Distinguiamo:

PROCEDURE INFERENZIALI PROCEDURE ESPLORATIVE

Page 22: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

366

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

• Procedure inferenziali: ad esempio, si sottopone a verifica l’ipotesi nulla di assenza di struttura nei dati (modello uniforme: le n unità sono distribuite uniformemente nello spazio di riferimento.

• Procedure esplorative: si può considerare il cosiddetto istogramma p-dimensionale (che rappresenta una generalizzazione dell’istogramma univariato). Nel caso p=2 si considerano le seguenti fasi: 1. A partire dalla matrice dei dati di dimensione n × 2 si

costruisce lo scatterplot. 2. Si fissa un origine x0 nello spazio bidimensionale per

costruire l’istogramma (si fissa l’origine in corrispondenza del punto che ah per coordinate, i valori minimi osservati sulle due variabili).

Page 23: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

367

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

3. Allo scatterplot in R2 si sovrappone una griglia regolare a maglie rettangolari di dimensione h1 × h2. Si indica con q=numero di elementi della griglia in ogni dimensione e con Q=q × q=numero totale di rettangoli.

4. Si conta il numero di punti nello scatterplot che sono compresi in ogni rettangolo. Dopo tale operazione nj rappresenta la frequenza assoluta associata al rettangolo j

(j=1,…,Q) ( nnQ

jj =∑

=1).

5. L’istogramma bidimensionale è quindi ottenuto dalla rappresentazione delle densità di frequenza:

Qjhnh

nδ j

j ,...,121

==

ove h1h2=area di ogni rettangolo.

Page 24: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

368

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Le jδ consentono di individuare l’esistenza di zone con elevata densità di punti (MODE) in R2 e quindi di possibili gruppi di unità. Inoltre le jδ danno informazioni anche sul numero di cluster.

Se p>2 si procede analogamente al caso p=2. Per quanto riguarda la rappresentazione grafica conviene ricondursi al caso bidimensionale operando in diversi modi, ad esempio, considerando la rappresentazione delle densità jδ per ciascuna coppia di variabili.

Page 25: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

369

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Metodi di clustering gerarchici aggregativi

I metodi di clustering gerarchici aggregativi hanno le seguenti caratteristiche:

1. considerano tutti i livelli di distanza γ , ∞≤≤ γ0 ; 2. i gruppi che si ottengono ad un livello di distanza comprendono i

gruppi ottenuti ai livelli inferiori. Quindi quando 2 (o più) unità si uniscono tra loro, esse non possono essere separate nei passi successivi della procedura.

OSSERVAZIONE: considereremo nelle procedure di clustering analizzate come matrice delle prossimità, le matrici delle distanze.

Page 26: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

370

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Le procedure di clustering gerarchiche aggregative si articolano in FASI. Tali fasi sono le seguenti: 1. Si individuano nella matrice D le 2 unità con la minore distanza

(cioè tra loro più simili) e si riuniscono a formare il 1° gruppo. Si ottiene una partizione con (n-1) gruppi di cui (n-2) costituiti da singole unità e l’altro formato da 2 unità.

2. Si ricalcola, adottando un certo criterio, la distanza del gruppo ottenuto dagli altri gruppi (eventualmente costituiti da una sola unità), ricavando una nuova matrice delle distanze, con dimensioni diminuite di uno.

3. Si individua nella nuova matrice delle distanze la coppia di unità (o gruppi) con minore distanza, riunendole in un unico gruppo.

4. Si ripetono le fasi 2 e 3 sino a quando tutte le unità sono riunite in un solo gruppo.

Page 27: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

371

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Le differenze tra i vari metodi gerarchici (aggregativi) consistono nel criterio utilizzato per calcolare la distanza tra 2 gruppi di unità (uno dei quali eventualmente formato da una sola unità). OSSERVAZIONE: Se si parte da una matrice di indici di similarità, nella procedura precedente i termini “minore distanza” devono essere sostituite da “maggiore similarità”.

Page 28: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

372

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

I più diffusi metodi di clustering gerarchici aggregativi sono: 1. METODO DEL LEGAME SINGOLO (O SINGLE LINKAGE O

DEL VICINO PIU’ PROSSIMO) 2. METODO DEL LEGAME COMPLETO (O COMPLETE LINKAGE

O DEL VICINO PIU’ LONTANO) 3. METODO DEL LEGAME MEDIO (TRA I GRUPPI) (O AVERAGE

LINKAGE) 4. METODO DEL LEGAME MEDIO NEI GRUPPI 5. METODO DI WARD (O DELLA MINIMA DEVIANZA) 6. METODO DEL CENTROIDE.

Siano considerati 2 cluster C1 e C2 con numerosità n1 e n2.

Page 29: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

373

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

METODO DEL LEGAME SINGOLO La distanza tra 2 gruppi C1 e C2 è definita come il minimo delle n1n2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell’altro gruppo:

d(C1,C2)=min (drs) r∈ C1, s∈ C2

•••

•• •

C1 C2

Page 30: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

374

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

METODO DEL LEGAME COMPLETO La distanza tra 2 gruppi C1 e C2 è definita come il massimo delle n1n2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell’altro gruppo:

d(C1,C2)=max (drs) r∈ C1, s∈ C2

•• •

•••

C1 C2

Page 31: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

375

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

METODO DEL LEGAME MEDIO (tra i gruppi) La distanza tra 2 gruppi C1 e C2 è definita come la media aritmetica delle n1n2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell’altro gruppo:

2121

21 C s ,C r1),( ∈∈= ∑∑r s

rsdnn

CCd

••

•••

C1 C2

Page 32: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

376

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

METODO DEL LEGAME MEDIO (nei gruppi) È una variante del metodo precedente. La distanza tra 2 gruppi C1 e C2 è definita come la media aritmetica tra tutte le possibili coppie di unità del nuovo gruppo che si ottiene (considerando quindi anche le distanze tra le unità appartenenti al medesimo gruppo di appartenenza):

21211 1

21 C s ,C r ;m2)1(

1),( ∈∈+=−

= ∑∑= =

nndmm

CCdm

r

m

srs .

••

•••

C1 C2

Page 33: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

377

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

METODO DEL CENTROIDE La distanza tra 2 gruppi C1 e C2 è definita come la distanza tra i rispettivi centroidi 1x e 2x :

d(C1, C2)=d( 1x , 2x ). Ovviamente il calcolo del centroide di un cluster di unità richiede la conoscenza dei rispettivi valori delle p variabili. Il centroide del nuovo cluster che si forma può essere calcolato in funzione dei centroidi dei 2 cluster di partenza:

21

221121 )(

nnnnCC

++

=∪xx

.

centroide

••

•••

C1 C2

••

Page 34: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

378

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

METODO DI WARD (o della devianza minima) Poiché l’obiettivo è quello di ottenere cluster con maggiore COESIONE INTERNA, si considera la scomposizione della devianza totale (T) delle p variabili in devianza nei cluster (Within, W) e devianza tra cluster (Between, B):

T=W+B Ove, data una partizione in g cluster:

∑∑= =

−=p

s

n

rsis xxT

1 1

2)( DEVIANZA TOTALE ottenuta come somma delle devianze delle singole variabili rispetto alla corrispondente media generale sx .

Page 35: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

379

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

( )∑ ∑∑∑= = ==

⎥⎦

⎤⎢⎣

⎡−==

g

l

p

s

n

islis

g

ll

l

xxWW1 1 1

2

1 DEVIANZA NEI CLUSTER ottenuta come

somma delle devianze di cluster, ove Wl è la devianza delle p variabili nell’l-esimo cluster (di numerosità nl e centroide ),...,( 1 ′= plll xxx ).

( )∑∑= =

−=p

s

g

llssl nxxB

1 1

2 DEVIANZA TRA CLUSTER ottenuta come somma

delle devianze ponderate delle medie di cluster rispetto alla corrispondente media generale. Ad ogni passo della procedura gerarchica si aggregano tra loro i cluster che comportano il MINORE INCREMENTO DELLA DEVIANZA NEI CLUSTER (W), cioè che assicura la MAGGIORE COESIONE INTERNA.

Page 36: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

380

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

OSSERVAZIONE Si dimostra che la minimizzazione della devianza Within equivale a considerare la distanza tra cluster:

221

21

2121 ),( xx −

+=

nnnnCCd

ove 2

2xx1 − = quadrato della distanza euclidea tra i centroidi di C1 e C2.

Page 37: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

381

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Proprietà dei metodi di clustering gerarchici aggregativi e problemi di scelta

ESISTE UN METODO MIGLIORE DEGLI ALTRI? La risposta non è univoca. Il problema può porsi in termini di proprietà desiderabili. A tal proposito consideriamo le seguenti proprietà:

1. PARTIZIONE BEN STRUTTURATA MINIMALE 2. INVARIANZA PER TRASFORMAZIONI MONOTONE

DELLE DISTANZE

Page 38: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

382

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

1. PARTIZIONE BEN STRUTTURATA MINIMALE

• Una PARTIZIONE si definisce BEN STRUTTURATA se max(dij)< min(drs)

ove i,j∈stesso cluster; r,s∈diversi cluster.

• Si definisce PARTIZIONE BEN STRUTTURATA MINIMALE una partizione ben strutturata con il minor numero di cluster.

••••

••••••

•• ••••

•••• ••••

•••• •

••r

s i

j

max(dij)

min(drs)

Page 39: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

383

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

2. INVARIANZA PER TRASFORMAZIONI MONOTONE DELLE DISTANZE Un metodo di clustering gerarchico aggregativo è INVARIANTE PER TRASFORMAZIONI MONOTONE DELLE DISTANZE se fornisce la medesima famiglia di partizioni per ogni trasformazione monotona delle distanze. OSSERVAZIONE: i metodi del legame singolo, completo e medio, ad un certo punto della procedura, generano partizioni ben strutturate minimale. OSSERVAZIONE: il metodo del legame singolo e quello del legame completo soddisfano la proprietà 2; il metodo del legame medio no.

Page 40: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

384

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Quali sono le caratteristiche dei principali metodi (legame singolo, completo, medio)? Il metodo del legame singolo e il metodo del legame completo individuano cluster con caratteristiche diverse. Il metodo del legame singolo presenta il cosiddetto EFFETTO CATENA, cioè può riunire in un unico cluster unità molto distanti quando tra esse esiste una successione di punti (unità) intermedi. Il metodo del legame completo individua invece CLUSTER COMPATTI DI FORMA CIRCOLARE (in R2) (o SFERICI in R3 o IPERSFERICI in Rp).

Page 41: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

385

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Nella Figura si nota l’effetto catena. Si nota evidentemente l’esistenza di 3 cluster. Tuttavia, l’esistenza di alcuni punti tra i due cluster a sinistra fa si che per l’effetto catena il metodo del legame singolo individui 2 cluster (unificando i 2 cluster a sinistra), mentre il metodo del legame completo ne individua, in modo corretto, 3 (assegnando i punti intermedi un po’ ad un cluster un po’ all’altro).

•••• ••••

••••• •••••

••• •••••

••••••

•••• ••••• •••••• •

•••••••

••••

•••

•••

•••• ••••• •••••• •••••••••

•• ••

•• ••••

•••• ••••

Page 42: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

386

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Tuttavia l’effetto catena del legame singolo ha il vantaggio di individuare cluster con forme allungate. In conclusione, il metodo del legame medio può costituire un giusto compromesso tra metodo del legame singolo e del legame completo.

•••• ••••

•• •

••••

•••• •

•••

••••

••••• •••••

•••••• •

••• •••

••

••

•••

•• ••••

•••••

••

••

••

•• •

••• •• •

••

••

• ••• ••••

••

Page 43: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

387

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Rappresentazione grafica dei risultati ottenuti coi metodi di clustering gerarchici aggregativi La famiglia di partizione ottenuta con un metodo gerarchico aggregativo può essere rappresentata graficamente mediante un ALBERO n-DIMENSIONALE (n-TREE). In particolare, si considera un sistema di assi cartesiani in cui in ascisse si pongono le unità statistiche e in ordinata gli STADI della classificazione.

Page 44: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

388

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Un esempio di albero n-dimensionale è il seguente

4

3 2 1

A B C D E

Page 45: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

389

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Un’informazione più precisa può ottenersi considerando in ordinata i livelli di distanza che caratterizzano le aggregazioni delle diverse partizioni. Tale rappresentazione grafica è detta DENDROGRAMMA. Un esempio di Dendrogramma è il seguente

10

4

2.5 1

A B C D E

Page 46: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

390

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Determinazione nel numero ottimo di cluster (partizione ottimale) Abbiamo visto che un algoritmo gerarchico aggregativo genera una famiglia di partizioni delle n unità con un numero di cluster via via decrescenti da n a 1. Si pone quindi in essere il problema di scegliere, tra le diverse partizioni, la partizione ottimale (e quindi il numero di cluster ottimale). Tale obiettivo può essere raggiunto considerando le condizioni desiderabili di coesione interna (piccola variabilità all’interno dei cluster) e separazione esterna (gruppi ben distinti tra loro) e quindi basandoci sulla scomposizione della devianza totale. In generale, si possono distinguere diversi CRITERI.

Page 47: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

391

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

1 TEST DI SEPARAZIONE TRA CLUSTER Si considerano test per verificare se la distanza tra i centroidi dei cluster è significativa. 2. INDICI SINTETICI Sono stai proposti diversi indici (indice R2, indice RMSSTD, indice C di Calinski Harabatz, ecc,). Consideriamo l’indice R2. Una “buona” classificazione è caratterizzata da una ridotta quota di devianza nei cluster (W) e da un elevato valore delle devianza tra i cluster (B).

Page 48: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

392

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Quindi, data una partizione costituita da g cluster, si può considerare l’indice:

TB

TWR =−= 12

]1,0[2 ∈R .

Se R2 è prossimo a 1 la corrispondente classificazione può ritenersi omogenea, poiché le unità appartenenti ad un medesimo cluster sono simili tra loro ( 0≅W ) e i cluster sono ben separati ( TB ≅ ).

Page 49: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

393

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

OSSERVAZIONE Esiste un trade-off tra il numero di cluster e la coesione interna. In particolare, R2 assume valori non decrescenti al crescere di g (numero di cluster). Quindi, la ricerca del numero “ottimo” di cluster non può fondarsi semplicemente sulla massimizzazione di R2, che porterebbe a privilegiare la partizione banale formata da n cluster di una sola unità (per cui R2=1), ma deve compendiare le esigenze contrapposte di omogeneità interna dei cluster e di sintesi della classificazione.

Page 50: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

394

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

3. ISPEZIONE (DIRETTA) DEL DENDROGRAMMA (α-TAGLIO) Si “taglia” il dendrogramma in corrispondenza di un “salto” nei livelli di distanza in cui è avvenuta l’aggregazione. Ad esempio

A B C D E

α-taglio

10

4

2.5

1

Page 51: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

395

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Interpretazione dei risultati ottenuti coi metodi di clustering gerarchici aggregativi Si calcolano i vettori medi di ciascun cluster ottenuto e si confrontano i valori dei vettori pertinenti alle variabile in esame. Quindi, la caratterizzazione di ogni cluster avviene in base a tali valori. Ad esempio, supponiamo di aver rilevato una matrice dei dati in cui le unità siano i comuni di una regione e le variabili siano 2 (un indicatore dell’attività terziaria che, in particolare, misura la vocazione turistica e un indicatore dell’attività industriale).

Page 52: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

396

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Supponiamo che, applicando un algoritmo di clustering (gerarchico aggregativo), otteniamo una classificazione dei comuni in 2 cluster, il primo, rispetto al secondo, con un valore molto più alto della prima variabile e molto più basso della seconda. Quindi, i cluster ottenuti si possono interpretare nel modo seguente: i comuni appartenenti al primo cluster sono caratterizzati da una spiccata vocazione terziaria (in particolare legata all’attività turistica), mentre i comuni appartenenti al secondo cluster sono caratterizzati da un maggiore propensione industriale.

Page 53: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

397

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Esempio numerico 1 (Legame Singolo) Data la seguente matrice di distanza applicare il metodo del legame singolo.

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

0358904910

05602

0

Si ha che la distanza più piccola è tra A e B. Ricordando il metodo del legame singolo: d(C1,C2)=min (drs) r∈C1, s∈C2, occorre quindi calcolare la distanza tra il neo gruppo (AB) e le rimanenti unità.

A B C D E A

B

C

D

E

Page 54: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

398

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Otteniamo quindi: d((AB) C)= min {d(AC), d(BC)}=5 d((AB) D)= min {d(AD), d(BD)}=9 d((AB) E)= min {d(AE), d(BE)}=8. Otteniamo, quindi, la nuova matrice delle distanze:

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

0358049

050

La distanza minima è 3. In tal caso: d((DE) (AB))= min {d(D (AB)), d(E (AB))}=8 d((DE) C)= min {d(DC), d(EC)}=4.

(AB) C D E (AB)

C

D

E

Page 55: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

399

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Otteniamo, quindi :

⎟⎟⎟

⎜⎜⎜

04805

0

La distanza minima è 4. Quindi : d((CDE) (AB))= min {d(C (AB)), d((DE) (AB))}=5. Infine, otteniamo la matrice:

⎟⎟⎠

⎞⎜⎜⎝

⎛05

0

(AB) C (DE) (AB)

C

(DE)

(AB)

(CDE)

(AB) (CDE)

Page 56: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

400

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Nell’ultima iterazione tutte le unità sono aggregate in un unico cluster. La sequenza delle iterazioni è quindi: Iterazione Cluster Livello di distanza 0 (A) (B) (C) (D) (E) --- 1 (AB) (C) (D) (E) 2 2 (AB) (C) (DE) 3 3 (AB) (CDE) 4 4 (ABCDE) 5

Il dendrogramma è il seguente:

A B D E C

5

4

3

2

Page 57: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

401

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Esempio numerico 2 (Legame Completo) Data la seguente matrice di distanza applicare il metodo del legame completo.

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

0358904910

05602

0

Si ha che la distanza più piccola è tra A e B. Ricordando il metodo del legame completo: d(C1,C2)=max (drs) r∈C1, s∈C2, occorre quindi calcolare la distanza tra il neo gruppo (AB) e le rimanenti unità.

A B C D E A

B

C

D

E

Page 58: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

402

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Otteniamo quindi: d((AB) C)= max {d(AC), d(BC)}=6 d((AB) D)= max {d(AD), d(BD)}=10 d((AB) E)= max {d(AE), d(BE)}=9. Otteniamo, quindi, la nuova matrice delle distanze:

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

03590410

060

La distanza minima è 3. In tal caso:

(AB) C D E (AB)

C

D

E

Page 59: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

403

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

d((DE) (AB))= max {d(D (AB)), d(E (AB))}=10 d((DE) C)= max {d(DC), d(EC)}=5. Otteniamo, quindi :

⎟⎟⎟

⎜⎜⎜

051006

0

La distanza minima è 5. Quindi : d((CDE) (AB))= max {d(C (AB)), d((DE) (AB))}=10.

Infine, otteniamo la matrice:

⎟⎟⎠

⎞⎜⎜⎝

⎛010

0

Nell’ultima iterazione tutte le unità sono aggregate in un unico cluster.

(AB) C (DE) (AB)

C

(DE)

(AB)

(CDE)

(AB) (CDE)

Page 60: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

404

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Il dendrogramma è il seguente:

In base al taglio del dendrogramma, la partizione ottimale è in 2 cluster:

(AB), (CDE).

A B D E C

α-taglio

10

5

3 2

Page 61: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

405

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Esempio (forni a microonde)

Consideriamo il metodo del legame singolo e la distanza euclidea quadratica e utilizziamo l’SPSS. La sequenza dei comandi è quindi la seguente:

ANALIZZA → CLASSIFICAZIONE → CLUSTER GERARCHICA → SELEZIONA

VARIABILI → RAGGRUPPA CASI → STATISTICHE (MATRICE DELLE DISTANZE; GRAFICI (DENDROGRAMMA); METODO (METODO DI

RAGGRUPPAMENTO: DEL VICINO PIU’ VICINO (LEGAME SINGOLO); MISURA (INTERVALLO): DISTANCE EUCLIDEA QUADRATRICA).

Page 62: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

406

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Otteniamo quindi il seguente output:

Nel seguito viene mostrata la sequenza delle operazioni con SPSS.

Page 63: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

407

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Page 64: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

408

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Page 65: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

409

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Page 66: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

410

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Page 67: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

411

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Page 68: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

412

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Altri metodi di clustering gerarchici aggregativi Distinguiamo: • Metodi di clustering vincolati

• Metodi di clustering con parziali sovrapposizione.

Page 69: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

413

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Metodi di clustering vincolati Col termine classificazione vincolata si indicano i metodi per ottenere gruppi di unità che risultino non soltanto simili tra loro, relativamente alle variabili in esame, ma che soddisfino anche ulteriori condizioni. Possiamo definire diverse tipologie di vincoli; in particolare:

- vincoli sul numero di unità assegnate ad ogni cluster; - vincoli di contiguità (nel caso in cui le unità da classificare siano di tipo territoriale).

- Vincoli sul numero di unità assegnate ad ogni cluster

Ogni cluster dev’essere formato da un numero di unità comprese in un certo intervallo, i cui estremi siano prefissati dal ricercatore.

Page 70: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

414

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

- Vincoli di contiguità Un tipo di vincolo molto utilizzato nell’analisi di dati territoriali o spaziali è quello di CONTIGUITA’ (da definire opportunamente) tra le unità assegnate ad ogni cluster. Tale vincolo è essenziale in molti problemi di analisi territoriale, in cui le unità (comuni, province, regioni, mercati locali del lavoro, etc.) di un gruppo devono essere non solo simili, ma anche tra loro vicine.

Quando due unità sono contigue? È possibile definire il concetto di contiguità con riferimento al tipo di unità territoriale e alla dimensione dello spazio considerato. In questa sede consideriamo come spazio di riferimento R2.

Page 71: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

415

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Vincoli di contiguità nello spazio bidimensionale R2 Il caso in cui le unità territoriali siano collocate su una superficie è il caso più importante nella pratica. Possiamo distinguere: • il caso di unità territoriali di forma REGOLARE: in tal caso, se

si fa riferimento ad un reticolo (griglia) regolare a maglie quadrate, si ritiene che 2 maglie sono tra loro contigue se hanno un lato in comune oppure se hanno un lato o un vertice in comune;

• il caso di unità territoriali di forma IRREGOLARE: in tal caso, si assume abitualmente che sono contigue 2 unità territoriali con una porzione di confine in comune.

Dopo aver definito, in uno dei diversi modi visti, la contiguità tra 2 unità territoriali, si possono costruire i cluster (aree omogenee) applicando un metodo di clustering (ad esempio, gerarchico) vincolata: • due unità territoriali possono essere assegnate allo stesso

cluster solo se sono tra loro spazialmente contigue;

Page 72: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

416

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

• un’unità territoriale può essere assegnata ad un cluster già formato se essa è contigua con almeno una delle unità del cluster stesso;

• due unità si possono unire tra loro se almeno una unità di un cluster è contigua ad una unità dell’altro cluster.

Formalmente, il vincolo di contiguità (territoriale) viene considerato nelle procedure di clustering (ad esempio gerarchiche) affiancando alla matrice delle distanze D una matrice di contiguità (detta anche matrice di adiacenza), simmetrica, di dimensione n×n e con valori unitari lungo la diagonale principale,così definita:

C=[cij] ove

⎩⎨⎧

=.altrimenti 0

esima- junitàl' con contigua è esima-i unitàl'1ijc

Page 73: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

417

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

OSSERVAZIONE (inversione) L’introduzione del vincolo di contiguità nei metodi di clustering (gerarchici) può produrre un inconveniente: INVERSIONE nei valori della distanza in corrispondenza della quale una unità territoriale si unisce ad un cluster (cfr. figura).

L’unità territoriale 4 che presenta una distanza pari a 0.3 dal gruppo [1,2], ma che non è spazialmente contigua ad esso, si unisce solo dopo che l’unità 3, contigua a [1,2] e a 4, si è aggregata al gruppo [1,2] alla distanza 0.5. Si dimostra che il metodo del legame completo col vincolo di contiguità non produce inversione.

0.5

0.3

0.1

1 2 3 4

Page 74: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

418

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

La Cluster Analysis non gerarchica

L’OBIETTIVO dei metodi di clustering non gerarchici è quello di ottenere una SOLA PARTIZIONE di n unità in k gruppi (k<n), con k scelto a priori (contrariamente ai metodi gerarchici che determinano una famiglia di partizioni). Nei metodi di clustering non gerarchici la PROCEDURA DI ALLOCAZIONE delle unità ai cluster avviene attraverso l’OTTIMIZZAZIONE di una FUNZIONE OBIETTIVO (espressa di solito in termini della scomposizione della devianza totale). Di solito si ricerca la PARTIZIONE DI MASSIMA COESIONE INTERNA (minima devianza within). Inoltre, gli algoritmi raggiungono di solito un OTTIMO LOCALE.

Page 75: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

419

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

I possibili vantaggi dell’approccio non gerarchico sono i seguenti:

1. Variando il numero di cluster, viene meno il vincolo che tutte le coppie di unità che sono unite ad un determinato livello di aggregazione gerarchica non possono più essere separate ai livelli successivi. Per ogni valore di k, infatti, l’algoritmo non gerarchico classifica ogni unità esclusivamente sulla base del criterio prescelto e i risultati ottenuti possono essere diversi al variare del numero di cluster. Ciò consente di superare i potenziali inconvenienti dovuti ad una fusione “errata” di unità eterogenee nei passi iniziali d una procedura gerarchica.

Page 76: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

420

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

2. Il fatto di considerare una procedura iterativa, per un solo

valore di k (fissato), rende gli algoritmi non gerarchici assai veloci computazionalmente e non richiede la determinazione preliminare della matrice delle distanze tra le unità. Tali metodi sono quindi adatti alle situazioni in cui n è molto elevato (in tali casi invece l’uso di una procedura gerarchica sarebbe computazionalmente molto onerosa).

3. Gli algoritmi non gerarchici possono essere preferibili quando

l’interesse della ricerca consiste nella caratterizzazione delle peculiarità dei cluster (ad esempio, attraverso il calcolo dei centroidi e delle misure di variabilità dei cluster), piuttosto che nello studio del comportamento elle singole unità nei successivi passi dell’aggregazione gerarchica.

Page 77: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

421

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

I modelli non gerarchici presentano tuttavia alcuni inconvenienti legati alla necessità di definire preventivamente:

1. il valore del numero dei cluster della partizione “ottima”; 2. la configurazione di partenza dei cluster (partizione iniziale).

Osservazione Purtroppo il numero di modi in cui è possibile suddividere n unità in k cluster non sovrapposti è assai grande anche per valori bassi di n e k. Quindi, l’enumerazione completa di tutte le possibili partizioni non risulta quasi mai perseguibile nelle applicazioni. È per questo motivo che (come abbiamo visto) gli algoritmi non gerarchici usualmente utilizzati considerano criteri meno vincolanti (procedure iterative (in cui si considera un solo (prefissato) valore di k) che consentono di ottenere ottimi “locali”).

Page 78: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

422

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Osservazione (ottimo (minimo) locale) Tra una iterazione e la successiva, ci troviamo in una situazione in cui la funzione obiettivo da minimizzare non decresce significativamente ma si stabilizza su di un minimo, che purtroppo è locale.

t

f.o. Ottimo locale La funzione obiettivo non

decresce significativamente. L’algoritmo converge.

Ottimo globale

Page 79: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

423

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Il metodo delle k-medie

Il metodo K-medie è il metodo di clustering non gerarchico più comune.

L’OBIETTIVO è quello di determinare una partizione delle n unità statistiche in un numero prefissato di cluster, minimizzando la devianza within (distanza euclidea tra unità e centroide) (MAX COESIONE INTERNA) attraverso una procedura iterativa:

1. Si scelgono (ad esempio casualmente) k poli iniziali (semi iniziali). I poli possono essere individuati attraverso criteri differenti, di solito in modo tale che essi siano abbastanza distanti tra loro (vedi in seguito). Quindi si costruisce la partizione iniziale, costituita da k cluster, allocando ciascuna unità al cluster il cui polo risulta il più vicino.

Page 80: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

424

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

2. Per ogni cluster si calcolano i centroidi e per ogni unità si calcola la distanza euclidea dai centroidi dei k cluster: se la distanza minima non è ottenuta in corrispondenza del centroide del gruppo di appartenenza, l’unità viene riassegnata al cluster corrispondente al centroide più vicino. In caso di riallocazione di un’unità, si ricalcola il centroide sia del nuovo che del vecchio cluster di appartenenza.

3. Si ripete il passo 2 fino a quando l’algoritmo non converge,

cioè fino a quando non si verificano più modificazioni dei centroidi (e quindi dei cluster) rispetto all’iterazione precedente (regola d’arresto).

Page 81: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

425

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Osserviamo inoltre che:

a. In alternativa, se vogliamo ridurre i tempi di calcolo, la regola di arresto (vedi passo 3) può essere sostituita da una regola meno restrittiva, che prevede l’interruzione del processo iterativo in uno dei seguenti casi:

- convergenza dell’algoritmo; - distanza tra ciascun centroide calcolato nell’iterazione

corrente e il corrispondente centroide dell’iterazione precedente non superi una soglia prefissata (valore molto piccolo);

- raggiungimento del numero massimo di iterazioni prefissato.

Page 82: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

426

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

b. Per ottenere una partizione con un diverso numero di cluster, ad esempio k*, è necessario ripetere tutti i passi della procedura, sostituendo k con k*.

c. Le fasi del metodo delle k-medie richiedono il calcolo ripetuto della distanza tra ciascun punto e i centroidi dei k cluster: tale procedura appartiene alla classe di algoritmi di clustering che adottano la tecnica dell’ “ordinamento rispetto al centroide più vicino”.

d. La distanza utilizzata nel calcolo è la distanza Euclidea, poiché essa garantisce la convergenza della procedura iterativa (Anderberg, 1973). Quindi, all’iterazione t, la distanza tra l’unità i-esima e il centroide c-esimo è:

∑=

−=p

s

tcsis

tci hxd

1

2)()( )(),( hx .

Page 83: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

427

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Si nota che il metodo delle k-medie (considerando la distanza Euclidea) ha come obiettivo implicito la ricerca della partizione (con k cluster) che soddisfa un criterio di coesione interna fondato sulla devianza nei cluster, cioè sulla minimizzazione della quantità W.

e. Una naturale misura della bontà della partizione ottenuta è R2. Non è invece applicabile l’indice RMSSTD (applicabile a strutture gerarchiche).

f. Il metodo delle k-medie produce tendenzialmente cluster di forma sferica e di dimensioni abbastanza simili tra loro.

g. Il metodo delle k-medie presenta il seguente inconveniente: la partizione finale può essere influenzata dall’ordine in cui sono elencate le unità nella matrice dei dati. Tale fatto è attribuibile al ricalcolo dei centroidi dei cluster ad ogni allocazione (Anderberg, 1973).

Page 84: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

428

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

h. È possibile adottare una versione alternativa dell’algoritmo delle k-medie, in cui i centroidi dei cluster sono ricalcolati una sola volta in ciascuna iterazione, e cioè soltanto dopo aver assegnato tutte le unità al cluster con centroide più vicino.

i. Anche utilizzando la precedente variante non è possibile risolvere l’inconveniente indicato in precedenza. Quindi, per qualsiasi tipo di algoritmo iterativo del metodo delle k-medie, occorre tener conto della sensibilità del metodo all’ordinamento delle unità nella matrice dei dati. A tal riguardo occorre ripetere l’algoritmo partendo da differenti sequenze iniziali. Altrimenti, il metodo delle k-medie può portare a risultati instabili nei seguenti casi:

- se nei dati non esiste una chiara struttura di gruppo, ossia i cluster non sono ben separati;

Page 85: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

429

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

- se si è interessati ad indagare su caratteristiche “locali” dei dati, come l’influenza di singole osservazioni o la presenza di dati anomali (outlier);

- se n è molto piccolo. l. Il metodo delle k-medie è implementato in SPSS, SAS,

STATISTICA, etc. Si tratta di algoritmi molto veloci e quindi applicabili anche a data set di dimensioni elevate, soprattutto quando k è piccolo rispetto a n.

m. Il metodo delle k-medie è sensibile alla presenza di outlier.

Page 86: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

430

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Scelta del numero di cluster e dei poli iniziali

L’impossibilità pratica di considerare l’insieme completo delle partizioni di n unità in cluster distinti fa si che la partizione “ottima” ottenuta col metodo delle k-medie corrisponde ad un “minimo locale” della funzione obiettivo.

In tal caso la soluzione finale dipende dalla configurazione iniziale.

A tal proposito analizziamo i problemi connessi alla scelta:

- del numero di cluster della partizione,

- dei poli iniziali.

Page 87: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

431

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Scelta del numero di cluster

Analogamente al caso gerarchico, è possibile seguire diversi approcci. • Il criterio più diffuso per la determinazione del numero di cluster

consiste nell’esecuzione ripetuta della procedura di clustering non gerarchica con differenti valori di k, nella valutazione (ad esempio con l’indice R2) della bontà delle partizioni ottenute e nella selezione della partizione finale ritenute più soddisfacente.

• Test di significatività (come nel caso gerarchico). • Se n non è molto grande, una possibile soluzione consiste nel far precedere l’analisi non gerarchica da un’analisi gerarchica, al fine di ottenere (ad esempio, dall’ispezione del dendrogramma) indicazioni sul valore di k.

• Utilizzo dell’istogramma p-dimensionale e individuazioni delle mode.

Page 88: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

432

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Scelta dei poli della partizione iniziale Anche in tal caso possiamo distinguere diversi criteri. • Un criterio molto semplice e poco oneroso consiste nel prendere come semi iniziali le prime k osservazioni (p-dimensionali) della matrice dei dati.

• Un criterio leggermente formalizzato consiste nel selezionare i semi attraverso la selezione di un campione casuale semplice o un campione sistematico di k unità dalle n unità in esame.

• I criteri precedenti non garantiscono che i semi selezionati siano rappresentativi per l’intera nuvola dei punti sullo spazio p-dimensionale. Tale requisito è importante nelle applicazioni reali, poiché permette di migliorare le proprietà di convergenza degli algoritmi non gerarchici. Infatti esso aumenta la capacità degli algoritmi di fornire in tempi rapidi una partizione finale prossima alla soluzione “ottima” (in termini di coesione interna) e di

Page 89: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

433

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

individuare le strutture di gruppo effettivamente presenti nei dati (cluster naturali). A tal proposito, si osserva che la rappresentatività dei poli è perseguita mediante la ricerca di osservazioni sufficientemente distanti nello spazio di riferimento. Ad esempio, la procedura implementata nel SAS effettua un test preliminare sui dati di partenza in modo da individuare k elementi la cui distanza (euclidea) reciproca sia non inferiore ad una soglia prefissata. Alternativamente, si esegue una serie di verifiche al fine di garantire che la distanza tra i semi prescelti sia comunque superiore a quella calcolata tra i poli stessi e le rimanenti unità. L’obiettivo di questi criteri è quello di cercare di garantire che nella partizione iniziale i centroidi risultino ben separati tra loro ed ogni unità sia relativamente prossima ad uno di essi.

Page 90: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

434

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Osservazione I criteri finora descritti (eccetto quello basato sul campionamento casuale) dipendono dall’ordine in cui sono elencate le unità nella matrice dei dati: essi possono condurre a risultati differenti, al variare dell’ordine delle unità. • Un ulteriore criterio consiste nell’utilizzare l’istogramma p-

dimensionale. In particolare, dopo aver determinato il numero di cluster attraverso l’esame dei valori assunti dalle densità di frequenza, si definiscono i semi iniziali come centroidi calcolati sulle solo osservazioni comprese nei rettangoli (maglie della griglia) che individuano le mode.

• Un altro criterio consiste (nel caso di utilizzo preliminare di una procedura gerarchica per la selezione del numero dei cluster) nell’indicare come poli della partizione iniziale della procedura non gerarchica i centroidi dei cluster ottenuti dal taglio del dendrogramma.

Page 91: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

435

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Una formalizzazione matematica

Il metodo delle k-medie si può formalizzare matematicamente nel seguente modo:

( )

{ }

1

1,0

,d:min

1

1 1

2

1 1

2

,

=

−=

∑ ∑∑∑

=

= == =

k

cic

ic

n

i

k

cciic

n

i

k

cciic

u

u

uu hxhxhU

dove ix , i=1,…n, è il vettore p-dimensionale (dove p indica il numero delle variabili) dei dati relativo all’osservazione i-esima e ch , c=1…,k, è il vettore anch’esso p-dimensionale che caratterizza il gruppo c-esimo. Tale vettore è denominato il centroide del gruppo c, c=1…,k.

Page 92: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

436

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

L’informazione relativa all’appartenenza delle unità ai gruppi è data dalla cosiddetta matrice dei gradi di appartenenza U, il cui elemento generico è icu , i=1,…n; , c=,1…,k.

La somma degli elementi delle righe di tale matrice è unitaria.

Ciascuna riga si riferisce ad una osservazione e ciascuna colonna ad un gruppo.

In particolare, poiché gli elementi di U possono essere nulli o unitari, ciascuna riga è formata da un solo uno e da k-1 valori nulli.

Page 93: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

437

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

L’algoritmo operativo La determinazione dei gruppi avviene attraverso il seguente algoritmo iterativo.

Passo 0 Si sceglie casualmente una matrice dei gradi di appartenenza ( )tU con 0=t .

Passo 1 Si aggiornano i centroidi con ( )

( )

( )∑

=

=+ = n

i

tic

n

ii

tic

tc

u

u

1

11x

h .

Passo 2

Si aggiornano gli elementi di U con

( ) { }

( ){ }⎪⎩

⎪⎨⎧ −=

=+

′∈′

+

altrimenti0

minarg1 1

,,11

tci

kctic

cseu

hxK

Passo 3

Si verifica se tra due iterazioni non varia l’appartenenza delle unità ai cluster. Se la condizione è verificata, l’algoritmo è terminato, altrimenti si pone 1+=tt e si torna al Passo 1.

Page 94: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

438

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Esempio 1 (forni a microonde) Consideriamo la matrice dei forni a microonde e utilizziamo l’SPSS. La sequenza dei comandi è: ANALIZZA → CLASSIFICA → CLUSTER K-MEDIE → SELEZIONA VARIABILI

→ SELEZIONA N° DI CLUSTER; METODO: ITERA E CLASSIFICA; ITERAZIONI: FISSA MAX N° DI ITERAZIONI; OPZIONI: CLUSTER PER OGNI

CASO; SALVA: CLUSTER DI APPARTENENZA; DISTANZA DEL CENTRO DEL CLUSTER

Page 95: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

439

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

I risultati ottenuti con k=4 sono i seguenti:

Cluster di appartenenza

1 ,0004 ,5103 ,6044 ,6263 ,9593 ,6714 ,5862 ,000

Marca forniCANDYDELONGHIELECTROLUXMOULINEXOCEANPANASONICSAMSUNGSHARP

Cluster Distanza

Centri dei cluster finali

1,20761 -,72457 ,77824 -,939262,24246 -,52183 -,12693 -,44661,61197 2,05769 -,55994 -,32994

Punteg(altezza)Punteg(capacità)Punteg(prezzo)

1 2 3 4Cluster

Distanze tra i centri dei cluster finali

3,669 2,678 3,5683,669 3,044 2,3982,678 3,044 1,7623,568 2,398 1,762

Cluster1234

1 2 3 4

Numero di casi in ogni cluster

1,0001,0003,0003,0008,000,000

1234

Cluster

ValidiMancanti

Nel seguito viene mostrata la sequenza delle operazioni con SPSS.

Page 96: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

440

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Page 97: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

441

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Page 98: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

442

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Page 99: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

443

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Page 100: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

444

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Page 101: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

445

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Page 102: 6 Tecniche di analisi di dati multidimensionali 6.1 ...docenti.luiss.it/protected-uploads/321/2009/05/20090518231049-par… · Nella Cluster Analysis, contrariamente all’Analisi

446

STATISTICA E RICERCHE DI MERCATO - Facoltà di Economia – Università degli Studi LUISS ©Prof. Pierpaolo D’Urso 2009

Esempio 2 (aziende alimentari) Considerando l’SPSS si ottengono i seguenti risultati (posto k=3)

Cluster di appartenenza

2 1,1052 1,1733 1,4422 1,5472 1,4133 1,4422 1,5122 2,5631 ,0003 ,794

AziendaBARILLAERIDANIAFERREROGALBANIKRAFTLAVAZZANESTLE'PARMALATPLASMONSTAR

Cluster Distanza

Centri dei cluster finali

1,15 -,57 ,884,11 -,29 -,04

-1,97 ,20 -,562,24 -,55 ,71,45 ,36 -1,00

Econ.proCash.fatLavor.vaRoeInde.cap

1 2 3Cluster

Distanze tra i centri dei cluster finali

5,899 4,8645,899 2,4924,864 2,492

Cluster123

1 2 3

Numero di casi in ogni cluster

1,0006,0003,000

10,000,000

123

Cluster

ValidiMancanti