Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di...

17
Analisi dei gruppi – Analisi dei gruppi – Cluster Analisys Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare i casi (le unità) di una matrice di dati ad un numero ristretto di gruppi, massimizzando l’omogeneità all’interno dei gruppi e massimizzando l’eterogeneità tra i gruppi Ciò è possibile attraverso l’uso di variabili discriminanti o variabili criterio e attraverso l’individuazione del metodo per arrivare a questa classificazione in gruppi.

Transcript of Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di...

Page 1: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Analisi dei gruppi – Cluster Analisi dei gruppi – Cluster AnalisysAnalisys

Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata

Obiettivo di queste tecniche è assegnare i casi (le unità) di una matrice di dati ad un numero ristretto di gruppi, massimizzando l’omogeneità all’interno dei gruppi e massimizzando l’eterogeneità tra i gruppi

Ciò è possibile attraverso l’uso di variabili discriminanti o variabili criterio e attraverso l’individuazione del metodo per arrivare a questa classificazione in gruppi.

Page 2: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Analisi dei gruppi (adg)Analisi dei gruppi (adg)La scelta delle variabili criterio sulle quali operare la

classificazione è il momento cruciale dell’adg

Sta al ricercatore scegliere le variabili adatte: il ricercatore deve fare ricorso alla sua conoscenza del fenomeno in esame.

A livello computazionale e matematico i software applicano tutte le tecniche di analisi multivariata generando dei risultati. Sta al ricercatore valutare se i risultati sono buoni e se la tecnica applicata porta dei miglioramenti per l’interpretazione del fenomeno.

Page 3: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Analisi dei gruppi (adg)Analisi dei gruppi (adg)A livello computazionale esiste una difficoltà di calcolo:

applicare una adg su una matrice di 1000/2000 unità e 200/300 variabili risulta poco possibile.

Per questo solitamente si opera una riduzione sulle variabili e si applica la adg sui risultati dall’analisi delle componenti principali o sui risultati dell’analisi delle corrispondenze multiple.

Se l’acm ha operato una riduzione delle variabili (passando da m variabili a pochi fattori, di solito 3 o 4), l’adg opera una riduzione sulle unità passando da n unità a k gruppi

Si raggiunge così la massima economia di rappresentazione dei risultati

Page 4: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Fasi dell’adgFasi dell’adg1) Scelta delle variabili con le quali discriminare i casi (le

unità)

2) Costruzione di una matrice di distanza (quadrata e simmetrica) dove si riportano tutte le distanze tra i casi.

3) Scelta della tecnica per aggregare i casi

4) Interpretazione di risultati

Ci sono centinaia di tecniche di aggregazione e possono essere usate anche diversi tipi di distanza.

Nelle tecniche classiche, l’assegnazione delle unità ai gruppi è univoca o mutuamente esclusiva (una unità appartiene ad un solo gruppo) ed esaustiva (ogni unità deve essere assegnata ad un gruppo)

Nelle tecniche basate sulla logica fuzzy gli insiemi possono essere sfocati e le appartenenze possono essere multiple.

Page 5: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Famiglie di tecniche di adgFamiglie di tecniche di adgLe varie tecniche che si possono utilizzare si basano su:

1. Il coefficiente usato per calcolare la matrice di distanza

2. Il criterio per la costruzione dei gruppi

La distanza tra i casi è calcolata soltanto sulle variabili inserite nell’analisi. La più comune distanza utilizzata per le variabili quantitative è la distanza euclidea.

Generalizzando la distanza euclidea tra due casi (due unità) rispetto ad un numero m di variabili si calcola come radice quadrata della somma di tutte le differenze tra i valori dei due casi per ogni m variabile

Page 6: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Proprietà della distanzaProprietà della distanzaAltre distanze, che sono leggere variazioni della distanza

euclidea sono la distanza di Manhattan, la distanza di Mahalanobis, la distanza di Minkovski.

In ogni caso la distanza ha le seguenti proprietà:

1. La distanza di una unità da se stessa è nulla

2. La distanza tra due casi è speculare (la distanza tra a e b è uguale alla distanza tra b e a)

3. Tra le distanze vale la disuguaglianza triangolare

Page 7: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Tecniche di classificazioneTecniche di classificazioneUna volta decisa la distanza si deve decidere la tecnica di

clustering da applicare. Si hanno tecniche gerarchiche e tecniche non gerarchiche

Le tecniche gerarchiche procedono:per aggregazioni successive partendo da n unità (n gruppi

di partenza) fino ad arrivare ad un gruppo unico che contiene tutte le unità. Un gruppo formato non si può più sciogliere - tecniche gerarchiche aggregative

per scissioni successive partendo da un gruppo unico che contiene tutte le unità fino ad arrivare a n gruppi (ossia alle n unità della matrice di dati) - tecniche gerarchiche scissorie

Page 8: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Tecniche gerarchiche Tecniche gerarchiche aggregativeaggregative1. Si costruisce la matrice delle distanza

2. Si considerano all’inizio n gruppi = n unità

3. Si aggregano i gruppi che risultano più vicini e, dopo ogni aggregazione, si ricalcola la matrice delle distanze

4. Si reitera il processo fino a n-1 volte, ossia fino a formare un unico gruppo

La rappresentazione grafica di questi passaggi si chiama dendogramma

Sarà il ricercatore a scegliere la partizione di gruppi migliore

Page 9: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Criterio di aggregazioneCriterio di aggregazioneI criteri di aggregazione possono essere di vario tipo: Criterio del legame singolo: dalla matrice delle distanze si

individuano i gruppi più vicini che si fondono insieme a formare un nuovo gruppo. Successivamente si ricalcola la matrice delle distanze in modo che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. La distanza tra il gruppo formato e i gruppi sarà data dalla distanza minore tra le distanze dei gruppi che si sono aggregati.

Criterio del legame completo: dalla matrice delle distanze si individuano i gruppi più vicini che si fondono insieme a formare un gruppo. Successivamente si ricalcola la matrice delle distanze in modo che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. La distanza tra il gruppo e i gruppi sarà data dalla distanza maggiore tra le distanze dei gruppi che si sono aggregati.

Page 10: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Criterio di aggregazioneCriterio di aggregazioneI criteri di aggregazione possono essere di vario tipo: Criterio del legame medio: dalla matrice delle distanze si individuano

i gruppi più vicini che si fondono insieme a formare un gruppo. Successivamente si ricalcola la matrice delle distanze in modo che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. Per determinare la distanza tra i gruppi si calcola la media delle distanze tra tutte le coppie (considerate una sola volta) di casi che appartengono ai gruppi.

Es. gruppo formato da AB e gruppo formato da CD, la distanza sarà la media tra le distanze (A da C), (A da D), (B da C), (B da D).

Page 11: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Criterio di aggregazioneCriterio di aggregazione Criterio della media dentro i gruppi: unisce i gruppi facendo si che la

distanza media tra tutti i casi a due a due interni ad un gruppo sia la minore possibile.

Criterio della mediana: calcola la mediana all’interno di ogni gruppo; la distanza tra i gruppi è pari alla distanza tra le mediane dei gruppi

Criterio di Ward: ogni nuova aggregazione porta una aumento della varianza per ogni variabile. Si aggregano quindi i casi che minimizzano questo incremento di varianza.

Criterio del centroide: per ogni gruppo si calcola il centroide (baricentro) che è la media delle coordinate di tutti i casi che fanno parte del gruppo: si calcola la distanza tra i centroidi.

Page 12: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Vantaggi e svantaggi tecniche Vantaggi e svantaggi tecniche gerarchichegerarchiche

Danno una visione di insieme dei casi

Non richiedono una scelta a priori del numero di gruppi, posso scegliere in un secondo tempo il numero

Non possono trattare gran numero di casi

Non è possibile scindere i gruppi una volta che si sono formati

Page 13: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Tecniche di aggregazione non Tecniche di aggregazione non gerarchichegerarchiche

Le tecniche non gerarchiche, dette anche a partizioni ripetute, conducono direttamente da n casi a k gruppi, con k fissato a priori. Si possono usare tecniche migliorative di riallocazione delle unità.

Il ricercatore stabilisce a priori la partizione iniziale, imponendo i centri dei gruppi iniziali. Se la nuvola di punti unità presenta dei cluster naturali (cioè dei gruppi separati tra loro) è facile definire e indicare i gruppi di partenza. In caso contrario (solitamente il più frequente) si possono scegliere casualmente i centri di partenza. Se non esistono cluster naturali è meglio procedere con delle tecniche esplorative iniziali per vedere le relazioni tra i gruppi.

Page 14: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Tecniche di aggregazione non Tecniche di aggregazione non gerarchichegerarchiche

Le tecniche per spostare casi da un gruppo all’altro sono: Tecniche di aggregazione intorno a centri mobili (o k-medie): si calcolano

i centroidi dei gruppi e si spostano via via le unità che si trovano più vicine ad un centroide di un altro gruppo. Il procedimento di interrompe quando non ci sono più spostamenti.

Tecniche delle nuvole dinamiche: è simile al precedente soltanto che invece di definire il gruppo con un solo punto, ossia il centroide, si definisce il gruppo in base ad un nucleo centrale costituito da più casi e individuato a priori perché significativo del gruppo.

Tecniche che si basano sull’ottimizzazione di una funzione obiettivo: si realizzano gli spostamenti tra unità nei gruppi fino a quando si registra un miglioramento nella funzione obiettivo. Le funzioni obiettivo servono a costituire gruppi il più possibile omogenei al loro interno, ossia dove sia minima la varianza, mentre sia massima l’eterogeneità tra i gruppi e quindi la varianza tra i gruppi (la varianza totale del collettivo esaminato è data dalla varianza interna ai gruppi più la varianza esterna)

Page 15: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Vantaggi e svantaggi tecniche non Vantaggi e svantaggi tecniche non gerarchichegerarchiche

Possono trattare grandi matrici di dati

Bisogna determinare a priori il numero di gruppi

Page 16: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

operativamenteoperativamenteQuando si ha una matrice di dati in cui le unità non sono gli

individui ma sono ad esempio, le regioni, i comuni, gli stati ecc. si parla di dati su unità ecologiche e si parla di tipologie macro. Il ricercatore ha in questo caso molte notizie in più che possono indirizzarlo nell’analisi

Quando si ha una matrice di dati in cui le unità sono gli individui si parla di tipologia micro.

La lettura micro e macro dei risultati è leggermente diversa

Page 17: Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare.

Lettura dei risultatiLettura dei risultatiPer ogni gruppo si individuano: a livello macro - le unità che

ne fanno parte; a livello micro – la % di individui nel gruppo

Si individuano per ogni gruppo le caratteristiche peculiari del gruppo attraverso le seguenti frequenze:

La percentuale Mod/Cla cioè la % che esprime il numero di casi che presentano la modalità all’interno del gruppo in riferimento al numero di casi nel gruppo;

La percentuale Cla/Mod cioè la % che esprime il numero di casi che presentano la modalità all’interno del gruppo in riferimento a quanti la presentano nel collettivo totale;

La percentuale Global cioè la % della modalità nel collettivo.