Metodi statistici per le ricerche di mercato...26/05/2017 3 Tabella inventario o matrice di dati...
Transcript of Metodi statistici per le ricerche di mercato...26/05/2017 3 Tabella inventario o matrice di dati...
26/05/2017
1
Metodi statistici per le ricerche di mercato
Prof.ssa Isabella Mingo A.A. 2016-2017
Facoltà di Scienze Politiche, Sociologia, Comunicazione
Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa»
Tipi di analisi dei dati
ANALISI MONOVARIATA
considera un carattere alla volta e studia come esso si distribuisce sulle unità statistiche rilevate.
Consente di pervenire ad una conoscenza più accurata dei dati.
In presenza di dati campionari, è necessaria per valutare la struttura del campione.
ANALISI BIVARIATA
studia le relazioni tra i caratteri considerando due caratteri alla volta osservati sullo stesso collettivo di unità statistiche.
ANALISI MULTIVARIATA
Studia le relazioni tra più caratteri osservati sullo stesso collettivo di unità statistiche.
26/05/2017
2
X =
X1 X2 … Xj … Xp
u1 x11 x12 … x1j … x1p
u2 x21 x22 … x2j
… x2p
… … … … … … …
ui xi1 xi2 … xij
… xip
… … … … … … …
un xn1 xn2 … xnj … Xnp
Il punto di partenza: la matrice dei dati
Insieme di informazioni, numeri o codici alfanumerici, disposte su righe e colonne. Alle righe corrisponde un insieme omogeneo I Alle colonne corrisponde un insieme omogeneo J
I. Mingo 2016-2017
Tipi di matrici di dati: Unità x Variabili
Caratteristiche:
Righe e colonne non rappresentano gli stessi elementi :
– in riga sono rappresentate le unità di analisi,
– in colonna le variabili
Insieme I= unità /Insieme J= Variabili
Esempi :
– Tabella inventario
– Matrice di dati qualitativi
– Matrice di intensità
– Matrice di ranghi
– Matrice di preferenze
– Matrice di punteggi
I. Mingo 2016-2017
26/05/2017
3
Tabella inventario o matrice di dati unità/variabili
Matrice di dati Mnp con dati di tipo misto. L’applicazione di tecniche di analisi richiede la selezione e/o la parziale trasformazione delle variabili
I. Mingo 2016-2017
Matrice di dati qualitativi
Matrice di intensità
Matrice di dati Qnp con caratteri di tipo qualitativo (nominale e/o ordinale).
Matrice di dati Inp con caratteri di tipo quantitativo (discreti e /o continui)
I. Mingo 2016-2017
26/05/2017
4
Matrice di preferenze Matrice di ranghi
Matrice di dati Pnp che contiene il rango dato da ciascuna unità statistica ai caratteri osservati in base alla propria preferenza. I valori sono espressi da 1 a p , numero di entità da valutare
Matrice di dati Rnp che contiene il rango assegnato a ciascuna unità statistica secondo l’intensità assunta su ciascuno dei caratteri osservati I valori sono espressi da 1 a n , numero di unità da ordinare.
I. Mingo 2016-2017
Matrice di punteggi
Matrice di dati Pnp che contiene valori discreti aventi un campo definito di variazione (es. 1-10; 1 -5; 0-100) indicanti, per esempio, per ciascuna unità statistica un dato punteggio o l’intensità di soddisfazione /insoddisfazione o il grado di accordo/ disaccordo)
I. Mingo 2016-2017
26/05/2017
5
Tipi di matrici di dati: Matrici Unità x Unità
Sono matrici nxn in cui l’insieme di unità I rappresentato in riga è
omogeneo rispetto a quello J rappresentato in colonna.
Gli elementi possono essere misure di similarità/dissimilarità fra
le unità statistiche oppure di intensità di flussi in matrici di
scambio
Possono essere :
• Simmetriche se gli elementi rappresentati nel triangolo
superiore alla diagonale principale sono speculari rispetto a
quelle del triangolo inferiore (es. matrici di distanze
geografiche)
• Non simmetriche : se gli elementi rappresentati nel triangolo
superiore alla diagonale principale non sono speculari rispetto
a quelle del triangolo inferiore
I. Mingo 2016-2017
Esempio di matrice unità/unità: Matrice di distanza
- Quadrata: il numero di righe è uguale al numero di colonne; esse rappresentano gli stessi elementi. - Simmetrica - La diagonale principale presenta valori nulli
I. Mingo 2016-2017
26/05/2017
6
Esempio di matrice unità/unità: Matrice di scambio
- Quadrata: il numero di righe è uguale al numero di colonne; esse rappresentano gli stessi elementi. - Non simmetrica - La diagonale principale presenta valori nulli
I. Mingo 2016-2017
Tipi di matrici di dati: Matrici Variabili x Variabili (pxp)
Sono matrici pxp in cui l’insieme di unità I rappresentato in riga è
omogeneo rispetto a quello J rappresentato in colonna.
Gli elementi possono essere variabili o modalità di variabili.
Sono matrici di questo tipo
– Matrice di varianza e covarianza: i cui elementi sono indici
di dispersione tra le p variabili considerate;
– Matrice di correlazione: i cui elementi sono indici di
correlazione tra le p variabili considerate;
I. Mingo 2016-2017
26/05/2017
7
Esempio di matrice variabili/variabili
Matrice di
varianza/covarianza Matrice di correlazione
-Quadrata
-Simmetrica
- Tutti gli elementi della diagonale principali
sono uguali a uno.
- Quadrata
- Simmetrica
- Tutti gli elementi della diagonale principali sono
uguali alla varianza di ciascuna delle p variabili.
I. Mingo 2016-2017
Introduzione all’analisi Multidimensionale
I. Mingo 2016-2017
26/05/2017
8
Che cosa è l’Analisi Multidimensionale dei Dati?
Insieme di tecniche statistiche che consentono di interpretare fenomeni complessi mediante l’analisi di grandi quantità di dati
I dati sottoposti ad analisi sono caratterizzati dall'osservazione congiunta di un insieme di p variabili su n unità statistiche
Il concetto di “dimensione” viene a volte ricondotto a quello geometrico, altre volte a quello di costrutto concettuale. In tutti i casi si adotta un approccio “multi-variato”.
Le informazioni, espresse sia in forma codificata che in linguaggio naturale, sono inserite in opportune tabelle e matrici oggetto di trattamento matematico o grafico. Lo sviluppo di queste tecniche e la loro applicazione è stata possibile grazie all’avvento degli elaboratori elettronici e si sono generalizzati con la diffusione odierna dei personal computer e di adeguati software.
I. Mingo 2016-2017
Approccio esplorativo-descrittivo
• Nella sua impostazione originaria, l‘AMD analizza le relazioni tra le
variabili sulla base degli strumenti della geometria euclidea e
dell'algebra, prescindendo da qualunque assunzione probabilistica.
• Il suo approccio è originariamente di tipo esplorativo:
– si analizzano i dati per “cogliere indizi” utili alla formulazione di
ipotesi distributive delle variabili
– si tratta simultaneamente con variabili numerose e spesso
eterogenee riguardo al loro livello di misurazione
• Le tecniche di AMD possono essere dunque considerate un
sottoinsieme di quello più ampio dell’Analisi Multivariata che
comprende anche altre tecniche di approccio non esplorativo.
I. Mingo 2016-2017
26/05/2017
9
Un’approccio tipico di AMD:
I principi della Scuola Francese dell’ Analyse des
données
1. La statistica non è calcolo delle probabilità
2. Il modello deve seguire i dati non l’inverso
3. è opportuno trattare simultaneamente informazioni
concernenti il maggior numero possibile di dimensioni
4. Per l’analisi dei fenomeni complessi è indispensabile il
computer
5. L’uso del computer implica l’abbandono di ogni tecnica
concepita prima dell’avvento del calcolo automatico (Benzècri 1973)
I. Mingo 2016-2017
AMD: classificazione delle tecniche Criterio: Metrica
Analisi metrica: adatta a variabili quantitative
Analisi non metrica: applicabile a variabili di qualsiasi scala di misura
Criterio: Simmetria
Metodi simmetrici: non evidenziano direzioni causali, le relazioni tra le variabili sono considerate bidirezionali
Metodi asimmetrici: evidenziare relazioni di dipendenza tra più sistemi di variabili. Le variabili osservate sono divise in variabili dipendenti e variabili predittive (o esplicative o indipendenti).
Criterio: Linearità
Relazioni lineari: si assume che la relazione che lega la variabile Y ad un gruppo di variabili X1, X2, …,Xk è esprimibile attraverso una funzione lineare delle variabili esplicative più un termine residuale
Relazioni non lineari: si assume che la relazione sia di altro tipo (esponenziale, logaritmica, sinusoidale, polinomiale).
I. Mingo 2016-2017
26/05/2017
10
Alcune finalità delle tecniche di AMD
Riduzione dei dati • Descrizione dei dati rilevati mediante forme semplici e compatte
analitiche e/o grafiche • Costruzione di indici sintetici
Evidenziazione strutture latenti
Raggruppamento e ricerca di tipologie • Definizione automatica di classi di unità più omogenee
Discriminazione • Identificazione delle caratteristiche che differenziano due o più
insiemi di unità.
I. Mingo 2016-2017
Strategie di analisi
• Nella prassi della ricerca le tecniche di AMD vengono
concatenate e possono costituire a loro volta il presupposto
per l’applicazione di altre tecniche.
• Una strategia è un processo di analisi dei dati che si avvale di
un insieme di tecniche statistiche combinate tra loro in vista
di determinati fini conoscitivi.
I. Mingo 2016-2017
Sintesi delle variabili
Ricerca di tipologie
Esempio di strategia
Matrice dati
26/05/2017
11
Tecniche multivariate di riduzione delle variabili:
L’analisi in componenti principali
I. Mingo 2016-2017
Matrice di dati: rappresentazione geometrica
Ogni riga di una matrice di dati Xnp
quantitativi può essere
rappresentata come un vettore
numerico a p dimensioni che
indica le coordinate del punto-
unità nello spazio Rp detto delle
unità
Ogni colonna di una matrice di dati
Xnp quantitativi può essere
rappresentata come un vettore
numerico a n dimensioni che
indica le coordinate del punto-
variabile nello spazio Rn detto
delle variabili
I. Mingo 2016-2017
26/05/2017
12
Glossario: Vettore e spazio vettoriale
• Il piano cartesiano è un esempio di spazio
vettoriale
• Un vettore è un punto del piano cartesiano,
determinato da una coppia di numeri reali (x, y).
• Disegnando una freccia che parte nell'origine (0, 0)
e arriva in (x, y), si ottiene il significato fisico di
vettore applicato nell'origine;
• I vettori possono essere sommati e moltiplicati per
scalari e per altri vettori.
• Analogamente nello spazio n-dimensionale un
vettore è una ennupla di numeri reali (x1, x2, …xn).
I. Mingo 2016-2017
Esempio: nuvola di punti-unità nel piano e nello spazio p dimensionale
I. Mingo 2016-2017
All’aumentare degli n vettori di
riga xi aumenta anche la
numerosità dei punti
rappresentati nella nuvola dei
punti-unità nello spazio Rp.
All’aumentare dei p vettori
colonna aumenta la numerosità
delle dimensioni dello spazio-
unità e dunque la complessità
dei dati in analisi.
n punti in R2
n punti in R3
26/05/2017
13
Glossario Baricentro e Inerzia totale
• Il baricentro di una nuvola di punti-unità è il vettore delle medie
delle variabili
• La dispersione totale della nuvola dei punti unità intorno al loro
baricentro si definisce varianza totale o inerzia totale.
• Essa può essere calcolata sommando gli elementi della diagonale
principale (traccia) della matrice di varianza e covarianza.
I. Mingo 2016-2017
L’analisi in componenti principali (ACP)
• E’ una tecnica di tipo fattoriale utile per ridurre la complessità, che si propone di sintetizzare le variabili:
– si basa sulle correlazioni esistenti tra di esse
– individua una serie di p fattori comuni o componenti, di importanza decrescente.
– Le componenti sono:
• combinazioni lineari delle variabili originarie, pertanto ne sintetizzano l’informazione
• non sono correlati tra di loro.
Esempi di applicazione:
•Quali sono le dimensioni del benessere dei comuni italiani?
• In quali componenti si possono sintetizzare le valutazioni attribuite dai cittadini alle funzioni amministrative degli enti locali ?
•In quali dimensioni possono essere sintetizzate i punteggi espressi dai clienti sulle caratteristiche di un prodotto?
I. Mingo 2016-2017
26/05/2017
14
ACP : approccio geometrico
• Geometricamente, le componenti rappresentano un nuovo
sistema di coordinate ottenuto ruotando il sistema originale
con p assi coordinati
• L’obiettivo è di sceglierne un numero q ≤ p che spiegano la
massima parte della varianza originaria.
Y2
I. Mingo 2016-2017
Nell’esempio la somma delle distanze al
quadrato dai punti alla retta Y1 è
minimizzata • Y1 è una combinazione lineare delle variabili originarie
Correlazione e riduzione
Tasso di disoccupazione
3020100
Ta
sso
di d
iso
ccu
pa
zio
ne
gio
va
nile
70
60
50
40
30
20
10
0
r=0,976
r=0,002
Le caratteristiche dei punti-unità espresse dalle
due variabili (le due dimensioni del piano
cartesiano) possono essere riassunte da una
sola dimensione (la retta) che li sintetizza.
Non è possibile individuare una retta
che riassuma le due dimensioni poiché
sono indipendenti.
I. Mingo 2016-2017
26/05/2017
15
Uso del software : la correlaizone
I. Mingo 2016-2017
Esercizio: la correlazione
Utilizzando il file qdv_esercio.sav: •Ottenere la matrice di correlazione tra alcune variabili a scelta. •Rappresentare graficamente la relazione tra due variabili che presentano un coefficiente di correlazione inferiore a 0.3 • Rappresentare graficamente la relazione tra due variabili che presentano un coefficiente di correlazione superiore a 0.7. •Rappresentare graficamente la relazione tra due variabili che presentano un coefficiente di correlazione negativo. •Osservare le differenti configurazioni dei punti.
26/05/2017
16
Analisi in Componenti Principali (ACP) : il modello
A partire da un insieme di variabili quantitative originarie:
X1, X2 ,…, Xj,…, Xp
l’ACP conduce a un insieme di variabili non osservate
Y1,Y2,…,Yq (q≤p)
tale che ciascuna i-esima componente principale Yi sarà :
Yi = wi1X1 + wi2X2 + ..... + wipXp i=1,2,…q
Dove wij sono i pesi associati ad ogni variabile per ogni componente
I. Mingo 2016-2017
ACP: calcolo della prima componente
• Si determineranno i pesi w1j della combinazione
lineare in modo da :
• rendere massima la varianza della componente
stessa:
var (Y1) = max
• e sotto la condizione che la somma dei quadrati dei
coefficienti wi1 della combinazione sia uguali a 1:
I. Mingo 2016-2017
26/05/2017
17
ACP: calcolo delle altre componenti
• La seconda componente sarà determinata con le medesime
condizioni e con quella aggiuntiva che sia non-correlata con la
prima, valga cioè la relazione:
r (Y1 Y2) = 0 -> w11 w12 + w21 w22 + …wq1 wq2 =0
• Le successive componenti principali si determinano in modo
analogo; si avrà quindi:
var (Y1) var (Y2) … var (Yq)
e
r(Ys Yk) =0 s,k tale che sk
I. Mingo 2016-2017
ACP : fasi
Fase 1
• La matrice iniziale: variabili e trasformazioni
Fase 2 • La scelta del software: elaborazione
Fase 3
• Lettura dell’output e interpretazione
I. Mingo 2016-2017
26/05/2017
18
Progettazione di una ACP
• Scelta delle variabili da analizzare:
– Le variabili devono essere quantitative.
– Si può optare per l’uso di variabili
standardizzate (scelta necessaria se si dispone
di variabili espressi in differenti unità di misura) o
non standardizzate.
Fase 1
I. Mingo 2016-2017
Esecuzione di una ACP
• Scelta del software:
• Si può fare ricorso a numerosi software statistici che
dispongono di procedure adatte all’applicazione dell’ACP:
• SPSS, SAS, STATA, SPAD, NCSI……...
Fase 2
I. Mingo 2016-2017
26/05/2017
19
Uso del software Spss : esecuzione ACP
I. Mingo 2016-2017
Lettura dell’output e interpretazione
Analisi delle variabili in input
Caratteristiche dei fattori estratti:
Numero e quote di varianza spiegata
Comunalità
Correlazioni fattori/variabili
Punteggi delle variabili
Punteggi delle unità
Rappresentazioni grafiche
Fase 3
I. Mingo 2016-2017
26/05/2017
20
Analisi delle variabili in input
I. Mingo 2016-2017
L’analisi delle statistiche descrittive monovariate precede l’applicazione della tecnica multidimensionale e consente di controllare la eventuale esistenza di dati anomali o di casi mancanti.
Test che ci consentono di stabilire se la struttura di correlazione delle variabili usate è adatta all’applicazione di una analisi di tipo fattoriale. KMO ( varia da 0-1) deve essere >0.7 e prossimo a 1. Test di Bartlett significativo (con sig < 0.05).
ACP: risultati
• La risoluzione del problema di massimo vincolato, applicato
alla matrice di correlazione R (o a quella di varianza e
covarianza S) tra le p variabili , conduce ad ogni passo a
trovare :
var (Yi) = λi (i=1,2,…q)
dove λi è l’iesimo autovalore della matrice R, pertanto
per la condizione di varianza decrescente:
λ1 > λ2 > λ3 >… λq
i coefficienti w1i, w2i,…,wq1 sono l’autovettore associato ad
ogni λi
I. Mingo 2016-2017
26/05/2017
21
Le caratteristiche dei fattori : numero e quote di varianza spiegata
I. Mingo 2016-2017
•Nell’ACP il numero dei fattori estraibili è pari al numero delle variabili (nel nostro esempio 10).
•A ciascun fattore è associato un autovalore i (eigenvalue) e una quota di varianza decrescente • i /) i (i=1,2,…q)
• Considerando soltanto alcuni fattori la varianza spiegata è inferiore a 100.
Quanti fattori considerare?
•Non esistono regole tassative, ma possono essere seguiti diversi criteri empirici:
fissare un livello minimo di percentuale cumulata di spiegazione della
varianza e considerare fattori che cumulativamente consentono di raggiungere
la soglia prefissata;
- Si potrebbe richiedere che i fattori tengano conto mediamente di almeno il 95% della
varianza di ognuna delle p variabili originarie, cioè
0,95p x 100
Al crescere del numero di variabili ci si può accontentare di una % minore
scegliere i fattori con autovalore >1 a prescindere dalla percentuale di
varianza (Kaiser) se le variabili sono standardizzate, oppure almeno pari alla
varianza media ( somma degli autovalori/ p);
rappresentare graficamente gli autovalori rispetto all’ordine di estrazione
(scree test) e collegarli con una spezzata. Si considerano rilevanti quei fattori i
cui autovalori si collocano prima del punto di flesso della spezzata (Cattel).
I. Mingo 2016-2017
26/05/2017
22
Scree test
I. Mingo 2016-2017
La bontà della riduzione: la comunalità
• Per valutare la ‘bontà’ dell’operazione, che riduce il
numero di dimensioni da p a q (ossia da 10 a 2),
possiamo fare riferimento alla comunalità di
ciascuna variabile originaria:
• Misura la percentuale di varianza di ciascuna variabile spiegata dalle
componenti estratte
I. Mingo 2016-2017
26/05/2017
23
Il significato di ogni fattore : le correlazioni con le variabili
I. Mingo 2016-2017
I coefficienti di correlazione tra ogni
fattore e le variabili originarie
consentono di attribuire alla
dimensione sintetica un “etichetta” :
• il segno del coefficiente indica il tipo
di relazione lineare diretta (+) o
inversa (-);
•L’entità del coefficiente indica la
forza della relazione.
Il grafico delle componenti
I. Mingo 2016-2017
•Se si disegna un cerchio di raggio=1, la prossimità delle variabili alla circonferenza e all’asse evidenzia la correlazione prossima a |1| . •La lontananza indica una correlazione debole.
26/05/2017
24
Esercizio ACP
• Utilizzando il file qdv_esercizio.sav, considerare le
variabili riguardanti il tenore di vita e il tempo libero.
• Applicare una ACP al fine di individuare dimensioni
sintetiche.
• Interpretare l’output ottenuto, e in particolare:
• motivare la scelta del numero di fattori
• individuare le variabili meglio e peggio
rappresentate nel nuovo sistema di riferimento
• attribuire un etichetta concettuale alle dimensioni
considerate, motivando la scelta.
I. Mingo 2016-2017
La rotazione delle componenti
• Per agevolare la interpretazione delle componenti si può
applicare una rotazione ortogonale degli assi fattoriali in modo
da minimizzare il numero di variabili che sono fortemente
correlate con ogni fattore.
• Il peso dei fattori è così distribuito più uniformemente e
l’interpretazione dei fattori è semplificata.
• Questo tipo di rotazione è denominata Varimax
I. Mingo 2016-2017
26/05/2017
25
La rotazione modifica: -l’autovalore e la % di varianza spiegata da ciascuna componente; - la matrice delle componenti
I. Mingo 2016-2017
I punteggi fattoriali
I. Mingo 2016-2017
Punteggi delle variabili sui fattori
Punteggi delle unità sui fattori
autovettori standardizzati: wij/√ij)
26/05/2017
26
ACP: i punteggi in SPSS
• Il punteggio (score) di ogni componente è definito da:
• Yi = wi1X1 + wi2X2 + ..... + wipXp
dove w ij è il peso (autovettore) della prima componente
e della iesima variabile
• Avendo imposto la condizione di normalizzazione i pesi
hanno media nulla e varianza pari all’autovalore di ogni
componente.
• Ciò riflette l’importanza di ogni componente ma presenta
lo svantaggio di non rendere direttamente comparabili le
diverse componenti.
• A tal fine si possono ricavare pesi standardizzati, con
varianza unitaria, dividendo per ogni fattore l’ autovettore
per la radice quadrata del rispettivo autovalore.
• SPSS adotta poi diverse procedure per calcolare i
punteggi delle unità statistiche sulle componenti.
• Per ogni unità statistica il punteggio sul fattore è la sua
coordinata nel nuovo sistema di riferimento (cfr. grafico
slide precedente) .
I. Mingo 2016-2017
Esercizio ACP
• Riprendendo l’applicazione ACP precedente:
• Salvare i punteggi fattoriali delle unità di analisi
• Ottenere delle graduatorie decrescenti delle unità
di analisi in base ai punteggi ottenuti.
• Ottenere un grafico fattoriale delle prime due
componenti.
• Commentare i risultati ottenuti.
I. Mingo 2016-2017
26/05/2017
27
Introduzione alla Cluster analysis Tecniche e software
Individuare tipologie….
… è uno degli scopi della classificazione
Classificare vuol dire…
• individuare differenze e somiglianze tra elementi di un insieme, distinguere - come affermava Linneo – il simile dal dissimile per rendere più chiara la nostra interpretazione della realtà
• scegliere un punto vista su cui basare tale distinzione
• Nella ricerca empirica significa osservare e rilevare le modalità assunte da una o più variabili sulla base delle quale raggruppare le unità di analisi in un numero finito di gruppi, in modo tale che le unità di un gruppo siano omogenee rispetto alle variabili considerate .
•Nelle ricerche di mercato è utile per suddividere consumatori, prodotti, servizi o contesti territoriali in sottoinsieme omogenei.
I. Mingo 2016-2017
26/05/2017
28
Tecniche automatiche per individuare tipologie:
Cluster Analysis (analisi dei gruppi – classification automatique)
La cluster analysis è un insieme di tecniche multivariate
esplorative, basate sull'assunzione che le variabili e le unità
statistiche possono essere considerate delle dimensioni del
fenomeno studiato rappresentabili su spazi geometrici.
I gruppi omogenei vengono ottenuti in modo induttivo,
automaticamente (unsupervised classification), mediante
l’applicazione di algoritmi e non con criteri soggettivi.
La classificazione a cui consente di pervenire si fonda sul
concetto di prossimità (dissimilarità / similarità ) tra le diverse
unità nello spazio, definito da un sistema di assi cartesiani
ciascuno dei quali riporta i valori assunti da una delle variabili
rilevate.
I. Mingo 2016-2017
Individuazione di tipologie Esempio
% pop. usa posta elettronica
8070605040
% p
op
. ch
e u
sa
In
tern
et
24
22
20
18
16
14
12
10
Sardegna
Sicilia
Calabria
Basilicata
Puglia
Campania
M olise
Abruzzo
LazioM arche
Umbria
Toscana
Emilia Romagna
Liguria
Friuli
Veneto
Trentino
Lombardia
Valle d'Aosta
Piemonte
Ogni regione viene rappresentata sul piano come un punto che ha come coordinate i valori assunti in ognuna delle due variabili.
Tanto più le regioni sono vicine sul piano tanto più sono simili rispetto alle due variabili considerate (es. Lombardia ed Emilia Romagna ; Valle d’Aosta-Toscana)
Tanto più le regioni sono distanti sul piano tanto più sono diverse rispetto alle due variabili considerate (es. Basilicata ed Emilia Romagna)
I gruppi omogenei si possono individuare in base alla distanza : deve essere minima all’interno di un gruppo e massima tra gruppi diversi.
I. Mingo 2016-2017
26/05/2017
29
Tipi di dati
Matrice di dati Xnp
Matrice di dissimilarità Xnn d(i, j) misura di dissimilarità tra dati
Matrice di similarità Xnn d’(i, j)=sim= misura di similarità tra dati
I. Mingo 2016-2017
Dissimilarità e distanza
• La scelta della misura di dissimilarità è fondamentale nella strategia
operativa della cluster analysis ed è condizionata dal tipo di variabili
sulla base dei quali si vuole effettuare la classificazione.
• Le misure di dissimilarità soddisfano le seguenti proprietà:
1. d (a,b)=0 se a=b (identità);
2. d(a,b) ≥ 0 se a≠ b (non negatività)
3. d(b,a)=d(a,b) (simmetria);
• se a queste tre proprietà si aggiunge anche la seguente:
d(a,c) <= d(ab)+d(bc) (diseguaglianza triangolare).
• si ottengono misure di distanza, utilizzabili per variabili quantitative .
I. Mingo 2016-2017
26/05/2017
30
Alcune distanze per variabili quantitative
– distanza euclidea (E)
– la distanza City Block (assoluta)o di Manhattan
(AB+BC)
– la distanza di Mahalanobis che considera le
varianze e covarianze tra i caratteri considerati e
consente di ottenere distanze depurate dalla
interdipendenza eventualmente presente tra le
variabili.
I. Mingo 2016-2017
B
A
E
A B
C
Matrice di distanze: esempio
Matrice delle distanze
,000 4,140 7,628 3,471 2,617 5,314 9,849 5,131 12,402 12,126 15,795
4,140 ,000 8,857 4,100 2,309 4,624 12,020 6,818 13,412 12,572 16,010
7,628 8,857 ,000 10,913 6,815 4,554 3,624 2,500 4,789 4,623 8,288
3,471 4,100 10,913 ,000 4,528 7,716 13,315 8,458 15,700 15,255 18,881
2,617 2,309 6,815 4,528 ,000 3,189 9,800 4,604 11,517 10,878 14,451
5,314 4,624 4,554 7,716 3,189 ,000 8,065 3,330 8,846 7,948 11,413
9,849 12,020 3,624 13,315 9,800 8,065 ,000 5,204 4,123 5,308 8,228
5,131 6,818 2,500 8,458 4,604 3,330 5,204 ,000 7,272 7,072 10,749
12,402 13,412 4,789 15,700 11,517 8,846 4,123 7,272 ,000 1,838 4,111
12,126 12,572 4,623 15,255 10,878 7,948 5,308 7,072 1,838 ,000 3,677
15,795 16,010 8,288 18,881 14,451 11,413 8,228 10,749 4,111 3,677 ,000
Caso
5:Veneto
6:Friuli0Venezia Giuli
7:Liguria
8:Emilia Romagna
9:Toscana
10:Umbria
11:Marche
12:Lazio
13:Abruzzo
14:Molise
15:Campania
5:Veneto
6:Friuli0Ve
nezia Giuli 7:Liguria
8:Emilia
Romagna 9:Toscana 10:Umbria 11:Marche 12:Lazio 13:Abruzzo 14:Molise 15:Campania
Distanza euclidea
Questa è una matrice di dissimilarità
Caratteristiche:
•È quadrata: gli elementi in riga sono uguali a quelli in colonna
•E’ simmetrica rispetto alla diagonale principale
•Gli elementi della diagonale principale sono uguali a 0.
I. Mingo 2016-2017
26/05/2017
31
Misure di dissimilarità e similarità per dati binari
Tabella di contingenza per coppie di dati binari:
•Coefficiente di matching semplice:
•Coefficiente di Jaccard: Le variabili categoriali possono essere trasformate in variabili binarie e si possono utilizzare queste stesse misure.
• Distanza euclidea per dati binari:
I. Mingo 2016-2017
Cluster analysis : tipi di tecniche
Cluster gerarchica aggregativa:
Utilizza algoritmi che partendo da un numero n di gruppi pari al numero dei casi, attraverso un procedimento iterativo di n-1 passaggi, conduce ad un gruppo unico in cui sono raggruppati tutti i casi originari. Genera un albero di aggregazione o dendrogramma.
Cluster analysis non gerarchica:
parte da una situazione di un numero di gruppi predeterminato a priori e giunge ad una partizione che ottimizza (utilizzando una funzione obiettivo) la suddivisione in gruppi.
conduce a un'unica partizione dei dati da analizzare, comporta pertanto ipotesi precise circa le modalità di strutturazione del collettivo statistico considerato e,a volte, la scelta delle unità intorno alle quali aggregare le altre unità del gruppo.
Si utilizza soprattutto quando le unità in analisi sono molto numerose.
Tecniche miste:
che utilizzano sia algoritmi gerarchici che non gerarchici.
I. Mingo 2016-2017
26/05/2017
32
Cluster Analysis: fasi
Fase 1
• La matrice iniziale
Fase 2
• La scelta del software e dell’algoritmo: elaborazione
Fase 3
• Lettura dell’output e interpretazione
Fase 4 • Descrizione dei gruppi ottenuti
I. Mingo 2016-2017
Progettazione di una Cluster Analysis: la matrice iniziale
• Scelta delle variabili in base alle quali raggruppare le unità
statistiche:
– Le variabili possono essere quantitative o qualitative.
– Se le variabili sono quantitative si può optare per l’uso di
variabili standardizzate o non standardizzate.
– Il tipo di variabili incide sul tipo di misura di prossimità
(similarità o dissimilarità) da utilizzare
– Il numero delle unità statistiche incide sul tipo di tecnica
(gerarchica o non gerarchica) di cluster adottabile.
Fase 1
I. Mingo 2016-2017
26/05/2017
33
Uso del software : Cluster analysis
I. Mingo 2016-2017
Fase 2
Cluster gerarchica: si possono calcolare le distanze
-Tra due unità statistiche
% pop. usa posta elettronica
8070605040
% p
op
. ch
e u
sa
In
tern
et
24
22
20
18
16
14
12
10
Sardegna
Sicilia
Calabria
Basilicata
Puglia
Campania
M olise
Abruzzo
LazioM arche
Umbria
Toscana
Emilia Romagna
Liguria
Friuli
Veneto
Trentino
Lombardia
Valle d'Aosta
Piemonte
Tra una unità ed un gruppo di unità
Tra due gruppi di unità
Si possono adottare diverse soluzioni per misurare le distanze tra gruppi di unità, considerando:
•le distanze fra le medie dei gruppi (group means)
•le distanze fra le loro unità più vicine (nearest neighbour)
•le distanze fra le loro unità più lontane (furthest neighbour)
•La media delle distanze fra tutte le unità di un gruppo e tutte quelle dell’altro (group average)
I. Mingo 2016-2017
26/05/2017
34
Cluster gerarchica : algoritmo
Matrice dati Input: N Unità x p indicatori
Matrice distanze
D=min Formazione gruppo
C=N-1 ?
si
no Un gruppo di N unità
Scelta della misura di distanza:
- tra unità
- tra gruppi
Le differenti misure di distanza tra gruppi caratterizzano diversi metodi di cluster gerarchica aggregativa
I. Mingo 2016-2017
Uso del software:cluster gerarchica
I. Mingo 2016-2017
Fase 2
26/05/2017
35
Cluster gerarchica aggregativa Alcuni metodi di raggruppamento
I. Mingo 2016-2017
Metodo del legame singolo (nearest
neighbour ) :
la distanza tra il gruppo A e il gruppo B è
la distanza minore tra le unità del gruppo A
e quelle del gruppo B.
I gruppi che si ottengono hanno forma
allungata a losanga.
Metodo del legame completo (furthest
neighbour ):
la distanza tra il gruppo A e il gruppo B è
la distanza maggiore le unità del gruppo A e
quelle del gruppo B.
I gruppi che si ottengono hanno forma
circolare.
Cluster gerarchica aggregativa Alcuni metodi di raggruppamento
Metodo legame medio fra i gruppi: considera la
media di tutte le distanze possibili tra i casi all'interno
di un cluster nuovo singolo determinato dalla
combinazione di un cluster A e di un cluster B.
Metodo della media entro i gruppi: la distanza tra il
gruppo A e il gruppo B è data dalla media aritmetica
delle distanze tra ogni unità del gruppo A e ogni unità
del gruppo B.
Metodo di Ward:
Per ogni gruppo viene calcolata la media di tutte
le variabili
Viene poi calcolata la distanza euclidea di ogni
unità dalla media del gruppo
Vengono sommati i quadrati delle distanze per
tutte le unità
Ad ogni step di aggregazione vengono fusi i
gruppi per i quali risulta minimo l'incremento della
somma dei quadrati delle distanze all'interno del
gruppo.
I. Mingo 2016-2017
26/05/2017
36
Lettura dell’output Programma di agglomerazione e dendrogramma
• Il processo di agglomerazione delle
unità indica i vari step con cui le unità
vengono aggregate in corrispondenza a
un indice di distanza che aumenta al
crescere dei passi di agglomerazione.
• Il dendrogramma rappresenta
graficamente tale processo.
I. Mingo 2016-2017
Programma di agglomerazione
Stadio Cluster accorpati
Coefficienti
Stadio di formazione del cluster Stadio
successivo Cluster 1 Cluster 2 Cluster 1 Cluster 2
d
i
m
e
n
s
i
o
n
0
1 31 42 4591,350 0 0 37
2 11 23 5464,530 0 0 30
3 29 93 7445,270 0 0 22
4 6 49 7623,230 0 0 26
5 12 16 7660,920 0 0 23
6 20 71 8499,170 0 0 38
7 77 103 8979,810 0 0 32
8 22 52 9129,370 0 0 40
9 53 81 9208,590 0 0 40
10 64 65 9628,290 0 0 20
11 1 30 9776,430 0 0 27
12 21 44 9848,570 0 0 34
13 7 69 10383,720 0 0 25
14 19 91 10597,110 0 0 33
15 48 68 11512,560 0 0 47
…. …. …. …. …. …. ….
86 14 36 94970,380 78 63 92
87 9 18 99761,677 81 62 94
88 2 3 102031,156 82 85 90
89 1 6 102913,471 77 80 91
90 2 31 114558,490 88 74 95
91 1 19 139465,534 89 84 94
92 14 55 143272,756 86 79 95
93 79 94 146681,990 0 0 97
94 1 9 183965,139 91 87 98
95 2 14 207466,536 90 92 96
96 2 15 229907,319 95 0 99
97 72 79 239277,085 0 93 101
98 1 37 266105,127 94 0 100
99 2 4 374810,001 96 0 100
100 1 2 427052,823 98 99 102
101 54 72 559967,397 0 97 102
102 1 54 1122564,349 100 101 0
Fase 3
I. Mingo 2016-2017
Tagliare un dendrogramma (albero di aggregazione)
3 gruppi
4 gruppi
5 gruppi
26/05/2017
37
Quali criteri adottare per tagliare un dendrogramma?
• Sezionare l’albero all’altezza del massimo salto tra i livelli di
distanza a cui sono avvenute le aggregazioni
– g+1 d-gd=max
• Sezionare l’albero dove si trovano i gruppi coesi, applicando test
statistici ad hoc (es: test di Beale, lambda di Wilks, ecc.)
La valutazione di un gruppo è effettuata sia riguardo alle proprietà statistiche sia in termini sostanziali, analizzando cioè le caratteristiche dei gruppi ottenuti.
I. Mingo 2016-2017
Descrizione dei gruppi
• L’intervallo di soluzioni salvato genera nella
matrice nuove variabili categoriali che indicano
per ciascuna unità statistica l’appartenenza ai
gruppi ottenuti nelle diverse soluzioni.
• Queste nuove variabili possono essere utilizzate
per descrivere mediante ulteriori analisi le
caratteristiche dei gruppi ottenuti.
I. Mingo 2016-2017
Fase 4
26/05/2017
38
Esercizio: Applicazione di una cluster gerarchica
• Utilizzando il file regioni.sav, applicare una tecnica
di Cluster gerarchica aggregativa su variabili
standardizzate.
• Ispezionare il dendrogramma
• Reiterare l’analisi salvando l’appartenenza ai gruppi
in corrispondenza della partizione ritenuta ottimale.
• Descrivere i gruppi ottenuti.
I. Mingo 2016-2017
Strategia di analisi per l’individuazione di tipologie
Scelta di una o più variabili, indicatori di un fenomeno
Individuazione di unità aventi caratteristiche simili rispetto agli indicatori considerati: tipi o gruppi omogenei [ Scelte da effettuare: tipo di cluster analysis, misure di prossimità tra unità e tra gruppi, numero di gruppi,….]
Descrizione dei gruppi sulla base degli indicatori iniziali e di altre variabili che agevolano l’interpretazione
I. Mingo 2016-2017