Metodi statistici per le ricerche di mercato...26/05/2017 3 Tabella inventario o matrice di dati...

26/05/2017

1

Metodi statistici per le ricerche di mercato

Prof.ssa Isabella Mingo A.A. 2016-2017

Facoltà di Scienze Politiche, Sociologia, Comunicazione

Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa»

Tipi di analisi dei dati

ANALISI MONOVARIATA

considera un carattere alla volta e studia come esso si distribuisce sulle unità statistiche rilevate.

Consente di pervenire ad una conoscenza più accurata dei dati.

In presenza di dati campionari, è necessaria per valutare la struttura del campione.

ANALISI BIVARIATA

studia le relazioni tra i caratteri considerando due caratteri alla volta osservati sullo stesso collettivo di unità statistiche.

ANALISI MULTIVARIATA

Studia le relazioni tra più caratteri osservati sullo stesso collettivo di unità statistiche.

26/05/2017

2

X =

X1 X2 … Xj … Xp

u1 x11 x12 … x1j … x1p

u2 x21 x22 … x2j

… x2p

… … … … … … …

ui xi1 xi2 … xij

… xip

… … … … … … …

un xn1 xn2 … xnj … Xnp

Il punto di partenza: la matrice dei dati

Insieme di informazioni, numeri o codici alfanumerici, disposte su righe e colonne. Alle righe corrisponde un insieme omogeneo I Alle colonne corrisponde un insieme omogeneo J

I. Mingo 2016-2017

Tipi di matrici di dati: Unità x Variabili

Caratteristiche:

Righe e colonne non rappresentano gli stessi elementi :

– in riga sono rappresentate le unità di analisi,

– in colonna le variabili

Insieme I= unità /Insieme J= Variabili

Esempi :

– Tabella inventario

– Matrice di dati qualitativi

– Matrice di intensità

– Matrice di ranghi

– Matrice di preferenze

– Matrice di punteggi

I. Mingo 2016-2017

26/05/2017

3

Tabella inventario o matrice di dati unità/variabili

Matrice di dati Mnp con dati di tipo misto. L’applicazione di tecniche di analisi richiede la selezione e/o la parziale trasformazione delle variabili

I. Mingo 2016-2017

Matrice di dati qualitativi

Matrice di intensità

Matrice di dati Qnp con caratteri di tipo qualitativo (nominale e/o ordinale).

Matrice di dati Inp con caratteri di tipo quantitativo (discreti e /o continui)

I. Mingo 2016-2017

26/05/2017

4

Matrice di preferenze Matrice di ranghi

Matrice di dati Pnp che contiene il rango dato da ciascuna unità statistica ai caratteri osservati in base alla propria preferenza. I valori sono espressi da 1 a p , numero di entità da valutare

Matrice di dati Rnp che contiene il rango assegnato a ciascuna unità statistica secondo l’intensità assunta su ciascuno dei caratteri osservati I valori sono espressi da 1 a n , numero di unità da ordinare.

I. Mingo 2016-2017

Matrice di punteggi

Matrice di dati Pnp che contiene valori discreti aventi un campo definito di variazione (es. 1-10; 1 -5; 0-100) indicanti, per esempio, per ciascuna unità statistica un dato punteggio o l’intensità di soddisfazione /insoddisfazione o il grado di accordo/ disaccordo)

I. Mingo 2016-2017

26/05/2017

5

Tipi di matrici di dati: Matrici Unità x Unità

Sono matrici nxn in cui l’insieme di unità I rappresentato in riga è

omogeneo rispetto a quello J rappresentato in colonna.

Gli elementi possono essere misure di similarità/dissimilarità fra

le unità statistiche oppure di intensità di flussi in matrici di

scambio

Possono essere :

• Simmetriche se gli elementi rappresentati nel triangolo

superiore alla diagonale principale sono speculari rispetto a

quelle del triangolo inferiore (es. matrici di distanze

geografiche)

• Non simmetriche : se gli elementi rappresentati nel triangolo

superiore alla diagonale principale non sono speculari rispetto

a quelle del triangolo inferiore

I. Mingo 2016-2017

Esempio di matrice unità/unità: Matrice di distanza

- Quadrata: il numero di righe è uguale al numero di colonne; esse rappresentano gli stessi elementi. - Simmetrica - La diagonale principale presenta valori nulli

I. Mingo 2016-2017

26/05/2017

6

Esempio di matrice unità/unità: Matrice di scambio

- Quadrata: il numero di righe è uguale al numero di colonne; esse rappresentano gli stessi elementi. - Non simmetrica - La diagonale principale presenta valori nulli

I. Mingo 2016-2017

Tipi di matrici di dati: Matrici Variabili x Variabili (pxp)

Sono matrici pxp in cui l’insieme di unità I rappresentato in riga è

omogeneo rispetto a quello J rappresentato in colonna.

Gli elementi possono essere variabili o modalità di variabili.

Sono matrici di questo tipo

– Matrice di varianza e covarianza: i cui elementi sono indici

di dispersione tra le p variabili considerate;

– Matrice di correlazione: i cui elementi sono indici di

correlazione tra le p variabili considerate;

I. Mingo 2016-2017

26/05/2017

7

Esempio di matrice variabili/variabili

Matrice di

varianza/covarianza Matrice di correlazione

-Quadrata

-Simmetrica

- Tutti gli elementi della diagonale principali

sono uguali a uno.

- Quadrata

- Simmetrica

- Tutti gli elementi della diagonale principali sono

uguali alla varianza di ciascuna delle p variabili.

I. Mingo 2016-2017

Introduzione all’analisi Multidimensionale

I. Mingo 2016-2017

26/05/2017

8

Che cosa è l’Analisi Multidimensionale dei Dati?

Insieme di tecniche statistiche che consentono di interpretare fenomeni complessi mediante l’analisi di grandi quantità di dati

I dati sottoposti ad analisi sono caratterizzati dall'osservazione congiunta di un insieme di p variabili su n unità statistiche

Il concetto di “dimensione” viene a volte ricondotto a quello geometrico, altre volte a quello di costrutto concettuale. In tutti i casi si adotta un approccio “multi-variato”.

Le informazioni, espresse sia in forma codificata che in linguaggio naturale, sono inserite in opportune tabelle e matrici oggetto di trattamento matematico o grafico. Lo sviluppo di queste tecniche e la loro applicazione è stata possibile grazie all’avvento degli elaboratori elettronici e si sono generalizzati con la diffusione odierna dei personal computer e di adeguati software.

I. Mingo 2016-2017

Approccio esplorativo-descrittivo

• Nella sua impostazione originaria, l‘AMD analizza le relazioni tra le

variabili sulla base degli strumenti della geometria euclidea e

dell'algebra, prescindendo da qualunque assunzione probabilistica.

• Il suo approccio è originariamente di tipo esplorativo:

– si analizzano i dati per “cogliere indizi” utili alla formulazione di

ipotesi distributive delle variabili

– si tratta simultaneamente con variabili numerose e spesso

eterogenee riguardo al loro livello di misurazione

• Le tecniche di AMD possono essere dunque considerate un

sottoinsieme di quello più ampio dell’Analisi Multivariata che

comprende anche altre tecniche di approccio non esplorativo.

I. Mingo 2016-2017

26/05/2017

9

Un’approccio tipico di AMD:

I principi della Scuola Francese dell’ Analyse des

données

1. La statistica non è calcolo delle probabilità

2. Il modello deve seguire i dati non l’inverso

3. è opportuno trattare simultaneamente informazioni

concernenti il maggior numero possibile di dimensioni

4. Per l’analisi dei fenomeni complessi è indispensabile il

computer

5. L’uso del computer implica l’abbandono di ogni tecnica

concepita prima dell’avvento del calcolo automatico (Benzècri 1973)

I. Mingo 2016-2017

AMD: classificazione delle tecniche Criterio: Metrica

Analisi metrica: adatta a variabili quantitative

Analisi non metrica: applicabile a variabili di qualsiasi scala di misura

Criterio: Simmetria

Metodi simmetrici: non evidenziano direzioni causali, le relazioni tra le variabili sono considerate bidirezionali

Metodi asimmetrici: evidenziare relazioni di dipendenza tra più sistemi di variabili. Le variabili osservate sono divise in variabili dipendenti e variabili predittive (o esplicative o indipendenti).

Criterio: Linearità

Relazioni lineari: si assume che la relazione che lega la variabile Y ad un gruppo di variabili X1, X2, …,Xk è esprimibile attraverso una funzione lineare delle variabili esplicative più un termine residuale

Relazioni non lineari: si assume che la relazione sia di altro tipo (esponenziale, logaritmica, sinusoidale, polinomiale).

I. Mingo 2016-2017

26/05/2017

10

Alcune finalità delle tecniche di AMD

Riduzione dei dati • Descrizione dei dati rilevati mediante forme semplici e compatte

analitiche e/o grafiche • Costruzione di indici sintetici

Evidenziazione strutture latenti

Raggruppamento e ricerca di tipologie • Definizione automatica di classi di unità più omogenee

Discriminazione • Identificazione delle caratteristiche che differenziano due o più

insiemi di unità.

I. Mingo 2016-2017

Strategie di analisi

• Nella prassi della ricerca le tecniche di AMD vengono

concatenate e possono costituire a loro volta il presupposto

per l’applicazione di altre tecniche.

• Una strategia è un processo di analisi dei dati che si avvale di

un insieme di tecniche statistiche combinate tra loro in vista

di determinati fini conoscitivi.

I. Mingo 2016-2017

Sintesi delle variabili

Ricerca di tipologie

Esempio di strategia

Matrice dati

26/05/2017

11

Tecniche multivariate di riduzione delle variabili:

L’analisi in componenti principali

I. Mingo 2016-2017

Matrice di dati: rappresentazione geometrica

Ogni riga di una matrice di dati Xnp

quantitativi può essere

rappresentata come un vettore

numerico a p dimensioni che

indica le coordinate del punto-

unità nello spazio Rp detto delle

unità

Ogni colonna di una matrice di dati

Xnp quantitativi può essere

rappresentata come un vettore

numerico a n dimensioni che

indica le coordinate del punto-

variabile nello spazio Rn detto

delle variabili

I. Mingo 2016-2017

26/05/2017

12

Glossario: Vettore e spazio vettoriale

• Il piano cartesiano è un esempio di spazio

vettoriale

• Un vettore è un punto del piano cartesiano,

determinato da una coppia di numeri reali (x, y).

• Disegnando una freccia che parte nell'origine (0, 0)

e arriva in (x, y), si ottiene il significato fisico di

vettore applicato nell'origine;

• I vettori possono essere sommati e moltiplicati per

scalari e per altri vettori.

• Analogamente nello spazio n-dimensionale un

vettore è una ennupla di numeri reali (x1, x2, …xn).

I. Mingo 2016-2017

Esempio: nuvola di punti-unità nel piano e nello spazio p dimensionale

I. Mingo 2016-2017

All’aumentare degli n vettori di

riga xi aumenta anche la

numerosità dei punti

rappresentati nella nuvola dei

punti-unità nello spazio Rp.

All’aumentare dei p vettori

colonna aumenta la numerosità

delle dimensioni dello spazio-

unità e dunque la complessità

dei dati in analisi.

n punti in R2

n punti in R3

26/05/2017

13

Glossario Baricentro e Inerzia totale

• Il baricentro di una nuvola di punti-unità è il vettore delle medie

delle variabili

• La dispersione totale della nuvola dei punti unità intorno al loro

baricentro si definisce varianza totale o inerzia totale.

• Essa può essere calcolata sommando gli elementi della diagonale

principale (traccia) della matrice di varianza e covarianza.

I. Mingo 2016-2017

L’analisi in componenti principali (ACP)

• E’ una tecnica di tipo fattoriale utile per ridurre la complessità, che si propone di sintetizzare le variabili:

– si basa sulle correlazioni esistenti tra di esse

– individua una serie di p fattori comuni o componenti, di importanza decrescente.

– Le componenti sono:

• combinazioni lineari delle variabili originarie, pertanto ne sintetizzano l’informazione

• non sono correlati tra di loro.

Esempi di applicazione:

•Quali sono le dimensioni del benessere dei comuni italiani?

• In quali componenti si possono sintetizzare le valutazioni attribuite dai cittadini alle funzioni amministrative degli enti locali ?

•In quali dimensioni possono essere sintetizzate i punteggi espressi dai clienti sulle caratteristiche di un prodotto?

I. Mingo 2016-2017

26/05/2017

14

ACP : approccio geometrico

• Geometricamente, le componenti rappresentano un nuovo

sistema di coordinate ottenuto ruotando il sistema originale

con p assi coordinati

• L’obiettivo è di sceglierne un numero q ≤ p che spiegano la

massima parte della varianza originaria.

Y2

I. Mingo 2016-2017

Nell’esempio la somma delle distanze al

quadrato dai punti alla retta Y1 è

minimizzata • Y1 è una combinazione lineare delle variabili originarie

Correlazione e riduzione

Tasso di disoccupazione

3020100

Ta

sso

di d

iso

ccu

pa

zio

ne

gio

va

nile

70

60

50

40

30

20

10

0

r=0,976

r=0,002

Le caratteristiche dei punti-unità espresse dalle

due variabili (le due dimensioni del piano

cartesiano) possono essere riassunte da una

sola dimensione (la retta) che li sintetizza.

Non è possibile individuare una retta

che riassuma le due dimensioni poiché

sono indipendenti.

I. Mingo 2016-2017

26/05/2017

15

Uso del software : la correlaizone

I. Mingo 2016-2017

Esercizio: la correlazione

Utilizzando il file qdv_esercio.sav: •Ottenere la matrice di correlazione tra alcune variabili a scelta. •Rappresentare graficamente la relazione tra due variabili che presentano un coefficiente di correlazione inferiore a 0.3 • Rappresentare graficamente la relazione tra due variabili che presentano un coefficiente di correlazione superiore a 0.7. •Rappresentare graficamente la relazione tra due variabili che presentano un coefficiente di correlazione negativo. •Osservare le differenti configurazioni dei punti.

26/05/2017

16

Analisi in Componenti Principali (ACP) : il modello

A partire da un insieme di variabili quantitative originarie:

X1, X2 ,…, Xj,…, Xp

l’ACP conduce a un insieme di variabili non osservate

Y1,Y2,…,Yq (q≤p)

tale che ciascuna i-esima componente principale Yi sarà :

Yi = wi1X1 + wi2X2 + ..... + wipXp i=1,2,…q

Dove wij sono i pesi associati ad ogni variabile per ogni componente

I. Mingo 2016-2017

ACP: calcolo della prima componente

• Si determineranno i pesi w1j della combinazione

lineare in modo da :

• rendere massima la varianza della componente

stessa:

var (Y1) = max

• e sotto la condizione che la somma dei quadrati dei

coefficienti wi1 della combinazione sia uguali a 1:

I. Mingo 2016-2017

26/05/2017

17

ACP: calcolo delle altre componenti

• La seconda componente sarà determinata con le medesime

condizioni e con quella aggiuntiva che sia non-correlata con la

prima, valga cioè la relazione:

r (Y1 Y2) = 0 -> w11 w12 + w21 w22 + …wq1 wq2 =0

• Le successive componenti principali si determinano in modo

analogo; si avrà quindi:

var (Y1) var (Y2) … var (Yq)

e

r(Ys Yk) =0 s,k tale che sk

I. Mingo 2016-2017

ACP : fasi

Fase 1

• La matrice iniziale: variabili e trasformazioni

Fase 2 • La scelta del software: elaborazione

Fase 3

• Lettura dell’output e interpretazione

I. Mingo 2016-2017

26/05/2017

18

Progettazione di una ACP

• Scelta delle variabili da analizzare:

– Le variabili devono essere quantitative.

– Si può optare per l’uso di variabili

standardizzate (scelta necessaria se si dispone

di variabili espressi in differenti unità di misura) o

non standardizzate.

Fase 1

I. Mingo 2016-2017

Esecuzione di una ACP

• Scelta del software:

• Si può fare ricorso a numerosi software statistici che

dispongono di procedure adatte all’applicazione dell’ACP:

• SPSS, SAS, STATA, SPAD, NCSI……...

Fase 2

I. Mingo 2016-2017

26/05/2017

19

Uso del software Spss : esecuzione ACP

I. Mingo 2016-2017

Lettura dell’output e interpretazione

Analisi delle variabili in input

Caratteristiche dei fattori estratti:

Numero e quote di varianza spiegata

Comunalità

Correlazioni fattori/variabili

Punteggi delle variabili

Punteggi delle unità

Rappresentazioni grafiche

Fase 3

I. Mingo 2016-2017

26/05/2017

20

Analisi delle variabili in input

I. Mingo 2016-2017

L’analisi delle statistiche descrittive monovariate precede l’applicazione della tecnica multidimensionale e consente di controllare la eventuale esistenza di dati anomali o di casi mancanti.

Test che ci consentono di stabilire se la struttura di correlazione delle variabili usate è adatta all’applicazione di una analisi di tipo fattoriale. KMO ( varia da 0-1) deve essere >0.7 e prossimo a 1. Test di Bartlett significativo (con sig < 0.05).

ACP: risultati

• La risoluzione del problema di massimo vincolato, applicato

alla matrice di correlazione R (o a quella di varianza e

covarianza S) tra le p variabili , conduce ad ogni passo a

trovare :

var (Yi) = λi (i=1,2,…q)

dove λi è l’iesimo autovalore della matrice R, pertanto

per la condizione di varianza decrescente:

λ1 > λ2 > λ3 >… λq

i coefficienti w1i, w2i,…,wq1 sono l’autovettore associato ad

ogni λi

I. Mingo 2016-2017

26/05/2017

21

Le caratteristiche dei fattori : numero e quote di varianza spiegata

I. Mingo 2016-2017

•Nell’ACP il numero dei fattori estraibili è pari al numero delle variabili (nel nostro esempio 10).

•A ciascun fattore è associato un autovalore i (eigenvalue) e una quota di varianza decrescente • i /) i (i=1,2,…q)

• Considerando soltanto alcuni fattori la varianza spiegata è inferiore a 100.

Quanti fattori considerare?

•Non esistono regole tassative, ma possono essere seguiti diversi criteri empirici:

fissare un livello minimo di percentuale cumulata di spiegazione della

varianza e considerare fattori che cumulativamente consentono di raggiungere

la soglia prefissata;

- Si potrebbe richiedere che i fattori tengano conto mediamente di almeno il 95% della

varianza di ognuna delle p variabili originarie, cioè

0,95p x 100

Al crescere del numero di variabili ci si può accontentare di una % minore

scegliere i fattori con autovalore >1 a prescindere dalla percentuale di

varianza (Kaiser) se le variabili sono standardizzate, oppure almeno pari alla

varianza media ( somma degli autovalori/ p);

rappresentare graficamente gli autovalori rispetto all’ordine di estrazione

(scree test) e collegarli con una spezzata. Si considerano rilevanti quei fattori i

cui autovalori si collocano prima del punto di flesso della spezzata (Cattel).

I. Mingo 2016-2017

26/05/2017

22

Scree test

I. Mingo 2016-2017

La bontà della riduzione: la comunalità

• Per valutare la ‘bontà’ dell’operazione, che riduce il

numero di dimensioni da p a q (ossia da 10 a 2),

possiamo fare riferimento alla comunalità di

ciascuna variabile originaria:

• Misura la percentuale di varianza di ciascuna variabile spiegata dalle

componenti estratte

I. Mingo 2016-2017

26/05/2017

23

Il significato di ogni fattore : le correlazioni con le variabili

I. Mingo 2016-2017

I coefficienti di correlazione tra ogni

fattore e le variabili originarie

consentono di attribuire alla

dimensione sintetica un “etichetta” :

• il segno del coefficiente indica il tipo

di relazione lineare diretta (+) o

inversa (-);

•L’entità del coefficiente indica la

forza della relazione.

Il grafico delle componenti

I. Mingo 2016-2017

•Se si disegna un cerchio di raggio=1, la prossimità delle variabili alla circonferenza e all’asse evidenzia la correlazione prossima a |1| . •La lontananza indica una correlazione debole.

26/05/2017

24

Esercizio ACP

• Utilizzando il file qdv_esercizio.sav, considerare le

variabili riguardanti il tenore di vita e il tempo libero.

• Applicare una ACP al fine di individuare dimensioni

sintetiche.

• Interpretare l’output ottenuto, e in particolare:

• motivare la scelta del numero di fattori

• individuare le variabili meglio e peggio

rappresentate nel nuovo sistema di riferimento

• attribuire un etichetta concettuale alle dimensioni

considerate, motivando la scelta.

I. Mingo 2016-2017

La rotazione delle componenti

• Per agevolare la interpretazione delle componenti si può

applicare una rotazione ortogonale degli assi fattoriali in modo

da minimizzare il numero di variabili che sono fortemente

correlate con ogni fattore.

• Il peso dei fattori è così distribuito più uniformemente e

l’interpretazione dei fattori è semplificata.

• Questo tipo di rotazione è denominata Varimax

I. Mingo 2016-2017

26/05/2017

25

La rotazione modifica: -l’autovalore e la % di varianza spiegata da ciascuna componente; - la matrice delle componenti

I. Mingo 2016-2017

I punteggi fattoriali

I. Mingo 2016-2017

Punteggi delle variabili sui fattori

Punteggi delle unità sui fattori

autovettori standardizzati: wij/√ij)

26/05/2017

26

ACP: i punteggi in SPSS

• Il punteggio (score) di ogni componente è definito da:

• Yi = wi1X1 + wi2X2 + ..... + wipXp

dove w ij è il peso (autovettore) della prima componente

e della iesima variabile

• Avendo imposto la condizione di normalizzazione i pesi

hanno media nulla e varianza pari all’autovalore di ogni

componente.

• Ciò riflette l’importanza di ogni componente ma presenta

lo svantaggio di non rendere direttamente comparabili le

diverse componenti.

• A tal fine si possono ricavare pesi standardizzati, con

varianza unitaria, dividendo per ogni fattore l’ autovettore

per la radice quadrata del rispettivo autovalore.

• SPSS adotta poi diverse procedure per calcolare i

punteggi delle unità statistiche sulle componenti.

• Per ogni unità statistica il punteggio sul fattore è la sua

coordinata nel nuovo sistema di riferimento (cfr. grafico

slide precedente) .

I. Mingo 2016-2017

Esercizio ACP

• Riprendendo l’applicazione ACP precedente:

• Salvare i punteggi fattoriali delle unità di analisi

• Ottenere delle graduatorie decrescenti delle unità

di analisi in base ai punteggi ottenuti.

• Ottenere un grafico fattoriale delle prime due

componenti.

• Commentare i risultati ottenuti.

I. Mingo 2016-2017

26/05/2017

27

Introduzione alla Cluster analysis Tecniche e software

Individuare tipologie….

… è uno degli scopi della classificazione

Classificare vuol dire…

• individuare differenze e somiglianze tra elementi di un insieme, distinguere - come affermava Linneo – il simile dal dissimile per rendere più chiara la nostra interpretazione della realtà

• scegliere un punto vista su cui basare tale distinzione

• Nella ricerca empirica significa osservare e rilevare le modalità assunte da una o più variabili sulla base delle quale raggruppare le unità di analisi in un numero finito di gruppi, in modo tale che le unità di un gruppo siano omogenee rispetto alle variabili considerate .

•Nelle ricerche di mercato è utile per suddividere consumatori, prodotti, servizi o contesti territoriali in sottoinsieme omogenei.

I. Mingo 2016-2017

26/05/2017

28

Tecniche automatiche per individuare tipologie:

Cluster Analysis (analisi dei gruppi – classification automatique)

La cluster analysis è un insieme di tecniche multivariate

esplorative, basate sull'assunzione che le variabili e le unità

statistiche possono essere considerate delle dimensioni del

fenomeno studiato rappresentabili su spazi geometrici.

I gruppi omogenei vengono ottenuti in modo induttivo,

automaticamente (unsupervised classification), mediante

l’applicazione di algoritmi e non con criteri soggettivi.

La classificazione a cui consente di pervenire si fonda sul

concetto di prossimità (dissimilarità / similarità ) tra le diverse

unità nello spazio, definito da un sistema di assi cartesiani

ciascuno dei quali riporta i valori assunti da una delle variabili

rilevate.

I. Mingo 2016-2017

Individuazione di tipologie Esempio

% pop. usa posta elettronica

8070605040

% p

op

. ch

e u

sa

In

tern

et

24

22

20

18

16

14

12

10

Sardegna

Sicilia

Calabria

Basilicata

Puglia

Campania

M olise

Abruzzo

LazioM arche

Umbria

Toscana

Emilia Romagna

Liguria

Friuli

Veneto

Trentino

Lombardia

Valle d'Aosta

Piemonte

Ogni regione viene rappresentata sul piano come un punto che ha come coordinate i valori assunti in ognuna delle due variabili.

Tanto più le regioni sono vicine sul piano tanto più sono simili rispetto alle due variabili considerate (es. Lombardia ed Emilia Romagna ; Valle d’Aosta-Toscana)

Tanto più le regioni sono distanti sul piano tanto più sono diverse rispetto alle due variabili considerate (es. Basilicata ed Emilia Romagna)

I gruppi omogenei si possono individuare in base alla distanza : deve essere minima all’interno di un gruppo e massima tra gruppi diversi.

I. Mingo 2016-2017

26/05/2017

29

Tipi di dati

Matrice di dati Xnp

Matrice di dissimilarità Xnn d(i, j) misura di dissimilarità tra dati

Matrice di similarità Xnn d’(i, j)=sim= misura di similarità tra dati

I. Mingo 2016-2017

Dissimilarità e distanza

• La scelta della misura di dissimilarità è fondamentale nella strategia

operativa della cluster analysis ed è condizionata dal tipo di variabili

sulla base dei quali si vuole effettuare la classificazione.

• Le misure di dissimilarità soddisfano le seguenti proprietà:

1. d (a,b)=0 se a=b (identità);

2. d(a,b) ≥ 0 se a≠ b (non negatività)

3. d(b,a)=d(a,b) (simmetria);

• se a queste tre proprietà si aggiunge anche la seguente:

d(a,c) <= d(ab)+d(bc) (diseguaglianza triangolare).

• si ottengono misure di distanza, utilizzabili per variabili quantitative .

I. Mingo 2016-2017

26/05/2017

30

Alcune distanze per variabili quantitative

– distanza euclidea (E)

– la distanza City Block (assoluta)o di Manhattan

(AB+BC)

– la distanza di Mahalanobis che considera le

varianze e covarianze tra i caratteri considerati e

consente di ottenere distanze depurate dalla

interdipendenza eventualmente presente tra le

variabili.

I. Mingo 2016-2017

B

A

E

A B

C

Matrice di distanze: esempio

Matrice delle distanze

,000 4,140 7,628 3,471 2,617 5,314 9,849 5,131 12,402 12,126 15,795

4,140 ,000 8,857 4,100 2,309 4,624 12,020 6,818 13,412 12,572 16,010

7,628 8,857 ,000 10,913 6,815 4,554 3,624 2,500 4,789 4,623 8,288

3,471 4,100 10,913 ,000 4,528 7,716 13,315 8,458 15,700 15,255 18,881

2,617 2,309 6,815 4,528 ,000 3,189 9,800 4,604 11,517 10,878 14,451

5,314 4,624 4,554 7,716 3,189 ,000 8,065 3,330 8,846 7,948 11,413

9,849 12,020 3,624 13,315 9,800 8,065 ,000 5,204 4,123 5,308 8,228

5,131 6,818 2,500 8,458 4,604 3,330 5,204 ,000 7,272 7,072 10,749

12,402 13,412 4,789 15,700 11,517 8,846 4,123 7,272 ,000 1,838 4,111

12,126 12,572 4,623 15,255 10,878 7,948 5,308 7,072 1,838 ,000 3,677

15,795 16,010 8,288 18,881 14,451 11,413 8,228 10,749 4,111 3,677 ,000

Caso

5:Veneto

6:Friuli0Venezia Giuli

7:Liguria

8:Emilia Romagna

9:Toscana

10:Umbria

11:Marche

12:Lazio

13:Abruzzo

14:Molise

15:Campania

5:Veneto

6:Friuli0Ve

nezia Giuli 7:Liguria

8:Emilia

Romagna 9:Toscana 10:Umbria 11:Marche 12:Lazio 13:Abruzzo 14:Molise 15:Campania

Distanza euclidea

Questa è una matrice di dissimilarità

Caratteristiche:

•È quadrata: gli elementi in riga sono uguali a quelli in colonna

•E’ simmetrica rispetto alla diagonale principale

•Gli elementi della diagonale principale sono uguali a 0.

I. Mingo 2016-2017

26/05/2017

31

Misure di dissimilarità e similarità per dati binari

Tabella di contingenza per coppie di dati binari:

•Coefficiente di matching semplice:

•Coefficiente di Jaccard: Le variabili categoriali possono essere trasformate in variabili binarie e si possono utilizzare queste stesse misure.

• Distanza euclidea per dati binari:

I. Mingo 2016-2017

Cluster analysis : tipi di tecniche

Cluster gerarchica aggregativa:

Utilizza algoritmi che partendo da un numero n di gruppi pari al numero dei casi, attraverso un procedimento iterativo di n-1 passaggi, conduce ad un gruppo unico in cui sono raggruppati tutti i casi originari. Genera un albero di aggregazione o dendrogramma.

Cluster analysis non gerarchica:

parte da una situazione di un numero di gruppi predeterminato a priori e giunge ad una partizione che ottimizza (utilizzando una funzione obiettivo) la suddivisione in gruppi.

conduce a un'unica partizione dei dati da analizzare, comporta pertanto ipotesi precise circa le modalità di strutturazione del collettivo statistico considerato e,a volte, la scelta delle unità intorno alle quali aggregare le altre unità del gruppo.

Si utilizza soprattutto quando le unità in analisi sono molto numerose.

Tecniche miste:

che utilizzano sia algoritmi gerarchici che non gerarchici.

I. Mingo 2016-2017

26/05/2017

32

Cluster Analysis: fasi

Fase 1

• La matrice iniziale

Fase 2

• La scelta del software e dell’algoritmo: elaborazione

Fase 3

• Lettura dell’output e interpretazione

Fase 4 • Descrizione dei gruppi ottenuti

I. Mingo 2016-2017

Progettazione di una Cluster Analysis: la matrice iniziale

• Scelta delle variabili in base alle quali raggruppare le unità

statistiche:

– Le variabili possono essere quantitative o qualitative.

– Se le variabili sono quantitative si può optare per l’uso di

variabili standardizzate o non standardizzate.

– Il tipo di variabili incide sul tipo di misura di prossimità

(similarità o dissimilarità) da utilizzare

– Il numero delle unità statistiche incide sul tipo di tecnica

(gerarchica o non gerarchica) di cluster adottabile.

Fase 1

I. Mingo 2016-2017

26/05/2017

33

Uso del software : Cluster analysis

I. Mingo 2016-2017

Fase 2

Cluster gerarchica: si possono calcolare le distanze

-Tra due unità statistiche

% pop. usa posta elettronica

8070605040

% p

op

. ch

e u

sa

In

tern

et

24

22

20

18

16

14

12

10

Sardegna

Sicilia

Calabria

Basilicata

Puglia

Campania

M olise

Abruzzo

LazioM arche

Umbria

Toscana

Emilia Romagna

Liguria

Friuli

Veneto

Trentino

Lombardia

Valle d'Aosta

Piemonte

Tra una unità ed un gruppo di unità

Tra due gruppi di unità

Si possono adottare diverse soluzioni per misurare le distanze tra gruppi di unità, considerando:

•le distanze fra le medie dei gruppi (group means)

•le distanze fra le loro unità più vicine (nearest neighbour)

•le distanze fra le loro unità più lontane (furthest neighbour)

•La media delle distanze fra tutte le unità di un gruppo e tutte quelle dell’altro (group average)

I. Mingo 2016-2017

26/05/2017

34

Cluster gerarchica : algoritmo

Matrice dati Input: N Unità x p indicatori

Matrice distanze

D=min Formazione gruppo

C=N-1 ?

si

no Un gruppo di N unità

Scelta della misura di distanza:

- tra unità

- tra gruppi

Le differenti misure di distanza tra gruppi caratterizzano diversi metodi di cluster gerarchica aggregativa

I. Mingo 2016-2017

Uso del software:cluster gerarchica

I. Mingo 2016-2017

Fase 2

26/05/2017

35

Cluster gerarchica aggregativa Alcuni metodi di raggruppamento

I. Mingo 2016-2017

Metodo del legame singolo (nearest

neighbour ) :

la distanza tra il gruppo A e il gruppo B è

la distanza minore tra le unità del gruppo A

e quelle del gruppo B.

I gruppi che si ottengono hanno forma

allungata a losanga.

Metodo del legame completo (furthest

neighbour ):

la distanza tra il gruppo A e il gruppo B è

la distanza maggiore le unità del gruppo A e

quelle del gruppo B.

I gruppi che si ottengono hanno forma

circolare.

Cluster gerarchica aggregativa Alcuni metodi di raggruppamento

Metodo legame medio fra i gruppi: considera la

media di tutte le distanze possibili tra i casi all'interno

di un cluster nuovo singolo determinato dalla

combinazione di un cluster A e di un cluster B.

Metodo della media entro i gruppi: la distanza tra il

gruppo A e il gruppo B è data dalla media aritmetica

delle distanze tra ogni unità del gruppo A e ogni unità

del gruppo B.

Metodo di Ward:

Per ogni gruppo viene calcolata la media di tutte

le variabili

Viene poi calcolata la distanza euclidea di ogni

unità dalla media del gruppo

Vengono sommati i quadrati delle distanze per

tutte le unità

Ad ogni step di aggregazione vengono fusi i

gruppi per i quali risulta minimo l'incremento della

somma dei quadrati delle distanze all'interno del

gruppo.

I. Mingo 2016-2017

26/05/2017

36

Lettura dell’output Programma di agglomerazione e dendrogramma

• Il processo di agglomerazione delle

unità indica i vari step con cui le unità

vengono aggregate in corrispondenza a

un indice di distanza che aumenta al

crescere dei passi di agglomerazione.

• Il dendrogramma rappresenta

graficamente tale processo.

I. Mingo 2016-2017

Programma di agglomerazione

Stadio Cluster accorpati

Coefficienti

Stadio di formazione del cluster Stadio

successivo Cluster 1 Cluster 2 Cluster 1 Cluster 2

d

i

m

e

n

s

i

o

n

0

1 31 42 4591,350 0 0 37

2 11 23 5464,530 0 0 30

3 29 93 7445,270 0 0 22

4 6 49 7623,230 0 0 26

5 12 16 7660,920 0 0 23

6 20 71 8499,170 0 0 38

7 77 103 8979,810 0 0 32

8 22 52 9129,370 0 0 40

9 53 81 9208,590 0 0 40

10 64 65 9628,290 0 0 20

11 1 30 9776,430 0 0 27

12 21 44 9848,570 0 0 34

13 7 69 10383,720 0 0 25

14 19 91 10597,110 0 0 33

15 48 68 11512,560 0 0 47

…. …. …. …. …. …. ….

86 14 36 94970,380 78 63 92

87 9 18 99761,677 81 62 94

88 2 3 102031,156 82 85 90

89 1 6 102913,471 77 80 91

90 2 31 114558,490 88 74 95

91 1 19 139465,534 89 84 94

92 14 55 143272,756 86 79 95

93 79 94 146681,990 0 0 97

94 1 9 183965,139 91 87 98

95 2 14 207466,536 90 92 96

96 2 15 229907,319 95 0 99

97 72 79 239277,085 0 93 101

98 1 37 266105,127 94 0 100

99 2 4 374810,001 96 0 100

100 1 2 427052,823 98 99 102

101 54 72 559967,397 0 97 102

102 1 54 1122564,349 100 101 0

Fase 3

I. Mingo 2016-2017

Tagliare un dendrogramma (albero di aggregazione)

3 gruppi

4 gruppi

5 gruppi

26/05/2017

37

Quali criteri adottare per tagliare un dendrogramma?

• Sezionare l’albero all’altezza del massimo salto tra i livelli di

distanza a cui sono avvenute le aggregazioni

– g+1 d-gd=max

• Sezionare l’albero dove si trovano i gruppi coesi, applicando test

statistici ad hoc (es: test di Beale, lambda di Wilks, ecc.)

La valutazione di un gruppo è effettuata sia riguardo alle proprietà statistiche sia in termini sostanziali, analizzando cioè le caratteristiche dei gruppi ottenuti.

I. Mingo 2016-2017

Descrizione dei gruppi

• L’intervallo di soluzioni salvato genera nella

matrice nuove variabili categoriali che indicano

per ciascuna unità statistica l’appartenenza ai

gruppi ottenuti nelle diverse soluzioni.

• Queste nuove variabili possono essere utilizzate

per descrivere mediante ulteriori analisi le

caratteristiche dei gruppi ottenuti.

I. Mingo 2016-2017

Fase 4

26/05/2017

38

Esercizio: Applicazione di una cluster gerarchica

• Utilizzando il file regioni.sav, applicare una tecnica

di Cluster gerarchica aggregativa su variabili

standardizzate.

• Ispezionare il dendrogramma

• Reiterare l’analisi salvando l’appartenenza ai gruppi

in corrispondenza della partizione ritenuta ottimale.

• Descrivere i gruppi ottenuti.

I. Mingo 2016-2017

Strategia di analisi per l’individuazione di tipologie

Scelta di una o più variabili, indicatori di un fenomeno

Individuazione di unità aventi caratteristiche simili rispetto agli indicatori considerati: tipi o gruppi omogenei [ Scelte da effettuare: tipo di cluster analysis, misure di prossimità tra unità e tra gruppi, numero di gruppi,….]

Descrizione dei gruppi sulla base degli indicatori iniziali e di altre variabili che agevolano l’interpretazione

I. Mingo 2016-2017

Metodi statistici per le ricerche di mercato...26/05/2017 3 Tabella inventario o matrice di dati...

Documents

Transcript of Metodi statistici per le ricerche di mercato...26/05/2017 3 Tabella inventario o matrice di dati...