1/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente,...

1/80Copyright © 2009 – The McGraw-Hill Companies srl

Statistica aziendaleBruno Bracalente, Massimo Cossignani, Anna Mulas

Capitolo 3 e par. 5.1

La matrice dei dati e le analisi preliminari

I metodi di classificazione

La matrice dei dati

Qualità dei dati e mancate risposte parziali

Analisi sui profili di colonna

Analisi sui profili di riga

Analisi dei gruppi



La matrice dei dati

TabellaTabella contenente le informazioni disponibili relativamente ad un insieme di unità statistiche

Ciascuna riga della matrice contiene le informazioni relative ad una determinata unità Ciascuna colonna contiene le modalità assunte da un determinato carattere nelle diverse unità



La matrice dei dati

npnjnhnn

rprjrhrr

ipijihii

pjh

pjh

xxxxx

xxxxx

xxxxx

xxxxx

xxxxx

.........

...

.........

...

.........

...

.........

.........

21

21

21

2222221

1111211

X



La matrice dei dati

I carattericaratteri che figurano nella matrice possono essere: - qualitativi (in scala nominale o in scala ordinale) - quantitativi (in scala ad intervalli o in scala di

rapporti) Spesso la matrice contiene variabili miste, alcunequalitative e altre quantitative

Le unitàunità possono pure essere di varia natura. Esempi: - le singole imprese di un campione (caso di studio) - i singoli consumatori di un prodotto - i singoli prodotti o stabilimenti di una azienda



La matrice dei dati

La matrice dei dati può derivare da:- rilevazioni primarie (indagini campionarie)- fonti secondarie - interne (dati aziendali) - esterne (fonti statistiche ufficiali o non ufficiali)

Principali problemi di qualità: - presenza di valori erratierrati - valori mancantimancanti



I valori errati

Possono essere segnalatisegnalati da:

- valori fuori dominio (non appartenenti all’insieme dei valori ammissibili) - valori anomali o outliers (valori che si discostano molto da quelli assunti nella maggior parte delle altre unità) - valori incompatibili (contraddittori con altre risposte)

Possono essere individuatiindividuati, rispettivamente, attraverso: - controlli di validità o di range - controlli per gli outlier - controlli di consistenza

Una volta individuati, i valori errati possono essere - corretti attraverso una nuova rilevazione - considerati come valori mancanti



Le mancate risposte parziali

Mancanza di uno o più dati: - nelle indagini campionarie mancate risposte ad uno o più quesiti

Le possibili soluzioni:possibili soluzioni:1. Utilizzare soltanto il sottoinsieme di unità senza dati

mancanti riduzione numerosità; possibili distorsioni

2. Utilizzare diversi sottoinsiemi (completi) di unità per le diverse analisi (univariate, bivariate, multivariate)

numerosità diverse per le diverse analisi Assegnare al dato mancante un valore plausibile

(imputazione)



Tecniche di imputazione

Diverse tecniche di imputazione 1. Imputazione di un valore medio:valore medio: media aritmetica o mediana (per i caratteri quantitativi o qualitativi ordinali),

moda (per i caratteri qualitativi sconnessi) calcolate: a - sul complesso delle unità b - o su un sottoinsieme più omogeneo

Conseguenza indesiderata: riduce la variabilità (in particolare nel caso a)

2. Imputazione con prelievo da donatoreprelievo da donatore: invece del valore medio si imputa un valore individuale, “donato” da una unità il più possibile simile in base alle altre caratteristiche (indici di similarità o distanza: vedi oltre)




3. Imputazione da modelloda modello In base alla relazione empirica tra la variabile con dati mancanti e una o più variabili esplicative (con dati presenti) Passi: - scelta variabili esplicative di quella con dati mancanti - stima dei parametri di un modello di regressione sui dati presenti nella matrice Regressione (semplice): Modello teorico Modello stimato

- assegnazione del valore predetto dal modello in base ai valori assunti dalla variabile esplicativa nella unità i con dato mancante:

( 1,..., )i i iY X u i n Y a bX

i iY a bX




4. Imputazione stocasticastocastica assegnazione al dato mancante di un valore estratto casualmente da una distribuzione ritenuta plausibile

Limite: distribuzioni teoriche diverse per diverse variabili, da identificare di volta in volta

Semplificazione: estrazione casuale di una unità per ogni dato mancante dalla distribuzione empirica della caratteristica



Le analisi sui profili di colonna

Analisi bivariatebivariate: studio dell’associazione esistente tra le diverse coppie di variabiliSi ottiene una matrice di associazione (p x p):

pppjphpp

jpjjjhjj

hphjhhhh

pjh

pjh

aaaaa

aaaaa

aaaaa

aaaaa

aaaaa

A

.........

...

.........

...

.........

...

.........

.........

21

21

21

2222221

1111211

L’indice con cui misurare l’associazione dipende dal tipo di variabili presenti nella matrice dei dati

Analisi univariate (es: medie, varianze), bivariate (es: correlazione), multivariate (es: regressione multipla)



Variabili quantitative

La covarianza:covarianza:

n

xxxxs

n

ijijhhi

hj

1

))((

Indica se tra le due variabili esiste: concordanza (segno positivo: se prevalgono prodotti di segno +)

discordanza (segno negativo: se prevalgono prodotti di segno -)

Indipendenza lineare (valore nullo)Limite: i valori assunti dalle covarianze dipendono dalle scale di misura dei caratteri non sono direttamente confrontabili



Le variabili quantitative

Per ovviare al problema della confrontabilità

Coefficiente di correlazione lineare di Bravais-Pearson:Coefficiente di correlazione lineare di Bravais-Pearson:(covarianza diviso il prodotto delle due deviazioni standard)

Il coefficiente di correlazione lineare: • assume lo stesso segno della covarianza• è compreso tra –1 e 1

;hjhj

h j

sr

1

2 2

1 1

1( )( )

1 1( ) ( )

n

ih h ij ji

hj n n

ih h ij ji i

x x x xn

r

x x x xn n




Esempio

Unità Xh Xj scarti Xh scarti Xj prodotti scarti2 Xh scarti2 Xj

1 1.3 0.7 -0.3 -0.1 0.03 0.09 0.01

2 1.6 0.9 0 0.1 0 0 0.01

3 1.8 0.8 0.2 0 0 0.04 0

4 1.4 0.7 -0.2 -0.1 0.02 0.04 0.01

5 1.9 0.9 0.3 0.1 0.03 0.09 0.01

somme 8 4 0 0 0.08 0.26 0.04

medie 1.6 0.8 0.052 0.008

Cov = 0.016

dev. st. 0.228 0.089

Cor = 0.784




MatriceMatrice (p x p) delle correlazionidelle correlazioni

simmetrica

sulla diagonale valori unitari:

pppjphpp

jpjjjhjj

hphjhhhh

pjh

pjh

rrrrr

rrrrr

rrrrr

rrrrr

rrrrr

R

.........

...

.........

...

.........

...

.........

.........

21

21

21

2222221

1111211

1hh

hhhh

sr



Le analisi sui profili di riga

Obiettivo: misurare la distanzadistanza (differenza) o la similaritàsimilarità tra coppie di unità, in relazione alle caratteristiche osservate

Si ottiene una matrice delle distanzematrice delle distanze D (n x n)

nnnrninn

rnrrrirr

iniriiii

nri

nri

ddddd

ddddd

ddddd

ddddd

ddddd

D

.........

...

.........

...

.........

...

.........

.........

21

21

21

2222221

1111211

L’indice con cui misurare la distanza dipende dal tipo di variabili presenti nella matrice dei dati



Le analisi sui profili di riga

Valori non negativi: dir ≥ 0

Valori sulla diagonale pari a zero: dii = 0

Simmetria: dir = dri

Diseguaglianza triangolare: dir ≤ dis + dsr

Misura di distanza definita in uno spazio metrico

In corrispondenza a ogni indice di distanzaindice di distanza può essere definito un indice diindice di similaritàsimilarità:

cir = 1- dir



Indici di distanza

Indici specifici per ogni tipologia di variabili:

- qualitative (sconnesse politomiche o dicotomiche)

- quantitative (o qualitative ordinali)

Un indice generale per variabili miste

La presenza di variabili miste è la norma, in particolare nelle matrici di dati derivanti da indagini campionarie



Indici di distanza

Esempi dall’indagine Efige: - qualitative dicotomiche: export (si, no); ide; innovazione - qualitative sconnesse: destinazione export (UE, Asia, USA, …) finanziamento investimenti (autofin, venture cap, cred. banc.…)- qualitative ordinali: export prima 2008 (regolarmente, qualche volta, mai) dipendenza da finanziamenti esterni (1 non dip -> 5 molto dip) - quantitative: n. dipendenti; valori e indici di bilancio; % fatturato esportato



Variabili qualitative sconnesse politomiche

Indice di distanza di SneathIndice di distanza di SneathDistanza misurata sulla base di p caratteri qualitativi

sconnessiPer il generico carattere k si pone:

dir,k = 1 se xik xrk

dir,k = 0 se xik = xrk,

1

p

ir kk

ir

dd

p

- E’ dato dalla frequenza relativa dei caratteri per i quali le unità i ed r presentano modalità diverse - Di conseguenza: compreso tra 0 e 1

Misurazione su scala nominaleConfronto ammissibile tra due unità: se sono uguali o diverse rispetto al carattere considerato



Variabili qualitative sconnesse politomiche - EsempioDistanza o similarità tra coppie di aziende esportatrici in relazione ai caratteri: forma giuridica; settore di attività; area di esportazione

Aziende Forma giuridica

Settore Area export

1 SPA Meccanica

Asia

2 SPA Tessile Europa

3 SNC Tessile Europa

4 SRL Meccanica

USA

Indice di distanza tra le aziende 1 e 2:

d12,1=0; d12,2=1; d12,3=1 d12= (0+1+1)/3 =0.66 [c12 = 1-d12=0.33]

Indice di distanza tra le aziende 2 e 3:

d23,1=1; d23,2=0; d23,3=0 d23=(1+0+0)/3 =0.33 [c23 = 1-d23 =0.66]



Variabili dicotomiche

Misurazione su scala nominaleConfronto ammissibile: come nel caso di caratteri sconnessi politomici (se le modalità sono uguali o diverse nelle due unità) si può utilizzare lo stesso indice (di Sneat)

Aziende

Deloc. Invest. Innov. Assunz.

1 No Sì No No

2 Sì No Sì Sì

3 Sì No No Sì

4 No Sì No No

Esempio:Distanza tra coppie di aziende per le quali è stato rilevato:- se hanno delocalizzato oppure no- se hanno fatto investimenti oppure no- se hanno apportato innovazioni oppure no- se hanno fatto assunzioni oppure no

d12 = (1+1+1+1)/4 = 1

d23 = (0+0+1+0)/4 = 0.25



Variabili politomiche e dicotomiche

Esempio: Politomiche Dicotomiche

Az.

Forma giur. Sett.

Areaexport Del Inv Inn Ass

1 SpA Mec Asia NO SI NO NO

2 SpA Tes Europa SI NO SI SI

Indice di distanza (di Sneat) tra le aziende 1 e 2:d12= (0+1+1+1+1+1+1)/7 = 0.86 [c12 = 1-d12=0.14]

L’indice di SneatSneat consente di misurare la distanza anche quando tra le p variabili qualitative considerate ve ne sono alcune sconnesse politomiche e altre dicotomiche



Variabili qualitative dicotomiche

Nel caso di sole variabili dicotomiche si possono calcolare diversi indici di distanza:

Simple matching

Jaccard

(Altri)




Nella matrice dei dati, per ognuno dei p caratteri dicotomici:

valore 1 (presenza) valore 0 (assenza)

Aziende


1 No (0) Sì (1) No (0) No (0)

2 Sì (1) No (0) Sì (1) Sì (1)

3 Sì (1) No (0) No (0) Sì (1)

4 No (0) Sì (1) No (0) No (0)I diversi indici derivano dalla classificazione dei p caratteri nella seguente tabella di contingenza (per la coppia di unità i ed r): unità i

1 0unità r 1 a b

0 c d

a = numero di caratteri presenti in entrambe le unitàb = numero di caratteri presenti in r ma assenti in ic = numero di caratteri assenti in r ma presenti in id = numero di caratteri assenti in entrambe le unità(a + b + c + d = p)




Az. 2Az.3

1 0

1 2 0

0 1 1

Aziende


1 No (0) Sì (1) No (0) No (0)

2 Sì (1) No (0) Sì (1) Sì (1)

3 Sì (1) No (0) No (0) Sì (1)

4 No (0) Sì (1) No (0) No (0)

Esempio




Indice Simple matchingIndice Simple matching ::

p

cbdir

Frequenza relativa degli attributi presenti in una unità e assenti nell’altra

Come indice di Sneath: frequenza relativa dei caratteri per i quali le unità i ed r presentano modalità diverse

Az. 2Az.3

1 0

1 2 0

0 1 1

unità i 1 0

unità r 1 a b0 c d

Simple matching:

d23 = 1/4 = 0.25

Esempio:




cba

cbdir

Indice di Indice di Jaccard:Jaccard:

Esclude d dal denominatore: si assume che l’assenza in entrambe le unità non indichi similarità

unità i 1 0

unità r 1 a b0 c d

Az. 2Az.3

1 0

1 2 0

0 1 1

Jaccard:

d23 = 1/3 = 0.33

Esempio:



Variabili qualitative ordinali

Due possibilità:a) Trasformare le variabili in quantitative Si attribuisce un punteggio crescente (1, 2, 3, …) al

crescere della misurazione ordinale e si utilizza un indice di distanza per dati quantitativi (vedi oltre) LimiteLimite:: si introducono elementi di arbitrarietà (si assume costante la differenza tra due modalità contigue) b) Considerare la misurazione su scala nominale Si considerano le variabili come qualitative politomiche e si utilizza l’indice di Sneath LimiteLimite:: notevole perdita di informazione Meglio soluzione a)

Misurazione su scala ordinaleConfronto ammissibile tra due unità: se l’una presenta modalità maggiore o minore dell’altra secondo il carattere considerato




Misure di distanza fondate sulle differenze tra i valori assuntidalle modalità di tutti i caratteri nelle due unità

Misurazione su scala di rapporti o di intervalli Confronto ammissibile: rapporto o differenza tra i valori assunti dal carattere in due diverse unità

1

1

p

krkikir xxd

Diversi indici derivanti da un indice generale: la distanza di Minkoskidistanza di Minkoski

dove il parametro λ è una sorta di peso assegnato alledifferenze maggiori




Per λ = 2Distanza euclidea:Distanza euclidea:

1

1

p

krkikir xxd

2/1

1

2

p

krkikir xxd

Distanza di Distanza di Minkoski:Minkoski:

Per λ = 1 Distanza di Distanza di Manhattam:Manhattam: (o della città a blocchi)

1

p

ir ik rkk

d x x

Per λ -> Distanza di Lagrange-Distanza di Lagrange-Tchebychev:Tchebychev:

maxir ik rkd x x




Esempio: distanze tra due aziende in relazione ad alcuni indici di bilancio

Aziende ROI ROS ROE Indeb

1 7.2 5.7 8.2 25.3

2 5.2 1.2 2.0 11.7

|xik – xrk| 2.0 4.5 6.2 13.6

(xik – xrk)2 4.0 20.2 38.4 185.0

max |xik – xrk| 13.6




Problemi degli indici di distanza per variabili quantitative:

1. Problema della scala – sommate differenze relative a caratteri misurati in unità di misura diverse

Una soluzione è trasformare le variabili originarie in variabili standardizzate

Per la generica variabile Xk :

ik kik

k

x xz

(numeri puri, media 0 e varianza unitaria)




max( )ik

ikk

xz

x

Un’altra possibilità è rapportare i valori assunti nelle diverse unità al valore massimo della distribuzione:

Un’altra soluzione nell’indice di distanza per variabili miste (vedi oltre)

Az ROI Eta’ Prod. % Exp

ROI Età Prod. % Exp

1 7.2 65 48.2 65.3 0.387 0.722 0.230 0.653

2 5.2 20 91.5 42.7 0.280 0.222 0.436 0.427

… …. … … …

n 2.0 42 42.1 28.5

Val. max

18.6 90 210 100

Variabili standardizzate Esempio: Variabili originarie (rapportare al max)




2. Correlazione tra le variabili – uno stesso fenomeno misurato tramite più variabili viene implicitamente pesato di più nella misura della distanza

Aziende ROI ROE ROS Indeb.

1 7.2 8.2 5.7 25.3

2 5.2 2.0 1.2 11.7

(xik – xrk)2 4.0 38.4 20.2 185.0Distanza Euclidea:

d12 = 15.7

Esempio:

Ma:- redditività misurata con tre indici, forse correlati tra loro- situazione finanziaria misurata con un solo indice




Una soluzione al problema della correlazione tra variabili:

Distanza euclidea ponderata:Distanza euclidea ponderata:

dove wk : coefficiente di ponderazione della k-esima variabile (tanto minore quanto più la variabile è correlata con le altre p-1)

2/1

1

2)(

p

kkrkikir wxxd

Ad esempio 1/R2 da regressioni multiple (Cap 4)



Variabili miste

dir,k : misura di distanza tra le unità i e r in relazione al k-esimo attributo (misura diversa a seconda della tipologia di carattere, ma sempre compresa tra 0 e 1)

p

kkir

p

kkir

ir

dd

1,

1,

,

,

0

1 ir k

ir k

confronto non ammissibile (principalmente dati mancanti)

tutti gli altri casi

Misurazione su scale diverseConfronti ammissibili a seconda della scala di misurazione

Media di indici di distanza relativi alle diverse variabili qualitative e quantitative

Indice di distanza di GowerIndice di distanza di Gower



Variabili miste

Caratteri qualitativi ordinali:

si trasformano le variabili in quantitative attribuendopunteggi crescenti al crescere delle modalità del

carattere e ci si riconduce al caso dei caratteri quantitativi

)(, kRange

xxd rkik

kir

Caratteri quantitativi:

Dividere per il range è un modo per eliminare l’effetto delle diverse unità di misura delle variabili: - il rapporto che definisce dir,k (differenza su massimo della differenza) sarà sempre compreso tra zero e uno- corrisponde alla standardizzazione dividendo per il massimo, se si assume il minimo pari a zero [Range (k) = max xk – min xk]

Range(k): campo di variazione della variabile k



Variabili miste

Caratteri qualitativi sconnessi politomici:

Indice di distanza di Sneathdir,k = 1 se i e r presentano modalità diverse del carattere kdir,k = 0 se presentano modalità uguale Caratteri qualitativi sconnessi dicotomici:

Indice di Jaccarddir,k = 1 se i e r presentano modalità diverse del carattere kdir,k = 0 se presentano modalità uguale

,

,

0

1 ir k

ir k

confronto non ammissibile (dati mancanti, assenza-assenza)




Variabili miste - Esempio

Aziende ROI Indeb. Aspettative produzione

Settore Export

1 7.1 25.3 Stazionaria (0) Mecc. Si (1)

2 5.1 11.7 Aumento (1) Alim. No (0)

3 7.6 10.3 Forte aumento (2)

Alim. Si (1)

4 2.6 18.9 Forte diminuz. (-2)

Tess. No (0)

13

7.1 7.6 25.3 10.3 0 21 0 / 5 2.6 / 5 0.52

5 15 4d



Variabili miste

Indice di Gower modificato:

Per i casi in cui nei caratteri dicotomici l’assenza del fenomeno in entrambe le unità è interpretabile come similitudine Caratteri qualitativi sconnessi dicotomici:

Indice Simple matching (Sneath)dir,k = 1 se i e r presentano modalità diverse del carattere kdir,k = 0 se presentano modalità uguale

,

,

0

1 ir k

ir k

confronto non ammissibile in caso di dati mancanti




Analisi dei gruppi

Obiettivi:Obiettivi: - raggruppare un insieme di unità in un certo numero di gruppi sulla base delle loro similarità

Possibili applicazioni nelle analisi aziendali:

- segmentazione del mercato, segmentazione per omogeneità dei consumatori offerta di prodotti differenziati o strategie di marketing specifiche per le diverse tipologie di consumatori

- ridurre la dimensionalità di una matrice dei dati X nel senso delle righe attraverso l’individuazione di righe (unità) simili

- classificazione di un insieme di aziende concorrenti in un numero ridotto di tipologie ai fini di una analisi di posizionamento sulla base di una pluralità di indicatori



Analisi dei gruppi

I dati di partenza:I dati di partenza: - la matrice delle distanze D (n x n) - in alcuni casi la matrice dei dati X (n x p)

- gerarchici (MG):gerarchici (MG): raggruppamento ottenuto per passaggi successivi - agglomerativi (MGA): aggregazioni successive (in un numero sempre minore di gruppi)

- divisivi (MGD): divisioni successive (in un numero sempre maggiore di gruppi) - non gerarchici (MNG):non gerarchici (MNG):

raggruppamento direttamente in un numero prefissato di gruppi

Di norma: qualitative, quantitative, miste

Per alcuni metodi:solo quantitative

Le tipologie di variabili:

solo quantitative

I metodi di raggruppamento:I metodi di raggruppamento:



Metodi gerarchici agglomerativi

Procedono per agglomerazioni successive delle unità Prendono come input la matrice delle distanze D (n x n)

Step:

Punto di partenza: n gruppi, ognuno formato da una unità

Si identificano le due unità più simili (minimo valore nella matrice delle distanze, esclusa la diagonale)

0

0

.........

...0

...0

,1

223

11312

nn

n

n

d

dd

ddd

D




3. Si fondono le due unità in un gruppo, eliminandole dalla matrice delle distanze, che diventa: Dn-2,n-2

4. Si aggiunge una nuova riga e una nuova colonna con le distanze tra il nuovo gruppo e tutte le altre unità, ottenendo Dn-1,n-1

Si torna ad eseguire lo step 2 e i seguenti in modo iterativo, riducendo la matrice D di una unità ad ogni iterazione

(fermandosi prima della soluzione - finale e inutile - costituita da un solo gruppo composto da tutte le unità)

Due questioni aperte:- Come eseguire lo step 4: come calcolare le distanze tra il nuovo gruppo e tutte le altre unità dalla scelta derivano i diversi metodi -- Come decidere quando fermarsi: in quanti gruppi realizzare la classificazione




Metodi Metodi per eseguire lo step 4

Esempio

A B C D E

A 0 0.26

0.68

0.45

0.44

B 0 0.11

0.39

0.68

C 0 0.52

0.19

D 0 0.82

E 0

A D E (B,C)

A 0 0.45 0.44

?

D 0 0.82

?

E 0 ?

(B,C) 00.11 distanza minore: si forma il gruppo (B,C)

distanza di A da (B,C)? di D da (BC)? di E da (B,C)?




Metodi Metodi per eseguire lo step 4

Notazioni: CK : K-esimo gruppo (inizialmente, k-esima unità)

CL : L-esimo gruppo (inizialmente, l-esima unità)

DKL : distanza tra i gruppi CK e CL (inizialmente, tra le unità k e l)CM : gruppo derivante dalla fusione dei gruppi CK e CL

(inizialmente k-esima e l-esima unità)

DjM : distanza di un generico gruppo (o unità) preesistente Cj dal gruppo CM derivante dalla fusione dei gruppi CK e CL

(inizialmente distanza della generica unità preesistente j dal gruppo formato dalle unità k e l)




Metodo del legame singololegame singolo DJM = min(DJK,DJL)

A B C D E

A 0 0.26 0.68 0.45 0.44

B 0 0.11 0.39 0.68

C 0 0.52 0.19

D 0 0.82

E 0distanza di A da BC: min (dAB; dAC) min (0,26; 0,68)

distanza di A da BCE: min (dA(BC); dAE) min (0,26; 0,44)

A D E (B,C)

A 0 0.45 0.44

0.26

D 0 0.82

0.39

E 0 0.19

(B,C) 0

A D BCE

A 0 0.45

0.26

D 0 0.39

BCE 0

D BCEA

D 0 0.39

BCEA 0

distanza di D da BCEA: min (dD(BCE) dDA) min (0,39; 0,45)




Rappresentazione grafica della classificazione

Dendrogramma:Dendrogramma:- Asse delle ascisse (non quantitativo): le unità- Asse delle ordinate: livelli di distanza a cui sono avvenute le successive fusioni

d

B C E A Dunità

legame singolo

Pro e contro il metodo del legame singolo:- tende a produrre gruppi allungati e quindi poco omogenei (contro)- ma isola i valori anomali (pro)

0.39

0.260.190.11




Metodo del legame completolegame completo DJM = max(DJK,DJL)

A B C D E

A 0 0.26 0.68 0.45 0.44

B 0 0.11 0.39 0.68

C 0 0.52 0.19

D 0 0.82

E 0 distanza di A da BC: max (dAB; dAC) max (0,26; 0,68)

distanza di D da AE: max (dDA; dDE) max (0,45; 0,82)

A D E (BC)

A 0 0.45 0.44

0.68

D 0 0.82

0.52

E 0 0.68

(BC) 0

D (BC) (AE)

D 0 0.52 0.82

(BC) 0 0.68

(AE) 0

(AE) (BCD)

(AE) 0 0.82

(BCD) 0

distanza di BC da AE: max (d(BC)A; d(BC)E ) max (0,68; 0,68)

distanza di AE da BCD: max (d(AE)(BC); d(AE)D) max (0,68; 0,82)




Dendrogramma Dendrogramma

Pro e contro il metodo del legame completo:- tende a produrre gruppi di dimensioni simili (pro)- ma è influenzato dai valori anomali (contro)

0.68

0.520.44

0.11

A E B C D




Metodo di McQuittyMcQuitty (dist. media) DJM = (DJK + DJL)/ 2

A B C D E

A 0 0.26 0.68 0.45 0.44

B 0 0.11 0.39 0.68

C 0 0.52 0.19

D 0 0.82

E 0distanza di A da BC: (dAB + dAC)/2 (0,26 + 0,68)/2

distanza di A da BCE: (dA(BC) + dAE)/2 (0,47 + 0,44)/2

A D E (BC)

A 0 0.45 0.44

0.47

D 0 0.82

0.455

E 0 0.435

(BC) 0

A D (BCE)

A 0 0.45

0.455

D 0 0.6375

(BCE) 0

(BCE)

(AD)

(BCE) 0 0.54625

(AD) 0

distanza di BCE da AD: (d(BCE)A+ d(BCE)D)/2 (0,455+ 0,6375)/2




DendrogrammaDendrogramma

Pro e contro il metodo di McQuitty:produce soluzioni intermedie tra legame singolo e legame completo: ne contempera vantaggi e svantaggi

d

B C E A Dunità

McQuitty

0.550.45

0.11




Metodo del legame mediolegame medio (media aritmetica ponderata) DJM = (DJK Nk+ DJLNL)/ NM [NK , NL , NM : n. unità in CK, CL, CM]

A B C D E

A 0 0.26 0.68 0.45 0.44

B 0 0.11 0.39 0.68

C 0 0.52 0.19

D 0 0.82

E 0

distanza di A da BC: (dA B+ dAC)/N(BC) (0,26 + 0,68)/2

distanza di A da BCE: (dA(BC) N(BC)+ dAE NE)/N(BCE) (0,47 x 2 + 0,44 x 1)/3

A D E (BC)

A 0 0.45 0.44

0.47

D 0 0.82

0.455

E 0 0.435

(B,C) 0

A D (BCE)

A 0 0.45

0.46

D 0 0.577

(BCE)

0

(BCE)

(AD)

(BCE)

0 0.518

(AD) 0

distanza di BCE da AD: (d(BCE)A NA+ d(BCE)D ND)/N(AD) (0,46 + 0,577)/2




1 1

1 J MN N

JM iri rJ M

D dN N

1 1

1 J MN N

JM iri rJ M

D dN N

Distanza di A da BCE: dA(BCE) = (dA(BC) N(BC)+ dAE NE)/N(BCE) = (dAB + dAC + dAE)/N(BCE)

(0,47 x 2 + 0,44 x 1)/3 = (0,26 + 0,68 + 0,44)/3 = 0,46

La distanza di una unità da un gruppo è la media delle distanze da tutte le unità del gruppo

Distanza di BCE da AD: d(BCE)(AD) = (d(BCE)A N(A)+ d(BCE)D NAD)/N(AD) = = (dAB + dAC + dAE + dDB + dDC + dDE)/N(BCE) N(AD)

(0,26 + 0,68 + 0,44 + 0,39 + 0,52 + 0,82)/6 = 0,518

La distanza tra due gruppi è la media delle distanze di ogni unità di un gruppo da tutte le unità dell’altro gruppo:

( ; )i J r M




DendrogrammaDendrogramma

Pro e contro il metodo del legame medio:come il metodo di McQuitty, produce soluzioni intermedie tra legame singolo e legame completo

d

B C E A Dunità

Legame medio

0.520.45

0.11




Metodo del centroidecentroide

- si applica solo in caso di variabili quantitative

- prende come input la matrice dei dati X (n x p)

- centroide (o baricentro) di un gruppo: valori medi delle

p variabili calcolati sulle unità appartenenti al gruppo

- si aggregano i gruppi per i quali risulta minima la distanza

euclidea tra i centroidi dei gruppi (inizialmente si aggregano le due unità che

presentano la minima distanza euclidea)




- Esempio- Esempio

Unità X1 X2

ABCD

1012814

26302436

2/1

1

2

p

krkikir xxd

2 2 1/2[(12 10) (30 26) ] 4.47ABd

A B C D

A 0 4.47

2.83

10.8

B 0 7.21

6.32

C 0 13.4

D 0Unità X1 X2

BD(A,C)

12149

303625

2 2 1/2( , ) [(12 9) (30 25) ] 5.83B A Cd

B D (A,C)

B 0 6.32 5.83

D 0 12.1

(A,C)

0

Matrice dei dati:

Distanza euclidea:

Passo 2:




Metodo poco sensibile ai valori anomali: i dati anomali (molto diversi da tutti gli altri) producono elevate distanze euclidee con le altre unità (e con i gruppi che si formano) e quindi tendono a restare isolati (a non aggregarsi)




Metodo di WardWard

- si applica solo in caso di variabili quantitative - prende come input la matrice dei dati X (n x p)

- è fondato sulla scomposizione della devianza totale in devianza entro i gruppi e devianza tra i gruppi

2 2 2, , ,

1 1 1 1 1 1 1

( ) ( ) ( ) ( )gnp p pn G G

ik k ik g k g k g k gk i g k i g k

Dev T x x x x x x n

Dev (T) = Dev (W) + Dev (B)




A ogni passo uniti i gruppi che danno luogo alla minore devianza entro i gruppi rispetto a tutte le altre possibili unioni

Ovvero, poiché passando da g a g-1 gruppi aumenta Dev (W), a ogni passo si aggregano i gruppi che danno luogo al minore incremento di Dev (W)




Unità X1 X2

ABCD

10128

14

26302436

Coppie di unità

Dev

A,BA,CA,DB,CB,DC,D

10458262090

2 2 2 2Dev( , ) (10 11) (12 11) (26 28) (30 28) 10A B Esempio:Esempio:

Unità X1 X2

BDA,C

1214

10;8

3036

26;24

2 2 2 2Dev(W) = Dev( , , ) (12 10) (10 10) (8 10) (30 26.6) ... 18.6B A C 2 2Dev(W) = Dev( , , ) (14 10.6) (10 10.6) ... 102.3D A C

Dev(W)=Dev( , ) ( , ) 20 4 24B D Dev A C

Passo successivo (tre possibilità: (B,D); (B,A,C); (D,A,C)

Δ Dev (W) = 14.6




Metodo di Ward:

- Poco sensibile ai valori anomali, che tende a isolare (come metodo del centroide e per le stesse ragioni)- Tende a produrre gruppi di dimensioni similiMolto utilizzato per la classificazione gerarchica in caso di variabili quantitative




Quanti gruppi considerareQuanti gruppi considerare Criterio: il livello di distanza a cui avvengono le aggregazioni

successive

Osservazione del dendrogramma: aggregazioni che avvengono “molto in alto” (dopo un “salto” nell’indice di distanza) indicano fusione di gruppi eterogenei fermarsi prima

1( ) /g g g gd d d

d

B C E A Dunità

Legame medio

maxg n. gruppi = g

Incremento relativo della distanza di fusione da g a g-1 gruppi:

0.520.45

0.11




Analisi dello scree plot (descrive la relazione tra il n. gruppi e la distanza di fusione):

4 2d

Fino a 10 gruppi: distanza di fusione vicina a zero;Da 8 a 7 gruppi: primo incremento sensibile della distanza di fusione;Da 4 a 3 gruppi: massimo incremento relativo (da a ) fermarsi a 4.

3 6d



Metodi gerarchici divisivi

Metodo basato sui punti nodali punti nodaliPrimo passo: - sulla matrice delle distanze si individuano le due unità più distanti tra loro: i nodi- le altre unità vengono assegnate ai due nodi sulla base della distanza minima

Passi successivi: l’operazione si ripete su ognuno dei due gruppi, e così via

Percorso inverso rispetto agli agglomerativi

- Punto di partenza: un unico gruppo formato da tutte le unità

- Si procede per divisioni successive, prima in due gruppi, poi il più eterogeneo dei due viene a sua volta diviso in due…



Metodi gerarchici divisivi

Metodi basati sui punti nodali punti nodali -- EsempioEsempio

A B C D E

A 0 0.26

0.68

0.45

0.44

B 0 0.11

0.39

0.68

C 0 0.52

0.19

D 0 0.82

E 0

A con E: dAE < dAD (0.44 < 0.45)

Idem per C(0.19 < 0.52)

E con C: dEC < dEA (0.19 < 0.44)

E A C

E 0 0.44 0.19

A 0 0.68

C 0

C E

C 0 0.19

E 0

B D

B 0 0.39

D 0

Passo 1Punti nodali: D, E

Passo 2Punti nodali: A, C

B D A C E

B con D: dBD < dBE (0.39 < 0.68)



Metodi non gerarchici

Effettuano il raggruppamento direttamente nel numero di gruppi prefissato Si applicano a sole variabili quantitative

Prendono come input la matrice di dati X (n x p)

Preventiva standardizzazione delle variabili (per neutralizzare gli effetti di diverse unità di misura e/o diverse variabilità)

Procedura iterativa che a ogni passo modifica la classificazione nei k gruppi in modo da ottenere il raggruppamento finale caratterizzato dalla massima omogeneità interna




Algoritmo KK-means-means

1. Raggruppamento iniziale: si specificano k punti iniziali (seeds) nello spazio delle p variabili quantitative: uno per ciascun gruppo da costruire (centroidi provvisori)

Dati di partenza

0

7

0 10

Caso semplificato di due sole variabili rappresentato nel grafico: per costruire due gruppi, nel diagramma vanno individuati due punti iniziali (casualmente o con altro criterio) da cui far partire il processo iterativo di classificazione

■

■




2. Ciascuna unità viene assegnata a un punto iniziale sulla base della distanza (euclidea) minima, formando gruppi provvisori

Si inseriscono i due seed e si assegnano le unità

0

7

0 10




3. Vengono calcolati i baricentri(o centroidi) dei gruppi provvisori (valori medi delle p variabili nei gruppi)

Si calcolano i centroidi dei gruppi provvisori e si riassegnano le unità

0

7

0 10

Si inseriscono i due seed e si assegnano le unità

0

7

0 10

■

■

4. Si riallocano tutte le unità sulla base del baricentro più vicino (distanza euclidea), formando nuovi gruppi provvisori




5. Si rieseguono in modo iterativo gli step 3 (calcolo centroidi) …

Si ricalcolano i centroidi e si riassegnano le unità; non essendoci modif iche nel raggruppamento il processo termina

0

7

0 10

Si calcolano i centroidi dei gruppi provvisori e si riassegnano le unità

0

7

0 10

… e 4 (riallocazione unità) fino ad ottenere una soluzione stabile: raggruppamento finale

■

■




Pro e contro il metodo K-meansK-means

Pro: Pro: tende a produrre gruppi internamente più omogenei

rispetto ai metodi non gerarchiciContro:Contro: - problema della prefissazione del numero di gruppi (consigliabile provarne diversi)

- problema della scelta dei punti iniziali: se nell’insieme di unità i gruppi non sono ben distinti, i punti iniziali possono condizionare la classificazione




Dati di partenza

0

7

0 10

Punti iniziali diversi …

■

■

Dati di partenza

0

7

0 10

■

■

… diversa soluzione finale




Soluzioni al problema della scelta dei punti iniziali:

- se possibile utilizzare informazioni a priori sui baricentri dei gruppi (vedi strategie complesse di classificazione)

- in particolare in caso di scelta casuale, ripetere più volte l’analisi (e valutare la stabilità della classificazione ottenuta)



Scelta metodo di raggruppamento

In base al tipo di variabili a disposizione e alle caratteristiche dei

diversi metodi

Variabili qualitative o miste solo metodi gerarchici (non tutti)

- vantaggio di poter scegliere il n. di gruppi a posteriori

- ma sono più rigidi: non consentono di modificare aggregazioni fatte a livello inferiore; tendono quindi a produrre gruppi meno omogenei rispetto ai metodi non gerarchici



Scelta metodo di raggruppamento

Variabili solo quantitative metodi gerarchici (anche Ward e Centroide) e non gerarchici:

più flessibili e quindi gruppi più omogenei (classificazione modificata a ogni iterazione con l’obiettivo di massimizzare l’omogeneità interna ai gruppi)



Strategie complesse di classificazione

1. Nell’ambito dei metodi gerarchici (per tutte le tipologie di variabili)

a) In caso di variabili qualitative o miste: - primaprima metodo del legame singolo per identificare (ed eliminare) i casi anomali

- poipoi metodo del legame completo, che produce migliori raggruppamenti in assenza di valori anomali

Utilizzazione di più metodi in sequenza in modo da sfruttare i vantaggi di ognuno



Strategie complesse di classificazione 1. Nell’ambito dei metodi gerarchici (per tutte le tipologie di variabili)

a) In caso di variabili qualitative o miste: - primaprima metodo del legame singolo per identificare (ed eliminare) i casi anomali

- poipoi metodo del legame completo, che produce migliori raggruppamenti in assenza di valori anomali

b) In caso di variabili quantitative:

- primaprima metodo di Ward (o del centroide) per identificare (ed eliminare) i casi anomali

- poipoi stesso metodo per ottenere la classificazione al netto dei casi anomali



Strategie complesse di classificazione 2. Tra metodi gerarchici e non gerarchici (per variabili quantitative)

- primaprima metodo gerarchico al fine di individuare: - il numero ottimo di gruppi - gli eventuali casi anomali - i punti iniziali per classificazione non gerarchica (centroidi dei gruppi)

Preferibili quelli di Ward e del Centroide: robusti rispetto ai casi anomali, che vengono isolati) - poipoi metodo non gerarchico (dopo eliminazione delle

unità anomale) per ottenere la classificazione finale

(più omogenea di quella ottenuta dal metodo gerarchico: effetto della riclassificazione delle unità tra i gruppi)

1/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente,...

Documents

Transcript of 1/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente,...