Università della Calabria

84
1 Università della Calabria Corso di Corso di statistica statistica ARCAVACATA a.a 2009- ARCAVACATA a.a 2009- 2010 2010 Campus di Arcavacata

description

Campus di Arcavacata. Università della Calabria. Corso di statistica. Dott. Massimiliano Giacalone. ARCAVACATA a.a 2009-2010. IL CONCETTO DI MEDIA. Criterio di internalità (Chisini) - PowerPoint PPT Presentation

Transcript of Università della Calabria

Page 2: Università della Calabria

IL CONCETTO DI MEDIA

I) Criterio di internalità (Chisini)

La media di una variabile X è qualunque valore reale M intermedio tra il minimo x(1) ed il massimo x(n) di una distribuzione. 1 nx M x

II) Logica della trasferibilità di una variabile (Chisini)

La media di una variabile X è quel valore M, intermedio tra il minimo x(1) ed il massimo x(n) di una distribuzione che, rispetto ad una funzione sintetica delle osservazioni, ne lascia inalterato il valore.

1

, , , ,n

n volte

f x x f M M

Il valore della funzione f(•) non cambia se si sostituisce ad ogni intensità di X il valore M.

Page 3: Università della Calabria

III) Minimizzazione della perdita globale (Wald)La media di una variabile X è quel valore M che minimizza la funzione di perdita complessiva che si ottiene quando alle singole osservazioni (x1,………,xn) si sostituisce M.

, min se id x M

,id x Perdita subita nel sottrarre da xi, per i=1,2,……..,n

Funzione che sintetizza le singole perdite in un unico valore

1 2

1

n

n

ii

x x x M M M

x n M

IV) Principio della equiripartizione (Naguno-Kolmogorov-De Finetti)

La media di una variabile X è quel valore M che realizza l’equiripartizione rispetto ad una funzione

Page 4: Università della Calabria

LA MEDIA ARITMETICALa sua individuazione deriva dalla logica della trasferibilità di una variabile (Chisini).

1

, , , ,n

n volte

f x x f

Se la funzione f(•) corrisponde alla somma:

1 2

n

n volte

x x x

1 1 2

1

=

n

ini n

i Xi

xx x x

x nn n

Page 5: Università della Calabria

Media aritmetica: modalità di calcolo

Distribuzione di frequenze

Successione di n intensità1 =

n

ii

X

x

n

1=

k

i ii

X

x n

n

1

=k

X i ii

x f

Frequenze assolute Frequenze relative

1

ˆ=

k

i ii

X

x n

n

Distribuzioni in classi

1ˆ per 1,2, ,2

i ii

x xx i n

Valore centrale dell’i-esima classe

Il calcolo dei valori centrali introduce un’approssimazione perché equivale ad attribuire una ripartizione uniforme delle frequenze all’interno di ciascuna classe.

Page 6: Università della Calabria

Carattere NUMERO DI BOTTIGLIE

1 1 1 2 2 2 2 33 3 4 4 4 4 4 55 5 5 5 5 5 5 5 5 5 6 6 6 6

ni

i 1x 1 1 6 119 3 97

n 30 30,

ni i n

i 1i i

i 1

xnx f

n1 0 10 2 0 13

3 0 10 6 0 13 3 97

, ,

, , ,

N. bottiglie ni fi

1 3 0,102 4 0,133 3 0,104 5 0,175 11 0,376 4 0,13Totale 30 1

Page 7: Università della Calabria

Carattere PREZZO CH, classi equiampie (primi 20 consumatori)

Classe ci ni fi

1,69 |—| 1,77 1,73 3 0,151,77 —| 1,85 1,81 0 01,85 —| 1,93 1,89 3 0,151,93 —| 2,01 1,97 5 0,252,01 —| 2,09 2,05 9 0,45

Totale 20 1

ki i

i 1cn

n1 73 3 1 81 0 2 05 9

201 958

, , ,

,

0 11

x x 1 69 1 77c 1 732 2

, ,,

1 22

x x 1 77 1 85c 1 812 2

, ,,

k 1 kk

x xc2

i 1 ii

x xc2

Page 8: Università della Calabria

Proprietà della media aritmeticaI) Internalità 1 X nx x

Dim: 1 per 1, ,i nx x x i n

11 1 1

n n n

i ni i i

x x x

11

n

i ni

n x x n x

1

1 1

n

ii

Xn n

xx x x x

n

II) Proprietà Baricentrica 1

0n

i Xi

x

Dim:

1 1 1 1

1 1 1 1

0

n n n n

i X i X i Xi i i i

n n n n

i i i ii i i i

x x x n

x n x n x x

Page 9: Università della Calabria

III) Linearità

1 1 1, , , ,n n nx x y x y x

trasformazione lineareY XX Y

1 1 1

1

1 1 1

1 1 =

n n n

Y i ii i i

n

i Xi

x xn n n

n xn n

Y X

Corollari:

1 1 1, , , ,n n nx x y x y x

Y X

1 1 1, , , ,n n nx x y x y x

Y X

a)

b)

, Dim:

Page 10: Università della Calabria

Scelta Prezzo MMMM 1,99MM 1,99MM 1,99MM 2,09MM 2,09MM 2,09MM 2,09MM 2,09MM 2,13

Per i soli succhi di frutta MM considerare il carattere PREZZO MM. La casa produttrice decide di cambiare il prezzo di vendita del prodotto: per ogni acquirente il nuovo prezzo sarà pari al prezzo di vendita mediano attuale più il 18.75% del prezzo attuale. Qual è la media dei nuovi prezzi di vendita?

9 1 52

Me x x 2 09,

La nuova serie dei prezzi p* sarà dunque ottenuta dalla trasformazione lineare:

p* = 2,09 + 0,1875 p

06295518

9

p9

1ii

,,

2 09 0 1875 2 09 0 1875 2 06 2 47* , , , , , ,

* * *1 2 3p =p =p = 2,09 + 0,1875 1,99=2,46

*9p = 2,09 + 0,1875 2,13=2,49

* *4 8p = =p = 2,09 + 0,1875 2,09=2,48

9i

i 1

1 2 46 2 46 2 49p 2 479 9

* * , , ,,

Page 11: Università della Calabria

IV) Associatività1

1

G

X j jj

nn

G = numero di gruppinj = numerosità del j-esimo gruppo (j=1,….,G)

1 2

1, ,

j

j G

suddivisione delle intensità in G gruppi di numerosità n j G

n n n n n

1 1 1

jnn G

i iji j i

somma delle intensità

x x

1

1 11 1 1 1

1 1 1; ; ; ;

j Gn nn

i j ij G Gij Gi i i

medie dei gruppi

x x xn n n

1 1 1

1 1 1

1 1

1 1 1

j

j

nn G

X i iji j i

nG G

ij j j jjj i j

x xn n

x n nn n n

xij = j-esima intensità dell’i-esimo gruppo

Scomposizione della media generale

Media aritmetica delle medie dei

gruppi

Dim:

Page 12: Università della Calabria

nj Rivenditoren.bottiglie

bis

Bar 6

Bar 6

Bar 5

Bar 5

Bar 6

Bar 3

Bar 5

Bar 49 Bar 5

Coloniali 3

Coloniali 6

Coloniali 4

Coloniali 5

Coloniali 3

Coloniali 4

Coloniali 5

Coloniali 29 Coloniali 4

D. Automatico 2

D. Automatico 5

D. Automatico 34 D. Automatico 6

S.market 4

S.market 6

S.market 5

S.market 2

S.market 3

S.market 6

S.market 58 S.market 1

30 129

30i

i 1x

45

36

16

32

bar barbarbar

1 xn

col colcolcol

1 xn

da dadada

1 xn

sm smsmsm

1 xn

bar col da sm9 9 4 830

ii

1 129x 4 3n 30

,

Page 13: Università della Calabria

Gruppi/modalitàG

nj

j = 1, …, G

Bar 9 45Coloniali 9 36D. Automatico 4 16Supermarket 8 32Totali 30 129

jni

i 1x

bar bar col col da da sm smn n n nn

bar barbarbar

1 1x 45 5n 9

col colcolcol

1 1x 36 4n 9

da dadada

1 1x 16 4n 4

sm smsmsm

1 1x 32 4n 8

5 9 4 9 4 4 4 8 129 4 330 30

,

Page 14: Università della Calabria

V) Minimizzazione della somma degli scarti al quadrato

21

min se e solo se n

i Xi

x

Dim: 2 2

1 1

se n n

X i i Xi i

x x

2 2

1 1

2 2

1

1

2

n n

i i X Xi i

n

i X Xi

n

X i Xi

x x

x n

x

2 2 2

1 1

2 2

1 1

n n

i i X Xi i

n n

i i Xi i

x x n

x x

Termine nullo per la II proprie-tà della media arit-metica

Page 15: Università della Calabria

Quale indice di posizione scegliere?

La mediana minimizza la somma degli scarti in valore assoluto:n

ii 1

x c c Memin

La mediana è un indice robustorobusto: non subisce l’influenza di valori anomali

CRITERIO: Se occorre un indice che tenga conto di tutti i tutti i

valorivalori, si utilizza la media.

Se non si vuole che i valori estremivalori estremi alterino il valore dell’indice, allora si utilizza la mediana

esempio:Scelta del luogo in cui situare il deposito di n punti vendita, in modo da minimizzare le distanze complessive (quindi i costi):il luogo che soddisfa tale condizione è la mediana dei punti

vendita

Page 16: Università della Calabria

INDICI STATISTICI DI VARIABILITA’Variabilità: Attitudine di un fenomeno ad assumere diverse intensità

Caratteristiche di un indice di variabilità

• Dispersione rispetto ad un centro• Mutua variabilità• Mutevolezza delle frequenze (Concentrazione per caratteri trasferibili)

Come si misura la variabilità?

1

1 1

1 1

) , , 0

) , , 0

) , , ,

) Se , , , X è più variabile di Y

n

n n

n n

i V x x

ii V c c

iii V x c x c V x x

iv V x x V y y

V(): Indice di variabilità; c: costante nota

N.B. Un indice di variabilità è sempre maggiore o uguale a zero.

Page 17: Università della Calabria

Variabilità e funzione di ripartizione empirica

Una funzione di ripartizione empirica molto ripida (che subito raggiunge 1) indica scarsa variabilità. Viceversa, una funzione di ripartizione empirica che raggiunge 1 molto lentamente indica elevata variabilità.

Campo di Variazione

max minRange X x x

È molto sensibile alla presenza di valori anomali

Differenza Interquantile

r sq q q

Differenza tra due quantili equidistanti dagli estremi della distribuzioneVia via meno sensibile alla presenza di valori anomali, ma mano che r ed s si avvicinano.

r > s

Page 18: Università della Calabria

Differenza Interquartile

3 1IQR Q Q

È un indice più robusto del campo di variazione

Coefficiente di Variazione Interquartile

3 1 3 1

1 3 1 3

22

Q Q Q QCQVQ Q Q Q

Non dipende dall’unità di misura del carattere osservato (come il Range e l’IQR) ma solo dal rapporto tra quartili Se Me 0 allora CQV

Page 19: Università della Calabria

Variabilità rispetto ad un centroObiettivo: Sintetizzare una opportuna funzione degli scarti delle singole intensità dall’indice di posizione M presceltoSuccessione degli scarti: 1 2, , , , ,i nx M x M x M x M

1

2

1

0Se

min

n

ii

n

ii

xM

x

1

Se minn

ii

M Me x Me

Ogni scarto esprime la distanza di ciascuna intensità dall’indice M.

La variabilità rispetto ad un centro può essere definita specificando in diversi modi M.

Ricordiamo che:

Page 20: Università della Calabria

VARIANZA

22

1

1=k

X i ii

c nn

Misura la dispersione media intorno alla media aritmetica.

Si calcola come media aritmetica dei quadrati degli scarti.

1. Per una successione di valori:

2. Per una distribuzione di frequenza:

3. Per una distribuzione in classi di frequenza:

22

1

1=n

X ii

xn

22

1

1=k

X i ii

x nn

Page 21: Università della Calabria

N. bottiglie ni fi

1 3 0,102 4 0,133 3 0,104 5 0,175 11 0,376 4 0,13Totale 30 1

1 119 3,9730

k

i ii

x n

n

2

2 1

2 2 21 3,97 3 2 3,97 4 6 3,97 430

72,97 2, 4130

n

i ii

x n

n

2

2 21

2 2 221 3 2 4 6 4

3,9730

545 15,73 2, 4130

n

i ii

x n

n

Formula alternativa:

Page 22: Università della Calabria

Classe ci ni fi

1,69 |—| 1,77 1,73 3 0,151,77 —| 1,85 1,81 0 01,85 —| 1,93 1,89 3 0,151,93 —| 2,01 1,97 5 0,252,01 —| 2,09 2,05 9 0,45

Totale 20 1

2

22 1

1

2 2

2

1,73 1,96 0,15 1,81 1,96 0

2,05 1,96 0, 45 0,004

k

i i ki

i ii

c nc f

n

ni i n

i 1i i

i 1

cncf 1 73 0 15 2 05 0 45 1 96

n, , , , ,

2

2 2 2 21

1

2 2

2 2

1,73 0,15 1,81 0

2,05 0, 45 1,96 0,004

n

i i ni

i ii

c nc f

n

Formula alternativa:

Page 23: Università della Calabria

Proprietà della varianza

I) 20 X

II) Esprime la variabilità nella stessa unità di misura del carattere osservato, ma elevata al quadrato

III) 222X

Dim:

22

1

2 2

1 1 1

2 2

1

2 2

1

1=

1 1 12

1 2

1

n

X ii

n n n

i ii i in

ii

n

ii

xn

x xn n n

xn

xn

Formula alternativa per il calcolo della varianza

Page 24: Università della Calabria

IV) trasformazione lineareY XX Y

,

2 2 2Y X Dim:

e i i Y Xy x

2 22

1 1

22 2 2

1

1 1

1

n n

Y i Y i Xi i

n

i X Xi

y xn n

xn

quindi:

Page 25: Università della Calabria

Esempio

Scelta Prezzo MM

MM 1,99MM 1,99MM 1,99MM 2,09MM Me 2,09MM 2,09MM 2,09MM 2,09MM 2,13

Nuovo prezzo = prezzo mediano attuale + 18.75% del prezzo attuale. Qual è la varianzavarianza del nuovo prezzo?

Trasformazione lineare:

p* = 2,09 + 0,1875 p

9

1 2,069

ii

p

00209

p9

1i

2i

2 ,

2* 2 20,1875 0,035 0,002 0,000075

Calcolo della nuova varianza:

= 2,09; = 0,1875

2* 2 2

Page 26: Università della Calabria

V) Decomposizione della varianzaLa varianza di X è data dalla somma della media delle varianze di gruppo (varianza interna) e dalla varianza delle medie di gruppo (varianza esterna).

22 2

1 1VARIANZA INTERNA VARIANZA ESTERNA

1 1G G

X j j j X jj j

n nn n

Se:G = numero di gruppi; j: media dell’i-esimo gruppo;

nj = numerosità dell’j-esimo gruppo (j = 1,….,G);

allora:

2 2 2TOT INT EXT ossia:

Page 27: Università della Calabria

Dim:

1 2suddivisione delle intensità in G gruppi di numerosità

1, ,j

j G

nj G

n n n n n

222

1 1 1Varianza della partizione in gruppi

2

1 1

2 2

1 1 1 1

1 1

1 1

1

1 1

12

i

i

i i

i

nn G

X i X ij Xi j i

nG

ij j j Xj i

n nG G

ij j j Xj i j i

nG

ij j j Xj i

x xn n

xn

xn n

xn

1

1 jn

j ijj i

xn

Media aritmetica delle intensità appartenenti all’i-esimo gruppo.

Page 28: Università della Calabria

1 1 1 1

è uguale a zero per la I proprietà di

1 22 0i in nG G

ij j j X j X ij jj i j i

x xn n

3° Addendo

Quindi:

222

1 1 12 2

1 1 inn G

X i X ij Xi j i

INT EXT

x xn n

1° Addendo

2

1 1

2 2 2

1 1 1

Varianza dell'i-esimo gruppo

1

1 1 1

i

j

INT

nG

ij jj i

nG G

ij j j j jj i jj

xn

x n nn n n

2° Addendo

2 2 2

1 1 1Varianza delle medie di gruppo

1 1i

EXT

nG G

j X j X jj i j

nn n

Page 29: Università della Calabria

Esempio sceltabottiglie CH MM Totale

1 1 2 32 2 2 43 2 1 34 5 0 55 7 4 116 4 0 4

Totale 21 9 30

2 2, 43tot

6

11 21

1 1 2 2 6 4 4,2821

iCH ii

CH

x n

6

12 9

1 2 2 2 5 4 3,229

iMM ii

MM

x n

3,97

G = 2 (1 = CH; 2 = MM)

Page 30: Università della Calabria

6 2

2 2 11

2 2

21

1 4,28 1 6 4,28 4 40,29 1,9221 21

iCH CH ii

CH

x n

6 2

2 2 12

2 2

9

1 3,22 2 6 3,22 0 25,56 2,839 9

iMM MM ii

MM

x n

2 21

1 1,92 21 2,83 9 2,1930

G

INT j jj

nn

22

1

2 2

1

4,28 3,97 21 3,22 3,97 9 0,2430

G

EST j X jj

nn

2 2 2 2,19 0,24 2, 43TOT INT EXT

Page 31: Università della Calabria

SCARTO QUADRATICO MEDIO(o scostamento quadratico medio, o deviazione standard) E’ uguale alla radice quadrata della varianza. Esprime la variabilità nella stessa unità di misura del

carattere osservato.

1. Per una successione di valori:

2. Per una distribuzione di frequenza:

3. Per una distribuzione in classi di frequenza:

21

1=k

X i ii

c nn

21

1=n

X ii

xn

21

1=k

X i ii

x nn

è interpretabile come scarto medio intorno alla media; la maggior parte dei valori sono compresi nell’intervallo:

[ - ; + ]

Page 32: Università della Calabria

situazione di massima variabilità

0 per 1, , 1 i nx i n x n

22

1

2 2

2 2 2 2 2

2 2 2 2 2 2

22 2 2 2

1

1 0 1 11 1 21 2

11 1

n

ii

xn

n nn

n n nn

n n nn

n nn n n

n n

Nella situazione di massima variabilità

2 = 2(n-1) e 1n

MASSIMA VARIABILITA’

2 2 1 1n n

Quindi:

2 20 1

0 1

n

n

Page 33: Università della Calabria

INDICI DI VARIABILITA’ RELATIVA

Coefficiente di variazione X

X

CV

E’ un indice indipendente dall’unità di misura (è un numero puro) e può essere utilizzato per confrontare distribuzioni diverse

2 20 1 e 0 1n n Poiché:

0 1n

INDICE DI VARIABILITA’ RELATIVI NORMALIZZATI (compresi tra 0 ed 1)

Scarto quadratico medio relativo

max 1X X

relX X n

Si ottiene come rapporto tra il valore assunto dallo scarto ed il valore massimo che esso può assumere per la distribuzione:

Page 34: Università della Calabria

5614322 ,,

07029973

5611nrel ,

,,

390973561CV ,,,

N. bottiglie ni fi

1 3 0,102 4 0,133 3 0,104 5 0,175 11 0,376 4 0,13Totale 30 1

1 3,97

k

i ii

x n

n

22 1 2, 43

k

i ii

x n

n

Scarto quadratico medio:

Coefficiente di variazione:

Scarto quadratico medio relativo:

Esempio

Page 35: Università della Calabria

INDICI DI MUTUA VARIABILITÀ

DIFFERENZE MEDIEDifferenza Media Semplice (senza ripetizione)

Differenza Media Quadratica

Misurano quanto le unità statistiche differiscono tra di lorotra di loro (non più rispetto ad un punto fisso).Il calcolo si basa sulle differenze tra tutte le coppie di unità statistiche.

n ni j

i 1 j 1x x

n n 1

n n 2i j

i 1 j 12x x

n n 1

k ki j i j

i 1 j 1x x nn

n n 1

k k 2i j i j

i 1 j 12x x nn

n n 1

Successione di valori Distribuzione di frequenza

Successione di valori Distribuzione di frequenza

Page 36: Università della Calabria

A B C D E F Gxi 3 6 5 10 3 6 7

A 3 3 2 7 0 3 4B 6 3 1 4 3 0 1C 5 2 1 5 2 1 2D 10 7 4 5 7 4 3E 3 0 3 2 7 3 4F 6 3 0 1 4 3 1G 7 4 1 2 3 4 1

Scarti semplici in valore assoluto

ni j

i j 1x x 120 2 86

n n 1 7 6,

Impresa AddettiA 3B 6C 5D 10E 3F 6G 7totale 40

ni

i 1x 40 5 71

n 7,

Calcolo della Differenza Media Semplice:

Page 37: Università della Calabria

Impresa AddettiA 0B 0C 0D 0E 0F 0G 40

totale 40

Impresa AddettiA 5,71B 5,71C 5,71D 5,71E 5,71F 5,71G 5,71

totale 40

Equidistribuzione degli addetti Massima concentrazione di addetti

xi = xj i,j = 0A B C D E F G

xi 0 0 0 0 0 0 40A 0 0 0 0 0 0 40B 0 0 0 0 0 0 40C 0 0 0 0 0 0 40D 0 0 0 0 0 0 40E 0 0 0 0 0 0 40F 0 0 0 0 0 0 40G 40 40 40 40 40 40 40

= 2

n ni j i

i j 1 i 1x x 2 n 1 x

2n n 1 n n 1

Page 38: Università della Calabria

INDICE DI CONCENTRAZIONE

R2max

R = 0 se = 0Caso di equidistribuzioneequidistribuzione del carattere

R = 1 se = 2Caso di massima concentrazionemassima concentrazione del carattere

0 R 1

2 86, 2 2 5 71 11 42max , ,

2 86R 0 252 11 42

,,

,

Se:

Page 39: Università della Calabria

auto ni

1 32 83 64 25 1

tot 20

X = NUMERO DI AUTO POSSEDUTE relativo ad un collettivo di 20 famiglie

Caso di distribuzione di frequenza

nj 3 8 6 2 1ni auto 1 2 3 4 53 1 24 36 18 128 2 24 48 32 246 3 36 48 12 122 4 18 32 12 21 5 12 24 12 2

1

1

1 2 3 8 1 3 3 6 5 4 1 2 440 1,1620 19 380

K

i j i ji j

x x n n

N N

Scarti semplici in valore assoluto

55,222MAX

2305161R

max,,

Page 40: Università della Calabria

INDICI DI ETEROGENEITÀ ED OMOGENEITÀ

Mutabilità: Attitudine di un fenomeno ad assumere diverse modalità

Distribuzione Massimamente Omogenea: le n unità statistiche presentano tutte la stessa modalità

Distribuzione Massimamente Eterogenea: nella distribuzione di frequenza appaiono tutte le k modalità, e ad ognuna di esse è associata la medesima frequenza.

Caratteristiche di un indice di mutabilitàM(): Indice di mutabilità

1

1

1

) , , min massima omogeneità) , , max

massima eterogeneità) min , , max

omog./eterog. i

n

n

n

i M x x M

ii M x x M

iii M M x x M

ntermedia

Page 41: Università della Calabria

INDICI DI ETEROGENEITA’ ED OMOGENEITA’

2 2

1 1 1 11 1

k k k k

i i i i ii i i i

G ff ff f

INDICE DI GINI

kii kfG ,,2,1max 1

max 2 21

1 11 1 1k

i

kG

k k k

X: carattere qualitativo con k modalità

INDICE DI GINI NORMALIZZATO

11

111

12

2

max

*

kkG

kkf

k

f

GGG i

i

*0 1G

Page 42: Università della Calabria

Massima eterogeneità (minima omogeneità)

Modalità fi

x1 0,2x2 0,2x3 0,2x4 0,2x5 0,2Totale 1

Modalità fi

x1 0x2 0x3 1x4 0x5 0Totale 1

Minima eterogeneità (massima omogeneità)

K 2i

i 1

2

G 1 f

1 5 0,2

1 5 0 04 0 8, ,

K 2i

i 1G 1 f

1 1 0

i1f , i 1, ,kk

Page 43: Università della Calabria

SCELTA ni fi

CH 21 0,7MM 9 0,3Totale 30 1

K 2i

i 1

2 2

G 1 f

1 0,7 0,3 1 0 49 0 09 0 42, , ,

50211K

11G ,max

Indice di eterogeneità normalizzato di Gini (0 ≤ G* ≤1)

Indice di eterogeneità di Gini

84050420

GGG ,

,,*

max

ConclusioneG* è abbastanza elevato la distribuzione è abbastanza eterogenea: entrambe le modalità sono presenti, ma con frequenze non equilibrate tra loro.

Esempio 1

Page 44: Università della Calabria

Negozio ni fi

Bar 9 0,30Coloniali 9 0,30D. automatico 4 0,13Supermarket 8 0,27Totale 30 1

42i

i 1

2 2 2 2

G 1 f

1 0,3 0,3 0,13 0,27

1 0,09 0,09 0,02 0,07 0,73

750411K

11G ,max

970750730

GGG ,

,,*

max

Conclusione G* molto prossimo ad 1 la distribuzione è molto eterogenea: tutte le modalità sono presenti e con frequenze molto simili tra loro.

Esempio 2

Page 45: Università della Calabria

FORMA DI UNA DISTRIBUZIONE

Due distribuzioni che presentano gli stessi valori degli indici di posizione e degli indici di variabilità possono differire per il peso dei valori più grandi e/o più piccoli rispetto al valore centrale a causa del comportamento differenziato nelle code della distribuzione.La forma di una distribuzione è importante proprio per valutare l’effetto delle intensità posizionate sulle code della distribuzione.Obiettivo dello studio della forma di una distribuzione è misurare se una distribuzione è simmetrica oppure di quanto essa si discosta dalla situazione di simmetria.In una distribuzione simmetrica le intensità posizionate alla stessa distanza da un indice di posizione (ad es. la media aritmetica) ma in posizione opposta rispetto a tale indice presentano la stessa frequenza (o densità di frequenza). Una distribuzione che non risulta simmetrica si dice asimmetrica

Page 46: Università della Calabria

-2 0 2 4

050

010

0015

00

Intensità

Den

sità

di f

requ

enza

SIMMETRIA E ASIMMETRIADistribuzione simmetrica

Proprietà:

1 3 1 3

)) (per ditribuzioni unimodali)) ( e sono equidistanti da )

X

X

i Meii Me Moiii Q Me Q Me Q Q Me

N.B. Queste proprietà valgono in una sola direzione

Page 47: Università della Calabria

0 10 20 30

050

010

0015

00

Intensità

Den

sità

di f

requ

enza

-30 -20 -10 0

050

010

0015

00

Intensità

Den

sità

di f

requ

enza

Asimmetria positiva

Distribuzioni asimmetriche

Asimmetria negativa

• Le intensità si attardano sulla coda di destra della distribuzione• Per distribuzioni unimo-dali:

X Me Mo

• Le intensità si attardano sulla coda di sinistra della distribuzione• Per distribuzioni unimo-dali:

XMo Me

Page 48: Università della Calabria

INDICI DI FORMAForniscono informazioni sulla forma di una distribuzione (simmetria, asimmetria positiva o negativa).Indice di Hotelling e SolomonIndice di Hotelling e Solomon X

HSX

MeA

01 0 0 1

HS

HS

HS

A SimmetriaA Asimmetria PositivaA Asimmetria Negativa

Poiché vale la seguente relazione: X XMe allora: 1 1HSA

N.B. Nel caso in cui AHS = 0 la distribuzione non è necessariamente simmetrica

Indice di Yule e BowleyIndice di Yule e Bowley

1 3 1 3

1 3 3 1

2 YBMe Q Q Me Me Q QAMe Q Q Me Q Q

00 0

YB

YB

YB

A SimmetriaA Asimmetria PositivaA Asimmetria Negativa

Page 49: Università della Calabria

INDICI DI FORMA BASATI SULLA STANDARDIZZAZIONE

Tale indici neutralizzano l’effetto di qualunque indice di posizione e di variabilità attraverso una operazione di standardizzazione del tipo:

per 1, ,X i Xi

X X

X xX Z Z z i n

Z è la variabile standardizzata. Essa, oltre a non dipendere dall’unità di misura del carattere osservato, presenta sempre media pari a zero e varianza pari ad uno. Infatti:

11 , , , ,X i X n X

i nX X X

x x xz z z

1 1

1

1 1

1 1 1 1 0 0

n ni X

Z ii i X

n

i XiX X

xzn n

xn n

Page 50: Università della Calabria

2 22

1 12

2 22 2

1 1

1 1 0

1 1 1 1

n n

Z i Z ii i

n ni X

i Xi i X X

z zn n

xzn n

Indice di FisherIndice di Fisher

3

3

1 1

1 1= =n n

iF i

i i X

xA zn n

FA 00 0

F

F

F

A SimmetriaA Asimmetria positivaA Asimmetria negativa

Successione di valori

3

3

1 1

1 1= =k k

iF i i i

i i X

xA z n nn n

Distribuzione di frequenza

Page 51: Università della Calabria

Indici di curtosiIndici di curtosi• Misurano la maggiore o minore frequenza delle osservazioni situate nelle code della distribuzione, ossia di quelle che presentano gli scarti dalla media più elevati.

• Sono basati su un confronto tra la distribuzione empirica ed un modello teorico di riferimento quale la distribuzione distribuzione NormaleNormale.

Intensità

Den

sità

di f

requ

enza

-4 -2 0 2 4

0.0

0.1

0.2

0.3

Distribuzione Normale (Gauss-Laplace)

• E’ utilizzata come modello teorico di riferimento perché frequentemente presente come distribuzione di fenomeni naturali• E’ una distribuzione simmetrica unimodale

Page 52: Università della Calabria

è un indice di disnormalità basato sul confronto tra la distribuzione empirica ed il modello della distribuzione Normale

4

4

1 1

1 1= =n n

iK i

i i X

xA zn n

Successione di valori

4

4

1 1

1 1= =k k

iK i i i

i i X

xA z n nn n

Distribuzione di frequenza

Indice di curtosi di PearsonIndice di curtosi di Pearson

Per la distribuzione Normale:

AK = 3

K = AK – 3

Page 53: Università della Calabria

0 0 leptocurtica0 platicurtic

K Distribuzione NormaleK DistribuzioneK Distribuzione a

3KK A

Intensità

Den

sità

di f

requ

enza

-4 -2 0 2 4

0.0

0.1

0.2

0.3

K > 0

K = 0

K < 0

Distribuzione leptocurticaDistribuzione leptocurtica: i valori si accentrano intorno alla media più di quanto accade per la distribuzione NormaleDistribuzione platicurticaDistribuzione platicurtica: presenta delle densità di frequenza nella coda della distribuzione più di quanto accade per la distribuzione Normale.

Page 54: Università della Calabria

N. bottiglie CH ni fi Fi

1 1 0,05 0,052 2 0,09 0,143 2 0,09 0,234 5 0,25 0,485 7 0,33 0,816 4 0,19 1

Totale 21 1

N. bottiglie MM ni fi Fi

1 2 0,22 0,222 2 0,22 0,443 1 0,11 0,554 0 0 0,555 4 0,45 16 0 0 1

Totale 9 1

3

1

3 3 3

3 3 3

1

1 1 4,29 2 4,29 3 4,292 221 1,39 1,39 1,39

4 4,29 5 4,29 6 4,295 7 41,39 1,39 1,39

1 13,35 8,99 1,6 0,21

CHn CHCH iCH i

iCH CH

xAF n

n

04 0,96 7,58

15, 44 0,7421

CH = 4,29 MM = 3,22CH = 1,39 MM = 1,69

Page 55: Università della Calabria

MM3n MMMM i

MM ii 1MM MM

3 3

3 3

x1AF nn

1 1 3,22 2 3,222 29 1,69 1,69

3 3,22 5 3,22 41,69 1,69

1 0,664,59 0,76 0,002 4,7 0,079 21

Dal confronto risulta che entrambe le distribuzioni presentano un valore negativo dell’indice di Fisher, quindi un’asimmetria negativa, che è leggermente più accentuata per i consumatori CH.

Page 56: Università della Calabria

IL BOXPLOTPermette di studiare graficamente la forma di una distribuzioneCostruzione del boxplot:Costruzione del boxplot:1. Si determinano i quantili: x(1), Q1, Q2 = Me, Q3, x(n)

2. Si disegna una scatola di estremi Q1 e Q3 tagliata sulla mediana

Q 1 Me Q 3

3. Si calcolano i valori a e b: 1 3 1 3 3 11,5 ; 1,5a Q Q Q b Q Q Q

4. Si calcolano i valori e : = minimo dei valori maggiore di a = massimo dei valori minori di b

Page 57: Università della Calabria

5. Si disegnano i baffi sui valori e

Q 1 Me Q 3

5. I valori oltre a e b sono disegnati con dei puntini (valori anomali)

Q 1 Me Q 3

Caratteristiche del boxplot:• Permette di visualizzare le informazioni sulla forma e la variabilità di una distribuzione• Consente di confrontare graficamente la forma di più distribuzioni

Page 58: Università della Calabria

Esempi

Distribuzione simmetrica

Distribuzioneasimmetrica

positiva

Distribuzioneasimmetrica

negativa

3.54.04.55.05.56.06.5

510152025

-25-20-15-10-5

Page 59: Università della Calabria

Distribuzione CHESEMPI

Q1 = 4Q2 = Me = 5Q3 = 5 52QQ51Qa 131 ,,

3axi min

56QQ51Qb 133 ,,

6bxi max

Q1 = 2Q2 = Me = 3Q3 = 5

Distribuzione MM

52QQ51Qa 131 ,,

59QQ51Qb 133 ,,

1axi min imax x b 5 1

2

3

4

5

n. b

ottig

lie s

ucch

i MM

1

2

3

4

5

6

n. b

ottig

lie s

ucch

i CH

Page 60: Università della Calabria

02

46

810

Boxplot Numero di stabilimenti (n=50)

02

46

8

Boxplot Numero di stabilimenti (n=49)

1 3 11,5 1 4,5 3,5 0a Q Q Q

3 3 11,5 4 4,5 8,5 8b Q Q Q

Caso a) n=50:

Caso b) n=49:

Q1 = 1; Me = 2; Q3 = 4

Q1 = 1; Me = 2; Q3 = 4 1 3 11,5 1 4,5 3,5 0a Q Q Q

3 3 11,5 4 4,5 8,5 8b Q Q Q

Page 61: Università della Calabria

Le relazioni statistiche per distribuzioni doppie possono essere di due tipi:

• Connessione: esistenza di una relazione reciproca tra i due caratteri

–Dipendenza assoluta

• Dipendenza: esistenza di una relazione di causa-effetto tra i due caratteri

–Dipendenza lineare–Dipendenza in media

• Correlazione (o intedipendenza): esistenza di una relazione di dipendenza reciproca tra i due caratteri.

Relazioni statistiche

Page 62: Università della Calabria

INDICI DI CONNESSIONE

Indice Chi-quadro di Pearson (Indice Chi-quadro di Pearson (22))

ˆ = frequenze teorichei jij

n nn

n

Per misurare la connessione bisogna considerare le differenze tra le frequenze teoriche e le frequenze osservate.

1 1 1 1 1 1

1 1 1 1

ˆ ˆ

1 1

1 0

k h k h k h

ij ij ij iji j i j i j

k h k h

i j i ji j i j

n n n n

n n n n n nn n

n n n n nn

Page 63: Università della Calabria

22

1 1

ˆ

ˆ

k h ij ij

i j ij

n n

n

20

2 0 Non esiste connessione (esiste indipendenza) tra X ed Y. Ogni frequenza congiunta è pari alla rispettiva frequenza teorica.

2 0 Esiste connessione (non esiste indipendenza) tra X ed Y. Almeno una frequenza congiunta è diversa dalla rispettiva frequenza teorica.

L’indice chi-quadro è pari alla somma dei quadrati delle differenze tra le frequenze teoriche e le frequenze osservate.

Page 64: Università della Calabria

Formulazione alternativaFormulazione alternativa 22 ˆ

ˆij ij

i jij

n nn

2

ˆij

i j ij

nn

ˆij

i j ij

nn

ˆ2ˆij ij

i j ij

n nn

2ˆ 2ˆ

ijij ij

i j i j i ji j

nn n

n nn

22ij

i j i j

nn n n

n n

2

1 12 1

k h

iji j

i j

nn

n n

Page 65: Università della Calabria

Indice Phi-quadro di Fisher (Indice Phi-quadro di Fisher ( 22))2

2

n

20 min 1, 1k h

2 1 1 ij j ih k n n n

2 1 ij ih n n

Perfetta dipendenza bilaterale in tabelle quadrate

Perfetta dipendenza di Y da X in tabelle rettangolari

2 1 ij jk n n

Perfetta dipendenza di X da Y in tabelle rettangolari

h < k

k < h

Page 66: Università della Calabria

negozio scelta Bar Coloniali D. Autom. S.market Totale CH 9 8 1 3 21MM  0 1 3 5 9Totale 9 9 4 8 30

k

1i

h

1j ij

2ijij2

nnn

ˆˆ

negozio scelta Bar Coloniali D. Autom. S.market Totale CH 6,3 6,3 2,8 5,6 21MM 2,7 2,7 1,2 2,4 9Totale 9 9 4 8 30

Frequenze teoriche ijn̂

2 2 2 22

2 2 2 2

9 6,3 8 6,3 1 2,8 3 5,66,3 6,3 2,8 5,6

0 2,7 1 2,7 3 1,2 5 2, 42,7 2,7 1,2 2, 4

1,16 0, 46 2,82 13,27

Metodo A.

Page 67: Università della Calabria

negozio scelta Bar Coloniali D. Autom. S.market CH 81 64 1 9MM  0 1 9 25

Frequenze teoriche 2ijn

negozio scelta Bar Coloniali D. Autom. S.marketCH 189 189 84 168MM 81 81 36 72

ji nn ..

2 81 64 1 9 1 9 2530 1189 189 84 168 81 36 72

30 1,44 1 13,27

1nnnn

k

1i

h

1j ji

2ij2

..Metodo B.

440302713

n1 22 ,,

20 1

Page 68: Università della Calabria

negozio scelta Bar Coloniali D. Autom S.market TotaleCH 9 0 4 0 13MM 0 9 0 8 17Totale 9 9 4 8 30

Esempi di perfetta dipendenza unilateraleEsempi di perfetta dipendenza unilaterale

Massima dipendenza unilaterale del carattere SCELTA (X) dal carattere NEGOZIO (Y)

jij nn .

negozio scelta Bar Coloniali D. Autom S.market TotaleCH 21 0 0 0 21MM 0 0 9 0 9Totale 21 0 9 8 30

Massima dipendenza unilaterale del carattere NEGOZIO (Y) dal carattere SCELTA (X)

.iij nn

Page 69: Università della Calabria

DIPENDENZA IN MEDIA

Y quantitativo Y quantitativo X qualitativo X qualitativo

Indipendenza in media di Y da X: al variare delle modalità di X le medie delle distribuzioni condizionate di Y rimangono costanti.

X quantitativo X quantitativo Y qualitativo Y qualitativo

Indipendenza in media di X da Y: al variare delle modalità di Y le medie delle distribuzioni condizionate di X rimangono costanti.

Page 70: Università della Calabria

2

2 |1

| 2 2

iX

k

X Y y x iEXT i

X Y hX

j X jj

n

x n

2

2 |1

| 2 2

1

jY

h

Y X x Y jEXT j

Y X kY

i Y ii

n

y n

Rapporto di correlazione di PearsonRapporto di correlazione di Pearson

XY x0 – x1 x1 – x2 … xh-1 - xh tot

y1 n11 n12 … n1h n1.y2 n21 n22 … n2h n2.

nij ni.yk nk1 nk2 … nkh nk.tot n.1 n.2 n.j n.h n

Se y è quantitativo:

Page 71: Università della Calabria

Proprietà:

|0 1X Y

| 0X Y Perfetta indipendenza in media: le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (μX)

| 1X Y

Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalità di Y corrisponde una sola intensità di X che presenta frequenza non nulla

I)

II) |0 1Y X

III) L’indice non è simmetrico

| |Y X X Y

Page 72: Università della Calabria

IV) | | | | XY = Y X X Y Y X X Y

ESEMPIOFatturato (Y) Settore

merceologico (X) 200 200-

|300 300-|400

400-|500 >500 Totale

Alimentare 11 1 5 1 3 21 Bevande 1 1 0 1 0 3 Health Care 6 1 1 2 2 12 I. Packaging 7 2 1 1 3 14 Totale 25 5 7 5 7 50

1| 1

11

1 ˆ

150 11 250 1 350 5 450 1 1256 321

348, 48

h

Y X x j jj

y nn

2

2 |1

| 2 2

1

iY

k

Y X x Y iEXT i

Y X hY

j Y jj

n

y n

Page 73: Università della Calabria

2| 2

12

1 ˆ

150 1 250 1 450 1 266,673

h

Y X x j jj

y nn

3| 3

13

1 ˆ

150 6 250 1 350 1 450 2 1256 2 384,3312

h

Y X x j jj

y nn

4| 4

14

1 ˆ

150 7 250 2 350 1 450 1 1256 3 41214

h

Y X x j jj

y nn

1

1 ˆ

150 25 250 5 350 7 450 5 1256 7 344,8450

h

Y j jj

y nn

Page 74: Università della Calabria

Le medie delle distribuzioni condizionate sono tutte diverse dalla media di Y per cui esiste dipendenza in media

2

|1

2 2

2 2

348, 48 344,84 21 266,67 344,84 3384,33 344,84 12 412 344,84 14 100.474,1

i

k

Y X x Y ii

n

2

12 2

2 2

2

ˆ

150 344,84 25 250 344,84 5350 344,84 7 450 344,84 51.256 344,84 7 7.410.606

h

j Y jj

y n

Page 75: Università della Calabria

2

2 |1

| 2 2

1

100.474,1 0,1167.410.606

iY

k

Y X x Y iEXT i

Y X hY

j Y jj

n

y n

La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO è piuttosto debole.

Page 76: Università della Calabria

CORRELAZIONEMisura del grado di interdipendeza (dipendenza

reciproca) tra due caratteri quantitativi (variabili).

Coefficiente di correlazione di Bravais-Pearson ()

1 1

2 2

n n

X Yx yx y

x y

i x i YXY

X Y

1 x yn

XYXY

X Y

= covarianza tra X ed YXY

Page 77: Università della Calabria

La covarianza ci fornisce informazioni su come variano (co-variano) simultaneamente le due variabili considerate.

0 Indipendenza 0 Interdipendenza positiva 0 Interdipendenza negativa

XY

XY

XY

XY

1 1

0 Incorrelazione 0 Correlazione positiva0 Correlazione pegativa1 Massima correlazione positiva 1 Massima correlazione negativa

XYIl segno di XYdipende da

Page 78: Università della Calabria

INTERPRETAZIONE GRAFICAIncorrelazione

Xi

Yi

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

Xi

Correlazione diretta

Yi

-3 -2 -1 0 1 2

-3-2

-10

12

Yi

Xi

Correlazione diretta

-2 -1 0 1 2 3

-2-1

01

23

Correlazione diretta

Xi

Yi

-3 -2 -1 0 1 2

-3-2

-10

12

Correlazione inversa

Xi

Yi

-2 -1 0 1 2 3-3

-2-1

01

2

Correlazione inversa

Xi

Yi

-3 -2 -1 0 1 2

-3-2

-10

12

Correlazione inversa

Xi

Yi

-2 0 2 4

-20

2

Page 79: Università della Calabria

Formula alternativa per la covarianza

1

1

1

1

n

XY i X i Yi

n

i i X Yi

x yn

x yn

Correlazione per successione di valori

1

2 22 2

1 1

1

1 1

n

i i X Yi

XY n n

i X i Yi i

x yn

x yn n

Ricordando che:

22 2

1

1 n

X i Xi

xn

22 2

1

1 n

Y i Yi

yn

e

Page 80: Università della Calabria

iiyx 2ix 2

iyCliente fedele CH

(X)fedele MM

(Y)1 0,933 0,067 0,063 0,870 0,0042 0,400 0,600 0,240 0,160 0,3603 0,820 0,180 0,148 0,672 0,0324 0,978 0,022 0,022 0,956 0,0005 0,795 0,205 0,163 0,632 0,0426 0,384 0,616 0,237 0,147 0,3797 0,986 0,014 0,014 0,972 0,0008 0,993 0,007 0,007 0,986 0,0009 0,994 0,006 0,006 0,988 0,00010 1,000 0,000 0,000 1,000 0,000Totale 8,283 1,717 0,898 7,385 0,819

Relativamente ai primi 10 consumatori misurare la correlazione tra i caratteri FEDELE CH e FEDELE MM.

ESEMPIO

1

2 22 2

1 1

1

1 1

n

i i X Yi

XY n n

i X i Yi i

x yn

x yn n

Page 81: Università della Calabria

830102838

n

xn

1ii

X ,,

170107171

n

yn

1ii

Y ,,

Ni i

i 1XY x y

x y 0 898 0 83 0 17 0 052N 10

,, , ,

n 2i

i 1x 7 385 0 738

n 10,

,

n 2i

i 1y 0 819 0 082

n 10,

,

2 2

0 052 10 738 0 83 0 082 0 17

,

, , , ,

Massima correlazione positiva

Page 82: Università della Calabria

Correlazione per tabelle a doppia entrata

1 1

2 22 2

1 1

1 ˆ ˆ

1 1ˆ ˆ

k h

i i ij X Yi j

XY k k

i i X i j Yi i

x y nn

x n y nn n

ESEMPIO

Addetti (Y) Fatturato (X) 200 200-|300 300-|550 550-|950 >950 Totale

200 5 9 7 2 2 25 200 -| 300 1 1 1 2 0 5 300 -| 400 1 2 1 3 0 7 400 -| 500 0 0 0 2 3 5 >500 0 1 0 2 5 8 Totale 7 13 9 11 10 50

Page 83: Università della Calabria

Per calcolare il termine è consigliabile costruire la tabella delle , ossia:

ˆ ˆi j iji jx y n

ˆ ˆi j ijx y n

100 250 425 750 3.608 100 50.000 225.000 297.500 150.000 721.600 250 25.000 62.500 106.250 375.000 0 350 35.000 175.000 148.750 787.500 0 450 0 0 0 675.000 4.870.800

1.256 0 314.000 0 1.884.000 22.658.240

La somma degli elementi all’interno di tale tabella è pari a:

ˆ ˆ 33.561.140i j iji jx y n

da cui

ˆ ˆ 33.561140 671.22350i j iji j

x y n

n

Page 84: Università della Calabria

Per il calcolo gli altri termini:

ˆix in ˆ jy jn ˆi ix n ˆ j jy n 2ˆix

2ˆi ix n 2ˆj

y 2ˆj jy n

100 25 100 7 2.500 700 10.000 250.000 10.000 70.000 250 5 250 13 1.250 3.250 62.500 312.500 62.500 812.500 350 7 425 9 2.450 3.825 122.500 857.500 180.625 1.625.625 450 5 750 11 2.250 8.250 202.500 1.012.500 562.500 6.187.500

1.256 8 3.608 10 10.048 36.080 1.577.536 12.620.288 13.017.664 130.176.640 18.498 52.105 15.052.788 138.872.265

1 1ˆ 18.498 369,9650X i ii

x nn

1 1ˆ 52.105 1.042,150Y j jj

y nn

671.223 369,96 1.042,1 285.687XY

2

1

1 1ˆ 15.052.788 301.05650i

k

ii

x nn

2

1

1 1ˆ 138.872.275 2.777.44550h

j jj

y nn

2 2285.687

301.056 369,96 2.777.445 1.042,10,542

XY

Correlazione diretta