Università della Calabria

Post on 21-Mar-2016

64 views 2 download

description

Campus di Arcavacata. Università della Calabria. Corso di statistica. Dott. Massimiliano Giacalone. ARCAVACATA a.a 2009-2010. IL CONCETTO DI MEDIA. Criterio di internalità (Chisini) - PowerPoint PPT Presentation

Transcript of Università della Calabria

IL CONCETTO DI MEDIA

I) Criterio di internalità (Chisini)

La media di una variabile X è qualunque valore reale M intermedio tra il minimo x(1) ed il massimo x(n) di una distribuzione. 1 nx M x

II) Logica della trasferibilità di una variabile (Chisini)

La media di una variabile X è quel valore M, intermedio tra il minimo x(1) ed il massimo x(n) di una distribuzione che, rispetto ad una funzione sintetica delle osservazioni, ne lascia inalterato il valore.

1

, , , ,n

n volte

f x x f M M

Il valore della funzione f(•) non cambia se si sostituisce ad ogni intensità di X il valore M.

III) Minimizzazione della perdita globale (Wald)La media di una variabile X è quel valore M che minimizza la funzione di perdita complessiva che si ottiene quando alle singole osservazioni (x1,………,xn) si sostituisce M.

, min se id x M

,id x Perdita subita nel sottrarre da xi, per i=1,2,……..,n

Funzione che sintetizza le singole perdite in un unico valore

1 2

1

n

n

ii

x x x M M M

x n M

IV) Principio della equiripartizione (Naguno-Kolmogorov-De Finetti)

La media di una variabile X è quel valore M che realizza l’equiripartizione rispetto ad una funzione

LA MEDIA ARITMETICALa sua individuazione deriva dalla logica della trasferibilità di una variabile (Chisini).

1

, , , ,n

n volte

f x x f

Se la funzione f(•) corrisponde alla somma:

1 2

n

n volte

x x x

1 1 2

1

=

n

ini n

i Xi

xx x x

x nn n

Media aritmetica: modalità di calcolo

Distribuzione di frequenze

Successione di n intensità1 =

n

ii

X

x

n

1=

k

i ii

X

x n

n

1

=k

X i ii

x f

Frequenze assolute Frequenze relative

1

ˆ=

k

i ii

X

x n

n

Distribuzioni in classi

1ˆ per 1,2, ,2

i ii

x xx i n

Valore centrale dell’i-esima classe

Il calcolo dei valori centrali introduce un’approssimazione perché equivale ad attribuire una ripartizione uniforme delle frequenze all’interno di ciascuna classe.

Carattere NUMERO DI BOTTIGLIE

1 1 1 2 2 2 2 33 3 4 4 4 4 4 55 5 5 5 5 5 5 5 5 5 6 6 6 6

ni

i 1x 1 1 6 119 3 97

n 30 30,

ni i n

i 1i i

i 1

xnx f

n1 0 10 2 0 13

3 0 10 6 0 13 3 97

, ,

, , ,

N. bottiglie ni fi

1 3 0,102 4 0,133 3 0,104 5 0,175 11 0,376 4 0,13Totale 30 1

Carattere PREZZO CH, classi equiampie (primi 20 consumatori)

Classe ci ni fi

1,69 |—| 1,77 1,73 3 0,151,77 —| 1,85 1,81 0 01,85 —| 1,93 1,89 3 0,151,93 —| 2,01 1,97 5 0,252,01 —| 2,09 2,05 9 0,45

Totale 20 1

ki i

i 1cn

n1 73 3 1 81 0 2 05 9

201 958

, , ,

,

0 11

x x 1 69 1 77c 1 732 2

, ,,

1 22

x x 1 77 1 85c 1 812 2

, ,,

k 1 kk

x xc2

i 1 ii

x xc2

Proprietà della media aritmeticaI) Internalità 1 X nx x

Dim: 1 per 1, ,i nx x x i n

11 1 1

n n n

i ni i i

x x x

11

n

i ni

n x x n x

1

1 1

n

ii

Xn n

xx x x x

n

II) Proprietà Baricentrica 1

0n

i Xi

x

Dim:

1 1 1 1

1 1 1 1

0

n n n n

i X i X i Xi i i i

n n n n

i i i ii i i i

x x x n

x n x n x x

III) Linearità

1 1 1, , , ,n n nx x y x y x

trasformazione lineareY XX Y

1 1 1

1

1 1 1

1 1 =

n n n

Y i ii i i

n

i Xi

x xn n n

n xn n

Y X

Corollari:

1 1 1, , , ,n n nx x y x y x

Y X

1 1 1, , , ,n n nx x y x y x

Y X

a)

b)

, Dim:

Scelta Prezzo MMMM 1,99MM 1,99MM 1,99MM 2,09MM 2,09MM 2,09MM 2,09MM 2,09MM 2,13

Per i soli succhi di frutta MM considerare il carattere PREZZO MM. La casa produttrice decide di cambiare il prezzo di vendita del prodotto: per ogni acquirente il nuovo prezzo sarà pari al prezzo di vendita mediano attuale più il 18.75% del prezzo attuale. Qual è la media dei nuovi prezzi di vendita?

9 1 52

Me x x 2 09,

La nuova serie dei prezzi p* sarà dunque ottenuta dalla trasformazione lineare:

p* = 2,09 + 0,1875 p

06295518

9

p9

1ii

,,

2 09 0 1875 2 09 0 1875 2 06 2 47* , , , , , ,

* * *1 2 3p =p =p = 2,09 + 0,1875 1,99=2,46

*9p = 2,09 + 0,1875 2,13=2,49

* *4 8p = =p = 2,09 + 0,1875 2,09=2,48

9i

i 1

1 2 46 2 46 2 49p 2 479 9

* * , , ,,

IV) Associatività1

1

G

X j jj

nn

G = numero di gruppinj = numerosità del j-esimo gruppo (j=1,….,G)

1 2

1, ,

j

j G

suddivisione delle intensità in G gruppi di numerosità n j G

n n n n n

1 1 1

jnn G

i iji j i

somma delle intensità

x x

1

1 11 1 1 1

1 1 1; ; ; ;

j Gn nn

i j ij G Gij Gi i i

medie dei gruppi

x x xn n n

1 1 1

1 1 1

1 1

1 1 1

j

j

nn G

X i iji j i

nG G

ij j j jjj i j

x xn n

x n nn n n

xij = j-esima intensità dell’i-esimo gruppo

Scomposizione della media generale

Media aritmetica delle medie dei

gruppi

Dim:

nj Rivenditoren.bottiglie

bis

Bar 6

Bar 6

Bar 5

Bar 5

Bar 6

Bar 3

Bar 5

Bar 49 Bar 5

Coloniali 3

Coloniali 6

Coloniali 4

Coloniali 5

Coloniali 3

Coloniali 4

Coloniali 5

Coloniali 29 Coloniali 4

D. Automatico 2

D. Automatico 5

D. Automatico 34 D. Automatico 6

S.market 4

S.market 6

S.market 5

S.market 2

S.market 3

S.market 6

S.market 58 S.market 1

30 129

30i

i 1x

45

36

16

32

bar barbarbar

1 xn

col colcolcol

1 xn

da dadada

1 xn

sm smsmsm

1 xn

bar col da sm9 9 4 830

ii

1 129x 4 3n 30

,

Gruppi/modalitàG

nj

j = 1, …, G

Bar 9 45Coloniali 9 36D. Automatico 4 16Supermarket 8 32Totali 30 129

jni

i 1x

bar bar col col da da sm smn n n nn

bar barbarbar

1 1x 45 5n 9

col colcolcol

1 1x 36 4n 9

da dadada

1 1x 16 4n 4

sm smsmsm

1 1x 32 4n 8

5 9 4 9 4 4 4 8 129 4 330 30

,

V) Minimizzazione della somma degli scarti al quadrato

21

min se e solo se n

i Xi

x

Dim: 2 2

1 1

se n n

X i i Xi i

x x

2 2

1 1

2 2

1

1

2

n n

i i X Xi i

n

i X Xi

n

X i Xi

x x

x n

x

2 2 2

1 1

2 2

1 1

n n

i i X Xi i

n n

i i Xi i

x x n

x x

Termine nullo per la II proprie-tà della media arit-metica

Quale indice di posizione scegliere?

La mediana minimizza la somma degli scarti in valore assoluto:n

ii 1

x c c Memin

La mediana è un indice robustorobusto: non subisce l’influenza di valori anomali

CRITERIO: Se occorre un indice che tenga conto di tutti i tutti i

valorivalori, si utilizza la media.

Se non si vuole che i valori estremivalori estremi alterino il valore dell’indice, allora si utilizza la mediana

esempio:Scelta del luogo in cui situare il deposito di n punti vendita, in modo da minimizzare le distanze complessive (quindi i costi):il luogo che soddisfa tale condizione è la mediana dei punti

vendita

INDICI STATISTICI DI VARIABILITA’Variabilità: Attitudine di un fenomeno ad assumere diverse intensità

Caratteristiche di un indice di variabilità

• Dispersione rispetto ad un centro• Mutua variabilità• Mutevolezza delle frequenze (Concentrazione per caratteri trasferibili)

Come si misura la variabilità?

1

1 1

1 1

) , , 0

) , , 0

) , , ,

) Se , , , X è più variabile di Y

n

n n

n n

i V x x

ii V c c

iii V x c x c V x x

iv V x x V y y

V(): Indice di variabilità; c: costante nota

N.B. Un indice di variabilità è sempre maggiore o uguale a zero.

Variabilità e funzione di ripartizione empirica

Una funzione di ripartizione empirica molto ripida (che subito raggiunge 1) indica scarsa variabilità. Viceversa, una funzione di ripartizione empirica che raggiunge 1 molto lentamente indica elevata variabilità.

Campo di Variazione

max minRange X x x

È molto sensibile alla presenza di valori anomali

Differenza Interquantile

r sq q q

Differenza tra due quantili equidistanti dagli estremi della distribuzioneVia via meno sensibile alla presenza di valori anomali, ma mano che r ed s si avvicinano.

r > s

Differenza Interquartile

3 1IQR Q Q

È un indice più robusto del campo di variazione

Coefficiente di Variazione Interquartile

3 1 3 1

1 3 1 3

22

Q Q Q QCQVQ Q Q Q

Non dipende dall’unità di misura del carattere osservato (come il Range e l’IQR) ma solo dal rapporto tra quartili Se Me 0 allora CQV

Variabilità rispetto ad un centroObiettivo: Sintetizzare una opportuna funzione degli scarti delle singole intensità dall’indice di posizione M presceltoSuccessione degli scarti: 1 2, , , , ,i nx M x M x M x M

1

2

1

0Se

min

n

ii

n

ii

xM

x

1

Se minn

ii

M Me x Me

Ogni scarto esprime la distanza di ciascuna intensità dall’indice M.

La variabilità rispetto ad un centro può essere definita specificando in diversi modi M.

Ricordiamo che:

VARIANZA

22

1

1=k

X i ii

c nn

Misura la dispersione media intorno alla media aritmetica.

Si calcola come media aritmetica dei quadrati degli scarti.

1. Per una successione di valori:

2. Per una distribuzione di frequenza:

3. Per una distribuzione in classi di frequenza:

22

1

1=n

X ii

xn

22

1

1=k

X i ii

x nn

N. bottiglie ni fi

1 3 0,102 4 0,133 3 0,104 5 0,175 11 0,376 4 0,13Totale 30 1

1 119 3,9730

k

i ii

x n

n

2

2 1

2 2 21 3,97 3 2 3,97 4 6 3,97 430

72,97 2, 4130

n

i ii

x n

n

2

2 21

2 2 221 3 2 4 6 4

3,9730

545 15,73 2, 4130

n

i ii

x n

n

Formula alternativa:

Classe ci ni fi

1,69 |—| 1,77 1,73 3 0,151,77 —| 1,85 1,81 0 01,85 —| 1,93 1,89 3 0,151,93 —| 2,01 1,97 5 0,252,01 —| 2,09 2,05 9 0,45

Totale 20 1

2

22 1

1

2 2

2

1,73 1,96 0,15 1,81 1,96 0

2,05 1,96 0, 45 0,004

k

i i ki

i ii

c nc f

n

ni i n

i 1i i

i 1

cncf 1 73 0 15 2 05 0 45 1 96

n, , , , ,

2

2 2 2 21

1

2 2

2 2

1,73 0,15 1,81 0

2,05 0, 45 1,96 0,004

n

i i ni

i ii

c nc f

n

Formula alternativa:

Proprietà della varianza

I) 20 X

II) Esprime la variabilità nella stessa unità di misura del carattere osservato, ma elevata al quadrato

III) 222X

Dim:

22

1

2 2

1 1 1

2 2

1

2 2

1

1=

1 1 12

1 2

1

n

X ii

n n n

i ii i in

ii

n

ii

xn

x xn n n

xn

xn

Formula alternativa per il calcolo della varianza

IV) trasformazione lineareY XX Y

,

2 2 2Y X Dim:

e i i Y Xy x

2 22

1 1

22 2 2

1

1 1

1

n n

Y i Y i Xi i

n

i X Xi

y xn n

xn

quindi:

Esempio

Scelta Prezzo MM

MM 1,99MM 1,99MM 1,99MM 2,09MM Me 2,09MM 2,09MM 2,09MM 2,09MM 2,13

Nuovo prezzo = prezzo mediano attuale + 18.75% del prezzo attuale. Qual è la varianzavarianza del nuovo prezzo?

Trasformazione lineare:

p* = 2,09 + 0,1875 p

9

1 2,069

ii

p

00209

p9

1i

2i

2 ,

2* 2 20,1875 0,035 0,002 0,000075

Calcolo della nuova varianza:

= 2,09; = 0,1875

2* 2 2

V) Decomposizione della varianzaLa varianza di X è data dalla somma della media delle varianze di gruppo (varianza interna) e dalla varianza delle medie di gruppo (varianza esterna).

22 2

1 1VARIANZA INTERNA VARIANZA ESTERNA

1 1G G

X j j j X jj j

n nn n

Se:G = numero di gruppi; j: media dell’i-esimo gruppo;

nj = numerosità dell’j-esimo gruppo (j = 1,….,G);

allora:

2 2 2TOT INT EXT ossia:

Dim:

1 2suddivisione delle intensità in G gruppi di numerosità

1, ,j

j G

nj G

n n n n n

222

1 1 1Varianza della partizione in gruppi

2

1 1

2 2

1 1 1 1

1 1

1 1

1

1 1

12

i

i

i i

i

nn G

X i X ij Xi j i

nG

ij j j Xj i

n nG G

ij j j Xj i j i

nG

ij j j Xj i

x xn n

xn

xn n

xn

1

1 jn

j ijj i

xn

Media aritmetica delle intensità appartenenti all’i-esimo gruppo.

1 1 1 1

è uguale a zero per la I proprietà di

1 22 0i in nG G

ij j j X j X ij jj i j i

x xn n

3° Addendo

Quindi:

222

1 1 12 2

1 1 inn G

X i X ij Xi j i

INT EXT

x xn n

1° Addendo

2

1 1

2 2 2

1 1 1

Varianza dell'i-esimo gruppo

1

1 1 1

i

j

INT

nG

ij jj i

nG G

ij j j j jj i jj

xn

x n nn n n

2° Addendo

2 2 2

1 1 1Varianza delle medie di gruppo

1 1i

EXT

nG G

j X j X jj i j

nn n

Esempio sceltabottiglie CH MM Totale

1 1 2 32 2 2 43 2 1 34 5 0 55 7 4 116 4 0 4

Totale 21 9 30

2 2, 43tot

6

11 21

1 1 2 2 6 4 4,2821

iCH ii

CH

x n

6

12 9

1 2 2 2 5 4 3,229

iMM ii

MM

x n

3,97

G = 2 (1 = CH; 2 = MM)

6 2

2 2 11

2 2

21

1 4,28 1 6 4,28 4 40,29 1,9221 21

iCH CH ii

CH

x n

6 2

2 2 12

2 2

9

1 3,22 2 6 3,22 0 25,56 2,839 9

iMM MM ii

MM

x n

2 21

1 1,92 21 2,83 9 2,1930

G

INT j jj

nn

22

1

2 2

1

4,28 3,97 21 3,22 3,97 9 0,2430

G

EST j X jj

nn

2 2 2 2,19 0,24 2, 43TOT INT EXT

SCARTO QUADRATICO MEDIO(o scostamento quadratico medio, o deviazione standard) E’ uguale alla radice quadrata della varianza. Esprime la variabilità nella stessa unità di misura del

carattere osservato.

1. Per una successione di valori:

2. Per una distribuzione di frequenza:

3. Per una distribuzione in classi di frequenza:

21

1=k

X i ii

c nn

21

1=n

X ii

xn

21

1=k

X i ii

x nn

è interpretabile come scarto medio intorno alla media; la maggior parte dei valori sono compresi nell’intervallo:

[ - ; + ]

situazione di massima variabilità

0 per 1, , 1 i nx i n x n

22

1

2 2

2 2 2 2 2

2 2 2 2 2 2

22 2 2 2

1

1 0 1 11 1 21 2

11 1

n

ii

xn

n nn

n n nn

n n nn

n nn n n

n n

Nella situazione di massima variabilità

2 = 2(n-1) e 1n

MASSIMA VARIABILITA’

2 2 1 1n n

Quindi:

2 20 1

0 1

n

n

INDICI DI VARIABILITA’ RELATIVA

Coefficiente di variazione X

X

CV

E’ un indice indipendente dall’unità di misura (è un numero puro) e può essere utilizzato per confrontare distribuzioni diverse

2 20 1 e 0 1n n Poiché:

0 1n

INDICE DI VARIABILITA’ RELATIVI NORMALIZZATI (compresi tra 0 ed 1)

Scarto quadratico medio relativo

max 1X X

relX X n

Si ottiene come rapporto tra il valore assunto dallo scarto ed il valore massimo che esso può assumere per la distribuzione:

5614322 ,,

07029973

5611nrel ,

,,

390973561CV ,,,

N. bottiglie ni fi

1 3 0,102 4 0,133 3 0,104 5 0,175 11 0,376 4 0,13Totale 30 1

1 3,97

k

i ii

x n

n

22 1 2, 43

k

i ii

x n

n

Scarto quadratico medio:

Coefficiente di variazione:

Scarto quadratico medio relativo:

Esempio

INDICI DI MUTUA VARIABILITÀ

DIFFERENZE MEDIEDifferenza Media Semplice (senza ripetizione)

Differenza Media Quadratica

Misurano quanto le unità statistiche differiscono tra di lorotra di loro (non più rispetto ad un punto fisso).Il calcolo si basa sulle differenze tra tutte le coppie di unità statistiche.

n ni j

i 1 j 1x x

n n 1

n n 2i j

i 1 j 12x x

n n 1

k ki j i j

i 1 j 1x x nn

n n 1

k k 2i j i j

i 1 j 12x x nn

n n 1

Successione di valori Distribuzione di frequenza

Successione di valori Distribuzione di frequenza

A B C D E F Gxi 3 6 5 10 3 6 7

A 3 3 2 7 0 3 4B 6 3 1 4 3 0 1C 5 2 1 5 2 1 2D 10 7 4 5 7 4 3E 3 0 3 2 7 3 4F 6 3 0 1 4 3 1G 7 4 1 2 3 4 1

Scarti semplici in valore assoluto

ni j

i j 1x x 120 2 86

n n 1 7 6,

Impresa AddettiA 3B 6C 5D 10E 3F 6G 7totale 40

ni

i 1x 40 5 71

n 7,

Calcolo della Differenza Media Semplice:

Impresa AddettiA 0B 0C 0D 0E 0F 0G 40

totale 40

Impresa AddettiA 5,71B 5,71C 5,71D 5,71E 5,71F 5,71G 5,71

totale 40

Equidistribuzione degli addetti Massima concentrazione di addetti

xi = xj i,j = 0A B C D E F G

xi 0 0 0 0 0 0 40A 0 0 0 0 0 0 40B 0 0 0 0 0 0 40C 0 0 0 0 0 0 40D 0 0 0 0 0 0 40E 0 0 0 0 0 0 40F 0 0 0 0 0 0 40G 40 40 40 40 40 40 40

= 2

n ni j i

i j 1 i 1x x 2 n 1 x

2n n 1 n n 1

INDICE DI CONCENTRAZIONE

R2max

R = 0 se = 0Caso di equidistribuzioneequidistribuzione del carattere

R = 1 se = 2Caso di massima concentrazionemassima concentrazione del carattere

0 R 1

2 86, 2 2 5 71 11 42max , ,

2 86R 0 252 11 42

,,

,

Se:

auto ni

1 32 83 64 25 1

tot 20

X = NUMERO DI AUTO POSSEDUTE relativo ad un collettivo di 20 famiglie

Caso di distribuzione di frequenza

nj 3 8 6 2 1ni auto 1 2 3 4 53 1 24 36 18 128 2 24 48 32 246 3 36 48 12 122 4 18 32 12 21 5 12 24 12 2

1

1

1 2 3 8 1 3 3 6 5 4 1 2 440 1,1620 19 380

K

i j i ji j

x x n n

N N

Scarti semplici in valore assoluto

55,222MAX

2305161R

max,,

INDICI DI ETEROGENEITÀ ED OMOGENEITÀ

Mutabilità: Attitudine di un fenomeno ad assumere diverse modalità

Distribuzione Massimamente Omogenea: le n unità statistiche presentano tutte la stessa modalità

Distribuzione Massimamente Eterogenea: nella distribuzione di frequenza appaiono tutte le k modalità, e ad ognuna di esse è associata la medesima frequenza.

Caratteristiche di un indice di mutabilitàM(): Indice di mutabilità

1

1

1

) , , min massima omogeneità) , , max

massima eterogeneità) min , , max

omog./eterog. i

n

n

n

i M x x M

ii M x x M

iii M M x x M

ntermedia

INDICI DI ETEROGENEITA’ ED OMOGENEITA’

2 2

1 1 1 11 1

k k k k

i i i i ii i i i

G ff ff f

INDICE DI GINI

kii kfG ,,2,1max 1

max 2 21

1 11 1 1k

i

kG

k k k

X: carattere qualitativo con k modalità

INDICE DI GINI NORMALIZZATO

11

111

12

2

max

*

kkG

kkf

k

f

GGG i

i

*0 1G

Massima eterogeneità (minima omogeneità)

Modalità fi

x1 0,2x2 0,2x3 0,2x4 0,2x5 0,2Totale 1

Modalità fi

x1 0x2 0x3 1x4 0x5 0Totale 1

Minima eterogeneità (massima omogeneità)

K 2i

i 1

2

G 1 f

1 5 0,2

1 5 0 04 0 8, ,

K 2i

i 1G 1 f

1 1 0

i1f , i 1, ,kk

SCELTA ni fi

CH 21 0,7MM 9 0,3Totale 30 1

K 2i

i 1

2 2

G 1 f

1 0,7 0,3 1 0 49 0 09 0 42, , ,

50211K

11G ,max

Indice di eterogeneità normalizzato di Gini (0 ≤ G* ≤1)

Indice di eterogeneità di Gini

84050420

GGG ,

,,*

max

ConclusioneG* è abbastanza elevato la distribuzione è abbastanza eterogenea: entrambe le modalità sono presenti, ma con frequenze non equilibrate tra loro.

Esempio 1

Negozio ni fi

Bar 9 0,30Coloniali 9 0,30D. automatico 4 0,13Supermarket 8 0,27Totale 30 1

42i

i 1

2 2 2 2

G 1 f

1 0,3 0,3 0,13 0,27

1 0,09 0,09 0,02 0,07 0,73

750411K

11G ,max

970750730

GGG ,

,,*

max

Conclusione G* molto prossimo ad 1 la distribuzione è molto eterogenea: tutte le modalità sono presenti e con frequenze molto simili tra loro.

Esempio 2

FORMA DI UNA DISTRIBUZIONE

Due distribuzioni che presentano gli stessi valori degli indici di posizione e degli indici di variabilità possono differire per il peso dei valori più grandi e/o più piccoli rispetto al valore centrale a causa del comportamento differenziato nelle code della distribuzione.La forma di una distribuzione è importante proprio per valutare l’effetto delle intensità posizionate sulle code della distribuzione.Obiettivo dello studio della forma di una distribuzione è misurare se una distribuzione è simmetrica oppure di quanto essa si discosta dalla situazione di simmetria.In una distribuzione simmetrica le intensità posizionate alla stessa distanza da un indice di posizione (ad es. la media aritmetica) ma in posizione opposta rispetto a tale indice presentano la stessa frequenza (o densità di frequenza). Una distribuzione che non risulta simmetrica si dice asimmetrica

-2 0 2 4

050

010

0015

00

Intensità

Den

sità

di f

requ

enza

SIMMETRIA E ASIMMETRIADistribuzione simmetrica

Proprietà:

1 3 1 3

)) (per ditribuzioni unimodali)) ( e sono equidistanti da )

X

X

i Meii Me Moiii Q Me Q Me Q Q Me

N.B. Queste proprietà valgono in una sola direzione

0 10 20 30

050

010

0015

00

Intensità

Den

sità

di f

requ

enza

-30 -20 -10 0

050

010

0015

00

Intensità

Den

sità

di f

requ

enza

Asimmetria positiva

Distribuzioni asimmetriche

Asimmetria negativa

• Le intensità si attardano sulla coda di destra della distribuzione• Per distribuzioni unimo-dali:

X Me Mo

• Le intensità si attardano sulla coda di sinistra della distribuzione• Per distribuzioni unimo-dali:

XMo Me

INDICI DI FORMAForniscono informazioni sulla forma di una distribuzione (simmetria, asimmetria positiva o negativa).Indice di Hotelling e SolomonIndice di Hotelling e Solomon X

HSX

MeA

01 0 0 1

HS

HS

HS

A SimmetriaA Asimmetria PositivaA Asimmetria Negativa

Poiché vale la seguente relazione: X XMe allora: 1 1HSA

N.B. Nel caso in cui AHS = 0 la distribuzione non è necessariamente simmetrica

Indice di Yule e BowleyIndice di Yule e Bowley

1 3 1 3

1 3 3 1

2 YBMe Q Q Me Me Q QAMe Q Q Me Q Q

00 0

YB

YB

YB

A SimmetriaA Asimmetria PositivaA Asimmetria Negativa

INDICI DI FORMA BASATI SULLA STANDARDIZZAZIONE

Tale indici neutralizzano l’effetto di qualunque indice di posizione e di variabilità attraverso una operazione di standardizzazione del tipo:

per 1, ,X i Xi

X X

X xX Z Z z i n

Z è la variabile standardizzata. Essa, oltre a non dipendere dall’unità di misura del carattere osservato, presenta sempre media pari a zero e varianza pari ad uno. Infatti:

11 , , , ,X i X n X

i nX X X

x x xz z z

1 1

1

1 1

1 1 1 1 0 0

n ni X

Z ii i X

n

i XiX X

xzn n

xn n

2 22

1 12

2 22 2

1 1

1 1 0

1 1 1 1

n n

Z i Z ii i

n ni X

i Xi i X X

z zn n

xzn n

Indice di FisherIndice di Fisher

3

3

1 1

1 1= =n n

iF i

i i X

xA zn n

FA 00 0

F

F

F

A SimmetriaA Asimmetria positivaA Asimmetria negativa

Successione di valori

3

3

1 1

1 1= =k k

iF i i i

i i X

xA z n nn n

Distribuzione di frequenza

Indici di curtosiIndici di curtosi• Misurano la maggiore o minore frequenza delle osservazioni situate nelle code della distribuzione, ossia di quelle che presentano gli scarti dalla media più elevati.

• Sono basati su un confronto tra la distribuzione empirica ed un modello teorico di riferimento quale la distribuzione distribuzione NormaleNormale.

Intensità

Den

sità

di f

requ

enza

-4 -2 0 2 4

0.0

0.1

0.2

0.3

Distribuzione Normale (Gauss-Laplace)

• E’ utilizzata come modello teorico di riferimento perché frequentemente presente come distribuzione di fenomeni naturali• E’ una distribuzione simmetrica unimodale

è un indice di disnormalità basato sul confronto tra la distribuzione empirica ed il modello della distribuzione Normale

4

4

1 1

1 1= =n n

iK i

i i X

xA zn n

Successione di valori

4

4

1 1

1 1= =k k

iK i i i

i i X

xA z n nn n

Distribuzione di frequenza

Indice di curtosi di PearsonIndice di curtosi di Pearson

Per la distribuzione Normale:

AK = 3

K = AK – 3

0 0 leptocurtica0 platicurtic

K Distribuzione NormaleK DistribuzioneK Distribuzione a

3KK A

Intensità

Den

sità

di f

requ

enza

-4 -2 0 2 4

0.0

0.1

0.2

0.3

K > 0

K = 0

K < 0

Distribuzione leptocurticaDistribuzione leptocurtica: i valori si accentrano intorno alla media più di quanto accade per la distribuzione NormaleDistribuzione platicurticaDistribuzione platicurtica: presenta delle densità di frequenza nella coda della distribuzione più di quanto accade per la distribuzione Normale.

N. bottiglie CH ni fi Fi

1 1 0,05 0,052 2 0,09 0,143 2 0,09 0,234 5 0,25 0,485 7 0,33 0,816 4 0,19 1

Totale 21 1

N. bottiglie MM ni fi Fi

1 2 0,22 0,222 2 0,22 0,443 1 0,11 0,554 0 0 0,555 4 0,45 16 0 0 1

Totale 9 1

3

1

3 3 3

3 3 3

1

1 1 4,29 2 4,29 3 4,292 221 1,39 1,39 1,39

4 4,29 5 4,29 6 4,295 7 41,39 1,39 1,39

1 13,35 8,99 1,6 0,21

CHn CHCH iCH i

iCH CH

xAF n

n

04 0,96 7,58

15, 44 0,7421

CH = 4,29 MM = 3,22CH = 1,39 MM = 1,69

MM3n MMMM i

MM ii 1MM MM

3 3

3 3

x1AF nn

1 1 3,22 2 3,222 29 1,69 1,69

3 3,22 5 3,22 41,69 1,69

1 0,664,59 0,76 0,002 4,7 0,079 21

Dal confronto risulta che entrambe le distribuzioni presentano un valore negativo dell’indice di Fisher, quindi un’asimmetria negativa, che è leggermente più accentuata per i consumatori CH.

IL BOXPLOTPermette di studiare graficamente la forma di una distribuzioneCostruzione del boxplot:Costruzione del boxplot:1. Si determinano i quantili: x(1), Q1, Q2 = Me, Q3, x(n)

2. Si disegna una scatola di estremi Q1 e Q3 tagliata sulla mediana

Q 1 Me Q 3

3. Si calcolano i valori a e b: 1 3 1 3 3 11,5 ; 1,5a Q Q Q b Q Q Q

4. Si calcolano i valori e : = minimo dei valori maggiore di a = massimo dei valori minori di b

5. Si disegnano i baffi sui valori e

Q 1 Me Q 3

5. I valori oltre a e b sono disegnati con dei puntini (valori anomali)

Q 1 Me Q 3

Caratteristiche del boxplot:• Permette di visualizzare le informazioni sulla forma e la variabilità di una distribuzione• Consente di confrontare graficamente la forma di più distribuzioni

Esempi

Distribuzione simmetrica

Distribuzioneasimmetrica

positiva

Distribuzioneasimmetrica

negativa

3.54.04.55.05.56.06.5

510152025

-25-20-15-10-5

Distribuzione CHESEMPI

Q1 = 4Q2 = Me = 5Q3 = 5 52QQ51Qa 131 ,,

3axi min

56QQ51Qb 133 ,,

6bxi max

Q1 = 2Q2 = Me = 3Q3 = 5

Distribuzione MM

52QQ51Qa 131 ,,

59QQ51Qb 133 ,,

1axi min imax x b 5 1

2

3

4

5

n. b

ottig

lie s

ucch

i MM

1

2

3

4

5

6

n. b

ottig

lie s

ucch

i CH

02

46

810

Boxplot Numero di stabilimenti (n=50)

02

46

8

Boxplot Numero di stabilimenti (n=49)

1 3 11,5 1 4,5 3,5 0a Q Q Q

3 3 11,5 4 4,5 8,5 8b Q Q Q

Caso a) n=50:

Caso b) n=49:

Q1 = 1; Me = 2; Q3 = 4

Q1 = 1; Me = 2; Q3 = 4 1 3 11,5 1 4,5 3,5 0a Q Q Q

3 3 11,5 4 4,5 8,5 8b Q Q Q

Le relazioni statistiche per distribuzioni doppie possono essere di due tipi:

• Connessione: esistenza di una relazione reciproca tra i due caratteri

–Dipendenza assoluta

• Dipendenza: esistenza di una relazione di causa-effetto tra i due caratteri

–Dipendenza lineare–Dipendenza in media

• Correlazione (o intedipendenza): esistenza di una relazione di dipendenza reciproca tra i due caratteri.

Relazioni statistiche

INDICI DI CONNESSIONE

Indice Chi-quadro di Pearson (Indice Chi-quadro di Pearson (22))

ˆ = frequenze teorichei jij

n nn

n

Per misurare la connessione bisogna considerare le differenze tra le frequenze teoriche e le frequenze osservate.

1 1 1 1 1 1

1 1 1 1

ˆ ˆ

1 1

1 0

k h k h k h

ij ij ij iji j i j i j

k h k h

i j i ji j i j

n n n n

n n n n n nn n

n n n n nn

22

1 1

ˆ

ˆ

k h ij ij

i j ij

n n

n

20

2 0 Non esiste connessione (esiste indipendenza) tra X ed Y. Ogni frequenza congiunta è pari alla rispettiva frequenza teorica.

2 0 Esiste connessione (non esiste indipendenza) tra X ed Y. Almeno una frequenza congiunta è diversa dalla rispettiva frequenza teorica.

L’indice chi-quadro è pari alla somma dei quadrati delle differenze tra le frequenze teoriche e le frequenze osservate.

Formulazione alternativaFormulazione alternativa 22 ˆ

ˆij ij

i jij

n nn

2

ˆij

i j ij

nn

ˆij

i j ij

nn

ˆ2ˆij ij

i j ij

n nn

2ˆ 2ˆ

ijij ij

i j i j i ji j

nn n

n nn

22ij

i j i j

nn n n

n n

2

1 12 1

k h

iji j

i j

nn

n n

Indice Phi-quadro di Fisher (Indice Phi-quadro di Fisher ( 22))2

2

n

20 min 1, 1k h

2 1 1 ij j ih k n n n

2 1 ij ih n n

Perfetta dipendenza bilaterale in tabelle quadrate

Perfetta dipendenza di Y da X in tabelle rettangolari

2 1 ij jk n n

Perfetta dipendenza di X da Y in tabelle rettangolari

h < k

k < h

negozio scelta Bar Coloniali D. Autom. S.market Totale CH 9 8 1 3 21MM  0 1 3 5 9Totale 9 9 4 8 30

k

1i

h

1j ij

2ijij2

nnn

ˆˆ

negozio scelta Bar Coloniali D. Autom. S.market Totale CH 6,3 6,3 2,8 5,6 21MM 2,7 2,7 1,2 2,4 9Totale 9 9 4 8 30

Frequenze teoriche ijn̂

2 2 2 22

2 2 2 2

9 6,3 8 6,3 1 2,8 3 5,66,3 6,3 2,8 5,6

0 2,7 1 2,7 3 1,2 5 2, 42,7 2,7 1,2 2, 4

1,16 0, 46 2,82 13,27

Metodo A.

negozio scelta Bar Coloniali D. Autom. S.market CH 81 64 1 9MM  0 1 9 25

Frequenze teoriche 2ijn

negozio scelta Bar Coloniali D. Autom. S.marketCH 189 189 84 168MM 81 81 36 72

ji nn ..

2 81 64 1 9 1 9 2530 1189 189 84 168 81 36 72

30 1,44 1 13,27

1nnnn

k

1i

h

1j ji

2ij2

..Metodo B.

440302713

n1 22 ,,

20 1

negozio scelta Bar Coloniali D. Autom S.market TotaleCH 9 0 4 0 13MM 0 9 0 8 17Totale 9 9 4 8 30

Esempi di perfetta dipendenza unilateraleEsempi di perfetta dipendenza unilaterale

Massima dipendenza unilaterale del carattere SCELTA (X) dal carattere NEGOZIO (Y)

jij nn .

negozio scelta Bar Coloniali D. Autom S.market TotaleCH 21 0 0 0 21MM 0 0 9 0 9Totale 21 0 9 8 30

Massima dipendenza unilaterale del carattere NEGOZIO (Y) dal carattere SCELTA (X)

.iij nn

DIPENDENZA IN MEDIA

Y quantitativo Y quantitativo X qualitativo X qualitativo

Indipendenza in media di Y da X: al variare delle modalità di X le medie delle distribuzioni condizionate di Y rimangono costanti.

X quantitativo X quantitativo Y qualitativo Y qualitativo

Indipendenza in media di X da Y: al variare delle modalità di Y le medie delle distribuzioni condizionate di X rimangono costanti.

2

2 |1

| 2 2

iX

k

X Y y x iEXT i

X Y hX

j X jj

n

x n

2

2 |1

| 2 2

1

jY

h

Y X x Y jEXT j

Y X kY

i Y ii

n

y n

Rapporto di correlazione di PearsonRapporto di correlazione di Pearson

XY x0 – x1 x1 – x2 … xh-1 - xh tot

y1 n11 n12 … n1h n1.y2 n21 n22 … n2h n2.

nij ni.yk nk1 nk2 … nkh nk.tot n.1 n.2 n.j n.h n

Se y è quantitativo:

Proprietà:

|0 1X Y

| 0X Y Perfetta indipendenza in media: le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (μX)

| 1X Y

Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalità di Y corrisponde una sola intensità di X che presenta frequenza non nulla

I)

II) |0 1Y X

III) L’indice non è simmetrico

| |Y X X Y

IV) | | | | XY = Y X X Y Y X X Y

ESEMPIOFatturato (Y) Settore

merceologico (X) 200 200-

|300 300-|400

400-|500 >500 Totale

Alimentare 11 1 5 1 3 21 Bevande 1 1 0 1 0 3 Health Care 6 1 1 2 2 12 I. Packaging 7 2 1 1 3 14 Totale 25 5 7 5 7 50

1| 1

11

1 ˆ

150 11 250 1 350 5 450 1 1256 321

348, 48

h

Y X x j jj

y nn

2

2 |1

| 2 2

1

iY

k

Y X x Y iEXT i

Y X hY

j Y jj

n

y n

2| 2

12

1 ˆ

150 1 250 1 450 1 266,673

h

Y X x j jj

y nn

3| 3

13

1 ˆ

150 6 250 1 350 1 450 2 1256 2 384,3312

h

Y X x j jj

y nn

4| 4

14

1 ˆ

150 7 250 2 350 1 450 1 1256 3 41214

h

Y X x j jj

y nn

1

1 ˆ

150 25 250 5 350 7 450 5 1256 7 344,8450

h

Y j jj

y nn

Le medie delle distribuzioni condizionate sono tutte diverse dalla media di Y per cui esiste dipendenza in media

2

|1

2 2

2 2

348, 48 344,84 21 266,67 344,84 3384,33 344,84 12 412 344,84 14 100.474,1

i

k

Y X x Y ii

n

2

12 2

2 2

2

ˆ

150 344,84 25 250 344,84 5350 344,84 7 450 344,84 51.256 344,84 7 7.410.606

h

j Y jj

y n

2

2 |1

| 2 2

1

100.474,1 0,1167.410.606

iY

k

Y X x Y iEXT i

Y X hY

j Y jj

n

y n

La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO è piuttosto debole.

CORRELAZIONEMisura del grado di interdipendeza (dipendenza

reciproca) tra due caratteri quantitativi (variabili).

Coefficiente di correlazione di Bravais-Pearson ()

1 1

2 2

n n

X Yx yx y

x y

i x i YXY

X Y

1 x yn

XYXY

X Y

= covarianza tra X ed YXY

La covarianza ci fornisce informazioni su come variano (co-variano) simultaneamente le due variabili considerate.

0 Indipendenza 0 Interdipendenza positiva 0 Interdipendenza negativa

XY

XY

XY

XY

1 1

0 Incorrelazione 0 Correlazione positiva0 Correlazione pegativa1 Massima correlazione positiva 1 Massima correlazione negativa

XYIl segno di XYdipende da

INTERPRETAZIONE GRAFICAIncorrelazione

Xi

Yi

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

Xi

Correlazione diretta

Yi

-3 -2 -1 0 1 2

-3-2

-10

12

Yi

Xi

Correlazione diretta

-2 -1 0 1 2 3

-2-1

01

23

Correlazione diretta

Xi

Yi

-3 -2 -1 0 1 2

-3-2

-10

12

Correlazione inversa

Xi

Yi

-2 -1 0 1 2 3-3

-2-1

01

2

Correlazione inversa

Xi

Yi

-3 -2 -1 0 1 2

-3-2

-10

12

Correlazione inversa

Xi

Yi

-2 0 2 4

-20

2

Formula alternativa per la covarianza

1

1

1

1

n

XY i X i Yi

n

i i X Yi

x yn

x yn

Correlazione per successione di valori

1

2 22 2

1 1

1

1 1

n

i i X Yi

XY n n

i X i Yi i

x yn

x yn n

Ricordando che:

22 2

1

1 n

X i Xi

xn

22 2

1

1 n

Y i Yi

yn

e

iiyx 2ix 2

iyCliente fedele CH

(X)fedele MM

(Y)1 0,933 0,067 0,063 0,870 0,0042 0,400 0,600 0,240 0,160 0,3603 0,820 0,180 0,148 0,672 0,0324 0,978 0,022 0,022 0,956 0,0005 0,795 0,205 0,163 0,632 0,0426 0,384 0,616 0,237 0,147 0,3797 0,986 0,014 0,014 0,972 0,0008 0,993 0,007 0,007 0,986 0,0009 0,994 0,006 0,006 0,988 0,00010 1,000 0,000 0,000 1,000 0,000Totale 8,283 1,717 0,898 7,385 0,819

Relativamente ai primi 10 consumatori misurare la correlazione tra i caratteri FEDELE CH e FEDELE MM.

ESEMPIO

1

2 22 2

1 1

1

1 1

n

i i X Yi

XY n n

i X i Yi i

x yn

x yn n

830102838

n

xn

1ii

X ,,

170107171

n

yn

1ii

Y ,,

Ni i

i 1XY x y

x y 0 898 0 83 0 17 0 052N 10

,, , ,

n 2i

i 1x 7 385 0 738

n 10,

,

n 2i

i 1y 0 819 0 082

n 10,

,

2 2

0 052 10 738 0 83 0 082 0 17

,

, , , ,

Massima correlazione positiva

Correlazione per tabelle a doppia entrata

1 1

2 22 2

1 1

1 ˆ ˆ

1 1ˆ ˆ

k h

i i ij X Yi j

XY k k

i i X i j Yi i

x y nn

x n y nn n

ESEMPIO

Addetti (Y) Fatturato (X) 200 200-|300 300-|550 550-|950 >950 Totale

200 5 9 7 2 2 25 200 -| 300 1 1 1 2 0 5 300 -| 400 1 2 1 3 0 7 400 -| 500 0 0 0 2 3 5 >500 0 1 0 2 5 8 Totale 7 13 9 11 10 50

Per calcolare il termine è consigliabile costruire la tabella delle , ossia:

ˆ ˆi j iji jx y n

ˆ ˆi j ijx y n

100 250 425 750 3.608 100 50.000 225.000 297.500 150.000 721.600 250 25.000 62.500 106.250 375.000 0 350 35.000 175.000 148.750 787.500 0 450 0 0 0 675.000 4.870.800

1.256 0 314.000 0 1.884.000 22.658.240

La somma degli elementi all’interno di tale tabella è pari a:

ˆ ˆ 33.561.140i j iji jx y n

da cui

ˆ ˆ 33.561140 671.22350i j iji j

x y n

n

Per il calcolo gli altri termini:

ˆix in ˆ jy jn ˆi ix n ˆ j jy n 2ˆix

2ˆi ix n 2ˆj

y 2ˆj jy n

100 25 100 7 2.500 700 10.000 250.000 10.000 70.000 250 5 250 13 1.250 3.250 62.500 312.500 62.500 812.500 350 7 425 9 2.450 3.825 122.500 857.500 180.625 1.625.625 450 5 750 11 2.250 8.250 202.500 1.012.500 562.500 6.187.500

1.256 8 3.608 10 10.048 36.080 1.577.536 12.620.288 13.017.664 130.176.640 18.498 52.105 15.052.788 138.872.265

1 1ˆ 18.498 369,9650X i ii

x nn

1 1ˆ 52.105 1.042,150Y j jj

y nn

671.223 369,96 1.042,1 285.687XY

2

1

1 1ˆ 15.052.788 301.05650i

k

ii

x nn

2

1

1 1ˆ 138.872.275 2.777.44550h

j jj

y nn

2 2285.687

301.056 369,96 2.777.445 1.042,10,542

XY

Correlazione diretta