Università della Calabria
description
Transcript of Università della Calabria
![Page 1: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/1.jpg)
1
Università della Calabria
Corso di Corso di statisticastatistica
ARCAVACATA a.a 2009-2010ARCAVACATA a.a 2009-2010
Campus di Arcavacata
![Page 2: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/2.jpg)
IL CONCETTO DI MEDIA
I) Criterio di internalità (Chisini)
La media di una variabile X è qualunque valore reale M intermedio tra il minimo x(1) ed il massimo x(n) di una distribuzione. 1 nx M x
II) Logica della trasferibilità di una variabile (Chisini)
La media di una variabile X è quel valore M, intermedio tra il minimo x(1) ed il massimo x(n) di una distribuzione che, rispetto ad una funzione sintetica delle osservazioni, ne lascia inalterato il valore.
1
, , , ,n
n volte
f x x f M M
Il valore della funzione f(•) non cambia se si sostituisce ad ogni intensità di X il valore M.
![Page 3: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/3.jpg)
III) Minimizzazione della perdita globale (Wald)La media di una variabile X è quel valore M che minimizza la funzione di perdita complessiva che si ottiene quando alle singole osservazioni (x1,………,xn) si sostituisce M.
, min se id x M
,id x Perdita subita nel sottrarre da xi, per i=1,2,……..,n
Funzione che sintetizza le singole perdite in un unico valore
1 2
1
n
n
ii
x x x M M M
x n M
IV) Principio della equiripartizione (Naguno-Kolmogorov-De Finetti)
La media di una variabile X è quel valore M che realizza l’equiripartizione rispetto ad una funzione
![Page 4: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/4.jpg)
LA MEDIA ARITMETICALa sua individuazione deriva dalla logica della trasferibilità di una variabile (Chisini).
1
, , , ,n
n volte
f x x f
Se la funzione f(•) corrisponde alla somma:
1 2
n
n volte
x x x
1 1 2
1
=
n
ini n
i Xi
xx x x
x nn n
![Page 5: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/5.jpg)
Media aritmetica: modalità di calcolo
Distribuzione di frequenze
Successione di n intensità1 =
n
ii
X
x
n
1=
k
i ii
X
x n
n
1
=k
X i ii
x f
Frequenze assolute Frequenze relative
1
ˆ=
k
i ii
X
x n
n
Distribuzioni in classi
1ˆ per 1,2, ,2
i ii
x xx i n
Valore centrale dell’i-esima classe
Il calcolo dei valori centrali introduce un’approssimazione perché equivale ad attribuire una ripartizione uniforme delle frequenze all’interno di ciascuna classe.
![Page 6: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/6.jpg)
Carattere NUMERO DI BOTTIGLIE
1 1 1 2 2 2 2 33 3 4 4 4 4 4 55 5 5 5 5 5 5 5 5 5 6 6 6 6
ni
i 1x 1 1 6 119 3 97
n 30 30,
ni i n
i 1i i
i 1
xnx f
n1 0 10 2 0 13
3 0 10 6 0 13 3 97
, ,
, , ,
N. bottiglie ni fi
1 3 0,102 4 0,133 3 0,104 5 0,175 11 0,376 4 0,13Totale 30 1
![Page 7: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/7.jpg)
Carattere PREZZO CH, classi equiampie (primi 20 consumatori)
Classe ci ni fi
1,69 |—| 1,77 1,73 3 0,151,77 —| 1,85 1,81 0 01,85 —| 1,93 1,89 3 0,151,93 —| 2,01 1,97 5 0,252,01 —| 2,09 2,05 9 0,45
Totale 20 1
ki i
i 1cn
n1 73 3 1 81 0 2 05 9
201 958
, , ,
,
0 11
x x 1 69 1 77c 1 732 2
, ,,
1 22
x x 1 77 1 85c 1 812 2
, ,,
k 1 kk
x xc2
i 1 ii
x xc2
![Page 8: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/8.jpg)
Proprietà della media aritmeticaI) Internalità 1 X nx x
Dim: 1 per 1, ,i nx x x i n
11 1 1
n n n
i ni i i
x x x
11
n
i ni
n x x n x
1
1 1
n
ii
Xn n
xx x x x
n
II) Proprietà Baricentrica 1
0n
i Xi
x
Dim:
1 1 1 1
1 1 1 1
0
n n n n
i X i X i Xi i i i
n n n n
i i i ii i i i
x x x n
x n x n x x
![Page 9: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/9.jpg)
III) Linearità
1 1 1, , , ,n n nx x y x y x
trasformazione lineareY XX Y
1 1 1
1
1 1 1
1 1 =
n n n
Y i ii i i
n
i Xi
x xn n n
n xn n
Y X
Corollari:
1 1 1, , , ,n n nx x y x y x
Y X
1 1 1, , , ,n n nx x y x y x
Y X
a)
b)
, Dim:
![Page 10: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/10.jpg)
Scelta Prezzo MMMM 1,99MM 1,99MM 1,99MM 2,09MM 2,09MM 2,09MM 2,09MM 2,09MM 2,13
Per i soli succhi di frutta MM considerare il carattere PREZZO MM. La casa produttrice decide di cambiare il prezzo di vendita del prodotto: per ogni acquirente il nuovo prezzo sarà pari al prezzo di vendita mediano attuale più il 18.75% del prezzo attuale. Qual è la media dei nuovi prezzi di vendita?
9 1 52
Me x x 2 09,
La nuova serie dei prezzi p* sarà dunque ottenuta dalla trasformazione lineare:
p* = 2,09 + 0,1875 p
06295518
9
p9
1ii
,,
2 09 0 1875 2 09 0 1875 2 06 2 47* , , , , , ,
* * *1 2 3p =p =p = 2,09 + 0,1875 1,99=2,46
*9p = 2,09 + 0,1875 2,13=2,49
* *4 8p = =p = 2,09 + 0,1875 2,09=2,48
9i
i 1
1 2 46 2 46 2 49p 2 479 9
* * , , ,,
![Page 11: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/11.jpg)
IV) Associatività1
1
G
X j jj
nn
G = numero di gruppinj = numerosità del j-esimo gruppo (j=1,….,G)
1 2
1, ,
j
j G
suddivisione delle intensità in G gruppi di numerosità n j G
n n n n n
1 1 1
jnn G
i iji j i
somma delle intensità
x x
1
1 11 1 1 1
1 1 1; ; ; ;
j Gn nn
i j ij G Gij Gi i i
medie dei gruppi
x x xn n n
1 1 1
1 1 1
1 1
1 1 1
j
j
nn G
X i iji j i
nG G
ij j j jjj i j
x xn n
x n nn n n
xij = j-esima intensità dell’i-esimo gruppo
Scomposizione della media generale
Media aritmetica delle medie dei
gruppi
Dim:
![Page 12: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/12.jpg)
nj Rivenditoren.bottiglie
bis
Bar 6
Bar 6
Bar 5
Bar 5
Bar 6
Bar 3
Bar 5
Bar 49 Bar 5
Coloniali 3
Coloniali 6
Coloniali 4
Coloniali 5
Coloniali 3
Coloniali 4
Coloniali 5
Coloniali 29 Coloniali 4
D. Automatico 2
D. Automatico 5
D. Automatico 34 D. Automatico 6
S.market 4
S.market 6
S.market 5
S.market 2
S.market 3
S.market 6
S.market 58 S.market 1
30 129
30i
i 1x
45
36
16
32
bar barbarbar
1 xn
col colcolcol
1 xn
da dadada
1 xn
sm smsmsm
1 xn
bar col da sm9 9 4 830
ii
1 129x 4 3n 30
,
![Page 13: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/13.jpg)
Gruppi/modalitàG
nj
j = 1, …, G
Bar 9 45Coloniali 9 36D. Automatico 4 16Supermarket 8 32Totali 30 129
jni
i 1x
bar bar col col da da sm smn n n nn
bar barbarbar
1 1x 45 5n 9
col colcolcol
1 1x 36 4n 9
da dadada
1 1x 16 4n 4
sm smsmsm
1 1x 32 4n 8
5 9 4 9 4 4 4 8 129 4 330 30
,
![Page 14: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/14.jpg)
V) Minimizzazione della somma degli scarti al quadrato
21
min se e solo se n
i Xi
x
Dim: 2 2
1 1
se n n
X i i Xi i
x x
2 2
1 1
2 2
1
1
2
n n
i i X Xi i
n
i X Xi
n
X i Xi
x x
x n
x
2 2 2
1 1
2 2
1 1
n n
i i X Xi i
n n
i i Xi i
x x n
x x
Termine nullo per la II proprie-tà della media arit-metica
![Page 15: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/15.jpg)
Quale indice di posizione scegliere?
La mediana minimizza la somma degli scarti in valore assoluto:n
ii 1
x c c Memin
La mediana è un indice robustorobusto: non subisce l’influenza di valori anomali
CRITERIO: Se occorre un indice che tenga conto di tutti i tutti i
valorivalori, si utilizza la media.
Se non si vuole che i valori estremivalori estremi alterino il valore dell’indice, allora si utilizza la mediana
esempio:Scelta del luogo in cui situare il deposito di n punti vendita, in modo da minimizzare le distanze complessive (quindi i costi):il luogo che soddisfa tale condizione è la mediana dei punti
vendita
![Page 16: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/16.jpg)
INDICI STATISTICI DI VARIABILITA’Variabilità: Attitudine di un fenomeno ad assumere diverse intensità
Caratteristiche di un indice di variabilità
• Dispersione rispetto ad un centro• Mutua variabilità• Mutevolezza delle frequenze (Concentrazione per caratteri trasferibili)
Come si misura la variabilità?
1
1 1
1 1
) , , 0
) , , 0
) , , ,
) Se , , , X è più variabile di Y
n
n n
n n
i V x x
ii V c c
iii V x c x c V x x
iv V x x V y y
V(): Indice di variabilità; c: costante nota
N.B. Un indice di variabilità è sempre maggiore o uguale a zero.
![Page 17: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/17.jpg)
Variabilità e funzione di ripartizione empirica
Una funzione di ripartizione empirica molto ripida (che subito raggiunge 1) indica scarsa variabilità. Viceversa, una funzione di ripartizione empirica che raggiunge 1 molto lentamente indica elevata variabilità.
Campo di Variazione
max minRange X x x
È molto sensibile alla presenza di valori anomali
Differenza Interquantile
r sq q q
Differenza tra due quantili equidistanti dagli estremi della distribuzioneVia via meno sensibile alla presenza di valori anomali, ma mano che r ed s si avvicinano.
r > s
![Page 18: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/18.jpg)
Differenza Interquartile
3 1IQR Q Q
È un indice più robusto del campo di variazione
Coefficiente di Variazione Interquartile
3 1 3 1
1 3 1 3
22
Q Q Q QCQVQ Q Q Q
Non dipende dall’unità di misura del carattere osservato (come il Range e l’IQR) ma solo dal rapporto tra quartili Se Me 0 allora CQV
![Page 19: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/19.jpg)
Variabilità rispetto ad un centroObiettivo: Sintetizzare una opportuna funzione degli scarti delle singole intensità dall’indice di posizione M presceltoSuccessione degli scarti: 1 2, , , , ,i nx M x M x M x M
1
2
1
0Se
min
n
ii
n
ii
xM
x
1
Se minn
ii
M Me x Me
Ogni scarto esprime la distanza di ciascuna intensità dall’indice M.
La variabilità rispetto ad un centro può essere definita specificando in diversi modi M.
Ricordiamo che:
![Page 20: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/20.jpg)
VARIANZA
22
1
1=k
X i ii
c nn
Misura la dispersione media intorno alla media aritmetica.
Si calcola come media aritmetica dei quadrati degli scarti.
1. Per una successione di valori:
2. Per una distribuzione di frequenza:
3. Per una distribuzione in classi di frequenza:
22
1
1=n
X ii
xn
22
1
1=k
X i ii
x nn
![Page 21: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/21.jpg)
N. bottiglie ni fi
1 3 0,102 4 0,133 3 0,104 5 0,175 11 0,376 4 0,13Totale 30 1
1 119 3,9730
k
i ii
x n
n
2
2 1
2 2 21 3,97 3 2 3,97 4 6 3,97 430
72,97 2, 4130
n
i ii
x n
n
2
2 21
2 2 221 3 2 4 6 4
3,9730
545 15,73 2, 4130
n
i ii
x n
n
Formula alternativa:
![Page 22: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/22.jpg)
Classe ci ni fi
1,69 |—| 1,77 1,73 3 0,151,77 —| 1,85 1,81 0 01,85 —| 1,93 1,89 3 0,151,93 —| 2,01 1,97 5 0,252,01 —| 2,09 2,05 9 0,45
Totale 20 1
2
22 1
1
2 2
2
1,73 1,96 0,15 1,81 1,96 0
2,05 1,96 0, 45 0,004
k
i i ki
i ii
c nc f
n
ni i n
i 1i i
i 1
cncf 1 73 0 15 2 05 0 45 1 96
n, , , , ,
2
2 2 2 21
1
2 2
2 2
1,73 0,15 1,81 0
2,05 0, 45 1,96 0,004
n
i i ni
i ii
c nc f
n
Formula alternativa:
![Page 23: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/23.jpg)
Proprietà della varianza
I) 20 X
II) Esprime la variabilità nella stessa unità di misura del carattere osservato, ma elevata al quadrato
III) 222X
Dim:
22
1
2 2
1 1 1
2 2
1
2 2
1
1=
1 1 12
1 2
1
n
X ii
n n n
i ii i in
ii
n
ii
xn
x xn n n
xn
xn
Formula alternativa per il calcolo della varianza
![Page 24: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/24.jpg)
IV) trasformazione lineareY XX Y
,
2 2 2Y X Dim:
e i i Y Xy x
2 22
1 1
22 2 2
1
1 1
1
n n
Y i Y i Xi i
n
i X Xi
y xn n
xn
quindi:
![Page 25: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/25.jpg)
Esempio
Scelta Prezzo MM
MM 1,99MM 1,99MM 1,99MM 2,09MM Me 2,09MM 2,09MM 2,09MM 2,09MM 2,13
Nuovo prezzo = prezzo mediano attuale + 18.75% del prezzo attuale. Qual è la varianzavarianza del nuovo prezzo?
Trasformazione lineare:
p* = 2,09 + 0,1875 p
9
1 2,069
ii
p
00209
p9
1i
2i
2 ,
2* 2 20,1875 0,035 0,002 0,000075
Calcolo della nuova varianza:
= 2,09; = 0,1875
2* 2 2
![Page 26: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/26.jpg)
V) Decomposizione della varianzaLa varianza di X è data dalla somma della media delle varianze di gruppo (varianza interna) e dalla varianza delle medie di gruppo (varianza esterna).
22 2
1 1VARIANZA INTERNA VARIANZA ESTERNA
1 1G G
X j j j X jj j
n nn n
Se:G = numero di gruppi; j: media dell’i-esimo gruppo;
nj = numerosità dell’j-esimo gruppo (j = 1,….,G);
allora:
2 2 2TOT INT EXT ossia:
![Page 27: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/27.jpg)
Dim:
1 2suddivisione delle intensità in G gruppi di numerosità
1, ,j
j G
nj G
n n n n n
222
1 1 1Varianza della partizione in gruppi
2
1 1
2 2
1 1 1 1
1 1
1 1
1
1 1
12
i
i
i i
i
nn G
X i X ij Xi j i
nG
ij j j Xj i
n nG G
ij j j Xj i j i
nG
ij j j Xj i
x xn n
xn
xn n
xn
1
1 jn
j ijj i
xn
Media aritmetica delle intensità appartenenti all’i-esimo gruppo.
![Page 28: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/28.jpg)
1 1 1 1
è uguale a zero per la I proprietà di
1 22 0i in nG G
ij j j X j X ij jj i j i
x xn n
3° Addendo
Quindi:
222
1 1 12 2
1 1 inn G
X i X ij Xi j i
INT EXT
x xn n
1° Addendo
2
1 1
2 2 2
1 1 1
Varianza dell'i-esimo gruppo
1
1 1 1
i
j
INT
nG
ij jj i
nG G
ij j j j jj i jj
xn
x n nn n n
2° Addendo
2 2 2
1 1 1Varianza delle medie di gruppo
1 1i
EXT
nG G
j X j X jj i j
nn n
![Page 29: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/29.jpg)
Esempio sceltabottiglie CH MM Totale
1 1 2 32 2 2 43 2 1 34 5 0 55 7 4 116 4 0 4
Totale 21 9 30
2 2, 43tot
6
11 21
1 1 2 2 6 4 4,2821
iCH ii
CH
x n
6
12 9
1 2 2 2 5 4 3,229
iMM ii
MM
x n
3,97
G = 2 (1 = CH; 2 = MM)
![Page 30: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/30.jpg)
6 2
2 2 11
2 2
21
1 4,28 1 6 4,28 4 40,29 1,9221 21
iCH CH ii
CH
x n
6 2
2 2 12
2 2
9
1 3,22 2 6 3,22 0 25,56 2,839 9
iMM MM ii
MM
x n
2 21
1 1,92 21 2,83 9 2,1930
G
INT j jj
nn
22
1
2 2
1
4,28 3,97 21 3,22 3,97 9 0,2430
G
EST j X jj
nn
2 2 2 2,19 0,24 2, 43TOT INT EXT
![Page 31: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/31.jpg)
SCARTO QUADRATICO MEDIO(o scostamento quadratico medio, o deviazione standard) E’ uguale alla radice quadrata della varianza. Esprime la variabilità nella stessa unità di misura del
carattere osservato.
1. Per una successione di valori:
2. Per una distribuzione di frequenza:
3. Per una distribuzione in classi di frequenza:
21
1=k
X i ii
c nn
21
1=n
X ii
xn
21
1=k
X i ii
x nn
è interpretabile come scarto medio intorno alla media; la maggior parte dei valori sono compresi nell’intervallo:
[ - ; + ]
![Page 32: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/32.jpg)
situazione di massima variabilità
0 per 1, , 1 i nx i n x n
22
1
2 2
2 2 2 2 2
2 2 2 2 2 2
22 2 2 2
1
1 0 1 11 1 21 2
11 1
n
ii
xn
n nn
n n nn
n n nn
n nn n n
n n
Nella situazione di massima variabilità
2 = 2(n-1) e 1n
MASSIMA VARIABILITA’
2 2 1 1n n
Quindi:
2 20 1
0 1
n
n
![Page 33: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/33.jpg)
INDICI DI VARIABILITA’ RELATIVA
Coefficiente di variazione X
X
CV
E’ un indice indipendente dall’unità di misura (è un numero puro) e può essere utilizzato per confrontare distribuzioni diverse
2 20 1 e 0 1n n Poiché:
0 1n
INDICE DI VARIABILITA’ RELATIVI NORMALIZZATI (compresi tra 0 ed 1)
Scarto quadratico medio relativo
max 1X X
relX X n
Si ottiene come rapporto tra il valore assunto dallo scarto ed il valore massimo che esso può assumere per la distribuzione:
![Page 34: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/34.jpg)
5614322 ,,
07029973
5611nrel ,
,,
390973561CV ,,,
N. bottiglie ni fi
1 3 0,102 4 0,133 3 0,104 5 0,175 11 0,376 4 0,13Totale 30 1
1 3,97
k
i ii
x n
n
22 1 2, 43
k
i ii
x n
n
Scarto quadratico medio:
Coefficiente di variazione:
Scarto quadratico medio relativo:
Esempio
![Page 35: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/35.jpg)
INDICI DI MUTUA VARIABILITÀ
DIFFERENZE MEDIEDifferenza Media Semplice (senza ripetizione)
Differenza Media Quadratica
Misurano quanto le unità statistiche differiscono tra di lorotra di loro (non più rispetto ad un punto fisso).Il calcolo si basa sulle differenze tra tutte le coppie di unità statistiche.
n ni j
i 1 j 1x x
n n 1
n n 2i j
i 1 j 12x x
n n 1
k ki j i j
i 1 j 1x x nn
n n 1
k k 2i j i j
i 1 j 12x x nn
n n 1
Successione di valori Distribuzione di frequenza
Successione di valori Distribuzione di frequenza
![Page 36: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/36.jpg)
A B C D E F Gxi 3 6 5 10 3 6 7
A 3 3 2 7 0 3 4B 6 3 1 4 3 0 1C 5 2 1 5 2 1 2D 10 7 4 5 7 4 3E 3 0 3 2 7 3 4F 6 3 0 1 4 3 1G 7 4 1 2 3 4 1
Scarti semplici in valore assoluto
ni j
i j 1x x 120 2 86
n n 1 7 6,
Impresa AddettiA 3B 6C 5D 10E 3F 6G 7totale 40
ni
i 1x 40 5 71
n 7,
Calcolo della Differenza Media Semplice:
![Page 37: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/37.jpg)
Impresa AddettiA 0B 0C 0D 0E 0F 0G 40
totale 40
Impresa AddettiA 5,71B 5,71C 5,71D 5,71E 5,71F 5,71G 5,71
totale 40
Equidistribuzione degli addetti Massima concentrazione di addetti
xi = xj i,j = 0A B C D E F G
xi 0 0 0 0 0 0 40A 0 0 0 0 0 0 40B 0 0 0 0 0 0 40C 0 0 0 0 0 0 40D 0 0 0 0 0 0 40E 0 0 0 0 0 0 40F 0 0 0 0 0 0 40G 40 40 40 40 40 40 40
= 2
n ni j i
i j 1 i 1x x 2 n 1 x
2n n 1 n n 1
![Page 38: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/38.jpg)
INDICE DI CONCENTRAZIONE
R2max
R = 0 se = 0Caso di equidistribuzioneequidistribuzione del carattere
R = 1 se = 2Caso di massima concentrazionemassima concentrazione del carattere
0 R 1
2 86, 2 2 5 71 11 42max , ,
2 86R 0 252 11 42
,,
,
Se:
![Page 39: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/39.jpg)
auto ni
1 32 83 64 25 1
tot 20
X = NUMERO DI AUTO POSSEDUTE relativo ad un collettivo di 20 famiglie
Caso di distribuzione di frequenza
nj 3 8 6 2 1ni auto 1 2 3 4 53 1 24 36 18 128 2 24 48 32 246 3 36 48 12 122 4 18 32 12 21 5 12 24 12 2
1
1
1 2 3 8 1 3 3 6 5 4 1 2 440 1,1620 19 380
K
i j i ji j
x x n n
N N
Scarti semplici in valore assoluto
55,222MAX
2305161R
max,,
![Page 40: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/40.jpg)
INDICI DI ETEROGENEITÀ ED OMOGENEITÀ
Mutabilità: Attitudine di un fenomeno ad assumere diverse modalità
Distribuzione Massimamente Omogenea: le n unità statistiche presentano tutte la stessa modalità
Distribuzione Massimamente Eterogenea: nella distribuzione di frequenza appaiono tutte le k modalità, e ad ognuna di esse è associata la medesima frequenza.
Caratteristiche di un indice di mutabilitàM(): Indice di mutabilità
1
1
1
) , , min massima omogeneità) , , max
massima eterogeneità) min , , max
omog./eterog. i
n
n
n
i M x x M
ii M x x M
iii M M x x M
ntermedia
![Page 41: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/41.jpg)
INDICI DI ETEROGENEITA’ ED OMOGENEITA’
2 2
1 1 1 11 1
k k k k
i i i i ii i i i
G ff ff f
INDICE DI GINI
kii kfG ,,2,1max 1
max 2 21
1 11 1 1k
i
kG
k k k
X: carattere qualitativo con k modalità
INDICE DI GINI NORMALIZZATO
11
111
12
2
max
*
kkG
kkf
k
f
GGG i
i
*0 1G
![Page 42: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/42.jpg)
Massima eterogeneità (minima omogeneità)
Modalità fi
x1 0,2x2 0,2x3 0,2x4 0,2x5 0,2Totale 1
Modalità fi
x1 0x2 0x3 1x4 0x5 0Totale 1
Minima eterogeneità (massima omogeneità)
K 2i
i 1
2
G 1 f
1 5 0,2
1 5 0 04 0 8, ,
K 2i
i 1G 1 f
1 1 0
i1f , i 1, ,kk
![Page 43: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/43.jpg)
SCELTA ni fi
CH 21 0,7MM 9 0,3Totale 30 1
K 2i
i 1
2 2
G 1 f
1 0,7 0,3 1 0 49 0 09 0 42, , ,
50211K
11G ,max
Indice di eterogeneità normalizzato di Gini (0 ≤ G* ≤1)
Indice di eterogeneità di Gini
84050420
GGG ,
,,*
max
ConclusioneG* è abbastanza elevato la distribuzione è abbastanza eterogenea: entrambe le modalità sono presenti, ma con frequenze non equilibrate tra loro.
Esempio 1
![Page 44: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/44.jpg)
Negozio ni fi
Bar 9 0,30Coloniali 9 0,30D. automatico 4 0,13Supermarket 8 0,27Totale 30 1
42i
i 1
2 2 2 2
G 1 f
1 0,3 0,3 0,13 0,27
1 0,09 0,09 0,02 0,07 0,73
750411K
11G ,max
970750730
GGG ,
,,*
max
Conclusione G* molto prossimo ad 1 la distribuzione è molto eterogenea: tutte le modalità sono presenti e con frequenze molto simili tra loro.
Esempio 2
![Page 45: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/45.jpg)
FORMA DI UNA DISTRIBUZIONE
Due distribuzioni che presentano gli stessi valori degli indici di posizione e degli indici di variabilità possono differire per il peso dei valori più grandi e/o più piccoli rispetto al valore centrale a causa del comportamento differenziato nelle code della distribuzione.La forma di una distribuzione è importante proprio per valutare l’effetto delle intensità posizionate sulle code della distribuzione.Obiettivo dello studio della forma di una distribuzione è misurare se una distribuzione è simmetrica oppure di quanto essa si discosta dalla situazione di simmetria.In una distribuzione simmetrica le intensità posizionate alla stessa distanza da un indice di posizione (ad es. la media aritmetica) ma in posizione opposta rispetto a tale indice presentano la stessa frequenza (o densità di frequenza). Una distribuzione che non risulta simmetrica si dice asimmetrica
![Page 46: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/46.jpg)
-2 0 2 4
050
010
0015
00
Intensità
Den
sità
di f
requ
enza
SIMMETRIA E ASIMMETRIADistribuzione simmetrica
Proprietà:
1 3 1 3
)) (per ditribuzioni unimodali)) ( e sono equidistanti da )
X
X
i Meii Me Moiii Q Me Q Me Q Q Me
N.B. Queste proprietà valgono in una sola direzione
![Page 47: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/47.jpg)
0 10 20 30
050
010
0015
00
Intensità
Den
sità
di f
requ
enza
-30 -20 -10 0
050
010
0015
00
Intensità
Den
sità
di f
requ
enza
Asimmetria positiva
Distribuzioni asimmetriche
Asimmetria negativa
• Le intensità si attardano sulla coda di destra della distribuzione• Per distribuzioni unimo-dali:
X Me Mo
• Le intensità si attardano sulla coda di sinistra della distribuzione• Per distribuzioni unimo-dali:
XMo Me
![Page 48: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/48.jpg)
INDICI DI FORMAForniscono informazioni sulla forma di una distribuzione (simmetria, asimmetria positiva o negativa).Indice di Hotelling e SolomonIndice di Hotelling e Solomon X
HSX
MeA
01 0 0 1
HS
HS
HS
A SimmetriaA Asimmetria PositivaA Asimmetria Negativa
Poiché vale la seguente relazione: X XMe allora: 1 1HSA
N.B. Nel caso in cui AHS = 0 la distribuzione non è necessariamente simmetrica
Indice di Yule e BowleyIndice di Yule e Bowley
1 3 1 3
1 3 3 1
2 YBMe Q Q Me Me Q QAMe Q Q Me Q Q
00 0
YB
YB
YB
A SimmetriaA Asimmetria PositivaA Asimmetria Negativa
![Page 49: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/49.jpg)
INDICI DI FORMA BASATI SULLA STANDARDIZZAZIONE
Tale indici neutralizzano l’effetto di qualunque indice di posizione e di variabilità attraverso una operazione di standardizzazione del tipo:
per 1, ,X i Xi
X X
X xX Z Z z i n
Z è la variabile standardizzata. Essa, oltre a non dipendere dall’unità di misura del carattere osservato, presenta sempre media pari a zero e varianza pari ad uno. Infatti:
11 , , , ,X i X n X
i nX X X
x x xz z z
1 1
1
1 1
1 1 1 1 0 0
n ni X
Z ii i X
n
i XiX X
xzn n
xn n
![Page 50: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/50.jpg)
2 22
1 12
2 22 2
1 1
1 1 0
1 1 1 1
n n
Z i Z ii i
n ni X
i Xi i X X
z zn n
xzn n
Indice di FisherIndice di Fisher
3
3
1 1
1 1= =n n
iF i
i i X
xA zn n
FA 00 0
F
F
F
A SimmetriaA Asimmetria positivaA Asimmetria negativa
Successione di valori
3
3
1 1
1 1= =k k
iF i i i
i i X
xA z n nn n
Distribuzione di frequenza
![Page 51: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/51.jpg)
Indici di curtosiIndici di curtosi• Misurano la maggiore o minore frequenza delle osservazioni situate nelle code della distribuzione, ossia di quelle che presentano gli scarti dalla media più elevati.
• Sono basati su un confronto tra la distribuzione empirica ed un modello teorico di riferimento quale la distribuzione distribuzione NormaleNormale.
Intensità
Den
sità
di f
requ
enza
-4 -2 0 2 4
0.0
0.1
0.2
0.3
Distribuzione Normale (Gauss-Laplace)
• E’ utilizzata come modello teorico di riferimento perché frequentemente presente come distribuzione di fenomeni naturali• E’ una distribuzione simmetrica unimodale
![Page 52: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/52.jpg)
è un indice di disnormalità basato sul confronto tra la distribuzione empirica ed il modello della distribuzione Normale
4
4
1 1
1 1= =n n
iK i
i i X
xA zn n
Successione di valori
4
4
1 1
1 1= =k k
iK i i i
i i X
xA z n nn n
Distribuzione di frequenza
Indice di curtosi di PearsonIndice di curtosi di Pearson
Per la distribuzione Normale:
AK = 3
K = AK – 3
![Page 53: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/53.jpg)
0 0 leptocurtica0 platicurtic
K Distribuzione NormaleK DistribuzioneK Distribuzione a
3KK A
Intensità
Den
sità
di f
requ
enza
-4 -2 0 2 4
0.0
0.1
0.2
0.3
K > 0
K = 0
K < 0
Distribuzione leptocurticaDistribuzione leptocurtica: i valori si accentrano intorno alla media più di quanto accade per la distribuzione NormaleDistribuzione platicurticaDistribuzione platicurtica: presenta delle densità di frequenza nella coda della distribuzione più di quanto accade per la distribuzione Normale.
![Page 54: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/54.jpg)
N. bottiglie CH ni fi Fi
1 1 0,05 0,052 2 0,09 0,143 2 0,09 0,234 5 0,25 0,485 7 0,33 0,816 4 0,19 1
Totale 21 1
N. bottiglie MM ni fi Fi
1 2 0,22 0,222 2 0,22 0,443 1 0,11 0,554 0 0 0,555 4 0,45 16 0 0 1
Totale 9 1
3
1
3 3 3
3 3 3
1
1 1 4,29 2 4,29 3 4,292 221 1,39 1,39 1,39
4 4,29 5 4,29 6 4,295 7 41,39 1,39 1,39
1 13,35 8,99 1,6 0,21
CHn CHCH iCH i
iCH CH
xAF n
n
04 0,96 7,58
15, 44 0,7421
CH = 4,29 MM = 3,22CH = 1,39 MM = 1,69
![Page 55: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/55.jpg)
MM3n MMMM i
MM ii 1MM MM
3 3
3 3
x1AF nn
1 1 3,22 2 3,222 29 1,69 1,69
3 3,22 5 3,22 41,69 1,69
1 0,664,59 0,76 0,002 4,7 0,079 21
Dal confronto risulta che entrambe le distribuzioni presentano un valore negativo dell’indice di Fisher, quindi un’asimmetria negativa, che è leggermente più accentuata per i consumatori CH.
![Page 56: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/56.jpg)
IL BOXPLOTPermette di studiare graficamente la forma di una distribuzioneCostruzione del boxplot:Costruzione del boxplot:1. Si determinano i quantili: x(1), Q1, Q2 = Me, Q3, x(n)
2. Si disegna una scatola di estremi Q1 e Q3 tagliata sulla mediana
Q 1 Me Q 3
3. Si calcolano i valori a e b: 1 3 1 3 3 11,5 ; 1,5a Q Q Q b Q Q Q
4. Si calcolano i valori e : = minimo dei valori maggiore di a = massimo dei valori minori di b
![Page 57: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/57.jpg)
5. Si disegnano i baffi sui valori e
Q 1 Me Q 3
5. I valori oltre a e b sono disegnati con dei puntini (valori anomali)
Q 1 Me Q 3
Caratteristiche del boxplot:• Permette di visualizzare le informazioni sulla forma e la variabilità di una distribuzione• Consente di confrontare graficamente la forma di più distribuzioni
![Page 58: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/58.jpg)
Esempi
Distribuzione simmetrica
Distribuzioneasimmetrica
positiva
Distribuzioneasimmetrica
negativa
3.54.04.55.05.56.06.5
510152025
-25-20-15-10-5
![Page 59: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/59.jpg)
Distribuzione CHESEMPI
Q1 = 4Q2 = Me = 5Q3 = 5 52QQ51Qa 131 ,,
3axi min
56QQ51Qb 133 ,,
6bxi max
Q1 = 2Q2 = Me = 3Q3 = 5
Distribuzione MM
52QQ51Qa 131 ,,
59QQ51Qb 133 ,,
1axi min imax x b 5 1
2
3
4
5
n. b
ottig
lie s
ucch
i MM
1
2
3
4
5
6
n. b
ottig
lie s
ucch
i CH
![Page 60: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/60.jpg)
02
46
810
Boxplot Numero di stabilimenti (n=50)
02
46
8
Boxplot Numero di stabilimenti (n=49)
1 3 11,5 1 4,5 3,5 0a Q Q Q
3 3 11,5 4 4,5 8,5 8b Q Q Q
Caso a) n=50:
Caso b) n=49:
Q1 = 1; Me = 2; Q3 = 4
Q1 = 1; Me = 2; Q3 = 4 1 3 11,5 1 4,5 3,5 0a Q Q Q
3 3 11,5 4 4,5 8,5 8b Q Q Q
![Page 61: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/61.jpg)
Le relazioni statistiche per distribuzioni doppie possono essere di due tipi:
• Connessione: esistenza di una relazione reciproca tra i due caratteri
–Dipendenza assoluta
• Dipendenza: esistenza di una relazione di causa-effetto tra i due caratteri
–Dipendenza lineare–Dipendenza in media
• Correlazione (o intedipendenza): esistenza di una relazione di dipendenza reciproca tra i due caratteri.
Relazioni statistiche
![Page 62: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/62.jpg)
INDICI DI CONNESSIONE
Indice Chi-quadro di Pearson (Indice Chi-quadro di Pearson (22))
ˆ = frequenze teorichei jij
n nn
n
Per misurare la connessione bisogna considerare le differenze tra le frequenze teoriche e le frequenze osservate.
1 1 1 1 1 1
1 1 1 1
ˆ ˆ
1 1
1 0
k h k h k h
ij ij ij iji j i j i j
k h k h
i j i ji j i j
n n n n
n n n n n nn n
n n n n nn
![Page 63: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/63.jpg)
22
1 1
ˆ
ˆ
k h ij ij
i j ij
n n
n
20
2 0 Non esiste connessione (esiste indipendenza) tra X ed Y. Ogni frequenza congiunta è pari alla rispettiva frequenza teorica.
2 0 Esiste connessione (non esiste indipendenza) tra X ed Y. Almeno una frequenza congiunta è diversa dalla rispettiva frequenza teorica.
L’indice chi-quadro è pari alla somma dei quadrati delle differenze tra le frequenze teoriche e le frequenze osservate.
![Page 64: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/64.jpg)
Formulazione alternativaFormulazione alternativa 22 ˆ
ˆij ij
i jij
n nn
2
ˆij
i j ij
nn
2ˆ
ˆij
i j ij
nn
ˆ2ˆij ij
i j ij
n nn
2ˆ 2ˆ
ijij ij
i j i j i ji j
nn n
n nn
22ij
i j i j
nn n n
n n
2
1 12 1
k h
iji j
i j
nn
n n
![Page 65: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/65.jpg)
Indice Phi-quadro di Fisher (Indice Phi-quadro di Fisher ( 22))2
2
n
20 min 1, 1k h
2 1 1 ij j ih k n n n
2 1 ij ih n n
Perfetta dipendenza bilaterale in tabelle quadrate
Perfetta dipendenza di Y da X in tabelle rettangolari
2 1 ij jk n n
Perfetta dipendenza di X da Y in tabelle rettangolari
h < k
k < h
![Page 66: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/66.jpg)
negozio scelta Bar Coloniali D. Autom. S.market Totale CH 9 8 1 3 21MM 0 1 3 5 9Totale 9 9 4 8 30
k
1i
h
1j ij
2ijij2
nnn
ˆˆ
negozio scelta Bar Coloniali D. Autom. S.market Totale CH 6,3 6,3 2,8 5,6 21MM 2,7 2,7 1,2 2,4 9Totale 9 9 4 8 30
Frequenze teoriche ijn̂
2 2 2 22
2 2 2 2
9 6,3 8 6,3 1 2,8 3 5,66,3 6,3 2,8 5,6
0 2,7 1 2,7 3 1,2 5 2, 42,7 2,7 1,2 2, 4
1,16 0, 46 2,82 13,27
Metodo A.
![Page 67: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/67.jpg)
negozio scelta Bar Coloniali D. Autom. S.market CH 81 64 1 9MM 0 1 9 25
Frequenze teoriche 2ijn
negozio scelta Bar Coloniali D. Autom. S.marketCH 189 189 84 168MM 81 81 36 72
ji nn ..
2 81 64 1 9 1 9 2530 1189 189 84 168 81 36 72
30 1,44 1 13,27
1nnnn
k
1i
h
1j ji
2ij2
..Metodo B.
440302713
n1 22 ,,
20 1
![Page 68: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/68.jpg)
negozio scelta Bar Coloniali D. Autom S.market TotaleCH 9 0 4 0 13MM 0 9 0 8 17Totale 9 9 4 8 30
Esempi di perfetta dipendenza unilateraleEsempi di perfetta dipendenza unilaterale
Massima dipendenza unilaterale del carattere SCELTA (X) dal carattere NEGOZIO (Y)
jij nn .
negozio scelta Bar Coloniali D. Autom S.market TotaleCH 21 0 0 0 21MM 0 0 9 0 9Totale 21 0 9 8 30
Massima dipendenza unilaterale del carattere NEGOZIO (Y) dal carattere SCELTA (X)
.iij nn
![Page 69: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/69.jpg)
DIPENDENZA IN MEDIA
Y quantitativo Y quantitativo X qualitativo X qualitativo
Indipendenza in media di Y da X: al variare delle modalità di X le medie delle distribuzioni condizionate di Y rimangono costanti.
X quantitativo X quantitativo Y qualitativo Y qualitativo
Indipendenza in media di X da Y: al variare delle modalità di Y le medie delle distribuzioni condizionate di X rimangono costanti.
![Page 70: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/70.jpg)
2
2 |1
| 2 2
1ˆ
iX
k
X Y y x iEXT i
X Y hX
j X jj
n
x n
2
2 |1
| 2 2
1
jY
h
Y X x Y jEXT j
Y X kY
i Y ii
n
y n
Rapporto di correlazione di PearsonRapporto di correlazione di Pearson
XY x0 – x1 x1 – x2 … xh-1 - xh tot
y1 n11 n12 … n1h n1.y2 n21 n22 … n2h n2.
nij ni.yk nk1 nk2 … nkh nk.tot n.1 n.2 n.j n.h n
Se y è quantitativo:
![Page 71: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/71.jpg)
Proprietà:
|0 1X Y
| 0X Y Perfetta indipendenza in media: le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (μX)
| 1X Y
Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalità di Y corrisponde una sola intensità di X che presenta frequenza non nulla
I)
II) |0 1Y X
III) L’indice non è simmetrico
| |Y X X Y
![Page 72: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/72.jpg)
IV) | | | | XY = Y X X Y Y X X Y
ESEMPIOFatturato (Y) Settore
merceologico (X) 200 200-
|300 300-|400
400-|500 >500 Totale
Alimentare 11 1 5 1 3 21 Bevande 1 1 0 1 0 3 Health Care 6 1 1 2 2 12 I. Packaging 7 2 1 1 3 14 Totale 25 5 7 5 7 50
1| 1
11
1 ˆ
150 11 250 1 350 5 450 1 1256 321
348, 48
h
Y X x j jj
y nn
2
2 |1
| 2 2
1
iY
k
Y X x Y iEXT i
Y X hY
j Y jj
n
y n
![Page 73: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/73.jpg)
2| 2
12
1 ˆ
150 1 250 1 450 1 266,673
h
Y X x j jj
y nn
3| 3
13
1 ˆ
150 6 250 1 350 1 450 2 1256 2 384,3312
h
Y X x j jj
y nn
4| 4
14
1 ˆ
150 7 250 2 350 1 450 1 1256 3 41214
h
Y X x j jj
y nn
1
1 ˆ
150 25 250 5 350 7 450 5 1256 7 344,8450
h
Y j jj
y nn
![Page 74: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/74.jpg)
Le medie delle distribuzioni condizionate sono tutte diverse dalla media di Y per cui esiste dipendenza in media
2
|1
2 2
2 2
348, 48 344,84 21 266,67 344,84 3384,33 344,84 12 412 344,84 14 100.474,1
i
k
Y X x Y ii
n
2
12 2
2 2
2
ˆ
150 344,84 25 250 344,84 5350 344,84 7 450 344,84 51.256 344,84 7 7.410.606
h
j Y jj
y n
![Page 75: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/75.jpg)
2
2 |1
| 2 2
1
100.474,1 0,1167.410.606
iY
k
Y X x Y iEXT i
Y X hY
j Y jj
n
y n
La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO è piuttosto debole.
![Page 76: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/76.jpg)
CORRELAZIONEMisura del grado di interdipendeza (dipendenza
reciproca) tra due caratteri quantitativi (variabili).
Coefficiente di correlazione di Bravais-Pearson ()
1 1
2 2
n n
X Yx yx y
x y
i x i YXY
X Y
1 x yn
XYXY
X Y
= covarianza tra X ed YXY
![Page 77: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/77.jpg)
La covarianza ci fornisce informazioni su come variano (co-variano) simultaneamente le due variabili considerate.
0 Indipendenza 0 Interdipendenza positiva 0 Interdipendenza negativa
XY
XY
XY
XY
1 1
0 Incorrelazione 0 Correlazione positiva0 Correlazione pegativa1 Massima correlazione positiva 1 Massima correlazione negativa
XYIl segno di XYdipende da
![Page 78: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/78.jpg)
INTERPRETAZIONE GRAFICAIncorrelazione
Xi
Yi
-3 -2 -1 0 1 2 3
-3-2
-10
12
3
Xi
Correlazione diretta
Yi
-3 -2 -1 0 1 2
-3-2
-10
12
Yi
Xi
Correlazione diretta
-2 -1 0 1 2 3
-2-1
01
23
Correlazione diretta
Xi
Yi
-3 -2 -1 0 1 2
-3-2
-10
12
Correlazione inversa
Xi
Yi
-2 -1 0 1 2 3-3
-2-1
01
2
Correlazione inversa
Xi
Yi
-3 -2 -1 0 1 2
-3-2
-10
12
Correlazione inversa
Xi
Yi
-2 0 2 4
-20
2
![Page 79: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/79.jpg)
Formula alternativa per la covarianza
1
1
1
1
n
XY i X i Yi
n
i i X Yi
x yn
x yn
Correlazione per successione di valori
1
2 22 2
1 1
1
1 1
n
i i X Yi
XY n n
i X i Yi i
x yn
x yn n
Ricordando che:
22 2
1
1 n
X i Xi
xn
22 2
1
1 n
Y i Yi
yn
e
![Page 80: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/80.jpg)
iiyx 2ix 2
iyCliente fedele CH
(X)fedele MM
(Y)1 0,933 0,067 0,063 0,870 0,0042 0,400 0,600 0,240 0,160 0,3603 0,820 0,180 0,148 0,672 0,0324 0,978 0,022 0,022 0,956 0,0005 0,795 0,205 0,163 0,632 0,0426 0,384 0,616 0,237 0,147 0,3797 0,986 0,014 0,014 0,972 0,0008 0,993 0,007 0,007 0,986 0,0009 0,994 0,006 0,006 0,988 0,00010 1,000 0,000 0,000 1,000 0,000Totale 8,283 1,717 0,898 7,385 0,819
Relativamente ai primi 10 consumatori misurare la correlazione tra i caratteri FEDELE CH e FEDELE MM.
ESEMPIO
1
2 22 2
1 1
1
1 1
n
i i X Yi
XY n n
i X i Yi i
x yn
x yn n
![Page 81: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/81.jpg)
830102838
n
xn
1ii
X ,,
170107171
n
yn
1ii
Y ,,
Ni i
i 1XY x y
x y 0 898 0 83 0 17 0 052N 10
,, , ,
n 2i
i 1x 7 385 0 738
n 10,
,
n 2i
i 1y 0 819 0 082
n 10,
,
2 2
0 052 10 738 0 83 0 082 0 17
,
, , , ,
Massima correlazione positiva
![Page 82: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/82.jpg)
Correlazione per tabelle a doppia entrata
1 1
2 22 2
1 1
1 ˆ ˆ
1 1ˆ ˆ
k h
i i ij X Yi j
XY k k
i i X i j Yi i
x y nn
x n y nn n
ESEMPIO
Addetti (Y) Fatturato (X) 200 200-|300 300-|550 550-|950 >950 Totale
200 5 9 7 2 2 25 200 -| 300 1 1 1 2 0 5 300 -| 400 1 2 1 3 0 7 400 -| 500 0 0 0 2 3 5 >500 0 1 0 2 5 8 Totale 7 13 9 11 10 50
![Page 83: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/83.jpg)
Per calcolare il termine è consigliabile costruire la tabella delle , ossia:
ˆ ˆi j iji jx y n
ˆ ˆi j ijx y n
100 250 425 750 3.608 100 50.000 225.000 297.500 150.000 721.600 250 25.000 62.500 106.250 375.000 0 350 35.000 175.000 148.750 787.500 0 450 0 0 0 675.000 4.870.800
1.256 0 314.000 0 1.884.000 22.658.240
La somma degli elementi all’interno di tale tabella è pari a:
ˆ ˆ 33.561.140i j iji jx y n
da cui
ˆ ˆ 33.561140 671.22350i j iji j
x y n
n
![Page 84: Università della Calabria](https://reader035.fdocumenti.com/reader035/viewer/2022062502/568159c4550346895dc71592/html5/thumbnails/84.jpg)
Per il calcolo gli altri termini:
ˆix in ˆ jy jn ˆi ix n ˆ j jy n 2ˆix
2ˆi ix n 2ˆj
y 2ˆj jy n
100 25 100 7 2.500 700 10.000 250.000 10.000 70.000 250 5 250 13 1.250 3.250 62.500 312.500 62.500 812.500 350 7 425 9 2.450 3.825 122.500 857.500 180.625 1.625.625 450 5 750 11 2.250 8.250 202.500 1.012.500 562.500 6.187.500
1.256 8 3.608 10 10.048 36.080 1.577.536 12.620.288 13.017.664 130.176.640 18.498 52.105 15.052.788 138.872.265
1 1ˆ 18.498 369,9650X i ii
x nn
1 1ˆ 52.105 1.042,150Y j jj
y nn
671.223 369,96 1.042,1 285.687XY
2
1
1 1ˆ 15.052.788 301.05650i
k
ii
x nn
2
1
1 1ˆ 138.872.275 2.777.44550h
j jj
y nn
2 2285.687
301.056 369,96 2.777.445 1.042,10,542
XY
Correlazione diretta