Indici di Dispersione o di Variabilità: Range e DIQ Dispense SBIO/2017-2018... · Indici di...
-
Upload
nguyenkhue -
Category
Documents
-
view
216 -
download
0
Transcript of Indici di Dispersione o di Variabilità: Range e DIQ Dispense SBIO/2017-2018... · Indici di...
1
Indici di Dispersione o di Variabilità:
Range e DIQ
Non basta la conoscenza di quale è la posizione media dei dati statistici, serve anche
conoscere quale è la variabilità dei dati raccolti attorno al valore medio.
Allo scopo di introducono gli indici di variabilità. Essi devono possedere le seguenti
caratteristiche di massima:
•Essere nulli in caso di variabilità nulla (tutti i dati statistici costanti)
•Essere positivi in caso di variabilità
•Essere crescenti all’aumentare della variabilità dei dati
Solitamente di indici di variabilità si basano sugli scarti rispetto ad un indice di posizione
che è solitamente individuato dalla media aritmetica dei dati statistici. Ricordiamo,
dunque, che lo scarto del dato xi rispetto alla media M è dato da si=xi-M
Def. Campo di Variabilità (Range)
E’ dato da max(xi)-min(xi) 1)min()max( xxxxS nii
(ultimo caso se
valido se i dati
sono ordinati)
Def. Differenza InterQuartile 13 QQ
2
Box Plot
E’ una sintesi grafica che consente di individuare il valore centrale e di capire quale sia
la dispersione del collettivo statistico.
max31min ,,,, xQmedianaQxPer determinare un box-plot servono:
Esso è così costituito:
• Retta su cui situare i valori
•Box con estremi Q1 e Q3 (Differenze InterQuartile): all’interno del box sono contenute il
50% delle informazioni
•Una linea verticale all’interno del box indica il valore della mediana
•Linee estrema sinistra con lunghezza da x_min a Q1: da x_min a Q1 sono contenute il
25% delle informazioni
•Linee estrema destra con lunghezza da Q3 a x_max : da Q3 a x_max sono contenute il
restante 25% delle informazioni
3
Classificazione delle Osservazioni
Recinto Interno. ]*5,1;*5,1[ 31 DIQQDIQQ
Le osservazioni fuori al Recinto Interno sono dette DISTANTI (outside)
Recinto Esterno.
]*3;*3[ 31 DIQQDIQQ
Le osservazioni fuori al Recinto Esterno sono dette MOLTO DISTANTI (far out)
Es. Osservazioni (-3,10,11,13,15,17,18,19,25,48)
Mediana = 16
Q1=11 Q3=19 DIQ=8
Recinto Interno [11-1,5*8;19+1,5*8]=[-1;31] -> -3,48 sono osservazioni anomale
(distanti)
4
Indici di Dispersione o di Variabilità:
Differenze Medie
2
1,
n
xx
D
n
ji
ji
Es.
x_i 1 3 4 6 11 somme
1 1 0 2 3 5 10 20
3 3 2 0 1 3 8 14
4 4 3 1 0 2 7 13
6 6 5 3 2 0 5 15
11 11 10 8 7 5 0 30
92
D= 3,68
5
Scarto Semplice Medio Assoluto. Varianza.
Def. Scarto Semplice Medio Assoluto
E’ la media aritmetica dei valori assoluti degli scarti dalla media
n
Mx
n
s
S
n
i
i
n
i
i
M
11
k
i
i
k
i
ii
M
f
sf
S
1
1oppure
Def. Varianza sulla Popolazione
E’ la media aritmetica degli scarti (dalla media aritmetica) al quadrato
n
s
n
Mx
X
n
i
i
n
i
i
1
2
1
2
2 )(
k
i
i
k
i
ii
k
i
i
k
i
ii
f
sf
f
Mxf
X
1
1
2
1
1
2
2 )(
oppure
6
Varianza. Devianza.
Def. Varianza sul Campione
11)( 1
2
1
2
2
n
s
n
Mx
X
n
i
i
n
i
i
11
)(
1
1
2
1
1
2
2
k
i
i
k
i
ii
k
i
i
k
i
ii
f
sf
f
Mxf
X
oppure
Def. Devianza
n
i
i
n
i
i sMxXDev1
2
1
2)(
7
Scarto Quadratico Medio (Deviazione Standard)
Def. Scarto Quadratico Medio (Deviazione Standard) sulla Popolazione
n
s
n
Mx
X
n
i
i
n
i
i
1
2
1
2
)(
k
i
i
n
i
ii
k
i
i
k
i
ii
f
sf
f
Mxf
X
1
1
2
1
1
2
)(oppure
Def. Scarto Quadratico Medio (Deviazione Standard) sul Campione
11)( 1
2
1
2
n
s
n
Mx
X
n
i
i
n
i
i
oppure
11
)(
1
1
2
1
1
2
k
i
i
n
i
ii
k
i
i
k
i
ii
f
sf
f
Mxf
X
Def. Coefficiente di Variabilità
M
X )( (Può anche essere espresso in forma percentuale)
Excel : 03a_Indici_Dispers_Conc.xls
8
Indici di dispersione: esempi
Es. Excel (disp_01): dati semplici
x_i s_i |s_i| s_i^2
1 -7 7 49
5 -3 3 9
7 -1 1 1
12 4 4 16
15 7 7 49
Totali 0 22 124
Media M= 8
Numero n = 5
Var_Pop 24,800000
Dev_St_Pop 4,979960
Var_Camp 31,000000 varianza corretta
Dev_St_Camp 5,567764 deviazione standard corretta
Scarto semplice 4,400000
Funzioni Excel 4,979960 =DEV.ST.POP(B3:B7)
5,567764 =DEV.ST(B3:B7)
124,000000 =DEV.Q(B3:B7)
somma scarti
al quadrato
24,800000 =VAR.POP(B3:B7)
31,000000 =VAR(B3:B7)
9
Indici di dispersione: esempi
Es. Excel (disp_02): dati con frequenze
x_i f_i x_i*f_i s_i s_i*f_i |s_i| |s_i|*f_i s_i^2 s_i^2*f_i
1 8 8 -1,72 -13,76 1,72 13,76 2,9584 23,6672
2 12 24 -0,72 -8,64 0,72 8,64 0,5184 6,2208
3 20 60 0,28 5,6 0,28 5,6 0,0784 1,568
4 6 24 1,28 7,68 1,28 7,68 1,6384 9,8304
5 4 20 2,28 9,12 2,28 9,12 5,1984 20,7936
Totali 50 136 1,4 0 6,28 44,8 10,392 62,08
Media M= 2,72
Var_Pop 1,241600
Dev_St_Pop 1,114271
Var_Camp 1,266939 varianza corretta
Dev_St_Camp 1,125584 deviazione standard corretta
Scarto
semplice 0,896000
10
Indici di dispersione: esempi
Es. Excel (disp_03) : classi
se le classi non hanno tutte la stessa ampiezza, come peso si utilizzano le frequenze diviso l'ampiezza della
classe
classe x_i Ampiezza f_i p_i=f_i/Ampiezza x_i*p_i s_i s_i*p_i |s_i| |s_i|*p_i s_i^2 s_i^2*p_i
[0,2] 1,0 2 3 1,50 1,50 -18,40 -27,60 18,40 27,60 338,67 508,01
[3,10] 6,5 7 54 7,71 50,14 -12,90 -99,54 12,90 99,54 166,49 1284,33
[11,100] 55,5 89 150 1,69 93,54 36,10 60,84 36,10 60,84 1302,99 2196,05
[101,500] 300,5 399 65 0,16 48,95 281,10 45,79 281,10 45,79 79015,51 12872,20
[501,1000] 750,5 499 14 0,03 21,06 731,10 20,51 731,10 20,51 534502,80 14996,07
Totali 1.114,00 11,09 215,19 1.016,98 0,00 1.079,60 254,28 615.326,46 31.856,67
Media M= 19,40
Var_Pop 2.872,39
Dev_St_Pop 53,59
Var_Camp 3.157,05 varianza corretta
Dev_St_Camp 56,19 deviazione standard corretta
Scarto semplice 22,93
11
Proprietà della Varianza
Proprietà 1: )()( XVarcXVar
Dim.
)(1
)(1
)(22
XVarcMcxn
cXmcxn
cXVari
i
i
i
Proprietà 2: )()( 2 XVarkkXVar
Dim.
)(11
)(1
)( 22222XVarkMxk
nkMkx
nkXmkx
nkXVar
i
i
i
i
i
i
Proprietà 3: )()( 2 XVarkckXVar
( ) :m X M
12
Proprietà della Varianza
Proprietà 4: 22 )()()( XmXmXVar
Dim.
i
ii
i
i MMxxn
Mxn
XVar 2222
11)(
2222 2
12
1MMMx
nMxMx
n i
i
i ii
ii
22 2 2( ) ( ) ( )m X M m X m X
13
Proprietà della Varianza
Es . Excel Var_01
x_i s_i |s_i| s_i^2 x_i^2
1 -7 7 49 1
5 -3 3 9 25
7 -1 1 1 49
12 4 4 16 144
15 7 7 49 225
Totali 0 22 124 444
Media M= 8
Numero n = 5
Var_Pop 24,800000
Dev_St_Pop 4,979960
Var_Camp 31,000000 varianza corretta
Dev_St_Camp 5,567764 deviazione standard corretta
Scarto semplice 4,400000
Nuovo Conto Var_Pop
Var_Pop 24,800000
14
Variabile Standardizzata
)(X
MXT
Data una variabile statistica X che possiede una media aritmetica M con deviazione
standard σ, si definisce Variabile Statistica Standardizzata T la seguente:
Proprietà: 0)( Tm 1)( T
Dim1.
i
i
i
i
i
ii
i
sn
Mxn
Mx
nn
t
Tm 0111
)(
Poiché la somma degli
scarti è nulla
1
)(
)(
)(
1
)(
11))((
)(2
2
2
22
2
2
2
2
X
X
n
s
XX
Mx
nt
nn
Tmt
T i
i
i
i
i
ii
i
Dim2. Dalle proprietà di media e varianza:
MXT
1
0)(11
)(
MXm
MXmTm
1)(11
)(2
XVar
MXVarTVar
15
Concentrazione
Reddito
Annuo
Numero
Persone
Centro
Classe Freq. Rel.
Freq. Rel.
Cumulate
F_i
Intensità
x_i*f_i
Intensità
Relative
Intensità
Rel. Cum.
Q_i
0-10 15 5 0,15 0,15 75 0,032328 0,032328
10-20 39 15 0,39 0,54 585 0,252155 0,284483
20-30 18 25 0,18 0,72 450 0,193966 0,478448
30-40 12 35 0,12 0,84 420 0,181034 0,659483
40-50 9 45 0,09 0,93 405 0,174569 0,834052
50-60 7 55 0,07 1 385 0,165948 1
totali 100 1 2320 1
Es . Excel Conc
16
Concentrazione Es . Curva di Concentrazione
0
0,2
0,4
0,6
0,8
1
0 0,5 1
Freq. Rel.
Cumulate
Intensità Rel.
Cum.
0 0
0,15 0,032328
0,54 0,284483
0,72 0,478448
0,84 0,659483
0,93 0,834052
1 1
Curva di Concentrazione
Retta di Equidistribuzione
Fi
Qi
Area di Concentrazione
Def. Rapporto di concentrazione
massima area
ioneconcentraz di areaR
2
1massima area
17
Concentrazione Es . Curva di Concentrazione
0
0,2
0,4
0,6
0,8
1
0 0,5 1 Fi
Qi
Area di Concentrazione
massima area
ioneconcentraz di areaR
10 R
R=0 concentrazione nulla
( Equidistribuzione)
R=1 concentrazione massima
ii
i
ii QQFF 1112
1ioneconcentraz di area
ii
i
ii QQFF 111R
Ottenuta con i
trapezi rettangoli
Curva di Lorenz
Curva di equidistribuzione
18
Concentrazione
19
Momenti Def. Momento di ordine k della variabile statistica X
n
i
k
ik xn
m1
1
Def. Momento Centrale di ordine k della variabile statistica X
n
i
k
i
n
i
k
ik Mxn
sn 11
11
Nota: 01 2
2
20
Indici di Forma: Asimmetria (skewness) Def. Asimmetria (SKEW)
La Shew misura l’asimmetria della distribuzione dei dati rispetto alla media:
Skew = 0 Distribuzione statistica simmetrica
Skew < 0 Distribuzione statistica asimmetrica : maggior contributo dei dati
statistici minori della media rispetto alla distribuzione
simmetrica
Skew > 0 Distribuzione statistica asimmetrica : maggior contributo dei dati
statistici maggiori della media rispetto alla distribuzione
simmetrica
3
3
1
3
2/3
1
2
1
3
2/3
1
2
1
3
)(1
)(1
)(1
1
1
n
i
in
i
i
n
i
i
n
i
i
n
i
i
tn
Mxn
Mxn
sn
sn
SKEW
21
Indici di Forma: Asimmetria (skewness)
Med.=Mediana
22
Indici di Forma: Asimmetria (skew=0) Nota: la definizione della funzione ASIMMETRIA di Excel è diversa (riferita al campione)
x_i f_i x_i*f_i s_i s_i*f_i s_i^2 s_i^2*f_i s_i^3 s_i^3*f_i s_i^4 s_i^4*f_i 1 1 1 -4,5 -4,5 20,25 20,25 -91,125 -91,125 410,0625 410,0625
2 2 4 -3,5 -7 12,25 24,5 -42,875 -85,75 150,0625 300,125
3 3 9 -2,5 -7,5 6,25 18,75 -15,625 -46,875 39,0625 117,1875
4 4 16 -1,5 -6 2,25 9 -3,375 -13,5 5,0625 20,25
5 5 25 -0,5 -2,5 0,25 1,25 -0,125 -0,625 0,0625 0,3125
6 5 30 0,5 2,5 0,25 1,25 0,125 0,625 0,0625 0,3125
7 4 28 1,5 6 2,25 9 3,375 13,5 5,0625 20,25
8 3 24 2,5 7,5 6,25 18,75 15,625 46,875 39,0625 117,1875
9 2 18 3,5 7 12,25 24,5 42,875 85,75 150,0625 300,125
10 1 10 4,5 4,5 20,25 20,25 91,125 91,125 410,0625 410,0625
totali 30 165 0 0 82,5 147,5 0 0 1208,625 1695,875
Media 5,5 SD_Pop 2,217356 Skew 0 Curtosi 2,338466
0
1
2
3
4
5
6
0 5 10 15
23
Indici di Forma: Asimmetria (skew<0) Nota: la definizione della funzione ASIMMETRIA di Excel è diversa (riferita al campione)
x_i f_i x_i*f_i s_i s_i*f_i s_i^2 s_i^2*f_i s_i^3 s_i^3*f_i s_i^4 s_i^4*f_i
1 1 1 -5,51852 -5,51852 30,45405 30,45405 -168,061 -168,061 927,449 927,44896
2 1 2 -4,51852 -4,51852 20,41701 20,41701 -92,2546 -92,2546 416,8543 416,85428
3 1 3 -3,51852 -3,51852 12,37997 12,37997 -43,5592 -43,5592 153,2637 153,26372
4 1 4 -2,51852 -2,51852 6,342936 6,342936 -15,9748 -15,9748 40,23283 40,232831
5 2 10 -1,51852 -3,03704 2,305898 4,611797 -3,50155 -7,0031 5,317168 10,634336
6 4 24 -0,51852 -2,07407 0,268861 1,075446 -0,13941 -0,55764 0,072286 0,2891459
7 8 56 0,481481 3,851852 0,231824 1,854595 0,111619 0,892953 0,053743 0,4299405
8 6 48 1,481481 8,888889 2,194787 13,16872 3,251537 19,50922 4,817092 28,90255
9 2 18 2,481481 4,962963 6,15775 12,3155 15,28034 30,56069 37,91789 75,835779
10 1 10 3,481481 3,481481 12,12071 12,12071 42,19804 42,19804 146,9117 146,91169
totali 27 176 -10,1852 1,15E-14 92,8738 114,7407 -262,649 -234,25 1732,89 1800,8032
Media 6,518519 SD_Pop 2,06147 Skew -0,99034 Curtosi 3,6931311
0
2
4
6
8
10
0 5 10 15
24
Indici di Forma: Asimmetria (skew>0) Nota: la definizione della funzione ASIMMETRIA di Excel è diversa (riferita al campione)
x_i f_i x_i*f_i s_i s_i*f_i s_i^2 s_i^2*f_i s_i^3 s_i^3*f_i s_i^4 s_i^4*f_i
1 1 1 -3,48148 -3,48148 12,12071 12,12071 -42,198 -42,198 146,9117 146,91169
2 2 4 -2,48148 -4,96296 6,15775 12,3155 -15,2803 -30,5607 37,91789 75,835779
3 6 18 -1,48148 -8,88889 2,194787 13,16872 -3,25154 -19,5092 4,817092 28,90255
4 8 32 -0,48148 -3,85185 0,231824 1,854595 -0,11162 -0,89295 0,053743 0,4299405
5 4 20 0,518519 2,074074 0,268861 1,075446 0,13941 0,557639 0,072286 0,2891459
6 2 12 1,518519 3,037037 2,305898 4,611797 3,50155 7,003099 5,317168 10,634336
7 1 7 2,518519 2,518519 6,342936 6,342936 15,9748 15,9748 40,23283 40,232831
8 1 8 3,518519 3,518519 12,37997 12,37997 43,55916 43,55916 153,2637 153,26372
9 1 9 4,518519 4,518519 20,41701 20,41701 92,25464 92,25464 416,8543 416,85428
10 1 10 5,518519 5,518519 30,45405 30,45405 168,0612 168,0612 927,449 927,44896
totali 27 121 10,18519 -8,9E-15 92,8738 114,7407 262,6492 234,2497 1732,89 1800,8032
Media 4,481481 SD_Pop 2,06147 Skew 0,99034 Curtosi 3,6931311
0
2
4
6
8
10
0 5 10 15
25
Indici di Forma: Curtosi Def. Curtosi (Coefficiente di Curtosi)
La Curtosi misura il peso relativo della code della distribuzione rispetto alla parte
centrale. (il confronto avviene relativamente ad una distribuzione gaussiana) :
Curtosi = 3 Distribuzione Mesocurtica/Normocurtica /Normale (Gaussiana o
simile)
Curtosi < 3 (code leggere) Distribuzione Leptocurtica/IperNormale (più
appuntita di una Gaussiana)
Curtosi > 3 (code pesanti) Distribuzione Platicurtica/IpoNormale (piatta,
meno appuntita di una gaussiana)
4
4
1
4
2
1
2
1
4
2
1
2
1
4
)(1
)(1
)(1
1
1
n
i
in
i
i
n
i
i
n
i
i
n
i
i
tn
Mxn
Mxn
sn
sn
Curtosi
E’ poco significativa per campioni poco numerosi
26
Indici di Forma: Curtosi
K=3 K<3 K>3
27
Indici di Forma: Curtosi
K=3 Normale
K<3 IperNormale
K>3 IpoNormale
Excel: 04_Indici_Forma.xls