Statistica Descrittiva dispersione di una distribuzione Obiettivi della lezione: Media Mediana, Moda...
-
Upload
adriano-giorgi -
Category
Documents
-
view
222 -
download
3
Transcript of Statistica Descrittiva dispersione di una distribuzione Obiettivi della lezione: Media Mediana, Moda...
Statistica DescrittivaStatistica DescrittivaStatistica DescrittivaStatistica Descrittiva
0
4
8
12
16
20
45 46.5 48 49.5 51 52.5 54 55.5 57
frequ
enza
rela
tiva
cm
dispersione
posizione
dispersione di una distribuzione Obiettivi della
lezione:Media Mediana, Moda Asimmetria, kurtosi Quantili e percentili • devianza• varianza• deviazione standard• intervallo
interquartile
sonno Maschi Femmine
1 1 32 3 63 3 74 7 85 11 56 8 37 4 18 2 19 1 1
10 - -11 - 112 - 113 - 114 - 115 - 1
Usando SOLO le medie possiamo ingannarci nel confrontare i caratteri di due gruppi di individui.
Ad esempio , sappiamo che le donne sono notoriamente diverse dagli uomini
sotto molti aspetti
Ore di frequenza
Diamo un'occhiata alla distribuzione di frequenza della durata di sonno indotto da un anestetico in un campione di 40+40 pazienti.
dispersione di una distribuzionedispersione di una distribuzionedispersione di una distribuzionedispersione di una distribuzione
Per facilitare i confronti riportiamo i dati in grafico.
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
DURATA DEL SONNO INDOTTO
fre
qu
en
za
as
so
luta
Maschi
Femmine
Il periodo medio di sonno per le donne risulta di 5 ore così come per gli uominiSe ci soffermiamo solo sulle medie potremmo concludere che
le donne hanno una durata di sonno uguale a quello dei maschi.
dispersione di una distribuzionedispersione di una distribuzionedispersione di una distribuzionedispersione di una distribuzione
D = (45.0-50.375)2 2 + (46.5-50.375)25+...+ (57.0-50.375)2 1 = 365.812
xi f(xi) xi f(xi)
45.0 2 90.0 -5.375 28.891 57.781 2025.00 4050.0046.5 5 232.5 -3.875 15.016 75.078 2162.25 10811.2548.0 7 336.0 -2.375 5.641 39.484 2304.00 16128.0049.5 14 693.0 -0.875 0.766 10.719 2450.25 34303.5051.0 16 816.0 0.625 0.391 6.250 2601.00 41616.0052.5 9 472.5 2.125 4.516 40.641 2756.25 24806.2554.0 5 270.0 3.625 13.141 65.703 2916.00 14580.0055.5 1 55.5 5.125 26.266 26.266 3080.25 3080.2557.0 1 57.0 6.625 43.890 43.890 3249.00 3249.00
60 3022.5 365.812 152624.25
i( x x ) 2( )ix x 2i i( x x ) f ( x ) 2
ix 2i ix f ( x )
D = 152624.25 - (3022.5)2/60 = 152624.25 - 152258.44 = 365.813
Nell'esempio della lunghezza dei neonati:
Var= 365.812/59 =6.2 Deviazione standard = 2.49
calcolo della media e della varianza ( dati in classi )calcolo della media e della varianza ( dati in classi )
Media = 3022.5/60 = 50.375
0
4
8
12
16
20
45 46.5 48 49.5 51 52.5 54 55.5 57
fre
qu
en
za r
ela
tiv
a
0
4
8
12
16
20
cm
ISTOGRAMMA POLIGONO DIFREQUENZA
centro della classe
• esempio della lunghezza dei neonati:
Istogramma dei datiIstogramma dei dati
Media = 400/80 = 5
Devianza= 620 ; Varianza=Devianza/(N-1)= 620/79 = 7.848
xi f(xi)
1 4 1 4 4 -4 64 2 9 4 18 36 -3 81 3 10 9 30 90 -2 40 4 15 16 60 240 -1 15 5 16 25 80 400 0 0 6 11 36 66 396 1 11 7 5 49 35 245 2 20 8 3 64 24 192 3 27 9 2 81 18 162 4 32
10 0 100 0 0 5 0 11 1 121 11 121 6 36 12 1 144 12 144 7 49 13 1 169 13 169 8 64 14 1 196 14 196 9 81 15 1 225 15 225 10 100 Σ 80 400 2620 620
2ix
i( x x )i ix f ( x ) 2i ix f ( x ) 2
i i( x x ) f ( x )
Deviazione standard= 2.801
Torniamo all’esempio del sonno
0.05
0.11250.125
0.18750.2
0.1375
0.0625
0.03750.025
00.01250.01250.01250.01250.0125
0
2
4
6
8
10
12
14
16
18
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
ore di sonno
0
0.05
0.1
0.15
0.2
0.25
soggetti
percent
Media 5
Varianza 7.848101
dev. Stand. 2.801446
asimm. 1.456178
Kurtosi 2.897833
Mediana 5
quartile 1 3
quartile 3 6
i valori assoluti degli scarti,
x x xn1 2, ,
1 2| | | | ... | |nx x x x x x
Dato un insieme di n valori:
detta la loro media aritmetica ex
si chiama scarto semplice medio (assoluto) la media aritmetica dei valori assoluti degli scarti semplici di ciascun dato x dalla media aritmetica x
scarto semplice medioscarto semplice medio
Si definisce varianza di una distribuzione statistica la media aritmetica dei quadrati degli scarti dalla media.
2 2 22 1 2 Nx x ... x
N
Si definisce scarto quadratico medio la radice quadrata della varianza.
2
la varianzala varianza
Questo numero rappresenta una misura della deviazione dei valori dalla media. Esso ci dice come i valori tendano a disperdersi intorno alla loro media: se la deviazione standard è piccola, indica un fitto addensamento dei valori intorno alla loro media; se è grande indica la presenza di valori molto lontani dalla media.
la deviazione standard la deviazione standard
N2
ii=1
(x )
N
1
m2
i ii=1
m
ii
(x ) f ( x )
f ( x )
Per i dati raggruppati in classe =>
Per i dati singoli =>
stima in un campione =>
N2
ii=1
(x x )
N-1
1
1
m2
i ii=1
m
ii
(x x ) f ( x )
f ( x )
Per dati raggruppati in classe =>
1
m
ii
f ( x ) N
dove
Stima della Deviazione standardStima della Deviazione standard
Deviazione standardDeviazione standard
IV = 15-1 = 14
media d.s = 4.4
IV = 15-1 = 14
ds=5.5
IV = 15-1 = 14
media d.s = 3.6
IV = 15-1 = 14
d.s = 2.7
0
25
50
75
100
47.25 48.75 50.25 51.75 53.25 54.75 56.25 57.75 59.25 60.75
F(x
)
cm
mediana
1° quartile
3° quartile
intervallointerquartile
Un indice di dispersione di uso comune è l'intervallo interquartile, dato dalla differenza tra 3° e 1° quartile (cioè tra 75° e 25° centile): tale intervallo contiene la metà dei valori inclusi nel campione, indipendentemente dalla forma della distribuzione della variabile.
l'intervallo interquartilel'intervallo interquartile
Obiettivi della lezione:
• media
• mediana
• moda
• percentili
• intervallo di variazione
• devianza
• varianza
• deviazione standard
• intervallo interquartile
• Indice di simmetria
• Coefficiente di variazione
Sommario della statistica descrittivaSommario della statistica descrittiva
ESEMPIO: Come confrontare il vostro peso con quello di altre persone della vostra età?
Supponiamo che uno di voi pesi 4 kg oltre la media dei soggetti della sua età: ci sono molti altri, della stessa età, con un peso maggiore, oppure egli è un piccolo gigante?
Bisogna conoscere la deviazione standard dei pesi dei ragazzi di quella età, prima di fare un confronto con il peso degli altri.
Supponiamo che il peso medio dei ragazzi di quell'età sia 45 kg e che la deviazione standard sia 2 kg:
… allora un peso di 49 kg è sopra la media di due deviazioni standard.
La deviazione standard è una quantità utile per effettuare confronti.
Approfondimento:
rivediamo alcune formule ed introduciamo le nozioni
• di asimmetria (skewness) e • di curtosi
Principali indici statisticiI grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici.Siano n osservazioni numeriche1 2, ,..., nx x x
di posizione
di forma
di dispersione
MODA
MEDIANA
MEDIA
SCARTO QUADRATICO MEDIO
VARIANZA
RANGE
ASIMMETRIA (SKEWNESS)
CURTOSI ( KURTOSIS)
INDICI
Indici di posizione:moda E' definita come il valore che ha la frequenza più alta.
E' quel valore al di sotto del quale cadono la metà dei valori campionari.mediana
E' quel valore che corrisponde alla somma di tutti i valori diviso il numero dei valori stessi.
dove:Xi = esito i-ma misura n = numero dei dati (dimensione del campione)
XX
n
ii
n
1
media
Gli indici di posizione indicano il valore attorno al quale i dati del campione sono posizionati Mi interessa la dispersione dei dati intorno a tale valore
N.B. NELLA DISTRIBUZIONE NORMALE MEDIA= MODA = MEDIANA
Indici di dispersione:
media dei quadrati degli scarti
xmax -xmin range (intrevallo di variazione)
scarto medio assoluto
varianza campionaria
deviazione standard campionaria
p_esimo quantile: si considera np per [ 0 ≤ p ≤1 ]Se np non è intero, considero k l’intero successivo e il p_esimo quantile è xk
Se np = k è intero, il p_esimo quantile è (xk+ xk+1)/2
1
1| - |n
ixn
2
1
1( - )n
ixn
2
1
1( - )
1
n
ix xn
2
1
1( - )
1
n
ix xn
Q1=primo quartile =25° percentileQ2=secondo quartile =50° percentile=medianaQ3=terzo quartile =75° percentile
Media uguale
Deviazione Standard Diversa
Media e varianza:
Istogramma
01020304050607080
0,2
0,8
1,4 2
2,6
3,2
3,8
Classe
Fre
qu
en
za
Frequenza
Istogramma
0
50
100
150
200
ClasseF
req
uen
za
Frequenza
Media=2Varianza=1.33
Media=2Varianza=4
Indici di forma
INDICE DI ASIMMETRIA (Skewness)
CURTOSI
>0 coda a destra
<0 coda a sinistra
=0 simmetrica
Misura il grado di ripidezza della distribuzione
>3 leptocurtica
=3 distribuzione normale (mesocurtica)
<3 platicurtica
N.B. In molti software il coefficiemte di curtosi viene confrontato con il valore 0
3
3
( ) ix
n
4
14
( )
n
ii
x
n
Indici: Schema riassuntivo
•media:
•moda: punto di max della distribuzione
•mediana: valore sotto al quale cadono la metà dei valori campionari. Si dispongono i dati in ordine crescente e si prende quello che occupa la posizione centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari)
N
xx i i
•varianza
•deviazione standard
•range
•skewness (coeff. di asimmetria)
•curtosi: misura quanto la distribuzione è appuntita
2
2
1ii
x xs
N
sminmax xxR
N
xxi
i
3
N
xxi
i
4
di p
osiz
ione
di d
ispe
rsio
ne d
i di f
orm
a
>0 coda a ds
<0 coda a sin
=0 simmetrica
<3 poco appuntita >3 molto appuntita