ST1-3-variabilità e forma
-
Upload
lucamarons -
Category
Documents
-
view
14 -
download
0
description
Transcript of ST1-3-variabilità e forma
Statistica I-a.a.2009/2010 - Prof. R. Paroli 165
VARIABILITÀ
Statistica I – a.a. 2009/2010Prof.ssa R. Paroli
LA STATISTICA (Trilussa)
Sai ched’è la statistica? E’ ‘na cosache serve pe’ fa’ un conto in generalede la gente che nasce, che sta male,che more, che va in carcere e che sposa
Ma pe’ me la statistica curiosa è dove c’entra la percentuale,pe’ via che lì la media è sempre egualepuro co’ la persona bisognosa.
Me spiego: da li conti che se fanno seconno le statistiche d’adessorisurta che te tocca un pollo all’anno:
E se nun entra ne le spese tuet’entra ne la statistica lo stessoperché c’e’ un antro che ne magnia due!!!
Statistica I-a.a.2009/2010 - Prof. R. Paroli 167
Gli indici di posizione sono indici sintetici che sostituiscono alle diverse modalità del carattere un’unica modalità che possa ritenersi “rappresentativa di tutte le altre” .
Da solo l’indice di posizione
- appare tuttavia insufficiente- sintesi → perdita di informazioni
- interessano anche indicatori della diversità(molteplicità) dei valori di un carattere
⇒⇒ POSIZIONE + VARIABILITPOSIZIONE + VARIABILITÀÀ
Due distribuzioni con la stessa media non è detto che presentino un medesimo comportamento
Statistica I-a.a.2009/2010 - Prof. R. Paroli 168
- caratteri qualitativi ⇒ mutabilità
- caratteri quantitativi ⇒ variabilità o dispersione
AttitudineAttitudine del del caratterecarattere ad ad assumereassumeremodalitmodalitàà differentidifferenti
VARIABILITAVARIABILITA’’
Statistica I-a.a.2009/2010 - Prof. R. Paroli 169
X ={x1,…,x6} ⎯⎯ ⎯ ⎯ ⎯⎯ ⎯ ⎯
Y ={y1,…,y6} ⎯ ⎯ ⎯ ⎯⎯⎯⎯⎯⎯
è più variabile (disperso) X oppure Y ??
Per capire:
Statistica I-a.a.2009/2010 - Prof. R. Paroli 170
esempio: colore dei capelli di 3 gruppi (distribuzioni %)
Colore G1 G2 G3 nero 0.10 0.30 0.70
castano 0.25 0.30 0.20 biondo 0.60 0.30 0.05 altro 0.05 0.10 0.05
1 1 1
in quale gruppo c’è più mutabilità?
VARIABILITÀ PER CARATTERI QUALITATIVI
Indici di mutabilità o eterogeneità
Statistica I-a.a.2009/2010 - Prof. R. Paroli 171
E = ∑i=1
k fi(1 − fi) = 1 − ∑
i=1
k fi
2
(usato per lo studio della concentrazione industriale o di mercato)
INDICE DI ETEROGENEITÀ DI GINI
Basato sulle frequenze relative della distribuzione di frequenza:
Statistica I-a.a.2009/2010 - Prof. R. Paroli 172
esempio: colore dei capelli di 3 gruppi
Colore G1 G2 G3 nero 0.10 0.30 0.70
castano 0.25 0.30 0.20 biondo 0.60 0.30 0.05 altro 0.05 0.10 0.05
1 1 1
E = 1 − (0.12 + 0.252 + 0.62+ 0.052) = 1 − (0.435) = 0.565
E = 1 − (0.32 + 0.32 + 0.32+ 0.102) = 1 − (0.28) = 0.72
E = 1 − (0.72 + 0.22 + 0.052+ 0.052) = 1 − (0.535) = 0.465
Statistica I-a.a.2009/2010 - Prof. R. Paroli 173
situazioni estreme
minmin mutabilitmutabilitàà:
∃ fi = 1, fj = 0 (j≠i)esiste una sola modalitàcui corrisponde tutta la frequenza, tutte le altre hanno freq. nulla
maxmax mutabilitmutabilitàà:
f1 = … = fk = 1/ktutte le modalità hanno la stessafrequenza
xi fi x1 0 … … xi 1 … … xk 0 1
xi fi x1 1/k … … xi 1/k … … xk 1/k 1 Statistica I-a.a.2009/2010 - Prof. R. Paroli 174
Emin = 1 − (f12 + … + fk2) = 1 − (1) = 0 Emax = 1 − Σ (1/k)2 = 1 − k(1/k)2= 1 − 1/k
Per l’indice di eterogeneità si dimostra che:
• nella situazione minima
• nella situazione massima
Statistica I-a.a.2009/2010 - Prof. R. Paroli 175
apriamo una parentesi ….. (
Per rendere confrontabili tra di loro alcuni aspetti come la mutabilità (o variabilità) di caratteri diversi (pensate, ad esempio, al carattere colore degli occhi e colore dei capelli) è necessario avere a disposizione indici particolari, che prendono il nome di
INDICI NORMALIZZATISi tratta di indici che consentono di fare confronti tra caratteri diversi o stessi caratteri ma misurati con unità di misura diverse (variabilità di un titolo azionario in Euro e uno in Dollaro).
Statistica I-a.a.2009/2010 - Prof. R. Paroli 176
Da utilizzare per fare confronti tra variabili con unità di misura differenti
se Imin ≤ I ≤ Imax
IN = I − Imin
Imax − Imin
per il quale
0 ≤ IN ≤ 1
in genere Imin = 0 per cui
IN = I
Imax
Indici normalizzati
chiusa la parentesi …)
Statistica I-a.a.2009/2010 - Prof. R. Paroli 177
EN =E
Emax= 1 − Σ fi
2 1 − 1/k
Per l’indice di eterogeneità si ha che:
0≤ EN ≤1
Indice di GINI NORMALIZZATO
minima mutabilità massima mutabilità
Statistica I-a.a.2009/2010 - Prof. R. Paroli 178
esempio: colore dei capelli di 3 gruppi
Colore G1 G2 G3 nero 0.10 0.30 0.70
castano 0.25 0.30 0.20 biondo 0.60 0.30 0.05 altro 0.05 0.10 0.05
1 1 1
E = 1 − (0.12 + 0.252 + 0.62+ 0.052) = 1 − (0.435) = 0.565
Emax = 1 − 1/4 = 0.75 da cui l’indice normalizzato e’:
EN = 0.565/0.75 = 0.753 alta variabilità
Statistica I-a.a.2009/2010 - Prof. R. Paroli 179
E = 1 − (0.32 + 0.32 + 0.32+ 0.12) = 0.72
Emax = 1 − 1/4 = 0.75 EN = 0.72/0.75 = 0.96
per gli altri gruppi si ha:
• G2:
• G3:
E = 1 − (0.72 + 0.22 + 0.052+ 0.052) = 0.465
Emax = 1 − 1/4 = 0.75 EN = 0.465/0.75 = 0.62
ConclusioniConclusioni: poiché EN(G2)>EN(G1)>EN(G3)
G2 presenta maggior mutabilità
Statistica I-a.a.2009/2010 - Prof. R. Paroli 180
VARIABILITÀ PER CARATTERI QUANTITATIVI
La definizione di variabilità nel caso di caratteri quantitativi può essere applicata alle modalità in modo analitico. Si posso cioè calcolare tutte le “differenze” o “distanze” tra le varie modalità, su cui poi basare un indice che ne dia una misura sintetica.
Esistono due impostazioni basate sul differente modo del calcolo di tali distanze:
- le distanze di ogni modalità da tutte le altre
- le distanze di ogni modalità da una particolare, scelta ad hoc
Statistica I-a.a.2009/2010 - Prof. R. Paroli 181
x1 x2
x3
x4
x1 x2
x3 x4
Indicatori globali Indicatori di dispersione
Distanze di ogni modalità da tutte le altre
Distanze di ogni modalitàda una particolare o rappresentativa di X
Statistica I-a.a.2009/2010 - Prof. R. Paroli 182
INDICI DI VARIABILITINDICI DI VARIABILITÀÀ
funzioni (medie potenziate!!!) delle distanze scelte
due modi di misurare la variabilità
- variabilitvariabilitàà globaleglobale VG(X)- dispersione da centrodispersione da centro D(X)
Statistica I-a.a.2009/2010 - Prof. R. Paroli 183
PROPRIETA’ GENERALI
VG(X)VG(X) =VARIABILITÀ GLOBALE D(X)D(X)=DISPERSIONE
1) non negativitàVG(X) ≥ 0 D(X) ≥ 0
2) VG(X) = 0 se xi = xj D(X) = 0 se xi=cost
3) invarianza per traslazioniVG(X + b) = VG(X) D(X + b) = D(X)
4) monotonicità rispetto alle differenze elementari
Statistica I-a.a.2009/2010 - Prof. R. Paroli 184
INDICI DI DISPERSIONE
Scostamenti medi assoluti di ordine r da un centro
Dr(c) = ⎣⎢⎢⎡
⎦⎥⎥⎤
1n ∑
i=1
n |vi − c|r
1/r=
⎣⎢⎢⎡
⎦⎥⎥⎤1
n ∑i=1
k |xi − c|r ni
1/r
percentile xp c = centro = mediana
media aritmetica
Statistica I-a.a.2009/2010 - Prof. R. Paroli 185
r = 1 (dalla mediana)
D1(Me) = 1n ∑
i=1
k |xi − Me| ni
r = 2 (dalla media)
D2(μ) = ⎣⎢⎢⎡
⎦⎥⎥⎤1
n ∑i=1
k (xi − μ)2 ni
1/2
chiamato anche scarto quadratico medio (σ)Statistica I-a.a.2009/2010 - Prof. R. Paroli 186
VARIANZA
D2(μ)2 = σ2= Var(X) = σ2(X) =
= ⎣⎢⎡
⎦⎥⎤1
n ∑i=1
k (xi − μ)2 ni = M⎣
⎡⎦⎤(X - μ)2
Il quadrato dello scarto quadratico medio definisce la
VARIANZAVARIANZA
media degli scarti dalla media al quadrato
Statistica I-a.a.2009/2010 - Prof. R. Paroli 187
xi ni xi*ni (xi-μ) (xi-μ)2*ni
2 3 6 -4 484 10 40 -2 406 20 120 0 08 6 48 2 24
10 5 50 4 8044 264 192
esempio:
μ = 26444 = 6
σ2= 1n
⎣⎢⎢⎡
⎦⎥⎥⎤
∑i=1
k (xi − μ)2 ni =
19244 =4.363636
Passaggi per il calcolo della varianza con la formula di definizione
Statistica I-a.a.2009/2010 - Prof. R. Paroli 188
Dim.
σ2 = M⎣⎡
⎦⎤(X - μ)2 = M(X2 − 2μX + μ2) =
= M(X2) − 2μ M(X) + μ2 = M(X2) − 2μ2 + μ2=
= M(X2) − μ2
Formula operativa:
σ2= M(X2) - μ2 = 1n ∑
i=1
k xi
2ni - μ2
media dei quadrati
quadrato della media
N.B. Var(X) ≥ 0 !!!!
Statistica I-a.a.2009/2010 - Prof. R. Paroli 189
esempio:
μ = 26444 = 6
σ2= M(X2)- μ2 = 1776
44 - 62= 4.363636
x i n i x i n i x i2 n i
2 3 6 1 2 4 1 0 4 0 1 6 0 6 2 0 1 2 0 7 2 0 8 6 4 8 3 8 4
1 0 5 5 0 5 0 0 4 4 2 6 4 1 7 7 6
Passaggi per il calcolo della varianza con la formula operativa
Il calcolo è piùveloce
Statistica I-a.a.2009/2010 - Prof. R. Paroli 190
OPERATORE VARIANZA
associa ad ogni variabile la sua VARIANZA
proprietà
1. Var(a) = 0 (varianza di una costante)
2. Var(aX) = a2 Var(X)
3. Var(aX + b) = a2 Var(X) (non linearità)
4. Var(X+Y) = Var(X) + Var(Y) +
Dimostratele utilizzando l’operatore media e le sue proprietà
termine ≠ 0
Statistica I-a.a.2009/2010 - Prof. R. Paroli 191
Passaggi principali delle dimostrazioni:
1. Var(a)= M[(a-M(a))2] = M[(a-a)2]=0
2. Var(aX)=M[(aX-M(aX))2]= M[(a(X-M(X)))2]=…=
=a2 Var(X)
3. Var(aX+b)= M[((aX+b)-M(aX+b))2]=
=M[(aX+b-aM(X)-b)2]= …=
=M[(a(X-M(X)))2]= a2 Var(X)
4. Var(X+Y) = M[((X+Y)-M(X+Y))2]= ……Statistica I-a.a.2009/2010 - Prof. R. Paroli 192
Ipotesi per il teorema della scomposizione della varianza
I dati elementari sono classificati in h sottogruppi. Per ciascuno dei sottogruppi si conosce la numerosità, la media e la varianza
- media gruppo i-esimo μi = ∑j=1
ni
xij / ni
- varianza gruppo i-esimo σ2i = ∑
j=1
ni
(xij − μi)2/ ni
1 2 … h
n1 n2 … nh
μ1 μ2 … μh
σ21 σ
22 … σ
2h
Statistica I-a.a.2009/2010 - Prof. R. Paroli 193
La varianza totale σ2 è ottenibile come la somma della
varianza “entro i gruppi” (varianza WITHIN=σ2W ) e
della varianza “tra i gruppi” (varianza BETWEEN=σ2B)
dove:
σ2W = M(σ
2i ) e σ
2B = V(μi)
σ2 = σ2W + σ
2B
TESI:
Teorema della scomposizione della varianza (I versione)
Statistica I-a.a.2009/2010 - Prof. R. Paroli 194
- σ2W = varianza within (entro i gruppi) =
media delle varianze dei gruppi = M(σ2i )
σ2W=
1n ∑
i=1
h σ
2i ni
- σ2B= varianza between (tra i gruppi) =
varianza delle medie dei gruppi = V(μi)
σ2B=
1n ∑
i=1
h (μi −μ)2 ni
σ2i ni
σ21 n1
… … σ2
h nh n
SCRIVIAMO PER ESTESO LA VARIANZA WITHIN E BETWEEN:
μi ni μ1 n1 … … μh nh n
Statistica I-a.a.2009/2010 - Prof. R. Paroli 195
DIMOSTRAZIONE
varianza totale = σ2Y = ∑
k=1
n ⎝
⎛⎠⎞xk − μ2 1n = ∑
i=1
h ∑j=1
ni ⎝
⎛⎠⎞xij − μ2 1n=
= ∑i=1
h ∑j=1
ni ⎝
⎛⎠⎞xij − μi + μi -μ2 1n =
= ∑i=1
h ∑j=1
ni
[(xij − μ i) + (μ i - μ)] 2 1n = (faccio il quadrato)
= ∑i=1
h ∑j=1
ni ⎝⎜
⎛⎠⎟⎞(xij − μ i)
2 + (μ i - μ)
2 + 2(xij − μ i)( μ i - μ)
1n =
= ∑i=1
h ∑j=1
ni ⎝⎜
⎛⎠⎟⎞(xij − μ i)
2
1n + ∑
i=1
h ∑j=1
ni ⎝⎜
⎛⎠⎟⎞(μ i - μ)
2 1n +
+ 2 ∑i=1
h ∑j=1
ni ⎝
⎛⎠⎞(xij − μ i)( μ i - μ) 1n =
Aggiungo e tolgo le medie di gruppo
Statistica I-a.a.2009/2010 - Prof. R. Paroli 196
consideriamo separatamente i 3 addendi: I addendo
∑i=1
h ∑j=1
ni
⎝⎜⎛
⎠⎟⎞(xij − μ i)
2
1n = ∑
i=1
h ⎝⎜⎛
⎠⎟⎞
ni
n ∑j=1
ni
⎝⎜⎛
⎠⎟⎞(xij − μ i)
2
1ni
= ∑i=1
h ⎝⎜⎛
⎠⎟⎞
ni
n σ2 i =
= media delle var di gruppo = σ2W
II addendo
∑i=1
h ∑j=1
ni ⎝⎜
⎛⎠⎟⎞(μ i - μ)
2 1n = ∑
i=1
h ⎝⎜⎛
⎠⎟⎞
1n ⎝⎜
⎛⎠⎟⎞(μ i - μ)
2 ∑
j=1
ni 1 = ∑
i=1
h (μ i - μ)
2 ni
n =
= varianza delle medie di gruppo = σ2B
Moltiplico e divido per ni
nifattore che non dipende da j
Statistica I-a.a.2009/2010 - Prof. R. Paroli 197
III addendo
2 ∑i=1
h ∑
j=1
ni ⎝
⎛⎠⎞(xij − μ i)( μ i - μ) 1n =
= 2 ∑i=1
h
⎣⎢⎡
⎦⎥⎤
( μ i - μ) ni
n ·⎝⎜⎛
⎠⎟⎞
∑j=1
ni
⎝⎛
⎠⎞(xij − μ i) 1ni
=
=2 ∑i ⎣⎢⎡
⎦⎥⎤
(μ i - μ) ni
n (0) = 0
σ2= σ2W + σ
2B
= 0 per la I proprietà della media
cvd
Moltiplico e divido per ni
Statistica I-a.a.2009/2010 - Prof. R. Paroli 198
Nel caso in cui non si conoscano i valori assunti da un carattere su tutte le unità statistiche, ma di ogni sottogruppo i in cui è suddivisa la popolazione siano noti:
- numerosità (ni)
- media (μi)
- varianza (σ2i)
è possibile ricavare la media generale (tramite l’applicazione della proprietà associativa) e la varianza (tramite il teorema di scomposizione della varianza).
Statistica I-a.a.2009/2010 - Prof. R. Paroli 199
La tabella riporta media e scarto quadratico medio del voto di maturità degli studenti iscritti a 4 Facoltà:
Sapendo che 60 studenti sono di Lettere, 125 di Economia, 75 di Scienze Politiche e 40 di Chimica, calcolare il voto medio di maturità e la varianzacomplessiva degli studenti di tutto l’ateneo.
media s.q.m. Lettere 88 6.16
Economia 82 7.38 Sc. Politiche 86 8.6
Chimica 85 4.25
Esempio
Statistica I-a.a.2009/2010 - Prof. R. Paroli 200
Distribuzione delle medie dei gruppi
• Calcolo la varianza between = var. medie dei gruppi
μ= 25380/300 = 84.60
σ2B=1692/300= (oppure, con la formula operativa) =
= 2148840/300 – (84.60)2 = 5.64
μi ni88 6082 12586 7585 40
300
μi*ni (μi-μ)2*ni μi2*ni5280 693.60 464640
10250 845.00 8405006450 147.00 5547003400 6.40 289000
25380 1692.00 2148840
Statistica I-a.a.2009/2010 - Prof. R. Paroli 201
• Calcolo la varianza within = media delle var. dei gruppi
σ2W=15354.29/300= 51.18
• varianza totale = var.B + var.W
σ2 = σ2B + σ2
W = 5.64 + 51.18 = 56.82
Distribuzione delle varianzedei gruppi
σi σi2 ni σi2*ni6.16 37.9456 60 2276.7367.38 54.4644 125 6808.058.6 73.96 75 5547
4.25 18.0625 40 722.5300 15354.29
Statistica I-a.a.2009/2010 - Prof. R. Paroli 202
MINIMA VARIABILITA’
Si ricordi la II proprietà degli indici di variabilità
la variabile statistica è caratterizzata da una distribuzione degenere (costante):
le modalità xi=xj=c ∀i≠j, con i,j=1,…,k.
Tutti gli indici assumono valore 0
anche la varianza VAR(X) = 0
Statistica I-a.a.2009/2010 - Prof. R. Paroli 203
MASSIMA VARIABILITA’
⎯⎯■⎯⎯⎯■⎯⎯⎯■⎯⎯⎯■⎯⎯ x1 x2 x3 x4
⎯⎯■⎯⎯■⎯⎯⎯⎯⎯⎯■⎯⎯■⎯⎯ y1 y2 y3 y4
….. y2=x2−δ y3=x3+δ …..
con media fissa
Intuitivamente:
la variabilità aumenta se aumentano le distanze tra modalità
Statistica I-a.a.2009/2010 - Prof. R. Paroli 204
quindi ... bisogna spostare valori e frequenzeverso gli estremi ... (o oltre)
Definizione
nella distribuzione di max variabilità le unitàstatistiche si distribuiscono intorno ai valori estremi delle modalità della variabile in studio
Statistica I-a.a.2009/2010 - Prof. R. Paroli 205
si costruisce una tabella con k = 2
xi ni xi fi a na oppure a fa b nb b fb n 1
TABELLA DI MAX VARIABILITA’
Statistica I-a.a.2009/2010 - Prof. R. Paroli 206
Ipotesi per la determinazione della situazione di massima variabilità
- modalità non negative (xi ≥ 0)
- non deve variare la numerosità n
- non deve variare la media aritmetica μ
resta fissato il totale T=∑ixini = nμ
Statistica I-a.a.2009/2010 - Prof. R. Paroli 207
Gli estremi sono soggetti a dei vincoli
0 ≤ a ≤ x1 xk ≤ b ≤ T
a b
0 x1 xk T
- Scelta di a e bScelta di a e b
cioè:
-a compreso tra 0 ed il minimo dei dati osservati
-b compreso tra il massimo dei dati osservati e T
Statistica I-a.a.2009/2010 - Prof. R. Paroli 208
Bisogna trovare i valori delle frequenze na e nbnella distribuzione
tali da verificare le 2 seguenti condizioni
- media aritmetica (o totale) costante
- n costante
xi ni a na b nb n
- Calcolo di [alcolo di [nnaa e e nnbb]]
Statistica I-a.a.2009/2010 - Prof. R. Paroli 209
na = n b−μ b-a nb = n
μ−a b-a
⎩⎪⎨⎪⎧Σ xi ni = T= n μΣ ni = n
Si tratta di risolvere il seguente sistema per sostituzione
⎩⎪⎨⎪⎧
ana + bnb = T= n μna + nb = n
⎩⎪⎨⎪⎧
a(n - nb)+ bnb = n μna = n - nb
⎩⎪⎨⎪⎧
(b - a) nb = n(μ-a)na = n - nb
Statistica I-a.a.2009/2010 - Prof. R. Paroli 210
na = n b−μ b-a
nb = n - na = n μ−a b-a
Cioè:
Statistica I-a.a.2009/2010 - Prof. R. Paroli 211
fa = b−μ b-a
fb = 1 - fa = μ−a b-a
⎩⎪⎨⎪⎧ Σ xi fi = μ Σ fi = 1
⎩⎪⎨⎪⎧ a fa + b fb = μ fa + fb = 1
Se si opera con le frequenze relative si ha:
e si ottengono
Statistica I-a.a.2009/2010 - Prof. R. Paroli 212
Osservazione
Nel caso delle frequenze assolute a volte il risultato NON è intero, si prende quindi
na = int ⎝⎜⎛
⎠⎟⎞
n b−μ b-a nb = int
⎝⎜⎛
⎠⎟⎞
n μ−a b-a
diventa però
(na + nb) = n - 1
Statistica I-a.a.2009/2010 - Prof. R. Paroli 213
- occorre definire una terza modalità c con frequenza unitaria (nc= 1) tale che soddisfi al vincolo della media costante, cioè
Σxini = a na + c 1 + b nb = n μ
da cuic = nμ - a na – b nb
N.B. c deve essere un valore tra a e b !!!!!!
Statistica I-a.a.2009/2010 - Prof. R. Paroli 214
- la distribuzione di massima variabilità diventa
xi ni a na c 1 b nb n
Un qualunque indice di variabilità calcolato su questa tabella ne rappresenterà il massimo
Statistica I-a.a.2009/2010 - Prof. R. Paroli 215
esempio: costruzione tabella di massima variabilità in [xmin;xmax]
xi ni xi 2ni2.5 7 43.757.5 3 168.7512.5 5 781.2517.5 5 1531.25
20 2525
n=20 a=2.5
μ= 9.5 b=17.5
na = n b−μ b-a = 20
17.5−9.5 17.5-2.5 = 10.666 ≅ 10
nb = n - na= 20 – 10.666= 9.333 ≅ 9
c=20 9.5-2.5 10 –17.5 9 = 7.5
Statistica I-a.a.2009/2010 - Prof. R. Paroli 216
xi ni 2.5 10 7.5 1 17.5 9
20
In questa tabella si verifica che
- n è invariato (20)
- la media è invariata (9.5)
La varianza calcolata su questa tabella è la varianza massima nella classe [2.5;17.5]
Statistica I-a.a.2009/2010 - Prof. R. Paroli 217
CASO PARTICOLARE
a = 0 b = T
sostituendo nelle formule di na e nb si ottiene:
na = n-1 nb = 1
xi ni 0 n-1 T 1 n
Tabella di Tabella di massima massima variabilitvariabilitàà tra tra [0,T][0,T]
Statistica I-a.a.2009/2010 - Prof. R. Paroli 218
Indici di variabilità normalizzati
Come per l’indice di mutabilità, la situazione massima ci permette di definire gli indici di variabilitànormalizzati (compresi tra 0 e 1):
varianza normalizzata:
σ2N = σ2
σ2max
Statistica I-a.a.2009/2010 - Prof. R. Paroli 219
OPERATIVAMENTE:
come si calcola un indice di variabilitànormalizzato????
1. si calcola l’indice assoluto sui dati osservati2. si costruisce la situazione di massima
variabilità3. si calcola l’indice su tale distribuzione4. si fa il rapporto tra i due
??? non esistono formule esplicite ????Statistica I-a.a.2009/2010 - Prof. R. Paroli 220
Data la distribuzione di max variabilità in [a,b]:
σ2max = [
a2(b-μ)(b-a) +
b2(μ-a)(b-a) ]-μ2=
= a2b-a2μ+b2μ-ab2-bμ2+aμ2
(b-a) =
=ab(a-b)-μ(a2-b2)+μ2(a−b)
(b-a) =
xi fi a (b-μ)/(b-a) b (μ-a)/(b-a) 1
Formula della varianza massima in [a,b]
calcolo la varianza applicando la formula operativa: Var(X)=M(X2)-μ2
Statistica I-a.a.2009/2010 - Prof. R. Paroli 221
= (a-b) ab-μ(a+b)+μ2
(b-a) = - (ab-μa- μb+μ2) =
= -[a(b-μ)-μ(b-μ)] = -[(a- μ)(b-μ)] = (μ-a )(b-μ)
σ2max = (b−μ)(μ−a)
Questa formula può essere applicata direttamente quando non si costruisce la situazione di massima variabilità
Statistica I-a.a.2009/2010 - Prof. R. Paroli 222
σ2max = (T−μ)μ = (nμ - μ)μ = (n−1) μ2
VARIANZA NORMALIZZATA
σ2N = σ2
(b−μ)(μ−a) in [a;b]
σ2N = σ2
(n−1) μ2 in [0;T]
• Nel caso di massima variabilità tra [0,T] la formula esplicita diventa:
Statistica I-a.a.2009/2010 - Prof. R. Paroli 223
esempio:
σ2N = σ2
(b−μ)(μ−a) = 4.363636
(10−6)(6−2) = 0.272727
σ2N = σ2
(n−1) μ2 = 4.363636
(44−1) 36 = 0.002819
x i n i x i*n i2 3 64 1 0 4 06 2 0 1 2 08 6 4 8
1 0 5 5 04 4 2 6 4
a = 2 b = 10
T = 264
μ = 6 σ2 = 4.363636
Norm. in [a;b]
Norm. in [0;T]
Statistica I-a.a.2009/2010 - Prof. R. Paroli 224
esempio: confronto della variabilità normalizzando in [0,T]
xi ni2.5 77.5 312.5 517.5 5
20
μ=9.5 σ2=36
σ2Ν(X) = 0.02099
yi ni15 525 435 11
20
μ=28 σ2=71
σ2Ν(Y) = 0.00477
σ2Ν(X) > σ2
Ν(Y) X presenta maggior X presenta maggior variabilitvariabilitàà
Statistica I-a.a.2009/2010 - Prof. R. Paroli 225
COEFFICIENTE DI VARIAZIONE
- utile per confronti ma non normalizzato (non compreso tra 0 e 1)
- numero puro che non dipende dall’unità di misura delle modalità
CV= s.q.m./media = σ/μ
N.B. il CV è sempre ≥ 0!!!
Statistica I-a.a.2009/2010 - Prof. R. Paroli 226
esempio: confronto della variabilità
xi ni2.5 77.5 312.5 517.5 5
20
μ=9.5 σ2=36
cv(X)= 0.6315
yi ni15 525 435 11
20
μ=28 σ2=71
cv(Y)= 0.3009
cv(X)>cv(Y) X presenta maggior X presenta maggior variabilitvariabilitàà
Statistica I-a.a.2009/2010 - Prof. R. Paroli 227
Grafici BOX–PLOT (o BOX&WHISKERS)
• GRAFICO RIASSUNTIVO DEI MAGGIORI INDICI DESCRITTIVI UNIVARIATI CHE CONSENTE CONFRONTI “VISIVI” TRA DIVERSE VARIABILI
• Per ogni variabile vengono rappresentate:- mediana (Q2)
- I e III quartile (Q1 e Q3)- Differenza interquartile H = Q3 – Q1
- minimo e massimo
Statistica I-a.a.2009/2010 - Prof. R. Paroli 228
406N =
Cilindrata in cc
500
400
300
200
100
0
-100
Q1
Q2
Q3
Il BOX è la scatola rossa.
E’ delimitata da Q1 e Q3mentre la linea nera al suo interno indica la mediana Q2.
Tra Q3 e Q1 si trova il 50% delle unitàstatistiche.
BOX
Statistica I-a.a.2009/2010 - Prof. R. Paroli 229
406N =
Cilindrata in cc
500
400
300
200
100
0
-100
Q1
Q2
Q3
Q1 − 1.5(Q3−Q1) o xmin
WHISKERS
Q3 + 1.5(Q3−Q1) o xmax
Statistica I-a.a.2009/2010 - Prof. R. Paroli 230
400N =
Potenza (CV)
300
200
100
0
1023287103209124
Q3 + 1.5(Q3−Q1)
xmax
Valori anomali
(outliers)
Statistica I-a.a.2009/2010 - Prof. R. Paroli 231
ESEMPIO
La seguente tabella riporta la distribuzione delle età degli operai di 3 reparti di un’azienda
1 2 340 21 2044 23 2228 26 5026 19 4158 22 3322 30 1919 18 2225 42 4428 47 4621 18 1922 49 42
1 2 3Q1 22 20 21
min 19 18 19Q2 26 23 33
max 58 49 50Q3 34 36 43
Q1-1.5(Q3-Q1) 4 -4 -12Q3+1.5(Q3-Q1) 52 60 76
Statistica I-a.a.2009/2010 - Prof. R. Paroli 232
Box - plot a confronto
0
10
20
30
40
50
60
1 2 3
Q1minQ2maxQ3
Max = 58 = Valore anomalo
Q3+1.5(Q3-Q1) = 52
Statistica I-a.a.2009/2010 - Prof. R. Paroli 233
FORMA DI UNA DISTRIBUZIONE DI FREQUENZA
Statistica I – a.a. 2009/2010Statistica I-a.a.2009/2010 - Prof. R. Paroli 234
MOMENTI DI UNA V.S.
Indici riassuntivi di una variabile statistica
• MOMENTI CENTRALI (o DALLA MEDIA)
DI ORDINE s≥1
μ-s = M⎣⎡ ⎦⎤(X − μX)s = ∑ (xi − μX)s fi
• MOMENTI DALL’ORIGINE DI ORDINE s≥1
μs = M(Xs) = ∑xis fi
Statistica I-a.a.2009/2010 - Prof. R. Paroli 235
Casi particolari
• s = 1
μ-1 = M⎣⎢⎡
⎦⎥⎤(X − μX)
1 = 0 (I propr. media)
μ1 = M(X1) = M(X) media aritmetica
• s = 2
μ-2 = M⎣⎢⎡
⎦⎥⎤(X − μX)
2 varianza
μ2 = M(X2)
• s = 3 …………… • s = 4 ……………
Statistica I-a.a.2009/2010 - Prof. R. Paroli 236
Una v.s. è simmetricasimmetrica rispetto ad un centro c se:
- per ogni xi = c − k
- esiste un xj = c + k (simmetrico)
con stessa frequenza: f(xi) = f(xj)
SIMMETRIA
23N =
X
8
7
6
5
4
3
2
1
0
Statistica I-a.a.2009/2010 - Prof. R. Paroli 237
PROPRIETA’ di una v.s. simmetrica unimodale
• MODA = MEDIA = MEDIANA = c
• I MOMENTI DALLA MEDIA DI ORDINE DISPARI SONO NULLI
infatti, per la simmetria, gli scarti dalla media (centro) sono a due a due uguali in valore ma opposti in segno e con stessa frequenza ⇒ medie di ordine dispari sono nulle
Statistica I-a.a.2009/2010 - Prof. R. Paroli 238
curva obliqua a sinistra ⇒ Mo < Me < μ
• ASIMMETRIA POSITIVA (a sinistra)
Me
Statistica I-a.a.2009/2010 - Prof. R. Paroli 239
23N =
X
8
7
6
5
4
3
2
1
0
Con il box-plot
Statistica I-a.a.2009/2010 - Prof. R. Paroli 240
curva obliqua a destra ⇒ μ <Me < Mo
• ASIMMETRIA NEGATIVA (a destra)
Me
Statistica I-a.a.2009/2010 - Prof. R. Paroli 241
23N =
X
8
7
6
5
4
3
2
1
0
Con il box-plot
Statistica I-a.a.2009/2010 - Prof. R. Paroli 242
Indici di simmetria o asimmetria
Indice di FISHER o di SKEWNESS
(più comunemente usato)
γ1 = M[(X−μ)3] σ3 = μ
- 3 σ3
se asimmetria sinistra ⇒ γ1 > 0 se asimmetria destra ⇒ γ1 < 0 se simmetria ⇒ γ1 = 0 NB ( = 0 ) è solo sintomo di simmetria !!
Statistica I-a.a.2009/2010 - Prof. R. Paroli 243
esempio:
Moda = 15 Mediana = 15
xi ni Ni xi*ni (xi−μ) (xi−μ)2*ni (xi−μ)3*ni5 2 2 10 -10 200 -200010 4 6 40 -5 100 -50015 6 12 90 0 0 020 4 16 80 5 100 50025 2 18 50 10 200 2000
270 600 0
μ= 15 μ3= 0σ2= 33.333 γ1= 0
0
2
4
6
8
0 5 10 15 20 25 30
x
ni
Statistica I-a.a.2009/2010 - Prof. R. Paroli 244
xi ni Ni xi*ni (xi−μ) (xi−μ)2*ni (xi−μ)3*ni5 2 2 10 -10.32258 213.1113 -2199.85910 10 12 100 -5.322581 283.2986 -1507.8815 8 20 120 -0.322581 0.832466 -0.26853720 6 26 120 4.677419 131.2695 614.002625 5 31 125 9.677419 468.2622 4531.57
475 1096.774 1437.565
esempio:
μ= 15.323 μ3= 46.37307σ2= 35.38 γ1= 0.22036
Moda = 10 Mediana = 15
Moda<Mediana<μ
02468
1012
0 5 10 15 20 25 30
x
ni
Statistica I-a.a.2009/2010 - Prof. R. Paroli 245
Box - plot a confronto
0
5
10
15
20
25
30
1 2
Q1minQ2mediamaxQ3
ECCO I BOX PLOT DEGLI ULTIMI 2 ESEMPI: TROVA LE DIFFERENZE