ST1-3-variabilità e forma

21
Statistica I-a.a.2009/2010 - Prof. R. Paroli 165 VARIABILITÀ Statistica I – a.a. 2009/2010 Prof.ssa R. Paroli LA STATISTICA (Trilussa) Sai ched’è la statistica? E’ ‘na cosa che serve pe’ fa’ un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che sposa Ma pe’ me la statistica curiosa è dove c’entra la percentuale, pe’ via che lì la media è sempre eguale puro co’ la persona bisognosa. Me spiego: da li conti che se fanno seconno le statistiche d’adesso risurta che te tocca un pollo all’anno: E se nun entra ne le spese tue t’entra ne la statistica lo stesso perché c’e’ un antro che ne magnia due!!! Statistica I-a.a.2009/2010 - Prof. R. Paroli 167 Gli indici di posizione sono indici sintetici che sostituiscono alle diverse modalità del carattere un’unica modalità che possa ritenersi “rappresentativa di tutte le altre” . Da solo l’indice di posizione - appare tuttavia insufficiente - sintesi perdita di informazioni - interessano anche indicatori della diversità (molteplicità) dei valori di un carattere POSIZIONE + VARIABILIT POSIZIONE + VARIABILIT À À Due distribuzioni con la stessa media non è detto che presentino un medesimo comportamento Statistica I-a.a.2009/2010 - Prof. R. Paroli 168 - caratteri qualitativi mutabilità - caratteri quantitativi variabilità o dispersione Attitudine Attitudine del del carattere carattere ad ad assumere assumere modalit modalit à à differenti differenti VARIABILITA VARIABILITA

description

ST1-3-variabilità e forma

Transcript of ST1-3-variabilità e forma

Page 1: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 165

VARIABILITÀ

Statistica I – a.a. 2009/2010Prof.ssa R. Paroli

LA STATISTICA (Trilussa)

Sai ched’è la statistica? E’ ‘na cosache serve pe’ fa’ un conto in generalede la gente che nasce, che sta male,che more, che va in carcere e che sposa

Ma pe’ me la statistica curiosa è dove c’entra la percentuale,pe’ via che lì la media è sempre egualepuro co’ la persona bisognosa.

Me spiego: da li conti che se fanno seconno le statistiche d’adessorisurta che te tocca un pollo all’anno:

E se nun entra ne le spese tuet’entra ne la statistica lo stessoperché c’e’ un antro che ne magnia due!!!

Statistica I-a.a.2009/2010 - Prof. R. Paroli 167

Gli indici di posizione sono indici sintetici che sostituiscono alle diverse modalità del carattere un’unica modalità che possa ritenersi “rappresentativa di tutte le altre” .

Da solo l’indice di posizione

- appare tuttavia insufficiente- sintesi → perdita di informazioni

- interessano anche indicatori della diversità(molteplicità) dei valori di un carattere

⇒⇒ POSIZIONE + VARIABILITPOSIZIONE + VARIABILITÀÀ

Due distribuzioni con la stessa media non è detto che presentino un medesimo comportamento

Statistica I-a.a.2009/2010 - Prof. R. Paroli 168

- caratteri qualitativi ⇒ mutabilità

- caratteri quantitativi ⇒ variabilità o dispersione

AttitudineAttitudine del del caratterecarattere ad ad assumereassumeremodalitmodalitàà differentidifferenti

VARIABILITAVARIABILITA’’

Page 2: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 169

X ={x1,…,x6} ⎯⎯ ⎯ ⎯ ⎯⎯ ⎯ ⎯

Y ={y1,…,y6} ⎯ ⎯ ⎯ ⎯⎯⎯⎯⎯⎯

è più variabile (disperso) X oppure Y ??

Per capire:

Statistica I-a.a.2009/2010 - Prof. R. Paroli 170

esempio: colore dei capelli di 3 gruppi (distribuzioni %)

Colore G1 G2 G3 nero 0.10 0.30 0.70

castano 0.25 0.30 0.20 biondo 0.60 0.30 0.05 altro 0.05 0.10 0.05

1 1 1

in quale gruppo c’è più mutabilità?

VARIABILITÀ PER CARATTERI QUALITATIVI

Indici di mutabilità o eterogeneità

Statistica I-a.a.2009/2010 - Prof. R. Paroli 171

E = ∑i=1

k fi(1 − fi) = 1 − ∑

i=1

k fi

2

(usato per lo studio della concentrazione industriale o di mercato)

INDICE DI ETEROGENEITÀ DI GINI

Basato sulle frequenze relative della distribuzione di frequenza:

Statistica I-a.a.2009/2010 - Prof. R. Paroli 172

esempio: colore dei capelli di 3 gruppi

Colore G1 G2 G3 nero 0.10 0.30 0.70

castano 0.25 0.30 0.20 biondo 0.60 0.30 0.05 altro 0.05 0.10 0.05

1 1 1

E = 1 − (0.12 + 0.252 + 0.62+ 0.052) = 1 − (0.435) = 0.565

E = 1 − (0.32 + 0.32 + 0.32+ 0.102) = 1 − (0.28) = 0.72

E = 1 − (0.72 + 0.22 + 0.052+ 0.052) = 1 − (0.535) = 0.465

Page 3: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 173

situazioni estreme

minmin mutabilitmutabilitàà:

∃ fi = 1, fj = 0 (j≠i)esiste una sola modalitàcui corrisponde tutta la frequenza, tutte le altre hanno freq. nulla

maxmax mutabilitmutabilitàà:

f1 = … = fk = 1/ktutte le modalità hanno la stessafrequenza

xi fi x1 0 … … xi 1 … … xk 0 1

xi fi x1 1/k … … xi 1/k … … xk 1/k 1 Statistica I-a.a.2009/2010 - Prof. R. Paroli 174

Emin = 1 − (f12 + … + fk2) = 1 − (1) = 0 Emax = 1 − Σ (1/k)2 = 1 − k(1/k)2= 1 − 1/k

Per l’indice di eterogeneità si dimostra che:

• nella situazione minima

• nella situazione massima

Statistica I-a.a.2009/2010 - Prof. R. Paroli 175

apriamo una parentesi ….. (

Per rendere confrontabili tra di loro alcuni aspetti come la mutabilità (o variabilità) di caratteri diversi (pensate, ad esempio, al carattere colore degli occhi e colore dei capelli) è necessario avere a disposizione indici particolari, che prendono il nome di

INDICI NORMALIZZATISi tratta di indici che consentono di fare confronti tra caratteri diversi o stessi caratteri ma misurati con unità di misura diverse (variabilità di un titolo azionario in Euro e uno in Dollaro).

Statistica I-a.a.2009/2010 - Prof. R. Paroli 176

Da utilizzare per fare confronti tra variabili con unità di misura differenti

se Imin ≤ I ≤ Imax

IN = I − Imin

Imax − Imin

per il quale

0 ≤ IN ≤ 1

in genere Imin = 0 per cui

IN = I

Imax

Indici normalizzati

chiusa la parentesi …)

Page 4: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 177

EN =E

Emax= 1 − Σ fi

2 1 − 1/k

Per l’indice di eterogeneità si ha che:

0≤ EN ≤1

Indice di GINI NORMALIZZATO

minima mutabilità massima mutabilità

Statistica I-a.a.2009/2010 - Prof. R. Paroli 178

esempio: colore dei capelli di 3 gruppi

Colore G1 G2 G3 nero 0.10 0.30 0.70

castano 0.25 0.30 0.20 biondo 0.60 0.30 0.05 altro 0.05 0.10 0.05

1 1 1

E = 1 − (0.12 + 0.252 + 0.62+ 0.052) = 1 − (0.435) = 0.565

Emax = 1 − 1/4 = 0.75 da cui l’indice normalizzato e’:

EN = 0.565/0.75 = 0.753 alta variabilità

Statistica I-a.a.2009/2010 - Prof. R. Paroli 179

E = 1 − (0.32 + 0.32 + 0.32+ 0.12) = 0.72

Emax = 1 − 1/4 = 0.75 EN = 0.72/0.75 = 0.96

per gli altri gruppi si ha:

• G2:

• G3:

E = 1 − (0.72 + 0.22 + 0.052+ 0.052) = 0.465

Emax = 1 − 1/4 = 0.75 EN = 0.465/0.75 = 0.62

ConclusioniConclusioni: poiché EN(G2)>EN(G1)>EN(G3)

G2 presenta maggior mutabilità

Statistica I-a.a.2009/2010 - Prof. R. Paroli 180

VARIABILITÀ PER CARATTERI QUANTITATIVI

La definizione di variabilità nel caso di caratteri quantitativi può essere applicata alle modalità in modo analitico. Si posso cioè calcolare tutte le “differenze” o “distanze” tra le varie modalità, su cui poi basare un indice che ne dia una misura sintetica.

Esistono due impostazioni basate sul differente modo del calcolo di tali distanze:

- le distanze di ogni modalità da tutte le altre

- le distanze di ogni modalità da una particolare, scelta ad hoc

Page 5: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 181

x1 x2

x3

x4

x1 x2

x3 x4

Indicatori globali Indicatori di dispersione

Distanze di ogni modalità da tutte le altre

Distanze di ogni modalitàda una particolare o rappresentativa di X

Statistica I-a.a.2009/2010 - Prof. R. Paroli 182

INDICI DI VARIABILITINDICI DI VARIABILITÀÀ

funzioni (medie potenziate!!!) delle distanze scelte

due modi di misurare la variabilità

- variabilitvariabilitàà globaleglobale VG(X)- dispersione da centrodispersione da centro D(X)

Statistica I-a.a.2009/2010 - Prof. R. Paroli 183

PROPRIETA’ GENERALI

VG(X)VG(X) =VARIABILITÀ GLOBALE D(X)D(X)=DISPERSIONE

1) non negativitàVG(X) ≥ 0 D(X) ≥ 0

2) VG(X) = 0 se xi = xj D(X) = 0 se xi=cost

3) invarianza per traslazioniVG(X + b) = VG(X) D(X + b) = D(X)

4) monotonicità rispetto alle differenze elementari

Statistica I-a.a.2009/2010 - Prof. R. Paroli 184

INDICI DI DISPERSIONE

Scostamenti medi assoluti di ordine r da un centro

Dr(c) = ⎣⎢⎢⎡

⎦⎥⎥⎤

1n ∑

i=1

n |vi − c|r

1/r=

⎣⎢⎢⎡

⎦⎥⎥⎤1

n ∑i=1

k |xi − c|r ni

1/r

percentile xp c = centro = mediana

media aritmetica

Page 6: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 185

r = 1 (dalla mediana)

D1(Me) = 1n ∑

i=1

k |xi − Me| ni

r = 2 (dalla media)

D2(μ) = ⎣⎢⎢⎡

⎦⎥⎥⎤1

n ∑i=1

k (xi − μ)2 ni

1/2

chiamato anche scarto quadratico medio (σ)Statistica I-a.a.2009/2010 - Prof. R. Paroli 186

VARIANZA

D2(μ)2 = σ2= Var(X) = σ2(X) =

= ⎣⎢⎡

⎦⎥⎤1

n ∑i=1

k (xi − μ)2 ni = M⎣

⎡⎦⎤(X - μ)2

Il quadrato dello scarto quadratico medio definisce la

VARIANZAVARIANZA

media degli scarti dalla media al quadrato

Statistica I-a.a.2009/2010 - Prof. R. Paroli 187

xi ni xi*ni (xi-μ) (xi-μ)2*ni

2 3 6 -4 484 10 40 -2 406 20 120 0 08 6 48 2 24

10 5 50 4 8044 264 192

esempio:

μ = 26444 = 6

σ2= 1n

⎣⎢⎢⎡

⎦⎥⎥⎤

∑i=1

k (xi − μ)2 ni =

19244 =4.363636

Passaggi per il calcolo della varianza con la formula di definizione

Statistica I-a.a.2009/2010 - Prof. R. Paroli 188

Dim.

σ2 = M⎣⎡

⎦⎤(X - μ)2 = M(X2 − 2μX + μ2) =

= M(X2) − 2μ M(X) + μ2 = M(X2) − 2μ2 + μ2=

= M(X2) − μ2

Formula operativa:

σ2= M(X2) - μ2 = 1n ∑

i=1

k xi

2ni - μ2

media dei quadrati

quadrato della media

N.B. Var(X) ≥ 0 !!!!

Page 7: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 189

esempio:

μ = 26444 = 6

σ2= M(X2)- μ2 = 1776

44 - 62= 4.363636

x i n i x i n i x i2 n i

2 3 6 1 2 4 1 0 4 0 1 6 0 6 2 0 1 2 0 7 2 0 8 6 4 8 3 8 4

1 0 5 5 0 5 0 0 4 4 2 6 4 1 7 7 6

Passaggi per il calcolo della varianza con la formula operativa

Il calcolo è piùveloce

Statistica I-a.a.2009/2010 - Prof. R. Paroli 190

OPERATORE VARIANZA

associa ad ogni variabile la sua VARIANZA

proprietà

1. Var(a) = 0 (varianza di una costante)

2. Var(aX) = a2 Var(X)

3. Var(aX + b) = a2 Var(X) (non linearità)

4. Var(X+Y) = Var(X) + Var(Y) +

Dimostratele utilizzando l’operatore media e le sue proprietà

termine ≠ 0

Statistica I-a.a.2009/2010 - Prof. R. Paroli 191

Passaggi principali delle dimostrazioni:

1. Var(a)= M[(a-M(a))2] = M[(a-a)2]=0

2. Var(aX)=M[(aX-M(aX))2]= M[(a(X-M(X)))2]=…=

=a2 Var(X)

3. Var(aX+b)= M[((aX+b)-M(aX+b))2]=

=M[(aX+b-aM(X)-b)2]= …=

=M[(a(X-M(X)))2]= a2 Var(X)

4. Var(X+Y) = M[((X+Y)-M(X+Y))2]= ……Statistica I-a.a.2009/2010 - Prof. R. Paroli 192

Ipotesi per il teorema della scomposizione della varianza

I dati elementari sono classificati in h sottogruppi. Per ciascuno dei sottogruppi si conosce la numerosità, la media e la varianza

- media gruppo i-esimo μi = ∑j=1

ni

xij / ni

- varianza gruppo i-esimo σ2i = ∑

j=1

ni

(xij − μi)2/ ni

1 2 … h

n1 n2 … nh

μ1 μ2 … μh

σ21 σ

22 … σ

2h

Page 8: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 193

La varianza totale σ2 è ottenibile come la somma della

varianza “entro i gruppi” (varianza WITHIN=σ2W ) e

della varianza “tra i gruppi” (varianza BETWEEN=σ2B)

dove:

σ2W = M(σ

2i ) e σ

2B = V(μi)

σ2 = σ2W + σ

2B

TESI:

Teorema della scomposizione della varianza (I versione)

Statistica I-a.a.2009/2010 - Prof. R. Paroli 194

- σ2W = varianza within (entro i gruppi) =

media delle varianze dei gruppi = M(σ2i )

σ2W=

1n ∑

i=1

h σ

2i ni

- σ2B= varianza between (tra i gruppi) =

varianza delle medie dei gruppi = V(μi)

σ2B=

1n ∑

i=1

h (μi −μ)2 ni

σ2i ni

σ21 n1

… … σ2

h nh n

SCRIVIAMO PER ESTESO LA VARIANZA WITHIN E BETWEEN:

μi ni μ1 n1 … … μh nh n

Statistica I-a.a.2009/2010 - Prof. R. Paroli 195

DIMOSTRAZIONE

varianza totale = σ2Y = ∑

k=1

n ⎝

⎛⎠⎞xk − μ2 1n = ∑

i=1

h ∑j=1

ni ⎝

⎛⎠⎞xij − μ2 1n=

= ∑i=1

h ∑j=1

ni ⎝

⎛⎠⎞xij − μi + μi -μ2 1n =

= ∑i=1

h ∑j=1

ni

[(xij − μ i) + (μ i - μ)] 2 1n = (faccio il quadrato)

= ∑i=1

h ∑j=1

ni ⎝⎜

⎛⎠⎟⎞(xij − μ i)

2 + (μ i - μ)

2 + 2(xij − μ i)( μ i - μ)

1n =

= ∑i=1

h ∑j=1

ni ⎝⎜

⎛⎠⎟⎞(xij − μ i)

2

1n + ∑

i=1

h ∑j=1

ni ⎝⎜

⎛⎠⎟⎞(μ i - μ)

2 1n +

+ 2 ∑i=1

h ∑j=1

ni ⎝

⎛⎠⎞(xij − μ i)( μ i - μ) 1n =

Aggiungo e tolgo le medie di gruppo

Statistica I-a.a.2009/2010 - Prof. R. Paroli 196

consideriamo separatamente i 3 addendi: I addendo

∑i=1

h ∑j=1

ni

⎝⎜⎛

⎠⎟⎞(xij − μ i)

2

1n = ∑

i=1

h ⎝⎜⎛

⎠⎟⎞

ni

n ∑j=1

ni

⎝⎜⎛

⎠⎟⎞(xij − μ i)

2

1ni

= ∑i=1

h ⎝⎜⎛

⎠⎟⎞

ni

n σ2 i =

= media delle var di gruppo = σ2W

II addendo

∑i=1

h ∑j=1

ni ⎝⎜

⎛⎠⎟⎞(μ i - μ)

2 1n = ∑

i=1

h ⎝⎜⎛

⎠⎟⎞

1n ⎝⎜

⎛⎠⎟⎞(μ i - μ)

2 ∑

j=1

ni 1 = ∑

i=1

h (μ i - μ)

2 ni

n =

= varianza delle medie di gruppo = σ2B

Moltiplico e divido per ni

nifattore che non dipende da j

Page 9: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 197

III addendo

2 ∑i=1

h ∑

j=1

ni ⎝

⎛⎠⎞(xij − μ i)( μ i - μ) 1n =

= 2 ∑i=1

h

⎣⎢⎡

⎦⎥⎤

( μ i - μ) ni

n ·⎝⎜⎛

⎠⎟⎞

∑j=1

ni

⎝⎛

⎠⎞(xij − μ i) 1ni

=

=2 ∑i ⎣⎢⎡

⎦⎥⎤

(μ i - μ) ni

n (0) = 0

σ2= σ2W + σ

2B

= 0 per la I proprietà della media

cvd

Moltiplico e divido per ni

Statistica I-a.a.2009/2010 - Prof. R. Paroli 198

Nel caso in cui non si conoscano i valori assunti da un carattere su tutte le unità statistiche, ma di ogni sottogruppo i in cui è suddivisa la popolazione siano noti:

- numerosità (ni)

- media (μi)

- varianza (σ2i)

è possibile ricavare la media generale (tramite l’applicazione della proprietà associativa) e la varianza (tramite il teorema di scomposizione della varianza).

Statistica I-a.a.2009/2010 - Prof. R. Paroli 199

La tabella riporta media e scarto quadratico medio del voto di maturità degli studenti iscritti a 4 Facoltà:

Sapendo che 60 studenti sono di Lettere, 125 di Economia, 75 di Scienze Politiche e 40 di Chimica, calcolare il voto medio di maturità e la varianzacomplessiva degli studenti di tutto l’ateneo.

media s.q.m. Lettere 88 6.16

Economia 82 7.38 Sc. Politiche 86 8.6

Chimica 85 4.25

Esempio

Statistica I-a.a.2009/2010 - Prof. R. Paroli 200

Distribuzione delle medie dei gruppi

• Calcolo la varianza between = var. medie dei gruppi

μ= 25380/300 = 84.60

σ2B=1692/300= (oppure, con la formula operativa) =

= 2148840/300 – (84.60)2 = 5.64

μi ni88 6082 12586 7585 40

300

μi*ni (μi-μ)2*ni μi2*ni5280 693.60 464640

10250 845.00 8405006450 147.00 5547003400 6.40 289000

25380 1692.00 2148840

Page 10: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 201

• Calcolo la varianza within = media delle var. dei gruppi

σ2W=15354.29/300= 51.18

• varianza totale = var.B + var.W

σ2 = σ2B + σ2

W = 5.64 + 51.18 = 56.82

Distribuzione delle varianzedei gruppi

σi σi2 ni σi2*ni6.16 37.9456 60 2276.7367.38 54.4644 125 6808.058.6 73.96 75 5547

4.25 18.0625 40 722.5300 15354.29

Statistica I-a.a.2009/2010 - Prof. R. Paroli 202

MINIMA VARIABILITA’

Si ricordi la II proprietà degli indici di variabilità

la variabile statistica è caratterizzata da una distribuzione degenere (costante):

le modalità xi=xj=c ∀i≠j, con i,j=1,…,k.

Tutti gli indici assumono valore 0

anche la varianza VAR(X) = 0

Statistica I-a.a.2009/2010 - Prof. R. Paroli 203

MASSIMA VARIABILITA’

⎯⎯■⎯⎯⎯■⎯⎯⎯■⎯⎯⎯■⎯⎯ x1 x2 x3 x4

⎯⎯■⎯⎯■⎯⎯⎯⎯⎯⎯■⎯⎯■⎯⎯ y1 y2 y3 y4

….. y2=x2−δ y3=x3+δ …..

con media fissa

Intuitivamente:

la variabilità aumenta se aumentano le distanze tra modalità

Statistica I-a.a.2009/2010 - Prof. R. Paroli 204

quindi ... bisogna spostare valori e frequenzeverso gli estremi ... (o oltre)

Definizione

nella distribuzione di max variabilità le unitàstatistiche si distribuiscono intorno ai valori estremi delle modalità della variabile in studio

Page 11: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 205

si costruisce una tabella con k = 2

xi ni xi fi a na oppure a fa b nb b fb n 1

TABELLA DI MAX VARIABILITA’

Statistica I-a.a.2009/2010 - Prof. R. Paroli 206

Ipotesi per la determinazione della situazione di massima variabilità

- modalità non negative (xi ≥ 0)

- non deve variare la numerosità n

- non deve variare la media aritmetica μ

resta fissato il totale T=∑ixini = nμ

Statistica I-a.a.2009/2010 - Prof. R. Paroli 207

Gli estremi sono soggetti a dei vincoli

0 ≤ a ≤ x1 xk ≤ b ≤ T

a b

0 x1 xk T

- Scelta di a e bScelta di a e b

cioè:

-a compreso tra 0 ed il minimo dei dati osservati

-b compreso tra il massimo dei dati osservati e T

Statistica I-a.a.2009/2010 - Prof. R. Paroli 208

Bisogna trovare i valori delle frequenze na e nbnella distribuzione

tali da verificare le 2 seguenti condizioni

- media aritmetica (o totale) costante

- n costante

xi ni a na b nb n

- Calcolo di [alcolo di [nnaa e e nnbb]]

Page 12: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 209

na = n b−μ b-a nb = n

μ−a b-a

⎩⎪⎨⎪⎧Σ xi ni = T= n μΣ ni = n

Si tratta di risolvere il seguente sistema per sostituzione

⎩⎪⎨⎪⎧

ana + bnb = T= n μna + nb = n

⎩⎪⎨⎪⎧

a(n - nb)+ bnb = n μna = n - nb

⎩⎪⎨⎪⎧

(b - a) nb = n(μ-a)na = n - nb

Statistica I-a.a.2009/2010 - Prof. R. Paroli 210

na = n b−μ b-a

nb = n - na = n μ−a b-a

Cioè:

Statistica I-a.a.2009/2010 - Prof. R. Paroli 211

fa = b−μ b-a

fb = 1 - fa = μ−a b-a

⎩⎪⎨⎪⎧ Σ xi fi = μ Σ fi = 1

⎩⎪⎨⎪⎧ a fa + b fb = μ fa + fb = 1

Se si opera con le frequenze relative si ha:

e si ottengono

Statistica I-a.a.2009/2010 - Prof. R. Paroli 212

Osservazione

Nel caso delle frequenze assolute a volte il risultato NON è intero, si prende quindi

na = int ⎝⎜⎛

⎠⎟⎞

n b−μ b-a nb = int

⎝⎜⎛

⎠⎟⎞

n μ−a b-a

diventa però

(na + nb) = n - 1

Page 13: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 213

- occorre definire una terza modalità c con frequenza unitaria (nc= 1) tale che soddisfi al vincolo della media costante, cioè

Σxini = a na + c 1 + b nb = n μ

da cuic = nμ - a na – b nb

N.B. c deve essere un valore tra a e b !!!!!!

Statistica I-a.a.2009/2010 - Prof. R. Paroli 214

- la distribuzione di massima variabilità diventa

xi ni a na c 1 b nb n

Un qualunque indice di variabilità calcolato su questa tabella ne rappresenterà il massimo

Statistica I-a.a.2009/2010 - Prof. R. Paroli 215

esempio: costruzione tabella di massima variabilità in [xmin;xmax]

xi ni xi 2ni2.5 7 43.757.5 3 168.7512.5 5 781.2517.5 5 1531.25

20 2525

n=20 a=2.5

μ= 9.5 b=17.5

na = n b−μ b-a = 20

17.5−9.5 17.5-2.5 = 10.666 ≅ 10

nb = n - na= 20 – 10.666= 9.333 ≅ 9

c=20 9.5-2.5 10 –17.5 9 = 7.5

Statistica I-a.a.2009/2010 - Prof. R. Paroli 216

xi ni 2.5 10 7.5 1 17.5 9

20

In questa tabella si verifica che

- n è invariato (20)

- la media è invariata (9.5)

La varianza calcolata su questa tabella è la varianza massima nella classe [2.5;17.5]

Page 14: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 217

CASO PARTICOLARE

a = 0 b = T

sostituendo nelle formule di na e nb si ottiene:

na = n-1 nb = 1

xi ni 0 n-1 T 1 n

Tabella di Tabella di massima massima variabilitvariabilitàà tra tra [0,T][0,T]

Statistica I-a.a.2009/2010 - Prof. R. Paroli 218

Indici di variabilità normalizzati

Come per l’indice di mutabilità, la situazione massima ci permette di definire gli indici di variabilitànormalizzati (compresi tra 0 e 1):

varianza normalizzata:

σ2N = σ2

σ2max

Statistica I-a.a.2009/2010 - Prof. R. Paroli 219

OPERATIVAMENTE:

come si calcola un indice di variabilitànormalizzato????

1. si calcola l’indice assoluto sui dati osservati2. si costruisce la situazione di massima

variabilità3. si calcola l’indice su tale distribuzione4. si fa il rapporto tra i due

??? non esistono formule esplicite ????Statistica I-a.a.2009/2010 - Prof. R. Paroli 220

Data la distribuzione di max variabilità in [a,b]:

σ2max = [

a2(b-μ)(b-a) +

b2(μ-a)(b-a) ]-μ2=

= a2b-a2μ+b2μ-ab2-bμ2+aμ2

(b-a) =

=ab(a-b)-μ(a2-b2)+μ2(a−b)

(b-a) =

xi fi a (b-μ)/(b-a) b (μ-a)/(b-a) 1

Formula della varianza massima in [a,b]

calcolo la varianza applicando la formula operativa: Var(X)=M(X2)-μ2

Page 15: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 221

= (a-b) ab-μ(a+b)+μ2

(b-a) = - (ab-μa- μb+μ2) =

= -[a(b-μ)-μ(b-μ)] = -[(a- μ)(b-μ)] = (μ-a )(b-μ)

σ2max = (b−μ)(μ−a)

Questa formula può essere applicata direttamente quando non si costruisce la situazione di massima variabilità

Statistica I-a.a.2009/2010 - Prof. R. Paroli 222

σ2max = (T−μ)μ = (nμ - μ)μ = (n−1) μ2

VARIANZA NORMALIZZATA

σ2N = σ2

(b−μ)(μ−a) in [a;b]

σ2N = σ2

(n−1) μ2 in [0;T]

• Nel caso di massima variabilità tra [0,T] la formula esplicita diventa:

Statistica I-a.a.2009/2010 - Prof. R. Paroli 223

esempio:

σ2N = σ2

(b−μ)(μ−a) = 4.363636

(10−6)(6−2) = 0.272727

σ2N = σ2

(n−1) μ2 = 4.363636

(44−1) 36 = 0.002819

x i n i x i*n i2 3 64 1 0 4 06 2 0 1 2 08 6 4 8

1 0 5 5 04 4 2 6 4

a = 2 b = 10

T = 264

μ = 6 σ2 = 4.363636

Norm. in [a;b]

Norm. in [0;T]

Statistica I-a.a.2009/2010 - Prof. R. Paroli 224

esempio: confronto della variabilità normalizzando in [0,T]

xi ni2.5 77.5 312.5 517.5 5

20

μ=9.5 σ2=36

σ2Ν(X) = 0.02099

yi ni15 525 435 11

20

μ=28 σ2=71

σ2Ν(Y) = 0.00477

σ2Ν(X) > σ2

Ν(Y) X presenta maggior X presenta maggior variabilitvariabilitàà

Page 16: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 225

COEFFICIENTE DI VARIAZIONE

- utile per confronti ma non normalizzato (non compreso tra 0 e 1)

- numero puro che non dipende dall’unità di misura delle modalità

CV= s.q.m./media = σ/μ

N.B. il CV è sempre ≥ 0!!!

Statistica I-a.a.2009/2010 - Prof. R. Paroli 226

esempio: confronto della variabilità

xi ni2.5 77.5 312.5 517.5 5

20

μ=9.5 σ2=36

cv(X)= 0.6315

yi ni15 525 435 11

20

μ=28 σ2=71

cv(Y)= 0.3009

cv(X)>cv(Y) X presenta maggior X presenta maggior variabilitvariabilitàà

Statistica I-a.a.2009/2010 - Prof. R. Paroli 227

Grafici BOX–PLOT (o BOX&WHISKERS)

• GRAFICO RIASSUNTIVO DEI MAGGIORI INDICI DESCRITTIVI UNIVARIATI CHE CONSENTE CONFRONTI “VISIVI” TRA DIVERSE VARIABILI

• Per ogni variabile vengono rappresentate:- mediana (Q2)

- I e III quartile (Q1 e Q3)- Differenza interquartile H = Q3 – Q1

- minimo e massimo

Statistica I-a.a.2009/2010 - Prof. R. Paroli 228

406N =

Cilindrata in cc

500

400

300

200

100

0

-100

Q1

Q2

Q3

Il BOX è la scatola rossa.

E’ delimitata da Q1 e Q3mentre la linea nera al suo interno indica la mediana Q2.

Tra Q3 e Q1 si trova il 50% delle unitàstatistiche.

BOX

Page 17: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 229

406N =

Cilindrata in cc

500

400

300

200

100

0

-100

Q1

Q2

Q3

Q1 − 1.5(Q3−Q1) o xmin

WHISKERS

Q3 + 1.5(Q3−Q1) o xmax

Statistica I-a.a.2009/2010 - Prof. R. Paroli 230

400N =

Potenza (CV)

300

200

100

0

1023287103209124

Q3 + 1.5(Q3−Q1)

xmax

Valori anomali

(outliers)

Statistica I-a.a.2009/2010 - Prof. R. Paroli 231

ESEMPIO

La seguente tabella riporta la distribuzione delle età degli operai di 3 reparti di un’azienda

1 2 340 21 2044 23 2228 26 5026 19 4158 22 3322 30 1919 18 2225 42 4428 47 4621 18 1922 49 42

1 2 3Q1 22 20 21

min 19 18 19Q2 26 23 33

max 58 49 50Q3 34 36 43

Q1-1.5(Q3-Q1) 4 -4 -12Q3+1.5(Q3-Q1) 52 60 76

Statistica I-a.a.2009/2010 - Prof. R. Paroli 232

Box - plot a confronto

0

10

20

30

40

50

60

1 2 3

Q1minQ2maxQ3

Max = 58 = Valore anomalo

Q3+1.5(Q3-Q1) = 52

Page 18: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 233

FORMA DI UNA DISTRIBUZIONE DI FREQUENZA

Statistica I – a.a. 2009/2010Statistica I-a.a.2009/2010 - Prof. R. Paroli 234

MOMENTI DI UNA V.S.

Indici riassuntivi di una variabile statistica

• MOMENTI CENTRALI (o DALLA MEDIA)

DI ORDINE s≥1

μ-s = M⎣⎡ ⎦⎤(X − μX)s = ∑ (xi − μX)s fi

• MOMENTI DALL’ORIGINE DI ORDINE s≥1

μs = M(Xs) = ∑xis fi

Statistica I-a.a.2009/2010 - Prof. R. Paroli 235

Casi particolari

• s = 1

μ-1 = M⎣⎢⎡

⎦⎥⎤(X − μX)

1 = 0 (I propr. media)

μ1 = M(X1) = M(X) media aritmetica

• s = 2

μ-2 = M⎣⎢⎡

⎦⎥⎤(X − μX)

2 varianza

μ2 = M(X2)

• s = 3 …………… • s = 4 ……………

Statistica I-a.a.2009/2010 - Prof. R. Paroli 236

Una v.s. è simmetricasimmetrica rispetto ad un centro c se:

- per ogni xi = c − k

- esiste un xj = c + k (simmetrico)

con stessa frequenza: f(xi) = f(xj)

SIMMETRIA

23N =

X

8

7

6

5

4

3

2

1

0

Page 19: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 237

PROPRIETA’ di una v.s. simmetrica unimodale

• MODA = MEDIA = MEDIANA = c

• I MOMENTI DALLA MEDIA DI ORDINE DISPARI SONO NULLI

infatti, per la simmetria, gli scarti dalla media (centro) sono a due a due uguali in valore ma opposti in segno e con stessa frequenza ⇒ medie di ordine dispari sono nulle

Statistica I-a.a.2009/2010 - Prof. R. Paroli 238

curva obliqua a sinistra ⇒ Mo < Me < μ

• ASIMMETRIA POSITIVA (a sinistra)

Me

Statistica I-a.a.2009/2010 - Prof. R. Paroli 239

23N =

X

8

7

6

5

4

3

2

1

0

Con il box-plot

Statistica I-a.a.2009/2010 - Prof. R. Paroli 240

curva obliqua a destra ⇒ μ <Me < Mo

• ASIMMETRIA NEGATIVA (a destra)

Me

Page 20: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 241

23N =

X

8

7

6

5

4

3

2

1

0

Con il box-plot

Statistica I-a.a.2009/2010 - Prof. R. Paroli 242

Indici di simmetria o asimmetria

Indice di FISHER o di SKEWNESS

(più comunemente usato)

γ1 = M[(X−μ)3] σ3 = μ

- 3 σ3

se asimmetria sinistra ⇒ γ1 > 0 se asimmetria destra ⇒ γ1 < 0 se simmetria ⇒ γ1 = 0 NB ( = 0 ) è solo sintomo di simmetria !!

Statistica I-a.a.2009/2010 - Prof. R. Paroli 243

esempio:

Moda = 15 Mediana = 15

xi ni Ni xi*ni (xi−μ) (xi−μ)2*ni (xi−μ)3*ni5 2 2 10 -10 200 -200010 4 6 40 -5 100 -50015 6 12 90 0 0 020 4 16 80 5 100 50025 2 18 50 10 200 2000

270 600 0

μ= 15 μ3= 0σ2= 33.333 γ1= 0

0

2

4

6

8

0 5 10 15 20 25 30

x

ni

Statistica I-a.a.2009/2010 - Prof. R. Paroli 244

xi ni Ni xi*ni (xi−μ) (xi−μ)2*ni (xi−μ)3*ni5 2 2 10 -10.32258 213.1113 -2199.85910 10 12 100 -5.322581 283.2986 -1507.8815 8 20 120 -0.322581 0.832466 -0.26853720 6 26 120 4.677419 131.2695 614.002625 5 31 125 9.677419 468.2622 4531.57

475 1096.774 1437.565

esempio:

μ= 15.323 μ3= 46.37307σ2= 35.38 γ1= 0.22036

Moda = 10 Mediana = 15

Moda<Mediana<μ

02468

1012

0 5 10 15 20 25 30

x

ni

Page 21: ST1-3-variabilità e forma

Statistica I-a.a.2009/2010 - Prof. R. Paroli 245

Box - plot a confronto

0

5

10

15

20

25

30

1 2

Q1minQ2mediamaxQ3

ECCO I BOX PLOT DEGLI ULTIMI 2 ESEMPI: TROVA LE DIFFERENZE