1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice...

26
1 Indici di variabilità Indicano l’attitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità del carattere sono tutte uguali, cioè se non c’è dispersione; non si deve modificare se tutte le frequenze vengono moltiplicate per una costante positiva e deve essere positivo qualora vi sia variabilità; deve essere non negativo e deve aumentare al crescere della disuguaglianza. Gli indici più utilizzati sono: • intervallo di variazione; • differenza interquartile; • scostamento semplice medio; • devianza; • varianza; • momenti; • scarto quadratico medio; • differenze medie; • coefficiente di variazione; • covarianza. Indici di variabilità assoluta Indici di variabilità relativa

Transcript of 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice...

Page 1: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

1

Indici di variabilitàIndicano l’attitudine di un carattere ad assumere valori diversi.Un indice di variabilità deve essere nullo se e solo se le modalità del carattere sono tutte uguali, cioè se non c’è dispersione; non si deve modificare se tutte le frequenze vengono moltiplicate per una costante positiva e deve essere positivo qualora vi sia variabilità; deve essere non negativo e deve aumentare al crescere della disuguaglianza.

Gli indici più utilizzati sono:

• intervallo di variazione;• differenza interquartile;• scostamento semplice medio;• devianza;• varianza;• momenti;• scarto quadratico medio;• differenze medie;• coefficiente di variazione;• covarianza.

Indici di variabilità assoluta

Indici di variabilità relativa

Page 2: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

2

Intervallo di variazioneIl campo o intervallo di variazione, detto anche range, è definito come la differenza tra il valore massimo e quello minimo

Intervallo di variazione = xN – x1

dove xN ed x1 indicano, rispettivamente, la modalità massima e quella minima della distribuzione.

È facile rendersi conto che il campo di variazione è una misura molto grossolana poiché esso dipende soltanto dai valori estremi senza tenere conto dei valori intermedi che sono in generale i più numerosi.

Page 3: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

3

Differenza interquartile

Un indice di variabilità meno grossolano del campo di variazione è la differenza interquartile, che è uguale alla differenza tra il terzo ed il primo quartile della distribuzione. Altri indici dello stesso tipo si ottengono facendo la differenza tra il nono ed i primo decile o, più in generale, fra due centili.

La differenza interquartile (alle volte si considera la semidifferenza interquartile) non presenta gli inconvenienti del campo di variazione; non tiene conto, però, di tutta l’informazione a disposizione.

Page 4: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

4

Scostamento semplice medio

Lo scostamento semplice medio dalla media aritmetica è dato da:

N

nMx

N

nMxnMxnMxS

n

iii

nnM

12211 ...

N

nMex

N

nMexnMexnMexS

n

iii

nnMe

12211 ...

cioè è la media aritmetica dei valori assoluti degli scarti dalla media.Lo scostamento non varia se ad ogni modalità si aggiunge una costante, mentre viene moltiplicato per una costante se ogni modalità è moltiplicata per una costante diversa da zero.Spesso si considera lo scostamento semplice medio dalla mediana:Poiché la mediana rende minima la somma dei valori assoluti degli scostamenti è, cioè, un centro di grado 1, si avrà che:

S Me SM

Page 5: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

5

La varianzaLa varianza o Quadrato Medio (MS da Mean Square), il cui simbolo è s2, è la misura di quanto i dati siano distanti dalla loro media aritmetica.È pari alla media aritmetica dei quadrati degli scarti dei valori osservati dalla loro media aritmetica ossia:

n

Mxn

ii∑

1

2

2

Per devianza s’intende semplicemente la somma dei quadrati degli scarti, ossia il numeratore della varianza.

∑ 1

1

22n

iii nMx

N dati

semplici (dati ponderati)

Page 6: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

6

La varianza: Teorema I (formula alternativa)

la varianza si può calcolare anche come differenza fra la media quadratica al quadrato meno il quadrato della media aritmetica.

222

2222

1222

1

121

2

1

2

222

2

22

21

:infatti

MMMMMN

nx

MMM

N

nMx

nMNN

nx

N

nMx

MM

n

iii

n

i

n

iii

i

n

iii

n

iii

Page 7: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

7

La varianza: Teorema II Se ogni modalità della distribuzione viene moltiplicata per una costante a diversa da zero e si aggiunge una costante b, la varianza viene moltiplicata per a2 cioè:

N

nMxa

N

nbaMbax

bax

x

a

n

iii

n

iii

bax

bax

x

xbax

1

22

1

2

2

22

2

222

:Dim.

onedistribuzi della varianzala è e

onedistribuzi della varianzala è dove

Page 8: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

8

La varianza: difettiCome indice di variabilità ha un difetto di non possedere la stessa unità di misura dei valori della distribuzione; per es. considerando la distribuzione delle stature degli abitanti di una regione espresse in cm, sappiamo che le differenze dalla media aritmetica sono dei valori espressi in cm, ma che elevandole al quadrato otteniamo dei valori in cm2, cosicché anche la corrispondente varianza esprimerà il valore in cm2. per tale motivo è preferibile utilizzare come indice di variabilità lo scarto quadratico medio (ossia la radice quadrata della varianza).

Page 9: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

9

Lo Scarto Quadratico MedioLo scarto quadratico medio (standard deviation) dalla media aritmetica, il cui simbolo è , è il più utilizzato degli indici di variabilità. La sua espressione è:

n

Mxn

ii∑

1

2-

n

ii

n

iii

n

nMx

1

∑1

2-

Dati semplici

Dati ponderati

cioè non è altro che la radice quadrata della varianza; è anche uguale alla media quadratica degli scarti.

Page 10: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

10

Lo Scarto Quadratico Medio: vantaggi

Le ragioni per cui si utilizza lo scarto quadratico medio sono di varia natura:

• è più sensibile di altre misure di variabilità alla presenza di modalità particolarmente alte o basse, cioè amplifica le fluttuazioni intorno alla media delle modalità;

• si presta meglio di altri indici a elaborazioni matematiche;

• è uno dei parametri che, unitamente alla media, caratterizza la distribuzione normale.

Page 11: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

11

Difetti degli indici di variabilità assoluti

Tra i requisiti formali degli indici di variabilità vi è quello di essere espressi nella stessa unità di misura delle osservazioni.

Essi pertanto non consentono di effettuare il confronto fra la variabilità di distribuzioni espresse in unità di misura diverse; se si tratta di unità di misura trasformabili, come ad es. cm e m, kg e libbre, è semplice ottenere la misura della variabilità nell’unità di misura di una delle due distribuzioni. Quando invece le due distribuzioni sono espresse in unità di misura non trasformabili non è possibile con gli indici visti finora confrontare la variabilità delle distribuzioni.

Inoltre gli indici di variabilità assoluta non consentono il confronto di distribuzioni che hanno medie diverse; essi sono influenzati dall’intensità del carattere

Page 12: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

12

Esempio devianzaCalcolare la devianza (SQ) dell’età, espressa in anni, di 6 bambini

iscritti ad una scuola di pianoforte:5; 6; 7; 7; 8; 10.

si deve calcolare prima la media:

1676

43

6

1087765.M

ed in seguito la Somma dei Quadrati degli scarti di ogni valore dalla media:= (5 - 7.16)2+(6-7.16)2+(7-7.16)2+(7-7.16)2+(8-7.16)2+(10-7.16)2==4.665 + 1.346 + 0.026 + 0.026 + 0.706 + 8.066 = 14.835

Page 13: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

13

EsempioSi calcoli la varianza e lo scarto quadratico medio per la

variabile X rappresentante il numero di cani randagi presenti in 6 diversi rifugi.

Media= 13.5

X (xi-M) (xi-M)2

14 0.5 0.25

3 -10.5 110.25

2 -11.5 132.25

45 31.5 992.25

11 -2.5 6.25

6 -7.5 56.25

81 0 1297.5

25216

6

51297∑ -

1

2

2 ..

n

Mxn

ii

711425216

1-

∑ -1

2

..n

xxn

ii

Page 14: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

14

Coefficiente di variazioneEsprime quanto la deviazione standard supera la media

aritmetica M.È un indice di variabilità relativa perché prescinde

dall’unità di misura. Il Coefficiente di Variazione (CV) è dato dal rapporto

percentuale tra lo scarto quadratico medio e la media aritmetica:

Altri indici relativi si ottengono dividendo lo scostamento semplice medio dalla media per la media o lo scostamento semplice mediano per la mediana.

100M

CV

Page 15: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

15

Ancora sugli indici relativi di variabilità

Un altro modo per ottenere indici relativi di variabilità è quello di rapportare l’indice al massimo dello stesso indice. Poiché il valore massimo teorico che possono assumere gli indici di variabilità assoluta è infinitamente grande, è necessario riferirsi ad un massimo in cui siano fissati il minimo ed il massimo delle modalità.

Per lo s,q,m. si suppone che sia noto il minimo delle modalità pari a l ed il massimo L. si impone inoltre che la distribuzione massimante (quella con variabilità max) abbia la stessa media della distribuzione data.

Per la distribuzione massimante si ha:

Modalità

l L

frequenze

h N-hh si ricava imponendo che la media della distribuzione massimante sia M nota

:quindi e

cioè

Ll

LMNh

NMLhLNlhMN

hNLhl

Page 16: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

16

… Ancora sugli indici relativi di variabilità

Tale indice varia tra 0 e 1: è nullo in assenza di variabilità ed è uguale ad 1 in caso di variabilità massima, compatibilmente con i vincoli imposti.In molte situazioni si può supporre che l=0 e quindi L=MN. In tal caso:

MLlM

MLlM

N

hNMLhMl

Max

Max

22

Max

:quindi e

:ha si passaggi, alcuni dopo cui, da

:ha si medio quadratico scarto loper

1

NMMNMMmax

Page 17: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

17

Differenze medieCol nome di differenze medie di un insieme di dati si intendono delle medie calcolate

sulle differenze fra ciascun dato e tutti gli altri, ossia delle differenze del tipo: dij = xi – xj.

Dati n valori x1, x2, …, xn – supposti ordinati in modo crescente – si calcolano le differenze fra ciascun termine e tutti gli altri, compreso se stesso. Si ottiene il quadro delle differenze, i cui termini posti sulla diagonale principale sono nulli. Il numero delle differenze è n2, di cui n nulle e quindi n2 - n = n (n - 1) sono diverse da zero.

x1 x2 … xi xn

x1 x1-x1 x2-x1 … xi-x1 xn-x

x2 x1-x2 x2-x2 … xi-x2 xn-x2

: : : … : :

xi x1-xi x2-xi … xi-xi xn-xi

: : : … : :

xn x1-xn x2-xn … xi-xn xn-xn

La somma di tutte le n2 differenze è uguale a zero.

Page 18: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

18

Tipi di differenze medieIn particolare si hanno:• differenze medie assolute quelle che utilizzano le quantità

jiij xxd

• differenze quadratiche medie quelle che si basano su:

22ji xxd

ij

Tali differenze possono essere:• con ripetizione, quando contengono tutte le n2

differenze possibili, quindi anche quelle ripetute;• senza ripetizione, quando contengono solo le n (n-1)

differenze diverse.

Page 19: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

19

Differenze medie assoluteQueste differenze media sono calcolate utilizzando le

differenze in valore assoluto :

jiij xxd

Se si considerano tutte le differenze assolute si ha la differenza media assoluta con ripetizione, la cui espressione:

njin

xx jiR ...3,2,1,

2

Se, invece, si escludono le differenze con termini uguali, si ha la differenza media assoluta senza ripetizione:

R ovviamente

;...3,2,1, 1

jinjinn

xx ji

Page 20: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

20

Differenze medie assolute (nel caso di dati ponderati)

Quando i dati sono ponderati anche le differenze andranno ponderate e precisamente moltiplicate per il fattore ni nj. Se tali differenze medie sono calcolate sui valori assoluti si avrà:

e)ripetizion (senza ;...3,2,1, 1

e)ripetizion(con ...3,2,1, 2

jinjinn

nnxx

njin

nnxx

jiji

jijiR

Page 21: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

21

Esempio: Differenze medie assolute

Calcolare il valore della differenza media assoluta con e senza ripetizione sui seguenti dati:

xi= 1; 2; 4; 7; 11

2-1=1 4-1=3

7-1=6

11-1=10

4-2=2

7-2=5

11-2=9

7-4=3

1-4=10

11-7=4

totale 50

La somma dei valori assoluti di tutte le differenze sarà quindi:

Page 22: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

22

MomentiI momenti sono le grandezze più importanti di una

distribuzione, in quanto si prestano a riassumere tutte le proprietà di dati.

• I momenti (m) – che non sono altro che una media delle kme potenze di scarti – possono essere calcolati:

• da un’origine arbitraria A;• dall’origine zero;• dalla media aritmetica.• I momenti di ordine k rispetto ad un punto A sono

calcolati per una serie di dati con:

n

xm

n

ii

k

1

kA)-(

n

nxm

n

iii

k

1

kA)-(

Page 23: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

23

… se alla relazione precedente si pone A=0 si hanno i momenti dall’origine zero

k

k

n

ii

kn

iii

k Mn

nx

n

nxm

i

11

k0)-(

cioè la potenza k-ma della media potenziata di ordine k.Se a k assegniamo i valori 0, 1, 2, avremo:

110

n

nm

n

ii

0k

n

nxm

n

iii

11 1k

21

2

2 xMn

nxm

n

iii

2k

Page 24: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

24

Momenti dalla media aritmetica

n

nxn

ii

k

i

k

1

per k=0, 1, 2 si ottiene:

110

n

nn

ii

0k

01

1

n

nxn

iii

1k

212

(

n

nxn

iii

2)- 2k

Page 25: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

25

CovarianzaChe cos’è?é la grandezza più usata per misurare la variabilità è la covarianza.A che cos’è uguale?La covarianza di due variabili x ed y cov(xy), è la media dei prodotti degli scarti di ciascuna variabile dalla propria media:

n

yyxx

xy

n

i

n

jji

1 1

)()(

)cov(

Page 26: 1 Indici di variabilità Indicano lattitudine di un carattere ad assumere valori diversi. Un indice di variabilità deve essere nullo se e solo se le modalità

26

Esempio

Prima di tutto occorre determinare la media sia di X che di Y, successivamente si procede al calcolo degli scarti semplici ed infine si fa il prodotto degli scarti. La somma del prodotto degli scarti è uguale alla codevianza. Per ottenere la covarianza occorre dividere per la numerosità n, che in questo caso è pari a 14. Pertanto 1425,45 diviso 14 è pari a 101.82 che rappresenta la covarianza di XY.

)x -( ix )y -iy( )y -ii yxx )(( X Y

14 1 -5.14 -12.79 65.76

3 23 -16.14 9.21 -148.74

2 12 -17.14 -1.79 30.61

45 34 25.86 20.21 522.68

11 21 -8.14 7.21 -58.74

6 5 -13.14 -8.79 115.47

81 8 61.86 -5.79 -357.89

21 21 1.86 7.21 13.4

23 3 3.86 -10.79 -41.6

45 44 25.86 30.21 781.26

3 5 -16.14 -8.79 141.83

1 6 -18.14 -7.79 141.26

6 7 -13.14 -6.79 89.18

7 3 -12.14 -10.79 130.97

268 193 0.04 -0.06 1425.45

Sia X il numero di cani randagi per quartiere nella città di Messina ed Y il numero di gatti. Determinare il covarianza tra le due variabili.