Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione...

13
1 Indici di variabilità ed eterogeneità Statistica 1 Prof. Roberta Siciliano Corso di STATISTICA Prof. Roberta Siciliano Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata a.a. 2011/2012 Prof. Roberta Siciliano Statistica 2 Obiettivi dell’unità didattica Definire i concetti di base sulla variabilità ed eterogeneità Richiamare l’attenzione su alcune proprietà della varianza Contenuti Indici di variabilità Campo di variazione Varianza, Scarto quadratico medio, Devianza Coefficiente di variazione Differenza interquartile Indici di eterogeneità Indice del Gini Indice di entropia

Transcript of Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione...

Page 1: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

1

Indici di variabilità ed eterogeneità

Statistica 1 Prof. Roberta Siciliano

Corso di STATISTICA Prof. Roberta Siciliano

Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata

a.a. 2011/2012

Prof. Roberta Siciliano Statistica 2

Obiettivi dell’unità didattica

•  Definire i concetti di base sulla variabilità ed eterogeneità •  Richiamare l’attenzione su alcune proprietà della varianza

Contenuti •  Indici di variabilità

–  Campo di variazione –  Varianza, Scarto quadratico medio, Devianza –  Coefficiente di variazione –  Differenza interquartile

•  Indici di eterogeneità –  Indice del Gini –  Indice di entropia

Page 2: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

2

Prof. Roberta Siciliano Statistica 3

Generalità sulla variabilità •  La variabilità è espressione dell’attitudine di

un carattere quantitativo ad assumere diverse modalità

•  L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto alla centralità della distribuzione

•  Variabilità assoluta e relativa

Prof. Roberta Siciliano Statistica 4

Variabilità e Dispersione Consideriamo il seguente esempio di tre studenti

che hanno superato ciascuno tre esami:

È facile vedere che se calcoliamo il voto medio e quello mediano per ciascun studente

esso è pari a 24

Page 3: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

3

Prof. Roberta Siciliano Statistica 5

Variabilità e Dispersione (cont.)

Possiamo dire che i tre studenti hanno uno stesso comportamento agli esami?

Dall’esempio risulta evidente che da soli gli indici di posizione non riescono a svelare

esaustivamente il “segreto” delle distribuzioni!!

Prof. Roberta Siciliano Statistica 6

Caratteristiche di un indice di variabilità

•  Assume valori maggiori o uguali a zero •  E’ pari a zero quando il carattere si presenta con

una sola modalità distinta (assenza di variabilità) •  E’ invariante (ossia non modifica il suo valore)

quando si aggiunge una costante a ciascun valore della distribuzione

•  Assume valori crescenti all’aumentare della variabilità

Page 4: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

4

Prof. Roberta Siciliano Statistica 7

Campo di variazione

V =max(X) −min(X) = x N( ) − x 1( )

E’ un indice di variabilità assoluta

Prof. Roberta Siciliano Statistica 8

Varianza

E’ un indice di variabilità assoluta

σ2 =1N

xl − µ( )2l=1

N

σ2 =1N

xi − µ( )2i=1

K

∑ ni

Page 5: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

5

Prof. Roberta Siciliano Statistica 9

Caratteristiche principali

•  È una media •  Vale sempre che:

0 ≤σ2 ≤ ∞

Prof. Roberta Siciliano Statistica 10

Consideriamo la distribuzione massimizzante la variabilità

Ipotizziamo (come caso limite) che nella nostra distribuzione abbiamo N-1 unità distinte con

modalità pari a 0 ed una sola unità con modalità pari all’intero ammontare del carattere, ossia

Nµ perché

µ =1N

xll=1

N

∑Tale assunzione presuppone che il carattere quantitativo sia additivo e trasferibile, ossia è ipotizzabile distribuire

in maniera diversa l’ammontare complessivo del carattere (i.e., il reddito, il numero di addetti, etc.)

Page 6: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

6

Prof. Roberta Siciliano Statistica 11

Determiniamo il massimo della varianza

Allora abbiamo:

2σ =1N(0 − µ)2(N −1) + (Nµ − µ)2[ ] =

=1N

µ2(N −1) + µ2(N −1)2[ ] =

=1N

µ2(N −1)(1+ N −1)[ ] =

=1NNµ2(N −1) = µ2(N −1) MAX

Prof. Roberta Siciliano Statistica 12

La varianza può essere anche scritta come ….

2σ =

1N

xl − µ( )2l=1

N

∑ =1N

xl2

l=1

N

∑ − µ2

2σ =

1N

xl − µ( )2l=1

N

∑ =1N

xl2 − 2xlµ + µ2( ) =

l=1

N

=1N

xl2 − 2µ

1N

xll=1

N

∑ +1NNµ2 =

l=1

N

=1N

xl2 − 2µ2 + µ2 =

l=1

N

∑ 1N

xl2

l=1

N

∑ − µ2

Page 7: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

7

Prof. Roberta Siciliano Statistica 13

Scarto Quadratico Medio

E’ un indice di variabilità assoluta

σ =1N

xl − µ( )2l=1

N

σ =1N

xi − µ( )2i=1

K

∑ ni

Prof. Roberta Siciliano Statistica 14

Perché è utile lo s.q.m. Il problema principale della varianza è che

è espressa nell’unità di misura del fenomeno al quadrato!!!!

Lo scarto quadratico medio risolve questo problema!!!!

Page 8: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

8

Prof. Roberta Siciliano Statistica 15

Coefficiente di Variazione

E’ un indice di variabilità relativa

CV =σµ

Prof. Roberta Siciliano Statistica 16

Determiniamo il massimo del coefficiente di variazione nell’ipotesi di distribuzione

massimizzante la variabilità Sappiamo che:

0 ≤σ2 ≤ µ2(N −1)

⇒ 0 ≤σ ≤ µ N −1

0 ≤ σµ≤ N −1

Page 9: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

9

Prof. Roberta Siciliano Statistica 17

Coefficiente di Variazione normalizzato

E’ un indice normalizzato

con 0 ≤ CVN ≤1

CVnorm =CVN −1

Prof. Roberta Siciliano Statistica 18

Proprietà della varianza

Consideriamo una variabile X e consideriamo la seguente trasformazione lineare:

abbiamo che:

σY2 = β2σX

2

Page 10: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

10

Prof. Roberta Siciliano Statistica 19

Proprietà della varianza

Y = βX +α

Consideriamo una variabile X e consideriamo la seguente trasformazione lineare:

abbiamo che:

σY2 = β2σX

2

ossia, aggiungendo o sottraendo una costante fissa a ciascun termine della distribuzione non modifica la variabilità della

distribuzione stessa

Prof. Roberta Siciliano Statistica 20

Altri indici di variabilità

MAD =1.8426 median xl −Me l =1,...,N( )[ ]Median Absolute Deviation (MAD)

Differenza Interquartile

D =Q3 −Q1

Page 11: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

11

Prof. Roberta Siciliano Statistica 21

Eterogeneità e omogeneità

•  Indici di eterogeneità o di omogeneità possono essere calcolati per dati qualitativi e quantitativi quantitativi operando unicamente sulle frequenze.

•  Eterogeneità per dati qualitativi: mutabilità •  Omogeneità per dati quantitativi:

concentrazione

Prof. Roberta Siciliano Statistica 22

Omogeneità vs. eterogeneità

•  Massima omogeneità: tutte le unità presentano la stessa modalità di X

•  Massima eterogeneità: le unità si distribuiscono uniformemente tra le K modalità distinte di X

fi* =1fi = 0 i ≠ i*

fi =1K

i =1,…,K

Page 12: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

12

Prof. Roberta Siciliano Statistica 23

L’indice di eterogeneità di Gini

•  In presenza di massima omogeneità

•  In presenza di massima eterogeneità

Hmax =1− f i2∑ =1− 1

K⎛

⎝ ⎜

⎠ ⎟ 2

∑ =1−K 1K 2

⎝ ⎜

⎠ ⎟ =

K −1K€

H =1− fi2

i=1

K

Prof. Roberta Siciliano Statistica 24

L’indice “normalizzato” di Gini

Hnorm =HHmax

=1− fi

2∑K −1K

con 0 ≤ Hnorm ≤1

Page 13: Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto

13

Prof. Roberta Siciliano Statistica 25

Indice di Entropia di Shannon

Indice normalizzato di Entropia di Shannon

HS = − f i log f i( )∑

HSnorm =− f i log f i( )∑log K( )