Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione...

1

Indici di variabilità ed eterogeneità

Statistica 1 Prof. Roberta Siciliano

Corso di STATISTICA Prof. Roberta Siciliano

Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata

a.a. 2011/2012

Prof. Roberta Siciliano Statistica 2

Obiettivi dell’unità didattica

•  Definire i concetti di base sulla variabilità ed eterogeneità •  Richiamare l’attenzione su alcune proprietà della varianza

Contenuti •  Indici di variabilità

–  Campo di variazione –  Varianza, Scarto quadratico medio, Devianza –  Coefficiente di variazione –  Differenza interquartile

•  Indici di eterogeneità –  Indice del Gini –  Indice di entropia

2


Generalità sulla variabilità •  La variabilità è espressione dell’attitudine di

un carattere quantitativo ad assumere diverse modalità

•  L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto alla centralità della distribuzione

•  Variabilità assoluta e relativa


Variabilità e Dispersione Consideriamo il seguente esempio di tre studenti

che hanno superato ciascuno tre esami:

È facile vedere che se calcoliamo il voto medio e quello mediano per ciascun studente

esso è pari a 24

3


Variabilità e Dispersione (cont.)

Possiamo dire che i tre studenti hanno uno stesso comportamento agli esami?

Dall’esempio risulta evidente che da soli gli indici di posizione non riescono a svelare

esaustivamente il “segreto” delle distribuzioni!!


Caratteristiche di un indice di variabilità

•  Assume valori maggiori o uguali a zero •  E’ pari a zero quando il carattere si presenta con

una sola modalità distinta (assenza di variabilità) •  E’ invariante (ossia non modifica il suo valore)

quando si aggiunge una costante a ciascun valore della distribuzione

•  Assume valori crescenti all’aumentare della variabilità

4


Campo di variazione

€

V =max(X) −min(X) = x N( ) − x 1( )

E’ un indice di variabilità assoluta


Varianza


€

σ2 =1N

xl − µ( )2l=1

N

∑

σ2 =1N

xi − µ( )2i=1

K

∑ ni

5


Caratteristiche principali

•  È una media •  Vale sempre che:

€

0 ≤σ2 ≤ ∞


Consideriamo la distribuzione massimizzante la variabilità

Ipotizziamo (come caso limite) che nella nostra distribuzione abbiamo N-1 unità distinte con

modalità pari a 0 ed una sola unità con modalità pari all’intero ammontare del carattere, ossia

€

Nµ perché

€

µ =1N

xll=1

N

∑Tale assunzione presuppone che il carattere quantitativo sia additivo e trasferibile, ossia è ipotizzabile distribuire

in maniera diversa l’ammontare complessivo del carattere (i.e., il reddito, il numero di addetti, etc.)

6


Determiniamo il massimo della varianza

Allora abbiamo:

€

2σ =1N(0 − µ)2(N −1) + (Nµ − µ)2[ ] =

=1N

µ2(N −1) + µ2(N −1)2[ ] =

=1N

µ2(N −1)(1+ N −1)[ ] =

=1NNµ2(N −1) = µ2(N −1) MAX


La varianza può essere anche scritta come ….

€

2σ =

1N

xl − µ( )2l=1

N

∑ =1N

xl2

l=1

N

∑ − µ2

€

2σ =

1N

xl − µ( )2l=1

N

∑ =1N

xl2 − 2xlµ + µ2( ) =

l=1

N

∑

=1N

xl2 − 2µ

1N

xll=1

N

∑ +1NNµ2 =

l=1

N

∑

=1N

xl2 − 2µ2 + µ2 =

l=1

N

∑ 1N

xl2

l=1

N

∑ − µ2

7


Scarto Quadratico Medio


€

σ =1N

xl − µ( )2l=1

N

∑

σ =1N

xi − µ( )2i=1

K

∑ ni


Perché è utile lo s.q.m. Il problema principale della varianza è che

è espressa nell’unità di misura del fenomeno al quadrato!!!!

Lo scarto quadratico medio risolve questo problema!!!!

8


Coefficiente di Variazione

E’ un indice di variabilità relativa

€

CV =σµ


Determiniamo il massimo del coefficiente di variazione nell’ipotesi di distribuzione

massimizzante la variabilità Sappiamo che:

€

0 ≤σ2 ≤ µ2(N −1)

€

⇒ 0 ≤σ ≤ µ N −1

€

0 ≤ σµ≤ N −1

9


Coefficiente di Variazione normalizzato

E’ un indice normalizzato

€

con 0 ≤ CVN ≤1

€

CVnorm =CVN −1


Proprietà della varianza

Consideriamo una variabile X e consideriamo la seguente trasformazione lineare:

abbiamo che:

€

σY2 = β2σX

2

10


Proprietà della varianza

€

Y = βX +α

Consideriamo una variabile X e consideriamo la seguente trasformazione lineare:

abbiamo che:

€

σY2 = β2σX

2

ossia, aggiungendo o sottraendo una costante fissa a ciascun termine della distribuzione non modifica la variabilità della

distribuzione stessa


Altri indici di variabilità

€

MAD =1.8426 median xl −Me l =1,...,N( )[ ]Median Absolute Deviation (MAD)

Differenza Interquartile

€

D =Q3 −Q1

11


Eterogeneità e omogeneità

•  Indici di eterogeneità o di omogeneità possono essere calcolati per dati qualitativi e quantitativi quantitativi operando unicamente sulle frequenze.

•  Eterogeneità per dati qualitativi: mutabilità •  Omogeneità per dati quantitativi:

concentrazione


Omogeneità vs. eterogeneità

•  Massima omogeneità: tutte le unità presentano la stessa modalità di X

•  Massima eterogeneità: le unità si distribuiscono uniformemente tra le K modalità distinte di X

€

fi* =1fi = 0 i ≠ i*

€

fi =1K

i =1,…,K

12


L’indice di eterogeneità di Gini

•  In presenza di massima omogeneità

•  In presenza di massima eterogeneità

€

Hmax =1− f i2∑ =1− 1

K⎛

⎝ ⎜

⎞

⎠ ⎟ 2

∑ =1−K 1K 2

⎛

⎝ ⎜

⎞

⎠ ⎟ =

K −1K€

H =1− fi2

i=1

K

∑


L’indice “normalizzato” di Gini

€

Hnorm =HHmax

=1− fi

2∑K −1K

con 0 ≤ Hnorm ≤1

13


Indice di Entropia di Shannon

Indice normalizzato di Entropia di Shannon

€

HS = − f i log f i( )∑

€

HSnorm =− f i log f i( )∑log K( )

Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione...

Documents

Transcript of Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione...