Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione...

Post on 15-Feb-2019

236 views 0 download

Transcript of Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione...

1

Indici di variabilità ed eterogeneità

Statistica 1 Prof. Roberta Siciliano

Corso di STATISTICA Prof. Roberta Siciliano

Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata

a.a. 2011/2012

Prof. Roberta Siciliano Statistica 2

Obiettivi dell’unità didattica

•  Definire i concetti di base sulla variabilità ed eterogeneità •  Richiamare l’attenzione su alcune proprietà della varianza

Contenuti •  Indici di variabilità

–  Campo di variazione –  Varianza, Scarto quadratico medio, Devianza –  Coefficiente di variazione –  Differenza interquartile

•  Indici di eterogeneità –  Indice del Gini –  Indice di entropia

2

Prof. Roberta Siciliano Statistica 3

Generalità sulla variabilità •  La variabilità è espressione dell’attitudine di

un carattere quantitativo ad assumere diverse modalità

•  L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto alla centralità della distribuzione

•  Variabilità assoluta e relativa

Prof. Roberta Siciliano Statistica 4

Variabilità e Dispersione Consideriamo il seguente esempio di tre studenti

che hanno superato ciascuno tre esami:

È facile vedere che se calcoliamo il voto medio e quello mediano per ciascun studente

esso è pari a 24

3

Prof. Roberta Siciliano Statistica 5

Variabilità e Dispersione (cont.)

Possiamo dire che i tre studenti hanno uno stesso comportamento agli esami?

Dall’esempio risulta evidente che da soli gli indici di posizione non riescono a svelare

esaustivamente il “segreto” delle distribuzioni!!

Prof. Roberta Siciliano Statistica 6

Caratteristiche di un indice di variabilità

•  Assume valori maggiori o uguali a zero •  E’ pari a zero quando il carattere si presenta con

una sola modalità distinta (assenza di variabilità) •  E’ invariante (ossia non modifica il suo valore)

quando si aggiunge una costante a ciascun valore della distribuzione

•  Assume valori crescenti all’aumentare della variabilità

4

Prof. Roberta Siciliano Statistica 7

Campo di variazione

V =max(X) −min(X) = x N( ) − x 1( )

E’ un indice di variabilità assoluta

Prof. Roberta Siciliano Statistica 8

Varianza

E’ un indice di variabilità assoluta

σ2 =1N

xl − µ( )2l=1

N

σ2 =1N

xi − µ( )2i=1

K

∑ ni

5

Prof. Roberta Siciliano Statistica 9

Caratteristiche principali

•  È una media •  Vale sempre che:

0 ≤σ2 ≤ ∞

Prof. Roberta Siciliano Statistica 10

Consideriamo la distribuzione massimizzante la variabilità

Ipotizziamo (come caso limite) che nella nostra distribuzione abbiamo N-1 unità distinte con

modalità pari a 0 ed una sola unità con modalità pari all’intero ammontare del carattere, ossia

Nµ perché

µ =1N

xll=1

N

∑Tale assunzione presuppone che il carattere quantitativo sia additivo e trasferibile, ossia è ipotizzabile distribuire

in maniera diversa l’ammontare complessivo del carattere (i.e., il reddito, il numero di addetti, etc.)

6

Prof. Roberta Siciliano Statistica 11

Determiniamo il massimo della varianza

Allora abbiamo:

2σ =1N(0 − µ)2(N −1) + (Nµ − µ)2[ ] =

=1N

µ2(N −1) + µ2(N −1)2[ ] =

=1N

µ2(N −1)(1+ N −1)[ ] =

=1NNµ2(N −1) = µ2(N −1) MAX

Prof. Roberta Siciliano Statistica 12

La varianza può essere anche scritta come ….

2σ =

1N

xl − µ( )2l=1

N

∑ =1N

xl2

l=1

N

∑ − µ2

2σ =

1N

xl − µ( )2l=1

N

∑ =1N

xl2 − 2xlµ + µ2( ) =

l=1

N

=1N

xl2 − 2µ

1N

xll=1

N

∑ +1NNµ2 =

l=1

N

=1N

xl2 − 2µ2 + µ2 =

l=1

N

∑ 1N

xl2

l=1

N

∑ − µ2

7

Prof. Roberta Siciliano Statistica 13

Scarto Quadratico Medio

E’ un indice di variabilità assoluta

σ =1N

xl − µ( )2l=1

N

σ =1N

xi − µ( )2i=1

K

∑ ni

Prof. Roberta Siciliano Statistica 14

Perché è utile lo s.q.m. Il problema principale della varianza è che

è espressa nell’unità di misura del fenomeno al quadrato!!!!

Lo scarto quadratico medio risolve questo problema!!!!

8

Prof. Roberta Siciliano Statistica 15

Coefficiente di Variazione

E’ un indice di variabilità relativa

CV =σµ

Prof. Roberta Siciliano Statistica 16

Determiniamo il massimo del coefficiente di variazione nell’ipotesi di distribuzione

massimizzante la variabilità Sappiamo che:

0 ≤σ2 ≤ µ2(N −1)

⇒ 0 ≤σ ≤ µ N −1

0 ≤ σµ≤ N −1

9

Prof. Roberta Siciliano Statistica 17

Coefficiente di Variazione normalizzato

E’ un indice normalizzato

con 0 ≤ CVN ≤1

CVnorm =CVN −1

Prof. Roberta Siciliano Statistica 18

Proprietà della varianza

Consideriamo una variabile X e consideriamo la seguente trasformazione lineare:

abbiamo che:

σY2 = β2σX

2

10

Prof. Roberta Siciliano Statistica 19

Proprietà della varianza

Y = βX +α

Consideriamo una variabile X e consideriamo la seguente trasformazione lineare:

abbiamo che:

σY2 = β2σX

2

ossia, aggiungendo o sottraendo una costante fissa a ciascun termine della distribuzione non modifica la variabilità della

distribuzione stessa

Prof. Roberta Siciliano Statistica 20

Altri indici di variabilità

MAD =1.8426 median xl −Me l =1,...,N( )[ ]Median Absolute Deviation (MAD)

Differenza Interquartile

D =Q3 −Q1

11

Prof. Roberta Siciliano Statistica 21

Eterogeneità e omogeneità

•  Indici di eterogeneità o di omogeneità possono essere calcolati per dati qualitativi e quantitativi quantitativi operando unicamente sulle frequenze.

•  Eterogeneità per dati qualitativi: mutabilità •  Omogeneità per dati quantitativi:

concentrazione

Prof. Roberta Siciliano Statistica 22

Omogeneità vs. eterogeneità

•  Massima omogeneità: tutte le unità presentano la stessa modalità di X

•  Massima eterogeneità: le unità si distribuiscono uniformemente tra le K modalità distinte di X

fi* =1fi = 0 i ≠ i*

fi =1K

i =1,…,K

12

Prof. Roberta Siciliano Statistica 23

L’indice di eterogeneità di Gini

•  In presenza di massima omogeneità

•  In presenza di massima eterogeneità

Hmax =1− f i2∑ =1− 1

K⎛

⎝ ⎜

⎠ ⎟ 2

∑ =1−K 1K 2

⎝ ⎜

⎠ ⎟ =

K −1K€

H =1− fi2

i=1

K

Prof. Roberta Siciliano Statistica 24

L’indice “normalizzato” di Gini

Hnorm =HHmax

=1− fi

2∑K −1K

con 0 ≤ Hnorm ≤1

13

Prof. Roberta Siciliano Statistica 25

Indice di Entropia di Shannon

Indice normalizzato di Entropia di Shannon

HS = − f i log f i( )∑

HSnorm =− f i log f i( )∑log K( )