Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione...
Transcript of Indici di variabilità ed eterogeneità - unibas.it · • L’uso congiunto di indici di posizione...
1
Indici di variabilità ed eterogeneità
Statistica 1 Prof. Roberta Siciliano
Corso di STATISTICA Prof. Roberta Siciliano
Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata
a.a. 2011/2012
Prof. Roberta Siciliano Statistica 2
Obiettivi dell’unità didattica
• Definire i concetti di base sulla variabilità ed eterogeneità • Richiamare l’attenzione su alcune proprietà della varianza
Contenuti • Indici di variabilità
– Campo di variazione – Varianza, Scarto quadratico medio, Devianza – Coefficiente di variazione – Differenza interquartile
• Indici di eterogeneità – Indice del Gini – Indice di entropia
2
Prof. Roberta Siciliano Statistica 3
Generalità sulla variabilità • La variabilità è espressione dell’attitudine di
un carattere quantitativo ad assumere diverse modalità
• L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto alla centralità della distribuzione
• Variabilità assoluta e relativa
Prof. Roberta Siciliano Statistica 4
Variabilità e Dispersione Consideriamo il seguente esempio di tre studenti
che hanno superato ciascuno tre esami:
È facile vedere che se calcoliamo il voto medio e quello mediano per ciascun studente
esso è pari a 24
3
Prof. Roberta Siciliano Statistica 5
Variabilità e Dispersione (cont.)
Possiamo dire che i tre studenti hanno uno stesso comportamento agli esami?
Dall’esempio risulta evidente che da soli gli indici di posizione non riescono a svelare
esaustivamente il “segreto” delle distribuzioni!!
Prof. Roberta Siciliano Statistica 6
Caratteristiche di un indice di variabilità
• Assume valori maggiori o uguali a zero • E’ pari a zero quando il carattere si presenta con
una sola modalità distinta (assenza di variabilità) • E’ invariante (ossia non modifica il suo valore)
quando si aggiunge una costante a ciascun valore della distribuzione
• Assume valori crescenti all’aumentare della variabilità
4
Prof. Roberta Siciliano Statistica 7
Campo di variazione
€
V =max(X) −min(X) = x N( ) − x 1( )
E’ un indice di variabilità assoluta
Prof. Roberta Siciliano Statistica 8
Varianza
E’ un indice di variabilità assoluta
€
σ2 =1N
xl − µ( )2l=1
N
∑
σ2 =1N
xi − µ( )2i=1
K
∑ ni
5
Prof. Roberta Siciliano Statistica 9
Caratteristiche principali
• È una media • Vale sempre che:
€
0 ≤σ2 ≤ ∞
Prof. Roberta Siciliano Statistica 10
Consideriamo la distribuzione massimizzante la variabilità
Ipotizziamo (come caso limite) che nella nostra distribuzione abbiamo N-1 unità distinte con
modalità pari a 0 ed una sola unità con modalità pari all’intero ammontare del carattere, ossia
€
Nµ perché
€
µ =1N
xll=1
N
∑Tale assunzione presuppone che il carattere quantitativo sia additivo e trasferibile, ossia è ipotizzabile distribuire
in maniera diversa l’ammontare complessivo del carattere (i.e., il reddito, il numero di addetti, etc.)
6
Prof. Roberta Siciliano Statistica 11
Determiniamo il massimo della varianza
Allora abbiamo:
€
2σ =1N(0 − µ)2(N −1) + (Nµ − µ)2[ ] =
=1N
µ2(N −1) + µ2(N −1)2[ ] =
=1N
µ2(N −1)(1+ N −1)[ ] =
=1NNµ2(N −1) = µ2(N −1) MAX
Prof. Roberta Siciliano Statistica 12
La varianza può essere anche scritta come ….
€
2σ =
1N
xl − µ( )2l=1
N
∑ =1N
xl2
l=1
N
∑ − µ2
€
2σ =
1N
xl − µ( )2l=1
N
∑ =1N
xl2 − 2xlµ + µ2( ) =
l=1
N
∑
=1N
xl2 − 2µ
1N
xll=1
N
∑ +1NNµ2 =
l=1
N
∑
=1N
xl2 − 2µ2 + µ2 =
l=1
N
∑ 1N
xl2
l=1
N
∑ − µ2
7
Prof. Roberta Siciliano Statistica 13
Scarto Quadratico Medio
E’ un indice di variabilità assoluta
€
σ =1N
xl − µ( )2l=1
N
∑
σ =1N
xi − µ( )2i=1
K
∑ ni
Prof. Roberta Siciliano Statistica 14
Perché è utile lo s.q.m. Il problema principale della varianza è che
è espressa nell’unità di misura del fenomeno al quadrato!!!!
Lo scarto quadratico medio risolve questo problema!!!!
8
Prof. Roberta Siciliano Statistica 15
Coefficiente di Variazione
E’ un indice di variabilità relativa
€
CV =σµ
Prof. Roberta Siciliano Statistica 16
Determiniamo il massimo del coefficiente di variazione nell’ipotesi di distribuzione
massimizzante la variabilità Sappiamo che:
€
0 ≤σ2 ≤ µ2(N −1)
€
⇒ 0 ≤σ ≤ µ N −1
€
0 ≤ σµ≤ N −1
9
Prof. Roberta Siciliano Statistica 17
Coefficiente di Variazione normalizzato
E’ un indice normalizzato
€
con 0 ≤ CVN ≤1
€
CVnorm =CVN −1
Prof. Roberta Siciliano Statistica 18
Proprietà della varianza
Consideriamo una variabile X e consideriamo la seguente trasformazione lineare:
abbiamo che:
€
σY2 = β2σX
2
10
Prof. Roberta Siciliano Statistica 19
Proprietà della varianza
€
Y = βX +α
Consideriamo una variabile X e consideriamo la seguente trasformazione lineare:
abbiamo che:
€
σY2 = β2σX
2
ossia, aggiungendo o sottraendo una costante fissa a ciascun termine della distribuzione non modifica la variabilità della
distribuzione stessa
Prof. Roberta Siciliano Statistica 20
Altri indici di variabilità
€
MAD =1.8426 median xl −Me l =1,...,N( )[ ]Median Absolute Deviation (MAD)
Differenza Interquartile
€
D =Q3 −Q1
11
Prof. Roberta Siciliano Statistica 21
Eterogeneità e omogeneità
• Indici di eterogeneità o di omogeneità possono essere calcolati per dati qualitativi e quantitativi quantitativi operando unicamente sulle frequenze.
• Eterogeneità per dati qualitativi: mutabilità • Omogeneità per dati quantitativi:
concentrazione
Prof. Roberta Siciliano Statistica 22
Omogeneità vs. eterogeneità
• Massima omogeneità: tutte le unità presentano la stessa modalità di X
• Massima eterogeneità: le unità si distribuiscono uniformemente tra le K modalità distinte di X
€
fi* =1fi = 0 i ≠ i*
€
fi =1K
i =1,…,K
12
Prof. Roberta Siciliano Statistica 23
L’indice di eterogeneità di Gini
• In presenza di massima omogeneità
• In presenza di massima eterogeneità
€
Hmax =1− f i2∑ =1− 1
K⎛
⎝ ⎜
⎞
⎠ ⎟ 2
∑ =1−K 1K 2
⎛
⎝ ⎜
⎞
⎠ ⎟ =
K −1K€
H =1− fi2
i=1
K
∑
Prof. Roberta Siciliano Statistica 24
L’indice “normalizzato” di Gini
€
Hnorm =HHmax
=1− fi
2∑K −1K
con 0 ≤ Hnorm ≤1
13
Prof. Roberta Siciliano Statistica 25
Indice di Entropia di Shannon
Indice normalizzato di Entropia di Shannon
€
HS = − f i log f i( )∑
€
HSnorm =− f i log f i( )∑log K( )