Le misure di variabilità
description
Transcript of Le misure di variabilità
Le misure di variabilità
Una caratteristica importante di una distribuzione statistica è la sua variabilità. La variabilità è, infatti, la quantità di dispersione presente nei dati. Come gli indici di posizione, anche gli indici di dispersione o variabilità servono per descrivere sinteticamente (o caratterizzare) le distribuzioni statistiche quantitative (per le variabili qualitative si usano gli indici di diversità).
o ancora, come mostra questa figura, possono avere lo stesso valore centrale, ma avere una diversa variabilità
Dati due insiemi di dati, questi possono differire sia nella posizione del valore centrale (media) che nella variabilità; oppure, come mostrato in figura, possono essere caratterizzati dalla stessa variabilità, ma da diverso valore centrale;
1Cos’è la Statistica - G. Garau, L. Schirru
Il range o campo di variazioneIl range è la differenza tra l’osservazione più grande e quella più piccola in un insieme di dati. E’ importante sottolineare che il range deve assumere sempre valori maggiori di zero. Quindi dobbiamo considerare il valore assoluto.
Il range interquartile è la differenza tra il terzo e il primo quartile in un insieme di dati:
Sebbene il range sia una misura della dispersione totale e il range interquartile una misura della dispersione centrale, nessuna di queste due misure di variabilità tiene conto di come le osservazioni si distribuiscano o si concentrino intorno a una misura di tendenza centrale, come ad esempio la media. Presentiamo perciò altre misure di variabilità più appropriate.
2Cos’è la Statistica - G. Garau, L. Schirru
Lo scostamento semplice medio dalla mediaUn’altra misura di variabilità è lo scostamento semplice medio
questa non è però una buona misura perché la somma degli scarti positivi annulla quella degli scarti negativi dando sempre luogo ad una media nulla.
Questo inconveniente può essere evitato ignorando tutti i segni negativi e facendo la media dei valori assoluti degli scarti:
La somma degli scarti assoluti è diversa da zero ma non permette di mettere in evidenza gli scarti maggiori, perciò si usa il quadrato
Utilizzando la somma del quadrato degli scarti dalla media si accentuano gli scarti maggiori. La somma dei quadrati degli scarti è minima quando gli scarti sono calcolati da M
Dimostrazione
3Cos’è la Statistica - G. Garau, L. Schirru
Lo Scostamento semplice dalla mediana
Lo scostamento semplice dalla mediana è il minimo fra tutti i possibili scarti assoluti.
Verifichiamolo:
4Cos’è la Statistica - G. Garau, L. Schirru
La varianza e lo scarto quadratico medio.
Si considerino perciò due misure della variabilità, la varianza (σ2) e lo scarto quadratico medio (σ, radice quadrata della varianza), che sintetizzano la dispersione dei valori osservati attorno alla loro media
Una difficoltà nella interpretazione della varianza deriva dal fatto che essa è espressa nell’unità di misura del fenomeno elevato al quadrato.
Per questo motivo si usa lo scarto quadratico medio, o deviazione standard che è così definito
Calcolato utilizzando le frequenze assolute
Nel caso in cui le modalità si ripetano più volte (media ponderata)
Calcolato utilizzando le frequenze relative
5Cos’è la Statistica - G. Garau, L. Schirru
EsempioSi confrontino le due distribuzioni di voti conseguiti dagli studenti A e B. Cosa si può dedurre?
Se si confrontano queste distribuzioni per il valore assunto dalla media, si noterà che entrambe assumono come valore medio 3.5; si dovrebbe quindi concludere che le distribuzioni sono identiche.
La rappresentazione grafica, fornita in figura, indica però, che la distribuzione B è più dispersadella distribuzione A, ma non fornisce una misura della distanza tra le due dispersioni. Tale misura è fornita dagli indicatori di variabilità.
VOTI
Range A = |1-6| =5Range B = |1-6| =5
Anche il Range delle due distribuzioni coincide, per cui è necessario calcolare la varianza e lo scarto quadratico medio per verificare l’effettiva differenza tra le due distribuzioni.
6Cos’è la Statistica - G. Garau, L. Schirru
Calcolo della varianza e dello scarto quadratico medio
Per comodità si riportano tutti i dati in tabella in modo da non commettere errori di calcolo.
Sommando i quadrati degli scarti dalla media (pesati per le rispettive frequenze) si ottiene il valore della varianza.
Per la distribuzione A corrisponde a 0.8502 Per la distribuzione B corrisponde a 2.25.
Il valore dello scarto quadratico medio è pari a: 0.9221 per la distribuzione A mentre per la distribuzione B è pari a 1.5.Questo significa che, come già si intuiva graficamente, nella Classe B i voti sono maggiormente dispersi intorno alla media.
7Cos'è la Statistica - G. Garau, L. Schirru
Le proprietà della varianza
La varianza è pari alla media aritmetica dei quadrati meno il quadrato della media aritmetica
La varianza di una costante è pari a 0
La varianza del prodotto tra una variabile e una costante è pari al quadrato della costante per la varianza della variabile.
La varianza della somma tra una variabile e una costante è pari alla varianza della variabile.
8Cos'è la Statistica - G. Garau, L. Schirru
Il coefficiente di variazione
La varianza e lo scarto quadratico medio sono indici assoluti per cui è opportuno introdurre indici relativi o normalizzati.
Un indice relativo molto usato, purché la media sia maggiore di zero (M > 0), è il rapporto tra lo scarto quadratico medio σ e la media aritmetica M. Si tratta del coefficiente di variazione CV.
9Cos'è la Statistica - G. Garau, L. Schirru
Le differenze medie
Le differenze medie sono indici di mutua variabilità che esaminano le differenze tra le modalità prese a due a due e ne operano una sintesi tramite una opportuna media.
La differenza semplice media è un indice assoluto di mutua variabilità ottenuto operando i confronti tra le n modalità prese a due a due, non considerando i confronti tra ciascuna modalità e se stessa (n ・ (n−1) confronti in tutto) e facendo la media aritmetica delle differenze.
La differenza semplice media con ripetizione è un indice assoluto di mutua variabilità ottenuto operando i confronti tra le n modalità a due a due, considerando anche i confronti tra ciascuna modalità e se stessa (n2 confronti in tutto) e facendo la media aritmetica delle differenze.
10Cos’è la Statistica - G. Garau, L. Schirru
Gli indici di concentrazione
La concentrazione è una misura della mutua variabilità, cioè della variabilità tra ogni possibile modalità di una variabile e tutte le altre.
L’analisi di concentrazione si può applicare alle variabili quantitative (es. reddito e popolazione) perché queste variabili sono “trasferibili” da un possessore ad un altro (es. persona, nazione)
il totale posseduto da n unità statistiche.
n
iiyT
1Si indica con
La concentrazione studia il modo in cui l’ammontare totale T si distribuisce fra le n classi.
Si possono considerare due situazioni estreme
- concentrazione minima (equidistribuzione): le n unità statistiche possiedono uguale quantità della variabile.
-concentrazione massima: una unità possiede il totale e le altre n−1 possiedono un ammontare nullo della variabile.
yn
y
n
Ty
n
i
i
i
1
)1 ... ,1( 0
niy
Ty
i
n
11Cos’è la Statistica - G. Garau, L. Schirru
La rappresentazione grafica: Lorenz e Gini
Si consideri una distribuzione unitaria i cui termini sono non negativi e disposti in ordine crescente:
Prendendo le prime unità (i), che saranno le più povere e confrontando ciò che esse possiedono con ciò che ad esse spetterebbe in una situazione di equidistribuzione, in cui ai = μ (ogni unità possiede esattamente il valore medio)
totaliunità
unità delle numeroiP
Se si divide per l’ammontare complessivo del carattere, An
si ottiene
Dove:
Qi = % del carattere posseduto dalle prime i unità.
Vale la relazione: Che può essere così trasformata:
Qi è tanto più vicino a Pi quanto più si è prossimi alla situazione di equidistribuzione
iaa
aaiaa
iii
n
...A e ...A
......0
*1
21
*1 ......A nnin Anaaa
n
i
n
i
A
AP
A
A
ni
ini
i *
Q
generale mediai ad sino median
A
i
A ni
12Cos’è la Statistica - G. Garau, L. Schirru
Esempio 1: Costruzione di una Spezzata di Lorenz per distribuzioni unitarie.
Sulla bisettrice si trovano i punti tali che pi = qi.
-L’area tra la bisettrice e la spezzata di Lorenz è la curva di concentrazione.
-Interpretazione dell’area: più è grande, maggiore è la concentrazione.
- Nelle 3 province più piccole, ad esempio, risiede il 17.4% contro il 60% (equidistribuzione).
Riportando in un grafico i valori di Pi e Qi si ottiene la spezzata di Lorenz.
La tabella riporta la Popolazione del Lazio suddivisa per provincia di residenza (1990)
13Cos’è la Statistica - G. Garau, L. Schirru
Esempio 2: Costruzione della spezzata di Lorenz per distribuzioni in classi
Si consideri ora il caso in cui il carattere (trasferibile) sia ripartito in classi:è cioè noto l’ammontare xi del carattere
posseduto congiuntamente dalle ni unità che
appartengono alla classe i.
Le aziende della prima classe (cioè il 15.8% delle aziende totali) contribuiscono solo al 1.58% del fatturato totale.
14Cos’è la Statistica - G. Garau, L. Schirru
L’indice di concentrazione per distribuzioni unitarieOltre alla rappresentazione grafica è necessario utilizzare un indicatore per costruire della concentrazione e in questo caso pare naturale una misura dell’area compresa tra la retta di equidistribuzione e la spezzata di Lorenz.
Effettuando i vari passaggi si ottiene la seguente formula:
Utilizzando i dati dell’Esempio 1 si costruisce l’indice di concentrazione della popolazione del Lazio.
Questo valore indica un grado di concentrazione molto elevato, pari al 72% della concentrazione massima.
Nel caso di distribuzioni unitarie l’area può essere scomposta nella somma di n trapezi, in particolare l’i−esimo trapezio ha basi pari a Pi−1 − Qi−1 e Pi − Qi e altezza costante pari a 1/n.
2
11))()((: Area
basi due delle somma
11
altezza
iiiii nQPQPS
)(1
21
1
i
n
i
i QPn
g
15Cos’è la Statistica - G. Garau, L. Schirru
Nel caso di distribuzioni in classi si avrà invece un’area, scomposta in un numero di trapezi uguale al numero delle classi considerate. L’altezza non sarà più costante ma sarà uguale a
L’indice di concentrazione per distribuzioni in classi
S sarà quindi uguale a:
Riprendendo i dati del secondo esempio:
In questo secondo caso la concentrazione è pari al 55% della concentrazione massima.
B1 B2
iiNiN fPP )1()(
iiNiN
k
i
iNiN fQPQPS )]()[(2
1)1()1(
1
)()(
16Cos’è la Statistica - G. Garau, L. Schirru