Le misure di variabilità

16
Le misure di variabilità Una caratteristica importante di una distribuzione statistica è la sua variabilità. La variabilità è, infatti, la quantità di dispersione presente nei dati. Come gli indici di posizione, anche gli indici di dispersione o variabilità servono per descrivere sinteticamente (o caratterizzare) le distribuzioni statistiche quantitative (per le variabili qualitative si usano gli indici di diversità). o ancora, come mostra questa figura, possono avere lo stesso valore centrale, ma avere una diversa variabilità Dati due insiemi di dati, questi possono differire sia nella posizione del valore centrale (media) che nella variabilità; oppure, come mostrato in figura, possono essere caratterizzati dalla stessa variabilità, ma da diverso valore centrale; 1 Cos’è la Statistica - G. Garau, L. Schirru

description

Corso di Statistica del Prof. Garau. Slide a cura di Giorgio Garau e Lucia Schirru. Una caratteristica importante di una distribuzione statistica è la sua variabilità. La variabilità è, infatti, la quantità di dispersione presente nei dati. Come gli indici di posizione, anche gli indici di dispersione o variabilità servono per descrivere sinteticamente (o caratterizzare) le distribuzioni statistiche quantitative (per le variabili qualitative si usano gli indici di diversità).

Transcript of Le misure di variabilità

Page 1: Le misure di variabilità

Le misure di variabilità

Una caratteristica importante di una distribuzione statistica è la sua variabilità. La variabilità è, infatti, la quantità di dispersione presente nei dati. Come gli indici di posizione, anche gli indici di dispersione o variabilità servono per descrivere sinteticamente (o caratterizzare) le distribuzioni statistiche quantitative (per le variabili qualitative si usano gli indici di diversità).

o ancora, come mostra questa figura, possono avere lo stesso valore centrale, ma avere una diversa variabilità

Dati due insiemi di dati, questi possono differire sia nella posizione del valore centrale (media) che nella variabilità; oppure, come mostrato in figura, possono essere caratterizzati dalla stessa variabilità, ma da diverso valore centrale;

1Cos’è la Statistica - G. Garau, L. Schirru

Page 2: Le misure di variabilità

Il range o campo di variazioneIl range è la differenza tra l’osservazione più grande e quella più piccola in un insieme di dati. E’ importante sottolineare che il range deve assumere sempre valori maggiori di zero. Quindi dobbiamo considerare il valore assoluto.

Il range interquartile è la differenza tra il terzo e il primo quartile in un insieme di dati:

Sebbene il range sia una misura della dispersione totale e il range interquartile una misura della dispersione centrale, nessuna di queste due misure di variabilità tiene conto di come le osservazioni si distribuiscano o si concentrino intorno a una misura di tendenza centrale, come ad esempio la media. Presentiamo perciò altre misure di variabilità più appropriate.

2Cos’è la Statistica - G. Garau, L. Schirru

Page 3: Le misure di variabilità

Lo scostamento semplice medio dalla mediaUn’altra misura di variabilità è lo scostamento semplice medio

questa non è però una buona misura perché la somma degli scarti positivi annulla quella degli scarti negativi dando sempre luogo ad una media nulla.

Questo inconveniente può essere evitato ignorando tutti i segni negativi e facendo la media dei valori assoluti degli scarti:

La somma degli scarti assoluti è diversa da zero ma non permette di mettere in evidenza gli scarti maggiori, perciò si usa il quadrato

Utilizzando la somma del quadrato degli scarti dalla media si accentuano gli scarti maggiori. La somma dei quadrati degli scarti è minima quando gli scarti sono calcolati da M

Dimostrazione

3Cos’è la Statistica - G. Garau, L. Schirru

Page 4: Le misure di variabilità

Lo Scostamento semplice dalla mediana

Lo scostamento semplice dalla mediana è il minimo fra tutti i possibili scarti assoluti.

Verifichiamolo:

4Cos’è la Statistica - G. Garau, L. Schirru

Page 5: Le misure di variabilità

La varianza e lo scarto quadratico medio.

Si considerino perciò due misure della variabilità, la varianza (σ2) e lo scarto quadratico medio (σ, radice quadrata della varianza), che sintetizzano la dispersione dei valori osservati attorno alla loro media

Una difficoltà nella interpretazione della varianza deriva dal fatto che essa è espressa nell’unità di misura del fenomeno elevato al quadrato.

Per questo motivo si usa lo scarto quadratico medio, o deviazione standard che è così definito

Calcolato utilizzando le frequenze assolute

Nel caso in cui le modalità si ripetano più volte (media ponderata)

Calcolato utilizzando le frequenze relative

5Cos’è la Statistica - G. Garau, L. Schirru

Page 6: Le misure di variabilità

EsempioSi confrontino le due distribuzioni di voti conseguiti dagli studenti A e B. Cosa si può dedurre?

Se si confrontano queste distribuzioni per il valore assunto dalla media, si noterà che entrambe assumono come valore medio 3.5; si dovrebbe quindi concludere che le distribuzioni sono identiche.

La rappresentazione grafica, fornita in figura, indica però, che la distribuzione B è più dispersadella distribuzione A, ma non fornisce una misura della distanza tra le due dispersioni. Tale misura è fornita dagli indicatori di variabilità.

VOTI

Range A = |1-6| =5Range B = |1-6| =5

Anche il Range delle due distribuzioni coincide, per cui è necessario calcolare la varianza e lo scarto quadratico medio per verificare l’effettiva differenza tra le due distribuzioni.

6Cos’è la Statistica - G. Garau, L. Schirru

Page 7: Le misure di variabilità

Calcolo della varianza e dello scarto quadratico medio

Per comodità si riportano tutti i dati in tabella in modo da non commettere errori di calcolo.

Sommando i quadrati degli scarti dalla media (pesati per le rispettive frequenze) si ottiene il valore della varianza.

Per la distribuzione A corrisponde a 0.8502 Per la distribuzione B corrisponde a 2.25.

Il valore dello scarto quadratico medio è pari a: 0.9221 per la distribuzione A mentre per la distribuzione B è pari a 1.5.Questo significa che, come già si intuiva graficamente, nella Classe B i voti sono maggiormente dispersi intorno alla media.

7Cos'è la Statistica - G. Garau, L. Schirru

Page 8: Le misure di variabilità

Le proprietà della varianza

La varianza è pari alla media aritmetica dei quadrati meno il quadrato della media aritmetica

La varianza di una costante è pari a 0

La varianza del prodotto tra una variabile e una costante è pari al quadrato della costante per la varianza della variabile.

La varianza della somma tra una variabile e una costante è pari alla varianza della variabile.

8Cos'è la Statistica - G. Garau, L. Schirru

Page 9: Le misure di variabilità

Il coefficiente di variazione

La varianza e lo scarto quadratico medio sono indici assoluti per cui è opportuno introdurre indici relativi o normalizzati.

Un indice relativo molto usato, purché la media sia maggiore di zero (M > 0), è il rapporto tra lo scarto quadratico medio σ e la media aritmetica M. Si tratta del coefficiente di variazione CV.

9Cos'è la Statistica - G. Garau, L. Schirru

Page 10: Le misure di variabilità

Le differenze medie

Le differenze medie sono indici di mutua variabilità che esaminano le differenze tra le modalità prese a due a due e ne operano una sintesi tramite una opportuna media.

La differenza semplice media è un indice assoluto di mutua variabilità ottenuto operando i confronti tra le n modalità prese a due a due, non considerando i confronti tra ciascuna modalità e se stessa (n ・ (n−1) confronti in tutto) e facendo la media aritmetica delle differenze.

La differenza semplice media con ripetizione è un indice assoluto di mutua variabilità ottenuto operando i confronti tra le n modalità a due a due, considerando anche i confronti tra ciascuna modalità e se stessa (n2 confronti in tutto) e facendo la media aritmetica delle differenze.

10Cos’è la Statistica - G. Garau, L. Schirru

Page 11: Le misure di variabilità

Gli indici di concentrazione

La concentrazione è una misura della mutua variabilità, cioè della variabilità tra ogni possibile modalità di una variabile e tutte le altre.

L’analisi di concentrazione si può applicare alle variabili quantitative (es. reddito e popolazione) perché queste variabili sono “trasferibili” da un possessore ad un altro (es. persona, nazione)

il totale posseduto da n unità statistiche.

n

iiyT

1Si indica con

La concentrazione studia il modo in cui l’ammontare totale T si distribuisce fra le n classi.

Si possono considerare due situazioni estreme

- concentrazione minima (equidistribuzione): le n unità statistiche possiedono uguale quantità della variabile.

-concentrazione massima: una unità possiede il totale e le altre n−1 possiedono un ammontare nullo della variabile.

yn

y

n

Ty

n

i

i

i

1

)1 ... ,1( 0

niy

Ty

i

n

11Cos’è la Statistica - G. Garau, L. Schirru

Page 12: Le misure di variabilità

La rappresentazione grafica: Lorenz e Gini

Si consideri una distribuzione unitaria i cui termini sono non negativi e disposti in ordine crescente:

Prendendo le prime unità (i), che saranno le più povere e confrontando ciò che esse possiedono con ciò che ad esse spetterebbe in una situazione di equidistribuzione, in cui ai = μ (ogni unità possiede esattamente il valore medio)

totaliunità

unità delle numeroiP

Se si divide per l’ammontare complessivo del carattere, An

si ottiene

Dove:

Qi = % del carattere posseduto dalle prime i unità.

Vale la relazione: Che può essere così trasformata:

Qi è tanto più vicino a Pi quanto più si è prossimi alla situazione di equidistribuzione

iaa

aaiaa

iii

n

...A e ...A

......0

*1

21

*1 ......A nnin Anaaa

n

i

n

i

A

AP

A

A

ni

ini

i *

Q

generale mediai ad sino median

A

i

A ni

12Cos’è la Statistica - G. Garau, L. Schirru

Page 13: Le misure di variabilità

Esempio 1: Costruzione di una Spezzata di Lorenz per distribuzioni unitarie.

Sulla bisettrice si trovano i punti tali che pi = qi.

-L’area tra la bisettrice e la spezzata di Lorenz è la curva di concentrazione.

-Interpretazione dell’area: più è grande, maggiore è la concentrazione.

- Nelle 3 province più piccole, ad esempio, risiede il 17.4% contro il 60% (equidistribuzione).

Riportando in un grafico i valori di Pi e Qi si ottiene la spezzata di Lorenz.

La tabella riporta la Popolazione del Lazio suddivisa per provincia di residenza (1990)

13Cos’è la Statistica - G. Garau, L. Schirru

Page 14: Le misure di variabilità

Esempio 2: Costruzione della spezzata di Lorenz per distribuzioni in classi

Si consideri ora il caso in cui il carattere (trasferibile) sia ripartito in classi:è cioè noto l’ammontare xi del carattere

posseduto congiuntamente dalle ni unità che

appartengono alla classe i.

Le aziende della prima classe (cioè il 15.8% delle aziende totali) contribuiscono solo al 1.58% del fatturato totale.

14Cos’è la Statistica - G. Garau, L. Schirru

Page 15: Le misure di variabilità

L’indice di concentrazione per distribuzioni unitarieOltre alla rappresentazione grafica è necessario utilizzare un indicatore per costruire della concentrazione e in questo caso pare naturale una misura dell’area compresa tra la retta di equidistribuzione e la spezzata di Lorenz.

Effettuando i vari passaggi si ottiene la seguente formula:

Utilizzando i dati dell’Esempio 1 si costruisce l’indice di concentrazione della popolazione del Lazio.

Questo valore indica un grado di concentrazione molto elevato, pari al 72% della concentrazione massima.

Nel caso di distribuzioni unitarie l’area può essere scomposta nella somma di n trapezi, in particolare l’i−esimo trapezio ha basi pari a Pi−1 − Qi−1 e Pi − Qi e altezza costante pari a 1/n.

2

11))()((: Area

basi due delle somma

11

altezza

iiiii nQPQPS

)(1

21

1

i

n

i

i QPn

g

15Cos’è la Statistica - G. Garau, L. Schirru

Page 16: Le misure di variabilità

Nel caso di distribuzioni in classi si avrà invece un’area, scomposta in un numero di trapezi uguale al numero delle classi considerate. L’altezza non sarà più costante ma sarà uguale a

L’indice di concentrazione per distribuzioni in classi

S sarà quindi uguale a:

Riprendendo i dati del secondo esempio:

In questo secondo caso la concentrazione è pari al 55% della concentrazione massima.

B1 B2

iiNiN fPP )1()(

iiNiN

k

i

iNiN fQPQPS )]()[(2

1)1()1(

1

)()(

16Cos’è la Statistica - G. Garau, L. Schirru