Le misure di variabilità

Le misure di variabilità

Una caratteristica importante di una distribuzione statistica è la sua variabilità. La variabilità è, infatti, la quantità di dispersione presente nei dati. Come gli indici di posizione, anche gli indici di dispersione o variabilità servono per descrivere sinteticamente (o caratterizzare) le distribuzioni statistiche quantitative (per le variabili qualitative si usano gli indici di diversità).

o ancora, come mostra questa figura, possono avere lo stesso valore centrale, ma avere una diversa variabilità

Dati due insiemi di dati, questi possono differire sia nella posizione del valore centrale (media) che nella variabilità; oppure, come mostrato in figura, possono essere caratterizzati dalla stessa variabilità, ma da diverso valore centrale;

1Cos’è la Statistica - G. Garau, L. Schirru

Il range o campo di variazioneIl range è la differenza tra l’osservazione più grande e quella più piccola in un insieme di dati. E’ importante sottolineare che il range deve assumere sempre valori maggiori di zero. Quindi dobbiamo considerare il valore assoluto.

Il range interquartile è la differenza tra il terzo e il primo quartile in un insieme di dati:

Sebbene il range sia una misura della dispersione totale e il range interquartile una misura della dispersione centrale, nessuna di queste due misure di variabilità tiene conto di come le osservazioni si distribuiscano o si concentrino intorno a una misura di tendenza centrale, come ad esempio la media. Presentiamo perciò altre misure di variabilità più appropriate.


Lo scostamento semplice medio dalla mediaUn’altra misura di variabilità è lo scostamento semplice medio

questa non è però una buona misura perché la somma degli scarti positivi annulla quella degli scarti negativi dando sempre luogo ad una media nulla.

Questo inconveniente può essere evitato ignorando tutti i segni negativi e facendo la media dei valori assoluti degli scarti:

La somma degli scarti assoluti è diversa da zero ma non permette di mettere in evidenza gli scarti maggiori, perciò si usa il quadrato

Utilizzando la somma del quadrato degli scarti dalla media si accentuano gli scarti maggiori. La somma dei quadrati degli scarti è minima quando gli scarti sono calcolati da M

Dimostrazione


Lo Scostamento semplice dalla mediana

Lo scostamento semplice dalla mediana è il minimo fra tutti i possibili scarti assoluti.

Verifichiamolo:


La varianza e lo scarto quadratico medio.

Si considerino perciò due misure della variabilità, la varianza (σ2) e lo scarto quadratico medio (σ, radice quadrata della varianza), che sintetizzano la dispersione dei valori osservati attorno alla loro media

Una difficoltà nella interpretazione della varianza deriva dal fatto che essa è espressa nell’unità di misura del fenomeno elevato al quadrato.

Per questo motivo si usa lo scarto quadratico medio, o deviazione standard che è così definito

Calcolato utilizzando le frequenze assolute

Nel caso in cui le modalità si ripetano più volte (media ponderata)

Calcolato utilizzando le frequenze relative


EsempioSi confrontino le due distribuzioni di voti conseguiti dagli studenti A e B. Cosa si può dedurre?

Se si confrontano queste distribuzioni per il valore assunto dalla media, si noterà che entrambe assumono come valore medio 3.5; si dovrebbe quindi concludere che le distribuzioni sono identiche.

La rappresentazione grafica, fornita in figura, indica però, che la distribuzione B è più dispersadella distribuzione A, ma non fornisce una misura della distanza tra le due dispersioni. Tale misura è fornita dagli indicatori di variabilità.

VOTI

Range A = |1-6| =5Range B = |1-6| =5

Anche il Range delle due distribuzioni coincide, per cui è necessario calcolare la varianza e lo scarto quadratico medio per verificare l’effettiva differenza tra le due distribuzioni.


Calcolo della varianza e dello scarto quadratico medio

Per comodità si riportano tutti i dati in tabella in modo da non commettere errori di calcolo.

Sommando i quadrati degli scarti dalla media (pesati per le rispettive frequenze) si ottiene il valore della varianza.

Per la distribuzione A corrisponde a 0.8502 Per la distribuzione B corrisponde a 2.25.

Il valore dello scarto quadratico medio è pari a: 0.9221 per la distribuzione A mentre per la distribuzione B è pari a 1.5.Questo significa che, come già si intuiva graficamente, nella Classe B i voti sono maggiormente dispersi intorno alla media.

7Cos'è la Statistica - G. Garau, L. Schirru

Le proprietà della varianza

La varianza è pari alla media aritmetica dei quadrati meno il quadrato della media aritmetica

La varianza di una costante è pari a 0

La varianza del prodotto tra una variabile e una costante è pari al quadrato della costante per la varianza della variabile.

La varianza della somma tra una variabile e una costante è pari alla varianza della variabile.


Il coefficiente di variazione

La varianza e lo scarto quadratico medio sono indici assoluti per cui è opportuno introdurre indici relativi o normalizzati.

Un indice relativo molto usato, purché la media sia maggiore di zero (M > 0), è il rapporto tra lo scarto quadratico medio σ e la media aritmetica M. Si tratta del coefficiente di variazione CV.


Le differenze medie

Le differenze medie sono indici di mutua variabilità che esaminano le differenze tra le modalità prese a due a due e ne operano una sintesi tramite una opportuna media.

La differenza semplice media è un indice assoluto di mutua variabilità ottenuto operando i confronti tra le n modalità prese a due a due, non considerando i confronti tra ciascuna modalità e se stessa (n ・ (n−1) confronti in tutto) e facendo la media aritmetica delle differenze.

La differenza semplice media con ripetizione è un indice assoluto di mutua variabilità ottenuto operando i confronti tra le n modalità a due a due, considerando anche i confronti tra ciascuna modalità e se stessa (n2 confronti in tutto) e facendo la media aritmetica delle differenze.


Gli indici di concentrazione

La concentrazione è una misura della mutua variabilità, cioè della variabilità tra ogni possibile modalità di una variabile e tutte le altre.

L’analisi di concentrazione si può applicare alle variabili quantitative (es. reddito e popolazione) perché queste variabili sono “trasferibili” da un possessore ad un altro (es. persona, nazione)

il totale posseduto da n unità statistiche.

n

iiyT

1Si indica con

La concentrazione studia il modo in cui l’ammontare totale T si distribuisce fra le n classi.

Si possono considerare due situazioni estreme

- concentrazione minima (equidistribuzione): le n unità statistiche possiedono uguale quantità della variabile.

-concentrazione massima: una unità possiede il totale e le altre n−1 possiedono un ammontare nullo della variabile.

yn

y

n

Ty

n

i

i

i

1

)1 ... ,1( 0

niy

Ty

i

n


La rappresentazione grafica: Lorenz e Gini

Si consideri una distribuzione unitaria i cui termini sono non negativi e disposti in ordine crescente:

Prendendo le prime unità (i), che saranno le più povere e confrontando ciò che esse possiedono con ciò che ad esse spetterebbe in una situazione di equidistribuzione, in cui ai = μ (ogni unità possiede esattamente il valore medio)

totaliunità

unità delle numeroiP

Se si divide per l’ammontare complessivo del carattere, An

si ottiene

Dove:

Qi = % del carattere posseduto dalle prime i unità.

Vale la relazione: Che può essere così trasformata:

Qi è tanto più vicino a Pi quanto più si è prossimi alla situazione di equidistribuzione

iaa

aaiaa

iii

n

...A e ...A

......0

*1

21

*1 ......A nnin Anaaa

n

i

n

i

A

AP

A

A

ni

ini

i *

Q

generale mediai ad sino median

A

i

A ni


Esempio 1: Costruzione di una Spezzata di Lorenz per distribuzioni unitarie.

Sulla bisettrice si trovano i punti tali che pi = qi.

-L’area tra la bisettrice e la spezzata di Lorenz è la curva di concentrazione.

-Interpretazione dell’area: più è grande, maggiore è la concentrazione.

- Nelle 3 province più piccole, ad esempio, risiede il 17.4% contro il 60% (equidistribuzione).

Riportando in un grafico i valori di Pi e Qi si ottiene la spezzata di Lorenz.

La tabella riporta la Popolazione del Lazio suddivisa per provincia di residenza (1990)


Esempio 2: Costruzione della spezzata di Lorenz per distribuzioni in classi

Si consideri ora il caso in cui il carattere (trasferibile) sia ripartito in classi:è cioè noto l’ammontare xi del carattere

posseduto congiuntamente dalle ni unità che

appartengono alla classe i.

Le aziende della prima classe (cioè il 15.8% delle aziende totali) contribuiscono solo al 1.58% del fatturato totale.


L’indice di concentrazione per distribuzioni unitarieOltre alla rappresentazione grafica è necessario utilizzare un indicatore per costruire della concentrazione e in questo caso pare naturale una misura dell’area compresa tra la retta di equidistribuzione e la spezzata di Lorenz.

Effettuando i vari passaggi si ottiene la seguente formula:

Utilizzando i dati dell’Esempio 1 si costruisce l’indice di concentrazione della popolazione del Lazio.

Questo valore indica un grado di concentrazione molto elevato, pari al 72% della concentrazione massima.

Nel caso di distribuzioni unitarie l’area può essere scomposta nella somma di n trapezi, in particolare l’i−esimo trapezio ha basi pari a Pi−1 − Qi−1 e Pi − Qi e altezza costante pari a 1/n.

2

11))()((: Area

basi due delle somma

11

altezza

iiiii nQPQPS

)(1

21

1

i

n

i

i QPn

g


Nel caso di distribuzioni in classi si avrà invece un’area, scomposta in un numero di trapezi uguale al numero delle classi considerate. L’altezza non sarà più costante ma sarà uguale a

L’indice di concentrazione per distribuzioni in classi

S sarà quindi uguale a:

Riprendendo i dati del secondo esempio:

In questo secondo caso la concentrazione è pari al 55% della concentrazione massima.

B1 B2

iiNiN fPP )1()(

iiNiN

k

i

iNiN fQPQPS )]()[(2

1)1()1(

1

)()(


Le misure di variabilità

Education

Transcript of Le misure di variabilità