Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno...

93
Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando quindi un’idea sintetica del fenomeno Valori Medi ; Scegliere alcuni valori caratteristici, “strategici” della distribuzione Indici di Posizione o Medie lasche .

Transcript of Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno...

Page 1: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Indici di tendenza centrale o di posizioneSi può operare in due modi:

Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando quindi un’idea sintetica del fenomeno

Valori Medi;

Scegliere alcuni valori caratteristici, “strategici” della distribuzione

Indici di Posizione o Medie lasche.

Page 2: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La mediaDEFINIZIONE (dovuta a Cauchy nel 1821):

Una media M è quel valore tale che NxMx 1

dove x(1) e x(N) sono il valore minimo e massimo di X.

DEFINIZIONE (dovuta a Chisini nel 1929):Una media M di un carattere X è quel valore che sostituito alle singole modalità del carattere, soddisfa la seguente uguaglianza:

volteper

21 ,,,,,,N

N MMMfxxxf

dove f è una opportuna funzione matematica.

Page 3: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La media aritmetica

N

iiNN xxxxxxxf

12121 ,,,

Intensità totale

E’ l’indice più noto e usato.

E’ definita come quel valore, nell’ottica di Chisini, che lascia inalterata l’intensità totale del carattere delle N unità della popolazione, cioè:

Page 4: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La media aritmetica

NxxxN

N volte

21 ...

N

ii

N xNN

xxx

1

21 1

Quindi sostituendo si ha:

Page 5: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La media aritmetica

k

iii

k

iii fxnx

N 11

1dove si ricorda

che:

1 e 11

k

ii

ii

k

ii f

N

nfnN

e xi per i=1,2,...,k sono le modalità del carattere.

Se abbiamo a disposizione una distribuzione di frequenze assolute o relative, la media si scrive:

Page 6: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La media aritmetica

2

~ 1 iii

xxx

k

iiinxN 1

~1

e poi si calcola la media aritmetica come nei casi precedenti,

utilizzando il valore centrale:

Media di distribuzioni per classi di valori

Se il carattere osservato è quantitativo continuo e la distribuzione

è in classi di valore non è possibile applicare direttamente la

formula precedente, ma sarà necessario sintetizzare ciascuna

classe ii xx ,1 mediante il suo valore centrale:

Page 7: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La media aritmetica

Come si costruiscono le classi:

Classi aperte;Classi chiuse inferiormente;Classi chiuse superiormente.

Non è necessario che le classi abbiano tutte la stessa ampiezza.

Page 8: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Le proprietà della media aritmetica1. La media aritmetica rappresenta il baricentro della

distribuzione, cioè quel valore per cui la sua intensità totale risulta equamente ripartita fra la totalità delle unità statistiche;

01

N

iix

0111

NNxxN

i

N

ii

N

ii

2. La somma degli scarti dalla media aritmetica è sempre nulla:

Infatti:

Page 9: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Le proprietà della media aritmetica

4.Sia data una variabile statistica X di media aritmetica μ, allora:

M(aX+b)= aμ+b

dove M è la media aritmetica.Infatti:

ba

N

b

N

xa

N

baxbaXM

N

i

N

ii

N

ii

111)(

Page 10: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Le proprietà della media aritmetica

Consideriamo le tre formulazioni della media aritmetica:

N

iixN 1

1

k

iiinxN 1

1

i

k

ii fx

1

non sono tre formule differenti ma tre modi di calcolare la media aritmetica a seconda dei dati a disposizione.

Page 11: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempio

Data la seguente distribuzione del numero di figli in 23 famiglie di un condominio di Pescara:

Numero di figli in 23 famiglie

ni

1 10

2 8

3 3

4 1

5 1

Totale 23

Page 12: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempio

Per il calcolo della media aritmetica ci aiutiamo con la seguente tabella:

Numero di figli in 23 famiglie

ni xini 

1 10 10

2 8 16

3 3 9

4 1 4

5 1 5

Totale 23 44

Pertanto la media aritmetica è pari a:

91,123/441

1

k

iiinxN

Page 13: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La media aritmetica ponderata

Nella media aritmetica le modalità (quindi le unità

statistiche) concorrono alla pari nelle determinazione

della media; infatti ogni modalità vale 1/N.

Tuttavia esistono numerose situazione reali dove le unità statistiche possiedono importanza differenti tra loro.

Quindi, è necessario definire la media aritmetica ponderata.

Page 14: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La media aritmetica ponderata

N

ii

N

iii

p

p

px

1

1

dove pi è il peso dell’unità i-esima

Sia Nxxx ,,, 21

carattere X allora possiamo definire la media aritmetica ponderata come:

una distribuzione unitaria di un

Page 15: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La media aritmetica ponderata

ESEMPIO :

Sia data la seguente tabella di esami e relativi crediti dello

studente Paolo dell’Università di Chieti - Pescara

Voti e Crediti

Voto CFU

Statistica 28 5

Diritto Privato 22 6

Diritto Pubblico 24 6

Macroeconomia 25 8

Informatica 30 5

Page 16: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La media aritmetica ponderata

E’ ovvio che in questa situazione è necessario

calcolare la media aritmetica ponderata perché non

tutti gli esami valgono nella stessa maniera in termini

di CFU.

Voto CFU Voto*CFU

Statistica 28 5 140

Diritto Privato 22 6 132

Diritto Pubblico 24 6 144

Macroeconomia 25 8 200

Informatica 30 5 150

Page 17: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La media aritmetica ponderata

33,2530

766

1

1

N

ii

N

iii

p

p

px

Page 18: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Le medie lascheSi chiamano medie lasche quei particolari indici che, per sinterizzare l’intera distribuzione in una misura di posizione, si basano solo su alcuni valori della distribuzione.

In particolare considereremo:

il valore centrale;la mediana;i quartili ed i percentili;la moda

Page 19: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il valore centraleIl valore centrale è dato dalla semisomma dei valori estremi della distribuzione:

2)(1 Nxx

C

dove ovviamente )(1 , Nxx

sono rispettivamente il più piccolo ed il più grande valore osservato.

Ovviamente C dipende esclusivamente dai due valori estremi.

Page 20: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La medianaLa mediana è un indice che dipende dall’ordine delle osservazioni e non dal loro valore (quindi può essere calcolata per qualsiasi carattere almeno ordinato).

Sia Nxxx ,...,, 21

popolazione secondo un carattere ordinato X.

una distribuzione unitaria di una

Si definisce mediana Me(X) la modalità che bipartisce la distribuzione ordinata in senso non decrescente

Nxxx ...21

Page 21: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il calcolo della mediana

2/1)( NxXMe

Se N è dispari, alla modalità che si trova nella posizione (N+1)/2, cioè:

12/12/1 )( e )( NN xXMexXMe

Se N è pari, alle modalità che si trovano nella

posizione (N/2) e (N/2)+1, cioè:

Nxxx ...21

Se si dispone di una distribuzione unitaria ordinata

secondo un ordinamento non decrescenteallora la mediana di X corrisponde

Page 22: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il calcolo della mediana

2/1 )( NxXMe 12/2 )( NxXMeSi noti che se

non coincidono, la mediana può non essere unica.

Nel caso di variabili quantitative con N pari, si

può avere anche un intervallo di valori

1)2/(2/ , NN xx che soddisfano alla definizione

di mediana. In questo caso, si può prendere il

punto medio come “mediana convenzionale”.

Page 23: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempioConsideriamo la seguente distribuzione dei voti

ottenuti da 7 studenti nell’esame di statistica:

1x 2x 3x 4x 5x 6x 7x

30272523222019

Queste osservazioni risultano già ordinate, nel caso contrario dovremmo prima ordinarle.

Vi sono N=7 osservazioni, quindi N dispari, allora la mediana coincide con l’osservazione di posto (N+1)/2=(7+1)/2=4. Cioè:

23)( 4 xXMe

Page 24: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempioOra consideriamo, invece, la distribuzione dei voti ottenuti

da 8 studenti nell’esame di statistica:

3029272523222019 2x 3x 4x 5x 6x 7x 8x 1x

Anche in questo caso i valori sono già ordinati. Vi sono 8 osservazioni, quindi N è pari.

2342/ xx N 2551)2/( xx N

Quindi le due modalità mediane sono

e

Page 25: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il calcolo della mediana

Se non si dispone della distribuzione unitaria, ma soltanto

della distribuzione di frequenza assoluta corrispondente, si

può operare nel seguente modo.

Sia X un carattere e sia, ad esempio,

knnn ,...,21, la distribuzioni di frequenza assoluta

Allora la mediana corrisponde

Page 26: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il calcolo della mediana

se N è dispari, alla modalità xi che

presenta la frequenza assoluta cumulata Ni

più piccola tale che: Ni ≥ (N +1)/2;se N è pari, alla modalità xi che presenta la

frequenza assoluta cumulata Ni più piccola tale

che: Ni ≥ N /2 e alla modalità xi che presenta la

frequenza assoluta cumulata Ni più piccola tale

che: Ni ≥ (N /2)+1 ;Nel caso con N pari si possono avere due valori

mediani distinti.

Page 27: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il calcolo della mediana

Se, invece, si dispone della distribuzione di frequenza

relativa si può operare nel seguente modo.

Sia X un carattere e sia, ad esempio,

kfff ,...,21, la distribuzioni di frequenza relativa

Allora la mediana corrisponde:

alla modalità xi che presenta la frequenza

relativa cumulata Fi più piccola tale che: Fi ≥ 0,5

Page 28: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il calcolo della mediana

Nel caso la variabile sia definita mediante una

distribuzione per classi di valori è possibile definire la

classe mediana, la classe cioè che contiene la mediana.

Se vogliamo trovare la mediana dobbiamo procedere nel

seguente modo.

Page 29: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Alcuni esempi

Sia data la seguente distribuzione di famiglie residenti per numero di componenti nella regione Abruzzo al 25/10/1981:

Famiglie residenti per n°di componenti nella regione Abruzzo

ni fi Fi

1 64119 0,16 0,16

2 92800 0,24 0,40

3 78315 0,20 0,60

4 90468 0,23 0,83

5 42093 0,11 0,94

6 e più 23455 0,06 1,00

  391250 1,00  

Page 30: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Alcuni esempi

In base alla definizione la mediana coincide la modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,5

Quindi la mediana è rappresentata dalla modalità x=3, cioè Me=3

Page 31: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Alcuni esempi

Sia data la seguente popolazione di un comune suddivisa per classi di età:

Popolazione residente di un comune per classi di età

(xi-1 - xi) ni fi Fi

fino a 5 anni 65 0,065 0,065

5 – 14 98 0,098 0,163

15 – 19 125 0,125 0,288

20 – 39 268 0,268 0,556

40 – 59 350 0,350 0,906

60 – 74 75 0,075 0,981

75 e oltre 19 0,019 1,000

Totale 1000 1

Page 32: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Alcuni esempi

In base alla definizione la mediana coincide la modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,5

Quindi la mediana è rappresentata dalla classe 20-39.

Page 33: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

I quantili

I quantili sono quei valori che ripartiscono i dati,

disposti in ordine crescente, in parti uguali e

possono essere considerati delle generalizzazioni

della mediana.

Possiamo considerare, in particolare:

I quartili che suddividono in 4 parti uguali la

distribuzione. Il primo quartile è preceduto da 1/4

dei dati e così via;

Page 34: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

I quantili

I decili che suddividono in 10 parti uguali la

distribuzione;

I centili che suddividono in 100 parti uguali la

distribuzione.

Page 35: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Alcuni esempi

Consideriamo lo stesso esempio precedente.Sia data la seguente distribuzione di famiglie residenti per numero di componenti nella regione Abruzzo al 25/10/1981:

Famiglie residenti per n°di componenti nella regione Abruzzo

ni fi Fi

1 64119 0,16 0,16

2 92800 0,24 0,40

3 78315 0,20 0,60

4 90468 0,23 0,83

5 42093 0,11 0,94

6 e più 23455 0,06 1,00

  391250 1,00  

Page 36: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Alcuni esempi

Ad esempio, il primo quartile è la modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,25In questo caso il primo quartile è rappresentato dalla modalità x=2, cioè Q1 =2

Ad esempio, il terzo quartile è la modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,75In questo caso il terzo quartile è rappresentato dalla modalità x=4, cioè Q3 =4

Page 37: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Alcuni esempi

Ad esempio, il primo decile è la modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,10In questo caso il primo decile è rappresentato dalla modalità x=1, cioè D1 =1

Ad esempio, il terzo decile è la modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,30In questo caso il terzo decile è rappresentato dalla modalità x=2, cioè D3 =2

Page 38: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Alcuni esempi

Si fa notare che il secondo quartile Q2 coincide con la mediana.

Page 39: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La moda

La moda Mo di una popolazione, distribuita secondo un carattere X, è la modalità prevalente del carattere cioè la modalità alla quale è associata la massima frequenza.

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Page 40: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La moda

Se vi è una sola moda la distribuzione è detta unimodale, nel caso contrario plurimodale (bimodale, trimodale, ecc).

0

5

10

15

20

25

30

35

40

45

GI IL MC SC TK

Esempio: Consideriamo gli obiettivi di 137 fondi pensionistici classificati in 5 modalità

xi ni

GI 26

IL 42

MC 20

SC 42

TK 12

La distribuzione è bimodale

Page 41: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La moda

Se la distribuzione è unitaria o di frequenze, allora è facile individuare la moda; se la variabile è definita per classi di valori allora è possibile definire la classe modale, cioè la classe che presenta la massima densità di frequenza.

Page 42: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempio

Sia data la seguente popolazione di un comune suddivisa per classi di età e si calcoli la classe modale:

Popolazione residente di un

comune per classi di età xi-1 - xi ni

fino a 5 anni 65

6 - 14 98

15 - 19 125

20 - 39 268

40 - 59 350

60 - 74 75

75 e oltre 19

Totale 1000

Page 43: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempio

La classe modale è la classe alla quale corrisponde la

massima densità di frequenza 1

ii

ii xx

nh

Popolazione residente di un comune per classi di età

xi-1 - xi ni hi

fino a 5 anni 65 13,00

6 - 14 98 12,25

15 - 19 125 31,25

20 - 39 268 14,11

40 - 59 350 18,42

60 - 74 75 5,36

75 e oltre 19 1,27

Totale 1000

Page 44: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempio

In questo caso la classe modale la classe 15-19.

Si fa notare che l’ampiezza dell’ultima classe è

stata posta pari a 15.

Page 45: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Alcune riflessioni sulle medieOSSERVAZIONE

La moda è una misura più “stabile” della media e della mediana (non si modifica quando si aggiungono dati anomali). In termini statistici si dice che la moda è robusta.

Page 46: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Alcune riflessioni sulle medieESEMPIO:

Se consideriamo la seguente distribuzione:

3, 4, 7, 2, 3, 1, 8, 12, 1, 3 ,5, 6, 9

Si ha che la moda è pari a 3.

Non si modifica se aggiungiamo una osservazione uguale a 1000 (o 10000!!).

Page 47: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Alcune riflessioni sulle medieCon gli stessi dati, dopo aver ordinato le osservazioni, otteniamo che la mediana è 4.

1, 1, 2, 3, 3, 3, 4, 5, 6, 7, 8, 9, 12

Se aggiungiamo il valore 1000, le osservazioni sono così modificate:

1, 1, 2, 3, 3, 3, 4, 5, 6, 7, 8, 9, 12, 1000Le mediane sono due, pari a 4 e 5.

Page 48: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Alcune riflessioni sulle medieCon gli stessi dati, otteniamo che la media è 4.92

Se aggiungiamo il valore 1000, la media diviene 76.

Page 49: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La variabilità

Consideriamo le tre seguenti distribuzioni di voti presi da otto studenti all’esame di statistica:

27,27,26,26,24,24,23,23A

28,28,28,28,22,22,22,22B

25,25,25,25,25,25,25,25C

Page 50: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La variabilitàLa media aritmetica di tutte e tre le distribuzioni è sempre uguale

25 CBA

ma le tre distribuzioni sono molto diverse tra loro.

DEFINIZIONE: Si chiama variabilità (nel caso quantitativo) e mutabilità (nel caso qualitativo) l’attitudine dei caratteri ad assumere modalità differenti.

Page 51: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La variabilitàUna misura della variabilità dovrebbe avere queste tre caratteristiche:

1. Indicata con IV tale misura, si dovrebbe avere:

0),...,( 1 NV xxI

2. IV è nulla se e solo se tutti i termini della distribuzione

sono uguali tra loro, pari a c, quindi cioè

se il carattere risulta concentrato in una unica modalità;

0),...,( ccIV

Page 52: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La variabilità

3. IV cresce all’aumentare della disuguaglianza fra i termini.

Page 53: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La variabilitàCategorie di indici di variabilità

1.Indici che misurano la variabilità del carattere tramite una sintesi di misure di diversità tra ogni termine della distribuzione ed una media (SCOSTAMENTI MEDI);

2.Indici che misurano la variabilità misurando la diversità fra due particolari termini della distribuzione (INTERVALLI DI VARIAZIONE).

Un indice di variabilità che è espresso nella stessa unità di misura del carattere è detto assoluto.

Page 54: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Gli scostamenti medi

Sia la distribuzione del carattere X e sia la media aritmetica del carattere.

Nxx ,...,1

ixDefiniamo con i valori assoluti degli scarti dalla media aritmetica.

Pertanto, è possibile definire lo scostamento quadratico medio dalla media aritmetica (standard deviation, definito da Pearson nel 1893) per distribuzione unitarie come:

N

iixN 1

21

Page 55: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Gli scostamenti medi

Nel caso di distribuzioni di frequenze assolute si ha:

i

k

ii nx

N

1

21

Mentre nel caso di distribuzioni di frequenze relative si ha:

i

k

ii fx

1

2

Page 56: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La varianza

Il quadrato dello scostamento quadratico medio dalla media aritmetica rappresenta un famosissimo indice di variabilità denominato varianza:

cioè la Var(X) è la media aritmetica dei quadrati degli scarti dalla media aritmetica. Nel caso di distribuzioni di frequenze assolute e relative si ha rispettivamente:

N

iixN

XVar1

22 1)(

1

1

22

1

22i

k

iii

k

ii fxnx

N

Page 57: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La varianza

OSSERVAZIONI:

La varianza è un indice assoluto ed è espresso nella

stessa unità di misura (al quadrato) del fenomeno

studiato;

• infatti gli scarti possono essere “infinitamente” lontani dalla media aritmetica.

)(0 XVar

Page 58: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempio

Si considerino le altezze in cm del seguente collettivo costituito da 5 persone (distribuzione unitaria)

Persone Altezza in cm

1 175

2 176

3 172

4 177

5 180

Page 59: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempio

i

1 175 -1 1

2 176 0 0

3 172 -4 16

4 177 1 1

5 180 4 16

TOT 880 34

1765

8801

n

xn

ii

ix ix 2ix

61,25

34

Page 60: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

xi ni

18 2

19 2

20 2

21 3

22 3

23 5

24 4

25 6

26 4

27 4

28 3

29 0

30 2

Totale 40

Un esempio Si considerino i voti riportati all’esame di statistica da 40 studenti (distribuzione di frequenza).

Page 61: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

xi ni xini (xi-) (xi-)2 (xi-)2ni

18 2 36 - 6 36 72

19 2 38 - 5 25 50

20 2 40 - 4 16 32

21 3 63 - 3 9 27

22 3 66 - 2 4 12

23 5 115 - 1 1 5

24 4 96 - - -

25 6 150 1 1 6

26 4 104 2 4 16

27 4 108 3 9 36

28 3 84 4 16 48

29 0 0 5 25 -

30 2 60 6 36 72

Totale 40 960 376

Per calcolare la varianza ci aiutiamo con la seguente tabella

Page 62: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La media aritmetica è pari a:

24)960(40

11

1

k

iiinxN

Pertanto la varianza è uguale a:

4,9)376(40

1)(

1

1

22

k

iii nx

N

Page 63: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un’altra formula per il calcolo della varianza

22

2

22 )()(

N

nX

XMXVar

ii

Nella pratica il calcolo della varianza si effettua molto spesso con la seguente formula:

Page 64: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempioRiprendiamo i dati dell’ESEMPIO precedente, cioè i voti riportati all’esame di statistica da 40 studenti:

xi ni

18 2

19 2

20 2

21 3

22 3

23 5

24 4

25 6

26 4

27 4

28 3

29 0

30 2

Totale 40

Page 65: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempioPer il calcolo della varianza aiutiamoci con la seguente tabella

Voti dell'esame di statistica

xi ni xi2 xi

2ni

18 2 324 648

19 2 361 722

20 2 400 800

21 3 441 1323

22 3 484 1452

23 5 529 2645

24 4 576 2304

25 6 625 3750

26 4 676 2704

27 4 729 2916

28 3 784 2352

29 0 841 0

30 2 900 1800

Totale 40 23416

Page 66: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempio

24)960(40

11

1

k

iiinxN

4,9242341640

11 22

1

22

k

iii nxN

La media aritmetica è sempre pari a:

La varianza calcolata con questa formula alternativa è pari a:

Page 67: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La variabilità relativa

Se devo eseguire confronti fra fenomeni espressi

con diverse unità di misura o sull’evoluzione di

uno stesso fenomeno rilevato in due unità

temporali o spaziali diverse non posso utilizzare

la varianza per confrontare la variabilità delle

due distribuzioni.

Page 68: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La variabilità relativa

Esempio: peso di un gruppo di neonati ed uno di adulti

Adulti

kg

kg

4,3

73

Neonati

kg

kg

5,0

8,3

Quale collettivo è più variabile?

Page 69: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il coefficiente di variazione

Un indice molto noto è il coefficiente di

variazione, introdotto da K. Pearson nel 1905.

CV

E’ il rapporto tra la deviazione standard e la media

Page 70: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il coefficiente di variazione

0,1328,3

5,00,047

73

4,3

adulti bambini

CV è “scale-free” o “numero puro” (non dipende dall’unità di misura adottata). Come tale è adatto ai confronti.

Esempio: peso di un gruppo di neonati ed uno di adulti

Adulti kg

kg

4,3

73

Neonati

kg

kg

5,0

8,3

Page 71: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il coefficiente di variazione

Se 0 non è definito il CV, in quanto non

è interpretabile una variabilità negativa, né dividere un numero per zero.

Page 72: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Intervalli di variazione

)min()max()( XXXRange

13)( QQXRangeileInterquartIQR

Possiamo definire i seguenti indici che misurano la variabilità del carattere tra due particolari termini della distribuzione o fra due quantili:

1.Campo di variazione o range

2.Campo di variazione interquartile (terzo quartile – primo quartile)

Page 73: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La concentrazione

La concentrazione può essere misurata se un

carattere X è di tipo quantitativo trasferibile, cioè se è

possibile trasferire, anche solamente in via teorica,

l’ammontare del fenomeno da una unità statistica ad

una altra, tendendo o meno alla situazione di

equidistribuzione.

E’ un aspetto rilevante della variabilità di un carattere

quantitativo.

Page 74: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La concentrazioneEsempio: La ricchezza di un paese è tanto più concentrata quanto minore è la frazione di ricchezza posseduta dalla parte più povera della popolazione.

Si può parlare di concentrazione finanziaria, urbana, ecc.

DEFINIZIONE:

Un carattere trasferibile è equidistribuito fra le N unità del collettivo se l’ammontare complessivo A del carattere X è distribuito in parti uguali fra le N unità, cioè se ogni unità possiede la quantità A/N.

Page 75: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La concentrazione

Se un carattere non è equidistribuito allora

possiamo affermare che è concentrato.

La situazione di concentrazione massima si ha

quando una sola unità possiede tutto l’ammontare

del carattere e tutte le altre unità statistiche non

possiedono niente.

Page 76: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Indici di concentrazione

Un indice di concentrazione deve essere pari a 0 nel caso di equidistribuzione (minima concentrazione) ed aumentare fino ad un massimo assunto nel caso di massima concentrazione.

Consideriamo ora una popolazione di N elementi.

Ordiniamo le N unità secondo la loro modalità, in ordine non decrescente, del carattere X.

Page 77: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Indici di concentrazione

Nxxx ...21

,

dove per ragioni di semplicità espositiva si è

tralasciata la notazione x(1) per indicare la prima

modalità ordinata.

ix

0ix

Se è l’ammontare del carattere posseduto dalla

i-esima unità ordinata, con allora si ha:

Page 78: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Indici di concentrazioneSi definisca ora con:

i

jjii xxxxA

121 ...

l’ammontare complessivo del carattere posseduto dalle i unità più povere con i=1,2,…,N

Si considerino ora le seguenti distribuzioni:

NFF ,...,1

NiFi /1.la distribuzione

delle prime i unità, dove:

della frazione cumulata

rappresenta la

la frazione delle i unità più povere alle quali spetta l’ammontare Ai del carattere

Page 79: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Indici di concentrazione

2. la distribuzione Nqq ,...,1

cumulata dell’ammontare del carattere, dove:

della frazione

N

iN

jj

i

jj

i A

A

x

x

q

1

1

rappresenta la frazione dell’ammontare

complessivo (intensità) del carattere detenuto

dalle prime i unità (le i unità più povere).

Page 80: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Indici di concentrazione

ii qF

Infatti, avendo ordinato i dati in senso non

decrescente, il primo 10%, ad esempio, delle unità

più povere detengono al più il 10% dell’ammontare

totale del carattere; se così non fosse non

sarebbero le i unità più povere.

ii qF e Si fa notare che

con i, inoltre risulta sempre per ogni i=1,2,…,N:

sono funzioni non decrescenti

Page 81: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Indici di concentrazione

1 e 0...

,...,2,1 ogniper /

12

NNi

i

qqqq

NiNiF

NAxxx N /...21 CASO DI MINIMA CONCENTRAZIONE (Equidistribuzione)

Si ha quando:

ii qF In questo caso risulta: per ogni i=1,2,…,N

Axxxx NN e 0... 121

CASO DI MASSIMA CONCENTRAZIONE

Si ha quando:

In questo caso risulta:

Page 82: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il rapporto di concentrazione

0 ii qF

0 NNNN qFqF

CASI INTERMEDI

Nei casi intermedi il carattere è tanto più concentrato

quanto maggiore è la differenza

Consideriamo quindi:

la sommatoria precedente è estesa da 1 a N-1, in quanto:

L’indice (1) è un indice assoluto di concentrazione.

1

1

N

iii qF (1)

Page 83: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il rapporto di concentrazione

iiN qFxxx ...21

1

1

0N

iii qF

1 e 0...

e 0...

12

121

NNi

NN

qqqq

Axxxx

Il minimo dell’indice si ha nel caso di

equidistribuzione, cioè quando:

1

1

N

iii qF

Il massimo dell’indice si ha quando vi è massima

concentrazione cioè:

1

1

N

iii qF

Page 84: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il rapporto di concentrazione

1

1

1

1

N

ii

N

iii FqF

1

1

1

1N

ii

N

iii

F

qFR 10 R

e allora:

Pertanto, è possibile definire l’indice relativo come:

Tale indice è noto come rapporto di concentrazione del Gini.

Page 85: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Il rapporto di concentrazione

OSSERVAZIONE:

Il calcolo di R è relativo ai singoli valori non

raggruppati in una distribuzione di frequenze e

pertanto per una popolazione ampia può risultare

gravoso calcolarne il valore.

Page 86: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempio

Si richiede di calcolare il rapporto di concentrazione del Gini.

Velletri 43

Frascati 20

Marino 31

Tre comuni del Lazio avevano al 21/12/1980 la seguente popolazione in migliaia di unità

Page 87: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempio

Prima ordiniamo i valori e poi calcoliamo Fi e qi :

Comune Popolazione Fi qi

Frascati 20 0,33 0,21

Marino 31 0,67 0,54

Velletri 43 1 1

Totale 94    

Page 88: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempioQuindi possiamo calcolare il rapporto di concentrazione R del Gini:

Comune Popolazione Fi qi Fi-qi

Frascati 20 0,33 0,21 0,12

Marino 31 0,67 0,54 0,13

Velletri 43 1 1  

Totale 94     0,25

Page 89: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

Un esempioIl risultato finale è pertanto pari a:

25,0

1

25,01

1

1

1

N

ii

N

iii

F

qFR

Page 90: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La curva di concentrazioneConsideriamo ora la rappresentazione grafica dei punti (Fi,qi) per i=1,2,…,N.

In un piano cartesiano, riportiamo in ascisse i valori Fi e in ordinate i valori qi

Nel caso di equidistribuzione si ha Fi=qi e quindi i punti si dispongono sulla bisettrice del I quadrante.

Il segmento che unisce i punti di coordinate (0,0) e (1,1) viene chiamato segmento di equidistribuzione.

Page 91: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La curva di concentrazione

Se non vi è equidistribuzione i punti di coordinate (pi,qi) si trovano nel triangolo di vertici (0,0), (1,0) e (1,1).

Unendo tali punti si ottiene una linea chiamata spezzata di concentrazione o curva di Lorenz.

Page 92: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La curva di concentrazione

(1,0)

(0,0)Fi Fi+1

qN

qi+1

qi

(1,1)

FN

Page 93: Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando.

La curva di concentrazione

In generale, quanto è maggiore la concentrazione del carattere, tanto più la spezzata di concentrazione risulta vicina all’asse dell’ascisse e quindi tanto è più grande l’area della superficie compresa fra il segmento di equidistribuzione e la spezzata di concentrazione.