appunti concentrazione 2012 2013

27
Appunti sulla concentrazione a.a. 2012-2013 v.2

Transcript of appunti concentrazione 2012 2013

Page 1: appunti concentrazione 2012 2013

Appunti sulla concentrazione

a.a. 2012-2013 v.2

Page 2: appunti concentrazione 2012 2013

2

Sommario •  Introduzione •  La curva di concentrazione •  Indici di concentrazione •  Confronti •  Riferimenti

Page 3: appunti concentrazione 2012 2013

3

Introduzione La concentrazione può essere studiata per caratteri trasferibili, ovvero caratteri quantitativi che, almeno in linea di principio, possono essere trasferiti tra le unità considerate.

Es: il reddito è un carattere trasferibile (tra gli individui), come lo sono il patrimonio, il numero di azioni di una certa azienda (tra gli azionisti) e i finanziamenti ricevuti dalle regioni italiane (tra le regioni stesse).

Es: l’età non è un carattere trasferibile (tra gli individui) e non lo è neppure l’intensità delle precipitazioni (tra le località considerate).

Page 4: appunti concentrazione 2012 2013

4

Introduzione Intuitivamente un carattere statistico (si pensi ad esempio al reddito) è tanto più concentrato quanto più risulta suddiviso tra poche unità della popolazione. Ogni situazione reale sarà intermedia tra due situazioni estreme che chiameremo di concentrazione massima e di equiripartizione. Si ha massima concentrazione quando una sola unità statistica possiede la totalità del carattere. Si parla invece di equiripartizione quando tutte le unità della popolazione possiedono la stessa quantità di carattere. Introdurremo la curva di concentrazione come strumento che permette di rappresentare graficamente la concentrazione di un carattere. Dall’esame della curva sarà possibile ricavare una misura sintetica della concentrazione.

Page 5: appunti concentrazione 2012 2013

5

Curva di concentrazione

Consideriamo un carattere quantitativo trasferibile; ordiniamo le quantità del carattere (intensità) possedute dalle unità statistiche in senso non decrescente: , e definiamo:

Nxxx ≤≤≤≤ ... 0 21

Fi =iN

(frequenza cumulata in x i )

Qi =

X jj=1

i

!

X jj=1

N

!=

X jj=1

i

!

(intensità cumulata in x i )

i=1,...,N

Page 6: appunti concentrazione 2012 2013

6

Curva di concentrazione

Se rappresentiamo le coppie (Fi,Qi) in un grafico cartesiano e le congiungiamo otteniamo una spezzata convessa che congiunge il punto (0,0) con il punto (1,1). La curva prende il nome di curva di concentrazione (o curva di Lorenz).

Il generico punto (Fi ,Qi) della curva si può interpretare nel seguente modo: l’ (Fi ·100)% più povero di carattere possiede il (Qi · 100)% del carattere totale.

Poniamo (F0,Q0)=(0,0), si ha inoltre (FN,QN)=(1,1) e Qi ≤ Fi per ogni i La disuguaglianza segue dal fatto che

ordinate x le essendo 11

N

x

i

x N

j ii

j i ∑∑ == ≤

da cui xij=1

i!

x ij=1

N!

"iN

.

Page 7: appunti concentrazione 2012 2013

7

Curva di concentrazione La curva di concentrazione è sempre compresa, potendo eventualmente coincidere, tra le due seguenti:

1.  La bisettrice di equazione Q=F. Lungo la bisettrice Fi=Qi per ogni i da cui segue che ogni unità possiede una quantità di carattere pari alla media dello stesso nella popolazione. La bisettrice rappresenta quindi la situazione di equiripartizione.

2.  La curva passante per i punti (Fi,0) i=1,…,N-1 ed (1,1). Essa corrisponde alla situazione in cui tutto il carattere è concentrato in una sola unità statistica (l’N-esima) e rappresenta quindi la situazione di massima concentrazione.

Page 8: appunti concentrazione 2012 2013

Un esempio

8

80 90 21 23 32 16 62Dati i redditi di 7 individui:

per ricavare la curva di concentrazione organizziamo le osservazioni in tabella, (avendo cura di ordinarle in base ai valori di x; ad esempio X1=16 perché l’individuo più povero possiede 16), calcoliamo le coordinate dei punti (Fi,Qi) e le congiungiamo. Nel caso in esame la curva è più vicina alla bisettrice.

i x_i F_i Q_i

0 0 0 1 16 0.1429 0.0494 2 21 0.2857 0.1142 3 23 0.4286 0.1852 4 32 0.5714 0.2840 5 62 0.7143 0.4753 6 80 0.8571 0.7222 7 90 1 1

Page 9: appunti concentrazione 2012 2013

9

Indici di concentrazione

La curva di Lorenz-Gini è uno strumento grafico per rappresentare la concentrazione di un carattere. Può tuttavia essere comodo valutare la concentrazione attraverso un indice numerico. Intuitivamente, quanto più la bisettrice si discosta dalla curva di concentrazione tanto maggiore è la concentrazione del carattere. E’ naturale quindi costruire indici di concentrazione basati sullo “scostamento” della curva dalla bisettrice. Una misura dello scostamento può essere basata: •  sulle distanze verticali tra la curva di concentrazione e la bisettrice •  sull’area compresa tra la curva di concentrazione e la bisettrice.

Presentiamo un indice (1) basato sulle distanze e due indici (2,3) basati sull’area di concentrazione

Page 10: appunti concentrazione 2012 2013

10

Indici di concentrazione (1) Le distanze verticali tra la curva di concentrazione e la bisettrice sono

date da (Fi-Qi) e sono non negative. Un indice relativo di concentrazione si può ottenere dividendo la somma delle (Fi-Qi) per il valore massimo che tali differenze possono assumere:

R =(Fi !Qi )

1

N!1

"

Fii=1

N!1

"

Per costruzione 0 ≤ R ≤ 1 e in particolare: R = 0 nel caso di equiripartizione; infatti in tal caso Fi - Qi =0, i=1,2,…,N-1 R = 1 nel caso di massima concentrazione; infatti in tal caso Fi - Qi = Fi , i=1,2,…,N-1 L’indice così ottenuto prende il nome rapporto di concentrazione di Gini:

Page 11: appunti concentrazione 2012 2013

11

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,2 0,4 0,6 0,8 1

qi

pi

Indici di concentrazione (2)

L’area A in figura, compresa tra la curva di concentrazione e la retta di equidistribuzione prende il nome di area di concentrazione. Si noti che A è pari all’area del triangolo di coordinate (0,0) (1,0) (1,1) meno l’area B formata dai trapezi di altezza Fi-Fi-1 e basi Qi e Qi-1 :

Area del trapezio: ½ x Somma delle basi x altezza

Fi!1 Fi

Qi

Qi!1

12(Fi ! Fi!1)ALTEZZA! "# $#

(Qi +Qi!1)B.MAGG+B.MINORE! "# $#

A B

Page 12: appunti concentrazione 2012 2013

12

Un indice relativo di concentrazione si può ottenere dividendo l’area di concentrazione per il valore massimo che l’area può assumere:

R = AAmax

=1 2!1 2 (Fi !Fi!1)(Qi +Qi!1)

i=1

N

"(N !1) / 2N

dove Amax si ottiene considerando l’area nel caso x1 =…= xN-1 =0, xN=Nµ e risulta pari a 1/2 – (1/N)(1)(1/2)=(N-1)/2N. Per costruzione è 0 ≤ R ≤ 1, in particolare: •  R=0 nel caso di equiripartizione •  R=1 nel caso di massima concentrazione Si può dimostrare che il rapporto così costruito è uguale ad R.

Indici di concentrazione (2)

Page 13: appunti concentrazione 2012 2013

13

Un altro indice di concentrazione, sempre basato sull’area, si può ottenere osservando che quest’ultima non può superare il valore 1/2. Possiamo quindi rapportare l’area di concentrazione al suo valore massimo teorico:

!R =1 2!1 2 (Fi !Fi!1)(Qi +Qi!1)

i=1

N

!1 2

=1! (Fi !Fi!1)(Qi +Qi!1)i=1

N

! =1! 2B

Si ha (perché?) con i due indici che tendono a coincidere per N grande.

!R < R

Indici di concentrazione (3)

Page 14: appunti concentrazione 2012 2013

14

80 90 21 23 32 16 62

Un esempio

R =Fi !Qi

i=1

N!1

"

Fii=1

N!1

"=1.16983

= 0.3899

i x_i F_i Q_i

(Fi-Qi)

1 16 0.1429 0.0494 0.0935 2 21 0.2857 0.1142 0.1715 3 23 0.4286 0.1852 0.2434 4 32 0.5714 0.2840 0.2875 5 62 0.7143 0.4753 0.2390 6 80 0.8571 0.7222 0.1349 7 90 1 1 Totale 324 3 1.1698

Dati i redditi di 7 individui:

per ricavare la curva di concentrazione organizziamo le osservazioni in tabella, avendo cura di ordinarle in base ai valori di x, (ad esempio X1=16 perché l’individuo più povero possiede 16) e calcoliamo le differenze (Fi-Qi):

Page 15: appunti concentrazione 2012 2013

15

80 90 21 23 32 16 62

Per calcolare R con la formula (2) usiamo una tabella simile alla precedente per ricavare il numeratore. L’area massima che compare a denominatore è pari all’area massima teorica meno l’area del triangolo di base F7-F6 e altezza 1. Il calcolo di Ř è del tutto analogo: è sufficiente porre l’area massima pari a ½.

Data i redditi di 7 individui:

Un esempio

R =

12!

12

(Fi !Fi!1)(Qi +Qi!1)i=1

N

"Amax

=

12!

12

0.6658

614

= 0.3899

!R =

12!

12

0.6658

12

= 0.3342

i x_i F_i Q_i

(Fi-Fi-1)(Qi+Qi-1)

1 16 0.1429 0.0494 0.0070 2 21 0.2857 0.1142 0.0233 3 23 0.4286 0.1852 0.0427 4 32 0.5714 0.2840 0.0670 5 62 0.7143 0.4753 0.1085 6 80 0.8571 0.7222 0.1710 7 90 1 1 0.2461 Totale 0.6658

Page 16: appunti concentrazione 2012 2013

16

Estensione a variabili statistiche discrete Finora abbiamo considerato N osservazioni non raggruppate. Per ricavare l’indice o la curva di concentrazione a partire da una distribuzione di frequenze assolute possiamo usare le seguenti versioni “ponderate” di Fi e Qi:

Fi* =

n1 +...+ niN

= p1 + p2 +...+ pi

Qi* =

njx jj=1

i

!

njx jj=1

k

!=

njx jj=1

i

!

Nµ = p1x1 + p2x2 +...+ pixi

µ

dove x1,…,xk sono k valori distinti ordinati in modo non decrescente con numerosità n1 ,…,nk e vale n1+…+nk =N. Le ultime uguaglianze danno le formule per distribuzioni statistiche con frequenze relative.

Page 17: appunti concentrazione 2012 2013

17

Estensione a variabili statistiche discrete

∑−

=

=

−= 1

1

*

1

1

**

*)(

k

ii

k

iii

F

QFR

Con le coppie (Fi* ,Qi*) si può ottenere un indice analogo ad R:

In generale R≠R* sugli stessi dati. Infatti con l’indice sopra la situazione di massima concentrazione si ha quando tutto il carattere appartiene alla k-esima classe (e non all’ N-esimo individuo come nel caso di R). Unendo le coppie (Fi

* ,Qi*) si ottiene la stessa curva di concentrazione che si

otterrebbe utilizzando con i dati unitari. Infatti si può dimostrare che la pendenza della curva non cambia passando tra individui che hanno lo stesso ammontare di carattere. L’unica differenza è che ora per ottenere la spezzata si devono congiungere k<N punti.

Page 18: appunti concentrazione 2012 2013

18

Osservazione: Nel caso in cui si disponga dell’informazione sull’ammontare totale di carattere in un intervallo è consigliabile discretizzare gli intervalli in modo “coerente” con tale informazione. Ad esempio se nell’intervallo [5,15) di numerosità Ni=10 il carattere totale è pari a 60 è preferibile discretizzare l’intervallo assumendo come punto “medio” il valore 6 e non il valore 10 (al quale corrisponderebbe un reddito totale di 100 e non di 60). Si noti che devono essere note le numerosità degli intervalli per poter procedere in questo modo.

Se si desidera ricavare l’indice o la curva di concentrazione per una variabile continua per intervallo, il modo più semplice di procedere consiste nel “discretizzare” la variabile considerando le frequenze “concentrate” nei punti medi degli intervalli. Si può poi procedere come nel caso precedente.

Estensione a variabili statistiche continue per intervallo

Page 19: appunti concentrazione 2012 2013

19

Se X è una variabile statistica non negativa con densità f(x) e media finita µ le espressioni di F e Q sono le seguenti:

Variabili statistiche continue

Talvolta è più comodo esprimere Q come Q(r) per ogni r in [0,1]. Si noti che per ogni r in [0,1] si ha:

Fx = f (u)du0

x! (freq. cumulata in x)

Qx =uf (u)du

0

x!uf (u)du

0

!

"=

uf (u)du0

x!

µ (intensità cumulata in x)

Q(r) =uf (u)du

0

F!1(r )!

µ dove F !1(r) è l'r-quantile di X

Page 20: appunti concentrazione 2012 2013

20

Il valore di R per un carattere con distribuzione continua si può ottenere, come nel caso discreto, rapportando l’area di concentrazione al suo valore massimo, pari ad 1/2:

Variabili statistiche continue

R =AAmax

= 2A =1! 2B

=1! 2 Q(r)dr0

1"

Si noti come Q(r) non è necessariamente una spezzata; inoltre essendo Amax =1/2 si ha R=Ř.

Page 21: appunti concentrazione 2012 2013

Confronti Può essere interessante confrontare la concentrazione di un carattere al

variare del tempo e dello spazio. Es: il reddito risulta più concentrato in Italia o in Francia? Es: la concentrazione del reddito in Italia era maggiore negli anni ‘80 o negli anni ‘90?

Allo scopo è possibile confrontare graficamente tra loro le curve di concentrazione nei due ambiti territoriali (o temporali) prescelti per stabilire se una delle due si trova più vicina alla bisettrice rispetto all’altra.

Osservazioni: •  Non è sempre possibile stabilire un “ordinamento” delle curve. Si può

mostrare che se il carattere varia linearmente tra gli ambiti allora le curve non si intersecano.

•  In generale, e in particolare quando le curve si intersecano, si può effettuare il confronto usando l’indice di Gini.

21

Page 22: appunti concentrazione 2012 2013

Confronti

Esempio: la concentrazione del reddito nel mondo usando l’indice R.

22

Fonte: CIA, The world Factbook 2009

Page 23: appunti concentrazione 2012 2013

23

Confronto Tra Distribuzioni Si riportano di seguito le distribuzioni dei finanziamenti concessi da un istituto bancario per l’acquisto della prima casa a giovani coppie residenti in Campania ed in Sardegna:

a)  In quale regione risulta più elevata la concentrazione dei finanziamenti concessi?

b)  Confrontare graficamente i diversi livelli di concentrazione dei finanziamenti nelle due regioni

Campania Finanziamenti (migliaia di Euro) ni

0-50 10 50-100 25

100-150 37 150-200 22 200-250 6

Totale 100

Sardegna Finanziamenti

(migliaia di Euro) ni

0-50 57 50-100 3

100-150 7 150-200 8 200-250 25

Totale 100

Page 24: appunti concentrazione 2012 2013

24

Sardegna Finanziamenti (migliaia di Euro) ni Ni pi xi xi ni Xi qi pi+1- pi qi+1+ qi (pi+1- pi)(qi+1+ qi)

0 0 0 0.000 0 0 0 0.000 0.570 0.149 0.085 0-50 57 57 0.570 25 1425 1425 0.149 0.030 0.322 0.010

50-100 3 60 0.600 75 225 1650 0.173 0.070 0.437 0.031 100-150 7 67 0.670 125 875 2525 0.264 0.080 0.675 0.054 150-200 8 75 0.750 175 1400 3925 0.411 0.250 1.411 0.353 200-250 25 100 1.000 225 5625 9550 1.000 - - -

Totale 100 9550 0.532

Concentrazione dei finanziamenti in Sardegna

!R =1! (Fi+1 !Fi )(Qi+1 +Qi )i=0

k!1

" =1! 0.532 = 0.468

Page 25: appunti concentrazione 2012 2013

25

Concentrazione dei finanziamenti in Campania

Campania Finanziamenti (migliaia di Euro) ni Ni pi xi xi ni Xi qi pi+1- pi qi+1+ qi (pi+1- pi)(qi+1+ qi)

0 0 0 0.000 0 0 0 0.000 0.100 0.021 0.002 0-50 10 10 0.100 25 250 250 0.021 0.250 0.199 0.050

50-100 25 35 0.350 75 1875 2125 0.178 0.370 0.743 0.275 100-150 37 72 0.720 125 4625 6750 0.565 0.220 1.452 0.319 150-200 22 94 0.940 175 3850 10600 0.887 0.060 1.887 0.113 200-250 6 100 1.000 225 1350 11950 1.000 - - -

Totale 100 11950 0.759

!R =1! (Fi+1 !Fi )(Qi+1 +Qi )i=0

k!1

" =1! 0.759 = 0.241

Page 26: appunti concentrazione 2012 2013

26

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

pi

qi

Equidistribuzione Sardegna Campania

4680.R~sar = 2410.R~cam =La concentrazione è più elevata in Sardegna

La curva di Lorenz conferma questo risultato

Page 27: appunti concentrazione 2012 2013

27

Riferimenti

•  C. Gini (1912) Variabilità e mutabilità. Contributo allo studio delle distribuzioni e relazioni statistiche, Studi economici-giuridici dela Regia Università di Cagliari, anno III.

•  Lorenz, M. O. (1905). "Methods of measuring the concentration of wealth". Publications of the American Statistical Association (Publications of the American Statistical Association, Vol. 9, No. 70) 9 (70): 209–219.

•  Per ulteriori riferimenti si possono consultare utilmente le pagine di

Wikipedia relative all’indice di Gini e alla curva di Lorenz.