appunti concentrazione 2012 2013
-
Upload
claudia-clo -
Category
Documents
-
view
19 -
download
0
Transcript of appunti concentrazione 2012 2013
Appunti sulla concentrazione
a.a. 2012-2013 v.2
2
Sommario • Introduzione • La curva di concentrazione • Indici di concentrazione • Confronti • Riferimenti
3
Introduzione La concentrazione può essere studiata per caratteri trasferibili, ovvero caratteri quantitativi che, almeno in linea di principio, possono essere trasferiti tra le unità considerate.
Es: il reddito è un carattere trasferibile (tra gli individui), come lo sono il patrimonio, il numero di azioni di una certa azienda (tra gli azionisti) e i finanziamenti ricevuti dalle regioni italiane (tra le regioni stesse).
Es: l’età non è un carattere trasferibile (tra gli individui) e non lo è neppure l’intensità delle precipitazioni (tra le località considerate).
4
Introduzione Intuitivamente un carattere statistico (si pensi ad esempio al reddito) è tanto più concentrato quanto più risulta suddiviso tra poche unità della popolazione. Ogni situazione reale sarà intermedia tra due situazioni estreme che chiameremo di concentrazione massima e di equiripartizione. Si ha massima concentrazione quando una sola unità statistica possiede la totalità del carattere. Si parla invece di equiripartizione quando tutte le unità della popolazione possiedono la stessa quantità di carattere. Introdurremo la curva di concentrazione come strumento che permette di rappresentare graficamente la concentrazione di un carattere. Dall’esame della curva sarà possibile ricavare una misura sintetica della concentrazione.
5
Curva di concentrazione
Consideriamo un carattere quantitativo trasferibile; ordiniamo le quantità del carattere (intensità) possedute dalle unità statistiche in senso non decrescente: , e definiamo:
Nxxx ≤≤≤≤ ... 0 21
Fi =iN
(frequenza cumulata in x i )
Qi =
X jj=1
i
!
X jj=1
N
!=
X jj=1
i
!
Nµ
(intensità cumulata in x i )
i=1,...,N
6
Curva di concentrazione
Se rappresentiamo le coppie (Fi,Qi) in un grafico cartesiano e le congiungiamo otteniamo una spezzata convessa che congiunge il punto (0,0) con il punto (1,1). La curva prende il nome di curva di concentrazione (o curva di Lorenz).
Il generico punto (Fi ,Qi) della curva si può interpretare nel seguente modo: l’ (Fi ·100)% più povero di carattere possiede il (Qi · 100)% del carattere totale.
Poniamo (F0,Q0)=(0,0), si ha inoltre (FN,QN)=(1,1) e Qi ≤ Fi per ogni i La disuguaglianza segue dal fatto che
ordinate x le essendo 11
N
x
i
x N
j ii
j i ∑∑ == ≤
da cui xij=1
i!
x ij=1
N!
"iN
.
7
Curva di concentrazione La curva di concentrazione è sempre compresa, potendo eventualmente coincidere, tra le due seguenti:
1. La bisettrice di equazione Q=F. Lungo la bisettrice Fi=Qi per ogni i da cui segue che ogni unità possiede una quantità di carattere pari alla media dello stesso nella popolazione. La bisettrice rappresenta quindi la situazione di equiripartizione.
2. La curva passante per i punti (Fi,0) i=1,…,N-1 ed (1,1). Essa corrisponde alla situazione in cui tutto il carattere è concentrato in una sola unità statistica (l’N-esima) e rappresenta quindi la situazione di massima concentrazione.
Un esempio
8
80 90 21 23 32 16 62Dati i redditi di 7 individui:
per ricavare la curva di concentrazione organizziamo le osservazioni in tabella, (avendo cura di ordinarle in base ai valori di x; ad esempio X1=16 perché l’individuo più povero possiede 16), calcoliamo le coordinate dei punti (Fi,Qi) e le congiungiamo. Nel caso in esame la curva è più vicina alla bisettrice.
i x_i F_i Q_i
0 0 0 1 16 0.1429 0.0494 2 21 0.2857 0.1142 3 23 0.4286 0.1852 4 32 0.5714 0.2840 5 62 0.7143 0.4753 6 80 0.8571 0.7222 7 90 1 1
9
Indici di concentrazione
La curva di Lorenz-Gini è uno strumento grafico per rappresentare la concentrazione di un carattere. Può tuttavia essere comodo valutare la concentrazione attraverso un indice numerico. Intuitivamente, quanto più la bisettrice si discosta dalla curva di concentrazione tanto maggiore è la concentrazione del carattere. E’ naturale quindi costruire indici di concentrazione basati sullo “scostamento” della curva dalla bisettrice. Una misura dello scostamento può essere basata: • sulle distanze verticali tra la curva di concentrazione e la bisettrice • sull’area compresa tra la curva di concentrazione e la bisettrice.
Presentiamo un indice (1) basato sulle distanze e due indici (2,3) basati sull’area di concentrazione
10
Indici di concentrazione (1) Le distanze verticali tra la curva di concentrazione e la bisettrice sono
date da (Fi-Qi) e sono non negative. Un indice relativo di concentrazione si può ottenere dividendo la somma delle (Fi-Qi) per il valore massimo che tali differenze possono assumere:
R =(Fi !Qi )
1
N!1
"
Fii=1
N!1
"
Per costruzione 0 ≤ R ≤ 1 e in particolare: R = 0 nel caso di equiripartizione; infatti in tal caso Fi - Qi =0, i=1,2,…,N-1 R = 1 nel caso di massima concentrazione; infatti in tal caso Fi - Qi = Fi , i=1,2,…,N-1 L’indice così ottenuto prende il nome rapporto di concentrazione di Gini:
11
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 0,2 0,4 0,6 0,8 1
qi
pi
Indici di concentrazione (2)
L’area A in figura, compresa tra la curva di concentrazione e la retta di equidistribuzione prende il nome di area di concentrazione. Si noti che A è pari all’area del triangolo di coordinate (0,0) (1,0) (1,1) meno l’area B formata dai trapezi di altezza Fi-Fi-1 e basi Qi e Qi-1 :
Area del trapezio: ½ x Somma delle basi x altezza
Fi!1 Fi
Qi
Qi!1
12(Fi ! Fi!1)ALTEZZA! "# $#
(Qi +Qi!1)B.MAGG+B.MINORE! "# $#
A B
12
Un indice relativo di concentrazione si può ottenere dividendo l’area di concentrazione per il valore massimo che l’area può assumere:
R = AAmax
=1 2!1 2 (Fi !Fi!1)(Qi +Qi!1)
i=1
N
"(N !1) / 2N
dove Amax si ottiene considerando l’area nel caso x1 =…= xN-1 =0, xN=Nµ e risulta pari a 1/2 – (1/N)(1)(1/2)=(N-1)/2N. Per costruzione è 0 ≤ R ≤ 1, in particolare: • R=0 nel caso di equiripartizione • R=1 nel caso di massima concentrazione Si può dimostrare che il rapporto così costruito è uguale ad R.
Indici di concentrazione (2)
13
Un altro indice di concentrazione, sempre basato sull’area, si può ottenere osservando che quest’ultima non può superare il valore 1/2. Possiamo quindi rapportare l’area di concentrazione al suo valore massimo teorico:
!R =1 2!1 2 (Fi !Fi!1)(Qi +Qi!1)
i=1
N
!1 2
=1! (Fi !Fi!1)(Qi +Qi!1)i=1
N
! =1! 2B
Si ha (perché?) con i due indici che tendono a coincidere per N grande.
!R < R
Indici di concentrazione (3)
14
80 90 21 23 32 16 62
Un esempio
R =Fi !Qi
i=1
N!1
"
Fii=1
N!1
"=1.16983
= 0.3899
i x_i F_i Q_i
(Fi-Qi)
1 16 0.1429 0.0494 0.0935 2 21 0.2857 0.1142 0.1715 3 23 0.4286 0.1852 0.2434 4 32 0.5714 0.2840 0.2875 5 62 0.7143 0.4753 0.2390 6 80 0.8571 0.7222 0.1349 7 90 1 1 Totale 324 3 1.1698
Dati i redditi di 7 individui:
per ricavare la curva di concentrazione organizziamo le osservazioni in tabella, avendo cura di ordinarle in base ai valori di x, (ad esempio X1=16 perché l’individuo più povero possiede 16) e calcoliamo le differenze (Fi-Qi):
15
80 90 21 23 32 16 62
Per calcolare R con la formula (2) usiamo una tabella simile alla precedente per ricavare il numeratore. L’area massima che compare a denominatore è pari all’area massima teorica meno l’area del triangolo di base F7-F6 e altezza 1. Il calcolo di Ř è del tutto analogo: è sufficiente porre l’area massima pari a ½.
Data i redditi di 7 individui:
Un esempio
R =
12!
12
(Fi !Fi!1)(Qi +Qi!1)i=1
N
"Amax
=
12!
12
0.6658
614
= 0.3899
!R =
12!
12
0.6658
12
= 0.3342
i x_i F_i Q_i
(Fi-Fi-1)(Qi+Qi-1)
1 16 0.1429 0.0494 0.0070 2 21 0.2857 0.1142 0.0233 3 23 0.4286 0.1852 0.0427 4 32 0.5714 0.2840 0.0670 5 62 0.7143 0.4753 0.1085 6 80 0.8571 0.7222 0.1710 7 90 1 1 0.2461 Totale 0.6658
16
Estensione a variabili statistiche discrete Finora abbiamo considerato N osservazioni non raggruppate. Per ricavare l’indice o la curva di concentrazione a partire da una distribuzione di frequenze assolute possiamo usare le seguenti versioni “ponderate” di Fi e Qi:
Fi* =
n1 +...+ niN
= p1 + p2 +...+ pi
Qi* =
njx jj=1
i
!
njx jj=1
k
!=
njx jj=1
i
!
Nµ = p1x1 + p2x2 +...+ pixi
µ
dove x1,…,xk sono k valori distinti ordinati in modo non decrescente con numerosità n1 ,…,nk e vale n1+…+nk =N. Le ultime uguaglianze danno le formule per distribuzioni statistiche con frequenze relative.
17
Estensione a variabili statistiche discrete
∑
∑−
=
−
=
−= 1
1
*
1
1
**
*)(
k
ii
k
iii
F
QFR
Con le coppie (Fi* ,Qi*) si può ottenere un indice analogo ad R:
In generale R≠R* sugli stessi dati. Infatti con l’indice sopra la situazione di massima concentrazione si ha quando tutto il carattere appartiene alla k-esima classe (e non all’ N-esimo individuo come nel caso di R). Unendo le coppie (Fi
* ,Qi*) si ottiene la stessa curva di concentrazione che si
otterrebbe utilizzando con i dati unitari. Infatti si può dimostrare che la pendenza della curva non cambia passando tra individui che hanno lo stesso ammontare di carattere. L’unica differenza è che ora per ottenere la spezzata si devono congiungere k<N punti.
18
Osservazione: Nel caso in cui si disponga dell’informazione sull’ammontare totale di carattere in un intervallo è consigliabile discretizzare gli intervalli in modo “coerente” con tale informazione. Ad esempio se nell’intervallo [5,15) di numerosità Ni=10 il carattere totale è pari a 60 è preferibile discretizzare l’intervallo assumendo come punto “medio” il valore 6 e non il valore 10 (al quale corrisponderebbe un reddito totale di 100 e non di 60). Si noti che devono essere note le numerosità degli intervalli per poter procedere in questo modo.
Se si desidera ricavare l’indice o la curva di concentrazione per una variabile continua per intervallo, il modo più semplice di procedere consiste nel “discretizzare” la variabile considerando le frequenze “concentrate” nei punti medi degli intervalli. Si può poi procedere come nel caso precedente.
Estensione a variabili statistiche continue per intervallo
19
Se X è una variabile statistica non negativa con densità f(x) e media finita µ le espressioni di F e Q sono le seguenti:
Variabili statistiche continue
Talvolta è più comodo esprimere Q come Q(r) per ogni r in [0,1]. Si noti che per ogni r in [0,1] si ha:
Fx = f (u)du0
x! (freq. cumulata in x)
Qx =uf (u)du
0
x!uf (u)du
0
!
"=
uf (u)du0
x!
µ (intensità cumulata in x)
Q(r) =uf (u)du
0
F!1(r )!
µ dove F !1(r) è l'r-quantile di X
20
Il valore di R per un carattere con distribuzione continua si può ottenere, come nel caso discreto, rapportando l’area di concentrazione al suo valore massimo, pari ad 1/2:
Variabili statistiche continue
R =AAmax
= 2A =1! 2B
=1! 2 Q(r)dr0
1"
Si noti come Q(r) non è necessariamente una spezzata; inoltre essendo Amax =1/2 si ha R=Ř.
Confronti Può essere interessante confrontare la concentrazione di un carattere al
variare del tempo e dello spazio. Es: il reddito risulta più concentrato in Italia o in Francia? Es: la concentrazione del reddito in Italia era maggiore negli anni ‘80 o negli anni ‘90?
Allo scopo è possibile confrontare graficamente tra loro le curve di concentrazione nei due ambiti territoriali (o temporali) prescelti per stabilire se una delle due si trova più vicina alla bisettrice rispetto all’altra.
Osservazioni: • Non è sempre possibile stabilire un “ordinamento” delle curve. Si può
mostrare che se il carattere varia linearmente tra gli ambiti allora le curve non si intersecano.
• In generale, e in particolare quando le curve si intersecano, si può effettuare il confronto usando l’indice di Gini.
21
Confronti
Esempio: la concentrazione del reddito nel mondo usando l’indice R.
22
Fonte: CIA, The world Factbook 2009
23
Confronto Tra Distribuzioni Si riportano di seguito le distribuzioni dei finanziamenti concessi da un istituto bancario per l’acquisto della prima casa a giovani coppie residenti in Campania ed in Sardegna:
a) In quale regione risulta più elevata la concentrazione dei finanziamenti concessi?
b) Confrontare graficamente i diversi livelli di concentrazione dei finanziamenti nelle due regioni
Campania Finanziamenti (migliaia di Euro) ni
0-50 10 50-100 25
100-150 37 150-200 22 200-250 6
Totale 100
Sardegna Finanziamenti
(migliaia di Euro) ni
0-50 57 50-100 3
100-150 7 150-200 8 200-250 25
Totale 100
24
Sardegna Finanziamenti (migliaia di Euro) ni Ni pi xi xi ni Xi qi pi+1- pi qi+1+ qi (pi+1- pi)(qi+1+ qi)
0 0 0 0.000 0 0 0 0.000 0.570 0.149 0.085 0-50 57 57 0.570 25 1425 1425 0.149 0.030 0.322 0.010
50-100 3 60 0.600 75 225 1650 0.173 0.070 0.437 0.031 100-150 7 67 0.670 125 875 2525 0.264 0.080 0.675 0.054 150-200 8 75 0.750 175 1400 3925 0.411 0.250 1.411 0.353 200-250 25 100 1.000 225 5625 9550 1.000 - - -
Totale 100 9550 0.532
Concentrazione dei finanziamenti in Sardegna
!R =1! (Fi+1 !Fi )(Qi+1 +Qi )i=0
k!1
" =1! 0.532 = 0.468
25
Concentrazione dei finanziamenti in Campania
Campania Finanziamenti (migliaia di Euro) ni Ni pi xi xi ni Xi qi pi+1- pi qi+1+ qi (pi+1- pi)(qi+1+ qi)
0 0 0 0.000 0 0 0 0.000 0.100 0.021 0.002 0-50 10 10 0.100 25 250 250 0.021 0.250 0.199 0.050
50-100 25 35 0.350 75 1875 2125 0.178 0.370 0.743 0.275 100-150 37 72 0.720 125 4625 6750 0.565 0.220 1.452 0.319 150-200 22 94 0.940 175 3850 10600 0.887 0.060 1.887 0.113 200-250 6 100 1.000 225 1350 11950 1.000 - - -
Totale 100 11950 0.759
!R =1! (Fi+1 !Fi )(Qi+1 +Qi )i=0
k!1
" =1! 0.759 = 0.241
26
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
pi
qi
Equidistribuzione Sardegna Campania
4680.R~sar = 2410.R~cam =La concentrazione è più elevata in Sardegna
La curva di Lorenz conferma questo risultato
27
Riferimenti
• C. Gini (1912) Variabilità e mutabilità. Contributo allo studio delle distribuzioni e relazioni statistiche, Studi economici-giuridici dela Regia Università di Cagliari, anno III.
• Lorenz, M. O. (1905). "Methods of measuring the concentration of wealth". Publications of the American Statistical Association (Publications of the American Statistical Association, Vol. 9, No. 70) 9 (70): 209–219.
• Per ulteriori riferimenti si possono consultare utilmente le pagine di
Wikipedia relative all’indice di Gini e alla curva di Lorenz.