LEZIONE A.5 Serie ordinate e numeri indici
-
Upload
alana-cervantes -
Category
Documents
-
view
29 -
download
1
description
Transcript of LEZIONE A.5 Serie ordinate e numeri indici
LEZIONE A.5
Serie ordinate e numeri indici
TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
In questa lezione..
In questa lezione ci occuperemo delle Serie ordinate.
Familiarizzeremo con la rappresentazione grafica.
Analizzeremo le possibili trasformazioni delle serie.
Ci soffermeremo in particolare sui numeri indici.
Infine, partendo da dati di serie storiche, introdurremo una importante media analitica, la media geometrica.
Serie ordinate e serie storiche
Abbiamo definito SERIE ORDINATA la successione di modalità osser-vate di un carattere, rispettando l’ordine di rilevazione:
X = {x1, x2, x3, .., xN-2, xN-1, xN}
Ovviamente rinunciando a classificare ulteriormente le osservazioni per-diamo in sinteticità, ma manteniamo l’informazione dell’ordine della se-rie. E in certi casi (come per le ‘serie storiche’) l’ordine (l’unità di tem-po di rilevazione) è fondamentale.
t Xt
X
+1 X+1
+2 X+2
+i X+1
X
Attenti. In forma di tabella una serie storica appare spesso su due colonne, ma non si tratta di coppie di modalità e nu-merosità: la numerosità è sempre 1 per ogni modalità!
La prima colonna riporta in realtà l’indice (di sequenza tem-porale) che caratterizza l’osservazione. L’analisi di serie L’analisi di serie storiche è, sì, un’analisi monovariata, ma difatto storiche è, sì, un’analisi monovariata, ma difatto associa due variabiliassocia due variabili
Rappresentazione graficaLa rappresentazione grafica sul tempo è il modo più efficace per rappresen-tare l’evoluzione di una serie storica. Data la serie storica Xt, t=1,2,..N, si rappresentano in una piano cartesiano tutte le N coppie {t, Xt}, ponendo sulle ascisse il tempo t e sull’ordinata le osservazioni Xt, e unendo poi con una spezzata gli N punti così individuati.
In questo modo si può tentare in modo intuitivo di scorporare le compo-nenti erratiche del processo da eventuali leggi temporali ipotizzabili.
Trend lineare Trend nonlineare
Ciclo Stagionalità
Aids e e-commerce
t Xt
1994 4
1998 10
2002 20
2006 34
2010 70
050100150200250300350400450500550600
1997 1998 1999 2000 2001 2002
Fatturato in milioni di euro di imprese in settore E-commerce
Previsioni milioni casi conclamati Aids 5 paesi (Cina,India,Nigeria,Russia,Etiopia)
0
15
30
45
60
75
1994 1998 2002 2006 2010
t Xt
1998 3
1999 12
2000 55
2001 190
2002 580
Due esempi sorprenden-temente simmetrici: a differenza dei diagram-mi ad aste, qui i punti di coordinate (Xt,t) sono legati in una spezzata.
Un altro esempioXt
in carico
67500
92583
103805
104742
113742
123828
129828
131717
tAnno
1990
1991
1992
1993
1994
1995
1996
1997
Un altro esempio non certo leggero. Xt sono i pazienti tossicodipendenti in carico presso strutture del Sistema Sanitario Nazionale. Yt
sono gli episodi di overdose rilevati (fonte: Ministero degli Interni). Zt (rapporto statistico) misura i casi di overdose ogni cento presi in carico.
Annot0=’80
0
1
2
3
4
5
6
7
Yt
overdose
1161
1383
1217
888
867
1195
1566
1153
Zt
Yt / Xt %
1,72
1,49
1,17
0,85
0,76
0,96
1,21
0,88
60000
80000
100000
120000
140000
1990 1992 1994 1996 1998
800
1000
1200
1400
1600
1990 1992 1994 1996 1998
overdose
In carico
Trasformazioni di serie storiche
Xt –Xt-1
-
+25083
+11222
+937
+9000
+10086
+6000
+1889
(Xt –Xt-1)
/Xt-1
-
+0,372
+0,121
+0,009
+0,086
+0,089
+0,048
+0,015
60000
80000
100000
120000
140000
1990 1992 1994 1996 1998
0
7000
14000
21000
28000
1990 1992 1994 1996 1998
Xt /Xt-1
-
1,372
1,121
1,009
1,086
1,089
1,048
1,015
0
0,1
0,2
0,3
0,4
1990 1992 1994 1996 1998
Per capire l’andamento di una serie è utile calcolare (e rappre-sentare graficamente) una sua trasformata che renda conto (tramite differenze o rapporti) delle variazioni per unità di tempo.
differenze Tassi di variazione
Xt
Xt
in carico
67500
92583
103805
104742
113742
123828
129828
131717
Numeri indici
Abbiamo già visto come i numeri indicinumeri indici siano quozienti tra le intensità di uno stesso fenomeno in due istanti temporali diversi (o in due ambiti ter-ritoriali diversi)
bIt = xt / xb
I numeri indici temporali sono quindi misure derivate da una serie storica xt (per t=0,1,2,..,t,..T)
Il denominatore è detto basebase del N.I. e costituisce il termine rispetto a cui si analizza la variazione del fenomeno.
I due deponenti di i indicano: a sinistra b=tempo base, a destra t=tempo corrente. Sulla stessa serie storica xt si calcolano più serie parallele di N.I. :
· N.I. a base fissa (denominatore fisso per tutta la serie)
· N.I. a base mobile (denominatore di bit è = xt-i)
Base fissa e base mobile
Serie storica
xt
N.I. base fissa
x0 = 100
N.I. base fissa
x3 = 100
N.I. a base
mobile
X0 100 x0/x3 %
X1 x1/x0 % x1/x3 % x1/x0 %
X2 x2/x0 % x2/x3 % x2/x1 %
X3 x3/x0 % 100 x3/x2 %
Proprietà di circolarità o di concatenamento: concate-nando gli indici a base mobile (cioè moltiplicandoli tra loro in successione) si ritrovano i corrispondenti n.i. a base fissa
xx33/x/x00 =(x =(x11/x/x00).(x).(x22/x/x11).(x).(x33/x/x22))
00ii33 = = 0 0ii11 . . 1 1ii22 . . 2 2ii33
t (anno) Xt occupati
bit (’76=100)
t-1it bit (’78=100)
1976 9000 100,0 - 91,0
1977 9371 104,1 104,1 94,8
1978 9889 109.9 105,5 100,0
1979 10444 116,0 105,6 105,6
1980 11178 124,2 107,0 113,0
Tra n.i. a base mo-bile e tassi di va-riazione o incre-mento vale la rela-zione:
t-1it=1+rt
Valori assoluti e numeri indici: confronti grafici
tAnno
1990
1991
1992
1993
1994
1995
1996
1997
Xt
in carico
67500
92583
103805
104742
113742
123828
129828
131717
t-1it =
Xt /Xt-1
-
137,160
112,121
100,903
108,593
108,867
104,845
101,455
60000
80000
100000
120000
140000
1990 1992 1994 1996 1998
100
108
116
124
132
140
1990 1992 1994 1996 1998
t-1it
Xt
t
t
NB: l’ammontare iniziale del carattere può es-sere attualizzato moltiplicandolo per il prodot-to dei numeri indici a base mobile:
XXtt = = XX00 t t t-1t-1iit t
67500(1,37160)(1,12121)(..)(1,01455)= = 67550 (1,95136) = 131717
Il grafico dei n.i. a base mobile dei casi di tossi-cofilia evidenzia come l’incre-mento annuo, tolto il primo in-tervallo, è abba-stanza stabile (linea continua vs linea tratteg-giata)
Numeri indici e trend esponenziali
t Xt
1994 4
1998 10
2002 20
2006 34
2010 70
0
1
2
3
4
5
6
1997 1998 1999 2000 2001 2002
0
0,5
1
1,5
2
2,5
3
1994 1998 2002 2006 2010
t Xt
1998 3
1999 12
2000 55
2001 190
2002 580
t-1it-
4,000
4,583
3,455
3,053
t-1it-
2,500
2,000
1,700
2,059
Spesso (cfr casi di E-com e Aids) abbiamo a che fa-re con serie che si impen-nano ‘esponenzialmente’.
Questo tipo di andamento è rivelato dalla serie degli indici a base mobile corri-spondenti: essi tenderan-no o a restare costanti o a variare linearmente.
In casi simili a un grafico su scala lineare sfuggono le variazioni ‘basse’: si u-sano talvolta carte milli-metrate semilogaritmiche.
La trasformata logaritmica
-2-1,6-1,2-0,8-0,40
0,40,81,21,62
0 1 2 3 4 5 6
Y=f(x)=logx
x
t Xt
1994 4
1998 10
2002 20
2006 34
2010 70
log Xt
1,386
2,303
2,996
3,526
4,2481
2
3
4
5
1994 1998 2002 2006 2010
Nella carta a scala semilogaritmica sulla ordinata si trova non X ma la sua trasformata logaritmica.
Si tratta di una funzione matematica che cresce indefinitamente con X ma in modo assai più lento e indefinitamente decele-rato (se X<1 logX è negativo)
Calcolare un logaritmo è (oggi) semplicissimo. Digi-tate per esempio la cifra 5,3 sulla macchinetta, poi cliccate sul tasto “log” o “ln” (non Log): otterrete 1,6677, che è appunto il logaritmo corrispondente.
Perbacco, la trasformata logaritmica di X è davvero lineare!Perbacco, la trasformata logaritmica di X è davvero lineare!
Tassi medi di incrementoTorniamo ai tassi di occupazione. In 4 intervalli di tempo (bienni) gli occupati passano da 9000mila a 11178mila, con un incremento totale del 24,2%. I 4 tassi di incremento annui sono 4,1%; 5,5%; 5,6%; 7%. Possiamo domandarci: qual è il tasso medio di incremento del periodo?
Un modo per calcolare un tasso medio può consistere nel farne la media aritmetica semplice (somma dei tassi divisa per il loro numero). Tasso Tasso medio periodale semplice è la media aritmetica delle variazioni medio periodale semplice è la media aritmetica delle variazioni relativerelative intervenute in ciascun periodo nell’intervallo 0—T.
Xt occupati
Xt = Xt-
1* 1,055
9000 9000
9371 9500
9889 10027
10444 10583
11178 11170
r = (r1+r2+..+rk)/k = (i=1..k ri)/k =
(4,1+5,5+5,6+7,0)/4 = 22,2/4 = 5,55
Ma il tasso medio semplice ha un difetto: applicato allo stock iniziale non dà il corretto valore finale della serie. Il risultato finale è 11170, pari al 24,1% di incremento rispetto a x0 , mentre il valore esatto è il 24,2%.
Tasso medio composto
0r4 = 0i4 -1 = (x1/x0).(x2/x1).(x3/x2).(x4/x3) - 1 = 1,242-1
Noi vogliamo che il tasso di incremento finale sia equiripartito tra i 4 periodi. Invece di fare la somma dei tassi di variazione (divisa per k=4), una alternativa consiste nella equiripartizione (tramite radice di ordine k=4) del prodotto dei numeri indici :
r = 4(x1/x0).(x2/x1).(x3/x2).(x4/x3) - 1 = 4x4/x0 - 1
r = 411178/9000 - 1 = 41,242 - 1 = 1,055675
Ora il prodotto (N-1) volte dell’ammontare iniziale della serie storica per il tasso medio periodale composto è pari all’ammontare finale.
9000.r=9501.r=10030.r=10588.r=11178=xt CVD
Il tasso medio periodale composto è la media geo-Il tasso medio periodale composto è la media geo-metrica delle variazioni relative intervenute tra 0 e T.metrica delle variazioni relative intervenute tra 0 e T.
Funzione obiettivo Abbiamo già detto che una buona media analitica implica l’esistenza di una sintesi algebrica delle proprietà individuali in una corri-sintesi algebrica delle proprietà individuali in una corri-spondente proprietà, dotata di significato, del collettivospondente proprietà, dotata di significato, del collettivo.
Media secondo ChisiniMedia secondo Chisini rispetto a una data funzione obiettivofunzione obiettivo è appunto quel valore numerico che, sostituito a ogni modalità osservata, lascia inalterata la funzione obiettivo stessa.
La funzione obiettivo più diffusa è l’intensità totalel’intensità totale del carattere studiato, somma delle modalità osservate nelle N unità della popolazionesomma delle modalità osservate nelle N unità della popolazione. L’intensità totale ripartita tra le N unità è la media aritmetica.L’intensità totale ripartita tra le N unità è la media aritmetica.
m
i
m
iii
iix N
nxfxmXEXMm
1
11)()(
Per es., se Tizio Caio e Sempronio hanno rispettivamente 4, 6 e 11 euro in tasca, tutti insieme possiedono T=21 euro, e la media corretta è T/N=7 euro. Infatti se ciascuno di loro avesse 7 euro il totale non muterebbe.
Prodotto come funzione obiettivo
Ma supponiamo ora di analizzare la variabile “indice a base mobile del costo della vita” su due anni. Nel primo anno non ci sia incremento (0i1=1,00), nel secondo anno ci sia un’inflazione del 44% (1i2=1,44). Fatto 100 il costo della vita in t=0, esso sarà ancora 100 in t=1 e 144 in t=2.
In questo caso non ci interessa tenere fissa l’intensità totale degli indici, ma il rapportorapporto tra costo iniziale e costo finale della vita.
144=100144=10000ii1111ii22 00ii1111ii22=(144/100)=1,44=(144/100)=1,44
Quando le modalità sono legate tra loro da un meccanismo moltiplicativo, la corretta funzione obiettivo è il prodotto delle modalità funzione obiettivo è il prodotto delle modalità osservateosservate.
E se per ripartire equamente una somma la si divide per il numero di modalità [(a+a+a)/3=3a/3=a], per ripartire un prodotto occorre fare la radice di ordine N [3(aaa)=3(a3)=a].
Nell’esempio la media ‘giusta’ è 3(1,44)=1,2 che, sostituito ai due indici
00ii11 e 11ii22 osservati, dà il giusto costo finale della vita. Usando la media aritmetica m=1,22, il costo finale sarebbe stato 148,84: molto superiore!
La media geometrica e il suo calcolo
La media geometrica lascia inalterata una particolare funzione obiettivo, il prodotto di tutte le modalità, ponderate per le rispettive numerosità.
N
m
i
nigixmXMm
1
00 )(
La media geometrica non è così semplice da calcolare. La media aritme-tica si ottiene sommando N modalità e dividendo per N. La media geome-trica si ottiene moltiplicando N modalità e poi facendo la radice N-esima del prodotto. Che complicazione!Ci viene in aiuto una funzione di trasformazione di X che abbiamo già conosciuto: la trasformata logaritmica Y=logX.
Non temete, non toccheremo l’ar-gomento. Ci interessano solo cer-te proprietà ‘algebriche’ di logX.
Il logaritmo di un prodotto è = alla som-ma dei logaritmi.
Il logaritmo di xn è = a nlogx
Il logaritmo di nX=x(1/n) è = a (1/n)logx
Se y=logX, X=antilogY
Dulcis in fundo, logaritmi e antilogaritmi si calcolano con le macchinette da 1 $!
Nota: nelle serie storiche la nume-rosità delle modalità è sempre 1!:
Ancora sul calcolo della media geometrica
Date le proprietà della trasformata logaritmica, vediamo cosa succede al logaritmo della media geometrica:
m
iii
m
i
ni
m
i
ni
N
m
i
ni
xnN
xN
xN
xm
i
ii
11
110
log1
log1
log1
loglog
00 loglog mantim
Abbiamo già visto come calcolare un logaritmo. Ma quando avremo fatto la somma ifilogxi, come fare per risalire alla media geometrica?
E’ altrettanto semplice. Una volta calcolata la ifilogxi digitatela sulla vostra macchinetta e schiacciate la funzione “ex”.
Quindi il logaritmo di Mg è nien-t’altro che una media aritmetica calcolata non sulle modalità di base ma sui loro logaritmi.
Mg = E(logX)
Per esempio l’antilogaritmo di 1,6677 è 5,3
Un esempio di procedura di calcolo (e tre note)
t-1it1,372
1,121
1,009
1,086
1,089
1,048
1,015
7,740
Mg xt-1
74264
81706
89894
98902
108813
119717
131715
logxt
0,3163
0,1141
0,0089
0,0824
0,0851
0,0468
0,0149
0,6685
logxt = 0,6685
logMg=logxt/N=0,0955
Mg = antilog = 1,10021
M(X)=xt/N=7,740/7=1,106
La serie stimata è esponenziale
M(x)xt-1
74655
82568
91321
101001
111707
123548
136644
xt
92583
103805
104742
113742
123828
129828
131717
NB1: se si ricalcola il montante (1990=67500)
usando M(X) esso risulta sovrastimato.
NB2: è sempre vero che Mg (X) M(X)
NB3: Mg si calcola anche come n(xt/x0)=
7(131717/67500)= 71,95136=1,1002160000
80000
100000
120000
140000
1990 1992 1994 1996 1998
60000
80000
100000
120000
140000
1990 1992 1994 1996 1998
60000
80000
100000
120000
140000
1990 1992 1994 1996 1998
Un altro esempiot Xt
1994 4
1998 10
2002 20
2006 34
2010 70
log t-1it-
0,9163
0,6931
0,5306
0,7222
2,8622
0
15
30
45
60
75
1994 1998 2002 2006 2010
t-1it-
2,500
2,000
1,700
2,059
8,259
Qual è il giusto (si fa per dire) tasso me-dio di crescita dell’epidemia di Aids?
M(X)=xt/N=8,259/4=2,06475
logMg=logxt/N=2,86222/4=0,71555
Mg = antilog = 2,04532
NB:la media geometrica è sempre<M(X)!
t Xt
1994 4
1998 10
2002 20
2006 34
2010 70
Mg xt-1
-
8,181
16,733
34,225
70,000
M(x)xt-1
-
8,259
17,053
35,210
72,700
Nota: la media aritmetica porta a sovrastimare il valore finale di oltre il 3,8% (72700 invece che 72000)!!
Confrontare incidenti e feritixt
incidenti
163,8
165,7
159,9
161,1
159,0
157,8
155,4
158,2
166,0
160,8
161,8
170,7
170,8
153,4
170,7
tanno
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
150
166
1980 1982 1984 1986 1988 1990 1992 1994 1996
yt
feriti
222,9
225,2
217,4
219,7
217,5
216,1
213,2
217,5
228,2
216,3
221,0
240,7
241,1
216,1
239,2
210
246
1980 1982 1984 1986 1988 1990 1992 1994 1996
Per esempio, le due serie (incidenti in rosso a tratto continuo, feriti in blu a tratteggio) hanno ordini di grandezza differenti. Ma se li riportiamo su scale comparabili, ci accorgiamo come l’andamento sia simile. Scala e andamento sono cose distinte.
Riportare due serie storiche su scale compara-bili con-sente a volte di cogliere interes-santi cor-relazioni tra serie storiche
Confrontare incidenti e vittime
xt
incidenti
163,8
165,7
159,9
161,1
159,0
157,8
155,4
158,2
166,0
160,8
161,8
170,7
170,8
153,4
170,7
tanno
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
150
1980 1982 1984 1986 1988 1990 1992 1994 1996
wt
morti
11,1
10,5
10,0
9,9
9,2
9,2
9,4
9,1
9,0
8,7
9,2
9,6
9,6
8,6
8,4
8,2
1980
In questo caso le due serie (in-cidenti in rosso a tratto conti-nuo, vittime in blu a tratteg-gio), riportati su scale compa-rabili, mostrano andamenti dif-ferenti. Non pare esserci ‘cor-relazione’ tra le due serie.
Ma cosa è mai questa ‘correla-zione’?Confron-tare due anda-menti ci condu-ce nel dominio
dell’analisi bivariata
Da tre serie, altre serie (rapporti statistici)
tanno
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1335
1980
zt
fer/incid
1,361
1,359
1,360
1,364
1,368
1,369
1,372
1,375
1,375
1,345
1,366
1,410
1,411
1,409
1,401
kt
morti/in
68
63
62
61
58
58
60
57
54
54
57
56
56
56
49
48
1980
Anche combinare due serie in for-ma di rapporto statistico permette spesso di capire di più. Per esem-pio, la serie delle vittime per inci-dente, in rosso a tratto continuo, sembra declinare, mentre quella dei feriti per incidente, in blu tratteggiato, si impenna.
Lavorare con serie di rap-
porti statistici è dunque un
modo più compatto per
analizzare due fenomeni
insieme