Trend Stocastico del modello di regressione lineare ... · non stazionariet a 1 3 Appro ccio median...

34
UNIVERSITA’ CA’ FOSCARI DI VENEZIA Ottobre 2000 Trend Stocastico del modello di regressione lineare: contributi di analisi Roberto Matterazzo Nota di Lavoro 2000.14

Transcript of Trend Stocastico del modello di regressione lineare ... · non stazionariet a 1 3 Appro ccio median...

UNIVERSITA’CA’ FOSCARIDI VENEZIA

Ottobre 2000

Trend Stocasticodel modello di regressione lineare:

contributi di analisi

Roberto Matterazzo

Nota di Lavoro 2000.14

Trend Stocastico

nel modello di regressione lineare:

contributi di analisi�

Roberto Matterazzoy

lavoro realizzato presso il

dipartimento di Scienze Economiche

Universit�a Ca' Foscari di Venezia.

e-mail: [email protected]

2 novembre 2000

�Il presente lavoro ha goduto di un �nanziamento da parte del progetto CNR 99.03525.ST74 coordinato dal prof.Giuseppe Tattara, presso il dipartimento di Scienze Economiche, Universit�a di Venezia.

yattualmente Phd's student, Dipartimento di Statistica, Universit�a degli Studi di Padova.

I

Indice

1 Introduzione 1

2 Il problema della non stazionariet�a 1

3 Approccio mediante modelli State-Space e �ltro di Kalman 2

4 Filtro di Kalman 4

4.1 il modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44.2 Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64.3 Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4.3.1 distribuzione congiunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64.3.2 distribuzione condizionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4.4 Smoothing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.5 Square Root Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94.6 Scelta delle condizioni iniziali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

5 Stima delle varianze 11

5.1 Stima di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115.1.1 Errori di Previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115.1.2 Funzione di Verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125.1.3 Rispetto all'intero campione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5.2 Ottimizzazione Numerica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135.3 Tecniche per concentrare la ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145.4 Prove di simulazione MC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

6 Stima dei coe�cienti �ssi 18

6.1 Augmented Kalman �lter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206.2 Varianza degli stimatori ottenuti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

7 Procedura completa di stima: approccio a tre stadi 24

8 Procedure di diagnostica 26

9 Generalizzazioni del modello 28

9.1 Stima in Sistemi di equazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

10 Conclusioni 30

II

1 Introduzione

Si �e cercato di a�rontare il problema della stima in modelli per variabili non stazionarie, in parti-colare a causa di una rilevante componente di trend. L'approccio seguito consiste nell'inclusione diuna variabile latente, che si adatta ad interpretare un trend stocastico non direttamente osservabile,in un usuale modello di regressione lineare, de�nendo una procedura completa di stima basata sullaformulazione del modello in forma state-space e l'utilizzo congiunto del �ltro di kalman e degli sti-matori di massima verosimiglianza per gli iperparametri non noti. In particolare �e stata propostauna procedura a pi�u stadi per permettere di stimare in modo sequenziale: le varianza dei disturbi, icoe�cienti �ssi del modello, e quindi la variabile latente. Per temi speci�ci, in particolare relativi allestime di verosimiglianza, si sono testate le procedure proposte attraverso prove di simulazione MonteCarlo. Qualora possibile si �e cercato di indicare anche gli approcci alternativi al problema presenti inletteratura, evidenziandone gli elementi distintivi.

2 Il problema della non stazionariet�a

Spesso accade, specie nelle analisi economiche e �nanziarie, di operare su dati che presentano unarilevante componente di non stazionariet�a. In particolare, una delle ragioni pi�u comuni, �e la presenza diun andamento di trend, che determina una variazione progressiva nel livello della variabile analizzata,accompagnato, a volte, da eteroschedasticit�a nella componente di varianza.

Tale elemento di non stazionariet�a potrebbe perdurare anche una volta che si siano utilizzateopportune trasformazioni, solitamente della classe Box-Cox1, per stabilizzare la serie analizzata.

L'utilizzo di un modello di regressione in questa situazione si presenta di�coltoso in quanto vengo-no a cadere le condizioni nomali di stima e conseguentemente la consistenze del relativo stimatore deiminimi quadrati e sue generalizzazioni2. La situazione pu�o esser anche peggiore nel caso in cui alcunedelle variabili esplicative incluse nel modello presentino esse stesse un andamento non stazionario. Ilproblema noto in letteratura3 come regressione spuria, consiste nell'ottenere una regressione signi�-cativa tra le variabili considerate dovuta, non ad una e�ettiva in uenza reciproca, ma solamente allapresenza della componente non stazionaria.

Sulla base di queste considerazioni sembra super uo richiamare la necessit�a di veri�care la presenzadi componenti non stazionarie nelle variabili di interesse ed, eventualmente, procedere utilizzandotecniche di modellazione e stima che riescano a tenerne conto.

Esistono diversi test elaborati in letteratura per la veri�ca della presenza di componenti non sta-zionarie, solitamente basati sull'Augemented Dickey-Fuller test e sue generalizzazioni4, senza tuttaviadimenticare che una rappresentazione gra�ca delle serie in esame in generale permette di avere unaprima impressione sulla possibile presenza del problema.

Supposto quindi che la serie in esame sia non stazionaria, si deve poter ugualmente procedere allafase di modellazione e stima. In letteratura in particolare sembra potersi distinguere tra un approccioclassico che presuppone di \detrendizzare" la serie originaria attraverso l'inclusione di componenti di

1vedi Greene ('97) pag. 479.2la situazione �e nota come asymptotically uncooperative regressors, vedi ad esempio Schmidt, P. (1976) Econometrics,

New York:Marcel Dekker, pag.85 e succ.)3vedi in particolare Granger-Newbold ('74) \Spurious Regression in Econometrics" Journal of Econometrics, 2, pp.111-

120.4in particolare una esposizione ragionata del test e sue estensioni si trova nei testi di Hamilton \Time Series Analysis"

ed Enders \Applied Econometrics Time Series".

1

trend deterministico ed un approccio di pi�u recente a�ermazione basato essenzialmente sull'analisi dicointegrazione.

Spesso questi approcci vengono presentati come contrapposti5, anche se in campioni di numerosit�a�nita, nonch�e ridotta come spesso accade nelle serie economiche, probabilmente la distinzione tra idue tipi di modelli diventa impossibile.

Qui si vuole indicare una terza soluzione al problema che potrebbe presentare alcuni vantaggirispetto ai precedenti, e che si basa sulla stima di una componente di trend stocastico modellata attra-verso l'inclusione di una variabile latente. Questo approccio pu�o essere visto come una generalizzazionedel metodo classico, sottolineando come la scelta di una struttura di trend deterministico tra diverse(lineare, polinomiale, esponenziale, ecc...) viene in generale suggerita sulla base delle caratteristichedei dati stessi, ma se mal speci�cata potrebbe produrre una palese distorsione dei risultati di stima.E' quindi preferibile lasciare che siano i dati stessi a suggerire la struttura di trend che risulti voltaper volta pi�u congeniale6.

Rispetto all'analisi di cointegrazione va considerato che l'inclusione di una struttura di trend sto-castico lascia in generale pi�u libert�a nella speci�cazione della struttura del modello, anzich�e imporre ilpassaggio alle di�erenze prime. Questo pu�o essere vantaggioso sia in termini di capacit�a di immediatainterpretazione dei risultati, sia di applicabilit�a di strutture funzionali che vengono suggerite dallateoria sottostante al fenomeno che si sta studiando.

3 Approccio mediante modelli State-Space e �ltro di Kalman

L'obiettivo consiste quindi nello stimare una componente di trend stocastico in un modello di regres-sione lineare. Questo pu�o, in generale, essere realizzato attraverso una riformulazione del modello informa State-Space ed attraverso l'utilizzo di un algoritmo di stima basato sul �ltro di Kalman e lafunzione di verosimiglianza.

In letteratura l'argomento �e stato pi�u volte trattato. In particolare si vedano i testi di: Gourieroux-Monfort ('95), Hamilton ('94) ed Harvey ('81) e ('89). Vedi anche Mantovan-Pastore-Tonellato(2000) per un'estensione dell'approccio al caso pi�u generale di modelli lineari dinamici, sulla basedi un'impostazione pi�u propriamente bayesiana all'inferenza.

Si presentano alcune strutture per la componente di trend stocastico che sono frequentementeutilizzate in lettatura. La descrizione che verr�a presentata pi�u avanti, relativa alla procedura distima, si basa sulla formulazione del modello in termini state-space molto generali. Per ottenere lacorrispondente stima del trend stocastico baster�a sostituire, a quella formulazione pi�u generale, lastruttura delle variabile di stato speci�cata sulla base del trend stocastico scelto.

Trend stocastico come Random -Walk

�E questo un modello molto semplice7 che gode di una notevole essibilit�a e capacit�a di adattamentoai dati campionari. I suoi limiti maggiori consistono proprio nella sua semplicit�a che non consente dicogliere dinamiche pi�u complesse nel trend, ad esempio dove vi sia una componente di cresita costante.

(�t = �t�1 + �t trend stocastico

yt = �t + x0t� + �t eq: di osservazione

5vedi ad esempio Hamilton ('94) Chp.15 e succ.6in generale una struttura deve essere speci�cata anche nel caso di trend stocastico, e tuttavia la presenza di disturbi

di sistema permette comunque una maggiore adattabilit�a.7Tale modello viene a volte chiamato Modello Steady-state. Vedi in particolare Mantovan et al. (2000) pag. 57.

2

Nell'equazione pi�u sopra presentata le variabili di osservazione yt sono spiegate sia dalla componentelatente di trend �t, sia dall'in uenza di un insieme di variabili esogene attraverso degli opportunicoe�cienti x0t�.

Trend stocastico distinto per livello ed inclinazione

Una formulazione leggermente pi�u complessa nella struttura del trend-stocastico la d�a Harvey8, ipo-tizzando una formulazione che distingua separatamente una componente di livello ed una di incli-nazione9. Gli altri elementi del modello rimangono inalterati rispetto alla formulazione precedente.

8><>:

�t = �t�1 + �t�1 + �t livello

�t = �t�1 + �t slope

yt = �t + x0t� + �t eq: di osservazione

In questo caso il trend stocastico �e modellato sulla base di due componenti, entrambe stocastiche,che determinano rispettivamente il livello della regressione e la pendenza nell'evoluzione futura deltrend.

Il vantaggio di questa struttura pi�u complessa sembra riconducibile sicuramente ad una maggiorecapacit�a di adattamento per quei fenomeni che presentino una qualche persistenza nelle caratteristichedi crescita, indicate dalla variabile �.

Un ulteriore vantaggio consiste nella capacit�a di inglobare il modello con trend deterministicolineare. Infatti si dimostra agevolmente che questo modello, nel caso mancassero gli errori casuali �te �t, collassa al modello con trend deterministico:

yt = �0 + �0t+ x0t� + �t

Resta da osservare come questa formulazione, sicuramente pi�u essibile, richieda tuttavia la stimadi un ulteriore parametro nella variabile di stato, e questo potrebbe non essere desiderabile in situazionidi bassa numerosit�a campionaria.

Altre formulazioni

Oltre alle formulazioni pi�u sopra riportate ne esistono altre, che permettono strutture nella variabiledi stato via via pi�u complesse. Accanto al trend con separata indicazione di livello ed inclinazione, lastruttura pu�o essere complicata per permettere un Trend di crescita quadratica, o in termini ancorapi�u ampi come Trend di crescita polinomiale.10

In generale saranno le stesse caratteristiche del fenomeno studiato che permetteranno di scegliereuna determinata struttura di trend, ferma restando la necessit�a, una volta stimato un determinatomodello, di una attenta veri�ca sugli errori di previsione al �ni di confermare la validit�a di quellascelta.

8Harvey- Henry -Peter- Wren Lewis \stochastic trends in dynamic regressin models: an application to the employment-output equation" The Economic Journal n. 96 (1986)

9vedi anche Gourieroux-Monfort ('95) pp. 614 e succ. dove si indica questo modello come Harvey's Models ed ancheMantovan et al. (2000) dove assume la denominazione di Modello di crescita lineare.

10vedi Mantovan et al. (2000) pag. 56 e succ.

3

4 Filtro di Kalman

Si presenta in questa parte un breve richiamo alla teoria del �ltraggio in modelli state-space ottenutaattraverso il �ltro di kalman11. Si utilizzer�a un modello generale, che nelle sezioni successive verr�aadattato per rappresentare una componente di trend stocastico e dei regressori esogeni.

L'analisi verr�a condotta condizionatamente alla conoscenza delle matrici di varianza-covarianza, edalle condizioni iniziali. In seguito si estender�a l'analisi supponendo anche queste non note e stimandoletramite l'approccio di massima verosimiglianza.

Ecco in sintesi l'algoritmo che andremo a sviluppare (�gura (1)). Come si vede permette dialternare ad una fase di previsione sulla variabile di stato e quindi di osservazione del sistema, una diaggiornamento sulla base del risultato campionario, coniugando l'informazione ex-ante, sulla base diun valore di previsione, con un informazione ex-post, ottenuta dal nuovo dato osservato. L'unione delledue componenti viene fatta sempre rispetto la variabile di stato, che rappresenta una sorta di memoriadel sistema, e che viene cos�� costantemente aggiornata per adattarsi alle realizzazioni campionarie.

Figura 1: Algoritmo ricorsivo per il �ltro di Kalman

4.1 il modello

Il modello di base che sar�a utilizzato come riferimento per il calcolo delle varie equazioni del �ltro dikalman �e il seguente: (

�t = T�t�1 + �tyt = z0t�t + �t

11vari testi posso essere citati come riferimento per questa prima parte pi�u generale, in particolare si vedano i lavoridi Harvey ('81) ('89), ma anche Gourieroux-Monfort ('95), Mantovan et al. (2000).

4

dove la prima equazione �e l'equazione di stato del sistema, (o di transizione), mentre la seconda �el'equazione di misurazione (o di osservazione).

La matrice T �e de�nit�a matrice di transizione, mentre il vettore zt rappresenta delle variabiliesogene ed osservabili incluse nel modello. Ancora, i disturbi �t sono il noise del sistema, mentrequelli �t, sono gli errori di misurazione o innovazioni. Entrambi si assumeranno gaussiani ed amedia nulla.

La loro matrice di varianza-covarianza che nel nostro caso si assume diagonale a blocchi �e cos��formata: "

�t�t

#=

"Q 00 R

#

mentre la loro autocorrelazione si assume nulla, anche in termini cross-sezionali.E' necessario inoltre stabilire delle condizioni iniziali del sistema. In particolare una condizione

iniziale per il vettore di stato, che chiameremo �0. Si supporr�a che tale condizione iniziale siaindipendente da entrambi i disturbi, di sistema e di misurazione.

Nel corso dell'analisi si far�a uso anche di altre notazioni. In particolare sar�a necessario indicarela previsione sulla variabile di stato come �tjs, intesa come previsione al tempo t disponendo di tuttal'informazione campionaria �no al tempo s. Quindi con la notazione �tjt�1 si intender�a la previsione1 step avanti sulla variabile di stato al tempo t-1, mentre con �tjt ci si riferir�a al migliore previsoreper la variabile di stato al tempo t, conoscendo gi�a l'osservazione campionaria al medesimo istantetemporale, �e comporter�a quindi un problema di �ltraggio ottimo ed aggiornamento del valore diprevisione precedente.

Con la matrice Ptjs ci si riferir�a alla varianza dell'errore di previsione sulla variabile di stato, ed ipedici hanno lo stesso signi�cato dell'esempio precedente.

Con ytjs si intender�a il migliore previsore per la variabile di osservazione, mentre con la matrice

Ftjs si intender�a la sua varianza condizionale.E' importante notare come il termine condizionato nelle de�nizioni precedenti, �e in riferimento

all'informazione disponibile sul sistema ad un dato istante temporale, ed avendo assunto che solola variabile di misurazione �e osservabile, si intender�a condizionatamente a quest'ultima. Adottandoin�ne, come criterio per valutare la bont�a di previsione, una funzione di perdita quadratica, ne derivache il previsore ottimale sar�a lo stesso valore atteso condizionale. In sintesi abbiamo:

1. Previsore per la variabile di stato. Si usa la media condizionale rispetto alle osservazionidisponibili.

�tjt�1 = E[�t j y0; y1; :::; yt�1] (1)

2. Errore Quadratico Medio (MSE) del previsore sulla variabile di stato. Essendo ilprevisore pari alla media condizionale della variabile di stato, il MSE corrisponde alla varianzacondizionale della variabile di stato.

Ptjt�1 = Etjt�1[(�t � �tjt�1)(�t � �tjt�1)0]

= vartjt�1(�t � �tjt�1)(2)

3. Previsore sulla variabile di osservazione

ytjt�1 = Etjt�1[yt j y0; y1; :::; yt�1] (3)

5

4. Errore Quadratico Medio (MSE) del previsore sulla variabile di osservazione. Es-sendo il previsore centrato sulla media condizionale della variabile di osservazione, si ottiene lavarianza condizionale.

Ftjt�1 = Etjt�1[(yt � ytjt�1)2] (4)

4.2 Forecasting

Il primo passo dell'algoritmo consiste nell'ottenere i valori di previsione sia per la variabile di sistemache per quella di osservazione. Si supponga cio�e di conoscere l'informazione campionaria al tempot� 1 e di avere gi�a operato per aggiornare la previsione sulla variabile di stato in modo da ottenere ilprevisore che abbiamo chiamato �t�1jt�1, con varianza condizionale anch'essa aggiornata indicata con

Pt�1jt�1. Sar�a possibile spostarci un passo avanti ottenendo le seguenti equazioni di previsione:

1. Previsore sulla Variabile di Stato

�tjt�1 = T �t�1jt�1 (5)

2. Varianza variabile di stato

Ptjt�1 = T Pt�1jt�1T0 +Q (6)

3. Previsore sulla variabile di osservazione

ytjt�1 = z0t�tjt�1= z0t(T �t�1jt�1)

(7)

4. Varianza condizionale Variabile di osservazione

Ftjt�1 = z0tPtjt�1zt +R

= z0t(T Pt�1jt�1T0 +Q)zt +R

(8)

4.3 Filtering

Adesso ci interessiamo al problema complementare, cio�e, una volta letta la nuova osservazione cam-pionaria, utilizzeremo tale nuova informazione per aggiornare in particolare la variabile di stato checonserva la memoria del sistema.

Per fare questo �e necessario ricavare prima la distribuzione congiunta per il sistema nel suo com-plesso, per poi passare alla distribuzione condizionale e quindi alle equazioni di aggiornamento che ciinteressano.

4.3.1 distribuzione congiunta

Si intende ricavare la distribuzione congiunta della variabile di stato e della variabile di osservazione,condizionatamente all'informazione disponibile al passo precedente. Cio�e tale distribuzione �e condi-zionata all'informazione campionaria al passo t� 1, ma non comprende ancora la nuova informazioneallo stato t, e di conseguenza la variabile yt �e intesa in termini di variabile aleatoria e non ancora comerealizzazione campionaria.

Indicando con Yt�1 tutta l'informazione disponibile �no al tempo t�1 proveniente dalle osservazionipassate, si ottiene la distribuzione congiunta:"

�tyt

j Yt�1

#� @

""�tjt�1z0t�tjt�1

#;

"Ptjt�1 Ptjt�1zt

z0tPtjt�1 z0tPtjt�1zt +R

##(9)

6

4.3.2 distribuzione condizionale

Dalla distribuzione congiunta precedentemente ricavata �e possibile derivare la distribuzione condizio-nale della variabile di stato rispetto l'osservazione campionaria al medesimo istante temporale, cio�ezt j yt.

A tale scopo si fa uso del teorema della distribuzione normale condizionale12, che permette diricavare agevolmente la distribuzione condizionale di una componente rispetto le altre:

�t j yt � @h�tjt; Ptjt

i(10)

dove de�niamo:

� Kalman gain

Kt = Ptjt�1zt(z0tPtjt�1zt +R)�1 (11)

� media condizionale

�tjt = �tjt�1 +Kt(yt � z0t�tjt�1) (12)

� varianza condizionale

Ptjt = (Ik �Ktz0t)Ptjt�1 (13)

4.4 Smoothing

Con questo termine ci si riferisce alla parte dell'algoritmo che si occupa di ottenere il migliore previsorelineare per la variabile di stato, condizionatamente a tutta l'informazione campionaria disponibile, enon solo a quella di epoca precedente al valore che si vuole stimare.

In generale la capacit�a di previsione aumenta all'aumentare della quantit�a di informazione cam-pionaria utilizzata, e questo si traduce di conseguenza in una minore variabilit�a dello stimatoreottenuto.

Gi�a utilizzando gli algoritmi del �ltro di Kalman �n qui proposti si possono ottenere due stimatoriper la variabile di stato. Un primo, che abbiamo chiamato previsore ex-ante considera la miglioreprevisione lineare che si possa fare in ogni epoca sulla variabile di stato, condizionatamente a tuttal'informazione disponibile �no all'epoca immediatamente precedente a quella considerata. il previsoreex-ante sar�a ottenuto come:

�tjt�1 = E [�t j fy1; y2; :::; yt�1g ; �0] (14)

Tale stimatore �e propriamente un previsore in quanto per calcolarlo non �e necessario disporredell'osservazione yt simultanea sulla variabile di osservazione. Tuttavia, tale caratteristica lo rendeanche il meno e�ciente rispetto agli altri stimatori che andremo a proporre.

Un secondo stimatore, de�nito stimatore ex-post, �e nell'impostazione simile al precedente masfrutta anche l'informazione campionaria simultanea sulla variabile di osservazione, cio�e

�tjt = E [�t j fy1; y2; :::; yt�1;ytg ; �0] (15)

12vedi Mardia-Kent-Bibby \Multivariate Analysis", Academic press, pag. 62 e succ.

7

Questo stimatore �e direttamente ottenuto tramite l'utilizzo del �ltro di Kalman e permette dicombinare un'aspettativa sulla variabile di stato data proprio dal previsore ex-ante ed un'informazioneaggiuntiva simultanea, yt, ottenuta dai dati campionari.

Comparando i due previsori, si osserva per il primo (def. ex-ante) un caratteristico comportamentosub-ottimale, tipico dell'utilizzo del �ltro di kalman, cosa che in gran parte scompare con il secondoprevisore (def. ex-post).

In particolare nel primo caso, si nota come il previsore ex-ante, segua l'andamento vero dellavariabile di stato, che lavorando in simulazione sar�a nota, adattandosi alla sua dinamica con uncerto ritardo, che generalmente �e limitato all'osservazione successiva. Il previsore ex-post invece,inglobando gi�a l'informazione sull'osservazione campionaria dello stesso periodo, riesce ad adattarsi alcomportamente della variabile di stato con maggiore precisione, eliminando quell'e�etto di shift versodestra.

E' appena il caso di osservare che, se lo scopo �e usare i modelli state-space a �ni previsivi, ovvia-mente si potr�a utilizzare solamente il primo stimatore, ex-ante, richiedendo per il calcolo del secondola conoscenza dell'osservazione campionaria che �e ci�o che si vuole prevedere.

Tuttavia, se il nostro interesse �e rivolto all'utilizzo dei modelli a �ni interpretativi, cio�e ci interessala corretta stima della variabile di stato, e non la sola previsione su quella di osservazione, allora �eproponibile l'utilizzo del secondo tipo di previsore, ex-post.

Inoltre, proprio per questo secondo ambito di utilizzo, si pu�o ottenere una stima sulla variabiledi stato, condizionatamente a tutta l'informazione campionaria. Tale stimatore si de�nisce di smoo-

thing e se ne possono ricavare di vario tipo a seconda dell'intento che si vuole raggiungere. Noici interesseremo dello stimatore di smoothing de�nito a �xed interval, in quanto calcolato per ogniperiodo di osservazione campionaria sulla base di tutta l'informazione disponibile.

Dalla procedura che andiamo a de�nire si otterr�a uno stimatore del tipo:

�tjT = E [�t j fy1; y2; :::; yT g ; �0] (16)

dove si utilizzeranno tutta l'informazione campionaria.Si dimostra13 che la varianza di tale stimatore �e sempre minore o al massimo uguale a quella dello

stimatore ex-post calcolato per la stessa osservazione campionaria, vale a dire sar�a pi�u e�ciente.

L'algoritmo

L'algoritmo proposto14 richiama la procedura ricorsiva gi�a vista per il calcolo del �ltro di kalman,del quale sfrutta anche gli stimatori ex-post ottenuti.

Supponiamo infatti di de�nire con�tjt Ptjt

i corrispondenti stimatori ex-post ottenuti attraverso l'utilizzo del �ltro di kalman, per ogni os-servazione campionaria del periodo considerato, relativamente alla variabile di stato ed alla suavarianza.

Gli stimatori di smoothing corrispondenti si ottengono con un algoritmo ricorsivo che, partendodalla previsione alla data dell'ultima osservazione campionaria, opera a ritroso (bakcward) �no adarrivare alla prima.

Si osservi che per la data dell'ultima osservazione campionaria, si possiede gi�a uno stimatore basatosull'intero campione. Infatti per la de�nizione data di stimatori ex-post, questi saranno

�T jT PT jT (17)

13vedi Harvey ('89) p. 15014vedi Harvey ('81) p. 115 ma anche Gourieroux-Monfort ('95) p. 590.

8

e quindi in concomitanza con l'ultima osservazione campionaria lo stimatore ottenuto direttamentedal �ltro di kalman coincide con lo stimatore di smoothing cercato.

A questo punto si pu�o de�nire un algoritmo ricorsivo che permetta di otterere le altre stime volutecome:

�tjT = �tjt + P �t

��t+1jT �H�t+1jt

PtjT = Ptjt + P �t

�Pt+1jT � Pt+1jt

�P �0t

con P �t = PtjtH

0

P�1t+1jt

(18)

e questo per ogni t = T; � � � ; 1.�E tuttavia il caso di notare che solitamente, almeno nelle prove di simulazione condotte, si ha un

signi�cativo incremento di e�cienza tra l'utilizzo dello stimatore ex-post e quello ex-ante, eliminandol'e�etto di shift verso destra che tipicamente caratterizza il primo stimatore. L'incremento di e�cienzainvece ottenibile passando dallo stimatore ex-post a quello di smoothing �e in generale pi�u contenuto, esi pu�o dire consistere pi�u in una operazione di ri�nitura anzich�e di sostanziale cambiamento nei valoridi stima.

4.5 Square Root Filter

Bisogna osservare come il �ltro di kalman sia una procedure iterativa che richiede un elevato dispendiocomputazionale, specie nelle operazioni numeriche di algebra matriciale che coinvolgono il trattamentoe l'inversione di matrici.

Questo espone la procedura qui presentata ad alcuni problemi in termini di robustezza dei valoriottenuti rispetto ad eventuali errori di arrotondamento. Pu�o infatti succedere che matrici non singolari,specie quelle che rappresentano le componenti di varianza ed in particolare la matrice di varianzacondizionale Pt, appaiano invece tali proprio per problemi di arrotondamento e quindi non possanoessere invertite. Una possibile soluzione consiste nel ricorrere alla matrice pseudoinversa, oppurenell'utilizzare una formulazione dell'algoritmo proposto che non richieda tali inversioni.

L'utilizzo dello Square Root Filter15 riesce ad evitare l'inconveniente operando su di una trasforma-ta della matrice originaria. Proprio per questo si presenta come un miglioramento al �ltro di kalmanfornendo una migliore stabilit�a numerica nelle stime.

Nonostante questo, come si osserva in Harvey (1989), tale tecnica ha riscosso un certo favore inambienti ingegneristici, ma non altrettanto in altri contesti dove i problemi di instabilit�a del �ltronon sono cos�� usuali. In pi�u richiede maggiore sforzo di programmazione e di tempo-macchina percompletare la procedura ricorsiva, e cos�� viene utlizzato solo quando e�ettivamente si riscontrano deiproblemi con l'algoritmo classico.

�E tuttavia da notare, come osservato da Harvey e Phillips16, come tale variante dell'algoritmopossa essere utile nella particolare situazione in cui i regressori esogeni introdotti nel modello sianomolto correlati tra di loro. In questo contesto �e facile che l'algoritmo tradizionale presenti dei problemidi instabilit�a. L'invito che si vuole cogliere �e quindi quello di veri�care prima il grado di correlazionedelle variabili esplicative e procedere di conseguenza.

15vedi Carraro-Sartore, (1987) \Square root iterative �lter:theory and applications to econometrics models", Annalesd'Economie et Statistique, 6-7, pp. 435-459, ma anche Mantovan et al. (2000) pag.34 e succ.

16Harvey e Phillips, 1979, p. 55

9

4.6 Scelta delle condizioni iniziali

Nello stabilire le condizioni iniziali per l'inizializzazione dell'algoritmo ricorsivo, come suggerito inHarvey17 si tende a distinguere due casi: quello in cui il processo che descrive la dinamica per lavariabile di stato �e stazionario, ed il caso in cui non lo sia18.

Se stazionario, il suggerimento che d�a Harvey �e di inizializzare il vettore di stato con la media ela varianza non condizionali del processo, che generalmente si possono ricavare agevolmente una voltanota l'equazione del vettore di stato.

La situazione si complica in presenza di componenti non-stazionarie, come nel nostro caso dove iltrend-stocastico pu�o essere rappresentato da un Random-walk discreto, quindi un AR(1) con una radiceunitaria. Il suggerimento consiste nel de�nire il valore iniziale sulla base delle prime k-osservazioni.In particolare si osserva come la derivazione delle condizioni iniziali possa essere fatta implicitamente,facendo partire la ricorsione un periodo prima, cio�e ad una data fuori campione, (out of sample), t = 0ed imponendo come condizioni iniziali

�0 = 0 P0 = hIk

dove h �e un numero �nito ma su�cientemente grande da approssimare la varianza di una cos�� dettadistribuzione di�usa che, nell'approccio bayesiano, ha un'interpretazione in termini di mancanza com-pleta di informazione su fenomeno. In teoria si dovrebbe richiedere che h tenda all'in�nito, ma nelleapplicazioni reali �e su�ciente che sia \abbastanza" grande anche in riferimento alla numerosit�a cam-pionaria. Si osserva infatti che in questa situazione la dipendenza dai valori iniziali tende a decresceremolto rapidamente. Cosa poi signi�chi \abbastanza" grande �e tuttavia da decidere caso per caso,spesso attraverso simulazione. Infatti, come si osserva in Harvey e Phillips, se h �e troppo grande siha una perdita di precisione nelle stime, a causa di uttuazioni troppo brusche delle stesse sulla basedei valori campionari, mentre se �e troppo piccola si ha una velocit�a di convergenza dello stimatore alvero valore del parametro molto lenta.

Per le condizioni iniziali di eventuali coe�cienti �ssi inclusi nel modello19, Harvey e Phillips (1979)propongono di usare lo stimatore OLS basato sulle prime k osservazioni campionarie (dove si assumeche i coe�cienti non noti siano k), e quindi sull'utilizzo di una matrice di variabili esogene quadrataXk che contenga le prime k osservazoni campionarie per ognuna delle k variabili esogene, cio�e:

�k =�X 0kXk

��1X 0kYk = X�1

k Yk

Tuttavia si sottolinea come, ancora una volta, questo possa essere fatto fuori-campione al tempot = 0, imponendo un valore iniziale nullo ed una matrice di covarianza di�usa, P0 = hIk.

Vi �e solamente da considerare che, comunque si decida di operare, le prime k osservazioni utilizzatedirettamente o indirettamente per inizializzare il �ltro non dovranno essere utilizzate nuovamente perstimare le componenti di varianza attraverso la funzione di verosimiglianza, e quindi i corrispondentiprediction errors relativi a quelle osservazioni andranno accantonati.

17Harvey (1981) pp. 113 e succ. Una speci�cazione alternativa delle condizioni iniziali �e presentata in Mantovan et al.(2000) pag. 48-49, dove si suggerisce di utilizzare la formulazione del �ltro di kalman in termini di �ltro informazione

almeno per le prime ricorsioni dell'algoritmo, al �ne di evitare i problemi di inversione tipici derivanti dal supporre unadistribuzione di�usa.

18L'approccio seguito �e in parte diverso da quello proposto da chi utilizza il �ltro di Kalman all'interno di unaimpostazione pi�u propriamente bayesiana all'inferenza. In tal caso infatti le distribuzioni iniziali vengono ad assumere ilsigni�cato di conoscenza ex-ante sulla variabile di stato e potranno a ragione, quando il livello informativo a priori siasu�ciente, essere determinate condizionatamente a quest'ultimo. Vedi in particolare Mantovan et al. (2000) pag. 48 esucc.

19vedi pi�u avanti per la trattazione del caso in cui nel modello si includano variabili esogene con coe�cienti �ssi.

10

5 Stima delle varianze

L'algoritmo �n qui usato presuppone di conoscere le matrici di varianza-covarianza sia per gli erroridi sistema, sia per quelli di osservazione, presupposto che di�cilmente �e veri�cato in pratica.

Sono stati proposti diversi metodi per stimare anche questi ulteriori parametri non noti, e qui sipresenter�a il metodo che storicamente sembra trovare un maggior utilizzo e che si basa sulla stima dimassima verosimiglianza.

Resta da osservare che tale approccio �e stato in parte criticato in quanto presuppone di fondere ledue prospettive: da un lato l'utilizzo del �ltro di kalman in termini ricorsivi, aggiornando la stima adogni istante temporale, e condizionali rispetto ai parametri \a contorno", (tipicamente le varianze deiresidui e la matrice di transizione), dall'altro l'approccio basato sulla funzione di verosimiglianza cheinvece richiede ancora l'utilizzo congiunto dell'intero vettore di osservazioni e quindi tradisce in partela logica di impostazione �n qui seguita.

Esistono in letteratura delle proposte che cercano di risolvere il problema, particolarmente impor-tante in quelle applicazioni che prevedono una notevole mole di osservazioni campionarie spesso adelevata frequenza temporale, tipiche ad esempio per problemi di monitoraggio ambientale, e che sibasano su metodi ricorsivi anche per la stima delle matrici di varianza20

5.1 Stima di massima verosimiglianza

Nel modello proposto le osservazioni non sono di fatto indipendenti, venendo a dipendere dal vettoredi stato che viene aggiornato ad ogni istante temporale. Questo comporta che la derivazione dellafunzione di verosimiglianza sar�a ricavata attraverso scomposizione delle distribuzioni condizionate,cio�e:

f(YT ) =TYt=1

f(yt j Yt�1; �0) (19)

dove si indica con YT tutto il vettore di osservazioni campionarie, con �0 l'usuale condizioneiniziale, e con Yt�1 si intende tutta l'informazione campionaria disponibile �no alla data t� 1, quindify1; y2; :::; yt�1g.

Supponendo che tali densit�a condizionate siano caratterizzate compiutamente dai primi due mo-menti, cosa vera assumendo la condizione di normalit�a per entrambe le componenti di disturbo, �eimmediato notare come queste quantit�a siano fornite direttamente dal �ltro di kalman (si vedano leequazioni (3)(4)(7)(8) ) e quindi possano essere direttamente utilizzate per la derivazione dell'erroredi previone.

5.1.1 Errori di Previsione

Indichiamo l'errore di previsione (prediction error) con il simbolo vtjt�1, intendendo la variabilealeatoria:

vtjt�1 = yt � ytjt�1

L'errore di previsione �e quindi, valutato in termini ex-post, l'errore che abbiamo commesso nelprevedere una determinata osservazione campionaria, prevista sulla base delle osservazioni passate, edin termini ex-ante una variabile casuale che dipende a sua volta dalle caratteristiche aleatorie dellastessa variabile di osservazione.

20si veda in particolare Mantovan et al. (2000) pag. 53.

11

�E agevole dimostrare che, avendo scelto come previsore ottimale sulla variabile di osservazione il suovalor medio condizionato alle osserazioni passate, il valore atteso condizionato dell'errore di previsionesar�a nullo, mentre la sua varianza condizionale coincide con la varianza condizionale dell'osservazionecampionaria.

� Etjt�1[vtjt�1] = 0

� V artjt�1[vtjt�1] = Ftjt�1

�E importante notare che le quantit�a coinvolte sono tutte determinabili attraverso l'utilizzo del �ltrodi kalman, quindi da considerarsi come quantit�a note e pertanto utilizzabili direttamente nell'esprimerela funzione di verosimiglianza.

5.1.2 Funzione di Verosimiglianza

A questo punto �e possibile scrivere l'espressione della verosimiglianza prima per un osservazionecampionaria, e poi per l'intero campione.

Per l'osservazione campionaria ytjt�1 la sua distribuzione condizionata alle osservazioni passate,supponendone la condizione di normalit�a, sar�a:

f(yt j y1; y2; :::; yt�1) =1q

(2�)Ftjt�1

exp

(�1

2

(yt � ytjt�1)2

Ftjt�1

)(20)

che espressa in termini di prediction error diventa:

f(yt j y1; y2; :::; yt�1) =1q

(2�)Ftjt�1

exp

(�1

2

(vtjt�1)2

Ftjt�1

)(21)

Passando quindi alla log-verosomiglianza otteniamo:

log f(yt j y1; y2; :::; yt�1) = �1

2log 2� �

1

2log Ftjt�1 �

1

2

(vtjt�1)2

Ftjt�1(22)

Da notare come nella precedente espressione si fa implicitamente l'ipotesi che la variabile di osser-vazione sia di dimensione unitaria, e quindi la sua varianza Ftjt�1 uno scalare, altrimenti si sarebbedovuta utilizzare l'espressione della densit�a di una normale multivariata.

5.1.3 Rispetto all'intero campione

Abbiamo gi�a scomposto la verosimiglianza dell'intero campione, tralasciando la condizione iniziale,come:

f(YT ) =TYt=1

f(yt j Yt�1) (23)

attraverso una fattorizzazione che utilizzi le probabilit�a condizionate. Passando alla log-verosimiglianzaotteniamo:

log f(YT ) =TXt=1

log f(yt j Yt�1) (24)

12

e quindi supponendo la normalit�a delle distribuzioni condizionate:

log f(YT ) = �T

2log(2�)�

1

2

TXt=1

log Ftjt�1 +

(vtjt�1)2

Ftjt�1

!(25)

Trascurando i coe�cienti che non ci interessano perch�e inin uenti nel problema di massimizzazione,otteniamo:

log f(YT ) � �TXt=1

log Ftjt�1 +

(vtjt�1)2

Ftjt�1

!(26)

dove tuttavia sar�a necessario, al �ne di disporre dei valori per l'errore di previsione vtjt�1 e per

la varianza condizionale Ftjt�1, calcolare quelle quantit�a utilizzando l'algoritmo di Kalman, per ognivalore di t 2 [1; T ]. Si noti tuttavia che tale algoritmo pu�o essere utilizzato solo condizionatamenteai valori delle matrici di varianza, e quindi la procedura dovr�a necessariamente essere utilizzata ricor-sivamente, prima supponendo un certo valore per le matrici di varianza, quindi utilizzando il �ltroper derivare gli errori di previsione, ed in�ne veri�cando se tali valori massimizzano l'espressione diverosimiglianza e cos�� via �no a convergenza.

5.2 Ottimizzazione Numerica

Non avendo la soluzione in forma chiusa per l'equazione (26), sar�a necessario procedere ad un'otti-mizzazione per via numerica.

Per fare questo �e opportuno disporre due vettori V e F che rappresentino gli errori di previsionee la varianza condizionata di tali errori per tutte le osservazioni campionarie.

Aggregandoli opportunamente �e possibile ottenere un nuovo vettore L che rappresenti per ogniosservazione campionaria il valore interno della sommatoria dell'equazione (26), cio�e la componentet-esima sar�a rappresentata come:

L(t) = logF (t) +V (t)2

F (t)

ed anzich�e calcolare la sommatoria della ( 26) che numericamente �e dispendiosa, coinvolgendoun loop sequenziale, si ottiene lo stesso risultato con un prodotto interno vettoriale che permette diottenere direttamente la quantit�a da massimizzare come:

log f(yT ) = � [ 1T ]

264 L

375

A questo punto si pu�o utilizzare un opportuno algoritmo numerico di ottimizzazione. Questituttavia ricercano generalmente il minimo di una data funzione e quindi si dovr�a utilizzare l'oppostodella funzione di verosimiglianza sopra scritta.

Solo alcune parole per ricordare come esistano diversi algoritmi in letteratura21, che di�erisconosulla base dell'accuratezza nel calcolo, nella capacit�a di ottenere una soluzione per funzioni pi�u o menoregolari, nella pesantezza degli algoritmi numerici coinvolti.

Generalmente si ricorre al ben noto algoritmo di Newton o a sue varianti (es. Quasi NewtonMethods o BFGS). La sua notevole e�cienza si scontra tuttavia con l'incapacit�a di ottimizzare funzioninon continue, come sembra, da simulazioni e�ettuate, nel caso considerato.

21si veda come esempio Greene ('97) pp. 198 e succ.

13

Si �e quindi ricorsi ad un secondo algoritmo22, de�nito Simplex search method, meno e�ciente delprecedente, ma capace di a�rontare anche discontinuit�a pi�u o meno ampie, specie se non troppo vicinealla soluzione.

�E da ricordare come comunque tutti questi metodi raggiungano solamente soluzioni locali, quindiandr�a veri�cato, modi�cando i valori iniziali dell'algoritmo, se la soluzione trovata �e anche punto diottimo globale.

Ancora, si sono considerati solamente algoritmi di ricerca numerica non vincolata, mentre alcuniparametri nella verosimiglianza hanno un dominio ristretto (si pensi ad esempio al valore delle varianzache deve essere positivo). Si potrebbe quindi ricorrere ad una ottimizzazione vincolata, che tuttavia �epi�u onerosa numericamente e sensibile ad irregolarit�a nella funzione obiettivo.

Si �e cercato di aggirare il problema, passando alla funzione da massimizzare sempre valori liberida vincoli, lasciando poi che fosse quest'ultima a trattarli opportunamente. Cos��, invece di passareil valore dei parametri per la varianza, si introduce in input per la funzione di verosimiglianza, ilvalore dello scarto quadratico medio, lasciando che sia poi la funzione stessa ad utilizzare non il valorepassato direttamente, ma il suo quadrato.

Si �e fatto largo uso della libreria di ottimizzazione di Matlab 5:2, che presenta notevole essibilit�aed e�cienza23.

5.3 Tecniche per concentrare la ML

Si �e gi�a osservato come la massimizzazione numerica della funzione di verosimiglianza per l'ottenimentodelle stime sulle varianze non sia agevole a causa di possibili irregolarit�a nella derivazione della funzionestessa (che dipende dai prediction errors e dalle varianze condizionali ottenute ricorsivamente tramitel'utilizzo del �ltro), e si era proposto di utilizzare algoritmi di massimizzazione numerica adatti ada�rontare anche funzioni irregolari, pagando in generale il prezzo di una minore precisione, ed unacerta pesantezza di calcolo.

Harvey24, evidenziando il problema propone un metodo per \concentrare fuori" dalla funzione diverosimiglianza alcuni parametri (in particolare la varianza dell'errore di osservazione, var(�)), otte-nendo per questi uno stimatore in forma chiusa. I restanti parametri andranno stimati con tecnichenumeriche che massimizzino la verosimiglianza, come nella situazione precedente, dove tuttavia il nu-mero di parametri sar�a ridotto, permettendo in generale una minore laboriosit�a di calcolo. I parametriche rimangono nella funzione di verosimiglianza saranno conseguentemente espressi in termini relativirispetto al parametro gi�a stimato ed usato come coe�ciente di scala.

Si riformuli il modello in modo che le varianze dei disturbi siano espresse rispetto un fattore discala �2. Generalmente tale fattore sar�a considerato la stessa varianza di �, che �e usata quindi comenumerario per il sistema.

Date le precedenti varianze del sistema:(var(�) = Q

var(�) = R(27)

si ride�niscano sulla base di quel fattore di scala come:(var(�) = �2Q?

var(�) = �2R? (28)

22vedi J.A.Nelder and R. Mead, \A Simplex Method for Function Minimization", Computer journal, Vol 7, pp. 308-313.23the MatWork Inc., \Matlab:Optimization Toolbox. User's Guide", ver. 5, 199724vedi Harvey ('89) pp.125 e succ.

14

e scegliendo var(�) come numerario otteniamo:

�2 = var(�) e R? � 1 (29)

In questo modo il �ltro pu�o essere utilizzato senza ulteriori modi�cazioni, mantenendo per�o comeriferimento le varianze relative Q? e R?.

Analogamente i prediction errors vengono ad avere una varianza proporzionale a quel fattore discala25 cio�e:

var(vt) = �2f?t

e questo permetter�a di riscrivere l'equazione di verosimiglianza evidenziando separatamente il coe�-ciente di scala.

Questa, sostituendo la formula (25), calcolata gi�a rispetto all'intero campione, diventa26:

logL(Yt) = �T

2log 2� �

T

2log �2 �

1

2

TXt=1

log f?t �1

2�2

TXt=1

v2tf?t

(30)

dove �2 �e il fattore di scala e vt e f?t sono rispettivamente i prediction errors e le loro varianzecondizionali (relative) prodotte dal �ltro di kalman, fatto operare tuttavia rispetto alle varianze relativeQ? e R? (quest'ultima identicamente unitaria avendo scelto var(�) come numerario, cio�e R? � 1).

Ora, al posto di massimizzare l'espressione precedente simultaneamente rispetto a tutti i parametrinon noti, �e facile ricavare la derivata parziale rispetto al parametro �2, ed imponendo la condizione dinullit�a ottenere il corrispondente stimatore di massima verosimiglianza. Sar�a:

@logL(Yt)

@�2= �

T

2�2+

1

2(�2)2

TXt=1

v2tf?t

ed imponendo la condizione di nullit�a otteniamo:

�2ML =1

T

TXt=1

v2tf?t

(31)

Tale stimatore costituisce il punto di ottimo nella massimizzazione della funizione di verosimiglinza(30) e quindi potremo scrivere la verosimiglianza concentrata rispetto ai restanti parametri non noticome:

logL(Yt) = �T

2log 2� �

T

2log(�2ML)�

1

2

TXt=1

log f?t �1

2(�2ML)

TXt=1

v2tf?t

e sostituendo l'espressione dello stimatore (31) e tralasciando i termini costanti, otteniamo una cor-rispondente funzione proporzionale a quella di verosimiglianza concentrata rispetto ai parametri nonnoti come:

logL(Yt) � �T log(�2ML)�TXt=1

log f?t (32)

la quale andr�a massimizzata per via numerica, condizionatamente al valore esatto ottenuto per lostmatore di �.

25vedi Harvey ('81) p. 108.26vedi Harvey ('89) p. 126

15

Una volta ottenuti i valori di stima per �2ML e gli altri parametri non noti nel modello, tipicamentela varianza relativa ai disturbi di stato Q?

ML, si potr�a risalire ai parametri originari attraverso letrasformazioni:

QML = �2MLQ?ML RML = �2ML

La procedura proposta da Harvey �e sicuramente ingegnosa e permette di essere meno vincolatiall'utilizzo di algoritmi numerici per ottenere le stime di massima verosimiglianza.

Oltre ad abbassare la dimensione del problema di stima, permettendo di risalire alla forma chiusadi almeno un parametro non noto, che noi abbiamo scelto come la varianza degli errori di osservazionevar(�), permette di velocizzare anche il computo numerico del �ltro di kalman in quanto questo vieneutilizzato con valore unitario per la varianza relativa Rr = 1.

Da varie prove condotte tuttavia non traspare un cos�� evidente miglioramento nella bont�a dellestime ottenute rispetto ad un approccio pi�u rozzo basato direttamente sull'ottimizzazione numericadell'equazione di verosimiglianza.

Infatti sembra che per numerosit�a campionarie non elevate, �no cio�e almeno a 100 osservazioni, ilpeso computazionale dei due approcci sembra identico, e cos�� pure la bont�a delle stime ottenute.

Speci�catamente per l'e�cienza delle stime ottenute, bisogna in�ne ricordare che lo stimatoreproposto da Harvey per la stima di quel coe�ciente di scala �2 �e di verosimiglianza e quindi non visono garanzie della sua correttezza ed e�cienza in campioni a numerosit�a limitata (anzi da simulazioniMonte Carlo condotte27 sembra abbastanza evidente che tale stimatore sia tipicamente distorto versoil basso, sottostimando sistematicamente il valore vero).

Il vantaggio di questo approccio va dunque ricercato all'aumentare del numero di parametri dastimare, ed in tal caso dovrebbe rivelarsi pi�u signi�cativo.

5.4 Prove di simulazione MC

Seguono i risultati di alcune simulazioni Monte Carlo condotte per veri�care la bont�a, per campionidi numerosit�a �nita, delle tecniche di stima della varianza proposta da Harvey.

Grosso modo sembra che non vi sia una di�erenza notevole rispetto all'utilizzare un metodo pi�u\grossolano" basato sulla semplice e diretta massimizzazione numerica della verosimiglianza rispettoai parametri non noti.

Simulazione MC 5.1 In questo primo esempio si sono volute veri�care solamente le caratteristichedi bont�a dello stimatore del coe�ciente di scala �2 proposto da Harvey28.

Cio�e si �e stimato tale valore condizionatamente alla conoscenza di tutti gli altri parametri del

modello, al �ne di evitare che un valore di stima per questi ultimi compromettesse il risultato della

prova.

Quindi, condizionatamente alla conoscenza del vero valore per la varianze degli errori di sistema,

ed anche dei veri valori iniziali per l'inizializzazione del �ltro, e della corretta struttura del modello,

si �e stimato quel coe�ciente di scala �2, considerato uguale alla varianza degli errori di osservazione,

var(�).Il campione utilizzato aveva numerosit�a pari a 100 ed il numero di replicazioni per le prove Monte

Carlo �e stato di 300. I risultati di stima sono quelli evidenziati dal seguente istogramma (�gura (2)).

Il vero valore per �2 si era imposto pari a 10.

27vedi pi�u avanti per alcuni istogrammi di esempio delle prove fatte.28vedi equazione (31).

16

Figura 2: stime di �2

Sembra innegabile che tale stimatore sia distorto verso il basso, avendo un valor medio campiona-

rio vicino a 7:5, quindi con uno scarto di circa un 25% rispetto al valore vero. �E da supporre che tale

distorsione sia funzione della numerosit�a campionaria e quindi progressivamente diminuisca all'au-

mentare della dimensione del campione, al �ne di ottenere uno stimatore asintoticamente corretto, in

quanto stimatore di verosimiglianza.

Simulazione MC 5.2 Quindi si �e utilizzato la procedura completa di stima sia per �2 che per lavarianza dell'errore di sistema var(�), ottenendo i valori della �gura seguente (�gura (3)).

La numerosit�a campionaria rimane di 100 ed il numero di replicazioni pari a 300. Il vero valore

delle varianze �e 100 per entrambe.

Figura 3: stime varianze congiunte

Ancora si osserva come in generale si ottengono degli stimatori distorti verso il basso, anche se lo

stimatore per la varianza di � sembra pi�u interessato da questo problema.

Tuttavia �e iteressante notare anche il livello di correlazione empirica tra le stime prodotte per

le rispettive varianze, indicato dal prossimo gra�co in cui ogni punto rappresenta la coppia di stime

ottenute su di un determinato campione di 100 osservazioni (�gura (4)).

17

Si evidenzia una certa correlazione negativa tra i valori di stima ottenuti e questo �e indice diun e�etto di compensazione che si attiva nell'algoritmo di stima proposto. Cos�� ad un valore si

sovrastima per la varianza di � se ne accompagna uno di sottostima per quella di �, e viceversa.

Figura 4: Correlazione tra stime della varianza

Probabilmente tale fenomeno di compensazione nella stima dei parametri \a controno" nel modello

state-space, �e da considerarsi in termini positivi, permettendo di rimuovere parte della distorsione

dovuta alla stima della varianza e di ottenere comunque valori di previsione sulla variabile di statoconsistenti con quelli reali.

6 Stima dei coe�cienti �ssi

Supponiamo di voler aggiungere al modello state-space �n qui usato, un certo numero di variabiliesogene e dei corrispondenti coe�cienti �ssi. Il modello di riferimento a questo punto diventer�a:

(�t = T�t�1 + �t

yt = z0t�t + x0t� + �t(33)

dove xt rappresenta un vettore di variabili esogene incluse nel modello, e � i relativi coe�cienti, mentre�t sar�a la consueta variabile di stato e yt quella di osservazione. Anche la matrice di transizione Tsar�a assunta nota e con una formulazione che dipender�a dalle caratteristiche del trend stocastico cheabbiamo deciso di includere nel modello; nella formulazione pi�u semplice sar�a T � 1 per un trendsviluppato in termini di random walk.

In questo modo il valore attuale della variabile risposta yt non �e pi�u dipendente solamente dallacondizione assunta dalla variabile di stato, ma viene ad essere in uenzata anche da quell'insieme divariabili esogene, attraverso i coe�cienti �ssi. �E una sorta di modello misto, con una componentestatica ed una dinamica.

Tale formulazione risulta vantaggiosa ed intuitiva in molte situazioni, non ultima l'aggiunta di untrend stocastico ad un usuale modello di regressione come viene fatto nell'articolo di Harvey29.

29Harvey et al.(1986)

18

L'approccio che si �e seguito consiste proprio nel proporre l'inclusione di un trend stocastico qualegeneralizzazione dell'usuale modello di regressione, e questo in conseguenza a considerazioni di naturasia empirica, legate all'evidente dinamica della variabile di osservazione, e sia teorica, dove la variabilelatente di trend dovr�a poter essere in qualche modo giusti�cata.

Secondo tale impostazione la teoria sottostante al fenomeno studiato potrebbe non essere ta-le da giusti�care anche l'inclusione dei coe�cienti �ssi nella variabile di stato, rendendo il modellocompletamente dinamico, preferendo quindi mantenerli costanti per tutto il periodo di osservazione.

Tuttavia, proprio il coniugare la presenza di una componente statica con una variabile di statodinamica, richiama alcune di�colt�a operative nell'ottenere la conseguente stima per tutti i parametridel modello.

Esistono diversi approcci al problema, che vanno dalla possibilit�a di utilizzare la stessa funzionedi verosimiglianza per stimare congiuntamente le varianze ed i coe�cienti �ssi, all'approccio tramitestimatore GLS, all'utilizzo dello stesso �ltro di Kalman in una sua versione estesa.

� Approccio tramite verosimiglianza

Per la stima tramite verosimiglianza30 basta riprendere quanto detto nella sezione precedente.Sar�a opportuno costatare tuttavia che, all'aumentare il numero di regressori esogeni, anche ilcorrispondente numero di coe�cienti aumenter�a e quindi il numero di parametri da stimareattraverso ottimizzazione numerica della funzione di verosimiglianza. Questo comporta chel'accuratezza dei risultati ottenuti, se non proprio la capacit�a di ottenere dei massimi globali,diventa un serio problema non appena il numero di coe�cienti aumenta.

� Approccio tramite stimatore GLS

Un approccio in parte diverso e basato su di una estensione dello stimatore GLS, viene riportatoda Harvey31. Tale metodo consiste nell'organizzare il modello state-space in termini di modellidi regressione statico con disturbi autocorrelati, in questo modo:

(yt = x0t� + utut = z0t�t + �t

Otteniamo cio�e una formulazione in termini di modello lineare con una componente di errorecon una struttura pi�u complessa. In particolare, attraverso alcuni passaggi ed utilizzando unanotazione vettoriale, sar�a:

E(u) = 0 V ar(u) = V

con V una opportuna matrice di varianza simmetrica e de�nita positiva.

Enfatizzando tale formulazione del modello come lineare con errori non sferici, si rende opportunoutilizzare lo stimatore dei minimi quadrati generalizzati (GLS) per �, cio�e:

�GLS = (X 0V �1X)�1X 0V �1y

che, in tali circostanze, gode delle caratteristiche di ottimalit�a nella classe degli stimatori linearie corretti.

30vedi Harvey ('81) pag.31Harvey (1989) pp. 130 e succ. ma tale stimatore era gi�a stato considerato nell'articolo di Harvey and Phillips, 1979.

19

Il problema in questo caso consiste nello stimare quella matrice di varianza-covarianza V cherisulta non nota. A tal proposito nell'articolo di Harvey e Phillips32 si dimostra come talestimatore possa essere ottenuto direttamente dal �ltro di Kalman, in quanto questo permettedi ottenere automaticamente la trasformazione sulle variabili originarie necessaria per ottenerenuovamente disturbi sferici.

� Augmented Kalman Filter

Un ulteriore proposta per la stima dei coe�cienti �ssi consiste nell'utilizzare una formulazioneestesa del �ltro di kalman, includendo anche quei coe�cienti nella variabile di stato. Tale pro-posta33 consente di de�nire cio�e che �e stato chiamato Augmented Kalman Filter e pi�u avantisi indicher�a la procedura completa di stima. Si sottolinea come tale approccio si avvicini mag-giormente all'interpretazione in termini bayesiani del modello lineare anche se, come vedremo,questo costituir�a solo un passaggio intermedio in un processo di stima pi�u ampio.

6.1 Augmented Kalman �lter

L'idea consiste nell'utilizzare il �ltro di kalman non solamente per la stima della componente di trendstocastico, ma anche per quella dei coe�cienti �ssi inclusi nel modello. In generale infatti �e possibileincludere quelli stessi coe�cienti nella variabile di stato dinamica formulando in modello nel seguentemodo:

8>>>>>><>>>>>>:

"�

�t

#=

"Ik 00 T

# "�

�t�1

#+

"0�t

#

yt =hx0t z0t

i " �

�t

#+ �t

(34)

Avendo quindi riscritto il modello state-space in una formulazione completamente dinamica, po-tremo pervenire, attraverso il �ltro di kalman che in tale situazione prende il nome di Augmented

Kalman Filter, ad una stima congiunta sia per il trend stocastico, sia per i coe�cienti �ssi. Il �ltropotr�a essere inizializzato seguendo le indicazione date nella sezione precedente.

Si presenta un esempio di come tale procedura si comporti in simulazione (vedi �gura (5)).Come si pu�o notare nell'esempio proposto, il valore stimato dei coe�cienti �ssi (gra�ci a destra),

salvo una prima fase iniziale di elevate oscillazioni, converge quindi molto velocemente al valore vero(linee verticali), e tale convergenza �e via via pi�u elevata all'aumentare della numerosit�a campionaria.

�E importante tuttavia notare come tale approccio sia ottimale se l'intento di utilizzo del modello�e per �nalit�a previsive, ma debba essere necessariamente migliorato se l'obiettivo dell'analisi �e di tipointerpretativo.

Infatti, se l'obiettivo �e ottenere la migliore stima possibile per i coe�cienti �ssi �, questa sar�arealizzata solo in corrispondenza dell'ultima osservazione campionaria. Tuttavia, la stima della va-riabile di trend stocastico si �e ottenuta nel corso della procedura di stima congiunta, per valori di �tin date intermedie del campione, prima cio�e che fosse ottenuta una su�ciente convergenza, e quindirisulter�a palesemente distorta (come �e evidente sempre nell'esempio proposto (gra�co a sinistra) speciein corrispondenza delle prime osservazioni campionarie).

La soluzione proposta da Harvey e richiamata anche in Gourieroux-Monfort34 �e quella di una

32Harvey and Phillips, 197933Harvey et al. (1986)34Gourieroux-Monfort (1995) p. 618

20

Figura 5: Stima del trend stocastico e di tre coe�cienti �ssi in un modello lineare tramite AugmentedKalman �lter.

procedura a due passi. In un primo stadio si stimano congiuntamente i coe�cienti �ssi del modello ed iltrend stocastico, includendo entrambi nella variabile di stato. In un secondo stadio, condizionatamenteall'ultimo valore di stima per i coe�cienti del modello, cio�e �T , si ritorna a stimare il trend stocastico,rimasto ormai l'unico valore ignoto della variabile di stato. Eventualmente si potrebbe migliorare laqualit�a del �ltro anche attraverso apposite tecniche di smoothing.

Supponiamo quindi di �ssare le stime ottenute per i coe�cienti �ssi �T inclusi nella variabile distato. Possiamo riscrivere il modello, condizionatamente al valore di stima ottenuto, come:

(�t = T�t�1 + �t

yt � x0t�T = z0t�t + �t(35)

ottenendo cos�� una nuova variabile dipendente come di�erenza tra le precedenti osservazioni ed ilprodotto tra le variabili esogenee e l'ultima stima sui coe�cienti �ssi. In questo modo il modello vienead ammettere come variabile di stato �t solamente la componente di trend stocastico, la quale potr�aessere stimata attraverso un nuovo utilizzo del �ltro di kalman.

Si riporta la stima ad un secondo passo del trend stocastoco nell'esempio sopra visto, condizio-natamente all'ultimo valore di stima per i coe�cienti �ssi (vedi �gura (6)). Come si pu�o vedere �estata corretta la notevole distorsione prima presente, specialmente in corrispondenza dei primi valoricampionari, permettendo un aumento di e�cienza nella capacit�a di ricostruire questa variabile latente.

Resta da notare che la procedura a due stadi qui descritta, dovr�a essere ampliata con l'aggiuntadi un ulteriore passaggio, da compiersi come primo step, necessario per la stima delle varianze deglierrori di sistema e di osservazione necessarie per le fasi successive.

6.2 Varianza degli stimatori ottenuti

Accanto ai valori di stima per i coe�cienti del modello, siamo interessati alla possibilit�a di ottenereuna quanti�cazione dell'errore medio che possiamo commettere, cio�e dell'a�dabilit�a delle stime cos��

21

Figura 6: Stima del vettore di stato, cio�e il solo trend stocastico, in un modello ridotto,condizionatamente alle stime ottenute sui coe�cienti �ssi al passo precedente.

ottenute. Questo sar�a alla base di possibili estensioni del problema inferenziale quali la stima perintervalli di con�denza, e soprattutto, la veri�ca di ipotesi parametriche.

Si vuole quindi quanti�care la varianza degli stimatori proposti per i coe�cienti �ssi del modello,fondamentale per poter esprimere un giudizio di signi�cativit�a sugli stessi parametri e poter, pi�u ingenerale procedere, alla valutazione della corretta speci�cazione del modello.

Esistono diverse possibilit�a indicate in letteratura, ognuna delle quali basata su di un approcciodiverso e che solo asintoticamente garantiscono il medesimo risultato.

� std. error delle stime basato sull'analisi spettrale

Questo metodo �e stato utilizzato da Harvey nel suo articolo del 1986, e sfrutta la trasformazionedelle osservazioni campionarie rispetto al dominio delle frequenze, anzich�e quello temporale. Laformula utilizzata viene ottenuta in termini asintotici ed �e spiegata nel dettaglio in Harvey ePeter (1984).

Bisogna notare che sembra tuttavia quantomeno inusuale ottenere la stima delle varianze inquesto modo, se non altro perch�e esistono metodo pi�u semplici, altrettanto e�cienti e soprattuttodi immediata applicabilit�a.

� std. error delle stime basato sulla funzione di verosimiglianza

Una logica derivazione dello standard error per le stime ottenute deriva dalla funzione di vero-simiglianza. Gli stimatori di massima verosimiglianza godono infatti dell'apprezzabile propriet�adi convergere asintoticamente ad una distribuzione normale, centrata sul parametro di interessee con varianza pari all'inversa della matrice di informazione di Fisher, I(�), caratterizzandosiquindi come stimatore pienamente e�ciente.

22

Tale quantit�a pu�o quindi essere derivata a seconda dei casi analiticamente o numericamente: �ecio�e calcolabile in qualche modo una volta nota la funzione di varosimiglianza. Harvey stesso35

suggerisce un modo per approssimarla36.

L'osservazione che qui si pu�o fare �e basata sul fatto che diventa naturale procedere alla stimadella varianza in questo modo, qualora si sia scelto di stimare anche i coe�cienti �ssi inclusinel modello tramite funzione di verosimiglianza, e quindi si ripresentano i problemi operativi,dovuti alla di�colt�a di massimizzazione numerica, gi�a presentati precedentemente.

� std. error come stimatore GLS

Abbiamo gi�a visto come si possa riformulare il modello come un semplice modello di regressionecon regressori esogeni e disturbi eteroschedastici che seguono una particolare dinamica. In questasituazione una stima e�ciente per i coe�cienti inclusi nel modello pu�o essere ottenuta come ilmetodo della distanza minima pesata (GLS).

Se ottenute in questo modo la varianza delle stime sar�a data dalla ben nota equazione:

�(X 0V �1X)�1

dove la matrice X indica le osservazioni per i regressori esogeni e la matrice V una opportunamatrice di pesi, inversamente proporzionale alla varianza dei rispettivi disturbi nell'equazione diosservazione.

Gi�a precedente si �e osservato come tale matrice di varianze-covarianze V pu�o essere ottenutadirettamente dal �ltro di kalman.

� Std. error ottenuto dal �ltro di kalman

Uno dei possibili modi di ottenere una stima appropriata dei coe�cienti �ssi �e quello basatosulla riformulazione del modello in termini di Augmented Kalman �lter, cio�e includendo icoe�cienti nella variabile di stato insieme al trend stocastico, e quindi procedendo ad ottenereun valore di stima ricorsivo attraverso il �ltro di kalman.

In tale situazione sar�a il �ltro stesso a fornirci, conguintamente alla stima della variabile distato, anche una della varianza, aggiornata ad ogni istante temporale. Infatti, la matrice Ptjtottenuta direttamente dal �ltro �e, per de�nizione, proprio l'errore quadratico medio delle stimesulla variabile di stato, cio�e:

Ptjt = E[(�t � �tjt)2]

che corrisponde quindi a quanto cercato.

Una delle critiche che si possono sollevare a tale metodo si basa sull'osservazione che i valori distima ottenuti per le varianze, al pari tuttavia di quelle per la variabile di stato, sono dipendentidalle condizioni iniziali, ed in particolare dalla matrice di varianza condizionale P0.

Precedentemente si era suggerito di assegnare a questa matrice un valore \su�cientemente ele-vato", compatibilmente con i limiti di calcolo dell'elaboratore, per approssimare una cos�� dettadistribuzione di�usa, ovvero la mancanza di informazioni iniziali.

35Harvey (1989) pp. 128 e succ.36vedi anche Azzalini ('96) \Statistical Inference", Chapman & Hall, pp. 91 e succ. per una discussione su quale

stimatore utilizzare per la matrice di informazione attesa di Fisher, se cio�e l'observed Fisher information oppure l'expectedFisher information sostituendo al parametro il suo valore di stima di ML.

23

Una volta inizializzato il �ltro, la speranza �e che venga rapidamente persa la dipendenza dalvalore iniziale, in modo da ottenere un risultato quanto pi�u \oggettivo" possibile. Tuttavia, acausa dei limiti computazionali sopra accennati, che portano comunque P0 ad essere un numerogrande ma �nito, e della spesso non elevata numerosit�a campionaria, non si pu�o escludere chetale valore abbia una qualche incidenza sulle stime ottenute.

Da alcune prove di simulazione e�ettuate su campioni di numerosit�a ridotta sembra tuttaviache problema sia del tutto marginale, in quanto la dipendenza dal valore iniziale si riduce moltovelocemnte. �E spesso utile in questi casi realizzare un gra�co dei valori successivi di stima per lavarianza Pt, in modo da veri�care se si sia raggiunto un valore di relativa stabilit�a; in particolaresi potr�a osservare un gra�co abbastanza tipico che vede prima una brusca diminuzione dei valoridi varianza, per poi stabilizzarsi in corrispondenza di una numerosit�a campinaria su�cientementeelevata, continuando tuttavia sempre a diminuire.

Il comportamento descritto �e evidenziato dal seguente gra�co (7) che riporta la varianza dellestime ottenute con il �tro di kalman per il modello simulato composto da un trend stocasticodi tipo random-walke 3 coe�cienti �ssi. �E evidente in particolare come la varianza decresca inmodo brusco in corrispondenza delle prime osservazioni campionarie.

Figura 7: std. error della stima del vettore di stato

7 Procedura completa di stima: approccio a tre stadi

Presentiamo ora la procedura completa di stima in un modello complesso che includa una componentedi trend stocastico, ed una serie di regressori �ssi con i relativi coe�cienti.

Brevemente si accenna al fatto che si tratta di una procedura a pi�u stadi, ognuno dei quali teso astimare una particolare componente del modello mentre, quelli successivi, operano rispetto a questain modo condizionale. La stima della varianza viene fatta per mezzo di un approccio basato sullostimatore di massima verosimiglianza, mentre la stima dei coe�cienti �ssi del modello viene ottenutaattraverso la formulazione dello stesso come Augmented Kalman Filter.

Il modello utilizzato come riferimento �e stato gi�a presentato e viene qui richiamato per semplicit�a:

(�t = T�t�1 + �t

yt = z0t�t + x0t� + �t

24

dove xt rappresenta un vettore di k regressori esogeni, e � i relativi coe�cienti, mentre �t �e la variabilerappresentante il trend stocastico e yt quella di osservazione. La matrice T si assume nota e dipendentedalla struttura di trend scelto, come pure la dimensione della variabile �t.

In sintesi:

1. Stima della Varianza dei disturbi di sistema e di osservazione

Prima di tutto si riformula il modello nella forma di Augmented Kalman �lter includendo icoe�cienti �ssi nella variabile di stato, cos�� come indicato nell'equazione (34).

Quindi si utilizza il �ltro di kalman per aggiornare la variabile di stato e quindi ottenere lafunzione di Verosimiglianza tramite prediction error decomposition. Dalla massimizzazione, ne-cessariamente numerica, di tale funzione si ottengono gli stimatori per le matrici di varianza Q

e R dei disturbi di sistema e di osservazione.

Si potr�a utilizzare anche il metodo suggerito da Harvey, per concentrare fuori dalla funzione diverosimiglianza almeno un parametro non noto, per il quale sia possibile ottenere il valore dimassimo per via analitica, e massimizzare i rimanenti parametri, espressi i termini relativi,sempre per via numerica. Questo dovrebbe permettere di ottenere una maggiore e�cienzanelle stime o quantomeno una maggiore velocit�a computazionale. Il �ltro viene inizializzatosupponendo una distribuzione di�usa.

2. Stima dei coe�cienti �ssi

Il secondo passo consiste, subordinatamente ai valori ottenuti per Q ed R, nel riutilizzare il�ltro di kalman per ottenere il migliore previsore sulla variabile di stato, simultaneamente perla componente di trend �t e quella relativa ai coe�cienti �ssi �t.

Si conserver�a a questo punto, il valore di stima dei coe�cienti corrispondente all'ultima osserva-zione campionaria, cio�e �T , e si andr�a a riformulare il modello condizionatamente a tale valore,come indicato nell'equazione (35), in modo da aggiornare anche la stima sulla variabile di trend.

3. Stima del trend stocastico

Condizionatamente al valore delle varianze al punto 1 ed alla stima dei coe�cienti �ssi al punto2, si utilizza nuovamente il �ltro di kalman per ottenere una nuova stima solamente sulla variabiledi trend stocastico �t per tutto l'intervallo di osservazione di riferimento.

Dall'applicazione del �ltro abbiamo gi�a visto che potremo ottenere due tipi di previsori per lavariabile di stato:

� un primo de�nito previsore ex-ante che non considera l'osservazione simultanea sulla va-riabile di osservazione per ottenere il valore di previsione per la variabile di stato, indicatocon

�tjt�1

� ed un secondo de�nito stimatore ex-post che invece utilizza anche l'informazione simultaneaper ottenere il migliore previsore, cio�e

�tjt

In generale, da prove di simulazione condotte, gi�a l'utilizzo di quest'ultimo stimatore permettedi avere una buona approssimazione della variabile di stato. Tuttavia �e possibile incrementarlaulteriormente con appropriati algoritmi di smoothing ed, in particolare, si �e gi�a presentato l'al-goritmo di �xed interval smoother.

25

Da prove di simulazione MC e�ettuate sembra che tale procedura di stima possa dirsi su�ciente-mente robusta, anche rispetto a numerosit�a campionarie ridotte37. Il valore di stima dei coe�cienti�ssi del modello converge abbastanza velocemente rispetto ai veri valori, non mantenendo mai unadi�erenza elevata. Il modello mostra anche una buona capacit�a di adattamento rispetto al trendstocastico.

Si sono riscontrati alcuni problemi nella stima tramite Massima Verosimiglianza delle varianze delmodello, specie in corrispondenza di numerosit�a campionarie ridotte. Tuttavia �e da osservare chegeneralmente esiste un e�etto di compensazione tra la stima della varianza nei disturbi di osservazionerispetto a quella dei disturbi del vettore di stato, come gi�a precedentemente accennato. Questo lasciasperare che, se anche le singole stime non fossero troppo accurate, comunque nel complesso possanoessere considerate soddisfacenti.

8 Procedure di diagnostica

Una volta pervenuti ad una stima dei parametri del modello, �e necessario condurre una accurata fasedi diagnostica per veri�carne la corretta speci�cazione e la signi�cativit�a dei regressori esogeni inclusi.

I test da condursi sono quelli usuali per un modello di regressione38 e qui si fa riferimento conmaggiore attenzione alle caratteristiche peculiari che caratterizzano l'approccio tramite modelli state-space.

La procedura di veri�ca classica si basa sui \residui" del modello, cio�e la di�erenza tra valore dellavariabile di osservazione e quello previsto sulla base del modello stimato. Va tuttavia osservato che laprocedura precedentemente descritta permette di ottenere diverse tipologie di \residui" a seconda diquanta informazione venga inclusa nella stima della variabile di stato39.

Come osserva Harvey40 i residui da utilizzare per la diagnostica sul modello sono quelli di previ-sione41, cio�e utilizzando una stima per la variabile di stato ex-ante, prima quindi di aggiornarla sullabase della corrispondente osservazione campionaria.

La particolarit�a dei residui di previsione �e che, in un modello ben speci�cato e che soddis� lecondizioni di normalit�a, dovrebbero essere asintoticamente normali, incorrelati, con media nulla evarianza pari a Ft, dove questa �e la varianza condizionale ottenuta sempre dall'applicaizione direttadel �ltro. Queste caratteristiche li distinguono dai residui ottenuti in un modello di regressione linearetramite stimatore OLS, chiamati quindi residui OLS, la cui matrice di varianza-covarianza in generaledipender�a dagli stessi valori della matrice dei regressori e quindi presenteranno caratteristiche dieteroschedasticit�a ed autocorrelazione42.

�E usuale standardizzare tali residui di previsione dividendoli per i rispettivi standard error ottenutidirettamente dal �ltro di Kalman in modo che, in modelli ben speci�cati ed in termini asintotici, sianonormali, incorrelati, ed omoschedastici, con media nulla e varianza unitaria.

37in generale si �e considerato un modello con trend stocastico formulato come ranodom walk, con 3 regressori esogeni,ed un massimo 100 osservazioni campionarie.

38vedi in particolare Harvey ('89) pp. 234 e succ.39se cio�e si utilizza una stima ex-ante, ex-post o di smoothing.40Harvey ('89) pag. 256 e succ.41cos�� come gi�a indicato nella stima di verosimiglianza, precedentemente descritta. Vengono anche chiamati con il

termine di innovazioni.42e questo, come noto, crea non pochi problemi per la veri�ca della sfericit�a dei disturbi teorici. Per fare un esempio

si pensi alla derivazione del test di Durbin-Watson per la veri�ca dell'autocorrelazione.

26

Sulla base di queste caratteristiche si potr�a predisporre un insieme di test statistici e di confrontigra�ci43, che tendano a veri�care tali condizioni. In particolare si suggeriscono alcune delle veri�cheche si possono compiere:

Analisi gra�ca Si suggerisce di rappresentare gra�camente i vari valori di stima prodotti dal modello,e di analizzarne le caratteristiche. In particolare:

� Analisi della convergenza dei coe�cienti �ssi

Una veri�ca, anche solo gra�ca, della modalit�a di convergenza delle stime dei coe�cienti�ssi, pu�o in molti casi rivelare informazioni importanti sulla corretta speci�cazione delmodello, ma anche sulla corretta scelta delle condizioni iniziale44.

� Analisi del trend stocastico stimato.

Se un confronto diretto tra trend stimato e quello e�ettivo sar�a possibile solo in simulazione,questo non toglie che l'analisi di quello stimato possa essere signi�cativa per esprimere ungiudizio sempre di corretta speci�cazione del modello, specie qualora tale trend abbia unaprecisa interpretazione e giusti�cazione teorica45 e quindi vi siano delle aspettative sullesue caratteristiche. Si potr�a quindi procedere nell'analisi cercando di correlare l'andamentodi quella componente di trend con eventi o fatti storici realmente accaduti per giusti�carneeventuali comportamenti caratteristici.

� Analisi gra�ca dei residui di previsione (standardizzati)

Tale analisi gra�ca permette di integrare i valori analitici ottenuti con i test statistici descrit-ti pi�u avanti, e potr�a quindi aiutare a formulare il giudizio conclusivo dello sperimentatore.In particolare, oltre che alle usuali rappresentazioni mediante scatter plot ed istogrammi �epossibile ottenere due test gra�ci, basati sulla logica delle carte di controllo, che permettonodi esprimere un giudizio sulla stabilit�a strutturale del modello.

In particolare i test CuSum e CuSumQ46, si basano sull'evoluzione temporale della sommaparziale dei residui e dei loro quadrati Tali test dovrebbero poter dare delle informazio-ni, immediatamente percepibili in termini gra�ci, sulla stabilit�a strutturale del modellostimato, nonch�e sulla presenza di eteroschedasticit�a.

Diagnostica Residui di previsione diversi test statistici basati sui residui di previsione (standar-dizzati).

Normalit�a Attraverso le statistiche campionarie e test statistici tesi a veri�care:

1. Skewness. Che in una normale dovrebbe essere nulla.

2. Kurtosi. In una normale dovrebbe essere pari a 3

3. Statistica test di Bowman-Shenton che utilizza le precedenti due statistiche e comeipotesi nulla assume la normalit�a delle serie. Sotto H0 tale statistica si distribuiscecome un Chi2 con 2 gradi di libert�a. Il test �e ad una coda, quindi si rigetta H0 pervalori elevati.

43per una descrizione dettagliata delle procedure sotto riportate e test proposti si rinvia ad Harvey ('89) pp.256 e succ.,ma vedi anche Greene ('97) e Johnston ('96) per le procedure pi�u tradizinoiali.

44ed a tal proposito si ricorda quanto gi�a richiamato precedentemente sull'ampiezza da assegnare alla matrice divarianza iniziale al �ne di avere una stabilizzazione delle stime dei coe�cienti �ssi.

45cos�� come si �e suggerito di procedere in questo lavoro.46vedi l'articolo originario di Brown, Durbin, Evens ('75) \Techniques for testing the constancy of Regression

Relationships over Time", Journal of Royal Statistical Society, series B37, pp. 149-192.

27

Autocorrelazione Si veri�ca l'autocorrelazione residua solitamente attraverso:

1. Le autocorrelazioni campionarie di ordine 1, 2 e 3. Si suggerisce di evidenziare il gra�cocompleto delle funzione di ACF e PACF, ed il relativo test di Bartlett, solitamente ailivelli di signi�cativit�a del 95% e 99%.

2. Il Test di Portmanteau secondo la statistica di Box-Ljung, per autocorrelazione �no adun lag ritenuto critico, che l'analisi precedente dovrebbe contribuire ad identi�care. Iltest ha una distribuzione limite come un Chi2, ed i gradi di libert�a sono dipendenti dalnumero di regressori usati. L'utilizzo di un simile test permette di veri�care congiun-tamente le autocorrelazioni �no ad un determinato lag, mentre la veri�ca fatta con iltest di Bartlett si basa su di un confronto individuale.

Eteroschedasticit�a Si veri�ca l'eventuale eteroschedasticit�a dei residui.

Si propone di usare qualche test basato sulla suddivisione del campione in tre gruppi ed ilconfronto della varianza campionaria del primo con il terzo gruppo47.

Analisi signi�cativit�a coe�cienti �ssi Si �e gi�a descritto in precedenza come ottenere la stimadelle varianze degli stimatori dei coe�cienti �ssi. Ora saremo in grado di utilizzare tale valoreper ottenere l'usuale test di signi�cativit�a per i coe�cienti �ssi inclusi nel modello. In terminiasintotici le stime ottenute sui coe�cienti �ssi, standardizzare per i rispettivi standard error, esotto ipotesi nulla di coe�cienti non signi�cativi cio�e identicamente nulli, avranno distribuzioninormali standardizzate, e questo permetter�a di individuare facilmente una regione di ri�utobilaterale con il livello di signi�cativit�a desiderato.

Bont�a di adattamento Si calcolano alcune statistiche che possono indicare quanto il modello sti-mato si adatta ai dati campionari. (Vedi anche l'indicazione gra�ca).

� Veri�ca della varianza condizionale sulla variabile prevista raggiunto lo stato stazionario.Corrisponde alla varianza condizionale dei residui di previsione in corrispondenza dell'ul-tima osservazione campionaria. Tanto minore sar�a e tanto maggiore risulter�a la bont�a diadattamento del modello.

� Coe�ciente di determinazione linerare: R2. E' quello usuale anche se Harvey48 sostieneche nell'analisi delle serie storiche, specie se non stazionarie quali appunto quelle che in-cludano componenti di trend, tale indicatore sia poco signi�cativo in quanto generalmenteabbastanza elevato. Un indicatore pi�u accurato dovrebbe essere il seguente.

� Coe�ciente di confronto con un Random walk + drift: R2Bis Si tratta di un coe�ciente dideterminazione calcolato rispetto la di�erenza prima della serie originaria, e cio�e rispetto lavarianza residua che si otterrebbe adattando un modello della forma Random-walk + driftche risulta il pi�u semplice modello per serie storiche non stazionarie.

9 Generalizzazioni del modello

9.1 Stima in Sistemi di equazioni

Il modello qui presentato si presta ad un largo utilizzo come immediata estensione di un usuale modellodi regressione lineare, qualora il problema a�rontato sia tale da suggerire la necessit�a di inclusione diuna componente non stazionaria, tipicamente nella forma di trend stocastico.

47vedi Harvey per maggiori dettagli.48Harvey '89 pp.268 e succ.

28

Quindi, la struttura qui presentata, risulta di fatto gi�a su�cientemente essibile per permetterel'inclusione di diverse tipologie di trend, cos�� come si �e gi�a descritto precedentemente.

Una ulteriore generalizzazione, che potrebbe essere interessante in diversi contesti applicativi, �ebasata su di una estensione del modello in termini cross-sezionali, cio�e utilizzando pi�u variabili diosservazione simultaneamente.

In tale contesto si potrebbe condurre un'analisi in termini incrementali: prima stimando i parametridi interesse per ogni singola variabile di osservazione, quindi aumentando il grado di dipendenza cross-sezionale attraverso una struttura pi�u complessa nella componente dei residui, in�ne vincolando anchei singoli coe�cienti ad assumere gli stessi valori in tutte le equazioni utilizzate e magari utilizzandouna componente di trend stocastico unica per tutte le equazioni considerate.

Estendere il modello in termini cross-sezionali dovrebbe poter permettere una maggiore e�cienzanelle stime ottenute, ed aumentare la capacit�a interpretativa dell'analisi, evidenziando similarit�a odi�erenze tra diverse varibili di osservazione che, verosimilmente, potrebbero indicare come un certofenomeno studiato si sia manifestato in termini di�erenti in regioni diverse.

In�ne, esiste la possibilit�a di formulare il �ltro di kalman anche per variabili di osservazione mul-tivariate, e quindi sembra possibile generalizzare la procedura di stima qui proposta per sistemi diequazioni pi�u complessi, con uno sforzo non elevato.

Si presentano alcune delle possibili estensioni cross-sezionali del modello proposto, fermo restandoche sar�a tuttavia il problema volta per volta considerato a suggerire quale speci�cazione sia pi�u op-portuno utilizzare. I modelli sotto presentati rappresentano una generalizzazione del modello di basein termini incrementali, cio�e aumentando progressivamente il livello di dipendenza cross-sezionale.

1. Sistema pi�u generale 8>>>>>>>>>>>>>>><>>>>>>>>>>>>>>>:

1: �1;t = �1;t�1 + �1;ty1;t = �1;t + x01;t�1 + �1;t

2: �2;t = �2;t�1 + �2;ty2;t = �2;t + x02;t�2 + �2;t

...p: �p;t = �p;t�1 + �p;t

yp;t = �p;t + x0p;t�p + �p;t

(36)

dove p rappresenta il numero delle di�erenti variabili di osservazione, ognuna delle quali con unasua struttura di trend stocastico e di regressori esogeni con relativi coe�cienti, e la dipendenzacross-sezionale �e trasferita tramite la matrice di varianza-covarianza dei residui di osservazioneper ogni equazione �i;t.

Si pu�o incrementare la dipendenza vincolando i coe�cienti nella varie equazioni di osservazio-ne, al �ne di garantire la stessa sensibilit�a rispetto alle variabili esogene, mantenendo tuttaviadi�erenti trend stocastici.

29

2. Sistema parzialmente vincolato (solo nei coe�cienti statici)

8>>>>>>>>>>>>>>><>>>>>>>>>>>>>>>:

1: �1;t = �1;t�1 + �1;ty1;t = �1;t + x01;t� + �1;t

2: �2;t = �2;t�1 + �2;ty2;t = �2;t + x02;t� + �2;t

...p: �p;t = �p;t�1 + �p;t

yp;t = �p;t + x0p;t� + �p;t

(37)

dove tutti i � non variano tra le varie equazioni di osservazione e rappresentato una sensibilit�acostante rispetto alle diverse variabili esplicative.

In�ne si potrebbe vincolare anche il trend stocastico a rimanere identico tra le diverse equa-zioni, o eventualmente tra gruppi omogenei sulla base di qualche caratteristica speci�cata dallosperimentatore.

3. Sistema vincolato (anche nei coe�cienti di trend dinamico)8>>>>>>>>>>><>>>>>>>>>>>:

trend comune �t = �t�1 + �t1: y1;t = �t + x01;t� + �1;t

2: y2;t = �t + x02;t� + �2;t

...p: yp;t = �t + x0p;t� + �p;t

(38)

10 Conclusioni

Si �e presentata la procedura completa di stima per un modello di regressione che includesse sia unacomponente di trend stocastico, sia alcuni regressori esogeni con i corrispondenti coe�cienti �ssi.L'utilizzo di una componente di trend stocastico, inclusa come variabile latente, pu�o permettere dirisolvere problemi di non stazionariet�a dei dati analizzati, senza per questo essere costretti ad imporreuna struttura deterministica per la componente di trend. Questo dovrebbe permettere una maggiorecapacit�a di adattamento al fenomeno reale, mantenendo tuttavia una elevata rigidit�a nei restantiparametri del modello, in particolare relativi ai coe�cienti �ssi.

L'utilizzo qui proposto �e proprio in termini addizionali: sulla base di un modello di regressione dato,magari suggerito dalla stessa teoria sottostante al fenomeno analizzato, si aggiunge una componentedi trend stocastico per compensare la non stazionariet�a dei dati. In generale si auspica che quellacomponente di trend sia essa stessa giusti�cata in termini teorici, prima ancora che operativi.

La procedura presentata coniuga un tipico approccio basato sulla riscrittura del modello in terministate-space e l'utilizzo del �ltro di kalman, alla stima di massima verosimiglianza per gli iperparametridel modello, sulla base di una procedura sequenziale per stimare in varie fasi le diverse componentinon note.

Completa il lavoro un richiamo alle tecniche di diagnostica particolarmente utili in questo tipo dimodelli ed un accenno alla loro possibile estensione cross-sezionale.Quando possibile si �e cercato di

30

includere nell'analisi anche una rassegna dei metodi alternativi presenti in letteratura utilizzati perrisolvere gli stessi problemi.

Ringraziamenti

Il presente lavoro ha goduto di un �nanziamento da parte del progetto CNR 99.03525.ST74 coordinatodal prof. Giuseppe Tattara, presso il dipartimento di Scienze Economiche, Universit�a di Venezia, a cuiva il mio pi�u vivo ringraziamento. Si desidera inoltre ringraziare tutti coloro che hanno contribuitocon indicazioni e suggerimenti alla realizzazione della presente opera, ed in particolare il prof. PietroMantovan e Stefano Tonellato. Eventuali sviste ed imperfezioni rimangono inevitabilmente imputabiliall'autore che se ne scusa �n d'ora.

Riferimenti bibliogra�ci

[1] Carraro, C. and Sartore, D. (1987). Square root iterative �lter: theory and applications to econometricmodels. Annales d'economie et de statistique, (6/7):435{459.

[2] Duncan, D. and Horn, S. (1972). Linear dynamic recursive estimation from the viewpoint of regressionanalysis. Journal of American Statistical Association: Theory and Methods, 67(304):815{821.

[3] Gourieroux, C. and Monfort, A. (1989). Statistics and econometric models, volume 1-2 of Themes inModern Econometrics. Cambridge University Press, Cambridge.

[4] Gourieroux, C. and Monfort, A. (1995). Time Series and Dynamic Models. Themes in modern econometrics.Cambridge University Press.

[5] Greene, W. (1997). Econometric Analysis. Prentice-Hall international, New Yersey, 3rd edition.

[6] Harrison, P. and Stievens, S. (1976). Bayesian forecating. Journal of Royal Statistical Society, (3):205{250.

[7] Harvey, A. (1981). Time Series Models. Philip Allan Publishers, Oxford.

[8] Harvey, A. C. (1989). Forecasting, structural time series models and the Kalman �lter. CambridgeUniversity Press. Reprinted 1991.

[9] Harvey, A., Henry, S., Peter, S., and Wren-Lewis, S. (1986). Stochastic trends in dynamic regressionmodels: an application to the employment-output equation. The Economic Journal, (96):975{985.

[10] Harvey, A. and Phillips, G. (1979). Maximum likelihood estimation of regression models withautoregressive-moving average disturbances. Biometrika, 66(1):49{58.

[11] Mantovan, P., Pastore, A., and Tonellato, S. (2000). Apprendimento e previsione con modelli linearidinamici. Dipartimento di Statistica, Universit�a di Venezia Materiale didattico presentato al corso diNuove Metodologie per la previsione, 4-9/9/2000

[12] Sherphard, N. (1993). Maximum likelihood estimation of regression models with stochastic trendcomponents. Journal of the American Statistical Association: theory and methods, 99(422):590{595.

[13] Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press.

31