Appunti Di Serie Storiche

download Appunti Di Serie Storiche

of 168

Transcript of Appunti Di Serie Storiche

Appunti di analisi delle serie storicheRiccardo Jack Lucchetti30 settembre 2011iiIndicePrefazione vii1 Introduzione 11.1 Cos un processo stocastico e a che serve . . . . . . . . . . . . . 11.2 Caratteristiche dei processi stocastici . . . . . . . . . . . . . . . . 21.3 Momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4 Qualche esempio . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 I processi ARMA 132.1 Loperatore ritardo . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Processi white noise . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3 Processi MA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4 Processi AR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.5 Processi ARMA. . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.6 Uso dei modelli ARMA . . . . . . . . . . . . . . . . . . . . . . . 322.6.1 Previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.6.2 Analisi delle caratteristiche dinamiche . . . . . . . . . . 362.7 Stima dei modelli ARMA . . . . . . . . . . . . . . . . . . . . . . 392.7.1 Tecniche numeriche . . . . . . . . . . . . . . . . . . . . . 402.7.2 Scelta degli ordini dei polinomi . . . . . . . . . . . . . . 412.7.3 Calcolo della verosimiglianza . . . . . . . . . . . . . . . . 442.8 In pratica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 Processi integrati 593.1 Caratteristiche delle serie macroeconomiche . . . . . . . . . . . 593.2 Processi a radice unitaria . . . . . . . . . . . . . . . . . . . . . . . 623.3 La scomposizione di Beveridge e Nelson . . . . . . . . . . . . . 663.4 Test di radice unitaria . . . . . . . . . . . . . . . . . . . . . . . . 683.4.1 Distribuzione della statistica test . . . . . . . . . . . . . . 703.4.2 Persistenza di breve periodo . . . . . . . . . . . . . . . . 703.4.3 Nucleo deterministico . . . . . . . . . . . . . . . . . . . . 723.4.4 Test alternativi . . . . . . . . . . . . . . . . . . . . . . . . 733.4.5 Usare il cervello . . . . . . . . . . . . . . . . . . . . . . . . 743.4.6 Un esempio . . . . . . . . . . . . . . . . . . . . . . . . . . 753.5 Regressione spuria . . . . . . . . . . . . . . . . . . . . . . . . . . 76iiiiv INDICE4 Processi VAR 814.1 Processi multivariati . . . . . . . . . . . . . . . . . . . . . . . . . 814.2 I processi VAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 834.3 Stima dei VAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884.4 VAR integrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.5 Uso dei VAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934.5.1 Previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.5.2 Analisi di causalit. . . . . . . . . . . . . . . . . . . . . . 954.5.3 Analisi dinamica . . . . . . . . . . . . . . . . . . . . . . . 985 Cointegrazione 1075.1 Denizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1075.2 Propriet dei vettori di cointegrazione. . . . . . . . . . . . . . . 1085.3 Modelli a correzione derrore . . . . . . . . . . . . . . . . . . . . 1105.4 Il teorema di rappresentazione di Granger . . . . . . . . . . . . 1165.4.1 Un po di algebra matriciale . . . . . . . . . . . . . . . . 1175.4.2 Il teorema vero e proprio . . . . . . . . . . . . . . . . . . 1185.4.3 Nucleo deterministico . . . . . . . . . . . . . . . . . . . . 1195.5 Tecniche di stima . . . . . . . . . . . . . . . . . . . . . . . . . . . 1225.5.1 La procedura di Johansen. . . . . . . . . . . . . . . . . . 1235.5.2 Procedure alternative . . . . . . . . . . . . . . . . . . . . 1286 Processi a volatilit persistente 1336.1 I fatti stilizzati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1346.2 Processi ARCH e GARCH. . . . . . . . . . . . . . . . . . . . . . 1376.2.1 Processi ARCH. . . . . . . . . . . . . . . . . . . . . . . . 1376.2.2 Processi GARCH. . . . . . . . . . . . . . . . . . . . . . . 1406.2.3 Stima dei GARCH . . . . . . . . . . . . . . . . . . . . . . 1416.3 Un esempio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1426.4 Estensioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1456.4.1 Distribuzioni non-normali . . . . . . . . . . . . . . . . . . 1456.4.2 Effetti asimmetrici . . . . . . . . . . . . . . . . . . . . . . 1486.4.3 EGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . 1486.4.4 GARCH-in-mean. . . . . . . . . . . . . . . . . . . . . . . 1486.4.5 IGARCH. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1496.4.6 Modelli multivariati . . . . . . . . . . . . . . . . . . . . . 1497 Per approfondimenti 1517.1 In generale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1517.2 Processi univariati . . . . . . . . . . . . . . . . . . . . . . . . . . 1517.3 Processi VAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1527.4 Processi I(1) e cointegrazione. . . . . . . . . . . . . . . . . . . . 1527.5 Processi ad eteroschedasticit condizionale . . . . . . . . . . . . 153Bibliograa 154Elenco delle gure1.1 Variazioni mensili della produzione industriale USA . . . . . . 71.2 Variazioni produzione industriale USA correlogramma. . . . 71.3 Inazione USA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.4 Inazione USA correlogramma. . . . . . . . . . . . . . . . . . 91.5 Indice Nasdaq rendimenti giornalieri . . . . . . . . . . . . . . 101.6 Indice Nasdaq Correlogramma . . . . . . . . . . . . . . . . . . 111.7 Indice Nasdaq rendimenti giornalieri in valore assoluto . . . 111.8 Indice Nasdaq Correlogramma dei valori assoluti . . . . . . . 112.1 MA(1): = 0 (white noise) . . . . . . . . . . . . . . . . . . . . . . 192.2 MA(1): = 0.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3 MA(1): = 0.9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.4 MA(1): Autocorrelazione di primo ordine in funzione di . . . 212.5 AR(1): = 0 (white noise) . . . . . . . . . . . . . . . . . . . . . . . 262.6 AR(1): = 0.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.7 AR(1): = 0.9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.8 AR(2): 1 = 1.8; 2 = 0.9 . . . . . . . . . . . . . . . . . . . . . . 292.9 Risposta di impulso per yt = yt10.5yt2 + t +0.75t1. . . 382.10 Produzione industriale negli USA (dal 1921) . . . . . . . . . . . 472.11 Logaritmo della produzione industriale negli USA (mensile) . . 482.12 Variazione percentuale della produzione industriale . . . . . . . 492.13 Correlogrammi della produzione industriale . . . . . . . . . . . 492.14 Risposte di impulso . . . . . . . . . . . . . . . . . . . . . . . . . . 532.15 Previsioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 532.16 Rappresentazione graca di un numero complesso . . . . . . . 553.1 log(PIL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.2 log(PIL) e trend deterministico . . . . . . . . . . . . . . . . . . . 603.3 Residui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613.4 log(PIL). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623.5 Random walk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643.6 Funzione di densit del test DF. . . . . . . . . . . . . . . . . . . 713.7 Funzione di densit del test DF con intercetta . . . . . . . . . . 724.1 Autovalori della companion matrix . . . . . . . . . . . . . . . . . . 874.2 PIL e Consumi nellUE. . . . . . . . . . . . . . . . . . . . . . . . 90vvi ELENCO DELLE FIGURE4.3 Risposte di impulso non strutturali . . . . . . . . . . . . . . . . . 1024.4 Risposte di impulso strutturali . . . . . . . . . . . . . . . . . . . 1035.1 VAR(1) stazionario: serie storiche simulate . . . . . . . . . . . . 1125.2 VAR(1) stazionario: serie storiche simulate diagramma XY. . 1125.3 Random walk: serie storiche simulate . . . . . . . . . . . . . . . . 1135.4 Random walk: serie storiche simulate diagramma XY . . . . . . 1145.5 Processo cointegrato: serie storiche simulate . . . . . . . . . . . 1145.6 Processo cointegrato: serie storiche simulate diagramma XY. 1156.1 Indice Nasdaq logaritmi . . . . . . . . . . . . . . . . . . . . . . 1346.2 Indice Nasdaq rendimenti giornalieri . . . . . . . . . . . . . . 1356.3 Rendimenti Nasdaq valori assoluti . . . . . . . . . . . . . . . . 1356.4 Rendimenti Nasdaq distribuzione marginale . . . . . . . . . . 1366.5 Rendimenti Nasdaq residui e deviazione standard stimata. . 1446.6 Rendimenti Nasdaq serie standardizzata . . . . . . . . . . . . 1456.7 Distribuzioni alternative alla normale . . . . . . . . . . . . . . . 147PrefazioneQuestoscrittoeranatocomedispensaperilmiocorsodiEconometria. Inquanto tale, non mi sono mai posto obiettivi particolarmente ambiziosi n perquantoriguardailrigore, nperlacompletezza. Lobiettivoprincipaleera,al contrario, quello di descrivere i concetti facendo perno principalmente sul-lintuizione del lettore, cercando di motivare nel modo pi esplicito possibilelintroduzione delle denizioni e dei risultati principali.Le cose, poi, si sono evolute nel tempo e la dispensa cresciuta: non laposso pi usare come tale nel corso di Econometria di base, ma la uso per cor-si pi avanzati. La losoa di base per rimasta la stessa: un testo che si puleggere, oltrech studiare. Di conseguenza, a parte qualche eccezione, fa-r genericamente riferimento alla letteratura per spiegazioni, dimostrazionieapprofondimenti, senzacitarefontispeciche. Questoperchhoritenutopi utile, dato lo scopo che mi propongo, raggruppare le indicazioni biblio-gracheinunultimocapitolo, cheavesseanchelafunzionedi orientareillettore nel mare magnum delleconometria delle serie storiche.Negli anni, ho avuto moltissimo feedback da parte di molte persone, che rin-grazio per aver contribuito a migliorare il contenuto. Fra gli amici che fanno ilmio stesso mestiere voglio ricordare (senza per questo chiamarli in correo) inparticolare Gianni Amisano, Marco Avarucci, Emanuele Bacchiocchi, NunzioCappuccio, Francesca Di Iorio, Luca Fanelli, Massimo Franchi, Carlo Favero,Roberto Golinelli, Diego Lubian, Giulio Palomba, Matteo Pelagatti, EduardoRossi, Maurizio Serva, Stefano Siviero e Gennaro Zezza. Carlo Giannini meri-ta una menzione a parte, perch senza di lui io probabilmente nella vita avreifatto tuttaltro e questa dispensa non sarebbe mai esistita; sicuramente io sareistato una persona peggiore.Unpensieroriconoscentevapoi atutti colorochesi sonovisti inittaquesta dispensa come libro di testo e mi hanno indotto ad essere pi completoe chiaro (o meno incompleto ed oscuro, a seconda dei punti di vista) quandomi facevano notare, a parole o semplicemente con lespressione del viso, chenon ci si capiva niente. Non vorrei fare nomi perch sono troppi, ma devo fareuneccezione per Gloria Maceratesi, che non posso non menzionare perch lasua efcienza di correttrice ha avuto del sovrumano. Grazie comunque a tuttiquanti. Il fatto poi che questa dispensa sia liberamente disponibile su Internetha anche indotto molti a scaricarla, e qualcuno mi ha anche scritto una mailcon consigli e suggerimenti. Anche in questo caso, nutro grande riconoscenza,se non altro perch ha fatto bene al mio ego.viiviii ELENCO DELLE FIGUREUngraziegrandecomeunacasavaadAllinCottrell, chelasbuffantelocomotiva dietro il progetto gretl: per chi non lo sapesse, gretl un pacchettoeconometricofree1concuisonostatirealizzatituttigliesempicontenutiinquestadispensa. Persapernedi pi, emagari scaricarlo, andatesuhttp://gretl.sourceforge.net.Perquantoriguardai prerequisiti, presuppongocheil lettoreabbiagiun certo grado di familiarit con i concetti probabilistici base (variabili casua-li, valori attesi, condizionamento, vari modi di convergenza), con il modelloOLSeconalcuniconcettibasediteoriadellastima, comeidenticazioneepropriet degli stimatori. Quindi, chi non se li studiati gi, pu anche chiu-dere qui e andare a studiare. Gli altri, si mettano pure comodi, che andiamoa incominciare.Alcuni passi sonoscritti inuncarattere pipiccolo, suduecolonne, comequesto. Essinon sono indispensabili, e possono essere sal-tatisenzapregiudiziodellacomprensionedelresto. Certo per che, se li ho scritti, a qualcosaserviranno pure. Fate voi.1Che vuol dire anche gratuito. Lespressione free software, per, di solito si traduce con soft-warelibero, perchdisponibileilsorgente. inognicasoimperdonabileconfondereilfreesoftware col freeware, che semplicemente software che si pu usare legalmente senza pagare.Capitolo 1Introduzione1.1 Cos un processo stocastico e a che serveI dati a cui vengono applicate le tecniche inferenziali che compongono il ba-gaglio delleconometrico possono essere di due tipi: cross-section, nel caso incui le osservazioni di cui disponiamo siano relative ad individui diversi, op-pure serie storiche, quando ci che abbiamo sono osservazioni, su una o pigrandezze, protratte nel tempo1.Nel primo caso, pensare ad un insieme di N dati osservati come una dellepossibili realizzazioni diNvariabili casuali indipendenti ed identiche non unipotesi troppo insostenibile: se rilevo peso e statura di N individui, non cragione di pensare che1. lecaratteristichesichedelli-esimoindividuosianoinqualchemodoconnesse a quelle degli altri individui (indipendenza);2. la relazione fra peso e altezza che vale per li-esimo individuo sia diversada quella che vale per tutti gli altri (identicit).Inquesticasi, ciserviamodelconcettodirealizzazionediunavariabilecasuale come metafora delli-esima osservazione, e lapparato inferenziale ap-propriato non diverso da quello standard, in cui lindipendenza e lidenticitci consentono di dire chef (x1, x2, . . . , xN) =Ni=1f (xi),cio che la funzione di densit del nostro campione semplicemente la pro-duttoria delle funzioni di densit delle singole osservazioni (le quali funzionisono tutte uguali). Nel caso in cui lo strumento di analisi sia la regressionelineare, questo quadro di riferimento ci porta sostanzialmente alle cosiddetteipotesi classiche, ampiamente analizzate al principio di qualunque corso di1A dir la verit, un caso intermedio dato dai cosiddetti dati panel, ma non ce ne occupiamoqui.12 CAPITOLO 1. INTRODUZIONEEconometria. Notate che questo tipo di ragionamento perfettamente appro-priato nella maggior parte dei casi in cui i dati da noi osservati provengano daun esperimento controllato, del tipo di quelli che usano i medici o i biologi.Il caso delle serie storiche, tuttavia, presenta una differenza concettuale dibase che richiede una estensione dei concetti probabilistici da utilizzare comemetaforadeidati. Questadifferenzaconsistenelfattocheiltempohaunadirezione, e quindi esiste la storia.In un contesto di serie storiche, infatti, la naturale tendenza di molti feno-meni ad evolversi in modo pi o meno regolare porta a pensare che il datorilevato in un dato istante t sia pi simile a quello rilevato allistante t 1 piut-tosto che in epoche distanti; si pu dire, in un certo senso, che la serie storicacheanalizziamohamemoriadi s. Questacaratteristicageneralmenteindicatacol nomedi persistenza2, edifferenziaprofondamentei campionidi serie storiche da quelli cross-section, perch nei primi lordine dei dati haunimportanza fondamentale, mentre nei secondi esso del tutto irrilevante.Lostrumentocheutilizziamoperfarfronteallesigenzadi trovareunametaforaprobabilisticaperleseriestoricheosservateilprocessostocasti-co.Una denizione di processo stocastico non rigorosa, ma intuitiva e, per lenostre esigenze, sostanzialmente corretta pu essere la seguente: un processostocastico una sequenza innitamente lunga di variabili casuali o, se preferite, unvettore aleatorio di dimensione innita. Un campione di T osservazioni conse-cutive nel tempo non viene quindi pensato tanto come una realizzazione di Tvariabili casuali distinte, quanto piuttosto come parte di ununica realizzazio-ne di un processo stocastico, la cui memoria data dal grado di connessionefra le variabili casuali che lo compongono.1.2 Caratteristiche dei processi stocasticiLa denizione appena data (che nasconde astutamente una serie di compli-cazioni tecniche) rendeovvieunaseriedi proprietdei processi stocasticipiuttosto importanti per il seguito: dato un processo stocastico il cui t-esimoelemento3indichiamo con xt,possibile(concettualmente) denireunafunzionedi densitper ilprocessof (. . . , xt1, xt, xt+1, . . .); possibile marginalizzare tale funzione di densit per ogni sottoinsiemedelle sue componenti; da questo consegue che sono denite le funzionidi densit marginali per ognuna delle xt, ma anche per ogni coppia dielementi (xt, xt+1)e cos via; il fatto poi che le osservazioni non sianoindipendenti fra loro fa s che la densit del campione non si pu pirappresentare come una semplice produttoria delle marginali;2In certi contesti, gli economisti amano anche dire istresi (o istersi) per indicare pi o menola stessa cosa. Un caso tipico quando si parla di disoccupazione.3Ad essere pignoli, dovremmo utilizzare due notazioni diverse per il processo stocastico di cuistiamo parlando, e per un suo generico elemento. Se questultimo viene indicato con xt, il pro-cesso a cui appartiene dovrebbe essere scritto xt+. Considero superua questa rafnatezza,e user la stessa notazione sia per un processo che per il suo t-esimo elemento; non dovrebberosorgere confusioni.1.2. CARATTERISTICHE DEI PROCESSI STOCASTICI 3se le funzioni di densit marginali hanno momenti, possibile dire, adesempio, che E(xt) = t, V(xt) = 2t , Cov(xt, xtk) = k,t e cos via;allostessomodo, possibiledenirefunzioni di densit(coi relativimomenti) condizionali.Le propriet appena descritte fanno riferimento ai processi stocastici comestruttureprobabilistiche. Quandopervogliamoutilizzarequestestrutturecome base per procedure inferenziali, si aprono due problemi:1. Se quella che osservo (peraltro non nella sua interezza) una sola rea-lizzazione delle molte possibili, la possibilit logica di fare inferenza sulprocessononpuesseredataper scontata; infatti, noncmododidirequalicaratteristichedellaserieosservatasonospecichediquellarealizzazione, equali invecesi ripresenterebberoancheosservandonealtre.2. Se anche fosse possibile usare una sola realizzazione per fare inferenzasullecaratteristichedel processo, necessariocheessosiastabileneltempo, cio che i suoi connotati probabilistici permangano invariati, perlo meno allinterno del mio intervallo di osservazione.Questeduequestioniconduconoalladenizionedidueproprietcheiprocessi stocastici possono avere o non avere:StazionarietSi parla di processo stocastico stazionario in due sensi: stazio-nariet forte (anche detta stretta) e stazionariet debole.Per denire la stazionariet forte, prendiamo in esame un sottoinsiemequalunquedellevariabili casuali checompongonoil processo; questenondevononecessariamenteessereconsecutive, maper aiutarelin-tuizione, facciamontachelosiano. Consideriamoperciunane-stra aperta sul processo di ampiezza k, ossia un sottoinsieme del tipoWkt= (xt, . . . , xt+k1). Questa naturalmente una variabile casuale a kdimensioni, con una sua funzione di densit che, in generale, pu dipen-dere da t. Se per ci non accade, allora la distribuzione di Wkt ugualea quella di Wkt+1, Wkt+2 e cos via. Siamo in presenza di stazionariet fortequando questa invarianza vale per qualsiasi k. In altri termini, quandoun processo stazionario in senso forte le caratteristiche distribuzionalidi tutte le marginali rimangono costanti al passare del tempo.La stazionariet debole, invece, riguarda solo nestre di ampiezza 2: siha stazionariet debole se tutte le variabili casuali doppie W2t= (xt, xt+1),hanno momenti primi e secondi costanti nel tempo4; da questo discendeche esistono anche tutti i momenti secondi incrociati E(xt xt+k), con kqualunque, e anchessi non dipendono da t (anche se possono dipendereda k).4per questo motivo che la stazionariet debole viene anche denita stazionariet incovarianza.4 CAPITOLO 1. INTRODUZIONEAdispettodeinomi, unadenizionenonimplicalaltra; adesempio,un processo pu essere stazionario in senso forte ma non possedere mo-menti;5viceversa,la costanza nel tempo dei momenti non implica chelevariemarginali abbianolastessadistribuzione. Inuncaso, tutta-via, le due denizioni coincidono:questo caso che particolarmenteimportanteperleapplicazioni pratichequelloincui il processo gaussiano, ossia quando la distribuzione congiunta di un qualunquesottoinsieme di elementi del processo una normale multivariata. Se unprocesso gaussiano, stabilire che stazionario in senso debole equivalea stabilire la stazionariet stretta. Data la pervasivit dei processi gaus-siani nelle applicazioni ai dati, da un punto di vista operativo si adottageneralmente la denizione di stazionariet debole, e quando si parla distazionariet senza aggettivi, appunto a questa che ci si riferisce.ErgodicitLergodicit una condizione che limita la memoria del processo:un processo non ergodico un processo che ha caratteristiche di persi-stenza cos accentuate da far s che un segmento del processo, per quantolungo, sia insufciente a dire alcunch sulle sue caratteristiche distribu-tive. Inunprocessoergodico, alcontrario, lamemoriadelprocessodebole su lunghi orizzonti e allaumentare dellampiezza del campioneaumenta in modo signicativo anche linformazione in nostro possesso.Le condizioni sotto le quali un processo stocastico stazionario ergodi-co sono troppo complesse per essere descritte qui; per farmi capire, visottoporr ad unoverdose di virgolette: euristicamente, si pu dire cheun processo ergodico se eventi molto lontani fra loro possono essereconsiderati virtualmente indipendenti; osservando il processo per unlasso di tempo abbastanza lungo, possibile osservare quasi tuttele sottosequenze che il processo in grado di generare. In altri termini,si pu dire che, in un sistema ergodico, se qualcosa pu succedere alloraprima o poi deve succedere. Il fatto che eventi lontani fra loro nel tem-po possano essere considerati indipendenti da un punto di vista pratico poi spesso sintetizzato nella seguente propriet dei processi ergodici(che a volte viene usata come denizione di processo ergodico):limn1nnk=1Cov(xt, xtk) = 0.Di conseguenza, se un processo ergodico, possibile (almeno in lineadiprincipio)usareleinformazionicontenutenelsuosvolgimentoneltempo per inferirne le caratteristiche. Esiste un teorema (detto appuntoteorema ergodico) che dice che, se un processo ergodico, losserva-zione di una sua realizzazione abbastanza lunga equivalente, ai niinferenziali, allosservazione di un gran numero di realizzazioni.Se, ad esempio, un processo ergodico xt ha valore atteso , allora la suamedia aritmetica nel tempo uno stimatore consistente di (in formule,5Esempio di processo stazionario in senso forte ma non debole: consideriamo una sequenzadi variabili casuali yt = 1/xt, dove le xtsono normali standard indipendenti. La sequenza delleyt una sequenza di variabili casuali identiche, indipendenti e senza momenti.1.3. MOMENTI 5T1Tt=1xtp), equindi puesserestimatoinmodoconsistentecomesedisponessimodi molterealizzazioni del processoanzichdiuna sola.In linea generale, si pu dire che linferenza possibile solo se il processostocastico che si sta studiando stazionario ed ergodico. Va detto per altroche, se esistono dei metodi per sottoporre a test lipotesi di non stazionariet(almeno in certi contesti, che esamineremo nel prosieguo), lipotesi di ergo-dicitnontestabilesesi disponedi unasolarealizzazionedel processo,quandanche fosse di ampiezza innita.1.3 MomentiNel caso di processi stocastici stazionari, avremo dunque che ogni elementodel processo xt avr un valore atteso nito e costante e una varianza nita ecostante2. Inoltre, risultano denite tutte le covarianze fra elementi diversidel processo, che saranno pari ak = E[(xt)(xtk)] (1.1)e che sono note come autocovarianze. Si ricordi che la stazionariet garantisceche queste quantit non sono funzioni di t; esse sono tuttavia funzioni di k,ed anzi si parla di funzione di autocovarianza, intendendo una funzione di ktale per cui (k) = k. Va da s che lautocovarianza di ordine 0 non chela varianza. Inoltre, la denizione tale per cui k= k, ossia la seguenteespressioneE[(xt)(xtk)] = E[(xt)(xt+k)] vera.Allo stesso modo possibile denire le autocorrelazioni, che sono date dak =k0=k2(1.2)Ovviamente, 0 = 1.Queste quantit, se diverse da 0, costituiscono la memoria del processo, esono appunto lelemento che rende i processi stocastici lo strumento teoricoadatto a rappresentare serie storiche caratterizzate da persistenza. Infatti, se1,= 0, allora si ha chef (xt[xt1) ,= f (xt)e di conseguenzaE(xt[xt1) ,= E(xt), (1.3)chesi putradurre: sext1noto, il valoreattesodi xtnonlostessoche ci attenderemmo sext1fosse incognito. Potremmo estendere linsiemedivariabilicasualisucuieffettuiamoilcondizionamentoancheaxt2, xt3eccetera. Questoinsiemedi variabili casuali prendeavolteil nomedi setinformativo al tempo t 1, e viene indicato con t1.6 CAPITOLO 1. INTRODUZIONEA dire la verit, la denizione precisa di set in-formativo un po complessa: dovremmo par-lare di-algebre ed essere pi rigorosi su cosasiintendepercondizionamento. Largomentoineffetti appassionante, madavverononquesta la sede. Non ci si rimette molto, per,a considerare come set informativo un insiemedi variabili casuali rispetto alle quali possibileeffettuare loperazione di condizionamento. Inun contesto di serie storiche, si suppone che ilpassato sia noto; di conseguenza, ha senso par-lare di condizionamento di una variabile casua-lealtempotrispettoaiproprivaloripassati,perch sext nota,allora lo sono anchext1,xt2 e cos via. Naturalmente, nessuno escludeche nel set informativo al tempo t trovino po-sto anche variabili diverse da quella che stiamocondizionando. Anzi, incerti contesti (comead esempio nella teoria delle aspettative razio-nali)lideadi setinformativoal tempot vie-ne usata come sinonimo di tutta linformazionedisponibile sul mondo al tempo t.Se si osserva una realizzazione di ampiezza T di un processo stocastico xt,si possono denire gli equivalenti campionari dei momenti teorici:media campionaria = T1Tt=1xtvarianza campionaria 2= T1Tt=1(xt )2autocovarianza campionaria k = T1Tt=k(xt )(xtk )Seil processostazionarioedergodico, si pudimostrarechequestequantit sono stimatori consistenti dei momenti del processo6.1.4 Qualche esempioIn che senso, allora, possiamo utilizzare i processi stocastici come idealizza-zionedel processogeneratoredei dati? Lasituazioneincui ci si trovainpratica pressa poco questa: abbiamo una serie storica; posto che la si possaconsiderareunarealizzazionediunprocessostocasticostazionario, cichevogliamo fare trovare il processo che meglio rappresenta la serie. Pi pre-cisamente, ci chiederemo quale tipo di processo presenta realizzazioni che pisomigliano alla serie osservata.Consideriamo ad esempio la serie storica rappresentata in gura 1.1, cheriporta i valori mensili, dallagosto 1983 al luglio 2003, della variazione per-centuale dellindice della produzione industriale sul mese corrispondente del-lanno precedente per gli Stati Uniti. Come si vede, la serie oscilla in modoabbastanza regolare intorno ad un valore centrale, situato grosso modo fra 0e 0.5%. In effetti, la media aritmetica delle osservazioni pari a 0.253%. Sefossimo autorizzati a pensare che il processo che ha generato questi dati fossestazionario ed ergodico, potremmo dire che tale valore una stima del valoreatteso non condizionale del processo.Ma questo processo (posto che esista) stazionario? E se s, anche er-godico? Epiingenerale, qualisonolesuecaratteristichedipersistenza?Guardando il graco difcile dare una risposta, perlomeno se non si ha unacerta pratica. Un aiuto ci viene dallanalisi delle autocorrelazioni campionarie,riportate nella gura 1.2.6Il lettore accorto noter lassenza della correzione per gradi di libert: al denominatore dellavarianza campionaria, ed esempio, c Tanzich T 1. Da un punto di vista asintotico le dueformulazioni sonoevidentementeequivalenti. Quel chesuccedeincampioni niti di solitoconsiderato irrilevante o troppo complicato per essere studiato.1.4. QUALCHE ESEMPIO 7Figura 1.1: Variazioni mensili della produzione industriale USA1.510.5 0 0.5 1 1.5 2 2.5 1985199019952000Figura 1.2: Variazioni produzione industriale USA correlogramma10.5 0 0.5 1 05101520258 CAPITOLO 1. INTRODUZIONEUna gura come la 1.2 si chiama correlogramma; il correlogramma sem-plicemente un istogramma in cui ogni barretta riporta il valore dellautocorre-lazionek in funzione di k, che in ascissa. In altre parole, il correlogrammasi legge cos: se indichiamo con ytil dato al tempo t, la correlazione fra yteyt1 il 22%, quella fra yt e yt2 il 29.7% eccetera. Volendo fare un discorsopropriamente statistico-inferenziale, dovremmo chiederci se queste statistichesonostimatori di grandezze(leautocorrelazioni del processo)signicativa-mente diverse da 0, ma per il momento possiamo accontentarci di considerarlestatistiche descrittive, il cui signicato chiaro: osservazioni consecutive sonofortementecorrelate, ergodifcilmentepossiamoconsiderarleindipendenti,ergo c traccia di una certa persistenza. Allo stesso modo, questa persistenzasembra afevolirsi con landare del tempo: si direbbe che, man mano che ladistanza fra le osservazioni aumenta, il valore assoluto della loro correlazio-ne (che possiamo,a questo stadio,considerare un indicatore di persistenza)tendeadiminuire: a24mesididistanzalacorrelazionedecisamentepicontenuta (-4.5%). Mettendo tutto insieme, si potrebbe dire che da un puntodi vista qualitativo questo quello che ci aspettiamo di vedere in una realiz-zazione di un processo stazionario ed ergodico: una persistenza che inuenzasostanzialmente la serie nel breve periodo, ma che tutto sommato rimane unfenomeno locale.A questo punto,ci si potrebbe chiedere se la serie storica che stiamo os-servando possa essere modellata statisticamente studiando la sua media con-dizionalecoscomesifainunmodellodiregressionelineare. Seinfattiinun modello lineare lequazione yt = x/t + t scinde la variabile esplicativa inuna media condizionale pi un disturbo, nessuno ci vieta di rendere la mediacondizionale una funzione del set informativo t1, e di stimare con gli OLSun modello come il seguente:yt = 0 + 1yt1 + 2yt2 + . . . + t. (1.4)Selofacessimo, utilizzandoadesempiocomesetdi condizionamentoivalori no a quattro mesi prima, otterremmo i risultati mostrati nella tabella1.1.Tabella 1.1: Stima OLS dellequazione (1.4)Coefciente Stima Errore std. Statistica t p-value00.086 0.038 2.2835 0.023310.069 0.066 1.0453 0.297020.207 0.065 3.1890 0.001630.192 0.064 2.9870 0.003140.118 0.065 1.8090 0.0718Media della variable dipendente 0.224 Dev. std. della var. dipendente 0.511Somma dei quadrati dei residui 51.296 Errore std dei residui ( ) 0.473R20.156 F(4, 656) 10.599Senonvogliamoconsiderarequestastimacomeunasemplicestatisticadescrittiva, allora le sue propriet devono necessariamente essere studiate al-linterno di un quadro di riferimento inferenziale appropriato. proprio per1.4. QUALCHE ESEMPIO 9questo che abbiamo bisogno di studiare i processi stocastici: per dare un si-gnicato probabilistico, se possibile, a statistiche come quelle che abbiamo ap-pena visto. Nei capitoli successivi far vedere come e perch la stima appenafatta ha effettivamente senso, e come vada interpretata.Lecose, per, nonsemprevannocoslisce: lagura1.3riportalaseriestorica della variazione percentuale annua dellindice dei prezzi al consumo,sempre per gli USA.Figura 1.3: Inazione USA0.040.02 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 195019601970198019902000Figura 1.4: Inazione USA correlogramma10.5 0 0.5 1 0510152025Siamosicuricheunaseriestoricacomequestapossaesseregeneratadaun processo stazionario?Come si vede, si alternano periodi (anche piuttostolunghi) di inazione alta e bassa. lecito pensare che lipotetico processo chegeneraquestaserieabbiaunamediacostante, comerichiestoperlastazio-nariet? Eperdipi, diamounocchiataalcorrelogramma(gura1.4): inquesto caso,considerare la persistenza come un fenomeno di breve periodo decisamente pi temerario. Lautocorrelazione a 24 mesi pari al 38.9%, enon d mostra di scendere signicativamente.10 CAPITOLO 1. INTRODUZIONESerie storiche come questa, ad alta persistenza, sono estremamente comuniineconomiaedinnanza; peressereanalizzate, devonoessereinqualchemodo ricondotte a realizzazioni di processi stazionari. Questo, in molti casi,si pu fare con strumenti appositi, che hanno dominato leconometria delleserie storiche negli ultimi due decenni del XX secolo. Siccome per sono unpo complessi, noi non li vedremo prima del capitolo 3. Portate pazienza.Figura 1.5: Indice Nasdaq rendimenti giornalieri0.150.10.05 0 0.05 0.1 0.15 020040060080010001200Chiudo questa carrellata di esempi con un caso opposto a quello preceden-te: la variazione percentuale (giornaliera) dellindice Nasdaq dall1/1/2000 al28/2/2005, mostrato nella gura 1.5. Laspetto della serie palesemente molto diverso da quello delle serie mostrate prima: i dati uttuano attorno adun valore di poco superiore allo zero (la media aritmetica -0.054 in altritermini lindice borsistico esaminato sceso in media dello 0.054% al giornonegli ultimi 5 anni), senza che per siano visibili quelle onde lunghe che ca-ratterizzavano le serie della produzione industriale o dellinazione. Questaimpressione confermata dal correlogramma (gura 1.6).Qui di persistenzasenevedepoca. Edaltrondecomprensibile: conbuona pace dei fan dellanalisi tecnica, se ci fosse una regola semplice chelega i rendimenti ai loro valori passati, qualunque cretino potrebbe mettersi afare lo speculatore e trarne protti illimitati7.Maanchequinonmancanoaspettiinteressanti: infatti, landamentoneltempo della serie in gura tipica di moltissime serie nanziarie. In partico-lare, interessante considerare il fatto che landamento nel tempo dellindice caratterizzato da unalternanza di periodi in cui la volatilit del mercato pialta e da altri in cui le variazioni sono di entit pi contenuta. La cosa si vedepiuttosto bene considerando la serie storica dei valori assoluti dei rendimenti(gura 1.7).7Chi del mestiere noter che sto volgarizzando la cosiddetta legge dei mercati efcienticon una disinvoltura che neanche Piero Angela si sognerebbe. Domando scusa.1.4. QUALCHE ESEMPIO 11Figura 1.6: Indice Nasdaq Correlogramma10.5 0 0.5 1 0510152025Figura 1.7: Indice Nasdaq rendimenti giornalieri in valore assoluto 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 020040060080010001200Figura 1.8: Indice Nasdaq Correlogramma dei valori assoluti10.5 0 0.5 1 051015202512 CAPITOLO 1. INTRODUZIONEQui, sivedebene, dipersistenzaceneccome. Inquestocaso, cicheinteressamodellarestatisticamentenontantolapersistenzadellaseriediper s, ma piuttosto della sua volatilit.Naturalmente, il concetto statistico nel quale si traduce la parola volatili-t la varianza (posto che i momenti secondi esistano). Come si vedr in se-guito, per analizzare serie di questo tipo si usano processi stocastici di naturaparticolare, in cui la persistenza eventualmente esistente nella serie si tradu-ce nella dipendenza dal passato della varianza, anzich della media. In altreparole, le caratteristiche di persistenza di questi processi vengono sintetizzatenel fatto cheV(xt[xt1) ,= V(xt). (1.5)Si faccia il confronto con la (1.3): in questi processi, che si chiamano processicondizionalmente eteroschedastici, ci che fa la differenza fra le distribuzionimarginali e quelle condizionali al set informativo t1 appunto la strutturadei momenti secondi, anzich dei momenti primi. Processi di questo tipo sonooramai di largo uso nella nanza empirica pi avanzata.Arrivati n qui, il senso delloperazione che ci accingiamo a compiere do-vrebbe essere abbastanza chiaro. Nel capitolo seguente, faremo la conoscenzadella classe di processi stocastici che fa da fondamento a tutta leconometriadelle serie storiche, e cio i processi ARMA.Capitolo 2I processi ARMAI processi ARMA costituiscono la famiglia di processi stocastici di gran lungapi utilizzati in econometria. Questa scelta ha ragioni teoriche e ragioni pra-tiche, che saranno illustrate nel seguito. Prima di analizzare le caratteristicheprincipali di tali processi, tuttavia, sono necessarie alcune denizioni di base,che formano loggetto dei prossimi paragra.2.1 Loperatore ritardoTantoiprocessistocasticicheleseriestorichesono, inbuonasostanza, se-quenze di numeri. Capiter molto spesso di dover manipolare tali sequenze,e lo faremo per mezzo di appositi operatori. Loperatore ritardo viene gene-ralmente indicato con la lettera L nella letteratura econometrica (gli statisticipreferisconolaB); unoperatorechesi applicaasequenzedi numeri, etrasformaunasequenza(stocasticaono)xtinunaltrasequenzachehalacuriosa caratteristica di avere gli stessi valori di xt, ma sfalsati di un periodo1.Se applicato ad una costante, la lascia invariata. In formule,Lxt = xt1Lapplicazione ripetuta n volte di L viene indicata con la scrittura Ln, e quindisi ha Lnxt = xtn. Per convenzione si pone L0= 1. Loperatore L un opera-tore lineare, nel senso che, se a e b sono costanti, si ha L(axt + b) = aLxt + b =axt1 + b.La caratteristica pi divertente delloperatore L che le sue propriet appe-na enunciate permettono, in molte circostanze, di manipolarlo algebricamentecome se fosse un numero. Questo avviene soprattutto quando si consideranopolinomi nelloperatore L. Facciamo un paio di esempi semplici.Esempio 2.1.1Unasquadradicalciohainclassicatantipuntiquantineavevaalla giornata precedente, pi quelli che ha guadagnato nellultimo turno. Chiamando1In certi contesti, si utilizza anche il cosiddetto operatore anticipo, usualmente indicato con laletteraF e denito come linverso delloperatore ritardo (Fxt= xt+1). Noi non lo useremo mai,ma bello sapere che c.1314 CAPITOLO 2. I PROCESSI ARMArispettivamente queste sequenze ct e ut, si avrct = ct1 + utLa stessa cosa si sarebbe potuta scrivere adoperando loperatore ritardo:ct = Lct + utct Lct = (1 L)ct = ct = utLoperatore , che dovrebbe essere una vecchia conoscenza, denito come(1 L),ossia un polinomio di primo grado in L. Lespressione precedente non dice altro che lavariazione dei punti in classica data dai punti guadagnati in ogni giornata.Esempio 2.1.2Chiamiamo qt il saldo demograco trimestrale per il comune di RoccaCannuccia. evidente che il saldo demograco annuale (cio le nascite degli ultimi12 mesi meno le morti nello stesso periodo) sono date daat = qt + qt1 + qt2 + qt3 = (1 + L + L2+ L3)qtPoich(1 + L + L2+ L3)(1 L) = (1 L4) (moltiplicare per credere), molti-plicando lespressione precedente2per (1 L) si haat = (1 L4)qt = qtqt4la variazione del saldo demograco annuale tra un trimestre ed il successivo non chela differenza fra il saldo dellultimo trimestre e il corrispondente trimestre dellannoprecedente.Lemanipolazioni possonoessereanchepicomplesse; inparticolarecisono due risultati di routine: il primo cheni=0ai= 1 an+11 aper a ,= 1. Se poi [a[ q.Si noti che:Lespressione per la varianza un caso particolare della formula prece-dente, ponendo k = 0;per k > q, le autocovarianze sono nulle.UnprocessoMA(q), quindi, unprocessoottenutocomecombinazionedidiversi elementi di uno stesso white noise che presenta delle caratteristiche dipersistenza tanto pi pronunciate quanto pi alto il suo ordine. Questulti-mo pu anche essere innito; in questo caso, tuttavia, lesistenza dei momentisecondi (e quindi la stazionariet) garantita solo nel caso in cui qi=02i0)C(L)1A(L)yt = A(L)yt = tIn questo caso, si dice anche che il processo invertibile.Le caratteristiche dei momenti di un processo ARMA(p, q) possono esserericavate in modo concettualmente semplice (ma algebricamente esasperante)dalla sua rappresentazione in media mobile, e non le riporto qui. Lunica ca-ratteristica che mi pare degna di menzione che se aggiungiamo unintercetta,si dimostra facilmente8che la media del processo ancoraA(1). La cosa, poi,si pu ulteriormente generalizzare (e, in parecchi casi, rendere pi aderente8Dimostrazione lampo: A(L)yt= + C(L)t=E[A(L)yt] = + E[C(L)t]. Per la linearitdegli operatori E e L, si ha che A(L)E[yt] = + C(L)E[t] = . Ma se yt stazionario E[yt] esistenito e costante, per cui A(L)E[yt] = A(1)E[yt], da cui E[yt] =A(1).30 CAPITOLO 2. I PROCESSI ARMAalla realt), prevedendo la possibilit di una media non nulla e variabile neltempo, ovvero un processo del tipoA(L)yt = (xt, ) + C(L)t,a somiglianza di un modello di regressione. Un modo alternativo di scriverequesta cosa quello di pensare a un modello del tipoyt = t + ut,dove t =1A(L)(xt, ) e ut =C(L)A(L)

t, ovvero come ad un modello di regressio-ne dove gli errori sono dati da un processo ARMA(p, q). Come si vede, facilepassare da una rappresentazione allaltra.Che senso ha studiare processi ARMA? In linea teorica, nessuna, visto cheil teorema di rappresentazione di Wold ci dice che qualunque processo stazio-nario pu essere rappresentato come un processo MA. Da un punto di vistapratico, tuttavia, c il problema che la rappresentazione di Wold , in gene-rale, innita. Questo non un problema a livello teorico, ma lo diventa nellapratica: la serie che osserviamo viene infatti pensata come realizzazione di unprocesso stocastico, i cui parametri sono i coefcienti dei polinomi nellopera-tore L che ne determinano le caratteristiche di persistenza (pi la varianza delwhite noise).Se si considera una serie osservata come una realizzazione di un qualcheprocessostazionario, utilizzareunprocessoMAperriassumernelecaratte-ristichedi mediaecovarianzacomportaquindi il problemainferenzialedistimare un numero potenzialmente innito di parametri.Infatti, se pensiamoche yt sia rappresentabile in forma MA comeyt = B(L)tniente ci assicura che il polinomio B(L) non sia di ordine innito. Si pu perpensare di usare unapprossimazione di B(L); in particolare, pu darsi che siriescano a trovare due polinomi di ordine nito (e possibilmente basso) A(L)e C(L) tali per cuiB(z) C(z)A(z)Se luguaglianza fosse esatta, si potrebbe allora scrivereA(L)yt = C(L)tSe luguaglianza vale solo in modo approssimato, allora si avrA(L)yt = C(L)tdove

t=A(L)C(L) B(L)tIl processo tnon , a rigore, un white noise, ma se le sue autocovarianze nonsono troppo grandi, pu essere considerato tale a tutti i ni pratici. Si potrebbe2.5. PROCESSI ARMA 31dire, da unaltra prospettiva, che considerare tun white noise costituisce unametafora dei dati che non molto pi fuorviante di quella basata sut, ossiasulla rappresentazione di Wold e che ha il vantaggio di basarsi su un numeronito di parametri.In pratica, un modello ARMA viene costruito facendo unipotesi a priorisui gradi dei due polinomiA(L) e C(L) e poi, una volta stimati i coefcientideipolinomi, esaminandoleautocorrelazionicampionariedellaseriecorri-spondente at. Se queste non sono troppo grandi, non ci sono problemi disorta a considerare tcome un white noise9.Lesigenza di tener basso il numero dei parametri dei polinomi conduce,in certi casi, a lavorare con dei modelli noti come ARMA moltiplicativi, chesiusanosoprattuttoperseriecaratterizzatedapersistenzastagionale, echequindi sono anche conosciuti come ARMA stagionali, o SARMA.Adesempio: consideriamolaseriestoricamensiledellepresenzaalber-ghiere nel comune di, che so, Riccione. chiaro che c una forte stagionalit,nel senso che il dato di agosto somiglia probabilmente molto di pi a quellodi agosto dellanno prima piuttosto che a quello di marzo dello stesso anno,chepivicinonel tempo, maidealmentepidistante. Persemplicit,immaginiamo di voler utilizzare un modello autoregressivo puro, cio senzaparte MA. Unapplicazione bovina delle idee esposte n qui condurrebbe, evi-dentemente,alluso di un polinomio di ordine (almeno) 12,e quindi di unastrutturaconundiscretonumerodi parametri; molti di questi, per, sonoprobabilmente ridondanti, perch magari la media condizionale del mese diagosto dipende s da agosto dellanno prima, ma non si vede perch il dato difebbraio dovrebbe essere rilevante. Questa osservazione, di per s, ci condur-rebbe semplicemente ad utilizzare un polinomio A(L) con dei buchi, ossiadeicoefcientiparia0. Unmodopieleganteepiefcientequellodiscrivere il polinomio dividendo gli effetti stagionali dagli altri.Consideriamoil polinomio dato daA(L) = (1 L)(1 Ls) = 1 L Ls+ ()Ls+1,dove s il numero di sottoperiodi (cio 12 per i mesi in un anno, e cos via).Ovviamente, A(L) , in questo caso, un polinomio di ordine s +1, i cui coef-cienti sono tutti nulli, a parte tre: quelli di ordine 1, s e s + 1. Il numero diparametri che lo caratterizzano, per, solo 2, perch il coefciente di ordines +1 il prodotto degli altri due, cosicch possibile modellare un andamentostagionale anche piuttosto lungo tenendo sotto controllo il numero dei para-metri necessari per farlo. In particolare, gli effetti stagionali sono sintetizzatinel solo parametro , azzerando il quale gli effetti stagionali scompaiono.Evidentemente, un giochino del genere pu essere anche fatto sul polino-mio C(L),per cui il grado di essibilit a cui si giunge pu essere notevolesenza che la dimensione dei parametri esploda in modo incontrollato. Gene-ralizzando in modo ovvio lespressione sopra, si ha un modello che pu esserescritto comeA(L)B(Ls)yt = C(L)D(Ls)t9Sulle tecniche di stima, vedi il paragrafo 2.732 CAPITOLO 2. I PROCESSI ARMAche contiene, appunto, le parti stagionali autoregressiva B(Ls) e a media mo-bileD(Ls). Selordinedei polinomi B()eD()zero, si ricadenel casoARMA puro e semplice.2.6 Uso dei modelli ARMASe i parametri di un processo ARMA sono noti, il modello pu essere usatoper due scopi: previsione dellandamento futuro della serie e/o analisi dellesue caratteristiche dinamiche.2.6.1 PrevisionePer quanto riguarda il primo punto, la miglior previsione per i valori futuri diyt si pu calcolare sulla base di questo ragionamento: deniamo come previ-sore di ytuna qualche funzione delle variabili contenute nel set informativoT1. Un previsore, cio, una qualche regola che determina la previsioneche facciamo su yt dati i suoi valori precedenti, che supponiamo di conoscere.Chiamiamoquestovalore yt=f (yt1, yt2, . . .). Naturalmente, questarego-lacelainventiamonoi, esi poneil problemadi inventarcelainmodochefunzioni bene.SeytunprocessoARMA(orappresentabilecometale), unavoltacheabbiamo il modello nella forma A(L)yt = C(L)t, unipotesi sulla distribuzio-ne ditci mette in condizione, almeno in linea di principio, di determinarela distribuzione della variabile casuale yt[T1. evidente che questo ci met-te in grado anche di determinare la distribuzione condizionale dellerrore diprevisione, cio della variabileet = yt yt.La distribuzione di et[T1 diventa rilevante se dobbiamo scegliere qualefunzione usare come previsore. A rigore, una scelta ottimale dovrebbe esserefatta secondo questo criterio:1. in primo luogo, scegliamo una funzione c(et) (cosiddetta di perdita), cheassocia un costo allerrore di previsione. In generale, si ha che c(0) = 0(il costo di una previsione perfetta 0) e c(et) 0 per et,= 0.2. Deniamo a questo punto la perdita attesa comec = E[c(et)[T1] = E[c(yt yt)[T1] ;la grandezza c il costo che in media ci tocca sostenere a causa delleprevisioni sbagliate. Naturalmentevogliamocheessasiapipiccolapossibile.3. Siccome c una funzione di yt, scegliamo yt in modo tale da minimiz-zare c, ossia deniamo ytcome quella funzione che minimizza il costoatteso dellerrore di previsione.2.6. USO DEI MODELLI ARMA 33Dovrebbe essere chiaro a questo punto che quale sia il miglior previsoredipendedallecaratteristichedellafunzionediperditaeperogniproblemapratico il previsore ottimo pu essere diverso. Lesempio che faccio sempre la prenotazione di un ristorante: poich in questo caso la funzione di perditaasimmetrica(meglioaveresedievuotechegenteinpiedi), convienesem-pre prenotare per un numero di persone leggermente superiore di quello cherealmente si pensa.Per fortuna, per, la faccenda diventa molto meno intricata se la funzionedi perdita quadratica, cio se C(et) =e2tper positivo qualunque. In questocaso (che spesso pu essere preso come approssimazione soddisfacente dellafunzionedicostopiappropriata)sipudimostrareche ytcoincideconilvalore atteso condizionale:C(et) = e2t= yT+1 = E(yT+1[T).Questa propriet cos comoda che nella stragrande maggioranza dei casi siprendelamediacondizionalecomeprevisoresenzaneanchegiusticarelascelta.Dato un insieme di osservazioni che vanno da 1 a T, ammettiamo perciche il miglior previsore di yT+1 sia la sua media condizionale al set informa-tivo di cui disponiamo, ossia yT+1 = E(yT+1[T). (2.10)Nel caso di un modello AR puro, la soluzione banale, poich tutti i valori diy no al tempo T sono noti, e quindi E(ytk[T) = ytk per qualunque k 0:E(yT+1[T) = 1yT + + pyTp+1 + E(T+1[T)ma il valore diE(T+1[T) evidentemente 0, poich lassenza di memoriadel white noise garantisce10che non ci sia informazione disponibile al presentesul futuro di; di conseguenza, E(T+1[T) = E(T+1) = 0. La previsione diyT+1 quindi yT+1 = 1yT + + pyTp+1(2.11)Vistocheancorastiamosulteorico, quistiamoassumendocheilsetinfor-mativo a nostra disposizione si estenda innitamente allindietro nel passato,cosachecisemplicamoltolecose, perchsignicache yT+1facilmentecalcolabiletramitela(2.11). Seilnostrosetinformativo(comeaccadenellarealt) si interrompe ad una qualche data iniziale, il meccanismo vale ancoraper processi stazionari, anche se in modo approssimato.Per la previsione a due periodi in avanti, ripetiamo il ragionamento prece-dente partendo dallespressione: yT+2 = E(yT+2[T) = 1E(yT+1[T) + + pyTp+2 + E(T+2[T)che si dimostra facilmente essere pari a yT+2 = 1 yT+1 + + pyTp+210Illettorepignolofarrimarcarechequistoimplicitamenteassumendochetsiaunadif-ferenzadimartingala, chenonnecessariamentecoincideconunwhitenoise. Ebbenes, lostoassumendo.34 CAPITOLO 2. I PROCESSI ARMAe pi in generale yT+k = 1 yT+k1 + + p yT+kp,dove naturalmente yT+k = yT+k per k 0. Si noti lintrigante parallelismo fraA(L)yt= teA(L) yt= 0, acui si arrivafacilmenteconsiderandoil valoreatteso (condizionale a t1) della prima delle due espressioni.Esempio 2.6.1Dato un processo AR(2) cos parametrizzatoyt = 0.9yt10.5yt2 + t,supponiamo di osservarne una realizzazione,e che le ultime due osservazioni sianopari a: yT1 = 2 e yT = 1. La miglior previsione per yT+1 quindi yT+1 = 0.9 1 0.5 2 = 0.1per la previsione di yT+2 risulta yT+2 = 0.9 (0.1) 0.5 1 = 0.59esipucontinuare; perlacronaca, icinquevaloriseguentisono-0.481, -0.1379,0.11639, 0.173701, 0.098136Naturalmente, la valutazione della media condizionale d un valore puntuale,manondicenullasullattendibilitdellaprevisione, ciosulladispersionedellerrore che ci attendiamo di commettere.In termini pi statistici, necessario valutare anche la varianza dellerroredi previsione. Questo non un argomento su cui vorrei intrattenermi pi ditanto. Allettoreinteressatomilimitoasuggerire, oltreaisolitiriferimentibibliograci chetrovainfondo, cheunutileeserciziopuesserequellodiprovare che, nel caso di un AR(1),V( yT+k) = 21 2k1 2Pu essere interessante notare che la varianza dellerrore di previsione sempreminoredellavarianzanoncondizionaledi yt: questosignicachesfruttarelecaratteristichedipersistenzadellaseriestoricapermettediren-dere meno incerto il suo comportamento futuro. Peraltro, per k , le duevarianzetendonoacoincidere, equestoavvieneperchnei processi AR(1)stazionari la persistenza ha sempre un carattere di breve periodo. La cono-scenza dello stato del sistema oggi non informativa sul futuro remoto delsistema stesso pi di quanto non lo sia la sua distribuzione non condizionale:per k abbastanza grande, yt e yt+k sono virtualmente incorrelate (e quindi, segaussiane, virtualmente indipendenti).In pratica, poi, le cose sono un tantino pi com-plicate. Intantoperchqui stiamoipotizzan-dodiconoscereiveriparametridelprocesso,quandoinrealt disolitolavoriamocondellestime, e quindi la varianza dellerrore di previ-sione dipende non solo dalla variabilit intrin-2.6. USO DEI MODELLI ARMA 35seca del processo, ma anche dal fatto che esisteincertezza sui parametri del processo stesso.Ad esempio, nel caso di un processo AR(1) percui avessimo una stima del parametro, il ra-gionamento nqui seguito ci condurrebbeadanalizzare yT+k = E(yT+k[T) = E( yT+k1[T),dove non pu essere tirato fuori dellopera-tore valore atteso perch uno stimatore e nonuna costante. Va detto, peraltro, che questa di-stinzioneimportanteperquestioni teoriche,ma in pratica la distinzione scompare e normal-mente si fa uso dei parametri stimati come sefossero quelli veri.Nel casopigeneraledi processi ARMA, leprevisioni si possonofareapplicando ancora lo stesso concetto. In particolare, si noti che, se t1nonhalimitetemporaleinferiore, alloraessocomprendenonsolotutti i valoripassati di yt, ma anche quelli dit: se infatti il processo invertibile, si puscrivereC(L)1A(L)yt = G(L)yt = tda cui

tk = ytk + g1ytk1 + g2ytk2 +e quindi sono noti (nel senso ricavabili da t1) anche tutti i valori del whitenoise no al tempo t 1. A questo punto, si pu applicare ad ogni ingredientedi un modello ARMA loperatore valore atteso condizionale. Il fatto che poiil set informativo a nostra disposizione non sia innito rappresenta solo unproblema di minore entit. Se infatti noi abbiamo solo osservazioni nellar-coditempo 0 T, unasoluzionemoltocomodaquelladiestendereilnostrosetinformativoallindietrousandoivalorimedinoncondizionalidiy1, y2,eccetera. Se il processo stazionario ed ergodico, al crescere delcampione non c differenza11.Esemplico nel caso di un ARMA(1,1), perch una volta capito il concettola generalizzazione banale. Supponiamo quindi di sapere che il processo hala formayt = yt1 + t + t1.Mettiamoci allistante 0, in cui non abbiamo alcuna osservazione. Qual lamigliore previsione che possiamo fare su y1?Visto che non abbiamo dati, lamedia condizionale coincide con la media marginale, e quindi y1 = E(y1) = 0.Passa un periodo, e osserviamo il dato effettivo y1. A questo punto, possiamocalcolare lerrore di previsione per il periodo 1, ossia e1 = y1 y1; poich y1 0, per i motivi che abbiamo appena detto, ne consegue che e1 = y1. A questopunto, possiamo calcolare y2, con la seguente formula: y2 = E(y2[1) = E(y1 + 2 + 1[1) = E(y1[1) + E(2[1) + E(1[1).Ragioniamo un addendo per volta,tenendo a mente che 1 = y1: evidente-mente, i primi due termini non pongono problemi, perchE(y1[1) = y1(ovvio)eE(2[1) = 0(peripotesi). Machediredi E(1[1)? Poich1anche interpretabile come lerrore di previsione che si commetterebbe al tem-po 0 se il set informativo fosse innito, allora la miglior previsione possibile che11Il calcolo esatto, volendo, si pu fare. Ci sono molti modi, ma il pi comune anche perchfacilmente automatizzabile quello di usare un attrezzo che si chiama ltro di Kalman. Per chivuole saperne di pi, c la letteratura.36 CAPITOLO 2. I PROCESSI ARMApossiamo fare sullerrore di previsione al tempo 1 esattamente lerrore di previsioneche abbiamo effettivamente commesso. In base a questo ragionamento, possiamoformulare la nostra previsione su y2 come y2 = y1 + e1.Facciamo passare un altro periodo, e osserviamo y2; da qui calcoliamo e2, eil giochino prosegue, nel senso che a questo punto abbiamo tutto quel che ciserve per calcolare y3 =y2 + e2, eccetera eccetera. In pratica, le previsioniun passo in avanti su processi del tipoyt = 1yt1 + + pytp + t + 1

t1 + + q

tqsi fanno cos: yt = 1yt1 + + pytp + 1et1 + + qetq, (2.12)ovveroutilizzandoi valori effettivamenteosservati delleytei valori deglierrori di previsione passati al posto delle ti.Piccoladigressione. Ci si potrebbelegittima-mente chiedere quale sia il valore pratico delleprevisionifatteinquestomodo; ineffetti, noiabbiamo sempre a che fare con serie storiche acui associamo processi ARMA solo come rap-presentazione stilizzata e approssimata. In altritermini, le caratteristiche storiche di persistenzadella serie vengono sintetizzate giocando a farntachelaseriecheosserviamosiaunarea-lizzazionediunprocessoARMAche, guardacaso, ha proprio quelle caratteristiche.Non c nessun motivo logico, per, per cui unaapprossimazione che andava bene per il passa-tocontinuiadandarebeneperilfuturo. Perconsiderareattendibileunaprevisionedi unaseriestoricafattainquestomodo, necessa-rio assumere, pi o meno implicitamente, chelinsieme di circostanze che hanno no ad oggicongiurato a far s che quel certo processo fos-seunabuonaapprossimazionedellandamen-to di quella certa serie storica continuino a va-lereperlorizzontetemporalecheciinteressaprevedere.Questa condizione spesso verosimile quandolaserieunadescrizionedi unfenomeno-sico (ad esempio, la temperatura rilevata gior-nalmenteallaeroportodiFalconaraalleore8del mattino) ragionevolmente stabile. Tuttavia,nel caso di fenomeni economici questa pu es-sereunipotesi piuttostocoraggiosa, inquan-tolacatenacausaledi eventi checoncorronoadeterminareil valoredellaserieinundatomomento verosimilmente pi instabile: riter-rei pocoseriofareunaprevisionedel prezzodel petrolio greggio che si basi esclusivamentesu un processo ARMA e che, ad esempio, nontenga conto della situazione politica interna delVenezuela. Per meglio dire, la previsione di unmodello ARMA va presa per buona come pre-visione condizionale ad uno scenario: se e solose la situazione politica in Venezuela (e in Iran,e negli Stati Uniti, eccetera eccetera) rimane piomenoquelladi oggi, allorasi pudirecheeccetera eccetera.2.6.2 Analisi delle caratteristiche dinamicheQuestoaspettogeneralmenteindagatofacendousodellacosiddettafun-zione di risposta di impulso. Cos la funzione di risposta di impulso? Larispostaaquestadomandapassaattraversounaconsiderazionechepossia-mo fare alla luce di quanto detto nel sottoparagrafo precedente: consideriamolequazioneyt = E[yt[t1] + t = yt + t,che segue dallequazione (2.10).2.6. USO DEI MODELLI ARMA 37Il valore di yt pu quindi essere interpretato come la somma di due com-ponenti: una ( yt) che, almeno in linea di principio, perfettamente prevedibiledato il passato; laltra (t) assolutamente imprevedibile. In altri termini, si pupensare che il valore di ytdipenda da una componente di persistenza a cuisi somma un disturbo, o, come si usa dire, shock casuale che riassume tuttoci che successo al tempo t che non poteva essere previsto. Leffetto di que-sta componente, tuttavia, si riverbera anche nel futuro della serie yt attraversoleffetto persistenza. per questo che, sovente, il white noise t viene chiamato,in forma pi neutra, errore di previsione ad un passo o innovazione.Lidea, a questo punto, la seguente: se scriviamo il processo in forma MAyt = A(L)1C(L)t = B(L)tsi pu pensare alli-esimo coefciente del polinomio B(L) come alleffetto chelo shock avvenuto i periodi addietro ha sul valore attuale di y, o, equivalente-mente, allimpatto che gli avvenimenti di oggi avranno sulla serie studiata frai periodi.bi =ytti=yt+itLa funzione di risposta di impulso, insomma, data semplicemente dai coef-cienti della rappresentazione MA del processo, e viene generalmente esami-nataconungracochehainascissaivaloridii edinordinataivaloridibi.PercalcolarsilarappresentazionediWolddiunprocessoARMAdicuisiano noti i parametri, quindi, bisogna calcolarsi il polinomio inverso di A(L).Questo pu essere piuttosto noioso, specie se lordine della parte autoregres-siva alto. Un algoritmo di calcolo decisamente pi semplice, che pu essereimplementato anche su un comune foglio elettronico, il seguente:1. Denite una serieetche contiene tutti zeri fuorch per un periodo, incui vale 1. Detto in un altro modo, denite una et per cui e0 = 1, e et = 0per t ,= 0.2. Denite una serie it, che imponete uguale a 0 per t (0)ad ogni iterazione, cosicch prima o poi si arriva sul massimo.Qualcuno avr notato che lalgoritmo di cui pri-ma dipende in modo cruciale da quel che suce-deal punto3. Finchs(0)nonpiccolo,lalgoritmo va avanti. Indi, dobbiamo deciderecosavuoldirecheunvettorepiccolo, pernoncorrereilrischioditrasformarelanostraCPU in una palla di fuoco.Questo uno di quesi casi in cui una doman-dasemplicesoloinapparenza: cisonovarimodi di rispondere e come al solito, nessuno giusto. Uno dei criteri pi comuni decide-re che s(0) zero quando nessuno dei suoielementi eccedeinvaloreassolutounasogliapressata, tipo1.0E-07ogidi l. Manonlunico e non necessariamente il migliore.Di solito, le funzioni di verosimiglianza che si hanno in questi casi sonopiuttostolisceelapossibilitdi averemassimi multipli trascurabile. Diconseguenza, basta essere in grado di calcolare le derivate prime della vero-simiglianza per qualunque vettore per essere in grado arrivare prima opoi sul massimo. Inoltre, la letteratura si scatenata per almeno ventan-ni sul problema particolare delle funzioni di verosimiglianza di modelli AR-MA gaussiani, cosicch gli algoritmi che oggi si trovano precotti nei pacchettieconometrici sono particolarmente stabili ed efcienti.2.7.2 Scelta degli ordini dei polinomiPerquantoriguardail secondoproblema, lasceltadellordinedei polino-miA(L) e C(L) unoperazione di alto artigianato, che richiede conoscenzeteoriche, esperienza ed occhio.Il modo in cui si procede di solito12 basato sul fatto che esistono dei criteri(ossia, delle procedure di test) che ci permettono di stabilire se un processo un white noise o possiede della persistenza; il pi diffuso il cosiddetto testdi Ljung-Box, che basato sul fatto che in grandi campioni le autocovarianzecampionarietendonoa0nelcasodiunwhite noise: lastatisticatestveraepropria LB(p) = T(T +2)pi=1 2iT i;si noter che essa sostanziamente una somma ponderata dei quadrati delleautocorrelazioni campionarie no allordine p. Pi queste sono piccole, pi iltest viene piccolo; lipotesi nulla che il vero valore di tutte le autocorrelazionino allordine p sia 0, e i valori critici sono quelli della 2p.12Questa una descrizione semplicata in modo quasi insolente di quella che di solito vienedescritta come metodologia di Box-Jenkins, per cui rimando alla letteratura.42 CAPITOLO 2. I PROCESSI ARMALidea che, sotto le ipotesi di ergodicit e stazionariet, le autocorrelazionicampionarie siano stimatori consistenti di quelle teoriche pu essere sfruttataanche in modo pi generale. Come abbiamo gi visto, infatti, ci sono dellerelazioni ben precise fra ordine dei polinomi e autocorrelazioni. Dallesamedelle autocorrelazioni campionarie si pu fare unipotesi di partenza sugli or-dini dei polinomi. Se, ad esempio, si nota che le autocorrelazioni campionariesi interromponobruscamenteal di ldi uncertoordineq, si pupensaredi usare un modello MA(q), le cui autocorrelazioni teoriche hanno la stessacaratteristica. Se invece le autocorrelazioni digradano dolcemente, forse me-glio un processo AR. Questa fase nota nella letteratura statistica come fasedi identicazione. Questo termine genera a volte un po di confusione, per-ch normalmente in econometria la parola identicazione vuol dire unaltracosa13.In questa fase, si adoperano a volte anche statistiche note come autocorre-lazioni parziali (le quali, in pratica, non si usano che a questo scopo). Denirele autocorrelazioni parziali rigorosamente un po macchinoso. Si fa primaadirecomesi calcolano: lautocorrelazioneparzialedi ordinepsi calcolafacendounaregressionedi ytsuunacostanteeyt1. . . ytp. Ilcoefcienteassociatoaytpcherisultalautocorrelazioneparzialedi ordinep. Que-stegrandezzesiinterromponobruscamentenelcasodimodelliARpuri, escendono gradualmente nel caso di modelli MA puri.Mi permettounapiccolatiratapolemica: an-cora oggi, chi insegna queste cose portato adammorbare i propri studenti con queste tecni-che un po da rimedio della nonna per sceglierep e q facendo elaborate considerazioni sulla for-ma delle funzione di autocorrelazione e tacen-do pudicamente il fatto che nella maggioranzadei casi che si incontrano in pratica o uno ha unocchio molto allenato oppure non ci si capisceniente. Il fatto che queste tecniche sono stateinventateinunepocaincuiuncomputererauna rarit da scienziati, e fare una stima di unARMA era difcile e costoso, per cui tante pro-ve non si potevano fare ed era essenziale avereunidea il pi possibile precisa di possibili va-lori di p e q prima di tentare la stima. Oggi sti-mare un modello ARMA ridicolmente facile,e larte dellinterpretazione dei correlogrammila lasciamo agli appassionati del genere vintage.Unavoltafattalastima, sicontrollaseiresiduisono white noise, quasisempre col test di Ljung-Box o con statistiche equivalenti. Unaltra classe distatistiche che si usano in questo contesto sono i cosiddetti criteri di informazio-ne, come ad esempio quello di Akaike (spesso abbreviato in AIC) o quello diSchwartz (spesso abbreviato in BIC); luso di queste statistiche motivato conconcetti presi dalla teoria dellinformazione, ma mi contento di rinviare allaletteratura per i dettagli. Qui mi basta dire che fra due modelli, quello mi-gliore dovrebbe avere un indice AIC o BIC pi basso, in quanto tutti questi13Ricordo brevemente cosa si intende per identicazione di un modello nellaccezione comunein econometria: un modello econometrico si dice sotto-identicato se esiste pi di una rappre-sentazionedei dati coerenteconcichesi osserva. Inpratica, nonpossibiledecideresullabase dei dati se sia pi giusta la rappresentazione A o la rappresentazione B; in questi casi, siusa lespressione equivalenza osservazionale. Se il modello parametrico (come nella maggiorparte dei casi), esso identicato se la funzione di verosimiglianza ha un solo massimo assoluto;di conseguenza, una condizione necessaria per lidenticazione la non singolarit dellHessianonelpuntodimassimo. Lidenticazione, chiaramente, asuavoltacondizionenecessariaperlesistenza di uno stimatore consistente.2.7. STIMA DEI MODELLI ARMA 43criteri possono essere scritti nella formaC = 2L() + c(k, T)dovekil numerodi parametri stimati eTlampiezzacampionaria; lafunzionec(k, T)crescenteink, percui aparitdi verosimiglianzavienescelto il modello pi parsimonioso. Ad esempio, per il criterio di Schwartz,c(k, T) = klog(T).In questa fase, importante non scegliere degli ordini dei polinomi trop-poalti, per il cosiddettoproblemadei fattori comuni: datounprocessoARMA(p,q) della formaA(L)xt = C(L)t chiaro che, applicando loperatore (1 L) ad entrambi i lati delluguaglian-za, la relazione continua ad essere vera. ChiamiamoA(L) = (1 L)A(L)eC(L) = (1 L)C(L)e quindiA(L)xt = C(L)t. (2.13)Si noti chelarappresentazionedi Woldbasatasul modelloARMA(p +1,q + 1)assolutamentelastessadiquellabasatasulmodelloARMA(p,q),perch i fattori (1 L) si semplicano. Il processoxt,quindi,ha una rap-presentazione ARMA(p +1,q +1) del tutto equivalente. Poich questo veroper qualunque valore di , ovvio che il modello non identicato (nel sensoeconometrico; vedi nota 13), perch ogni valore di equivalente dal puntodivistaosservazionaleequindinonstimabile(ilvaloredellafunzionediverosimiglianzalostessoperqualunque, equindinoncunmassimounico: di massimi ce ne sono inniti, uno per ogni valore di.).Detta in un altro modo, esistono inniti polinomi A(L) e C(L) che con-duconoallastessarappresentazionedi Wold, equindi allastessafunzionedi autocovarianza. Lequivalenza osservazionale nasce esattamente dal fattoche le autocovarianze campionarie non ci pemettono di discriminare fra valoridiversi di.Faccio un esempio che forse meglio: che tipo di processo yt = 0.5yt1 + t0.5t1?Facile, direte: un ARMA(1,1). Giusto. Per anche un white noise; infattiyt = 1 0.5L1 0.5L

t = t.In pratica abbiamo scritto un white noise come un ARMA(1,1). Questultimarappresentazione ridondante, ma non sbagliata. La cosa importante da notare che il numero 0.5 del tutto irrilevante: avrei potuto usare 0.7, 0.1 o che soio. Di rappresentazioni non sbagliate ce ne sono innite.44 CAPITOLO 2. I PROCESSI ARMADa un punto di vista pratico, modellare un ARMA(p,q) con un ARMA(p +1,q +1) porta ogni sorta di problemi. Intanto, perch lalgoritmo numerico fafatica a convergere (e non sorprende, visto che non c un massimo unico). Insecondo luogo, perch (anche ammesso che la convergenza alla ne avvenga),il punto di massimo che troviamo solo una delle innite rappresentazionipossibili del modello14.Di solito, ci si accorge di questa situazione dal fatto che gli errori standardstimati dei coefcienti esplodono; questo succede perch, tentando di stimareun modello non identicato, la matrice di informazione che viene stimata ten-de ad una matrice singolare. Invertendola, vengono fuori numeri giganteschiper la matrice varianze-covarianze dei coefcienti.2.7.3 Calcolo della verosimiglianzaIl terzo problema pi intrigante: bisogna, in sostanza, scrivere la funzionedi verosimiglianza con unespressione alternativa che non richieda il calcolodi matrici di dimensione sproporzionata. Questo argomento stato studiatoa fondo, ed bene rinviare alla letteratura per una discussione esauriente, main questa sede voglio illustrare una tecnica piuttosto interessante, che va sottoil nome di fattorizzazione sequenziale.Per illustrare questa tecnica, sar utile partire dalla denizione di probabi-lit condizionata, che P(A[B) = P(A B)P(B)da cuiP(A B) = P(A[B)P(B) = P(B[A)P(A)Se applichiamo questa regola alla funzione di densit di una variabile casualedoppia, otteniamof (x, y) = f (y[x) f (x) = f (x[y) f (y) (2.14)Il giochino pu essere ripetuto anche con una variabile casuale tripla, ottenen-dof (x, y, z) = f (x[y, z) f (y, z) = f (y[x, z) f (x, z) = f (z[x, y) f (x, y) (2.15)Mettendoassiemeleduerelazioni (2.14) e(2.15), chiarochesi puscrivere, ad esempio,f (x, y, z) = f (z[x, y) f (x, y) = f (z[x, y) f (y[x) f (x)e quindi una funzione di densit congiunta di n variabili casuali pu esserescrittaf (x1, . . . , xn) =ni=1f (xi[x1, . . . , xi1)14 vero che tutte queste rappresentazioni hanno la stessa rappresentazione di Wold, per cuile previsioni a cui portano e le risposte di impulso che generano sono identiche, ma abbiamo ilproblema che qualunque tipo di test in questo caso ci precluso. Infatti, il punto di massimoche troviamo soltanto uno degli inniti possibili, e quindi lHessiano della funzione di verosi-miglianza singolare. Poich tutte le statistiche test sono basate in qualche modo sulla curvaturadella funzione di verosimiglianza, chiaro che i test non si possono fare2.7. STIMA DEI MODELLI ARMA 45cos da trasformare una funzione di molte variabili in una produttoria di fun-zioni di una variabile. Si noti che, quando le variabilixisono indipendenti,f (xi[x1, . . . , xi1) = f (xi) e (come noto), la funzione di densit congiunta ilprodotto delle marginali.Poich la funzione di verosimiglianza non che la funzione di densit delcampione, questa stessa scomposizione pu essere applicata alla funzione diverosimiglianza, e sar tanto pi utile quanto pi semplici sono le espressionidelle densit condizionali. Inoltre, la caratteristica dei modelli ARMA per cuiyt = E(yt[t1) + t(vedi equazione (2.10)) fa s che, condizionatamente a t1, la distribuzionedi yt sia la stessa di t, e quindi la verosimiglianza pu essere scritta in modoequivalente anche in termini degli errori di previsione ad un passo in avantianzich delle yt.Fare un esempio risulta particolarmente facile nel caso di processi AR puri.In questo caso, infatti, se il processo yt = + 1yt1 + + pytp + te t normale, la funzione di densitf (yt[t1) semplicemente una norma-le:yt[t1 N_ + 1yt1 + + pytp, 2_Nel caso particolare di un processo AR(1) si avr cheyt[t1 N_ + yt1, 2_e quindi f (yt[t1) =f (yt[yt1): lunico elemento di t1che conta lulti-mo. Di conseguenza, la verosimiglianza potr essere scritta comeL(, , 2) = f (y1) Tt=2f (yt[yt1)Passando ai logaritmi si ottienel(, , 2) = log f (y1) + l(, , 2) == log f (y1) 12Ti=2_log2 +log2+(yt yt1)22_= log f (y1) 12Ti=2_log2 +log2+e2t2_,dove ho usato la notazione et = ytE(yt[t1).Se il primo addendo fosse zero, il resto sarebbe uguale ad una normalissi-ma funzione di log-verosimiglianza per un modello lineare in cui la variabiledipendente yt, la variabile esplicativa yt1 (pi lintercetta) e il termine didisturbo normale con media 0 e varianza 2.Sappiamo gi che per tale modello gli stimatori di massima verosimiglian-za coincidono con quelli OLS, cosicch se non fosse per il primo termine po-tremmousaresemplicementelatecnicaOLS. Tuttavia, percampioni molto46 CAPITOLO 2. I PROCESSI ARMAgrandi, il peso del primo addendo nel determinare la verosimiglianza totalediventa irrilevante: a differenza del secondo, infatti, il primo addendo non cre-sce allaumentare di T. Le stime OLS (che massimizzanol(, , 2)) tendonoquindi a quelle di massima verosimiglianza, e asintoticamente ne condividonole propriet15.Questo ragionamento la anche per modelli AR(p): in questo caso, il pri-mo elemento della verosimiglianza diventa log f (y1, . . . , yp), ma largomentorimane invariato. peraltro vero che, sotto condizioni abbastanza generali, lostimatore OLS dei parametri di un processo autoregressivo stazionario unostimatoreconsistenteeasintoticamentenormaleancheseilprocessotnongaussiano; quindi, anchesenoncorrettovederelostimatoreOLScomeasintoticamente equivalente a quello di massima verosimiglianza, comunquenon improprio adoperarlo. In questo caso, che va sotto il nome di regressionedinamica, le propriet asintotiche degli stimatori OLS possono essere provatefacendo ricorso a teoremi limite che solitamente in un corso di Econometria siaffrontano da qualche altra parte, e quindi non riporto qui.Nel caso di modelli in cui sia presente una parte a media mobile, il discorsosi complica solo di poco, se manteniamo lipotesi di normalit. Infatti, comehogifattorilevareal paragrafo2.6.1, inunmodelloARMAil whitenoisecheguidail processopuessereinterpretatocomeladifferenzafrayteilsuovaloreattesocondizionalea t1(vedieq. (2.10)). Diconseguenza, seassumiamocheladistribuzionediytcondizionalea t1siaunanormale,se ne deduce che gli errori di previsione ad un passo sono una sequenza dinormali incorrelate (e quindi indipendenti) a media 0 e varianza costante, percui la verosimiglianza pu essere calcolata molto semplicemente utilizzandogli errori di previsione.2.8 In praticaPer far capirecomefunzionail tutto, facciamoil casodi voler impostareunmodelloper unaseriestoricadi cui abbiamogiparlatonellintrodu-zione, e cio la produzione industriale USA16. Diciamo che la serie a nostradisposizione quella disegnata in gura 2.10.Tanto per cominciare, noterete che la serie molto lunga: va dal gennaio1921 al settembre 2008. Bene, dir qualcuno, obbedendo al condizionamentopavloviano del campione che pi grande, meglio . Male, dico io. Ricordia-moci che quel che stiamo cercando un processo stocastico di cui pensabilestiamo osservando una realizzazione.Ora, il processo stocastico vero che ha generato questa serie (ammessoche esista) senzaltro qualcosa che ha cambiato profondamente i suoi con-15Si parla, in casi come questo, di verosimiglianza condizionale, per indicare che la funzione diverosimiglianza che stiamo usando considera le prime p osservazioni come sse, e quindi fa rife-rimento alla distribuzione di yp+1. . . yT condizionale a y1. . . yp. Esistono anche tecniche per massi-mizzare la cosiddetta verosimiglianza esatta, cio quella che tiene conto anche della distribuzionedelle prime p osservazioni, ma asintoticamente non fa differenza.16Per chi pratico di queste cose, preciso n da subito che ho fatto il furbo e ho usato la seriedestagionalizzata. Ma chi pratico di queste cose immagina facilmente il perch.2.8. IN PRATICA 47Figura 2.10: Indice destagionalizzato della produzione industriale negli USA(mensile dal 1921) 0 20 40 60 80 100 120 1920193019401950196019701980199020002010notati durante la nostra nestra di osservazione. Nellarco di tempo descrittodai nostri dati ci sono il delitto Matteotti, linvenzione della penna biro, i lmdi Tot, Voodoo Chile e Google. Risulta un po ardito postulare lesistenza diuna rappresentazione dei dati che attraversa indenne tutto questo ed buo-na tanto allora quanto oggi. Nei termini del primo capitolo, potremmo direcon una certa tranquillit che il vero processo stocastico che ha generato idati non stazionario. Se proprio vogliamo ingabbiare la serie in un processostazionario, convieneaccorciareilcampione. Inquestocaso, glieconomistiamano dire che escludiamo i cosiddetti break strutturali17; si noti che questoragionamento si pu fare senza neanche guardare i dati.Con procedura del tutto arbitraria (tanto un esempio), decido che il mon-do in cui viviamo oggi cominciato nel gennaio 1984. Gi che ci siamo, deci-diamo di lavorare non sul numero indice vero e proprio, ma sul suo logaritmo.Questa una procedura molto diffusa, e serve a far s che si possa dare unin-terpretazione pi naturale ai numeri di cui composta la serie, visto che lesue differenze prime sono pi o meno variazioni percentuali18. Unaltra cosache vale la pena di fare escludere dalle nostre considerazioni per il momentole ultime tre osservazioni; vedremo poi il perch.Il risultato la serie in gura 2.11, che abbastanza lunga da consentircidi dire qualcosa di interessante (294 osservazioni), ma al contempo ci raccontauna storia ragionevolmente omogenea.Possiamo, a questo punto, sostenere di osservare una realizzazione di unprocesso stazionario?Di nuovo, la risposta probabilmente no. In questocaso, per, il problema non nasce dalla disomogeneit del campione, ma dal17 peraltro vero che esistono metodi di lavorare con serie storiche con break strutturali al lorointerno, ma questi metodi sono ancora troppo esoterici per parlarne in questa dispensa.18Ricordo che log(yt) log(yt1) = log(1 +ytyt1 ) ytyt148 CAPITOLO 2. I PROCESSI ARMAFigura 2.11: Logaritmo della produzione industriale negli USA (mensile) 4 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 19851990199520002005fatto che la serie in gura 2.11 presenta un chiaro trend crescente, che eviden-temente ci preclude di pensare che il processo sia stazionario. Si pu pensarea un processo stazionario intorno a un trend deterministico, ossia ad una cosadel tipo Yt = (a + bt) + ut, dove ut un qualche processo ARMA. Oltretut-to,questa non sarebbe nemmeno unidea irragionevole,perch il parametrobpotrebbe essere interpretato come il tasso esogeno di progresso tecnico dilungo periodo. Tuttavia, questa idea non regge, per motivi che spiegher nelcapitolo 3 (scusate). Anticipo soltanto che il problema fondamentale sta nelfatto che, anche togliendo via un trend deterministico, questa serie troppopersistente per poter dire che il processo che lha generata stazionario.Una possibilit alternativa quella di trasformare la serie in modo tale dapoterla ancora interpretare, ma nel frattempo eliminare il problema. In questocaso, ci caviamo dimpaccio con una differenziazione e cosideriamo yt = 100 Yt, che potete ammirare in gura 2.12 ed , come ho accennato prima, pi omeno il tasso di variazione percentuale della produzione industriale rispettoal mese precedente.Lagura2.13, invece, mostraicorrelogrammitotaleeparziale. Leduelineette tratteggiate orizzontali che circondano il correlogramma vero e pro-prio rappresentano la costante 1.96/T, dove T lampiezza campionaria:visto che abbiamo 294 osservazioni, la costante circa 0.11. Queste lineettevengono spesso inserite nei correlogrammi per rendere immediato il seguenteragionamento: le autocorrelazioni campionarie ksono stimatori consistentidellevereautocorrelazioni k. Seper k= 0, allorasi pudimostrarecheT kdN(0, 1). Di conseguenza, lintervallo 1.96/T lintervallo di ac-cettazione al 95% del test per lipotesi k= 0; in pratica, le autocorrelazionifuori banda sono statisticamente signicative. Non possiamo fare a menodiosservarechediautocorrelazionisignicativecenesonoalmenocinqueo sei, per cui possiamo ragionevolmente escludere lipotesi che ytnon abbia2.8. IN PRATICA 49Figura 2.12: Variazione percentuale della produzione industriale-2-1.5-1-0.5 0 0.5 1 1.5 2 2.5 19851990199520002005Figura 2.13: Variazione percentuale della produzione industriale correlogramma parziale e totale-0.3-0.2-0.1 0 0.1 0.2 0.3 0510152025ritardoACF-0.3-0.2-0.1 0 0.1 0.2 0.3 0510152025ritardoPACF50 CAPITOLO 2. I PROCESSI ARMApersistenza(cosachedaltrondeunocchioallenatovedeanchedallagura2.12). Inpi, calcolandoil testdi Ljung-Boxnoa12ritardi troviamounvalore della statistica test di 49.9704; considerando che sotto la nulla questa una realizzazione di una2con 12 gradi di libert, direi che la nulla si puriutare baldanzosamente.Di persistenza, pertanto, ce n. Se, quindi, un modello ARMA pu essereunabuonaidea, ilcorrelogrammanoncidiceconchiarezzaqualisianogliordini dei polinomiA(L) e C(L) (quelli che abbiamo n qui chiamatop e q)da utilizzare.Visto che il correlogramma parziale si ferma a 3, una possibilit quella diun AR(3), ma siamo piuttosto al limite, per cui pu essere il caso di provarepi di una soluzione. In questo caso, possiamo anche optare per una strategiaa tappeto. Stabiliamo un ordine massimo per p e q (diciamo 5) e proviamotutte le combinazioni possibili.Tabella2.1: Modelli ARMAper laproduzioneindustrialeUSA: criteri diinformazioneAkaike (AIC)PPPPPPARMA0 1 2 3 4 50 446.06 446.15 439.29 432.49 430.84 430.481 445.42 429.84 425.46 427.10 428.69 430.642 435.78 426.33 427.27 428.89 430.52 430.423 426.36 426.69 428.67 428.62 421.66 423.664 427.06 428.66 428.71 421.90 423.65 425.605 428.84 430.66 426.39 423.69 425.64 426.33Schwartz (BIC)PPPPPPARMA0 1 2 3 4 50 453.43 457.20 454.03 450.91 452.94 456.261 456.47 444.57 443.88 449.20 454.47 460.102 450.51 444.75 449.37 454.68 459.99 463.573 444.78 448.79 454.45 458.09 454.81 460.494 449.16 454.45 458.18 455.06 460.49 466.125 454.63 460.13 459.54 460.52 466.15 471.82Hannan-Quinn (HQC)PPPPPPARMA0 1 2 3 4 50 449.01 450.57 445.19 439.87 439.69 440.801 449.84 435.74 432.83 435.95 439.01 442.442 441.68 433.71 436.12 439.22 442.32 443.703 433.73 435.54 439.00 440.42 434.94 438.414 435.91 438.99 440.51 435.18 438.40 441.835 439.17 442.46 439.67 438.44 441.86 445.32 naturale, in questo contesto, usare i criteri di informazione per parago-nare fra loro i vari modelli stimati. Qui, ne useremo tre, e cio il criterio diAkaike (AIC), quello di Schwartz (BIC) e quello di Hannan e Quinn (HQC).Come noto, la scelta si fa prendendo il modello per cui il criterio minore.2.8. IN PRATICA 51Ora, date unocchiata alla tabella 2.1. Per ognuno dei tre criteri, il numero perriga indica lordine AR e quello per colonna lordine MA; ho evidenziato colgrassetto il minimo per ogni tabella. Come si vede, la scelta non univoca: seil BIC e lo HQC indicano un ARMA(1,2), lAIC si concede un faraonico AR-MA(3,4). Questo non un caso: per come sono costruiti i criteri, si ha di solitoche lAIC tende a essere piuttosto permissivo in termini di numero totale diparametri, mentre il BIC ha la tendenza opposta. Lo HQC generalmente optaper una via di mezzo. peraltro vero che il criterio di Akaike, che ha unasua importanza storica perch stato il primo di tutta la stirpe, ha il difetto,rispetto agli altri, di non essere consistente: si pu dimostrare che la probabi-lit che esso selezioni il modello giusto non va ad 1 asintoticamente, comeaccade per gli altri due; di conseguenza, oggi un po in discredito.In ogni caso,non c un vincitore chiaro. Quindi,guardiamo questi duemodelli un po pi da vicino. Entrambi esibiscono un correlogramma deglierrori di previsione a un passo (quelli che in un contesto di regressione chia-meremmo i residui) assolutamente piatto e il relativo test di Ljung-Box accettala nulla senza problemi. Non ve li faccio neanche vedere, il succo che ognu-nodiquestimodellicatturaadeguatamentelapersistenzachec. Bisognavedere quale dei due lo fa nel modo pi efcace.Tabella 2.2: Modello ARMA(1,2)Coefcient Std. Error z-stat p-valueconst 0.2253 0.0564 3.9943 0.000110.8034 0.0942 8.5251 0.000010.7865 0.1033 7.6154 0.000020.1779 0.0680 2.6173 0.0089Mean dependent var 0.221113 S.D. dependent var 0.514050Mean of innovations 0.004798 S.D. of innovations 0.490280Log-likelihood 207.7288 Akaike criterion 425.4577Schwarz criterion 443.8756 HannanQuinn 432.8335Real Imaginary Modulus FrequencyARRoot 1 1.2447 0.0000 1.2447 0.0000MARoot 1 2.2106 0.8573 2.3710 0.0589Root 2 2.2106 0.8573 2.3710 0.0589Il modello ARMA(1,2) (mostrato in tabella 2.2) il pi parsimonioso deidue; certo, nonungranchecomecapacitdi ttarei dati: lastimadi(loscartoquadraticomediodeglierroridiprevisioneaunpasso)circa0.49, che non molto pi piccola dello scarto quadratico medio della serieosservata(0.514). Inaltri termini: ladispersionenoncondizionaledi ytappena inferiore alla dispersione della distribuzione condizionata a t1. Lapersistenza qui, c, ma prevede un po pochino.Il quadro che ci sipresenta considerando il modello ARMA(3,4) (tabella2.3) , aprimavista, moltodiverso. Inquestocaso, seunosi limitasseaconsiderare i singoli parametri (cosa che la lettura dei tabulati di regressione52 CAPITOLO 2. I PROCESSI ARMATabella 2.3: Modello ARMA(3,4)Coefcient Std. Error z-stat p-valueconst 0.2258 0.0564 4.0051 0.000110.3520 0.0954 3.6895 0.000220.0763 0.1097 0.6953 0.486930.7950 0.0954 8.3306 0.000010.4101 0.1075 3.8163 0.000120.2785 0.1438 1.9369 0.052830.5627 0.1358 4.1448 0.000040.1691 0.0676 2.5015 0.0124Mean dependent var 0.221113 S.D. dependent var 0.514050Mean of innovations 0.005004 S.D. of innovations 0.477041Log-likelihood 201.8311 Akaike criterion 421.6622Schwarz criterion 454.8144 HannanQuinn 434.9386Real Imaginary Modulus FrequencyARRoot 1 0.5780 0.8189 1.0023 0.3478Root 2 0.5780 0.8189 1.0023 0.3478Root 3 1.2520 0.0000 1.2520 0.0000MARoot 1 0.5854 0.8107 1.0000 0.3495Root 2 0.5854 0.8107 1.0000 0.3495Root 3 2.2492 0.9246 2.4319 0.0621Root 4 2.2492 0.9246 2.4319 0.0621ciabitua, purtroppo, afare)vedrebbecheinmaggioranzasembranoesserestatisticamente diversi da 0; peraltro, la dispersione degli errori di previsionesi riduce un tantino (0.477), anche se non c da fare salti di gioia. Tuttavia, cisi pu rendere conto che questa stima un po farlocca guardando le radici deipolinomi A(L) e C(L) stimati. Fra le radici di A(L) c la coppia di numericomplessi 0.5780 0.8189i (chetralaltrosospettosamentevicinaa1inmodulo) cui fa da contraltare la coppia di numeri complessi 0.5854 0.8107ifra le radici di C(L). chiaro che qui siamo in presenza di fattori comuni (cosa siano i fattoricomuni lotrovateapag. 43). Cio, lastimanellatabella2.3unastimagonata con parametri che non servono a nulla. Tant che, se andate a vederele altre radici dei due polinomi, vi accorgete che sono praticamente le stessedel modello ARMA(1,2); in altre parole, quello che vedete nella tabella 2.3 lo stesso modello della tabella 2.2 sotto mentite spoglie.Queste considerazioni vengono corroborate in modo abbastanza palese os-servando la gura 2.14, che contiene, per i tre modelli esaminati qui, la funzio-ne di risposta di impulso no a 24 passi, ossia una rappresentazione gracadei primi 24 coefcienti del polinomiC(L)A(L). Notate come le risposte di impul-so per i modelli ARMA(1,2) e ARMA(3,4) siano praticamente indistinguibili.Ci implica che, in pratica, questi due modelli sono due possibilit alternativeper sintetizzare un modo di persistenza della serie che sempre lo stesso ele ragioni per cui la rappresentazione ARMA(3,4) sia da ritenersi ridondantesono ovvie.2.8. IN PRATICA 53Figura 2.14: Risposte di impulso-0.2 0 0.2 0.4 0.6 0.8 1 0510152025ARMA(3,4)ARMA(1,2)Figura 2.15: Previsioni54 CAPITOLO 2. I PROCESSI ARMAUn altro modo di vedere la sostanziale equivalenza dei due modelli quel-lo di considerare cosa succede utilizzandoli come modelli previsivi: la gura2.15 mostra le previsioni no a settembre fatta con i nostri due modelli.Vi ricordo che ci eravamo tenuti nel cassetto le ultime tre osservazioni: idatidaluglioasettembre2008noneranostatiusatiperlastima. Percui,quelle che vedete nellarea non ombreggiata sono le previsioni di yt basate sut1. Quellenellareaombreggiata, invece, sonobasatesulsetinformativoche si ferma a giugno.Qui ci sono alcune osservazioni interessanti da fare: in primo luogo, nchstiamo dentro il campione le previsioni non sono grossolanamente sbagliate,ma non sono nemmeno un gran che. Il fatto che la persistenza della serie sia,pur non trascurabile, poco informativa emerge dal fatto che i modelli forni-scono previsioni che non si discostano mai molto dalla media aritmetica dellaserie (la quale a sua volta potrebbe essere vista come un previsore basato sulladistribuzione non condizionata). Fra laltro, i due modelli danno previsioniquasi identiche. Questo non deve sorprenderci, avendo appurato che le duerappresentazioni di Wold sono, appunto, quasi identiche.Dove i due modelli fanno una pessima gura piuttosto nelle previsionifuoricampione. Comesivede, laproduzioneindustrialesubisceunveroeproprio tracollo, assolutamente non previsto dai nostri due modellini. Perch?Il motivo semplice. A parte il fatto che in generale i modelli di questotipo prevedono decentemente solo a pochi passi in avanti, c una ragione benpicogente: lacrisieconomicamondiale. Elacrisieconomicamondialeuna cosa che entro certi limiti si poteva prevedere, ma sicuramente non solocol set informativo fornito dalla storia della produzione industriale america-na. Cisarebbestatobisognodisaperecosesuimutuisubprime, sulprezzodel petrolio, sulla bilancia commerciale americana, sulla struttura nanziariaislandese e cos via. E magari di aver letto Minsky. Tutto questo, nel nostroset informativo, non c (o ce ne sono appena dei pallidi riessi). Morale: ineconomia, un modello ARMA pu servire, tuttal pi, a fare previsioni a brevein periodi tranquilli. Ma se davvero volete fare gli aruspici, usate gli ARMA,ma leggete anche i giornali.Appendice: LABC sui numeri complessiMelhannochiestointanti, nonpotevoesimermi. Inquestaappendicecisono alcune brevissime e lacunosissime nozioni su come funzionano i numericomplessi e, in particolare, il motivo per cui radici complesse in un polinomioautoregressivo danno luogo a fenomeni ciclici.19Iniziamodai, chedenitodallaproprieti2= 1. Ilnumeroi vienechiamato unit immaginaria, largamente per ragioni storiche. Un suo qualun-que multiplo reale si chiama numero immaginario. Per esempio, 3i un numeroil cui quadrato 9.19Chi volesse approfondire, trova facilmente tuttoil necessarioinrete; per esempio, suWikipedia.2.8. IN PRATICA 55Un numero complesso la somma di un numero reale pi uno immagi-na