L'analisi delle serie storiche: un'introduzione alle...

43
L'analisi delle serie storiche: un'introduzione alle tecniche statistiche classiche Simone Celant

Transcript of L'analisi delle serie storiche: un'introduzione alle...

L'analisi delle serie storiche:un'introduzione alle tecniche

statistiche classicheSimone Celant

1. Introduzione

Uno degli obiettivi chiave dell'analisi statistica dei dati è quello di fornire previsioni sull'andamento di determinate grandezze. In qualunque genere di circostanza ci si trovi, la previsione è uno strumento molto importante nell'ottica di una pianificazione efficiente. Che tempo farà domani? Come si comporteranno i prezzi dei beni di consumo nel corso del prossimo trimestre? Che tipo di domanda posso aspettarmi per le automobili nel prossimo anno? Che tipo di ciclo economico affronteremo nei prossimi 3-4 anni? Quanto guadagnerò tra 10 anni? Sono tutte domande la cui risposta, se conosciuta dal soggetto interessato, permette di prendere delle decisioni ottimali su diversi orizzonti temporali.

Avere un'idea del tempo previsto per domani mi permette di scegliere il vestiario più consono, in modo che io non soffra il caldo o il freddo; sapere quale sarà l'andamento dei prezzi dei beni di consumo nel futuro immediato permette alle autorità di prendere eventuali decisioni di politica monetaria per scongiurare un'inflazione troppo alta; un'azienda automobilistica può decidere di compiere o meno degli investimenti o delle assunzioni sulla base che si preveda che la domanda di automobili cresca o si riduca nel corso di un anno; governo, aziende e persone possono prendere decisioni ottimali in termini, ad esempio, di politica fiscale (l'aumento della spesa per la ricerca), di compiere degli investimenti (l'apertura una nuova filiale) o di decisioni di consumo durevole (l'acquisto di un'automobile) se prevedono che nei prossimi anni la congiuntura economica sarà positiva, mentre manterranno un atteggiamento più prudente se pensano che il ciclo sarà negativo; le mie prospettive di guadagno possono farmi prendere decisioni molto diverse sul tipo di casa che potrei acquistare, e valutazioni analoghe possono permettere ad una banca di accettare o rifiutare la mia richiesta di mutuo minimizzando il rischio di insolvenza.

Nell'ottica di effettuare delle previsioni, la metodologia statistica più adatta è il modello di regressione. Il modello di regressione, tuttavia, si basa sul il fatto che la variabile di cui si intende prevedere l'andamento futuro dipenda da una o più variabili utilizzate come regressori. E' possibile tuttavia che anche l'andamento futuro di questi regressori sia incerto: ad esempio, il principale regressore per la domanda di qualunque tipo di bene è il reddito. Quindi, stando al modello di regressione usuale, se voglio stimare quale sarà la domanda di automobili di un paese per il prossimo anno devo sapere quale sarà il reddito interno lordo di quel paese: in altre parole, tutto quello che posso fare, in assenza di ulteriori informazioni, è dire che “se il reddito sarà questo, la domanda di automobili sarà questa”.

In molte circostanze, tuttavia, il miglior metodo di previsione per l'andamento una determinata variabile consiste nel basarsi sul suo valore attuale e passato: la temperatura prevista per la giornata di domani differirà generalmente piuttosto poco rispetto a quella che si è registrata oggi; il mio reddito dell'anno prossimo sarà probabilmente piuttosto simile a quello di quest'anno; e via dicendo. In altre parole, il miglior metodo di previsione per l'andamento futuro di alcune variabili consiste nel verificare come si sono comportate dette variabili nel tempo. Sulla base di questa considerazione nasce la necessità di sviluppare metodologie che consentano l'analisi delle cosiddette serie storiche, o serie temporali.

Una serie storica consiste nell'osservazione di una o più variabili ad intervalli regolari di tempo. In questa sede ci si concentrerà su serie storiche univariate, in cui l'analisi si concentra su una sola variabile alla volta. Un tipico esempio di serie storica univariata è rappresentato dalle rilevazioni trimestrali del Prodotto Interno Lordo dell'Italia effettuate dall'ISTAT. L'analisi delle serie storiche consiste in una serie di metodologie che permettono di scomporre l'andamento, solitamente irregolare ed altalenante, di questa serie, nelle sue componenti più importanti, alcune deterministiche, altre accidentali, nell'ottica di individuare con la maggiore esattezza possibile l'andamento di fondo e di poter effettuare delle previsioni sul comportamento futuro realistiche ed efficienti. Questo tipo di approccio va sotto il nome di analisi classica delle serie storiche.

In questa sede, come esempio applicativo, verrà portata avanti, parallelamente all'introduzione delle tecniche di analisi, uno studio della serie storica dei flussi turistici mensili in negli ultimi 10

anni.

2. Definizioni, rappresentazioni ed analisi preliminari

Una serie storica è una serie di osservazioni del medesimo fenomeno ad intervalli regolari di tempo. Come già accennato, esempi di serie storiche possono essere il fatturato giornaliero di un'attività, il prezzo orario delle azioni di una compagnia, il profitto annuo di un'azienda, la temperatura massima giornaliera in una determinata località. A differenza dei dati cross-section, una serie storica si concentra su un solo fenomeno e lo segue nel tempo. L'obiettivo di questo tipo di rilevazione è un'analisi in cui si cerchi di stabilire se esistono delle regolarità nello sviluppo temporale della serie. Successivamente, supponendo che queste regolarità rimangano invariate nel tempo, utilizzarle per prevedere l'andamento futuro della serie.

Si noti che l'analisi delle serie storiche tratta il fenomeno oggetto di studio come una scatola chiusa priva di contatti con l'esterno. L'unica cosa cui si è interessati è dare una spiegazione quantitativa all'andamento nel tempo di detto fenomeno, in modo da poter formulare delle ipotesi realistiche sul suo andamento futuro, indipendentemente da eventuali variabili che possano influenzare l'andamento della serie, sia nel passato che in ottica previsiva: il fenomeno viene modellato solamente rispetto al tempo. In altre parole, la nostra attenzione è focalizzata solamente sull'andamento della serie e sulle previsioni sul suo andamento futuro, non siamo interessati a cosa determini questo andamento. Nell'esempio dello studio del mercato dell'automobile, la domanda futura sarà trattata come funzione esclusiva della domanda presente e passata, indipendentemente da variabili rilevanti come reddito pro capite o numero di veicoli in circolazione nel paese. Quindi, l'analisi dell'andamento dei flussi turistici verrà considerato un fenomeno isolato: siamo interessati solo a vedere come si è evoluto l'andamento degli arrivi e delle presenze sul territorio italiano nell'ultima decina d'anni, non di se e come fattori come il ciclo economico, gli investimenti, l'inquinamento ambientale abbiano influenzato questo andamento. Questo tipo di considerazioni verrà, eventualmente, introdotto in seguito come sussidio interpretativo ai risultati che emergono dall'analisi del fenomeno in sé considerato.

Due esempi di serie storiche sono riportati nelle seguenti tabelle 2.1 e 2.2. Nella tabella 2.1 è riportata la stima ISTAT della popolazione residente in Italia nel periodo 1982-2008.

Tab. 2.1: Popolazione residente in Italia nel periodo 1982-2008

Una prima analisi intuitiva che conviene effettuare per avere un'idea del tipo di fenomeno che si sta affrontando è una semplice analisi grafica. Il tipo di grafico più semplice per rappresentare una

serie temporale è il cosiddetto time plot (o line plot), che rappresenta l'evoluzione della serie rispetto al tempo. Il time plot della serie della popolazione italiana è riportato in figura 2.1.

Fig. 2.1: Time plot per i dati in tab. 2.1

Dall'analisi grafica si evince che la popolazione italiana è cresciuta molto lentamente fino al 2001, per poi subire un'improvvisa impennata nel corso degli ultimi 8 anni. Si noti tuttavia che l'ISTAT aggiorna le proprie stime continuamente, in particolare in occasione dei censimenti decennali, l'ultimo dei quali è relativo proprio al 2001. Nel corso dell'anno 2009 non solo è stato inserito il valore relativo al primo gennaio 2009, ma sono stati aggiornati anche le stime relative agli anni precedenti. Per avere una stima efficiente dell'evoluzione della popolazione residente in Italia bisogna dunque attendere che siano disponibili i dati del nuovo censimento, che avrà luogo nel 2011. In virtù di queste considerazioni, si può osservare come la serie relativa alla popolazione residente, in particolare in riferimento al periodo di tempo per il quale i dati sono da considerarsi attendibili, è relativamente regolare: presenta un andamento debolmente crescente, che ha conosciuto una piccola accelerazione nel periodo tra la fine degli anni ottanta e l'inizio degli anni novanta.

Nella seguente Tabella 2.2 è invece riportata la serie del consumo interno lordo annuo di energia elettrica dell'Italia (dati in gigawatt ora, Gwh, dal sito di Terna) nel periodo dal 1963 al 2007. Il relativo time plot è riportato in figura 2.2.

In questo caso l'analisi preliminare del time plot permette di identificare che la serie ha un andamento di fondo, o trend, crescente, e che questa crescita avviene ad un ritmo complessivamente costante. Inoltre, si nota che con una certa regolarità si verificano dei momentanei rallentamenti nella crescita di domanda di energia, quando non si tratta proprio di lievi cali: è il caso ad esempio del lieve calo che caratterizza il 1975 o del periodo di domanda sostanzialmente costante che caratterizza i primi anni ottanta ed i primi anni novanta. Queste variazioni nel ritmo di crescita hanno due caratteristiche importanti: da un lato si verificano con una certa regolarità, dall'altro questa regolarità non è perfetta, né in termini di intervallo temporale (la seconda flessione nella domanda di energia si verifica circa 5 anni dopo la prima, ma bisogna aspettarne quasi 10 per osservarne un'altra), né in termini di intensità (la flessione di domanda del 1975 ha comportato una diminuzione della domanda lorda evidente anche nel grafico, quella dei primi anni novanta solo un rallentamento nel ritmo di crescita) il che le rende non esattamente prevedibili. Queste periodiche oscillazioni dei valori della serie sono dette cicli.

Le serie che tipicamente sono interessate da movimenti ciclici sono le serie economiche. Chiunque ha sentito parlare di ciclo economico, di periodi di espansione e di contrazione o crisi. Le serie economiche come quelle del PIL di qualunque paese sono caratterizzate da un trend di fondo

19821983

19841985

19861987

19881989

19901991

19921993

19941995

19961997

19981999

20002001

20022003

20042005

20062007

20082009

54000000

55000000

56000000

57000000

58000000

59000000

60000000

61000000

crescente e da variazioni cicliche di entità più o meno importante, che possono essere rappresentate da semplici rallentamenti nel ritmo di crescita o da periodi di contrazione denominati “recessioni” (formalmente, si dice che un paese è in recessione quando il suo PIL registra un calo in due rilevazioni trimestrali consecutive).

Tab. 2.2: Consumo interno dell'Italia di energia elettrica in Gwh nel periodo 1963-2007

Fig. 2.2: Time plot dei dati in tab. 2.2

Per poter effettuare delle previsioni sull'andamento futuro della serie oggetto di indagine è necessario dunque avere informazioni tanto sull'andamento di fondo della stessa, detto trend, tanto sulle variazioni cicliche. Nella maggior parte dei casi i cicli, per quanto non perfettamente prevedibili, hanno durata ed intensità che varia relativamente poco nel corso del tempo. In altre parole, anche in una situazione di espansione è possibile prevedere con un margine d'errore ragionevole, quando si verificherà la prossima contrazione ciclica. Ad esempio, nella serie che si osserva in figura 2.2, si vede chiaramente come nel periodo 2006-2007 la domanda interna di energia stesse subendo un nuovo rallentamento: dopo più di un decennio di crescita era più che lecito aspettarselo. Si noti tuttavia che questa serie si interrompe prima dell'esplodere della crisi

Anno Consumo Anno Consumo Anno Consumoenergetico energetico energetico

1963 72643 1978 177167 1993 2622201964 77741 1979 186657 1994 2694031965 83299 1980 191824 1995 2789071966 90835 1981 191288 1996 2818131967 98739 1982 192595 1997 2902941968 106127 1983 193962 1998 3005181969 112927 1984 203559 1999 3076671970 121388 1985 209409 2000 3209761971 126521 1986 214444 2001 3273721972 135461 1987 224518 2002 3359201973 146397 1988 234817 2003 3448331974 151198 1989 244479 2004 3489561975 149914 1990 251546 2005 3528261976 164638 1991 257123 2006 3590751977 169322 1992 261543 2007 360171

19631964

19651966

19671968

19691970

19711972

19731974

19751976

19771978

19791980

19811982

19831984

19851986

19871988

19891990

19911992

19931994

19951996

19971998

19992000

20012002

20032004

20052006

2007

0

50000

100000

150000

200000

250000

300000

350000

400000

economica le cui prime avvisaglie hanno cominciato a verificarsi nella primavera del 2008: una congiuntura economica fortemente negativa come quella che l'Italia sta attraversando avrà certamente comportato un forte rallentamento, se non un calo, nei consumi energetici.

Nella seguente tabella 2.3 è invece riportata la serie degli arrivi totali mensili di turisti negli esercizi ricettivi sul territorio italiano nel periodo 1999-2008 (http://con.istat.it/amerigo/, per scaricare i dati è richiesta la registrazione gratuita), espressi in migliaia di unità. Il relativo time plot è riportato in figura 2.3.

Tab: 2.3: Arrivi mensili negli esercizi ricettivi italiani nel periodo 1999-2008, in migliaia

Fig. 2.3: Time plot dei dati in tab. 2.3

Anno Mese Anno Mese Anno Mese Anno Mese Anno Mese

1999gen 3543 2001gen 3690 2003gen 3784 2005 gen 4228 2007 gen 4375feb 3797 feb 4220 feb 4213 feb 4410 feb 4856mar 4747 mar 5107 mar 5262 mar 6081 mar 6186apr 6179 apr 7159 apr 6975 apr 6813 apr 8455mag 7535 mag 7484 mag 8081 mag 8473 mag 8783giu 7910 giu 9818 giu 9547 giu 9813 giu 11246lug 9828 lug 10771 lug 10415 lug 11941 lug 12578ago 10580 ago 11544 ago 11838 ago 12026 ago 13111set 7768 set 8468 set 8092 set 8971 set 9936ott 5695 ott 5830 ott 6306 ott 6900 ott 7057nov 3399 nov 3815 nov 3872 nov 4179 nov 4710dic 3340 dic 3868 dic 4341 dic 4504 dic 4859

2000gen 3581 2002gen 3488 2004gen 4082 2006 gen 4386 2008 gen 4507feb 3920 feb 4153 feb 4678 feb 4761 feb 5191mar 5028 mar 5857 mar 5463 mar 5823 mar 6664apr 6975 apr 6452 apr 7090 apr 8272 apr 7424mag 7226 mag 8109 mag 8574 mag 8542 mag 9806giu 9029 giu 9284 giu 9232 giu 10632 giu 10486lug 10755 lug 10463 lug 11335 lug 12359 lug 12364ago 11213 ago 11711 ago 11800 ago 12457 ago 13673set 8571 set 8371 set 8731 set 9710 set 9329ott 5926 ott 6256 ott 6681 ott 6889 ott 6869nov 3701 nov 3980 nov 4077 nov 4396 nov 4379dic 4108 dic 3905 dic 4215 dic 4819 dic 4854

Arrivi Tot.

Arrivi Tot.

Arrivi Tot.

Arrivi Tot.

Arrivi Tot.

1999,011999,06

1999,112000,04

2000,092001,02

2001,072001,12

2002,052002,10

2003,032003,08

2004,012004,06

2004,112005,04

2005,092006,02

2006,072006,12

2007,052007,10

2008,032008,08

0

2000

4000

6000

8000

10000

12000

14000

16000

L'analisi grafica in questo caso consente di trarre molte meno conclusioni. Emerge in modo chiaro solamente un aspetto: la serie oscilla con una certa regolarità attorno ad un valore centrale che varia in misura molto minore. Questo è intuitivamente piuttosto ovvio: la serie degli arrivi mensili negli esercizi ricettivi dipende in misura considerevole, appunto, dal mese in cui ci si trova: nei mesi estivi, gli alberghi sono molto più pieni rispetto ai mesi di tardo autunno ed inizio inverno, mentre nel periodo successivo il turismo comincia a muoversi di nuovo per tornare ai massimi estivi. Queste variazioni sono enormemente più significative delle variazioni dei movimenti turistici da un anno all'altro. Emerge a questo punto uno dei principali problemi connessi all'analisi delle serie temporali, quello delle variazioni stagionali.

Qualunque serie venga raccolta con cadenza regolare nel corso di un anno soffre di questo problema. Naturalmente in alcuni casi questo problema è dimensionalmente trascurabile: se si andassero ad analizzare (se fossero disponibili) le stime della popolazione residente su base mensile, ci si accorgerebbe che le variazioni stagionali, per quanto complessivamente regolari, non sono significative in relazione all'analisi del fenomeno nel suo complesso: nonostante infatti sia noto che le nascite ed i movimenti migratori abbiano dei picchi in determinati periodi dell'anno, se raffrontati con l'ammontare complessivo della popolazione italiana questi picchi sono dimensionalmente irrilevanti. Il discorso cambierebbe se si fosse interessati al saldo di popolazione: se la serie oggetto d'analisi fosse la serie delle differenze tra la popolazione nel mese corrente e la popolazione in quello precedente, le variazioni stagionali assumerebbero un peso assolutamente non trascurabile.

Se si analizzasse la serie del consumo energetico riportata in tabella 2.2 su base mensile, si assisterebbe a variazioni stagionali estremamente significative: il consumo di energia dipende ad esempio in maniera rilevante dalle ore di luce, quindi è più elevato nei mesi invernali di quanto sia nei mesi estivi. Tuttavia, nei mesi estivi il consumo privato di energia risente enormemente della temperatura: la maggior parte degli edifici hanno un sistema di climatizzazione che d'inverno si fonda sul riscaldamento a gas, e dunque non influisce sulla domanda di energia elettrica, e d'estate su condizionatori che invece consumano energia elettrica. Infatti capita spesso che durante l'estate, nelle giornate particolarmente calde, si sentano raccomandazioni a limitare l'uso dei condizionatori per evitare carichi di domanda di energia che gli impianti non sono in grado di sostenere.

Un'altra serie caratterizzata da forti oscillazioni stagionali intuitivamente comprensibili è quella della vendita dei beni di consumo non alimentari: si assiste a picchi nel mese di dicembre in corrispondenza con le festività natalizie, ed a cali nel mese di agosto quando buona parte delle persone si trova in ferie e domanda complessivamente di meno. E dunque, anche la serie mensile delle presenze nelle strutture ricettive delle località di villeggiatura ha un'enorme componente stagionale, in ovvia relazione con i periodi in cui la gente vi si reca in vacanza: nelle località marittime nei mesi di luglio e agosto, in quelle montane nei mesi di febbraio e marzo e, in misura complessivamente minore, nei mesi estivi.

Abbiamo a questo punto introdotto le tre principali fonti di variazione più o meno prevedibile di una serie storica. Ce n'è un quarto, completamente deterministico, che riguarda solamente le serie aggregate, quali ad esempio il PIL, i consumi o le presenze nelle strutture ricettive: si tratta delle variazioni dovute alle differenze di calendario.

Se si analizza una serie come la domanda mensile di energia elettrica, questa è influenzata dal numero di giorni da cui i mesi sono composti: se si vuole confrontare la domanda di energia del mese di gennaio con quella relativa al mese di febbraio, bisogna tenere in considerazione che febbraio ha 3 giorni meno di gennaio, dunque è molto probabile che il valore grezzo sia minore in quest'ultimo mese. Questo problema ovviamente sparisce se invece si intende confrontare la domanda relativa al mese di gennaio di due anni diversi. Tuttavia, dal momento che l'energia elettrica è domandata in parte significativa da stabilimenti produttivi, fabbriche, uffici e via dicendo, e che una fabbrica ha un fabbisogno energetico enormemente superiore rispetto a quella di un'abitazione privata, un altro fattore che influisce sulla domanda è il numero di giorni in cui gli stabilimenti sono aperti, ossia il numero di giorni feriali nel mese. Questo problema riguarda sia i confronti tra periodi dello stesso anno che i confronti tra gli stessi periodi in anni diversi.

Le differenze di calendario, essendo completamente deterministiche, vengono affrontate preliminarmente a qualunque tipo di analisi, semplicemente aggiustando il dato aggregato in modo da renderlo confrontabile con gli altri. Ad esempio, essendo un anno composto da 12 mesi e 365 giorni, la lunghezza media di un mese è pari a 365/12=30,42 giorni. Il dato grezzo relativo a qualunque mese i può essere pertanto aggiustato dividendolo per il numero di giorni che ha il mese i e moltiplicato per 30,42. In questo modo si ha che i dati relativi ai 12 mesi di un anno sono confrontabili tra loro, perché sono stati normalizzati: è come se tutti i mesi fossero composti da 30,42 giorni. L'aggiustamento per rendere confrontabili i dati degli stessi periodi di anni diversi riguarda invece i giorni lavorativi: ad esempio, nel mese di gennaio del 2010 i giorni non lavorativi sono stati, oltre ai 5 sabati (2, 9, 16, 23 e 30) ed alle 5 domeniche (3, 10, 17, 24 e 31), l'1 ed il il 6, per un totale di 12: quindi i giorni lavorativi sono stati 31-12=19. Il fatto che parecchie persone si siano prese due giorni di ferie il 4 ed il 5 (per poter fare un “ponte” tra capodanno e l'epifania) non rientra in questo genere di aggiustamento, si tratta di una componente stagionale. Nel mese di febbraio dello stesso anno, i giorni non lavorativi sono stati 8: 4 sabati (6, 13, 20 e 27) e 4 domeniche (7, 14, 21 e 28). Quindi i giorni lavorativi sono stati 28-8=20, uno in più del mese di gennaio. Se si vuole aggiustare il dato grezzo del generico mese t sulla base dei giorni lavorativi, pertanto, è possibile dividerlo per il numero di giorni lavorativi che ha il mese t e moltiplicare il risultato per 30,42. In questo modo è possibile effettuare tutti i tipi di confronto.

Analogamente, un possibile aggiustamento preliminare che concerne le serie storiche economiche espresse in valore monetario (ad esempio il PIL di un'entità geografica o il fatturato di un'azienda) è quello sulla base dell'indice di variazione dei prezzi. Se nel corso di un anno di calendario la serie di dati grezzi del PIL di un paese passa, in miliardi di euro, da 4000 a 4100, il tasso di crescita del PIL può essere calcolato, come è noto, calcolando 4100/4000 – 1 = 0,025: quindi il PIL è cresciuto del 2,5%. Se però in quello stesso anno l'inflazione è stata del 3%, quindi i prezzi dei beni al consumo sono aumentati del 3%, si ha che il prodotto interno lordo è cresciuto meno del livello dei prezzi, dunque il paese nel complesso si è impoverito (in questo caso si parla di impoverimento reale). Dividendo il valore del PIL del secondo anno per l'opportuno indice dei prezzi corrispondente ad un aumento degli stessi del 3%, ossia 1,03 si ha che il valore aggiustato per le variazioni dei prezzi del del PIL nel secondo anno è pari a 4100/1,03 = 3981 miliardi di euro: questo aggiustamento permette di includere l'impoverimento reale nella serie.

L'ultima fonte di variazione che caratterizza le serie storiche è il cosiddetto errore accidentale. L'errore accidentale comprende tutto quello che non è compreso nelle precedenti fonti di variazione, di conseguenza è completamente casuale e, in quanto tale, non prevedibile. Si tratta dunque di una sorta di residuo, che spiega la differenza tra il valore “teorico” della serie, ossia il valore che la serie dovrebbe assumere sulla base di aggiustamenti di calendario, trend, ciclo e componente stagionale, e il valore effettivamente osservato. Nella massima parte dei casi si tratta di una componente letteralmente accidentale, ossia di un valore imprevedibile e di difficile interpretazione teorica. Tuttavia, in alcuni casi, esso può essere interpretato come uno shock causato da qualche evento esterno che influenza l'andamento della serie.

Ad esempio, analizzando l'andamento mensile del prezzo dei titoli di credito è probabile che si osservi un valore insolitamente basso nel settembre 2008, in corrispondenza del fallimento della Lehman Brothers, che ha dato il via alla crisi finanziaria le cui conseguenze hanno portato ad una congiuntura economica definita come la peggior crisi dal 1929. Il valore negativo relativo al mese di settembre è certamente parte del movimento ciclico a cui si è già accennato, tuttavia esso è legato anche al panico dei giorni successivi al fallimento della banca inglese, che ha portato molti investitori a vendere le proprie azioni, determinando un crollo nei prezzi delle stesse, e dunque una loro complessiva sottovalutazione. Allo stesso modo, nel mese di novembre 2009 la Microsoft ha lanciato la nuova versione del suo sistema operativo di punta, “Windows 7”: a seguito dei numerosi problemi che la precedente versione di Windows, “Vista”, aveva creato agli utenti, molti, in particolar modo uffici ed aziende (che tra l'altro non possono utilizzare copie pirata) si sono affrettati a cambiare sistema operativo, il che ha certamente causato uno shock significativo negli introiti della compagnia. In questo caso la componente residuale della serie storica (mensile o

trimestrale) del fatturato della Microsoft non solo è facilmente interpretabile, era addirittura almeno in parte prevedibile. Tuttavia, ancorché prevedibile, il residuo va sempre considerato una componente accidentale, dal momento che non rientra nelle componenti deterministiche che sono state identificate in precedenza: eventuale aggiustamento di calendario, trend, ciclo e stagionalità.

Vedremo in seguito l'importanza che ha nell'analisi delle serie storiche l'analisi dei residui. In primo luogo ci si soffermerà sulla scomposizione della serie nelle sue componenti deterministiche.

3. La scomposizione di una serie

Da quanto abbiamo visto nel paragrafo precedente, i valori di una serie storica, una volta che sono stati depurati da eventuali grandezze che la perturbano quali i giorni di calendario, la crescita dei prezzi etc., sono influenzati da quattro componenti fondamentali: trend, ciclo, stagionalità e residui. Da qui in avanti, se non viene specificato diversamente, useremo il simbolo yt, t=1, 2, ..., n per indicare la serie storica; la componente tendenziale sarà indicata con la lettera T, la componente ciclica con la lettera C, le variazioni stagionali con la lettera S, la componente stagionale con la lettera u.

Formalmente dunque:

yt = F(Tt, Ct, St, ut), t=1, 2, ..., n.

La forma della funzione F dipende dal tipo di approccio che si intende adottare. I modelli in cui l'azione combinata di componenti sistematiche ed accidentali vengono analizzate per verificare come determinano l'andamento della serie sono sostanzialmente di tre tipi: il modello additivo, il modello moltiplicativo ed i modelli misti.

Nel modello additivo le quattro componenti si sommano per determinare i valori della serie:

yt = Tt + Ct + St + ut, t=1, 2, ..., n.

Nel modello moltiplicativo le quattro componenti si moltiplicano tra loro:

yt = Tt x Ct x St x ut, t=1, 2, ..., n.

Il modello additivo si basa sull'ipotesi che le componenti siano tra loro indipendenti, mentre in quello moltiplicativo le grandezze sono tra loro legate da una relazione di proporzionalità. In altre parole, nel modello additivo l'ampiezza le oscillazioni cicliche, stagionali ed accidentali non dipende dal livello della serie, in quello moltiplicativo sussiste invece una relazione di dipendenza. Questo significa che se una serie è crescente nel tempo, nel modello additivo le oscillazioni dovute a ciclo, stagionalità e residui rimangono costanti, mentre nel modello moltiplicativo aumentano proporzionalmente: nel modello additivo le varie quantità sono espresse nella medesima unità di misura della serie, quindi determinano l'esatta variazione della stessa, mentre in quello moltiplicativo il trend è espresso nell'unità di misura della serie, mentre le altre quantità rappresentano coefficienti di variazione e sono sempre maggiori di 0.

Questo implica che i coefficienti neutri, che non modificano il valore della serie, sono pari a 0 nel modello additivo (nella serie degli arrivi mensili in migliaia un errore accidentale od una componente stagionale nulli sono espressi dal valore di 0 arrivi) e pari ad 1 nel modello moltiplicativo (nella stessa serie, la componente stagionale e l'errore accidentale che non ne modificano il valore sono pari a 1: non 1000 arrivi, 1 come numero puro, senza unità di misura). Quindi, nel modello additivo, una componente stagionale pari a +0,8 rende il valore pari a 6000800 arrivi se la serie si attesta su 6000000 di arrivi arrivi, e pari a 3000800 arrivi se la serie è attestata sul valore di 3000000 di arrivi; in quello moltiplicativo, una variazione di 1,8 (0,8 sommato al

valore neutro, pari ad 1) rende il valore pari a 10800000 di arrivi nel primo caso, e pari a 5400000 di arrivi nel secondo.

Il modello moltiplicativo può essere reso lineare mediante trasformazione logaritmica:

yt = Tt x Ct x St x u <=> log yt = log Tt + log Ct + log St + log ut, t=1, 2, ..., n.

I modelli misti prevedono che una parte del modello, sia di tipo moltiplicativo, una parte di tipo additivo:

yt = Tt x Ct x St + ut, t=1, 2, ..., n.yt = Tt x Ct + St + ut, t=1, 2, ..., n.

Nel primo di questi due modelli solamente il trend e la componente accidentali sono espressi nella stessa unità di misura della serie, mentre C ed S sono numeri puri. Nel secondo, invece, sono espressi nell'unità di misura della serie il trend, le componenti stagionale ed i residui, mentre solamente il ciclo è espresso da un numero puro

Empiricamente, si è osservato che in diverse serie reali i valori delle oscillazioni cicliche e di quelle stagionali tendono a variare al variare del livello della serie. Per questa ragione il modello moltiplicativo e quello misto del primo tipo sono quelli che hanno trovato più vasta applicazione pratica. Si noti comunque che, se il trend della serie è costante o varia in modo molto contenuto, i risultati cui si giunge con i diversi modelli sono sostanzialmente analoghi, quindi la scelta del modello, la cui arbitrarietà rappresenta un punto di debolezza di questo tipo di analisi, assume un'importanza tutto sommato contenuta.

4. Le medie mobili e le prime analisi del trend

Torniamo alla serie degli arrivi mensili di turisti negli esercizi ricettivi italiani nel periodo dal 1999 al 2008. Avevamo visto che i valori della serie presentavano una forte componente stagionale, dal momento che gli arrivi dipendevano fortemente dal mese in cui venivano osservati, il che rendeva non solo difficile determinare le effettive componenti tendenziali e cicliche, ma anche impossibile i confronti, salvo quelli tra gli stessi mesi di anni diversi. Un metodo per smussare la serie per eliminare la dipendenza dal periodo dell'anno in serie di questo tipo sono le cosiddette medie mobili. La media mobile a 2k+1 termini centrata su t relativa alla serie è data da:

MAt , k=y t− k yt− k−1 ... y t−1 y t y t 1... y t k−1 yt k

2k1

Quindi la media mobile a 2k+1 termini centrata su t è calcolata semplicemente come media dei k elementi precedenti e dei k elementi successivi della serie. La media mobile permette di eliminare le fluttuazioni dovute alla stagionalità sostituendo ai osservati valori della serie le medie mobili centrate con un numero di termini pari al periodo di oscillazione. Ad esempio, in presenza di dati quadrimestrali la media mobile centrata con k pari a 1 (quindi 2k+1=3) elimina le oscillazioni stagionali: infatti, ogni anno di calendario presenta 3 osservazioni quadrimestrali; l'osservazione per l'anno x del primo quadrimestre è sostituita dalla media delle osservazioni relative al terzo quadrimestre dell'anno x-1 e delle osservazioni relative al primo ed al secondo quadrimestre dell'anno x. In pratica si tratta della media di un anno centrata sul valore di interesse.

In questo modo, tuttavia, la media centrata su t è calcolata come media di un numero dispari di elementi: i k precedenti, i k successivi e quello centrale. Può tuttavia essere necessario calcolare medie mobili con un numero complessivo di elementi pari. Ad esempio, nel caso di dati mensili, come quelli degli arrivi turistici sopra riportati, la lunghezza totale del periodo di stagionalità è pari a 12. In questo caso la media mobile a 2k termini viene centrata con una procedura artificiosa:

infatti, questa viene calcolata su 2k+1 termini con pesi pari a 1/2 per i due valori estremi e pari ad 1 per gli altri.

MAt , k=

12

yt− k y t− k−1... yt−1 y t y t1... yt k−112

y t k

2k

In altri termini, per i dati mensili, le medie mobili centrate a 12 termini vengono calcolate considerando i 6 valori precedenti, i 6 valori successivi ed il valore centrale. Quindi, per gli arrivi negli esercizi turistici registrati nel mese di luglio del 2001 in Italia, la media mobile che permette di eliminare le fluttuazioni stagionali comprende i valori registrati degli arrivi negli esercizi turistici nei mesi di febbraio, marzo, aprile, maggio, giugno, luglio, agosto, settembre, ottobre, novembre e dicembre del 2001 con peso unitario, ed i valori degli arrivi turistici registrati nei mesi di gennaio 2001 e gennaio 2002 con peso pari a 0,5.

I dati, una volta corretti con l'applicazione delle medie mobili, sono detti destagionalizzati, sebbene si tratti di un procedimento “embrionale” della destagionalizzazione vera e propria. Si noti che perché il procedimento di destagionalizzazione restituisca una serie in cui le oscillazioni stagionali siano effettivamente state eliminate, è necessario che il numero di termini delle medie mobili sia uguale al periodo di stagionalità. Se si commette un errore in questo passaggio, la serie delle medie mobili soffrirà ancora di stagionalità.

Le serie temporali usuali sono per lo più dati annuali, quadrimestrali, trimestrali e mensili. Il periodo di stagionalità è in questi casi molto semplice da determinare, essendo pari generalmente al numero di osservazioni che vengono rilevate nel corso di un anno; tuttavia alcuni fenomeni hanno un periodo pluri-annuale. I dati annuali non hanno in generale stagionalità, a meno che non si analizzi un fenomeno che ha un periodo pluri-annuale (ad esempio, la serie storica delle ore di trasmissione televisiva dedicata allo sport durante un anno di calendario ha periodo pari a 4 anni: infatti i principali eventi sportivi che influiscono in modo rilevante sulle ore di trasmissione televisiva, mondiali ed europei di calcio, olimpiadi estive ed invernali, si svolgono tutti ogni 4 anni). Altre serie storiche possono essere rilevate quotidianamente (ad esempio la tiratura dei quotidiani) o addirittura con cadenza oraria (ad esempio il prezzo delle azioni delle aziende quotate in borsa od il consumo di energia elettrica). Il periodo di stagionalità dei dati rilevati quotidianamente è generalmente pari a 7 (i giorni di una settimana), quella dei dati rilevati a cadenza oraria è pari a 24 (le ore in un giorno).

Attenzione: questi valori di periodicità stagionale sono solamente indicativi, nulla vieta che dei dati orari abbiano una stagionalità diversa, più breve, di poche ore. Inoltre, si noti che le medie mobili di qualunque ordine hanno l'effetto di attenuare le variazioni stagionali, in particolare se l'ordine è un multiplo o un sottomultiplo della periodicità stagionale effettiva. Solamente utilizzando le medie mobili centrate dell'ampiezza pari esattamente alla periodicità, tuttavia, queste consentono di eliminare completamente le fluttuazioni stagionali.

Il principale problema connesso con l'utilizzo delle medie mobili consiste nel fatto che si perdono esattamente 2k osservazioni, k all'inizio e k alla fine della serie, per i quali la media mobile non può essere calcolata. Questo problema può essere molto serio se la serie ha un periodo molto lungo e non si dispone di un numero di osservazioni elevato. Nel caso dei flussi turistici portato ad esempio, si hanno 10 anni di osservazioni mensili, quindi un totale di 120 osservazioni. Essendo il periodo di stagionalità pari a 12, si perdono esattamente 6 osservazioni all'inizio della serie e 6 osservazioni alla fine della serie, quindi il totale di medie mobili disponibili è pari a 108, con una perdita informativa complessivamente accettabile.

Si noti che dati come il consumo orario di energia elettrica aggregato a livello nazionale hanno diversi livelli di componente stagionale: infatti, se è ovvio che il ciclo si ripete complessivamente analogo ogni giorno, è altrettanto plausibile che il consumo dipenda dal giorno della settimana, quindi ad esempio sia minore la domenica, giorno in cui la maggior parte degli impianti produttivi è chiusa, rispetto a quanto si osservi nei giorni feriali: tuttavia, un periodo di stagionalità pari a 7x24

= 168 comporta la perdita di un numero elevatissimo di osservazioni: questo problema può essere ovviato se le osservazioni ricoprono un periodo di tempo sufficientemente lungo, ma se si ha a disposizione la serie del consumo orario su diversi anni, si finisce per trattare diverse migliaia di osservazioni alla volta. In questo caso la serie oraria perde la sua ragione di essere. Se si intende analizzare una serie molto lunga, che si estende su un periodo di anni, è opportuno cambiare la periodicità dell'osservazione, aggregando i dati orari o facendone una media su base quotidiana, o addirittura mensile: la periodicità dell'osservazione dev'essere commisurata al tipo di analisi che si intende condurre.

Può tuttavia capitare di avere a che fare con una serie di dati giornalieri molto lunga che soffre di diversi tipi di stagionalità. Ad esempio, la serie delle vendite di un quotidiano ha ovviamente un periodo di stagionalità pari a 7: generalmente, in Italia, le vendite dei quotidiani hanno un picco negativo in corrispondenza della domenica, mentre quasi tutti vendono un numero maggiore di copie il sabato. Inoltre, è possibile osservare una complessiva flessione delle vendite con periodicità annuale, perché le persone tendono a comprare il giornale meno spesso se si trovano in vacanza lontano dal luogo di residenza. Infine, parecchi quotidiani registrano un picco nelle vendite il medesimo giorno di ogni anno, il 7 di gennaio: si tratta di un effetto legato all'estrazione dei premi della lotteria Italia, dei quali i principali quotidiani riportano l'elenco completo.

Situazioni di questo tipo sono solitamente affrontate con l'introduzione di variabili dummies: variabili che assumono valore significativo solo in corrispondenza del valore a cui sono associate, nel caso portato ad esempio l'osservazione del 7 gennaio, in modo da poter “attenuare” l'effetto del dato anomalo periodico.

C'è un secondo problema, più delicato, connesso con l'utilizzo delle medie mobili: queste infatti non colgono le stagionalità ed i movimenti ciclici che hanno un periodo diverso dal numero di termini su cui sono calcolate (2k o 2k+1, a seconda che la periodicità sia pari o dispari), o da un suo sottomultiplo. In particolare, questo può dare luogo all'emersione di cicli spuri, che non hanno riscontro nella serie originaria: in altri termini, può succedere, e nei fatti succede relativamente spesso, che una struttura dei residui che ha caratteristiche che sottostanno ad una qualche forma di regolarità, trasformando la serie con il calcolo delle medie mobili, venga amplificata col risultato che la serie trasformata sembra essere caratterizzata da movimenti ciclici sistematici, quantunque non necessariamente regolari, che nella realtà non sussistono. Infatti la completa eliminazione delle variazioni stagionali fa sì che altre variazioni caratterizzate da una qualunque forma di ciclicità, che nell'economia della serie grezza sono praticamente impercettibili, diventino numericamente significative, anche se all'atto pratico non hanno nessuna rilevanza. Questo processo è noto come effetto di Slutzky-Yule.

E' un po' come se uno trovasse il sistema di prescindere i movimenti terrestri di rotazione sul proprio asse e di rivoluzione intorno al Sole, quindi l'alternanza giorno-notte e l'alternanza delle stagioni, nell'analisi dello sviluppo della vita sulla Terra: l'astronomia ci dice che rimangono qualcosa come altri 23 movimenti di varia natura che compie la Terra con periodo più o meno lungo ed approssimativamente costante; i più noti sono il moto di precessione degli equinozi (che ha un periodo di circa 13000 anni) e le nutazioni (che hanno un periodo variabile di pochi anni, tra i 3 ed i 5). Inoltre l'attrazione della Luna ed il suo ciclo di rotazione sul proprio asse e rivoluzione intorno alla Terra, entrambi di circa 28 giorni, oltre ad essere una delle concause di alcuni dei movimenti minori della Terra, determina le maree, che, come è noto, si alternano quotidianamente, ma con intensità variabile e ciclica. Questa serie di fattori, pur essendo sostanzialmente irrilevanti e nella pratica impercettibili, diventando gli unici che si osservano una volta eliminate rotazione e rivoluzione terrestre, venendo a questo punto svolta l'analisi solo sulla loro base, assumerebbero un'importanza che in effetti non hanno.

Infine, l'utilizzo delle medie mobili può spostare ed attenuare la visualizzazione dei punti di svolta: se una serie presenta un'osservazione critica, che porta ad una modifica rilevante nello sviluppo della stessa, questa inizia a manifestare la sua influenza nel momento in cui l'osservazione viene inserita per la prima volta nel calcolo di una media mobile, ed il suo effetto si spalma nelle successive medie mobili. Nell'esempio citato più in alto, il fallimento della Lehamn Brothers nel

settembre del 2008 in riferimento alla serie mensile dei prezzi dei titoli di credito comincia a far sentire il suo effetto già nell'osservazione corretta tramite media mobile a 12 termini relativa al mese di marzo 2008, e solo nel mese di marzo 2009 cessa di essere inclusa nel calcolo: un evento critico come l'insorgere di una forte crisi finanziaria che ha fatto precipitare il mercato dei titoli in poche ore è trasformato dalle medie mobili in un movimento verso il basso lungo 12 mesi, in cui l'osservazione in cui questo si è effettivamente verificato rappresenta una sorta di minimo locale.

Tab.4.1: Medie mobili centrate a 12 termini della serie degli arrivi mensili negli esercizi ricettivi italiani nel periodo 1999-2008

I valori delle medie mobili calcolate con questa procedura sui dati relativi al turismo dell'ISTAT sono riportati in tabella 4.1: i dati sono stati previamente aggiustati per i giorni di calendario; il relativo time plot è riportato nella figura 4.1, confrontato con la serie originaria. Nella successiva figura 4.2 è riportato il time plot della serie delle medie mobili da solo, utilizzando per l'asse verticale una scala molto più ridotta, in modo da poter apprezzare le differenze tra i valori.

Il time plot in figura 4.1 evidenzia alcuni aspetti: preliminarmente, è possibile osservare che la serie destagionalizzata manca di alcuni valori a destra ed a sinistra, più esattamente i primi e gli ultimi 6 valori della serie: come già detto, si tratta di un problema endemico di questa metodologia. Inoltre, emerge in modo molto chiaro cosa significa destagionalizzare i valori tramite media mobile: le variazioni tra i valori degli arrivi mensili dovute all'alternanza delle stagioni vengono attenuate in modo molto netto. Si passa da una situazione in cui valori a distanza di sei mesi variano di quasi 10000000 di unità ad una curva estremamente schiacciata e quasi orizzontale: tutti i valori della serie destagionalizzata si trovano nell'intervallo tra i sei milioni e gli otto milioni e mezzo di arrivi.

Passando all'analisi del grafico in figura 4.2, in cui la serie destagionalizzata è stata visualizzata su una scala diversa, in cui i valori minimo e massimo sono rispettivamente circa 6500 e 8200 (dati in migliaia di arrivi), si apprezza come gli arrivi mensili destagionalizzati non siano affatto costanti.

E' infatti possibile osservare un movimento tendenziale di fondo chiaramente crescente, caratterizzato tuttavia da movimenti oscillatori molto forti: ad un primo periodo (1999-2001) di crescita netta ed evidente, segue un periodo di andamento di due anni di andamento pressoché orizzontale, coincidente con la crisi post 11 settembre. In questo caso si vede in modo molto netto come il rallentamento legato a questo evento si inizi ad osservare, nella serie destagionalizzata

Anno Mese Arrivi Tot. Anno Mese Arrivi Tot. Anno Mese Arrivi Tot. Anno Mese Arrivi Tot. Anno Mese Arrivi Tot.

1999 gen - 2001gen 6810 2003 gen 6863 2005 gen 7238 2007 gen 7873feb - feb 6822 feb 6866 feb 7270 feb 7909mar - mar 6829 mar 6860 mar 7287 mar 7945apr - apr 6819 apr 6850 apr 7304 apr 7961mag - mag 6819 mag 6847 mag 7316 mag 7981giu - giu 6813 giu 6861 giu 7331 giu 7996lug 6181 lug 6795 lug 6891 lug 7349 lug 8004ago 6183 ago 6783 ago 6918 ago 7372 ago 8017set 6195 set 6811 set 6941 set 7377 set 8045ott 6241 ott 6812 ott 6956 ott 7428 ott 8023nov 6264 nov 6808 nov 6983 nov 7492 nov 8023dic 6300 dic 6811 dic 6991 dic 7530 dic 8035

2000 gen 6388 2002gen 6775 2004 gen 7018 2006 gen 7582 2008 gen 7997feb 6454 feb 6770 feb 7057 feb 7616 feb 8014mar 6516 mar 6772 mar 7084 mar 7665 mar 8014apr 6561 apr 6786 apr 7129 apr 7696 apr 7983mag 6584 mag 6810 mag 7154 mag 7705 mag 7962giu 6629 giu 6819 giu 7158 giu 7727 giu 7949lug 6665 lug 6832 lug 7159 lug 7739 lug -ago 6689 ago 6847 ago 7159 ago 7743 ago -set 6710 set 6825 set 7179 set 7762 set -ott 6720 ott 6823 ott 7191 ott 7785 ott -nov 6737 nov 6844 nov 7173 nov 7802 nov -dic 6779 dic 6854 dic 7191 dic 7838 dic -

tramite medie mobili, 6 mesi prima, in corrispondenza del mese di marzo 2001. Successivamente, nel 2003, la serie riprende a crescere, e la crescita, con ritmi variabili ma sempre evidentemente positivi, dura circa 4 anni; a metà 2007 si registra un rallentamento che porta la serie a decrescere nella prima parte del 2008.

Fig. 4.1: Confronto dei time plot relativi ai dati in tab. 2.3 e 4.1

Fig. 4.2: Time plot dei dati in tab. 4.1

E' a questo punto possibile effettuare qualche considerazione sui rischi che comporta l'analisi di una serie storica complessa su un periodo molto limitato di tempo. Se infatti il grafico in figura 4.2 fosse stato limitato al periodo 1999-2001, (figura 4.3), si sarebbe stati portati a pensare che la serie degli arrivi mensili è fortemente crescente, il che sarebbe smentito da una successiva analisi limitata

1999,011999,06

1999,112000,04

2000,092001,02

2001,072001,12

2002,052002,10

2003,032003,08

2004,012004,06

2004,112005,04

2005,092006,02

2006,072006,12

2007,052007,10

2008,032008,08

0

2000

4000

6000

8000

10000

12000

14000

16000

1999,071999,11

2000,032000,07

2000,112001,03

2001,072001,11

2002,032002,07

2002,112003,03

2003,072003,11

2004,032004,07

2004,112005,03

2005,072005,11

2006,032006,07

2006,112007,03

2007,072007,11

2008,03

5500

6000

6500

7000

7500

8000

8500

al periodo 2001-2003. Se invece ci si fosse limitati all'analisi del periodo 2003-2007 (figura 4.4), si avrebbe osservato un apparente trend ascendente molto netto caratterizzato da qualche piccolo abbassamento ciclico. Osservando la serie sui 10 anni invece si osserva un andamento crescente, quantunque a ritmi molto diversi ed enormemente influenzati da ciclo, che tuttavia si conclude con un rallentamento e poi calo preoccupanti, in quanto registrati diversi mesi prima della crisi del settembre 2008.

Fig. 4.3: Time plot dei dati in tab. 4.1 relativo al solo periodo 1999-2001

Fig. 4.4: Time plot dei dati in tab. 4.1 relativo al solo periodo 2003-2007

Un modo per effettuare una stima del movimento tendenziale di una serie è il modello di regressione. Si suppone che il trend di una serie sia semplice funzione del tempo. In questa sede ci limiteremo all'analisi della classica funzione lineare:

1999,071999,08

1999,091999,10

1999,111999,12

2000,012000,02

2000,032000,04

2000,052000,06

2000,072000,08

2000,092000,10

2000,112000,12

2001,012001,02

2001,03

6000

6200

6400

6600

6800

7000

2003,052003,07

2003,092003,11

2004,012004,03

2004,052004,07

2004,092004,11

2005,012005,03

2005,052005,07

2005,092005,11

2006,012006,03

2006,052006,07

2006,092006,11

2007,012007,03

2007,05

6600

6800

7000

7200

7400

7600

7800

8000

8200

yt = β0 + β1t + εt.

In questa formulazione εt è un termine d'errore casuale che ha media nulla. Vedremo più avanti cosa comporta questo genere di assunzione.

I coefficienti β0 e β1 vengono stimati col metodo dei minimi quadrati. E' buona norma numerare in senso progressivo le osservazioni, anche se si dispone delle relative date: in altre parole, il primo valore della serie verrà contrassegnato dal numero 1, il secondo dal numero 2 e così via. In questo modo il valore β0, che corrisponde come è noto al valore assunto da quando t=0, restituirà il valore della serie all'inizio del periodo di osservazione. Altrimenti, se si utilizzassero gli anni, β0 sarebbe pari al valore della serie al vero tempo t=0: quindi, ad esempio, nel caso della serie del consumo annuale di energia sopra introdotta, si visualizzerebbe il consumo energetico teorico dell'Italia nell'anno 0, il che è ovviamente un'informazione priva di senso.

Passiamo a calcolare i coefficienti del modello lineare nel tempo per delle serie reali. Iniziamo con una serie che evidenziava un trend lineare piuttosto evidente, quella del consumo energetico.

Effettuando i calcoli si ottiene quanto segue:

yt = 66387,5 + 6565,8t + εt.

Il valore del coefficiente di determinazione per questo modello è pari a 0,99, quindi l'adattamento del modello ai dati è elevatissimo. In altre parole, questo modello lineare descrive in maniera pressoché perfetta l'andamento di fondo della serie storica.

Il modello lineare confrontato con i dati grezzi della serie è riportato nella seguente figura 4.5.

Fig. 4.5: Time plot dei dati in tab. 2.2 e retta di regressione dei minimi quadrati

Osservando il grafico emerge in maniera piuttosto chiaro l'ottimo adattamento ai dati del modello.

La serie degli arrivi mensili destagionalizzati restituisce invece i seguenti coefficienti:

yt = 6275,49 + 16,26t + εt

Il valore del coefficiente di determinazione è pari a 0,94, quindi anche in questo caso è molto prossimo all'unità. In altre parole, nel caso della serie degli arrivi mensili su 10 anni, il valore del coefficiente angolare ha un andamento chiaramente crescente (gli arrivi crescono mediamente di circa 16300 unità al mese), e l'adattamento ai dati è molto buono. Da questo si evince che il modello lineare è adeguato per descrivere l'andamento della serie.

12

34

56

78

910

1112

1314

1516

1718

1920

2122

2324

2526

2728

2930

3132

3334

3536

3738

3940

4142

4344

45

0

50000

100000

150000

200000

250000

300000

350000

400000

Il modello lineare confrontato con i dati della serie destagionalizzati mediante medie mobili a 12 termini è riportato nella seguente figura 4.6.

Anche dall'analisi del grafico l'ottimo adattamento del modello lineare rispetto ai dati è perfettamente visibile. Risulta visibile tuttavia anche l'incapacità da parte del modello lineare di cogliere movimenti ciclici che sono estremamente rilevanti nella determinazione di osservazioni consecutive.

Fig. 4.6: Time plot dei dati in tab. 4.1 e retta di regressione dei minimi quadrati

Passiamo dunque ad analizzare la struttura dei residui, un aspetto molto importante dell'analisi delle serie storiche. Il residuo, nel caso del modello lineare sopra introdotto, non è altro che la differenza tra il valore effettivamente osservato della serie ed il valore stimato con la retta dei minimi quadrati:

εt = yt – β0 + β1t.

Come prima cosa, effettuiamo un'analisi grafica dei residui del modello lineare stimato per la serie del consumo di energia elettrica dell'Italia nel periodo 1963-2007. I risultati sono riportati in figura 4.7.

Si vede immediatamente che i residui del modello hanno una struttura molto precisa e ben identificabile. Se i residui fossero effettivamente casuali, ci si aspetterebbe una andamento erratico, in modo che ogni singola osservazione sia indipendente dalle altre; qui invece si osserva che l'andamento presenta delle evidenti caratteristiche cicliche. All'inizio si ha qualche residuo lievemente negativo, poi si osserva una serie di valori positivi, intervallati da un solo valore negativo, poi una serie di valori negativi, intervallati da tre piccoli valori positivi, poi di nuovo valori positivi. Si dice in questo caso che la serie dei residui è caratterizzata da una forte memoria: il fatto che un dato valore residuo sia positivo e di un certo livello, rende molto frequente che sia positivo, e di intensità analoga, anche il valore successivo. In effetti su 45 osservazioni si contano solamente 8 cambi di segno.

Si considerino ora le considerazioni fatte in sede di analisi grafica della serie storica del consumo energetico: si era detto che a fronte di un trend crescete chiaramente identificabile, si osservavano dei movimenti ciclici che portavano la serie a mostrare dei periodici rallentamenti nel ritmo di crescita, quando non addirittura dei piccoli periodi di calo della domanda. Nell'applicare il modello

1999,071999,11

2000,032000,07

2000,112001,03

2001,072001,11

2002,032002,07

2002,112003,03

2003,072003,11

2004,032004,07

2004,112005,03

2005,072005,11

2006,032006,07

2006,112007,03

2007,072007,11

2008,03

5500

6000

6500

7000

7500

8000

8500

lineare, tuttavia, non si è tenuto conto della struttura ciclica della serie. In questo senso, l'analisi regressiva che è stata effettuata è senza dubbio interessante, in quanto permette di individuare immediatamente l'andamento di fondo, anche con un buon livello di attendibilità, dimostrato dall'elevato valore di R2, tuttavia non è in grado da sola di cogliere tutti gli aspetti che caratterizzano la serie.

Fig. 4.7: Residui del modello lineare sulla serie storica del consumo di energia elettrica in Italia nel periodo 1963-2007

Nella seguente figura 4.8 sono riportati i residui del modello lineare per la serie destagionalizzata degli arrivi totali negli esercizi ricettivi italiani nel periodo 1999-2008.

Fig. 4.8: Residui del modello lineare sulla serie storica degli arrivi totali mensili negli esercizi ricettivi italiani nel periodo 1999-2008, destagionalizzata mediante medie mobili

Anche in questo caso, la struttura appare tutt'altro che casuale: si osservano in modo chiaro dei cicli, oltretutto di ampiezza ed intensità variabile: come si vede, la serie inizia in una fase di ciclo negativo, che diventa tuttavia positivo in modo repentino dopo poche osservazioni. I valori

19631965

19671969

19711973

19751977

19791981

19831985

19871989

19911993

19951997

19992001

20032005

2007

-15000

-10000

-5000

0

5000

10000

15000

1999,071999,11

2000,032000,07

2000,112001,03

2001,072001,11

2002,032002,07

2002,112003,03

2003,072003,11

2004,032004,07

2004,112005,03

2005,072005,11

2006,032006,07

2006,112007,03

2007,072007,11

2008,03

-250

-200

-150

-100

-50

0

50

100

150

200

250

osservati restano sopra la retta di regressione per un paio d'anni, poi, in corrispondenza del mese di settembre del 2001, i residui diventano negativi, e lo rimangono per circa 4 anni, per poi tornare positivi, nuovamente per un periodo di circa 2 anni, e tornare negativi per le ultime tre osservazioni disponibili. Quindi, su 108 osservazioni complessive, si registrano solamente 4 cambi di segno dei residui: chiaramente, la struttura non è casuale.

Quindi anche in questo caso, l'analisi del trend con un modello lineare permette di giungere a risultati interessanti per quello che riguarda l'andamento di medio-lungo periodo: si osserva che nel corso di 10 anni gli arrivi mensili nelle strutture ricettive del paese sono aumentati di circa 1700000 unità; tuttavia, trovandosi l'osservazione finale della serie nel mezzo di un ciclo negativo piuttosto improvviso, che tra l'altro ha preceduto di poco l'insorgere di una gravi crisi economica, è lecito attendersi, qualora si dovessero inserire ulteriori osservazioni in coda alla serie, che il coefficiente angolare della retta diminuisca leggermente. Tuttavia, l'analisi del trend basato semplicemente su un modello di regressione lineare è di per sé insufficiente a cogliere tutti gli aspetti della serie. L'analisi dei residui aggiunge comunque qualcosa, perché permette di identificare almeno a livello intuitivo i movimenti ciclici dei fenomeni.

Si ricorda tra l'altro che l'adattamento del modello ai dati misurato dal R2 è elevatissimo, essendo quest'ultimo pari a 0,94, quindi poco lontano da 1. Si faccia attenzione: anche qualora si avesse a che fare con un valore del coefficiente di determinazione molto più basso, tendente a 0, non significherebbe che il trend calcolato è sbagliato. Significherebbe semplicemente che il modello lineare non è adatto ad interpretare la struttura dei dati. Questo avverrebbe, ad esempio, nel caso di valori oscillanti in modo molto significativo attorno ad un trend praticamente orizzontale. Nel breve e nel medio periodo, in condizioni di ciclo normali, una tipica serie caratterizzata da questo comportamento è quella delle medie mensili delle temperature. Un R2 molto basso, tuttavia, non toglie che una retta pressoché orizzontale sia la miglior stima del trend della serie.

Vediamo adesso una procedura che consentirà di analizzare la componente sistematica in modo più dettagliato.

5. I metodi di scomposizione

Quella che verrà ora illustrata è una procedura iterativa che permette di giungere ad una stima separata delle componenti considerate sistematiche e delle componenti accidentali di una serie temporale, in riferimento al modello additivo presentato in precedenza. Successivamente, verrà presentata una procedura analoga in riferimento al modello misto. In entrambi i casi l'esposizione verrà accompagnata dai risultati che si ottengono applicando le metodologie descritte alla serie degli arrivi mensili nelle strutture ricettive italiane nel decennio 1999-2008. Si partirà dalla serie dei dati grezzi come è stata introdotta nella parte iniziale di questo testo, aggiustati per i giorni di calendario.

Il modello additivo, ricordiamo, prevede che la componente tendenziale, il ciclo, le fluttuazioni stagionali e l'errore accidentale concorrano a determinare l'andamento della serie nel modo che segue:

yt = Tt + Ct + St + ut, t=1, 2, ..., n.

In questo modo, si ricorda, tutte le componenti sono espresse nella medesima unità di misura della serie.

Da qui in avanti, tuttavia, questo modello sarà sintetizzato come segue:

yt = TCt + St + ut, t=1, 2, ..., n.

In questa formulazione, TCt indica la componente Trend-Ciclo. In altre parole, il trend ed il ciclo vengono accomunati per formare la parte sistematica di medio e lungo periodo. St continua ad

indicare la componente stagionale, mentre ut continua ad indicare i residui.La procedura iterativa consta dei seguenti passaggi:

1. Calcolo della componente di Trend-Ciclo di prima approssimazione.In questa fase una prima approssimazione della componente sistematica di riferimento viene

calcolata tramite le medie mobili centrate con un numero di termini pari alla periodicità della componente stagionale. Sui dati mensili degli arrivi turistici, pertanto, le medie mobili saranno centrate a 12 termini. In altre parole, si ripete quanto è stato fatto in precedenza. Si noti che questa procedura offre solamente una stima preliminare della componente Trend-Ciclo, puramente strumentale per il prosieguo del procedimento, non restituisce nessun risultato definitivo.

2. Calcolo preliminare della componente di stagionalità mista ad errore .La componente di stagionalità mista ad errore è qui indicata con (S + u)t perché con questa

procedura quello che si ottiene è un valore misto di stagionalità ed errore nel quale non è possibile separare l'apporto delle due quantità. Questa componente viene calcolata come differenza tra i valori osservati della serie originaria ed i rispettivi valori delle medie mobili calcolati nel passo precedente:

(S + u)t = yt – MMt,

in cui MMt è il valore della media mobile centrata sul valore t calcolata al punto 1.

3. Calcolo della componente di stagionalità.In questo passo viene calcolata l'entità delle variazioni stagionali. Si suppone che le componenti

stagionali siano invarianti rispetto al tempo. Nel caso di dati mensili, quindi con periodo di stagionalità pari a 12, questo equivale a supporre che St = St+12 = St+24 = ... = St+12p, in cui p è il numero di anni che complessivamente copre la serie. In altre parole, si suppone che la variazione stagionale relativa ad ogni singolo mese sia sempre della stessa entità, e che le eventuali differenze che si riscontrano nelle osservazioni siano dovute ad effetti diversi. Questo significa che, se si suppone che il trend sia costante e che non vi siano effetti di ciclo, i valori dello stesso mese in anni successivi sono strutturalmente sempre uguali, e che le osservazioni differiscano solo per via di componenti accidentali. Gli arrivi in Italia nel mese di gennaio, dunque, in assenza di fattori tendenziali e di movimenti ciclici, dovrebbero essere strutturalmente sempre gli stessi, e variare solo in funzione del caso. In presenza di trend e ciclo, invece, ciò che determina l'osservazione effettiva della temperatura media del mese di gennaio è determinato da questi due fattori, e da una componente residua casuale a media nulla.

Il valore della componente stagionale del mese m viene calcolato come media sull'universo delle osservazioni disponibili della componente (S + u)t delle osservazioni relative al mese m:

Sm=1p∑i=0

pSum12i .

Il risultato di questi calcoli risulta in un numero di coefficienti di stagionalità pari al periodo di stagionalità della serie grezza. Nel caso dell'esempio, con dati mensili, si avranno 12 coefficienti stagionali, uno per ogni mese dell'anno.

Essendo il modello additivo, le componenti di stagionalità devono sommare a 0:

∑m=1

12 S m=0 .

Infatti, per come è stato costruito il modello additivo, le componenti stagionali devono sommare all'elemento neutro dello stesso, che in questo caso è pari a 0. Se si verificasse il caso che le componenti di stagionalità sommassero ad un valore pari a w diverso da 0, ogni componente dovrà

essere normalizzata sottraendole, sempre nel caso di dati mensili, un valore pari a w/12:

∑m=1

12 S m=w => S ' m= S m−w12 , per ogni m.

I valori Sm possono formare una serie a loro volta venendo messi in ordine e ripetuti in sequenza:

S t={ S 1 , S 2 , ... , S12 , S1 , ...}

4. Costruzione della serie destagionalizzata Dt.La serie destagionalizzata è ricavata per differenza tra la serie grezza originaria e la serie delle

componenti stagionali costanti ricavate nel passo precedente:

D t=y t− S t .

La serie Dt, pertanto, contiene tutte le componenti della serie originaria, salvo quella stagionale.

5. Stima della componente trend-ciclo della serieLa componente TCt della serie viene stimata mediante una media mobile a tre termini della serie

destagionalizzata costruita nel passo precedente. Si suppone infatti che una media mobile con un numero di termini molto piccolo come questa sia in grado di smussare la serie dalle componenti residuali, che, in quanto accidentali, non presentano nessun tipo di regolarità. Si ricorda, infatti, che la media mobile di qualunque ordine è in grado di smussare la serie e di ridurre la significatività delle perturbazioni che la caratterizzano.

TC t=13D t−1D tD t1 .

In questo modo si perde una ulteriore osservazione all'inizio della serie ed un'altra alla fine. In generale, questa perdita non è tuttavia significativa.

6. Calcolo dell'intera parte sistematica della serie.La parte sistematica della serie è pertanto quella costituita dalla componente trend-ciclo ottenuta

nel passo precedente e dagli effetti di stagionalità costanti calcolati nel passo 3:

y t= TC t S t .

In questo modo, i valori y t contengono solamente la parte sistematica della serie, e prescindono dagli errori accidentali.

7. Calcolo dei residui.I residui sono a questo punto calcolati per differenza tra la serie originaria e la sua parte

sistematica ottenuta nel passo precedente:

u t= y t− y t .

I risultati di questa procedura sui dati ISTAT degli arrivi mensili nelle strutture ricettive italiane nel periodo 1999-2008 sono riportati nella seguente tabella 5.1. Le intestazioni di colonna rimandano immediatamente alle quantità che vengono calcolate nei vari passi della procedura sopraTab. 5.1: Scomposizione con il modello additivo (arrivi totali in Italia, 1999-2008)

1 3475,9 - - - - - 61 4015,8 7018,0 -3002,2 -3230,2 7311,9 7237,42 4125,2 - - - - - 62 4920,0 7056,7 -2136,7 -2374,0 7052,1 7143,13 4657,6 - - - - - 63 5374,4 7084,5 -1710,0 -1602,7 7065,3 7013,74 6264,7 - - - - - 64 7208,4 7128,5 79,8 166,4 6923,9 7204,15 7393,5 - - - - - 65 8435,3 7153,8 1281,5 950,5 7623,1 6995,96 8020,2 - - - - - 66 9385,6 7158,3 2227,3 2791,1 6440,6 7169,97 9643,2 6180,9 3462,2 3888,7 5939,4 - 67 11151,9 7159,1 3992,8 3888,7 7446,0 7057,58 10380,5 6182,8 4197,7 4514,5 6065,1 6001,6 68 11609,9 7159,2 4450,7 4514,5 7285,8 7231,59 7876,0 6194,7 1681,3 1767,9 6000,3 6197,6 69 8876,2 7178,5 1697,6 1767,9 6962,8 7253,8

10 5588,3 6241,2 -653,0 -831,9 6527,4 6326,3 70 6573,3 7190,7 -617,4 -831,9 7513,0 7201,811 3445,9 6263,8 -2818,0 -3052,5 6451,2 6441,8 71 4145,2 7173,0 -3027,8 -3052,5 7129,8 7288,312 3276,9 6300,3 -3023,4 -3007,2 6346,9 6536,4 72 4146,8 7191,4 -3044,6 -3007,2 7222,0 7269,913 3523,2 6387,7 -2864,5 -3230,2 6811,2 6483,9 73 4148,2 7238,4 -3090,2 -3230,2 7458,0 7154,714 4122,5 6454,0 -2331,5 -2374,0 6293,7 6578,5 74 4790,8 7269,8 -2479,0 -2374,0 6784,2 7308,715 4946,7 6516,0 -1569,3 -1602,7 6630,5 6577,8 75 5966,7 7286,9 -1320,2 -1602,7 7683,8 7038,216 7091,7 6561,0 530,7 166,4 6809,1 6571,6 76 6907,6 7304,2 -396,7 166,4 6646,6 7284,317 7109,0 6584,3 524,7 950,5 6275,1 6440,6 77 8313,5 7316,3 997,2 950,5 7522,5 7063,518 9179,3 6629,3 2550,0 2791,1 6237,7 6459,8 78 9949,0 7331,5 2617,5 2791,1 7021,6 7532,019 10581,7 6665,2 3916,5 3888,7 6866,5 6601,0 79 11715,9 7349,3 4366,7 3888,7 8051,9 7528,320 11032,3 6688,5 4343,8 4514,5 6698,7 6789,4 80 11799,5 7371,6 4427,9 4514,5 7511,3 7588,821 8713,7 6710,4 2003,2 1767,9 6802,9 6753,0 81 9095,6 7376,9 1718,7 1767,9 7203,1 7482,322 5829,9 6720,1 -890,1 -831,9 6757,4 6771,3 82 6770,6 7428,0 -657,4 -831,9 7732,4 7389,223 3762,8 6736,7 -2974,0 -3052,5 6753,6 6875,3 83 4237,5 7492,4 -3254,9 -3052,5 7232,0 7491,724 4041,3 6778,8 -2737,4 -3007,2 7114,8 6929,5 84 4418,9 7529,9 -3110,9 -3007,2 7510,9 7452,925 3620,3 6810,5 -3190,2 -3230,2 6920,0 6876,3 85 4303,1 7581,6 -3278,5 -3230,2 7615,8 7420,526 4584,4 6822,2 -2237,8 -2374,0 6594,2 6741,3 86 5171,7 7616,3 -2444,6 -2374,0 7134,8 7392,127 5010,7 6829,2 -1818,4 -1602,7 6709,6 6765,5 87 5713,4 7665,1 -1951,7 -1602,7 7425,7 7555,228 7258,5 6819,3 439,3 166,4 6992,8 6745,1 88 8386,4 7695,9 690,6 166,4 8105,2 7707,629 7342,7 6819,1 523,7 950,5 6533,1 6850,8 89 8381,6 7704,6 677,1 950,5 7591,9 7845,930 9954,0 6813,2 3140,8 2791,1 7026,5 6814,1 90 10779,4 7726,6 3052,8 2791,1 7840,6 7967,531 10568,7 6794,7 3774,0 3888,7 6882,7 6979,6 91 12126,2 7739,0 4387,2 3888,7 8470,1 8084,332 11326,8 6783,4 4543,4 4514,5 7029,5 6870,9 92 12222,3 7742,9 4479,4 4514,5 7942,2 8118,033 8585,9 6811,0 1774,8 1767,9 6700,4 6797,1 93 9844,5 7762,0 2082,5 1767,9 7941,8 7868,434 5719,9 6811,8 -1091,9 -831,9 6661,5 6743,2 94 6759,7 7784,6 -1024,9 -831,9 7721,2 7703,935 3868,1 6807,6 -2939,5 -3052,5 6867,6 6801,3 95 4457,3 7802,2 -3344,9 -3052,5 7448,7 7665,336 3794,8 6810,6 -3015,8 -3007,2 6874,7 6820,3 96 4728,1 7838,0 -3109,9 -3007,2 7826,0 7626,537 3422,6 6775,5 -3352,9 -3230,2 6718,4 6706,7 97 4292,3 7872,9 -3580,6 -3230,2 7604,9 7553,738 4511,5 6769,7 -2258,3 -2374,0 6527,0 6901,8 98 5275,2 7908,6 -2633,3 -2374,0 7230,1 7541,239 5747,1 6772,4 -1025,4 -1602,7 7460,0 6757,7 99 6069,5 7944,8 -1875,3 -1602,7 7788,6 7769,040 6541,9 6785,8 -243,8 166,4 6285,9 6968,2 100 8572,2 7961,2 611,0 166,4 8288,4 7969,841 7956,5 6810,2 1146,4 950,5 7158,6 6645,9 101 8617,7 7981,4 636,3 950,5 7832,5 8192,042 9413,3 6818,6 2594,6 2791,1 6493,2 6742,2 102 11402,4 7996,3 3406,1 2791,1 8455,0 8325,543 10266,5 6832,2 3434,2 3888,7 6574,7 6754,9 103 12340,9 8003,8 4337,1 3888,7 8688,9 8580,044 11490,9 6847,0 4643,9 4514,5 7196,8 6791,4 104 12863,8 8017,4 4846,4 4514,5 8596,1 8484,245 8487,0 6825,4 1661,6 1767,9 6602,9 6962,5 105 10073,5 8045,4 2028,2 1767,9 8167,7 8217,546 6138,1 6823,1 -685,0 -831,9 7087,8 6907,8 106 6924,2 8023,0 -1098,8 -831,9 7888,9 7939,747 4035,5 6844,1 -2808,6 -3052,5 7032,7 7010,8 107 4775,6 8023,2 -3247,6 -3052,5 7762,7 7839,248 3831,2 6854,0 -3022,8 -3007,2 6911,9 6986,2 108 4767,3 8035,2 -3267,9 -3007,2 7865,9 7788,749 3712,6 6863,1 -3150,5 -3230,2 7014,1 6837,5 109 4434,5 7997,0 -3562,5 -3230,2 7737,4 7722,750 4576,3 6866,3 -2290,0 -2374,0 6586,7 6821,8 110 5459,3 8014,2 -2554,8 -2374,0 7564,8 7856,451 5162,9 6859,7 -1696,9 -1602,7 6864,6 6753,2 111 6556,8 8014,1 -1457,3 -1602,7 8267,0 7696,452 7071,6 6850,0 221,6 166,4 6808,4 6934,6 112 7547,4 7982,7 -435,3 166,4 7257,3 8126,653 7929,3 6847,4 1081,9 950,5 7130,9 6898,4 113 9647,7 7962,3 1685,4 950,5 8855,4 7936,054 9679,7 6860,7 2819,0 2791,1 6755,9 6804,3 114 10661,2 7949,2 2712,0 2791,1 7695,3 -55 10218,7 6891,2 3327,5 3888,7 6526,0 6868,5 115 12164,3 - - - - -56 11615,3 6918,1 4697,2 4514,5 7323,6 6724,5 116 13452,1 - - - - -57 8204,2 6941,3 1263,0 1767,9 6324,0 6928,4 117 9484,7 - - - - -58 6187,1 6955,8 -768,7 -831,9 7137,6 6795,2 118 6758,2 - - - - -59 3925,3 6982,6 -3057,3 -3052,5 6924,0 7136,7 119 4452,3 - - - - -60 4259,5 6991,4 -2731,9 -3007,2 7348,4 7194,8 120 4775,6 - - - - -

yt MMt Sut St Dt TCtt yt MMt Sut St Dt TCtt

descritta. Particolare importanza rivestono a questo punto la terzultima e l'ultima colonna: la prima riporta i dati della componente trend-ciclo, ossia della serie depurata dai termini di residuo

Si può osservare che la serie presenta delle similitudini molto vaghe con quella in cui la destagionalizzazione era stata effettuata semplicemente applicando le medie mobili a 12 elementi (fig. 4.1): è infatti possibile osservare l'insorgere di un problema. Nel corso degli ultimi anni della serie, che sono anche quelli caratterizzati dal livello complessivo più alto, la procedura non è in grado di bilanciare completamente le fluttuazioni stagionali. Si ricorda che queste sono stimate come media aritmetica delle fluttuazioni registrate su tutto il periodo considerato. Quindi, la presenza di un time plot come quello di figura 5.1 suggerisce che i movimenti stagionali dipendano dal livello della serie (sono maggiori quando i valori della serie sono più elevati). Questo, a sua volta, suggerisce che il modello di scomposizione additiva, i cui passaggi sono illustrati in tabella 5.1, non è adeguato per rappresentare la serie.

Fig. 5.1: Time plot dei valori stimati con scomposizione additiva della componente trend-ciclo per la serie delle medie mensili delle temperature massime rilevate a Minneapolis nel periodo 1999-2008.accidentale e di stagionalità, il cui andamento è riportato nella seguente figura 5.1.

Passiamo a questo punto ad introdurre la procedura iterativa per la stima delle componenti del modello misto. Dal momento che l'esempio applicativo farà riferimento di nuovo ai dati relativi agli arrivi mensili totali registrati negli esercizi ricettivi italiani nel decennio 1999-2008, la componente stagionale verrà ancora considerata avere una periodicità di 12 osservazioni. Ribadiamo che qualora si dovesse analizzare una serie di dati trimestrali, come la maggior parte delle serie economiche, la stagionalità avrebbe presumibilmente periodicità pari a 4, il numero di trimestri che ci sono in un anno. Le procedure che sono state introdotte per il modello additivo e che verranno introdotte per quello misto sono immediatamente generalizzabili a qualunque genere di componente stagionale. Si noterà che la procedura iterativa che verrà illustrata per il modello misto è nella pratica assolutamente analoga a quella presentata per il modella additivo, con le sole differenze relative al fatto che una parte delle componenti interagisce su base moltiplicativa invece che additiva. Si ricorda, pertanto, che quando delle componenti vengono moltiplicate tra loro, solamente una (nel caso specifico, il trend) è espressa nella medesima unità di misura della serie, mentre le altre sono numeri puri. Si ricorda anche che una perturbazione “neutra” in un modello moltiplicativo assume valore 1, contrariamente a quanto succede nel caso additivo, in cui una perturbazione priva di effetti ha valore 0.

1999/8 1999/12

2000/4 2000/8

2000/12 2001/4

2001/8 2001/12

2002/4 2002/8

2002/12 2003/4

2003/8 2003/12

2004/4 2004/8

2004/12 2005/4

2005/8 2005/12

2006/4 2006/8

2006/12 2007/4

2007/8 2007/12

2008/4

5000

5500

6000

6500

7000

7500

8000

8500

9000

Il modello misto che verrà preso in considerazione è il seguente:

yt = Tt x Ct x St + ut, t=1, 2, ..., n.

Quindi trend, ciclo e stagionalità interagiscono tra loro su base moltiplicativa, mentre la componente residua è additiva, e, come tale, è espressa nella stessa unità di misura della serie originaria.

Nel prosieguo della trattazione, come nel caso additivo, le componenti di trend e ciclo si considerano formare una componente unica. Pertanto, il modello di cui si analizzerà la decomposizione è il seguente:

yt = TCt x St + ut, t=1, 2, ..., n.

Come nel caso precedente, TCt indica la componente trend-ciclo, St la stagionalità e ut il residuo della serie.

La procedura iterativa di scomposizione consta dei seguenti passaggi.

1. Stima della componente trend-ciclo di prima approssimazioneEsattamente come nel caso del modello additivo, questa stima viene calcolata mediante

l'applicazione delle medie mobili centrate con l'appropriato numero di elementi, nel caso dei dati mensili 12. I valori così calcolati vengono indicati con MMt.

2. Stima della componente di stagionalità mista ad errore, (S+u)t.La componente di stagionalità mista ad errore è calcolata dividendo i valori della serie originaria

per le medie mobili calcolate nel passo precedente:

Su t=y t

MM t

3. Stima della componente stagionaleCon procedura analoga a quanto già visto per il modello additivo, vengono calcolate le

componenti stagionali per ognuno dei mesi (o dei trimestri, dei quadrimestri, etc.) sotto l'ipotesi che le componenti stagionali rimangano costanti nel tempo. La procedura di calcolo è assolutamente analoga, ossia consiste, per il mese m-esimo, nell'effettuare le medie di tutte le osservazioni disponibili relative al mese m della componente di stagionalità mista ad errore. In questo modo si avranno 12 componenti stagionali, una per ogni mese:

Sm=1p∑i=0

pSum12i

Contrariamente al modello additivo, nel modello misto la somma delle 12 componenti stagionali mensili (o di quelle appropriate per il periodo di osservazione considerato) devono sommare ad 1.

∑m=1

12 S m=1

Infatti, come nel caso additivo l'effetto complessivo delle 12 componenti deve compensarsi e non avere l'effetto di traslare la serie: solamente che affinché questo avvenga in una parte moltiplicativa la somma dei fattori deve essere 1 invece di 0. Se questo non avviene e la somma dei coefficienti di stagionalità è pari ad un numero w diverso da 1, le componenti di stagionalità devono essere divise per questo valore. In questo modo si ottiene la normalizzazione desiderata.

A questo punto è possibile, esattamente come nel caso additivo, formare una serie delle

componenti stagionali.

S t={ S 1 , S 2 , ... , S12 , S1 , ...}

4. Derivazione della serie destagionalizzata.Il dato destagionalizzato si ricava dividendo i valori della serie originaria per i rispettivi valori

della componente stagionale calcolata nel passo precedente

D t=y t

S t

Come nel caso del modello additivo, la serie Dt contiene la componente ciclo-trend e l'effetto del disturbo.

5. Stima del ciclo-trend.Come nel modello additivo, la componente ciclo-trend viene calcolata mediante media mobile

centata a 3 termini della serie Dt calcolata nel passo precedente:

TC t=13D t−1D tD t1

6. Stima della componente sistematica della serie.La componente sistematica della serie, formata da ciclo, trend e stagionalità, viene calcolata

moltiplicando tra loro questi fattori:

y t= TC t× S t

7. Calcolo dei residui.Come nel caso del modello additivo, i residui della serie sono calcolati come differenza tra i

valori osservati della serie originaria ed i valori della componente sistematica ottenuta nel passo precedente. Si ricorda infatti che i residui rappresentano la parte additiva del modello misto.

u t= y t− y t

I risultati di questa procedura sui dati degli arrivi totali mensili nelle strutture ricettive italiane nel periodo 1999-2008 sono riportati nella seguente tabella 5.2. Il time plot relativo alla terzultima colonna di questa tabella, relativo alla componente trend-ciclo, è riportato in figura 5.2. La scala relativa all'asse verticale è la stessa che è stata utilizzata per il grafico in figura 5.1, relativo all'andamento della serie di trend e ciclo stimata con il modello additivo. Questo permette di fare un primo confronto preliminare sulla base dell'analisi dei due grafici.

Si nota in modo abbastanza evidente che il modello misto si comporta complessivamente meglio di quello additivo: infatti, non sembra sussistere una dipendenza della stagionalità dal livello generale della serie. All'inizio della serie sono osservabili delle oscillazioni che hanno durata approssimativamente annuale, ma a questo proposito sono necessarie alcune considerazioni. In primo luogo, la serie degli arrivi e delle presenze è fortemente esposta ad errori accidentali di entità anche molto significativa, dovuti ad una moltitudine di fattori, non sempre controllabili; in questo caso, la serie presenta pichi più alti del normale nei mesi estivi del 2001 e valori più bassi della norma nei rispettivi inverni, compreso quello successivo all'estate 2001, ossia quello relativo al calo post-11 settembre. Questo non è sufficiente a dire che la rappresentazione non è adeguata.

Tab. 5.2: Scomposizione con il modello misto (arrivi totali in Italia, 1999-2008)

1 3475,9 - - - - - 61 4015,8 7018,0 0,57 0,55 7433,5 7310,02 4125,2 - - - - - 62 4920,0 7056,7 0,70 0,67 6985,5 7147,73 4657,6 - - - - - 63 5374,4 7084,5 0,76 0,78 7024,2 6979,34 6264,7 - - - - - 64 7208,4 7128,5 1,01 1,02 6928,1 7178,05 7393,5 - - - - - 65 8435,3 7153,8 1,18 1,13 7581,6 7058,06 8020,2 - - - - - 66 9385,6 7158,3 1,31 1,39 6664,2 7186,37 9643,2 6180,9 1,56 1,55 6341,0 - 67 11151,9 7159,1 1,56 1,55 7313,1 7057,48 10380,5 6182,8 1,68 1,64 6450,6 6336,2 68 11609,9 7159,2 1,62 1,64 7194,9 7165,09 7876,0 6194,7 1,27 1,25 6216,9 6372,1 69 8876,2 7178,5 1,24 1,25 6987,2 7248,9

10 5588,3 6241,2 0,90 0,88 6448,7 6206,0 70 6573,3 7190,7 0,91 0,88 7564,7 7231,011 3445,9 6263,8 0,55 0,57 5952,6 6059,9 71 4145,2 7173,0 0,58 0,57 7141,1 7332,712 3276,9 6300,3 0,52 0,58 5778,4 6084,2 72 4146,8 7191,4 0,58 0,58 7292,4 7377,713 3523,2 6387,7 0,55 0,55 6521,6 6051,0 73 4148,2 7238,4 0,57 0,55 7699,5 7192,514 4122,5 6454,0 0,64 0,67 5853,1 6280,0 74 4790,8 7269,8 0,66 0,67 6585,5 7368,215 4946,7 6516,0 0,76 0,78 6465,2 6378,1 75 5966,7 7286,9 0,82 0,78 7819,6 7020,816 7091,7 6561,0 1,08 1,02 6816,0 6556,9 76 6907,6 7304,2 0,95 1,02 6657,2 7323,117 7109,0 6584,3 1,08 1,13 6389,5 6574,4 77 8313,5 7316,3 1,14 1,13 7492,6 7077,818 9179,3 6629,3 1,38 1,39 6517,7 6615,5 78 9949,0 7331,5 1,36 1,39 7083,6 7426,719 10581,7 6665,2 1,59 1,55 6939,1 6764,6 79 11715,9 7349,3 1,59 1,55 7704,0 7373,320 11032,3 6688,5 1,65 1,64 6837,0 6878,5 80 11799,5 7371,6 1,60 1,64 7332,4 7405,321 8713,7 6710,4 1,30 1,25 6859,2 6801,8 81 9095,6 7376,9 1,23 1,25 7179,5 7441,722 5829,9 6720,1 0,87 0,88 6709,2 6683,5 82 6770,6 7428,0 0,91 0,88 7813,1 7437,623 3762,8 6736,7 0,56 0,57 6482,2 6766,1 83 4237,5 7492,4 0,57 0,57 7320,1 7641,824 4041,3 6778,8 0,60 0,58 7106,9 6769,6 84 4418,9 7529,9 0,59 0,58 7792,3 7699,825 3620,3 6810,5 0,53 0,55 6719,8 6709,5 85 4303,1 7581,6 0,57 0,55 7987,0 7629,526 4584,4 6822,2 0,67 0,67 6301,8 6529,5 86 5171,7 7616,3 0,68 0,67 7109,1 7527,927 5010,7 6829,2 0,73 0,78 6566,8 6621,4 87 5713,4 7665,1 0,75 0,78 7487,7 7559,828 7258,5 6819,3 1,06 1,02 6995,4 6726,7 88 8386,4 7695,9 1,09 1,02 8082,4 7708,129 7342,7 6819,1 1,08 1,13 6617,7 6900,1 89 8381,6 7704,6 1,09 1,13 7554,0 7770,430 9954,0 6813,2 1,46 1,39 7087,2 6884,8 90 10779,4 7726,6 1,40 1,39 7674,8 7734,231 10568,7 6794,7 1,56 1,55 6949,6 7025,1 91 12126,2 7739,0 1,57 1,55 7973,7 7747,932 11326,8 6783,4 1,67 1,64 7038,7 6921,8 92 12222,3 7742,9 1,58 1,64 7595,2 7779,933 8585,9 6811,0 1,26 1,25 6777,1 6805,5 93 9844,5 7762,0 1,27 1,25 7770,7 7722,134 5719,9 6811,8 0,84 0,88 6600,6 6686,6 94 6759,7 7784,6 0,87 0,88 7800,4 7756,935 3868,1 6807,6 0,57 0,57 6681,9 6658,0 95 4457,3 7802,2 0,57 0,57 7699,7 7945,836 3794,8 6810,6 0,56 0,58 6691,6 6575,4 96 4728,1 7838,0 0,60 0,58 8337,4 8001,437 3422,6 6775,5 0,51 0,55 6352,7 6415,3 97 4292,3 7872,9 0,55 0,55 7967,1 7852,038 4511,5 6769,7 0,67 0,67 6201,5 6695,3 98 5275,2 7908,6 0,67 0,67 7251,4 7724,339 5747,1 6772,4 0,85 0,78 7531,8 6679,4 99 6069,5 7944,8 0,76 0,78 7954,4 7822,440 6541,9 6785,8 0,96 1,02 6304,8 7002,5 100 8572,2 7961,2 1,08 1,02 8261,5 7994,241 7956,5 6810,2 1,17 1,13 7170,9 6725,9 101 8617,7 7981,4 1,08 1,13 7766,8 8048,942 9413,3 6818,6 1,38 1,39 6702,2 6874,6 102 11402,4 7996,3 1,43 1,39 8118,4 8000,043 10266,5 6832,2 1,50 1,55 6750,9 6864,6 103 12340,9 8003,8 1,54 1,55 8114,9 8075,744 11490,9 6847,0 1,68 1,64 7140,7 6863,6 104 12863,8 8017,4 1,60 1,64 7993,9 8020,145 8487,0 6825,4 1,24 1,25 6699,1 6974,3 105 10073,5 8045,4 1,25 1,25 7951,4 7978,546 6138,1 6823,1 0,90 0,88 7083,2 6917,8 106 6924,2 8023,0 0,86 0,88 7990,3 8063,847 4035,5 6844,1 0,59 0,57 6971,0 6936,7 107 4775,6 8023,2 0,60 0,57 8249,6 8215,548 3831,2 6854,0 0,56 0,58 6755,9 6872,7 108 4767,3 8035,2 0,59 0,58 8406,6 8288,249 3712,6 6863,1 0,54 0,55 6891,1 6645,9 109 4434,5 7997,0 0,55 0,55 8208,4 8122,150 4576,3 6866,3 0,67 0,67 6290,6 6649,3 110 5459,3 8014,2 0,68 0,67 7751,2 8176,451 5162,9 6859,7 0,75 0,78 6766,2 6624,0 111 6556,8 8014,1 0,82 0,78 8569,5 7858,252 7071,6 6850,0 1,03 1,02 6815,3 6909,3 112 7547,4 7982,7 0,95 1,02 7254,0 8165,053 7929,3 6847,4 1,16 1,13 7146,4 6951,2 113 9647,7 7962,3 1,21 1,13 8671,4 7831,854 9679,7 6860,7 1,41 1,39 6891,8 6919,2 114 10661,2 7949,2 1,34 1,39 7569,9 -55 10218,7 6891,2 1,48 1,55 6719,5 6943,1 115 12164,3 - - - - -56 11615,3 6918,1 1,68 1,64 7218,0 6804,5 116 13452,1 - - - - -57 8204,2 6941,3 1,18 1,25 6475,9 6944,5 117 9484,7 - - - - -58 6187,1 6955,8 0,89 0,88 7139,7 6798,8 118 6758,2 - - - - -59 3925,3 6982,6 0,56 0,57 6780,8 7143,9 119 4452,3 - - - - -60 4259,5 6991,4 0,61 0,58 7511,2 7241,8 120 4775,6 - - - - -

yt MMt Sut St Dt TCtt yt MMt Sut St Dt TCtt

Inoltre, solitamente si osserva una dipendenza diretta dei fenomeni stagionali dal livello generale della serie, mentre è difficile che detta relazione sia inversa: in altre parole, mentre il fatto che al crescere dei valori della serie la stagionalità non scompaia applicando i metodi di scomposizione qui presentati porta a sospettare l'inadeguatezza della scomposizione effettuata, il contrario non è necessariamente vero. Infine, l'eventuale osservazione di una situazione come quella che compare in figura 5.2 conduce ad ipotizzare che la serie soffra di un problema diverso, che verrà affrontato più avanti: può darsi che la serie storica osservata abbia una variabilità generale che varia significativamente nel corso del tempo; in altre parole, i suoi movimenti intorno ai valori attesi dipendenti da trend ed eventualmente ciclo sono più ampi in alcuni periodi rispetto ad alti, indipendentemente dal valore generale della serie. Questa situazione va sotto il nome di “non stazionarietà in varianza”.

Passiamo adesso ad introdurre una tecnica che consenta di valutare la bontà della scomposizione effettuata, e di scegliere tra più modelli, nel caso specifico tra il modello additivo e quello misto sopra calcolati, quale dei due è più adatto a rappresentare la serie.

Sono stati sviluppati diversi indici per valutare la bontà dell'adattamento del modello ai dati. In questa sede, tuttavia, ci soffermiamo innanzitutto su un'analisi molto intuitiva che riguarda la struttura dei residui. Una volta effettuata la stima del modello, infatti, se questo si adatta bene ai dati i residui avranno una struttura casuale. In altre parole, le differenze tra il modello che viene stimato mediate le procedure descritte sopra e i dati effettivamente osservati non debbono avere nessuna struttura particolare, devono avere una distribuzione completamente aleatoria. I grafici dei residui che abbiamo visto più in alto, in relazione all'analisi dei trend lineari, non avevano una struttura casuale, in quanto erano perfettamente identificabili dei cicli.

Fig. 5.2: Time plot dei valori stimati con scomposizione mista della componente trend-ciclo per la serie degli arrivi totali mensili negli esercizi ricettivi italiani nel periodo 1999-2008.

Esistono diversi tipi di strutture non casuali dei residui. Oltre a quelle che presentano dei cicli, i problemi che si verificano più spesso riguardano i residui che hanno una forma funzionale ed i residui che hanno un'intensità che dipende dal tempo. Esempi di queste due strutture sono riportati nelle seguenti figure 5.3 e 5.4.

In entrambi i casi è evidente che la struttura dei residui non è casuale: nel primo caso, come in quelli che abbiamo già visto, i residui hanno una struttura caratterizzata da una forte memoria. Questo significa che il modello calcolato non è adatto a rappresentare i dati. Nel caso specifico, la

1999/8 1999/12

2000/4 2000/8

2000/12 2001/4

2001/8 2001/12

2002/4 2002/8

2002/12 2003/4

2003/8 2003/12

2004/4 2004/8

2004/12 2005/4

2005/8 2005/12

2006/4 2006/8

2006/12 2007/4

2007/8 2007/12

2008/4

5000

5500

6000

6500

7000

7500

8000

8500

9000

struttura presenta delle caratteristiche singolari: prima i residui decrescono a tasso decrescente, poi cambiano direzione ed iniziano a crescere, ad un ritmo via via sempre più rapido. Questa è una tipica situazione in cui il modello che è stato adottato è sbagliato: una struttura dei residui di questo tipo si presenta solitamente quando si suppone che dei dati siano in relazione di dipendenza lineare, mentre in realtà la struttura di dipendenza non è lineare, ha forma quadratica.

Fig. 5.3: Andamento non casuale dei residui, in caso di trend non lineare

Fig. 5.4: Andamento non casuale dei residui in caso di residui crescenti nel tempo

I residui del secondo tipo invece si presentano quando le oscillazioni dipendono dal tempo, e questa oscillazione non è stata considerata nel modello. Una tipica situazione di questo tipo si ha quando una serie storica con tendenza crescente è stata scomposta con un modello che prevede la costanza dei residui rispetto al livello, mentre un modello più adatto prevede che i residui dipendano dall'ordine di grandezza della serie. Se si è adottato un modello additivo o misto, in cui, come si è già accennato, i residui sono espressi nella stessa unità di misura della serie, è pertanto consigliabile passare ad un modello moltiplicativo.

I residui del modello additivo e di quello misto calcolati per la serie degli arrivi totali in Italia sono stati riportati nell'ultima colonna, rispettivamente, delle tabelle 5.1 e 5.2. I relativi grafici sono riportati nella seguente figura 5.5: i residui del modello additivo sono segnati in blu, quelli del modello moltiplicativo in arancione. I due grafici sono stati sovrapposti nella stessa figura in

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33-6

-4

-2

0

2

4

6

8

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34-3

-2

-1

0

1

2

3

4

5

quanto, avendo in pratica la stessa struttura, è possibile effettuare su questa base un confronto tra le due distribuzioni per verificare quale sia il modello complessivamente migliore.

Fig. 5.5: Residui dei modelli di decomposizione additivo (in blu) e misto (in rosso) della serie degli arrivi mensili di turisti in Italia nel periodo 1999-2008

Entrambi i modelli presentano dei residui che hanno una struttura complessivamente casuale, quindi in entrambi i casi il modello si adatta bene alla serie. Inoltre, analizzando i residui non risulta che uno dei due modelli si comporti in modo evidentemente migliore dell'altro.

In sede di analisi dei time plot delle serie di trend e ciclo calcolate con i due modelli si è osservato come il modello additivo risultava complessivamente inadeguato, in considerazione del fatto che le oscillazioni stagionali sembravano dipendere dal livello generale della serie. Questo aspetto era evidente soprattutto in riferimento agli ultimi due anni analizzati: questo dipende in massima parte dalla sostanziale brevità della serie considerata. Se si fosse presa in considerazione una serie più lunga, con il medesimo andamento tendenziale di fondo, la dipendenza della struttura dei residui dal livello della serie sarebbe stata più evidente. In questa sede, si è scelto di analizzare la serie decennale per ragioni di brevità espositiva. Il fenomeno viene tuttavia rilevato dall'ISTAT a partire dal 1990. Si tratta di 9 anni in più: non è moltissimo, ma l'aggiunta dei primi 9 anni di rilevazione in testa alla serie renderebbe questo aspetto più chiaro.

Può essere a questo punto interessante tornare a calcolare il trend con la procedura dei minimi quadrati impiegata in precedenza, sulla serie dei dati destagionalizzati e depurati della componente residua identificata tramite il modello misto. In altre parole, avendo a disposizione la componente stimata trend-ciclo, ed ipotizzando che il trend sia di tipo lineare, calcoliamolo col metodo dei minimi quadrati:

y t=β 0β1tε t .

Effettuando i calcoli si ottiene la seguente retta di regressione:

y t=6245,617,17 tt .

La bontà di adattamento ai dati misurata da R2 è pari a 0,9. In confronto tra la retta di regressione ed i dati ottenuti dalla procedura iterativa per il modello additivo è riportato nella figura 5.6.

I residui del modello lineare sono riportati in figura 5.7.

1999/8 1999/12

2000/4 2000/8

2000/12 2001/4

2001/8 2001/12

2002/4 2002/8

2002/12 2003/4

2003/8 2003/12

2004/4 2004/8

2004/12 2005/4

2005/8 2005/12

2006/4 2006/8

2006/12 2007/4

2007/8 2007/12

2008/4

-1000,0

-800,0

-600,0

-400,0

-200,0

0,0

200,0

400,0

600,0

800,0

1000,0

Fig. 5.6: Time plot dei in tab. 5.2 e retta dei minimi quadrati

Fig. 5.7: Residui del modello lineare in fig. 5.7

Come nell'analisi effettuata in precedenza, i risultati suggeriscono che l'andamento di lungo periodo che si evince da questi dati è significativamente crescente, tra l'altro con un elevatissimo grado di adattamento: nel decennio 1999-2008 gli arrivi sono aumentati costantemente, mediamente di circa 17000 unità al mese. Come era logico aspettarsi, inoltre, i residui presentano ancora delle caratteristiche cicliche: dopo un primo ciclo negativo molto breve, appaiono due cicli positivi, interrotti da due sole osservazioni molto vicine alla retta interpolante, che assumono pertanto la struttura dell'osservazione anomala; segue poi, successivamente al settembre 2001, si osserva un ciclo negativo di parecchi anni, anche questo interrotto da sporadici miglioramenti, non sistematici, e verosimilmente da considerarsi pressoché anomali. A partire da metà 2005, è cominciato una nuova fase con ciclo positivo, con un comportamento a fine periodo molto erratico, che potrà essere

1999/8 1999/12

2000/4 2000/8

2000/12 2001/4

2001/8 2001/12

2002/4 2002/8

2002/12 2003/4

2003/8 2003/12

2004/4 2004/8

2004/12 2005/4

2005/8 2005/12

2006/4 2006/8

2006/12 2007/4

2007/8 2007/12

2008/4

5500

6000

6500

7000

7500

8000

8500

1999/8 1999/12

2000/4 2000/8

2000/12 2001/4

2001/8 2001/12

2002/4 2002/8

2002/12 2003/4

2003/8 2003/12

2004/4 2004/8

2004/12 2005/4

2005/8 2005/12

2006/4 2006/8

2006/12 2007/4

2007/8 2007/12

2008/4

-500

-400

-300

-200

-100

0

100

200

300

400

500

letto in modo più esaustivo aggiungendo osservazioni successive.In questo modo, considerando solamente i dati fino alla fine del 2008, l'analisi della serie si

chiude con l'osservazione relativa al mese di maggio dello stesso anno. I dati son tuttavia disponibili fino al mese di ottobre del 2009. Anche in questo modo, tuttavia, l'analisi si chiuderebbe con l'osservazione del marzo 2009. E' tuttavia possibile utilizzare i coefficienti di stagionalità stimati per formalizzare anche le osservazioni fino all'ultima disponibile. Questa procedura si basa tuttavia sull'ipotesi che i coefficienti di stagionalità non cambino all'esterno dell'intervallo su cui sono stati calcolati.

Si tratta semplicemente di estendere in coda alla colonna St della tabella 5.2 i valori stimati per i dodici coefficienti di stagionalità relativi ai rispettivi mesi. La colonna successiva, Dt, è calcolata dividendo i valori effettivamente osservati per i rispettivi valori di St, mentre TCt è calcolata con una media mobili a tre termini di Dt. Quindi, con questa procedura, i valori di trend e ciclo sono disponibili fino alla penultima osservazione, ossia fino al mese di settembre 2009.

Il time plot fino al settembre 2009 è riportato nella figura 5.8

Fig. 5.8: Time plot dei valori stimati con scomposizione mista della componente trend-ciclo per la serie degli arrivi totali mensili negli esercizi ricettivi italiani nel periodo 1999-2009.

Con l'aggiunta di questo ulteriore anno e mezzo di osservazioni, si assiste all'insorgere di una fase negativa di entità non osservata nei 10 anni precedenti. Il valore della componente sistematica del marzo 2009, una punta negativa che non si toccava da almeno 4 anni, è verosimilmente un'osservazione anomala, dal momento che è significativamente inferiore anche ai valori circostanti, ma si tratta comunque del culmine di una situazione critica velatamente iniziata alla fine del 2007, e dalla quale, alla fine della serie, l'Italia non si è ancora del tutto ripresa, dal momento che i livelli della metà del 2007 non sono stati ancora nuovamente raggiunti. Si noti anche che un valore così inferiore anche ai valori contigui, se venisse utilizzato per il calcolo delle componenti stagionali, verosimilmente avrebbe come effetto quello di aumentare il coefficiente negativo relativo ai mesi di marzo. Il risultato non sarebbe comunque un'attenuazione effettiva di quel punto di minimo locale.

Ovviamente, l'aggiunta delle osservazioni in fondo alla serie, soprattutto in una situazione come questa, in cui queste ultime si discostano in maniera significativa dall'andamento tendenziale registrato sulle osservazioni precedenti, la retta interpolante calcolata col metodo dei minimi quadrati cambia in modo rilevante. I coefficienti stimati sono i seguenti:

1999/8 2000/1

2000/6 2000/11

2001/4 2001/9

2002/2 2002/7

2002/12 2003/5

2003/10 2004/3

2004/8 2005/1

2005/6 2005/11

2006/4 2006/9

2007/2 2007/7

2007/12 2008/5

2008/10 2009/3

2009/8

5500

6000

6500

7000

7500

8000

8500

y t=6351,414,45 tt .

Il relativo grafico è riportato in figura 5.9

Fig. 5.6: Time plot dei in tab. 5.8 e retta dei minimi quadrati

Il coefficiente angolare è significativamente più basso, da 17,17 a 14,45: significa che ogni mese, mediamente, nel corso del decennio, a seconda che si considerino o meno le ultime osservazioni, il numero di arrivi mensili negli esercizi ricettivi cresce di 17000 o di 14500 unità ogni mese. Per avere un'idea più precisa, comunque, degli effetti di questo periodo critico in termini strutturali, bisogna aspettare che lo stesso finisca, per valutare se comporterà un cambiamento dell'inclinazione della retta, un abbassamento del livello della stessa, o se verrà superato senza particolari conseguenze di lungo periodo, come è già successo per periodi critici precedenti, quantunque di minore entità. Questa considerazione porta a sottolineare come l'analisi di una serie temporale con questo tipo di tecniche è inevitabilmente poco concludente quando viene effettuata in una fase particolarmente acuta, sia in positivo che in negativo, di un ciclo: ci si trova sempre in una fase ciclica, nondimeno, è evidente, effettuare dei discorsi di medio-lungo periodo trovandosi con le ultime osservazioni disponibili per l'autunno 2005 è più facile che in questa situazione. Questo, tuttavia, non vuol dire che le conclusioni tratte e previsioni effettuate in un periodo di relativa stabilità si rivelino automaticamente più accurate.

6. Le previsioni

Passiamo a questo punto ad illustrare come si eseguono le previsioni una volta eseguita la scomposizione. Questo è un aspetto particolarmente delicato per questo tipo di analisi, per almeno due motivi.

In primo luogo il fatto che il metodo di scomposizione è sostanzialmente un metodo analitico, che non si adatta molto bene ad estendersi al di fuori dell'intervallo per il quale sono disponibili i dati. In effetti la parte sistematica di medio e lungo periodo non viene interpretata con una forma

1999/8 2000/1

2000/6 2000/11

2001/4 2001/9

2002/2 2002/7

2002/12 2003/5

2003/10 2004/3

2004/8 2005/1

2005/6 2005/11

2006/4 2006/9

2007/2 2007/7

2007/12 2008/5

2008/10 2009/3

2009/8

5500

6000

6500

7000

7500

8000

8500

funzionale specifica, bensì viene analizzata in forma numerica sulla base dell'eliminazione degli altri fattori. In altre parole, l'applicazione di un modello di scomposizione non restituisce una tecnica specifica per effettuare delle previsioni. Se si esegue un'analisi con un modello regressivo che si adatta particolarmente bene ai dati, come quello preso in considerazione nel paragrafo precedente, è molto semplice effettuare una stima di quale dovrebbe essere il valore della variabile dipendente in presenza di un valore di quella dipendente esterno all'insieme di valori che risultano disponibili. Se invece non si ha un'equazione di riferimento, ma solo una serie di valori ottenuti per differenza, questo non è possibile, ragione per la quale in effetti c'è bisogno di ulteriori strumenti analitici per arrivare a produrre delle previsioni.

Inoltre, il fatto di utilizzare le medie mobili, come già più volte sottolineato, comporta la perdita di alcune osservazioni in testa ed in coda alla serie. Per quello che riguarda le prime osservazioni ottenute, questo ha un'importanza molto limitata. Le informazioni a fine serie invece rappresentano un problema più delicato. Infatti, le osservazioni che si perdono a causa dell'utilizzo delle medie mobili, che in un modello tipico come quello che è stato utilizzato fin qui come esempio, coprono un intervallo di circa sei mesi. Qualunque sia l'intervallo di rilevazione (mensile, bimestrale, trimestrale, quadrimestrale, semestrale), se si suppone che la stagionalità abbia un periodo annuale, come nella maggior parte dei casi, le osservazioni che si perdono rappresentano l'ultima metà dell'ultimo anno. Inoltre, l'utilizzo della media mobile a 3 termini per l'identificazione della componente di trend e ciclo fa perdere un'ulteriore osservazione: in tutto, dunque, nel caso ad esempio di dati mensili, vengono a mancare 7 osservazioni a fine serie.

Queste osservazioni, pur essendo tecnicamente disponibili, non hanno contribuito al calcolo delle componenti sistematiche della serie, quindi, se si dovessero effettuare delle “previsioni” (o più precisamente delle “stime”) che le riguardano, è probabile che risulterebbero comunque valori diversi da quelli osservati. Ma il vero problema che comporta questa situazione è il fatto che il primo elemento che va effettivamente previsto, quello della prima osservazione successiva all'interruzione della serie (che poi raramente si interrompe effettivamente al tempo presente: ad esempio la serie degli arrivi turistici è stata inizialmente interrotta con la fine di un anno solare per ragioni di comodità nella trattazione, ma comunque, al momento di scaricarla da internet, nel febbraio del 2010, arrivava fino all'ottobre del 2009: quindi il primo valore “previsto” sarebbe stato un valore che in effetti era vecchio di circa 4 mesi) dista 8 mesi dall'ultima osservazione analiticamente disponibile a tutti gli effetti. In altre parole, prendendo ad esempio la serie degli arrivi fin qui utilizzata, l'ultimo valore analiticamente disponibile utilizzato nel calcolo della decomposizione è relativo al luglio 2008: ad oggi, maggio 2010, il primo valore su cui tecnicamente si sarebbe potuto fare una “previsione” sarebbe stato quello al tempo presente, il che vuol dire a 22 osservazioni di distanza. Anche considerando l'intero data set a disposizione, che si conclude con l'ottobre 2009, i calcoli per il calcolo delle componenti sistematiche comprenderebbero i periodi fino al febbraio 2009: la prima previsione effettiva, considerando stime i valori fino all'ottobre 2009, sarebbe relativa al maggio 2010, dunque distante 15 mesi dall'ultimo valore calcolato, e comunque 8 mesi dall'ultimo valore osservato effettivamente.

Ora, è intuitivamente piuttosto naturale aspettarsi che l'accuratezza delle previsioni decada all'aumentare dell'orizzonte temporale sul quale vengono effettuate: è chiaro che una previsione da un mese all'altro è verosimilmente molto buona, mentre una previsione su due anni ci si aspetta lo sia molto meno. Analiticamente, inoltre, l'utilizzo di una serie più frequente pone in modo ancora maggiore questo problema: infatti, una previsione ad un anno è 12 osservazioni più avanti se i dati sono mensili, e solo 4 osservazioni più avanti con dati quadrimestrali. C'è dunque un trade-off tra l'attualità dei dati, la loro maggiore frequenza, che li rende più interessanti per quello che riguarda la vita di tutti i giorni (ad esempio, la media quadrimestrale di una temperatura ha ben poco senso) e l'accuratezza delle previsioni che permettono di effettuare all'estendersi dell'orizzonte temporale. Inoltre, dati aggregati, come ad esempio il reddito i consumi, o quelli calcolati con elaborazioni come la media, quali quelli degli arrivi turistici o dei prezzi, se da un lato sono molto più interessanti all'aumentare la frequenza della rilevazione (l'ideale, ad esempio, sarebbe poter analizzare la serie delle temperature giornaliere), dall'altro, se rilevati molto frequentemente,

comportano di solito la presenza di un numero enorme di dati anomali, che, quando sono percentualmente rilevanti, sono difficili da trattare e possono essere fuorvianti.

L'ideale per effettuare delle previsioni efficaci è che componente tendenziale e ciclo siano chiaramente identificabili. Ad esempio, nella serie del consumo energetico italiano, il trend lineare in funzione del tempo che abbiamo calcolato spiegava quasi interamente l'andamento della serie, dal momento che aveva un R2 quasi unitario. Inoltre c'era una componente ciclica forse meno evidente ma complessivamente identificabile che comportava dei lievi rallentamenti nel ritmo di crescita ogni qualche anno e qualche sporadica diminuzione della domanda. In questo modo, se si volesse effettuare una previsione per gli anni a venire, si otterrebbe un risultato accettabile semplicemente estrapolando i valori lungo la retta di regressione. Se si volesse raffinare i valori previsti, sarebbe necessario trovare un fattore di correzione per il ciclo con una procedura analoga a quella utilizzata per scorporare le stagionalità, una volta identificata la durata media dei movimenti ciclici.

Se i dati sono rilevati a cadenza annuale, e dunque si suppone non soffrano di variazioni stagionali, la decomposizione nei modelli additivi e moltiplicativi è comunque possibile, ma vanno omesse tutte le parti relative all'identificazione delle stagionalità: in altre parole, si tratterebbe solamente di scorporare la componente d'errore. Inoltre, se una delle componenti sistematiche, trend o ciclo, ha una forma chiaramente identificabile (come nel caso dell'analisi dei consumi energetici), sarebbe possibile a sua volta isolarla con procedura analoga a quanto fatto per la stima delle componenti stagionali, per poi analizzare la componente ciclica alla ricerca di una forma funzionale che possa a sua volta spiegarla. Tuttavia, è di solito molto difficile interpolare un movimento ciclico nei termini di una funzione elementare.

Per questa ragione, analiticamente si tende a calcolare solo la tendenza di fondo della serie. L'analisi della componente ciclica e la sua successiva proiezione in nel futuro avvengono con procedure basate più sulle prove empiriche che su tecniche statistiche consolidate. E' la ragione per cui, quando ad esempio si sente parlare di proiezioni di serie economiche o demografiche su un orizzonte temporale piuttosto ampio, ci si trova di fronte a diverse previsioni che divergono significativamente: dal momento che si parla di fenomeni complessi, su cui hanno influenza un enorme numero di variabili più o meno controllabili, è necessario, per fare previsioni a lunga scadenza, intervenire con delle ipotesi piuttosto stringenti sui cicli che caratterizzano le serie in esame. Al variare di queste ipotesi, variano in maniera enorme anche le previsioni.

Dal punto di vista puramente computazionale, la previsione di trend e componenti stagionali è in realtà molto semplice. Il trend viene di solito stimato con un modello di regressione con il metodo dei minimi quadrati, di tipo lineare (come abbiamo visto in precedenza) o di potenze superiori, ad esempio quadratiche o logaritmiche rispetto al tempo, sulla base dell'analisi dell'adattamento del modello ai dati. Quindi il trend viene stimato calcolando i coefficienti dei seguenti modelli di regressione:

y t=β 0β1tε t , che restituisce la tipica retta di regressione;

y t=β 0β 1tβ 2 t 2ε t .

Questo secondo modello interpola la serie con una parabola: quindi l'andamento di fondo della serie viene considerato crescente ad un ritmo crescente rispetto al tempo.

La previsione della componente tendenziale della serie viene pertanto effettuata mediante una semplice estrapolazione dell'equazione di regressione ponendo t uguale al periodo per il quale si vuole conoscere il valore del trend.

La stagionalità futura è ancora più semplice da conoscere, dal momento che, ipotizzando che le componenti stagionali continuino a rimanere costanti nel tempo, lo stesso periodo (mese, trimestre, quadrimestre, e via dicendo) di qualunque anno avrà sempre la medesima componente stagionale che è stata calcolata nel corso della scomposizione. Quindi, il mese di dicembre di qualunque anno avrà sempre la medesima componente stagionale S12 , stimata con l'opportuno modello, additivo,

moltiplicativo o misto.Se si ha una qualche informazione sull'andamento del ciclo, quindi se si è in grado di effettuare

un'interpolazione che permetta di stimare i valori attesi futuri, o se si intende procedere per approssimazioni successive, o basandosi su stime soggettive, queste vengono a loro volta prese in considerazione. Dopodiché, a seconda che il modello di scomposizione adottato sia di tipo additivo, moltiplicativo o misto, si procede a calcolare i valori attesi futuri desiderati nel modo che segue:

y ' tk= T t k C tk S k , per il modello additivo

y ' tk= T tk× C tk× S k , per il modello moltiplicativo e misto con errore additivo

y ' tk= T tk× C tk S k , per il modello moltiplicativo e misto con errore e stagionalità additivi.

Nel calcolo delle previsioni i residui futuri, essendo questi casuali ed a media nulla, vengono considerati nulli.

7. Ancora sulla scelta del metodo di decomposizione: Il concetto di stazionarietà ed il modello di risposta ad impulso

Abbiamo visto che la scelta del modello di decomposizione di una serie storica riveste un ruolo cruciale nell'analisi, soprattutto perché in alcuni casi uno dei modelli, in particolare come abbiamo visto quello additivo, può rivelarsi inadeguato per una serie di ragioni, che coinvolgono soprattutto la dipendenza delle variazioni cicliche e stagionali e dei termini d'errore dall'ordine di grandezza delle serie. Abbiamo inoltre mostrato che in caso di andamento di fondo sostanzialmente costante, i modelli approssimativamente si equivalgono, e la scelta del modello da utilizzare ricade su altre considerazioni, a loro volta molto importanti.

Se ne può concludere che una serie storica con andamento tendenziale costante sia di più facile analisi rispetto ad una serie che cresce o decresci sistematicamente. In effetti, più o meno è così. Tuttavia, la costanza approssimativa del trend non è sufficiente a rendere più semplice l'analisi. Le condizioni che rendono enormemente più potenti le metodologie di calcolo, soprattutto se si utilizza un approccio diverso e basato sui cosiddetti processi stocastici, sono un po' più complicate, e vanno sotto il nome di stazionarietà.

In estrema sintesi, una serie storica si dice stazionaria se è stabile nel corso del tempo. Più in dettaglio, una serie è stazionaria se l'andamento di fondo è orizzontale e le misure di variabilità non dipendono dal tempo. Quindi una serie stazionaria ha sempre la stessa media e la stessa varianza, indipendentemente dalle osservazioni che vengono prese in considerazione; c'è una terza condizione, che riguarda l'interdipendenza tra osservazioni diverse: in pratica, se si analizza il rapporto di dipendenza tra due osservazioni che distano lo stesso periodo, anche questo rapporto di dipendenza deve essere indipendente dal tempo. In alte parole, se si vuole analizzare in che tipo di rapporto sono due osservazioni destagionalizzate che distano 12 mesi, questo rapporto deve essere mediamente lo stesso, indipendentemente dai due anni che vengono presi in considerazione, e deve dipendere solo ed esclusivamente dal fatto che le due osservazioni distano 12 mesi l'uno dall'altro.

Formalmente, e sinteticamente, una serie storica è stazionaria se:

1. La sua media è indipendente dal tempo ed è sempre pari a μ;

2. La sua varianza è indipendente dal tempo ed è sempre pari a σ2;

3. Le covarianze tra periodi distanti k osservazioni non dipendono dal tempo, ma solo dall'intervallo tra le stesse, k e sono sempre pari a σk: σt, t+k = σk ;

Una serie stazionaria, dunque, in cui la media e la varianza sono indipendenti dal tempo, non soffre del problema principale per cui il modello additivo non può essere utilizzato, ossia la dipendenza delle variazioni cicliche e stagionali dal livello della serie. Infatti, se il livello della serie è sempre lo stesso, le variazioni, anche qualora fossero effettivamente dipendenti da quest'ultimo a livello strutturale, avranno portata complessivamente sempre analoga.

Tuttavia, quasi nessuna delle serie fin qui analizzate può considerarsi stazionaria. La prima serie portata ad esempio, quella dell'andamento demografico della popolazione italiana, non solo non ha media costante: ad una prima analisi, si nota come non sia costante neanche il trend. Infatti, da un certo punto in avanti, la serie da praticamente orizzontale diventa improvvisamente crescente. Si è già discusso dei probabili motivi di questa situazione; nondimeno, se si volesse analizzare la serie su tutto il periodo in cui è disponibile, non si potrebbe ignorare il fatto che la sua media non è costante. La serie del consumo annuale italiano di energia elettrica nel periodo 1963-2007 è a sua volta non stazionaria, perché ha un trend evidentemente crescente: quindi il livello della serie dipende dal tempo, dunque la stazionarietà è esclusa. Si noti tuttavia che, eliminando gli effetti dell'andamento di fondo, le altre caratteristiche richieste dalla stazionarietà potrebbero benissimo essere verificate, dal momento che, ad esempio, non sembra che la variabilità della serie vari significativamente nel tempo. La serie degli arrivi mensili totali negli esercizi italiani ha a sua volta un andamento chiaramente crescente, ed inoltre la variabilità dipende dal suo livello generale, e dunque, indirettamente, dal tempo.

Lo stesso vale per la maggior parte delle serie di cui si sente parlare solitamente, in particolare per la serie del PIL e la serie dei consumi. In entrambi i casi, l'andamento crescente le rende non stazionarie. La non stazionarietà in media è complessivamente il caso più frequente di non stazionarietà, dal momento che parecchie serie che si è interessati ad analizzare hanno un andamento di fondo che non è costante. Anche la non stazionarietà in varianza si presenta in modo relativamente frequente.

E' possibile trasformare una serie non stazionaria in una serie stazionaria? La risposta è, ovviamente, sì. Vediamo prima come è possibile eliminare la dipendenza della media della serie dal tempo (non stazionarietà in media).

I metodi sono sostanzialmente due. Il primo consiste nel sottrarre ai valori della serie i rispettivi valori assunti dal trend, opportunamente calcolati con un modello di regressione; il secondo consiste nel differenziare la serie.

Abbiamo visto in precedenza come ottenere i parametri del modello di regressione nel caso di una serie storica. In caso il modello presenti un trend lineare, crescente o decrescente, la retta di regressione sarà pari a:

y t=β0β1tu t

Quello a cui siamo interessati in questa sede è il solo fattore β1t, che rappresenta la componente tendenziale che siamo interessati ad eliminare. La serie de-trendizzata in questo modo sarà pertanto:

y*t = yt – β1t

Il valore β0 non viene considerato. Se infatti è necessario, per ottenere stazionarietà in media, eliminare gli effetti del trend, non è necessario modificare la media della serie. Se si sottrae anche β0

alla serie originaria si ottiene una serie stazionaria in media e con media nulla. Nulla vieta che la media di una serie stazionaria sia diversa da zero.

Consideriamo il caso portato ad esempio nei paragrafi precedenti, quello della serie degli arrivi mensili, stavolta sull'intero periodo di osservazione, che va dal gennaio del 1990 all'ottobre del 2009. Aggiungiamo un'altra serie, del tutto analoga e sullo stesso periodo di osservazione, relativa non agli arrivi, ma alle presenze mensili medie in tutte le strutture ricettive italiane. I due time plot risultanti dall'applicazione del modello misto su entrambe le serie, sono riportati in figura 7.1.

Le due rette di regressione, che nei rispettivi grafici appaiono in arancione, sono:

yt = 4633,1 + 15,41t + ut, per la serie delle presenze;

yt = 20100,3 + 55,24t + ut, per la serie degli arrivi.

Le due serie storiche de-trendizzate si ottengono pertanto con le seguenti trasformazioni:

y*t = yt – 15,41t, per la serie delle presenze;

y*t = yt – 55,24t, per la serie degli arrivi.

Fig. 7.1: Time plot dei valori di trend e ciclo ottenuti mediante modello misto delle serie storiche degli arrivi (grafico a sinistra) e delle presenze (grafico a destra) mensili negli esercizi ricettivi italiani nel periodo 1990-2009.

I grafici delle due serie destagionalizzate con la procedura del modello misto e rese stazionarie in media con questa procedura sono riportati nella seguente figura 7.2.

Fig. 7.2: Time plot dei valori di trend e ciclo ottenuti mediante modello misto delle serie storiche degli arrivi (grafico a sinistra) e delle presenze (grafico a destra) mensili negli esercizi ricettivi italiani nel periodo 1990-2009 de-trendizzate per sottrazione del valore del trend

Con questa trasformazione, tra l'altro, è possibile apprezzare in modo molto più netto ed evidente gli effetti dei cicli: si nota in effetti che in entrambe le serie c'è stato un periodo negativo agli inizi degli anni novanta, che è stato seguito da una situazione di valori intorno alla media, e poi ad una nuova fase di presenza turistica complessivamente scarsa verso la fine del decennio; successivamente, c'è stata una brusca ripresa, degli arrivi, ma ancor più delle presenze, seguita poi da un calo in corrispondenza con il mese di settembre del 2001, che ha avuto un'influenza

1990/8 1992/4

1993/12 1995/8

1997/4 1998/12

2000/8 2002/4

2003/12 2005/8

2007/4 2008/12

40004500

5000

5500

60006500

70007500

8000

8500

1990/8 1992/4

1993/12 1995/8

1997/4 1998/12

2000/8 2002/4

2003/12 2005/8

2007/4 2008/12

15000

17500

20000

22500

25000

27500

30000

32500

35000

1990/8 1992/2

1993/8 1995/2

1996/8 1998/2

1999/8 2001/2

2002/8 2004/2

2005/8 2007/2

2008/8

3500

3750

4000

4250

4500

4750

5000

5250

5500

1990/8 1992/4

1993/12 1995/8

1997/4 1998/12

2000/8 2002/4

2003/12 2005/8

2007/4 2008/12

15000

17500

20000

22500

25000

soprattutto sugli arrivi. In seguito, gli arrivi sono tornati a salire, anche se in modo discontinuo, nella seconda metà del decennio (le presenze invece non hanno evidenziato questa crescita, il che porta a concludere che i soggiorni sono stati mediamente più brevi che in precedenza). Nell'ultimo anno e mezzo, si è assistito ad un tracollo di arrivi e presenze, verosimilmente in relazione alla crisi economico-finanziaria che ha investito il nostro paese così come il resto del mondo.

Passiamo ora alla de-trendizzazione mediante differenza: si tratta semplicemente di sottrarre all'osservazione corrente della serie in esame l'osservazione immediatamente precedente:

y*t = yt – yt–1 .

Per le due medesime serie degli arrivi e delle presenze di turisti sul territorio italiano nel periodo 1895-2008, , vediamo che succede con questa procedura di de-trendizzazione: i due grafici sono riportati nella seguente figura 7.3.

Fig. 7.3: Time plot dei valori di trend e ciclo ottenuti mediante modello misto delle serie storiche degli arrivi (grafico a sinistra) e delle presenze (grafico a destra) mensili negli esercizi ricettivi italiani nel periodo 1990-2009 de-trendizzate per differenziazione della serie

Con questa procedura di de-trendizzazione si nota in modo molto chiaro che diventa impossibile anche identificare i movimenti ciclici: non si apprezza nessuna particolare ciclicità, di nessun periodo, in nessuna delle due serie. Questo perché la presenza di cicli ha ben poca influenza sulle singole osservazioni, che dunque differiscono da quelle immediatamente precedenti e successive approssimativamente sempre nello stesso modo. L'unica cosa sulla quale ci si concentra è la serie delle differenza tra due valori consecutivi della serie originaria. Questo permette anche di verificare l'eventuale presenza di una non stazionarietà in varianza: infatti, se la varianza della serie dipende dal tempo, si avrà che la serie delle differenze avrà ampiezza sistematicamente diversa in settori differenti del grafico. Se ad esempio si suppone che la varianza cresca al passare del tempo, le differenze tra due valori consecutivi della serie tenderanno a crescere col passare del tempo: questo perché una varianza maggiore significa una maggiore variabilità tra i singoli valori della serie. In questo caso, le due serie sembrano mostrare oscillazioni più ampie nella seconda parte del periodo considerato (in particolare, la variabilità si accentua col passare del tempo), il che, come già anticipato in precedenza in relazione all'analisi del time plot risultante dal modello misto, potrebbe indicare la presenza di non stazionarietà in varianza.

Questa differenziazione degli effetti della de-trendizzazione è di per sé un criterio per stabilire quale delle due procedure è preferibile adottare. Se si vuole analizzare gli effetti dei cicli e delle variazioni di breve e medio periodo, come nel caso della climatologia, si elimineranno gli effetti del trend sottraendo ai valori della serie quelli assunti dalla variazione tendenziale. Se invece si intende concentrare l'attenzione sulla variabilità della serie nel brevissimo periodo, come ad esempio nelle analisi delle serie finanziarie per valutare le variazioni dei prezzi delle azioni da un'ora all'altra, la serie sarà de-trendizzata mediante differenziazione.

Tuttavia, c'è un altro criterio per stabilire quale delle due procedure sia la più adatta. Si tratta di

1990/9 1992/3

1993/9 1995/3

1996/9 1998/3

1999/9 2001/3

2002/9 2004/3

2005/9 2007/3

2008/9

-600

-400

-200

0

200

400

600

1990/9 1992/5

1994/1 1995/9

1997/5 1999/1

2000/9 2002/5

2004/1 2005/9

2007/5 2009/1

-2500-2000-1500-1000

-5000

500100015002000

un criterio empirico, che però ha a che fare con la struttura di fondo della serie, e non con gli utilizzi pratici che si intende fare dei dati: è la cosiddetta “risposta ad impulso”.

Immaginiamo che la serie subisca uno shock esterno. Si pensi ad esempio ad una serie ed ad un intervento dall'esterno, detto “esogeno”, che abbia una grossa influenza su di essa: ad esempio gli attentati dell'11 settembre 2001, come abbiamo già detto, hanno avuto un impatto enorme sulla serie del reddito e dei consumi a livello mondiale, in particolare negli Stati Uniti, sia per i soldi che sono “costati” ai vari sistemi, in particolare il paese colpito, gli USA, sia per il panico che hanno scatenato. Volendo far riferimento a shock che possono verificarsi con una frequenza più controllata, un intervento di politica fiscale (riduzione od aumento delle tasse) è un tipico esempio di shock esogeno. In teoria economica, un intervento di politica fiscale “espansiva” si ha quando le tasse vengono diminuite: in questo modo, visto che la gente paga meno tasse e la spesa pubblica rimane invariata (cioè lo stato taglia le tasse senza tagliare i fondi alla scuola o alla ricerca), lo stato si indebita e la popolazione ha più soldi a disposizione. In questo modo, si stimola la domanda, perché si suppone che la gente userà almeno una parte di quei soldi per comprare beni. Questo ha un effetto positivo sull'economia, perché, appunto, c'è un aumento dei consumi che devono essere soddisfatti dal sistema produttivo, che dunque deve accelerare la produzione. Una politica fiscale espansiva è infatti una delle prime cose che si tentano di mettere in atto quando ci si trova in una congiuntura economica sfavorevole: di solito, è una misura largamente insufficiente per una serie di ragioni che non verranno approfondite in questa sede.

Trattandosi di una misura messa in atto dal governo del paese, e dunque non dal sistema produttivo che genera reddito, nella serie del PIL una improvvisa immissione di soldi nel sistema economico attraverso un taglio delle tasse è uno shock esogeno.

La risposta della serie a questo shock può essere di due tipi: questo shock può spostare in maniera sistematica il livello del trend dei PIL del paese, che da quel momento in avanti tenderà ad un nuovo livello (nel caso di politica fiscale espansiva, questo livello sarà più alto), e può non farlo, limitando i propri effetti a cambiamenti di breve periodo, che però non cambiano la struttura sottostante. Nel primo caso si parla di “shock permanente”, nel secondo di “shock transitorio”. Queste due situazioni sono presentate graficamente nella figura 7.4.

In entrambi i casi dell'esempio, ad un certo punto c'è uno shock improvviso che spinge la serie verso l'alto. Nel primo, tuttavia, la serie si attesta su un nuovo livello, più alto del precedente, anche se col medesimo coefficiente angolare; nel secondo, invece, la serie lentamente torna al suo livello precedente. Quindi nel primo caso lo shock è permanente, nel secondo è transitorio.

Fig. 7.4: Time plot di una serie con shock permanenti (a sinistra) e di una serie con shock transitori (a destra)

Effettuare un'interpolazione della serie a shock permanenti per trovare il miglior trend lineare col metodo dei minimi quadrati, porterebbe ad un risultato inesatto: infatti, per effetto della presenza distorsiva dello shock, che da un certo punto in avanti sposta la serie verso l'alto, il coefficiente angolare della retta, che nelle interpolazioni è unico, risulterebbe sovra-stimato. In altre parole, il metodo dei minimi quadrati restituirebbe come migliore interpolazione dei dati, e dunque migliore

12

34

56

78

910

1112

1314

1516

1718

1920

2122

2324

2526

2728

2930

3132

3334

3536

3738

3940

4142

43

50

60

70

80

90

100

13

57

911

1315

1719

2123

2527

2931

3335

3739

4143

50

60

70

80

90

100

stima dell'andamento tendenziale, una retta con pendenza troppo ripida, in conseguenza dello spostamento di livello. Nel caso di shock transitori, invece, soprattutto se la serie consta di un numero di osservazioni sufficientemente elevato, questo problema non sussiste.

Le serie risultanti dalla de-trendizzazione per sottrazione del valore corrente del trend e per differenziazione sono riportate rispettivamente nel grafico destro e sinistro della seguente figura 7.5. Nella successiva figura 7.6 sono riportate i medesimi grafici per la serie caratterizzata da shock transitorio.

Quindi le procedure per rendere la serie stazionaria in media differiscono a seconda che la serie sia caratterizzata da shock permanenti o transitori: se gli shock sono permanenti la differenziazione ottiene risultati migliori. Infatti il cambiamento di livello della serie verrebbe nelle differenze registrato come una osservazione particolarmente elevata, che però non comporta particolari conseguenze.

Se gli shock sono transitori, invece, per de-trendizzare la serie si può tranquillamente usare la sottrazione dei valori correnti del trend alla serie originaria, che è considerata più adeguata proprio per il fatto che la retta che rappresenta l'andamento di fondo della serie rimane la stessa.

Fig. 7.5: Serie con shock permanente de-trendizzata per sottrazione del valore corrente del trend (a sinistra) e per differenziazione (a destra)

Fig. 7.6: Serie con shock transitorio de-trendizzata per sottrazione del valore corrente del trend (a sinistra) e per differenziazione (a destra)

Per questa ragione, una serie caratterizzata da shock transitori è detta “trend stationary” (cioè stazionaria rispetto al trend) e viene indicata con la sigla TS, mentre una serie caratterizzata da shock permanenti è detta “difference stationary” (cioè stazionaria rispetto alle differenze), e viene indicata con la sigla DS.

Ora, nelle serie economiche è facilissimo individuare i punti critici nei quali sono intervenuti degli shock esogeni: gli interventi di politica fiscale o monetaria si sa benissimo quando vengono promulgati; allo stesso modo, è possibile individuare eventi che hanno avuto effetti traumatici

13

57

911

1315

1719

2123

2527

2931

3335

3739

4143

-10

-5

0

5

10

15

12

34

56

78

910

1112

1314

1516

1718

1920

2122

2324

2526

2728

2930

3132

3334

3536

3738

3940

4142

43

-4-202468

10121416

12

34

56

78

910

1112

1314

1516

1718

1920

2122

2324

2526

2728

2930

3132

3334

3536

3738

3940

4142

43

-10

-5

0

5

10

15

12

34

56

78

910

1112

1314

1516

1718

1920

2122

2324

2526

2728

2930

3132

3334

3536

3738

3940

4142

-10

-5

0

5

10

15

sull'economia (ad esempio i già citati attentati del settembre 2001, o magari il martedì nero delle borse dell'ottobre del 1929, o il fallimento della Lehman Brothers nel settembre del 2008) senza nessun problema. Lo stesso vale, perché il turismo è un fenomeno economico, per le serie come quelle che stiamo seguendo a titolo esemplificativo, ossia le serie di presenze ed arrivi su un territorio. Da un'analisi grafica dei rispettivi time plot riportati in figura 8.1, si evince ad esempio che gli attentati del settembre 2001 non hanno comportato lo spostamento verso il basso di nessuna delle due serie, quindi, almeno in relazione al periodo osservato, le due serie sembrerebbero essere di tipo trend stationary. Abbiamo visto, inoltre, che la crisi iniziata nel settembre 2008 ha comportato un significativo abbassamento degli arrivi e delle presenze di turisti sul territorio italiano. Se questo nuovo shock esogeno sarà riassorbito o determinerà uno spostamento del livello della serie, tuttavia, lo sapremo solo col tempo.

Se la serie non è stazionaria in varianza, invece, ossia presenta una variabilità dipendente dal tempo, esistono diverse procedure per trasformarla in modo da risolvere questo problema. La trasformazione più utilizzata si basa sulla procedura di Box e Cox.

In pratica, si tratta di suddividere la serie in una decina sotto-serie più piccole, tutte della stessa lunghezza approssimativa. Se il numero di osservazioni è insufficiente per una suddivisione in 10 sotto-serie significative, il numero di sotto-serie viene ridotto. Si noti che si tratta di una procedura artificiosa che non include l'analisi delle sotto-serie con procedure di scomposizione, è un passaggio puramente strumentale. Quindi è auspicabile che le sotto-serie siano composte da un numero rilevante di elementi, ma non è necessario che constino di centinaia di osservazioni.

Dopo aver costruito le sotto-serie, per ognuna di esse si calcolano media e scostamento quadratico medio. Dopodiché si inseriscono i valori ottenuti in un grafico a dispersione, come se si volesse valutare la dipendenza dello scarto quadratico medio dalla media, e si verifica come si dispongono i punti. A seconda di come si dispongono i punti, si prende il corrispettivo valore di λ, come illustrato nel grafico di figura 7.7. Quindi, se i valori dello scostamento quadratico medio si posizionano lungo una linea orizzontale, si pone λ = 1; se i valori di σ si dispongono lungo una retta crescente, si pone λ = 0; se invece i due valori evidenziano una relazione lineare decrescente, si pone λ = -1; e via dicendo (vedi fig. 7.7).

Fig. 7.7: Assegnazione del valore di λ nella procedura di Box e Cox

Una volta assegnato l'adeguato valore a λ, si opererà la seguente trasformazione:

zt = (ytλ – 1) / |λ|, se λ è diverso da 0; |λ| indica il valore assoluto di λ.

zt = log yt, se λ = 0.

Quindi, ad esempio, se λ = 1 la trasformazione è neutra. In questo caso, infatti, quale che sia il valore della media della sotto-serie, il valore dello scarto quadratico medio è approssimativamente sempre lo stesso: si tratta esattamente della definizione di stazionarietà in varianza.

La serie zt è quella che verrà analizzata, in quanto questa trasformazione assicura la stazionarietà in varianza.

Fig. 7.8: Assegnazione del valore di λ nella procedura di Box e Cox per la serie degli arrivi in Italia nel periodo 1990-2009

Nella figura 7.8 sono riportati i valori di media e scarto quadratico medio calcolati su 8 sotto-serie di ampiezza costante in relazione ai dati delle temperature di New York in un diagramma a dispersione. Come si vede, e come avevamo anticipato in precedenza, i valori non si allineano lungo una linea orizzontale, quindi la serie non è stazionaria in varianza (come già detto, se λ=1, la procedura di trasformazione di Box e Cox lascia la serie invariata): è necessario calcolare la nuova serie. Con l'eccezione del secondo e del quarto valore da sinistra, i punti sembrano disporsi lungo una traiettoria parabolica, che suggerisce una trasformazione con λ=-1/2. Tuttavia, a causa di detti valori anomali, la migliore interpretazione dell'andamento potrebbe anche essere una retta crescente, che prevede la trasformazione con λ=0. Purtroppo situazioni come questa, in cui la trasformazione necessaria a rendere la serie stazionaria in varianza non è chiaramente identificabile, si verificano di frequente. In linea generale, tuttavia, la scelta di un valore di λ piuttosto di un altro non è così decisiva: se c'è un dubbio, si possono scegliere entrambe le soluzioni. Inoltre, è sempre possibile verificare se la nuova serie, ottenuta con la trasformazione, è stazionaria in varianza.

Nel primo caso, ogni valore della serie originaria dovrà essere trasformato secondo la seguente formula:

z t= y t

−1−11 /2

=2 1 y t

−1 .

Nel secondo caso, invece, ogni valore della serie originaria dovrà essere sostituito con il suo logaritmo.

Nella figura 7.9 sono riportati i time plot delle due serie, delle presenze e degli arrivi mensili in tutti gli esercizi italiani nel periodo 1990-2008, rese stazionarie in varianza attraverso la procedura

4500 5000 5500 6000 6500 7000 7500 8000 8500100

150

200

250

300

350

di Box e Cox con λ=0, quindi con la trasformata logaritmica. Nella successiva figura 7.10 sono riportate le medesime serie de-trendizzate mediante sottrazione del valore del trend. Come si vede, la variabilità della serie intorno alla retta interpolante che determina l'andamento di fondo delle stesse, è adesso molto più omogenea. Si noti tuttavia che i brevi movimenti ciclici di durata annuale all'inizio della serie che erano stati identificati in precedenza, sono complessivamente attenuati (di modo che diviene evidente che non si tratta di fluttuazioni dovute ad una stima errata della componente stagionale), ma ancora presenti.

Fig. 7.9: Time plot dei valori di trend e ciclo ottenuti mediante modello misto delle serie storiche degli arrivi (grafico a sinistra) e delle presenze (grafico a destra) mensili negli esercizi ricettivi italiani nel periodo 1990-2009, resa stazionaria in varianza.

Fig. 7.10: Time plot dei valori di trend e ciclo ottenuti mediante modello misto delle serie in figura 7.9, de-trendizzate per sottrazione del valore del trend

Quando si compie una trasformazione come questa, i dati cambiano di unità di misura: si passa dal valore osservato al suo logaritmo. Infatti, come si vede dai grafici, sottraendo il valore del trend le serie si oscillano rispettivamente intorno ai valori 8,48 e 9,93 (si ricorda che i dati originari sono in migliaia di unità), mentre quelle non trasformate oscillano attorno, rispettivamente, a 4650 ed a 20160. Tuttavia, questo tipo di trasformazioni non modifica il comportamento strutturale della serie. Una proprietà dell'algebra assicura infatti che se la trasformazione è “monotòna”, ossia agisce sempre nella stessa direzione per tutti i dati, questi non cambiano strutturalmente, e dunque è lecita.

Quando una serie è stazionaria in media ed in varianza è solitamente stazionaria anche in covarianza. La non stazionarietà in covarianza è solitamente legata alla presenza di cicli di durata ed intensità variabile. Infatti, ad esempio, serie che possono soffrire di non stazionarietà in covarianza sono quelle legate all'analisi dei fenomeni climatici. In questa sede, dunque, non ci si occuperà delle metodologie per rendere stazionaria in covarianza una serie storica che presenta questo problema anche dopo esser stata resa stazionaria sia in media che in varianza.

1990/8 1992/2

1993/8 1995/2

1996/8 1998/2

1999/8 2001/2

2002/8 2004/2

2005/8 2007/2

2008/8

9,8

9,9

10

10,1

10,2

10,3

10,4

10,5

1990/8 1992/4

1993/12 1995/8

1997/4 1998/12

2000/8 2002/4

2003/12 2005/8

2007/4 2008/12

9,75

9,8

9,85

9,9

9,95

10

10,05

1990/8 1992/2

1993/8 1995/2

1996/8 1998/2

1999/8 2001/2

2002/8 2004/2

2005/8 2007/2

2008/8

8,4

8,5

8,6

8,7

8,8

8,9

9

9,1

1990/8 1992/2

1993/8 1995/2

1996/8 1998/2

1999/8 2001/2

2002/8 2004/2

2005/8 2007/2

2008/8

8,25

8,3

8,35

8,4

8,45

8,5

8,55

8,6