Analisi Statistica di Serie Temporali · In questa tesi si è affrontato il tema dell'analisi delle...

49
Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Teoria dei Segnali Analisi Statistica di Serie Temporali Anno Accademico 2015/2016 Candidato: Maurizio Nappi Quintiliano matr. N46/000894

Transcript of Analisi Statistica di Serie Temporali · In questa tesi si è affrontato il tema dell'analisi delle...

Scuola Politecnica e delle Scienze di BaseCorso di Laurea in Ingegneria Informatica

Elaborato finale in Teoria dei Segnali

Analisi Statistica di Serie Temporali

Anno Accademico 2015/2016

Candidato:

Maurizio Nappi Quintiliano

matr. N46/000894

Alla mia famiglia, colonna portante di questo percorso.

Indice

Indice..................................................................................................................................................III

Introduzione..........................................................................................................................................4

Capitolo 1: Concetti fondamentali.......................................................................................................6

1.1 Parametri di caratterizzazione di un processo aleatorio.............................................................6

1.2 Stima delle medie, autocovarianze e autocorrelazioni...............................................................9

1.3 Rappresentazione a media mobile e autoregressiva per le sere temporali...............................14

Capitolo 2: Modelli di serie temporali...............................................................................................18

2.1 Modelli di serie temporali stazionari .......................................................................................18

2.1.1 Modello autoregressivo.....................................................................................................18

2.1.2 Modello a media mobile....................................................................................................23

2.1.3 Modello di processo autoregressivo a media mobile........................................................26

2.2 Modelli di serie temporali non stazionarie ..............................................................................28

2.2.1 Non stazionarietà della media...........................................................................................28

2.2.2 Modello autoregressivo integrato a media mobile(ARIMA)............................................30

2.2.3 Non stazionarietà della varianza e autocovarianza............................................................32

Capitolo 3: Analisi delle serie temporali con R.................................................................................36

3.1 Identificazione del modello di una serie temporale..................................................................36

3.2 Il software R.............................................................................................................................38

3.3 Esempio di analisi di una serie temporale con R......................................................................39

Conclusioni.........................................................................................................................................46

Bibliografia.........................................................................................................................................48

Ringraziamenti...................................................................................................................................49

III

Introduzione

“The list of areas in wich time series is observed and studied is endless.” (William Wu-

Shyong Wei, Professore di Statistica alla Temple University in Philadelphia,

Pennsylvania)

In questa tesi si è affrontato il tema dell'analisi delle serie temporali, da cui ne deriva il

titolo. L'analisi delle serie temporali, o serie storiche, è un insieme di strumenti statistici e

matematici che ci permettono di studiare fenomeni che si evolvono nel tempo in maniera

stocastica, essa viene utilizzata principalmente in economia e finanza per studiare quali

sono, ad esempio, gli andamenti degli utili di un azienda, e poterne prevedere gli

andamenti futuri, ma viene impiagata anche in molti altri campi, come la medicina,

l'ingegneria, l'agricoltura, ecc.. L'analisi delle serie temporali si basa principalmente sul

concetto di processo aleatorio e di stabilità in termini statistici, che ne derivano varie

proprietà delle caratteristiche di un processo aleatorio, quali media, varianza,

autocovarianza, autocorrelazione ed autocorrelazione parziale. Dunque l'obbiettivo di

questa tesi è di descrivere quali sono le basi matematiche e statistiche su cui si fonda

l'analisi delle serie temporali ed applicarle ad un esempio pratico con l'ausilio, anche, di un

software specifico. In particolare nel primo capitolo si affronteranno i concetti basilari di

statistica su cui si fonda l'analisi delle serie temporali, ovvero i processi aleatori,

soffermandosi particolarmente su quali sono i parametri che caratterizzano un processo

aleatorio, il concetto di stabilità, i processi Gaussiani, i processi rumore bianco, la stima

dei parametri di caratterizzazione di una serie temporale e le varie rappresentazioni con

qui può essere descritta. Nel secondo capitolo si occuperà principalmente di descrivere

quali sono i modelli più comuni di serie temporali che vengono utilizzati, facendo

particolare attenzione su quali sono le caratteristiche e le proprietà principali che li

distinguono l'uno con l'altro e facendo una netta distinzione tra serie stazionarie e non

stazionarie, concentrandosi, per le prime, su quali sono i vari modelli che si possono

adottare e le loro caratteristiche, e successivamente, per le seconde, sui vari casi di non

4

stabilità, quali media e varianza, e le soluzioni da adottare quando si presentano, facendo

particolare attenzione sui modelli più comuni. Infine il terzo capitolo è concentrato sulla

metodologia tradizionale di analisi delle serie temporali, descritta tramite una serie di passi

fondamentali che ci portano a una caratterizzazione completa di tutte le proprietà del caso

in analisi. Segue un breve focus sul software utilizzato, ovvero R, ed infine il caso di

studio, ovvero una serie temporale che descrive il traffico di un server in Internet, su cui si

proverà a determinare quale sia il modello più adatto che la descrive secondo i parametri

che la caratterizzano.

5

Capitolo 1: Concetti Fondamentali

In questo capitolo introdurremo i concetti fondamentali che servono per modellare una

serie temporale.

Innanzitutto definiamo una serie temporale (o serie storica) come un insieme di variabili

aleatorie ordinate temporalmente che esprime la dinamica di un fenomeno nel tempo. In

particolare in statistica definiamo una serie temporale come una realizzazione, o funzione

campione, di un processo aleatorio.

Un processo aleatorio (o processo stocastico) Z ( t ,ω) è definito come un insieme di

variabili aleatorie dipendenti dal tempo, con t variabile temporale e ω proviene da uno

spazio campione. Se fissiamo t il nostro processo aleatorio è una variabile aleatoria,

fissando ω, Z (t ,ω) è una funzione della sola t e viene chiamata realizzazione o funzione

campione. L'insieme di tutte le possibili realizzazioni viene chiamato insieme dell'analisi

dei processi stocastici e delle serie temporali.

1. 1 Parametri di caratterizzazione di un processo aleatorio

Consideriamo un set di variabili aleatorie {Z t1, Z t2

,... , Z tn} da un processo aleatorio

{Z (ω , t): t=0,±1,±2,...} , la sua funzione di distribuzione n-dimensionale risulta essere:

F Z t1, Z t2

, ... ,Z t n

= P {ω :Z t1<x1 , Z t2

<x 2 , ... , Z t n<xn} dove x i : i=1,... , n sono numeri

reali.

Un processo è detto stazionario del primo ordine nel senso delle distribuzioni se la sua

funzione di distribuzione di primo ordine è tempo invariante, ovvero se per ogni

t 1 , k e t 1+k risulta F Z t1

(x1)=F Z t1+k( x1) ; stazionario del secondo ordine se per ogni

t 1 , t2 , k , t 1+k e t 2+k risulta:

F Z t1,Z t

2

(x1 , x2)=F Z t1+k , Z t

2+k(x1 , x2) (1.1.1)

n-esimo ordine se

F Z t1,Z t

2,... , Z t

n

( x1 , x2 , ... , xn)=F Z t1+k , Z t

2+k ,... ,Z t

n+k(x1 , x2 ,... , xn) (1.1.2)

6

per ogni n-upla (t 1 , ... , t n) e k di interi. Un segnale è definito stazionario in senso stretto se

la (1.1.2) è verificata per ogni valore di n.

Per quanto detto, per semplicità, denoteremo un processo stocastico Z (ω , t) con le

notazioni Z (t ) o Z t sopprimendo la variabile ω, e denoteremo una variabile aleatoria X

invece di X (ω) . Un processo aleatorio è detto a valori reali se assume solo valori reali.

Per un dato processo aleatorio a valori reali definiamo i seguenti parametri:

• Funzione media: μt=E (Z t) ;

• Funzione varianza: σt2=E (Z t−μt)

2 ;

• Funzione di covarianza tra Z t 1e Z t 2

: γ(t1 , t 2)=E (Z t 1−μt 1

)(Z t2−μ t2

) ;

• Coefficiente di correlazione tra Z t 1e Z t 2

: ρ(t1 , t2)=γ(t 1 , t 2)

√σt1

2 √σt 1

2.

Per un processo stazionario in senso stretto, se la funzione di distribuzione è la stessa per

ogni valore di t, abbiamo che i parametri sopra definiti saranno:

• μt=μ purché E (∣Z t∣)<∞ con μ costante;

• σt2=σ

2 purché E (Z t2)<∞ con σ costante per ogni t;

• γ(t1 , t 2)=γ(t−k , t )=γ(t , t+k )=γk e ρ(t1 , t2)=ρ(t−k ,t )=ρ( t , t+k )=ρk

considerando la (1.1.1) per ogni t 1 , t2 , k interi e ponendo t 1=t+k e t2=t , ovvero

la covarianza e la correlazione tra Z t1e Z t2

dipende solo dalla differenza

temporale k.

Un esempio banale di processo aleatorio stazionario in senso stretto è una sequenza di

variabili aleatorie identicamente distribuite, ma, essendo che una sequenza del genere non

esiste o non interessa nello studio delle serie temporali, attualmente risulta molto difficile o

addirittura impossibile definire una funzione di distribuzione specialmente se data una

serie temporale osservata ci sono momenti congiunti. Nello studio delle serie storiche

generalmente utilizziamo una definizione di stazionarietà più debole in termini di momenti

riguardanti il processo.

Un processo è detto stazionario debolmente di ordine n se tutti i suoi momenti congiunti

fino all'ordine n esistono e sono tempo-invarianti. Ciò è seguito dal fatto che un processo

7

stazionario debolmente del secondo ordine avrà media e varianza entrambe costanti e le

funzioni di covarianza e correlazione dipendenti solo dalla differenza temporale, quindi le

definizioni stazionario in senso lato o stazionarietà della covarianza possono essere

utilizzate per definire un processo di questo tipo. É importante precisare che dalle

definizioni di stretta stazionarietà del secondo ordine di un processo che può avere primi

due momenti finiti si possa dedurre che può essere anche stazionario in senso lato, ciò è

messo in dubbio dal fatto che un processo stazionario in senso stretto può non avere

momenti finiti e quindi non può essere un processo stazionario in senso lato.

In seguito utilizzeremo solo il termine stazionario per indicare i processi stazionari in

senso lato per due motivi. Innanzitutto la definizione di stazionarietà della covarianza ha

un significato molto più debole rispetto alla stretta stazionarietà, inoltre nell'analisi delle

serie temporali il lavoro sarà incentrato sui processi stazionari debolmente del secondo

ordine poiché è relativamente più semplice da controllare i primi due momenti.

Un processo è detto normale o Gaussiano se la sua funzione di distribuzione congiunta è

normale. Dato che un processo normale è caratterizzato solo dai suoi primi due momenti,

un processo stazionario è anche Gaussiano e quindi i processi di cui discuteremo saranno

tutti Gaussiani.

Procedendo con la caratterizzazione, dato un processo stazionario con media e varianza

costanti, scriveremo la covarianza e la correlazione tra due processi Z t e Z t+k come

segue:

γk=Cov (Z t , Z t+k )=E (Z t−μt)(Z t+ k−μt +k ) (1.1.3)

ρk=Cov(Z t , Z t+k )

√(Var (Z t))⋅√(Var (Z t+ k))=

γk

γ0(1.1.4)

dove notiamo che Var (Z t)=Var (Z t +k)=γ0 . Se γk e ρk sono funzioni della sola k, la

prima è detta funzione di autocovarianza e la seconda funzione di autocorrelazione(ACF)

nell'analisi delle serie temporali, poiché rappresentano la covarianza e la correlazione tra

Z t e Z t+k dello stesso processo separate dal solo sfasamento temporale k.

Dato, quindi, un processo stazionario, le funzioni di autocovarianza e autocorrelazione

γk e ρk avranno le seguenti proprietà:

• γ0=Var (Z t) ;ρ0=1 ;

8

• ∣γk∣⩽γ0 ; ∣ρk∣⩽1 ;

• γk=γ−k e ρk =ρ−k per ogni k, ovvero le due funzioni risultano simmetriche rispetto

al ritardo k=0 . Questa proprietà proviene dal fatto che se consideriamo due

processi Z t e Z t+k oppure Z t e Z t−k abbiamo la stessa differenza temporale;

• Le funzioni di autocovarianza e autocorrelazione sono semidefinite positive,

ovvero ∑i=1

n

∑j =1

n

αi α j γ∣ti−t j∣⩾0 e ∑

i=1

n

∑j =1

n

αi α j ρ∣t i−t j∣⩾0 per ogni insieme di valori nel

tempo t 1 , t2 ,... , t n e ogni α1 ,α2 ,... ,αn numeri reali.

Infine definiamo la funzione di autocorrelazione parziale (PACF) come l' autocorrelazione

di un processo stocastico in due istanti di tempo separati da un ritardo k senza considerare

tutti gli istanti intermedi, ovvero consideriamo la correlazione tra Z t e Z t+k e la loro

mutua dipendenza lineare, rimuovendo tutti gli istanti intermedi Z t +1 , Z t +2 , ... , Z t +k−1

risulta:

P k =Corr (Z t , Z t +k ∣Z t +1 , ... , Z t +k )

Si può dimostrare1 che la funzione di autocorrelazione parziale si può scrivere nel seguente

modo:

P k =ϕkk=

∣1 ρ1 ρ2 ⋯ ρk−2 ρ1

ρ1 1 ρ1 ⋯ ρ k−3 ρ2

⋮ ⋮ ⋮ ⋱ ⋮ ⋮ρk−1 ρk−2 ρk−3 ⋯ ρ1 ρk

∣∣

1 ρ1 ρ2 ⋯ ρk−2 ρk−1

ρ1 1 ρ1 ⋯ ρk−3 ρk−2

⋮ ⋮ ⋮ ⋱ ⋮ ⋮ρk−1 ρk−2 ρk−3 ⋯ ρ1 1 ∣

(1.1.5)

1.2 Stima delle medie, autocovarianze e autocorrelazioni

Prima di procedere con la stima della media, dell'autocovarianza e dell'autocorrelazione è

importante definire cos'è un processo rumore bianco (o white noise).

Un processo {a t} è definito rumore bianco se la sua sequenza di variabili aleatorie

incorrelate data una distribuzione a media costante E (a t)=μa che generalmente viene

assunta nulla, varianza costante Var (a t)=σa2 e covarianza γk=Cov (a t , a t+k )=0 per ogni

1 Dimostrazione rif. William Wuu-Shyong Wei “Time Series Analsys – Univariate and Multivariate Methods” Pearson ed. cap. 2 par. 2.3 pp. 12-15

9

k. Per definizione segue che il processo {a t} è stazionario, in particolare avremo che la

sua funzione di autocovarianza sarà:

γk={σ t2 k=0

0 k≠0

la funzione di autocorrelazione invece:

ρk={1 k=00 k≠0

e la funzione di autocorrelazione parziale:

ϕkk={1 k=00 k≠0

per definizione, quindi, un processo rumore bianco sarà Gaussiano se le sue funzioni di

distribuzione congiunte sono normali. Di seguito, quindi, {a t} sarà sempre riferito a un

processo rumore bianco Gaussiano.

Una serie temporale è caratterizzata dalle funzioni di media, varianza, autocorrelazione e

autocorrelazione parziale. Questi valori possono essere calcolati solo se si conosce

l'insieme di tutte le realizzazioni, ma spesso non è possibile poterli calcolare. Quindi si

procede a una stima di tali valori per poter procedere alla caratterizzazione sotto alcune

condizioni che ci permettono di stimare in maniera corretta questi parametri.

Consideriamo un processo stazionario, uno stimatore non polarizzato2 della media

μ=E (Z t) può essere :

Z=1n∑t=1

n

Z t

ovvero la media temporale di n osservazioni. Ciò può essere dimostrato considerando la

varianza di tale stimatore:

Var ( Z )=1n2 ∑

t=1

n

∑s=1

n

Cov (Z t ,Z s)=γ0

n2 ∑t=1

n

∑s=1

n

ρ∣t−s∣=γ0

n2 ∑k =−(n−1)

n−1

(n−∣k∣)ρk

=γ0

n∑

k=−(n−1 )

n−1

(1−∣k∣

n)ρk

(1.2.1)

ponendo k=t−s . Se il limite della serie

2 Uno stimatore si dice non polarizzato (o consistente) se il suo valore stimato coincide con il valore atteso, viceversa si dice polarizzato se il suo valore stimato non coincide con il valore atteso.

10

limn→∞ [ ∑

k=−(n−1)

n−1

(1−∣k∣

n)ρk]

risulta finito, e Var ( Z )→0 per n →∞ , Z è uno stimatore consistente per la media μ e

risulterà

limn →∞

1n ∑

t=1

nZ t=μ (1.2.2)

Il processo è definito ergodico per la media se è verificata la (1.2.2).

Ricordiamo che un processo stocastico è definito ergodico se la sua media statistica

coincide quasi ovunque alla sua media temporale, ovvero, presa X una variabile aleatoria,

avremo che:

Xn

→q.o.

X P( limn→∞

Xn= X )=1

In particolare un processo è definito ergodico per la media se la media temporale e la

media statistica coincidono.

Si può dimostrare che una condizione sufficiente per contenere tale risultato è che

l'autocorrelazione ρk →0 se k →∞ , ovvero:

limn →∞

1n ∑

k =−(n−1)

n−1

ρk =0

che implica nella (1.2.1) che:

limn →∞

Var ( Z )=0 (1.2.3)

Similmente impieghiamo la seguente stima usando la media temporale per stimare la

funzione di autocovarianza:

γk=1n∑t=1

n−k

(Z t−Z )(Z t +k−Z ) oppure γk=1

n−k∑t=1

n−k

(Z t−Z )(Z t+k−Z )

in particolare la sommatoria può essere approssimata come segue:

∑t =1

n−k

(Z t−Z )(Z t+k−Z )=∑t=1

n−k

[(Z t−μ)−( Z −μ)] [(Z t+ k−μ)( Z−μ)]=...

...≈∑t=1

n−k

(Z t−μ)(Z t +k−μ)−(n−k )( Z−μ)2

11

ovvero moltiplicando membro a membro e approssimando i termini

∑t =1

n−k

(Z t−μ) e ∑t =1

n−k

(Z t+k−μ) con (n−k )( Z−μ) .

Avremo che:

E ( γk)≃γk−kn

γk−(n−k

n)Var ( Z )

E ( γk)≃γk−Var ( Z )

Chiaramente possiamo notare che entrambi gli stimatori sono polarizzati. Se ignoriamo il

termine Var ( Z ) che rappresenta l'effettiva stima di μ, γk risulta non polarizzato, mentre

γk è ancora polarizzato poiché quest'ultimo ha un errore di polarizzazione maggiore,

specialmente per k grande quanto n. Se ρk →0 per k →∞ e il processo risulta ergodico

per la media, ovvero è verificata la (1.2.3) abbiamo che entrambi gli stimatori γk e γk

risultano asintoticamente non polarizzati.

Bartlett(1946) ha dimostrato le seguenti approssimazioni per un processo Gaussiano:

Cov( γk , γk+ j)≃1n ∑

i=−∞

(γi γi+ j+γi+k+ j γi−k) e

Var ( γk)≃1n ∑

i=−∞

(γ i2+γi+k γi−k)

Similmente

Cov( γk , γk+ j)≃1

n−k ∑i=−∞

(γi γi+ j+γi+k + j γi−k) e

Var ( γk)≃1

n−k ∑i=−∞

(γ i2+γi+k γ i−k ) (1.2.4)

Come possiamo notare nella (1.2.4) la varianza di γk è più grande di quella di γk e

sostanzialmente per valori di k grandi può essere conseguente una stima instabile ed

irregolare. Ciò che ci serve è capire quando un processo è ergodico per l'autocovarianza,

ovvero:

12

limn→∞

γk= limn→∞

1n∑t=1

n−k

(Z t− Z )(Zt+k− Z )=γk (1.2.5)

dimostrare la (1.2.5) in maniera rigorosa, ai fini della nostra analisi, risulta complicato e

non necessaria, quindi è sufficiente notare che l'autocovarianza campionaria è uno

stimatore non polarizzato se risulta che:

∑−∞

∣γi∣<∞ e limn→∞

Var ( γk )=0

Un ulteriore parametro da stimare è l'autocorrelazione. Consideriamo una serie temporale

del tipo Z1 , Z 2, ... , Zn , la ACF campionaria risulterà

ρk=γk

γo=

∑t=1

n−k

(Z t−Z )(Z t +k−Z )

∑t =1

n−k

(Z t−Z )2

per k=0,1,2 , ...

con Z=∑t =1

nZn

media campionaria della serie. Bartlett(1946) ha dimostrato che per un

processo Gaussiano con k>0 e k+ j>0 avremo che:

Cov (ρk ,ρk+ j)≃

1n

∑i=−∞

(ρiρ j+ρi+k++ j ρi−k−2ρk ρiρi−k− j−2ρk + jρi ρi−k− j+2ρk ρk+k ρi2)

(1.2.6)

per valori di n grandi, ρk è approssimativamente normalmente distribuita con media ρk e

varianza:

Var (ρk)≃1n ∑

i=−∞

(ρi2+ρi+k ρi−k−4ρk ρi ρi−k+2ρk

2ρi2) (1.2.7)

per processi dove ρk=0 e k>m l'approssimazione di (1.2.7) diventa

Var (ρk )≃1n

(1+2ρ12+2ρ2

2+...+2ρm2 )

in pratica tutti i valori di ρi con i=1,2 , ... ,m non sono conosciuti e vengono sostituiti con

le loro stime campionarie ρi e avremo il seguente errore standard per grandi ritardi:

S ρk=√ 1

n(1+2ρ1

2+2ρ22+...+2ρm

2 )

per un processo rumore bianco avremo

13

S ρk=√ 1

n

Per calcolare la funzione di autocorrelazione parziale campionaria ϕkk basta sostituire

nella (1.2.6) ρi al posto di ρi . I calcoli sono molto complicati da effettuare; adottando un

metodo ricorsivo dato da Durbin(1960) ponendo ϕii=ρi avremo che:

ϕk +1, k+1=

ρk+1−∑j=1

k

ϕkj ρk+1− j

1−∑j=1

k

ϕkj ρ j

e ϕk+1, j=ϕkj−ϕk+1, k+1 ϕk , k+1− j .

il metodo è valido anche per calcolare ϕkk . Quenouille (1949) ha dimostrato che per una

sequenza di rumori bianchi la varianza di ϕkk può essere approssimata da:

Var(ϕkk)≃1n

quindi utilizzeremo come limite critico su ϕkk il valore ±2

√nper testare l'ipotesi di un

processo bianco.

1.3 Rappresentazione a media mobile e autoregressiva per le serie temporali

Nell'analisi delle serie temporali abbiamo due utili rappresentazioni per descrivere una

serie storica. Una è data dallo scrivere un processo Z t come una combinazione lineare di

una sequenza di variabili aleatorie incorrelate:

Z t=μ+at+ψ1 at−1+ψ2 at−2+...=μ+∑j=0

ψ j a t− j (1.3.1)

dove ψ0=1 , {a t} è un processo white noise a media nulla e ∑j=0

ψ j2<∞ .

Una sommatoria infinita di variabili aleatorie è definita, quindi, come il limite della media

quadratica delle somme parziali finite, ovvero:

E [( Z t−∑j =0

n

ψ j at − j)2]→0 per n→∞

con Z t=Z t−μ . Introducendo l'operatore “backshift” B j=xt j possiamo scrivere la (1.3.1)

nella forma compatta:

Z t=ψ(B)at (1.3.2)

14

con ψ( B)=∑j =0

ψ j B j

da ciò è facile verificare dal processo descritto nella (1.3.1):

E (Z t)=μ (1.3.3)

Var (Z t)=σa2 ∑

j=0

ψ j2 (1.3.4)

E (a t Z t− j)={σa2 per j=0

0 per j>0(1.3.5)

γk=E ( Z t Z t+k )=σa2 ∑

i =0

ψi ψi+k (1.3.6)

ρk=

∑i=0

ψi ψi+k

∑i=0

ψi2

(1.3.7)

dove l'autocovarianza e l'autocorrelazione nelle (1.3.6) e (1.3.7) sono dipendenti soltanto

dal ritardo k. Per far si che il processo sia stazionario dobbiamo dimostrare che

l'autocovarianza sia finita per ogni valore di k, ovvero dalla (1.3.6):

∣γk∣=∣E ( Z t Z t+k)∣⩽[Var (Z t)Var (Z t+k)]1 /2=σa2 ∑

j=0

ψ j2

da ciò si evince che la sommatoria ∑j =0

ψ j2<∞ deve essere sommabile per far si che la

(1.3.1) sia stazionaria. La forma descritta nella (1.3.1) viene detta rappresentazione a

media mobile (MA) di un processo. Wold(1938) ha dimostrato che un processo stazionario

che è puramente non deterministico può essere scritto nella sua rappresentazione a media

mobile. Per una data sequenza di autocovarianze, definiamo la funzione generatrice delle

autocovarianze la funzione seguente:

γ(B)= ∑k =−∞

γk Bk

dove la varianza del processo γ0 è il coefficiente di B0 e quello della covarianza γk è il

coefficiente sia di Bk che di B−k .

Utilizzando la (1.3.6) e la definizione di stazionarietà avremo che:

15

γ(B)=σa2 ∑

k=0

∑i=0

ψi ψi+k Bk=σa2 ∑

i=0

∑k =0

ψi ψ j B j−i

=σa2 ∑

j=0

ψ j B j ∑i=0

ψi B−i=σa2ψ(B)ψ( B−1

)

(1.3.8)

con j=i+k e ψ j=0 per j<0 . Analogamente per la funzione generatrice

dell'autocorrelazione dalla (1.3.7) avremo che:

ρ(B)= ∑k=−∞

ρk Bk=γ(B)γo

(1.3.9)

Un'altra forma utile per descrivere un processo è quello di scriverla nella sua

rappresentazione autoregressiva (AR) dove noi regrediamo il valore di Z all'istante t con il

suo valore precedente più un disturbo aleatorio (random shock), come segue:

Z t=π1 Z t −1+π2 Z t−2+...+a t (1.3.10)

o in maniera equivalente

π( B) Z t=a t (1.3.11)

con π( B)=1−∑j=1

π j B j e 1+∑j=1

∣π j∣<∞ .

Box e Jenkins (1976) definiscono un processo invertibile se può essere scritto in questa

forma. E' facile dimostrare che non tutti i processi stazionari sono invertibili, in particolare

se un processo lineare della forma Z t=ψ(B) at è invertibile se le radici di ψ( B)=0

funzione della sola B giacciono al di fuori della circonferenza di raggio unitario, ovvero,

preso β come radice del polinomio, ∣β∣>1 . È importante precisare che un processo

invertibile non è necessariamente stazionario. Per il risultato di Wold, la (1.3.11) può

essere scritta, secondo la rappresentazione MA in:

Z t=1

π(B)at=ψ(B)a t se ∑

j=0

ψ j2<∞

ciò è vero se tutte le radici di π( B)=0 giacciono al di fuori della circonferenza di raggio

unitario, ovvero ∣δ∣>1 se δ è una radice di π( B) .

Un processo viene detto autoregressivo di ordine p se nella sua rappresentazione

autoregressiva abbiamo un numero di pesi π finiti non nulli, ovvero risulta

π1=ϕ1, π2=ϕ2,... ,π p=ϕp e πk =0∀k> p e viene descritto come segue:

Z t−ϕ1˙Z t−1−...−ϕp

˙Z t− p=a t (1.3.12)

16

analogamente per un processo a media mobile di ordine q se nella sua rappresentazione a

media mobile abbiamo un numero di pesi ψ finiti non nulli, ovvero risulta

ψ1=θ

1,ψ

2=θ

2,..., ψ

p=θ

pe ψ

k=0∀k>q e viene descritto:

Z t=a t−θ1at−1−...−θq at−q

alternativamente possiamo descrivere il nostro processo con la rappresentazione mista

autoregressiva a media mobile:

Z t−ϕ1˙Z t−1−...−ϕp Z t− p=a t−θ1 a t−1−...−θq a t−q .

17

Capitolo 2 : Modelli di serie temporali

In questo capitolo analizzeremo i principali modelli per poter caratterizzare una serie

temporale. Seguendo la definizione di stazionarietà descritta nel capitolo precedente

faremo una distinzione tra i modelli stazionari e quelli non stazionari, descrivendo tutte le

loro caratteristiche, che poi utilizzeremo nel capitolo successivo per effettuare un' analisi

corretta.

2.1 Modelli di serie temporali stazionari

In questo paragrafo introduciamo un modello parametrico di ordine finito di serie

temporale, dato un numero finito di osservazioni, denominato modello autoregressivo a

media mobile che è la combinazione di due modelli: il modello autoregressivo e quello a

media mobile.

2.1.1 Modello autoregressivo

Come menzionato precedentemente nel paragrafo 1.3 nella rappresentazione

autoregressiva di una serie temporale abbiamo un numero finito di pesi π non nulli, ovvero

π1=ϕ1 ,π2=ϕ2 , ... ,π p=ϕp e πk =0∀ k> p risulta che il processo è definito come processo

autoregressivo e viene indicato con AR(p), dato da:

Z t=ϕ1 Z t−1+...+ϕ p Z t− p+at

oppure

ϕp( B) Z t=at

con ϕp( B)=(1−ϕ1 B−...−ϕp Bp) e Z t=Z t−μ .

Poiché ∑j=1

∣π j∣=∑h=1

p

∣ϕ j∣<∞ il processo è sempre invertibile; per essere stazionario le

radici del polinomio ϕp( B) devono giacere al di fuori della circonferenza di raggio

18

unitario. Da ciò si evince che un processo autoregressivo dipende dai valori precedenti più

un disturbo aleatorio. Di seguito analizzeremo vari casi di un processo autoregressivo.

Un processo autoregressivo del primo ordine AR(1) è descritto da:

(1−ϕ1 B) Z t=at (2.1.1a)

oppure

Z t=ϕ1 Z t−1+a t

il processo è chiaramente invertibile; per risultare stazionario le radici di (1−ϕ1 B)=0

devono giacere al di fuori della circonferenza di raggio unitario,ovvero ∣ϕ1∣<1 , se questa

condizione non fosse verificata decadrebbe la proprietà di stazionarietà poiché abbiamo

assunto implicitamente che il processo sia espresso come combinazione lineare di variabili

rumore bianco presenti e passati. Un processo AR(1) è anche detto processo Markov

poiché la distribuzione di Z t data da Z t −1 , Z t −2 , Z t−3 , ... è la stessa distribuzione di Z t

data da ˙Z t −1 . Quindi la ACF di un processo AR(1) è ottenuta da:

E ( Z t −k Z t)=E (ϕ1 Z t−1 Z t)+E ( Z t−k a t) γk=ϕ1 γk−1 , k⩾1 (2.1.2)

analogamente la funzione di autocorrelazione diventa:

ρk=ϕ1 ρk−1=ϕ1k dove assumiamo che ρ0=1 . Quindi, quando ∣ϕ1∣<1 e il processo è

stazionario, la ACF decresce esponenzialmente in due forme distinte dipendenti dal segno

di ϕ1 . Se 0<ϕ1<1 tutte le autocorrelazioni sono positive, invece se −1<ϕ1<0 il segno

delle autocorrelazioni mostrano un pattern alternato che inizia con segno negativo. Per un

processo AR(1), dalla (1.1.5) si ricava la seguente PACF:

ϕkk={ρ1=ϕ1 k=10 k⩾2

(2.1.3)

dove ha un unico valore, positivo o negativo a seconda del segno ϕ1 , al valore di k=1,

mentre gli altri valori di k maggiori vengono tagliati. Quando abbiamo una finzione di

autocorrelazione della forma ϕ∣k∣ con ∣ϕ∣<1 il modello AR(1) può essere scritto anche

nella forma:

Z t−ϕ Z t−1=at (2.1.4)

oppure

Z t−ϕ−1 Z t−1=bt (2.1.5)

19

dove sia a t che bt sono rumori bianchi a media nulla dove la varianza del secondo è più

grande del primo di un fattore ϕ−2 . Per scopi pratici utilizzeremo sempre la

rappresentazione della (2.1.4).

In maniera del tutto analoga definiamo un processo autoregressivo del secondo ordine, o

AR(2), un processo della forma:

(1−ϕ1 B−ϕ2 B2) Z t=at (2.1.6a)

oppure

Z t=ϕ1 Z t−1+ϕ2 Z t−2+at (2.1.6b)

Il processo AR(2) è un modello autoregressivo finito ed è sempre invertibile. Per essere

stazionario le radici di ϕ(B)=(1−ϕ1 B−ϕ2 B2)=0 devono giacere al di fuori della

circonferenza di raggio unitario. La proprietà di stazionarietà di un processo AR(2) può

essere anche espressa anche in termini dei valori dei parametri. In particolare presi

B1 e B2 come radici di (1−ϕ1 B−ϕ2 B2)=0 avremo che:

B1=−ϕ1+√ϕ1

2+4 ϕ1

2ϕ2

e B2=−ϕ1−√ϕ1

2+4ϕ1

2ϕ2

in particolare

1B1

=ϕ1+√ϕ1

2+4ϕ1

2e 1

B2

=ϕ1−√ϕ1

2+4ϕ1

2

La condizione necessaria ∣Bi∣<1 implica che ∣ 1Bi∣<1 con i=1,2; quindi avremo che

∣ 1B1

⋅1B2∣=∣ϕ2∣<1 e ∣ 1

B1

+1

B2∣=∣ϕ1∣<2

per avere radici sia reali che complesse, la condizione necessaria è:

{−1<ϕ2<1−2<ϕ1<2

in particolare per radici reali:

{ϕ2+ϕ1<1ϕ2−ϕ1<1

e per radici complesse:20

{ϕ2+ϕ1<1ϕ2−ϕ1<1

−1<ϕ2<1

La funzione di autocorrelazione del processo AR(2) possiamo ottenerla moltiplicando

ambo i membri della (2.1.6b) con Z t −k ed avremo che:

E ( Z t −k Z t)=ϕ1 E (Z t−k Z t −1)+ϕ2 E ( Z t −k Z t−2)+ E( Z t−k a t)

γk=ϕ1 γk−1+ϕ2 γk−2 k⩾1

quindi la funzione di autocorrelazione diventa:

ρk=ϕ1 ρk−1+ϕ2ρk−2 k⩾1 (2.1.7)

in particolare per k= 1 e 2:

ρ1=ϕ1+ϕ2 ρ1=ϕ1

1−ϕ2

ρ2=ϕ1ρ1+ϕ2 =ϕ1

2+ϕ2−ϕ2

2

1−ϕ2

(2.1.8)

per k=3 e valori successivi ρk è calcolata ricorsivamente dalla (2.1.7).

L'andamento della ACF è data dall'equazione alle differenze ricavata dalla (2.1.7), ovvero

(1−ϕ1 B−ϕ2 B2)ρk=0 , risolvendola3 avremo:

ρk={ b1[ϕ1+√ϕ12+4ϕ1

2 ]+b2[ ϕ1−√ϕ12+4 ϕ1

2 ] se ϕ12+4 ϕ2≠0

(b1+b2 k )[ϕ1

2 ]k

se ϕ12+4 ϕ2=0

(2.1.9)

dove b1 e b2 sono risolte utilizzando le condizioni iniziali della (2.1.8). Se le radici di

(1−ϕ1 B−ϕ2 B2)ρk=0 sono reali la ACF decresce esponenzialmente, se, invece, sono

complesse allora avrà un andamento sinusoidale. Considerando la (2.1.7) abbiamo che la

PACF risulta:

ϕ11=ρ1=ϕ1

1−ϕ2

(2.1.10a)

3 Utilizzando il teorema 2.7.1 dimostrato in: William Wuu-Shyong Wei “Time Series Analsys – Univariate and Multivariate Methods” Pearson ed. cap. 2 par. 2.7 p. 28

21

ϕ22=∣1 ρ1ρ1 ρ2∣

∣1 ρ1

ρ1 1 ∣=

ρ2−ρ12

1−ρ12 =…=ϕ2 (2.1.10b)

ϕ33=∣

1 ρ1 ρ1

ρ1 1 ρ2ρ2 ρ1 ρ3

∣∣

1 ρ1 ρ2

ρ1 1 ρ1

ρ2 ρ1 1 ∣=…=0 (2.1.10c)

poiché l'ultima colonna del numeratore è combinazione lineare delle prime due colonne.

Da ciò si evince che per k⩾3 abbiamo che ϕkk=0 . Quindi la funzione di

autocorrelazione parziale del modello AR(2) taglia tutti i valori successivi all'istante 2.

Un processo autoregressivo di ordine p, o AR(p), è della forma:

(1−ϕ1 B−ϕ2 B2−…−ϕp b p

) Z t=a t (2.1.11a)

oppure

Z t=ϕ1 Z t−1+ϕ2 Z t−2+…+ϕp Z t− p+a t (2.1.11b)

Per calcolare la funzione di autocorrelazione moltiplichiamo ambo i membri della (2.11.b)

per Z t−k e avremo:

Z t −k Z t=ϕ1 Z t −1+ϕ2 Z t −k Z t−2+…+ϕp Z t−k Z t − p+Z t −k a t

ovvero:

γk=ϕ1 γk−1+…+ϕp γk− p k>0 (2.1.12)

dove ricordiamo che E (a t Z t−k)=0 ∀k>0 . La nostra ACF sarà quindi:

ρk=ϕ1 ρk−1+⋯+ϕ2ρ k−2 k>0 .

Utilizzando gli stessi passaggi per il modello AR(2) esteso, però, a p>2, avremo che:

ρk=∑i=1

m

∑k=0

di−1

bij k j Gik (2.1.13)

se d i=1 per ogni i e Gi−1 sono tutti distinti, l'espressione precedente diventa:

22

ρk=∑i =1

p

bij G ik (2.1.14)

Per un processo stazionario risulta che ∣G−1i∣>1 e ∣Gi∣<1 . L'andamento della funzione di

autocorrelazione decresce come un misto tra decadimento esponenziale e smorzamento

sinusoidale dipendente dalle radici di ϕ(B)=0 se sono reali o complesse. Lo

smorzamento sinusoidale è dato dalle radici complesse.

Essendo ρk=ϕ1 ρk−1+ϕ2ρk−2+… per k>0 possiamo notare che per k>p l'ultima colonna a

numeratore della (1.1.5) può essere scritta come combinazione lineare delle colonne

precedenti della stessa matrice, quindi la PACF ϕkk sarà nulla per valori di k>p.

2.1.2 Modello a media mobile

Come menzionato nel paragrafo 1.3 nella rappresentazione a media mobile di una serie

temporale abbiamo un numero finito di pesi ψ non nulli tale che

ψ1=−θ1, ψ2=−θ2,... ,ψq=−θq e ψk=0∀k>q risulta che il processo viene definito come

processo a media mobile e viene denotato con MA(q). Esso è dato da:

Z t=a t−θ1 a t−1−…−θq at −q (2.1.15a)

oppure

Z t=θ( B)a t (2.1.15b)

con

θ(B)=(1−θ1 B−…−θ1 Bq)

se (1−θ1 B−…−θ1 Bq)<∞ il processo risulta sempre stazionario. Risulta invertibile se

θ(B)=0 ha radici che risiedono all'esterno della circonferenza di raggio unitario. I

processi a media mobile sono utili per descrivere i fenomeni i quali eventi producono

effetti che terminano nel breve periodo. Prima di effettuare la caratterizzazione di un

processo MA(q) analizzeremo prima dei casi semplici.

Un processo è detto a media mobile del primo ordine o MA(1) se può essere descritto nella

forma:

Z t=a t−θ1 a t−1=(1−θ1 B)at (2.1.16)

dove a t è un processo rumore bianco a media nulla e varianza costante σ a2 . La media di

{Z t } è E ( Z t)=0 mentre E (Z t)=μ costante. Per procedere con il calcolo della funzione

23

di autocorrelazione, consideriamo la funzione generatrice dell'autocovarianza del processo

MA(1) utilizzando la (1.3.8) come segue:

γ(B)=σa2 (1−θ1 B)(1−θ1 B−1)=σa

2 {−θ1 B−1+(1−θ1 B2)−θ1b }

quindi l'autocovarianza del processo risulta:

γk{(1+θ1

2)σa

2 k=0

−θ1 σa2 k=1

0 k>1

(2.1.17)

e l'autocorrelazione invece sarà:

ρk{−θ1

1+θ12 k=0

0 k>1

(2.1.18)

siccome che 1+θ12 è sempre limitato, il processo MA(1) è sempre stazionario, invece per

essere invertibile le radici di (1−θ1 B)=0 devono sempre giacere all'esterno della

circonferenza di raggio unitario, ovvero B=1θ1

con ∣θ1∣<1 . La funzione di

autocorrelazione parziale, invece, sarà in generale:

ϕkk=−θ1

k(1−θ1

2)

1−θ12(k +1 )

per k⩾1 (2.1.19)

Contrariamente alla ACF, che taglia i valori successivi all'istante k⩾1 , la PACF decade

esponenzialmente in una o due forme dipendenti dal segno di θ1 , in particolare, per segni

positivi decade per valori negativi, viceversa per segni negativi decade per valori positivi.

Quando θ(B)=(1−θ1 B−θ2 B2) abbiamo un processo a media mobile del secondo ordine

MA(2), ovvero:

Z t=(1−θ1 B−θ2 B2)at (2.1.20)

con {a t} processo rumore bianco a media nulla. Essendo un modello di ordine finto, esso

risulta sempre stazionario, per l'invertibilità abbiamo che le radici di (1−θ1 B−θ2 B2)=0

devono giacere al di fuori della circonferenza di raggio unitario, ovvero devono essere

soddisfatte le seguenti condizioni:

24

{θ2+θ1<1θ2−θ1<1

−1<θ2<1

(2.1.21)

quindi le autocovarianze del modello MA(2) saranno:

γ0=(1+θ12+θ2

2)σa

2

γ1=−θ1(1−θ2)σa2

γ2=−θ2 σa2

γk=0 k>2

la funzione di autocorrelazione sarà:

ρk={−θ1(1−θ2)

1+θ12+θ2

2 k=1

−θ2

1+θ12+θ2

2 k=2

0 k>2

(2.1.22)

per ottenere la funzione di autocorrelazione parziale, dalla 1.1.5 otteniamo che:

ϕ11=ρ1

ϕ22=ρ2−ρ1

2

1−ρ12

ϕ33=ρ1

3−ρ1ρ2(2−ρ2)

1−ρ22−2ρ1

2(1−ρ2)

quindi possiamo notare che se le radici di (1−θ1 B−θ2 B2)=0 sono complesse la PACF ha

un andamento di tipo sinusoidale, viceversa se sono reali ha un decadimento di tipo

esponenziale. Per un processo generico a media mobile di ordine q o MA(q) avremo la

seguente espressione:

Z t=(1−θ1 B−θ2 B2−…−θq Bq

)at (2.1.23)

per questo modello la varianza risulta:

γo=σa2∑

j =0

q

θ j2 (2.1.24)

con θ0=1 e le covarianze risultano:

25

γk={σa2(−θk+θ1θk+1+…+θq−k θq) k=1,2…q

0 k>q(2.1.25)

quindi la funzione di autocorrelazione diventa:

ρk={−θk+θ1θk+1+…+θq−k θq

1+θ12+…+θq

2 k=1,2…q

0 k>q

(2.1.26)

notiamo che la ACF ha valori nulli per valori maggiori di q.

Come discusso per i modelli MA(1) e MA(2) anche per il modello generico la PACF

decresce esponenzialmente o ha un andamento sinusoidale a seconda delle radici del

polinomio (1−θ1 B−…−θ1 Bq)=0 se sono corrispettivamente reali o complesse.

Prima di procedere con la caratterizzazione di un modello di processo autoregressivo a

media mobile, è importante precisare, e si può dimostrare4 che un modello stazionario di

ordine finito autoregressivo AR(p) corrisponde a un modello invertibile di ordine non

finito di un processo a media mobile, viceversa un modello invertibile di ordine finito a

media mobile MA(q) corrisponde a un modello stazionario di ordine non finito di un

processo autoregressivo.

2.1.3 Modello di processo autoregressivo a media mobile

Un'estensione di un processo puramente autoregressivo e puramente a media mobile è un

modello di processo misto autoregressivo a media mobile o anche detto ARMA.

Generalmente risulta molto difficile caratterizzare un processo stazionario e invertibile con

un modello che abbia le caratteristiche sia del modello autoregressivo che quello a media

mobile poiché ci sarebbero troppe variabili da tener conto, infatti un modello di ordine

molto grande necessita di una buona approssimazione.

Quindi risulta necessario definire una rappresentazione mista per creare un modello per i

processi che hanno entrambe le caratteristiche, come segue:

ϕp( B) Z t=θ1( B)a t (2.1.27)

con

ϕp( B)=1−ϕ1 B−…−ϕp B p e θ p(B)=1−θ1 B−…−θq Bq .

4 Dimostrazione rif. William Wuu-Shyong Wei “Time Series Analsys – Univariate and Multivariate Methods”Pearson ed. cap.3 par. 3.3 pag. 54

26

Il processo per essere stazionario le radici di ϕp( B)=0 devono giacere al di fuori della

circonferenza di raggio unitario, invece per essere stazionario le radici di θq( B)=0

devono giacere al di fuori della circonferenza di raggio unitario; condizione necessaria che

entrambi i polinomi non abbiano radici in comuni. Un processo ARMA può essere scritto

nella rappresentazione autoregressiva pura:

π( B) Z t=a t (2.1.28)

con:

π( B)=ϕp(B)

θq(B)=(1−π1 B−π2 B2

−…) (2.1.29)

o, analogamente, nella rappresentazione a media mobile pura:

Z t=ψ(B)at (2.1.30)

con

ψ( B)=θq(B)

ϕp(B)=(1+ψ1 B+ψ2 B2

+…) (2.1.31)

Per calcolare la funzione di autocorrelazione, riscriviamo la (2.1.27) come segue:

Z t=ϕ1 Z t−1+…ϕp Z t− p+a t−θ1 a t−1−…θq a t−q

moltiplicando ambo i membri per ˙Z t−k avremo che:

Z t Z t−k=ϕ1 Z t −k Z t−1+…+ϕp Z t−k Z t− p+a t−θ1 Z t−k a t−1−…θq Z t−k a t−q

prendiamo il valore atteso per ottenere:

γk=ϕ1 γk−1+…+ϕp γk− p+E ( ˙Z t −k a t)−θ1 E ( ˙Z t−k at −1)−…−θq E ( ˙Z t−k a t−q)

essendo

E ( Z t −k at −i)=0 ∀k>i

avremo che:

γk=ϕ1 γk−1+…+ϕp γk− p k⩾(q+1) (2.1.32)

analogamente :

ρk=ϕ1 ρk−1+…+ϕp ρk− p k⩾(q+1) (2.1.33)

Come possiamo notare la ACF decresce gradualmente dopo l'istante q così come abbiamo

visto per un processo AR(p), quindi dipende solo dai parametri autoregressivi del modello.

27

Invece per prime q autocorrelazioni dipendono sia dai parametri autoregressivi che quelli a

media mobile e servono come parametri iniziali per il modello. Dato che il processo

ARMA contiene il processo MA come caso particolare, la sua funzione di autocorrelazione

parziale decresce esponenzialmente o ha un andamento sinusoidale che dipendono dalle

radici di θq( B)=0 e ϕp( B)=0 .

2.2 Modelli di serie temporali non stazionari

Nella nostra analisi delle serie temporali abbiamo discusso fin'ora dei modelli stazionari,

ma in molte applicazioni possiamo incorrere a casi dove le condizioni di stazionarietà

vanno decadere, in particolare si possono avere medie non costanti e/o varianze non

costanti e ciò rende più complessa la nostra analisi. Prima di procedere con la

caratterizzazione dei processi non stazionari è necessario introdurre i concetti di non

stazionarietà della media e della varianza .

2.2.1 Non stazionarietà della media

Un processo non stazionario nella media rappresenta un problema molto grande per la

stima della media senza avere più realizzazioni. Fortunatamente vi sono due modelli che a

partire da una singola realizzazione ci permettono di descrivere il fenomeno.

La funzione media di un processo non stazionario può essere rappresentata da un modello

di trend deterministico nel tempo. In questo caso la regressione standard del modello può

essere utilizzata per descrivere il fenomeno. Se la funzione media μt assume un trend

lineare del tipo μ t=α0+α1t , possiamo anche utilizzare il modello di trend deterministico

lineare seguente:

Z t=α0+α1t+a t

con a t serie di rumore bianco a media nulla. Per un modello di trend deterministico

quadratico possiamo utilizzare:

Z t=α0+α1t+α2t 2+a t

più in generale per un polinomio di ordine k , possiamo utilizzare il seguente modello:

Z t=α0+α1t+…+αk t k+a t

28

Se il trend deterministico può essere rappresentato da una curva seno-coseno, possiamo

avere:

Z t=vo+v cos (ω t+θ)+a t=vo+αcos (ω t)+β cos(ω t )+a t

con:

α=v cosθ β=−v sin θ

v=√α2+β2 θ=tan−1 (−β/α)

con v chiamata ampiezza, ω la frequenza e θ la fase della curva. Più in generale avremo:

Z t=vo+∑j=1

m

(α j cos (ω j t)+β j sin(ω j t))+a t

chiamato anche modello delle periodicità nascoste.

Anche se molte serie sono non stazionarie, esse hanno molte parti che assumono lo stesso

comportamento tranne che per la loro differenza nei livelli di media locale; Box e Jenkins

definiscono le serie che assumono questo comportamento come serie omogenee non

stazionarie. In termini del modello ARMA, esso risulta non stazionario se alcune radici del

polinomio della componente autoregressiva non giacciono al di fuori della circonferenza di

raggio unitario. Quindi, detto Ψ(B) l'operatore autoregressivo che descrive questo

comportamento, il nostro modello ARMA può essere descritto come:

Ψ(B)(Z t+C )=Ψ (B)Z t (2.2.1)

con C costante. Quindi la forma di Ψ(B) sarà:

Ψ(B)=ϕ( B)(1−B)d (2.2.2)

per ogni d positivo con ϕ(B) operatore autoregressivo stazionario. Così, un serie

omogenea non stazionaria può essere ridotta a una serie stazionaria considerando un'adatta

differenziazione delle serie. In altre parole la serie Z t è non stazionaria, ma la sua d-esima

serie differenziata {(1−B)d Z t} per qualche intero d⩾1 , risulta stazionaria. Ad esempio

per la d-esima serie differenziata avremo che:

(1−B)d Z t=at (2.2.3)

per d=1 avremo:

(1−B) Z t=a t oppure Z t=Z t−1 a t

29

Prendendo le informazioni precedenti, il livello della serie all'istante t risulta

μ t=Z t−1 (2.2.4)

il quale è soggetto alla dispersione aleatoria all'istante (t-1). In altre parole il livello di

media del processo aleatorio Z t in {(1−B)d Z t} per d⩾1 cambia nel tempo casualmente

e noi caratterizziamo il processo come se avesse un trend aleatorio.

2.2.2 Modello autoregressivo integrato a media mobile (ARIMA)

Dalla serie differenziata (1−B)d Z t , possiamo caratterizzare un processo ARMA(p,q)

come segue:

ϕp( B)(1−B)d Z t=θ0+θq(B)a t (2.2.5)

dove l'operatore AR stazionario ϕp( B)=(1−ϕ1 B−…−ϕp B p) e l'operatore MA invertibile

θq( B)=(1−θ1 B−…−θq Bq) non hanno fattori comuni. Il parametro θ0 gioca dei ruoli

differenti per valori diversi di d. In particolare per d=0 il processo originario risulta

stazionario poiché θ0=μ(1−ϕ1−…ϕp) e θ0 è collegato alla media del processo. Per

d⩾1 , θ0 è chiamato termine di trend deterministico e può essere omesso dal modello

tranne se risulta realmente necessario. Il modello omogeneo non stazionario descritto nella

(2.2.5) è definito modello autoregressivo integrato a media mobile di ordine p d q e viene

denotato con ARIMA(p,d,q). In seguito analizzeremo dei casi particolari.

Per p=0,d=1 e q=0, ovvero per un processo ARIMA(0,1,0) abbiamo il processo random

walk descritto da:

(1−B) Z t=a t (2.2.6a)

oppure:

Z t=Z t −1+a t (2.2.6b)

In questo modello il valore di Z all'istante t è equivalente al suo valore all'istante (t-1) più

un disturbo aleatorio. Notiamo che il modello random walk limita il processo AR(1)

(1−ϕ B)Z t=a t con ϕ →1 e, poiché la sua funzione di autocorrelazione risulta ρk=ϕk

con ϕ →1 , può essere caratterizzato da grandi picchi non nulli nella funzione di

autocorrelazione campionaria della serie originale {Z t} e una funzione di autocorrelazione

nulla per la serie differenziata {(1−ϕ B)Z t} . Il modello ARIMA(0,1,0) è denominato

30

“random walk” poiché segue l'andamento che ha un uomo ubriaco la cui posizione

all'istante t è uguale alla sua posizione all'istante (t-1) più un disturbo aleatorio.

Consideriamo la (2.2.6a) aggiungendo un termine non nullo:

(1−B) Z t=θ0a t (2.2.7)

oppure

Z t=Z t −1+θ0+at (2.2.8)

considerando l'origine dei tempi all'istante k, per sostituzioni successive avremo che:

Z t=Z t −1+θo+at=…=Z k +(t−k )θ0+ ∑j=k+1

t

a j per t >k.

Risulta chiaro che Z t contiene un trend deterministico con pendenza o sfasamento θ0 . In

generale assumeremo che θ0=0 per d >0 a meno che non risulti chiaro la necessità di un

componente deterministico.

Generalmente la (2.2.7) per θ0≠0 viene chiamata modello random walk con sfasamento,

la sua media sarà pari a:

μ=Z t −1+θ0 (2.2.9)

la quale è influenzata dal disturbo aleatorio all'istante (t -1) attraverso il termine Z t −1 così

come dal componente deterministico dato da θ0 . Per θ0=0 abbiamo un modello solo con

un trend aleatorio.

Un altro caso particolare da analizzare è quando abbiamo p=0, d=1, q=1. Questo modello

è detto ARIMA(0,1,1) o IMA(1,1) ed è caratterizzato da:

(1−B) Z t=(1−θ B)a t (2.2.10a)

oppure:

Z t=Z t −1+a t+θ at −1 (2.2.10b) con -1< θ<1.

Questo modello per Z t è ridotto al modello stazionario MA(1) per la prima serie

differenziata (1−B) Z t , in particolare possiamo notare che il modello random walk

illustrato precedente mente è un caso particolare dell'IMA(1,1) per θ =0. Quindi possiamo

dire che il modello IMA(1,1) è caratterizzato sia dalla ACF della serie originaria che

31

decade molto lentamente che dalla ACF della sua prima serie differenziata che assume il

pattern di un processo a media mobile del primo ordine.

Per -1< θ<1 abbiamo la seguente relazione:

(1−B)

(1−θ B)=(1−B)(1+θ B+θ

2 B2+…)

=1+θ B+θ2 B2

+…−B−θ B2−…

=1−(1−θ) B−(1−θ)θ B2−…

=1−α B−α(1−α) B2−α(1−α)

2 B3−…

(2.2.11)

con α=(1−θ)

Da ciò si ha che

Z t=α ∑j=1

(1−α) j−1 Z t− j+at (2.2.12)

Possiamo notare che questa equazione è la rappresentazione AR del modello, quindi il

risultato dell'analisi regressiva, la previsione ottimale Z t del processo Z t è data da:

Z t=α ∑j=1

(1−α) j−1 Z t− j (2.2.13)

In altre parole la previsione ottimale di Z t all'istante t risulta un decremento esponenziale

pesato a media mobile dei suoi valori precedenti, in particolare all'istante t+1 la (2.2.13)

diventa:

Z t +1=α Z t+(1−α) Z t (2.2.14)

ovvero la previsione all'istante successivo risulta uguale alla media pesata della nuova

osservazione disponibile e dall'ultima previsione. Il coefficiente è anche detto costante di

livellamento del metodo di smussamento esponenziale. Perciò il modello generale

ARIMA(p,d,q) ha alcuni di questi metodi come casi particolari.

2.2.3 Non stazionarietà della varianza e autocovarianza

Fin'ora abbiamo parlato delle serie storiche non stazionarie omogenee, ovvero quando la

media risulta non stazionaria. Molte serie, però, presentano, invece della dipendenza

temporale della media, dipendenza temporale nella varianza, ovvero risultano non

stazionarie e non omogenee, quindi abbiamo bisogno, oltre che a una corretta

differenziazione, anche di una trasformazione.

32

In particolare nelle serie temporali la stazionarietà della media non implica la stazionarietà

della varianza, viceversa se la media è non stazionaria anche la varianza è non stazionaria.

Dunque nel modello ARIMA, come visto in precedenza,oltre la dipendenza temporale

della media, abbiamo che anche la varianza e l'autocovarianza dipendono dal tempo.

Per prima cosa notiamo che, anche se il modello risulta non stazionario, la caratteristica

completa del processo è determinata per ogni istante da un numero finito di parametri,

ovvero ϕi θ j σa2 . Quindi l'evoluzione completa del processo può essere modellata da un

modello ARIMA adattato su un dato set {Z 1, Z 2,… , Z n} . Per esempio, consideriamo il

modello IMA(1,1):

(1−B) Z t=(1−θ B)a t (2.2.15a)

oppure:

Z t=Z t −1+at+θa t−1 (2.2.15b)

e lo adattiamo a una serie di n0 osservazioni. Riferendoci all'origine dei tempi n0 , per

t>n0 possiamo scrivere per sostituzioni successive:

Z t=Z t−1+at+θa t−1

=Z t−2+a t+(1−θ)at−1+θ a t−2

⋮=Z n0

+at+(1−θ)a t−1+…+(1−θ)an0+1+θan0

(2.2.16)

similmente per t>k abbiamo:

Z t −k =Z n0+a t−k +(1−θ)at −k−1+…+(1−θ)an0 +1+θan0

(2.2.17)

Quindi rispettando l'origine dei tempi n0 avremo che:

Var (Z t)=[1+(t−n0−1)(1−θ)2]σa

2

Var (Z t−k)=[1+(t−k−n0−1)(1−θ)2]σa

2

Cov(Z t−k , Z t)=[(1−θ)+(t−n0−1)(1−θ)2]σa

2

Corr (Z t−k , Z t)=Cov(Z t−k , Z t)

√Var (Z t−k )Var (Z t)

=(1−θ)+( t−n0−1)(1−θ)

2

√[1+(t−k−n0−1)(1−θ)2] [1+(t−n0−1)(1−θ)

2]

(2.2.18)

dove Zn0e an0

sono conosciuti rispetto all'origine dei tempi n0 .

Da tali relazioni, è importante fare le seguenti osservazioni:

33

1. La varianza dei processi ARIMA dipende dal tempo e Var (Z t)≠Var (Z t −k) per

k≠0 ;

2. La varianza è non limitata per t →∞ ;

3. L'autocovarianza e l'autocorrelazione sono dipendenti dal tempo quindi sono non

invarianti rispetto alla traslazione temporale. In altre parole queste funzioni sono

dipendenti dalla traslazione temporale k e dal tempo t rispetto alla base dei tempi

n0 ;

4. Se t è abbastanza grande rispetto a n0 abbiamo che dall'ultima relazione della

(2.2.18) Cov(Z t−k , Z t)≃1 poiché essendo, dunque, ∣Cov (Z t−k , Z t)∣⩽1 implica

che l'autocorrelazione decresce lentamente per ogni aumento di k.

Quindi operando la differenziazione, il processo ARIMA può essere studiato come un

processo ARMA. Questo non è sempre vero, poiché possono essere stazionarie nella media

ma non nella varianza. Per ovviare a questo problema necessitiamo di una trasformazione

stabilizzante per la varianza.

Ciò che dobbiamo trovare è una funzione di trasformazione T (Z t) tale che il nostro

processo Z t abbia che la varianza scritta nella forma:

Var (Z t)=cf (μt)

stabile. Per illustrare questo metodo, per prima cosa approssimiamo la nostra funzione con

la propria serie di Taylor limitandoci al primo ordine:

T (Z t)≃T (μt)+T ' (μt)(Z t−μt) (2.2.19)

Calcoliamo la varianza di T (Z t) :

Var [T (Z t)]≃[T ' (μ t)]2 Var (Z t)=c [T ' (μt)]

2 f (μt) (2.2.20)

da questa relazione notiamo che per stabilizzare la varianza, deve risultare che:

T ' (μt)=1

√ f (μt)(2.2.21)

ciò implica che l'equazione (2.2.21) diventa:

T (μt)=∫1

√ f (μ t)(2.2.22)

Seguono, quindi, le seguenti osservazioni:

34

1. La trasformazione stabilizzante della varianza è definita solo per le serie

positive;questa definizione non è così restrittiva come sembra poiché basta

sommare una costante alla serie senza che ne modifichi la struttura della

correlazione;

2. Se necessitiamo di una trasformazione stabilizzante della varianza essa va fatta

prima di qualsiasi analisi e della differenziazione;

3. Frequentemente la trasformazione non implica solo la stabilizzazione della

varianza, ma migliora anche l'approssimazione della distribuzione a una

distribuzione normale.

35

Capitolo 3: Analisi delle serie temporale con R

In questo capitolo ci occuperemo di analizzare una serie temporale utilizzando i modelli

teorici affrontati nei capitoli precedenti mediante un software. In primo luogo illustreremo

una serie di passi per poter modellare in maniera efficace e quanto più possibile precisa

una serie temporale . Segue una breve introduzione al software che verrà utilizzato, infine

ci sarà un esempio pratico di analisi di una serie temporale.

3.1 Identificazione del modello di una serie temporale.

L'analisi statistica delle serie temporali oggi si realizza mediante software specifici,

soprattutto in campo dell'economia e della finanza. Tale analisi, seppur ampiamente

automatizzata, è basata sui concetti teorici illustrati finora. Un obbiettivo molto importante

di ciò è quello di identificare quale tipologia circa la nostra serie da analizzare per poi

poterne fare delle previsioni secondo strumenti appositi. Noi ci limiteremo ad analizzare

quali sono le caratteristiche di una serie temporale e, successivamente, identificarne qual è

il modello che più si adatta al fenomeno preso in analisi. Tale obbiettivo è composto da

una serie di passi ben definiti che ci portano a poter identificare il modello più adatto tra

quelli visti nel capitolo 2 cercando di capire quali sono le caratteristiche della funzione di

autocorrelazione e della funzione di autocorrelazione parziale.

Passo1: Eseguire il grafico che descrive la serie temporale ed effettuare eventuali

trasformazioni. Generalmente della nostra serie disponiamo soltanto di una serie di dati in

forma testuale o tabellare che ci il fenomeno che dà luogo alla nostra serie in analisi.

Questo insieme di dati, detto data set , vanno riportati su un diagramma cartesiano (in

gergo si dice plottare il data set) e sono rappresentati da una curva, generalmente una

linea spezzata. Dall'andamento della curva così ottenuta possiamo vedere graficamente se

essa presenta dei trend specifici, stagionalità, varianze non costanti e altre caratteristiche

che possono descrivere fenomeni non stazionari e/o non normali. Nel caso in cui sia

evidente una non stazionarietà della media e/o della varianza, è opportuno effettuare prima

delle trasformazioni, come visto nel paragrafo 2.2.3, e successivamente delle

36

differenziazioni per stabilizzare i parametri non stazionari. Dopo di che si passa allo step

successivo.

Passo2:Analisi delle funzioni di autocorrelazione ed autocorrelazione parziale della serie

originale. Da quanto visto precedentemente nel secondo capitolo ogni modello ha una

propria caratteristica delle funzioni di autocorrelazione e autocorrelazione parziale.

Dall'andamento di tali funzioni della serie originale possiamo vedere se necessita di

ulteriori differenziazioni seguendo queste regole:

• Se la ACF decade molto lentamente e la PACF smorza dopo il ritardo 1 allora

necessitiamo di ulteriori differenziazioni.

• In generale per avere un buon livello di non stazionarietà necessitiamo di un livello

molto alto di differenziazione.

Passo3: Analisi della ACF e della PACF della serie trasformata e differenziata

propriamente. Lo scopo dell'analisi delle serie temporali è quello di identificare l'ordine più

appropriato della parte autoregressiva e a media mobile che le compongono. Ciò possiamo

farlo analizzando i grafici della ACF e della PACF della serie trasformata e differenziata

precedentemente e vedendo qual è il loro andamento secondo i principi illustrati nel

capitolo precedente, riassunti nello schema seguente:

Processo ACF PACF

AR(p) Decresce esponenzialmente oha un andamento sinusoidale

Taglia via i valori dopo ilritardo p

MA(q) Taglia via i valori dopo ilritardo q

Decresce esponenzialmente oha un andamento sinusoidale

ARMA(p,q) Decresce dopo il ritardo (p-q) Decresce dopo il ritardo (p-q)

Passo4: Identificare il valore del trend θ0 . Come abbiamo discusso nel capitolo

precedente, il modello ARIMA(p,d,q) è descritto dalla relazione

ϕ(B)(1−B)d Z t=θ0+θ( B)a t . Il termine di trend deterministico θ0 generalmente viene

omesso, in modo da essere in grado di capire quali sono i cambiamenti aleatori, il trend e le

pendenze della serie presa in considerazione. Nel caso in cui abbiamo un motivo per

credere che questo termine sia incluso nella serie, possiamo comparare la media

campionaria della serie differenziata con il suo errore standard approssimato.

37

3.2 Il software R

I software che andremo ad utilizzare per effettuare l'analisi del paragrafo successivo è R.

Esso è un software libero specifico per l'analisi statistica dei dati e per la realizzazione di

grafici, distribuito con la licenza GNU GPL ed è disponibile per numerosi sistemi operativi

quali Unix, GNU/Linux, Mac OS X e Windows. Il suo linguaggio è orientato agli oggetti

che deriva dal linguaggio S distribuito con una licenza non open source sviluppato presso i

Bell Laboratories.

Questo software è caratterizzato da un'ampia gamma di moduli distribuiti con licenza GPL

e organizzati su un apposito sito chiamato CRAN5 (Comprehensive R Archieve Network).

Tramite tali moduli è possibile estendere le funzionalità di questo software come, ad

esempio, oltre alle numerose funzioni statistiche, è possibile effettuare collegamenti a

database o con sistemi GIS (Global Information Systems).

L'interfaccia di questo software,come mostrato in Figura 1, è molto semplice e intuitiva,

nella parte alta abbiamo tipici bottoni per alcune operazioni comuni, come ad esempio

copiare o incollare un testo, interrompere una computazione e stampare i risultati ottenuti.

La parte centrale è formata da una sotto finestra che fa da console dove è possibile scrivere

ed eseguire le funzioni per effettuare operazioni e creare grafici. Inoltre il software è

predisposto per l'installazione e l'aggiornamento di ulteriori pacchetti sia in locale che

tramite la rete Internet che ne estendono le funzionalità.

5 Sito web: https://cran.r-project.org/38

Figura 1: Interfaccia di R

Una delle prerogative di R è quello di poter scrivere dei script che possono essere eseguiti

tramite console che possono essere creati dall'utente o possono essere scaricati tramite il

web sul sito di CRAN. Inoltre R permette,oltre a un'ampia gamma di data set che già

dispone, di importare da altri file di estensione diversa i data set da analizzare secondo

appositi comandi.

La versione che è stata utilizzata per l'analisi del capitolo successivo è la 3.2.4 del 3 marzo

2016 per Windows scaricata dal sito ufficiale di CRAN.

3.3 Esempio di analisi di una serie temporale con R

Il data set che andremo ad analizzare di seguito è già disponibile all'interno di R. Esso

descrive il numero di utenti che sono connessi in un server in un intervallo di 100 minuti

con una frequenza di una campione ogni minuto. L'origine di questo data set è data dalla

seguente pubblicazione “Durbin, J. and Koopman, S. J. (2001) Time Series Analysis by

State Space Methods. Oxford University Press “ con riferimenti anche in “Makridakis, S.,

Wheelwright, S. C. and Hyndman, R. J. (1998) Forecasting: Methods and Applications.

Wiley.”6 .

Per procedere all'analisi della serie presa in considerazione bisogna importare il data set nel

workspace di R eseguendo il comando:

data(WWWusage)

Questo comando ci permette di importare nel workspace il data set che vogliamo

analizzare, quello preso in considerazione è disponibile sotto il nome di “WWWusage”.

Ora necessitiamo di visualizzare l'entità del data set per farci un'idea di cosa andremo ad

analizzare. Scrivendo sulla console il seguente comando specifico:

WWWusage7

Come possiamo vedere in console vi sono presenti tutte le informazioni del nostro data set.

In particolare possiamo notare che la nostra serie temporale parte dall'istante 1 fino

all'istante 100 con una frequenza di 1 campione a istante. La serie temporale presa in

analisi, quindi, è composta da un vettore di 100 elementi come mostrato nella Tabella 1.

6 Tutte le informazioni sul data set sono disponibili all'indirizzo https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/WWWusage.html

7 Il comando “WWWusage” è specifico per il data set che stimo analizzando, per poter visualizzare un data set diverso basta importarlo e successivamente scrivere il nome in console.

39

In riferimento al paragrafo 3.1 possiamo, ora, eseguire il grafico della nostra serie con il

comando seguente:

plot(WWWusage, xlab="Minuti",ylab="Numero di accessi")

Questo comando è specifico per plottare, ovvero rappresentare i dati su un diagramma

cartesiano, la serie in analisi, in particolare i valori xlab="Minuti" e ylab="Numero di

accessi" sono specifici per rinominare gli assi cartesiani. In Figura 2 possiamo notare

l'andamento della serie.

istante 1 2 3 4 5 6 7 8 9 10

valore 88 84 85 85 84 85 83 85 88 89

istante 11 12 13 14 15 16 17 18 19 20

valore 91 99 104 112 126 138 146 151 150 148

istante 21 22 23 24 25 26 27 28 29 30

valore 148 149 143 132 131 139 147 150 148 145

istante 31 32 33 34 35 36 37 38 39 40

valore 140 134 131 131 129 126 126 132 137 140

istante 41 42 43 44 45 46 47 48 49 50

valore 142 150 159 167 170 171 172 172 174 175

istante 51 52 53 54 55 56 57 58 59 60

valore 172 172 174 174 169 165 156 142 131 121

istante 61 62 63 64 65 66 67 68 69 70

valore 112 104 102 99 99 95 88 84 84 87

istante 71 72 73 74 75 76 77 78 79 80

valore 89 88 85 86 89 91 91 94 101 110

istante 81 82 83 84 85 86 87 88 89 90

valore 121 135 145 14 156 165 171 175 177 182

istante 91 92 93 94 95 96 97 98 99 100

valore 193 204 208 210 215 222 228 226 222 220

Tabella 1: Data set WWWusage

Analizzando il grafico possiamo notare che la serie presa in analisi possiamo ipotizzare che

essa risulti stazionaria, ovvero ha sia media che varianza costanti. Possiamo verificare la

40

nostra ipotesi calcolando media e varianza. Con il comando mean(WWWusage) possiamo

calcolare la media produciamo il seguente risultato:

[1] 137.08

Analogamente con il comando sum((WWWusage - mean(WWWusage))^2)/100 possiamo

calcolare la varianza producendo il seguente risultato:

[1] 1583.954

Come possiamo notare dai risultati ottenuti la serie risulta stazionaria poiché sia la media

che la varianza hanno un unico valore, quindi sono costanti. Per poter confermare che la

serie risulti stabile come definito, possiamo verificare delle proprietà, in particolare il

valore della funzione di autocorrelazione di una serie temporale all'istante zero risulta

unitario, e il valore della funzione di autocovarianza all'istante zero è uguale alla varianza,

ovvero γ0=Var (Z t) e ρ0=1 .

41Figura 2: Grafico della serie WWWusage

Possiamo verificare queste proprietà calcolando i valori della funzione di autocorrelazione

tramite la funzione acf(WWWusage,plot='FALSE'). La funzione acf() calcola i valori della

funzione di autocorrelazione e li riporta su un diagramma cartesiano Notiamo che tra i

valori passati nella funzione abbiamo in particolare plot='FALSE', ciò è necessario poiché

ora necessitiamo soltanto dei valori di tale funzione come riportato nella Tabella 2.

istante 0 1 2 3 4 5 6 7 8 9

valore 1,000 0,960 0,901 0,829 0,746 0,57 0,565 0,469 0,371 0,274

istante 10 11 12 13 14 15 16 17 18 19

valore 0,181 0,091 0,002 -0,085 -0167 -0,239 -0,299 -0,350 -0393 -0,425

istante 20

valore -0,443

Tabella 2: valori della ACF della serie temporale

Analogamente con il comando acf(WWWusage,type="covariance",plot="FALSE")8

possiamo calcolare i valori della funzione di autocovarianza. I risultati sono illustrati nella

Tabella 3.

istante 0 1 2 3 4 5 6 7 8 9

valore 1583,95 1520,88 1427,36 1312,70 1181,61 1041,04 894,49 742,18 857,45 434,29

istante 10 11 12 13 14 15 16 17 18 19

valore 286,46 143,39 3,38 -134,91 -264,61 -378,39 -473,66 -554,03 -622,05 -672,81

istante 20

valore -701,46

Tabella 3: Valori della funzione di autocovarianza

Come possiamo notare dalle tabelle abbiamo che γ0=Var (Z t) e ρ0=1 , inoltre notiamo

dalle tabelle che ∣γk∣⩽γ0 e ∣ρk∣⩽1 ; . Le altre proprietà mostrate nel paragrafo 1.1 possono

essere dimostrate analiticamente. Da tali risultati possiamo confermare che la serie risulta

sicuramente stazionaria. Per completezza calcoliamo i valori della PACF con il comando

pacf(WWWusage,plot='FALSE'). Il risultato è illustrato nella Tabella 4.

8 Il valore passato nella funzione type=”covariance” ci permette di dire al programma che ciò che vogliamo calcolare sono i valori della funzione di autocovarianza

42

istante 1 2 3 4 5 6 7 8 9 10

valore 0,960 -0,267 -0,154 -0,120 -0,072 -0,065 -0,084 -0,065 -0,046 -0,030

istante 11 12 13 14 15 16 17 18 19 20

valore -0,055 -0,080 -0,094 -0,030 0,019 0,017 -0,032 -0,050 0,011 0,053

Tabella 4: Valori della PACF della serie temporale

Dato che la serie è stazionaria, non è necessario effettuare eventuali trasformazioni e

differenziazioni, quindi passiamo al passo successivo, ovvero studiare l'andamento della

funzione di autocorrelazione e della funzione di autocorrelazione parziale. Con il comando

acf(WWWusage) possiamo vedere il grafico della ACF mostrato in Figura 3.

Come possiamo notare la ACF ha un decadimento di tipo esponenziale, quindi possiamo

ipotizzare che la serie può essere modellata come un processo autoregressivo, in

particolare non abbiamo andamenti sinusoidali quindi probabilmente sarà del primo ordine.

43

Figura 3: ACF della serie temporale

Per confermare questa ipotesi vediamo il grafico della PACF con i comando

pacf(WWWusage). Il risultato è mostrato nella Figura 4.

Notiamo che la PACF ha un unico picco all'istante 1, mentre agli istanti successivi i valori

sono tutti smorzati. Dall'analisi condotta fin'ora quindi possiamo essere certi che la serie

analizzata si tratta di un processo autoregressivo del primo ordine AR(1) poiché ha media e

varianza costanti, la funzione di autocorrelazione decade in maniera esponenziale e la

funzione di autocorrelazione parziale ha un unico picco all'istante 1. Quindi la relazione

che lo descrive è:

(1−ϕ B)(Z t−μ)=at

I passi 3 e 4 illustrati nel paragrafo 3.1 sono superflui poiché non abbiamo effettuato

alcuna trasformazione o differenziazione. Quindi l'unica cosa che ci rimane da fare è

44

Figura 4: PACF della serie temporale

calcolare il valore della componente autoregressiva φ. In questa operazione il software R ci

fornisce di un'importante funzionalità che ci permette di calcolare i valori delle varie

componenti che compongono la serie temporale che stiamo analizzando utilizzando la

funzione arima(WWWusage,order=c(1,0,0)). Il parametro order=c(1,0,0) indica che

vogliamo che calcoli le componenti di un processo AR(1) utilizzando il data set indicato

(in questo caso WWWusage). Il risultato è che il valore di φ ϕ=0,9953 con un errore

standard di circa il 6%.

Il risultato finale è che la nostra serie temporale è descritta dalla relazione:

(1−0,9953 ⋅B)(Z t−137,08)=at .

45

Conclusioni

In questo lavoro sono stati descritti i concetti basilari per poter poter analizzare una serie

temporale tramite strumenti statistici e matematici.

Nel primo capitolo sono introdotti i processi aleatori, definendo una serie temporale come

una realizzazione di un processo aleatorio, ovvero un insieme di variabile aleatorie che

dipendono dal tempo. Successivamente si è introdotto quali sono i parametri che

caratterizzano un processo aleatorio, e quindi una serie temporale, soffermandosi

particolarmente sulle funzioni di media, varianza, covarianza e correlazione, la loro forma

e le loro proprietà. Segue un excursus sul concetto di stabilità, sulle varie tipologie e

relativi ordini, attraverso la descrizione della forma delle funzioni sopracitate, e cosa

intenderemo quando parleremo di stabilità nei capitoli successivi. È riportato inoltre un

breve inciso sui processi Gaussiani e rumore bianco, descrivendone le proprietà e

successivamente vengono definite le funzioni di autocovarianza, autocorrelazione e

autocorrelazione parziale. Dopo di che si parla delle stime delle medie, autocovarianze e

autocorrelazioni, poiché non è sempre disponibile l'insieme di tutte le realizzazioni che può

avere una serie temporale. Infine si è affrontato il discorso delle rappresentazioni che può

avere una serie temporale, ovvero quella a media mobile e autoregressiva, soffermandoci

sul significato di invertibilità e stabilità.

Nel secondo capitolo si è affrontato il discorso sui modelli delle serie temporali facendo

una distinzione tra i modelli stazionari e non stazionari. Come si è visto il modello

stazionario principale è l' ARMA(p,q), ovvero modello auto regressivo di ordine p e a

media mobile di ordine q, qual è l'equazione che la descrive e la forma che assumono i

parametri di caratterizzazione, soffermandosi nei casi specifici se si ha un processo che ha

solo la componente autoregressiva di ordine 1, 2 o p , quindi ha media e varianza costante,

funzione di autocorrelazione che decade esponenzialmente o ha un andamento sinusoidale,

a seconda del grado e del valore delle soluzioni del polinomio che la descrive,e la funzione

di autocorrelazione parziale che taglia i valori dopo un certo istante p che corrisponde

all'ordine del modello autoregressivo; analogamente ci si è soffermati sul modello a media

mobile di ordine 1, 2 e q, che ha sempre media e varianza costanti e,contrariamente al

modello autoregressivo, si è visto che ha la funzione di autocorrelazione che taglia via i

valori dopo l'istante q, che coincide all'ordine del modello, e la funzione di

46

autocorrelazione parziale che ha un decadimento esponenziale o un andamento sinusoidale,

a seconda del numero e dal valore delle radici del polinomio che lo rappresenta. Dopo di

che si sono viste varie tipologie di non stazionarietà, ovvero quando la media non risulta

costante, quindi se la media ha un trend lineare, ovvero può essere descritta da un

polinomio, basta utilizzare il modello delle periodicità nascoste, se invece assume un trend

aleatorio, ovvero il polinomio che descrive la serie temporale presa in analisi ha radici che

giacciono all'interno della circonferenza di raggio unitario, bisogna incorrere alla

differenziazione. Successivamente si è descritto il modello autoregressivo integrato a

media mobile di ordine p d e q, definendo il termine di trend deterministico che può essere

omesso se risulta necessario, focalizzandoci sui casi particolari del modello random walk,

ovvero ARIMA (0,1,0) ,e IMA(1,1). Infine si è descritto la non stazionarietà della varianza

e dell'autocovarianza, e della soluzione della funzione di trasformazione quando si

presentano.

Nel terzo capitolo si è affrontato un esempio pratico che utilizza i principi illustrati nei

capitoli precedenti, in particolare nella prima parte si è descritto una sequenza di passi che

ci permette di identificare in maniera precisa qual è il modello più adatto che descrive il

fenomeno che stiamo analizzando, nella seconda parte, invece, vi è un'introduzione al

software che viene utilizzato nell'analisi della serie temporale, ovvero R, un programma

open source che utilizza un linguaggio orientato ad oggetti, derivato dal linguaggio S con

licenza non open source. Infine si è analizzato una serie temporale che descrive il numero

di accessi di un server su Internet nell'intervallo temporale di 100 minuti con frequenza di

misurazione di un campione ogni minuto, quindi abbiamo che la nostra serie temporale è

un vettore di 100 elementi. Studiando quindi l'andamento della serie si è ipotizzato che

essa risulta stazionaria. Utilizzando le funzionalità di R siamo riusciti a confermare la

nostra ipotesi, calcolandoci media, varianza, autocovarianza, autocorrelazione e

autocorrelazione parziale verificando che la funzione di autocorrelazione ha un

decadimento esponenziale e la funzione di autocorrelazione parziale taglia via i valori dopo

l'istante 1, quindi da tali risultati abbiamo stabilito che il processo può essere rappresentato

con un modello AR(1) e quindi siamo riusciti a calcolare, sempre tramite il software, quali

sono i valori delle componenti che lo descrivono.

47

Bibliografia

[1] William Wu-Shyong Wei, Time Series Analsys: an univariate and multivariate

methods,Pearson, 2006.

[2] Jonathan D. Cryer- Kung-Sik Chan, Time Series Analsys: With application in R,

Springer, 2008,

[3] The Comprehensive R Archive Network, https://cran.r-project.org,16/04/2016 alle

09:31.

[4] R: Internet Usage per minute, https://stat.ethz.ch/R-manual/R-

devel/library/datasets/html/WWWusage.html ,18/04/2016 alle 10:42.

48

Ringraziamenti

Innanzitutto vorrei ringraziare il prof. Francesco Verde, che mi ha fornito tutto il materiale

necessario per poter stilare questo elaborato.

Ringrazio anche i professori che hanno fatto parte della mia carriera universitaria che,

oltre ai corsi e agli esami, mi hanno dato molti insegnamenti riguardo il mondo

dell'ingegneria,dell'informatica e del lavoro che mi prospetterà.

Vorrei ringraziare la mia famiglia, a cui questo lavoro è dedicato, che mi ha permesso di

poter conseguire questo percorso, di far si che la passione per l'informatica possa diventare

il mio domani, insegnandomi a sempre perseverare e impegnarsi al massimo,anche se le

situazioni sono avverse, per raggiungere i propri obbiettivi.

Ringrazio i miei amici di sempre, Fabio e Melania, ormai sono come dei fratelli acquisiti

per me, che mi hanno dato sempre tutto il sostegno necessario per affrontare a testa alta

ogni avversità.

Ringrazio tutta la “combriccola”, abbiamo condiviso per tanti anni molte tappe dei nostri

percorsi, affrontando alti e bassi, nonostante tutto siamo sempre più uniti,come una

seconda famiglia.

Ringrazio tutti i miei colleghi universitari, in particolare Fabiana, dove abbiamo condiviso

i corsi più impegnativi, gli esami più difficili, gli appunti più disparati e gli orari più strani

che uno studente universitario può affrontare sostenendoci l'uno con l'altro.

Ringrazio in oltre tutti i ragazzi del “Centro Polifunzionale Pier Paolo Pasolini” di

Casalnuovo di Napoli e i dipendenti comunali che la gestiscono, dove in questi anni, tra

una pausa caffè e un altro, confronti universitari, discussioni tra le più disparate, uscite e

cene mi hanno sempre sostenuto.

Infine ringrazio tutte le persone che non ci sono più e tutte le altre persone che non ho

citato che in un modo o nell'altro hanno fatto parte della mia vita in questi anni e che

hanno dato anche un piccolo contributo a quello che sono diventato.

49