Econometriapara Dummies Italiano

118
Econometria for dummies Sergio Polini 24 giugno 2010

description

Sergio Polini24 giugno 2010

Transcript of Econometriapara Dummies Italiano

  • Econometria for dummies

    Sergio Polini

    24 giugno 2010

  • Indice

    1 Introduzione 11.1 Articolazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Notazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    I Dati cross-section 5

    2 La regressione lineare 72.1 Aspettativa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Lerrore della regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3 Varianza condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.4 La regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.4.1 La regressione lineare come proiezione ortogonale . . . . . . . . . . 102.4.2 Il problema dellidentificazione . . . . . . . . . . . . . . . . . . . . 132.4.3 Il coefficiente di determinazione . . . . . . . . . . . . . . . . . . . . 142.4.4 Il modello lineare normale . . . . . . . . . . . . . . . . . . . . . . . 15

    2.5 Applicazione a campioni di ampiezza finita . . . . . . . . . . . . . . . . . 172.5.1 Valore atteso e varianza dello stimatore OLS . . . . . . . . . . . . 172.5.2 Il teorema di Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . 192.5.3 I residui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.5.4 Stima della varianza dellerrore . . . . . . . . . . . . . . . . . . . . 202.5.5 Multicollinearit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    2.6 Necessit di un approccio asintotico . . . . . . . . . . . . . . . . . . . . . 20

    3 Lipotesi di esogeneit 233.1 Limportanza dellipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 La stima dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    3.2.1 Consistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2.2 Normalit asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2.3 Stima della varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3.3 Test di ipotesi e intervalli di confidenza . . . . . . . . . . . . . . . . . . . 313.3.1 Test z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.3.2 Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . 333.3.3 Test di Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.3.4 Test F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    3.4 Il problema delle variabili omesse . . . . . . . . . . . . . . . . . . . . . . . 38

    iii

  • iv INDICE

    3.5 Il problema degli errori di misura . . . . . . . . . . . . . . . . . . . . . . . 40

    4 Le variabili strumentali 434.1 Una sola variabile strumentale . . . . . . . . . . . . . . . . . . . . . . . . 434.2 Pi variabili strumentali . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    5 Variabile risposta qualitativa 495.1 Logit e probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    II Serie storiche 51

    6 La regressione spuria 536.1 Matrimoni religiosi e mortalit . . . . . . . . . . . . . . . . . . . . . . . . 536.2 Processi stocastici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    6.2.1 Con memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546.2.2 Senza memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    6.3 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.3.1 Persistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576.3.2 Stazionariet ed ergodicit . . . . . . . . . . . . . . . . . . . . . . 576.3.3 White noise e Random walk . . . . . . . . . . . . . . . . . . . . . . 596.3.4 Cointegrazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    7 I processi ARMA 637.1 L: loperatore ritardo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.2 MA: processi a media mobile . . . . . . . . . . . . . . . . . . . . . . . . . 64

    7.2.1 Medie mobili finite . . . . . . . . . . . . . . . . . . . . . . . . . . . 647.2.2 Medie mobili infinite . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    7.3 AR: processi autoregressivi . . . . . . . . . . . . . . . . . . . . . . . . . . 667.3.1 Processi AR(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677.3.2 Processi AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    7.4 ARMA: una generalizzazione . . . . . . . . . . . . . . . . . . . . . . . . . 717.5 Inferenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    7.5.1 Consistenza e normalit asintotica . . . . . . . . . . . . . . . . . . 727.5.2 Test di radice unitaria . . . . . . . . . . . . . . . . . . . . . . . . . 747.5.3 Test di stazionariet . . . . . . . . . . . . . . . . . . . . . . . . . . 747.5.4 La scomposizione di Beveridge-Nelson . . . . . . . . . . . . . . . . 75

    8 I processi VAR 778.1 Macroeconomia e realt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.2 Condizioni di stazionariet . . . . . . . . . . . . . . . . . . . . . . . . . . . 788.3 Inferenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

    9 Cointegrazione 819.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 819.2 Modelli a correzione derrore . . . . . . . . . . . . . . . . . . . . . . . . . 829.3 Il teorema di rappresentazione di Granger . . . . . . . . . . . . . . . . . . 83

  • INDICE v

    III Appendici 85

    A Complementi di algebra lineare 87A.1 Matrici inverse e inverse generalizzate . . . . . . . . . . . . . . . . . . . . 87A.2 Matrici di proiezione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89A.3 Immagine di una matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . 91A.4 Proiezione ortogonale sullimmagine di una matrice . . . . . . . . . . . . . 94

    B Equazioni alle differenze 95B.1 Equazioni alle differenze del primo ordine . . . . . . . . . . . . . . . . . . 95B.2 Equazioni alle differenze di ordine p . . . . . . . . . . . . . . . . . . . . . 96

    C Richiami di probabilit e di statistica 103C.1 Variabili aleatorie multidimensionali . . . . . . . . . . . . . . . . . . . . . 103C.2 Aspettativa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

    C.2.1 Legge dellaspettativa totale (LTE) . . . . . . . . . . . . . . . . . . 104C.2.2 Legge della varianza totale (LTV) . . . . . . . . . . . . . . . . . . 105

    C.3 La funzione caratteristica di una variabile aleatoria . . . . . . . . . . . . . 105C.4 Successioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . 106

    C.4.1 Convergenza in distribuzione e in probabilit . . . . . . . . . . . . 106C.4.2 La legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . 107C.4.3 Il teorema del limite centrale . . . . . . . . . . . . . . . . . . . . . 108

  • Capitolo 1

    Introduzione

    Questi appunti si basano prevalentemente sulle lezioni e le dispense del corso di econo-metria del prof. Massimo Franchi (Universit di Roma La Sapienza, Facolt di Scien-ze Statistiche, a.a. 2009-2010, http://w3.uniroma1.it/mfranchi/) e sui testi da luiindicati: Jeffrey M. Wooldridge (2002), Econometric Analysis of Cross Section and Panel Data; James D. Hamilton (1994), Time Series Analysis.

    Mi sono poi avvalso di altri testi trovati navigando nella Rete. In realt, ho iniziatodando unocchiata a gretl (http://gretl.sourceforge.net/), un software open sourceper lanalisi econometrica, e al suo notevole manuale utente (Cottrell e Lucchetti 2010).Da qui agli Appunti di analisi delle serie storiche del prof. Riccardo Lucchetti (UnivestitPolitecnica delle Marche) il passo stato breve.

    Gli Appunti mi sono stati utili perch si propongono espressamente come una intro-duzione divulgativa (Lucchetti 2008, p. 69) e lobiettivo appare perfettamente raggiunto;in particolare, concetti tuttaltro che banali come persistenza e, soprattutto, ergodicitvengono introdotti con parole semplici che ne spiegano il senso, anche se non vengonodefiniti formalmente.

    Unaffermazione a pag. 5, tuttavia, ha scatenato ulteriori curiosit: In linea generale,si pu dire che linferenza possibile solo se il processo stocastico che si sta studiando stazionario ed ergodico. La ricerca di unesposizione un po pi formale, ma non. . . allivello di Hamilton, mi ha condotto al draft graduate textbook del prof. Bruce E. Hansen(2010), dellUniversit del Wisconsin.

    Il suo Econometrics contiene proprio quello che cercavo: una definizione accessibiledi ergodicit e del teorema ergodico, accompagnata dalla dimostrazione della loro neces-sit per linferenza. In realt la parte sulle serie storiche appare appena abbozzata ed dichiaratamente incompleta, ma i capitoli sulla regressione si sono rivelati una piacevolesorpresa.

    Vi un riepilogo della regressione classica che mi risultato molto utile dopo averseguito il corso di Modelli statistici della prof.ssa Cecilia Vitiello. Quel corso, infatti, eraespressamente dedicato agli studi sperimentali e al modello lineare normale con ipotesidi omoschedasticit.1 Hansen rivisita la regressione preparando il terreno allabbandono

    1I miei appunti tratti da quel corso sono in http://web.mclink.it/MC1166/ModelliStatistici/ModStat.html.

    1

  • 2 1. Introduzione

    di quellipotesi fin da pag. 15 e poi, quando giunge allapproccio asintotico, dimostra siala normalit asintotica dello stimatore OLS nel caso generale delleteroschedasticit, siala consistenza della matrice di White (che per Wooldridge solo il problema 4.4).

    1.1 Articolazione

    Dopo letture cos illuminanti, mi sembrato utile mettere insieme note prima sparse epensare perfino ad una tendenziale organicit. Ho quindi pomposamente articolato gliappunti in due parti, dati cross section e serie storiche, con lintento di aggiungere infuturo una parte sui dati panel, nonch capitoli su altri aspetti non trattati durante ilcorso.

    Il capitolo 2 riepiloga gli aspetti fondamentali della regressione lineare seguendo lim-postazione di Hansen, il capitolo 3 tratta dellipotesi di esogeneit integrando Wooldridgecon Hansen. I capitoli 4 e 5, dedicati alle variabili strumentali e al caso di variabile rispostaqualitativa, sono basati su Wooldridge ma sono ancora solo abbozzi.

    Il capitolo 6 introduce le serie storiche muovendo dal problema posto da Yule (1926) ecerca soprattutto di definire alcuni concetti chiave: persistenza stazionariet, ergodicit,integrazione e cointegrazione.

    Il capitolo 7 dedicato ai processi MA, AR e ARMA. Le condizioni di stazionariet ele relative dimostrazioni, apprese dal corso, sono diventate condizioni e dimostrazioni distazionariet ed ergodicit grazie a Hansen e Hamilton.

    Il capitolo 8 si apre con lintroduzione dei processi VAR da parte di Sims (1980): uninteressante spezzone di storia dellanalisi econometrica illustrato negli Appunti del prof.Lucchetti ed anche, con maggiore dettaglio, in altre dispense trovate in Rete (Carluccie Girardi sd). Seguono le condizioni di stazionariet e la relativa dimostrazione comeapprese nel corso ma estese anche qui allergodicit. Il capitolo si conclude con accenni aitest di radice unitaria e di stazionariet ed alla scomposizione di Beveridge-Nelson, trattianchessi dagli Appunti del prof. Lucchetti.

    Il capitolo 9 dedicato alla cointegrazione, ai modelli a correzione derrore e al teoremadi rappresentazione di Granger. piuttosto sintetico perch la lettura di Engle e Granger(1987) e di Johansen (1991) mi ha fatto pensare che, per capire meglio, occorre estenderela casistica dei processi stocastici (introducendo trend lineari, intercette ecc.) rispetto aquanto trattato nel corso.

    In sostanza, solo un work in progress e, soprattutto, riflette quanto ho creduto dipoter capire (il titolo, Econometria for dummies, autoreferenziale).

    1.2 Notazione

    In matematica si usa scrivere le variabili con lettere minuscole in corsivo (x2 = 4, x =2), i vettori e le matrici con lettere, rispettivamente, minuscole e maiuscole in neretto(Ax = b, x = A1b). In probabilit si usa scrivere le variabili aleatorie con letteremaiuscole (Z N(0, 1)), le loro realizzazioni con lettere minuscole.

    In econometria necessario esprimere sia modelli matematici che la loro interpreta-zione probabilistica. Si adotta quindi spesso una sorta di compromesso:

  • Notazione 3

    a) le lettere minuscole in corsivo indicano sempre scalari, siano essi variabili aleatorie op-pure le loro realizzazioni, essendo normalmente chiaro dal contesto a cosa ci si riferisce;in particolare: la variabile risposta compare senza indici quando ci si riferisce al modello della

    popolazione, con un indice i = 1, 2, . . . , n quando ci si riferisce alla i-esima unit delcampione estratto (dati cross-section), oppure con un indice t = 1, 2, . . . , T quandoci si riferisce allosservazione effettuata al tempo t (serie storiche);

    le variabili esplicative, quando indicate con una stessa lettera, vengono distinte me-diante un indice j = 1, 2, . . . , k; se xj una variabile esplicativa, la sua realizzazionerilevata sulli-esima unit si indica con xij ;

    b) le lettere minuscole in neretto indicano vettori; in particolare, se sono presenti kvariabili esplicative xj , j = 1, . . . , k, queste vengono collettivamente indicate con x;

    c) le lettere maiuscole in neretto indicano matrici; in particolare, le osservazioni dellerealizzazioni di k variabili esplicative xj su n unit vengono collettivamente indicatecon X, una matrice di n righe e k colonne; le righe della matrice vengono indicate conxi e intese come vettori colonna k1 (si tratta delle i-esime realizzazioni di k variabilialeatorie; in questo caso, quindi, x un vettore di variabili aleatorie, xi un vettore diloro realizzazioni);

    d) le lettere greche indicano i parametri incogniti di un modello econometrico; se in nerettoindicano vettori di parametri. Gli stimatori dei parametri vengono indicati ponendoun accento circonflesso , detto comunemente hat (cappello), sul relativo simbolooppure con la corrispondente lettera dellalfabeto latino; ad esempio si possono usaresia che b per lo stimatore del parametro .In queste note, infine, uso parentesi quadre per vettori e matrici, ma parentesi tonde

    per indicare su una sola riga vettori colonna:

    (x1, . . . , xn) [x1 . . . xn

    ]

  • 4 1. Introduzione

  • Parte I

    Dati cross-section

  • Capitolo 2

    La regressione lineare

    In econometria si usa spesso il metodo dei minimi quadrati (OLS, Ordinary Least Squa-res), noto anche come regressione, con il quale si cerca di stimare laspettativa condi-zionata di una variabile (detta variabile risposta o variabile dipendente) dato un insiemedi altri variabili (dette variabili esplicative, o regressori o covariate). In questo capito-lo si analizzano le propriet della regressione, in particolare della regressione lineare, sirichiamano gli aspetti fondamentali dellapplicazione della regressione a campioni di am-piezza finita, si conclude mostrando la necessit di un approccio asintotico nelle analisieconometriche.1

    2.1 Aspettativa condizionataSiano y una variabile risposta e x = x1, x2, . . . , xk un vettore di variabili esplicative, tuttecon momento secondo finito: E[y2]

  • 8 2. La regressione lineare

    2.2 Lerrore della regressioneLerrore u la differenza tra la variabile y e la sua aspettativa condizionata:

    u = y E[y | x]e gode delle seguenti propriet:1) E[u | x] = 0, infatti, per la linearit dellaspettativa condizionata:E[u | x] = E[(y E[y | x]) | x] = E[y | x]E[y | x] = 0

    2) E[u] = 0, infatti, per la legge dellaspettativa totale:

    E[u] = E[E[u | x]

    ]= E[0] = 0

    3) E[f(x)u] = 0 per qualsiasi funzione f(x) a valori finiti; infatti, per la legge del-laspettativa totale E[f(x)u] = E

    [E[f(x)u] | x

    ], ma dato x dato anche f(x),

    quindi:E[f(x)u] = E

    [E[f(x)u] | x

    ]= E

    [f(x)E[u] | x

    ]= E[0 | x] = 0

    analogamente per una funzione a valori vettoriali f(x);4) E[xu] = 0, caso particolare della precedente.

    Va notato E[u | x] = 0 non comporta che x e u siano indipendenti. Ad esempio, sesi avesse y = xv, con x e v indipendenti e E[v] = 1, si avrebbe anche E[y | x] = x esi potrebbe scrivere y = x + u con u = x(v 1); in questo caso u sarebbe chiaramentedipendente da x, ma si avrebbe comunque E[u | x] = 0.

    Da E[u] = 0 e E[xu] = 0 segue invece che x e u sono incorrelati:

    Cov(x, u) = E[xu]E[x]E[u] = 0

    2.3 Varianza condizionataLaspettativa condizionata fornisce una buona approssimazione della distribuzione condi-zionata di y, ma va considerata anche la dispersione di tale distribuzione, comunementemisurata dalla varianza condizionata:2

    V[y | x] = E[y2 | x]E[y | x]2

    = E[(y E[y | x])2 | x

    ]= E[u2 | x]

    2Si ha:

    E

    [(y E[y | x])2 | x

    ]= E

    [(y2 +E[y | x]2 2yE[y | x]) | x

    ]= E[y2 | x] +E

    [E[y | x]2 | x

    ] 2E

    [yE[y | x] | x

    ]= E[y2 | x] +E[y | x]2 2E

    [yE[y | x] | x

    ]poich E[y | x] una funzione di x, E

    [yE[y | x] | x

    ]= E[y | x]E[y | x]:

    = E[y2 | x] +E[y | x]2 2E[y | x]2 = E[y2 | x]E[y | x]2

  • La regressione lineare 9

    La varianza condizionata una funzione delle variabili esplicative x, ma si consideraspesso un caso particolare in cui ci non avviene. Si distingue quindi tra due diversesituazioni:a) eteroschedasticit: si tratta della situazione tipica e pi frequente nella pratica; come

    appena visto:V[y | x] = E[u2 | x] = 2(x)

    ovvero la varianza condizionata funzione di x (qui 2 denota una funzione);b) omoschedasticit: la varianza condizionata non dipende da x:V[y | x] = E[u2 | x] = E[u2] = 2

    (qui 2 un numero).Lipotesi di omoschedasticit semplifica molto alcuni aspetti della teoria, ma non si

    deve dimenticare che si tratta solo di una comoda eccezione utile sul piano astratto.Peraltro, anche assumendo eteroschedasticit possibile definire 2 come varianza

    dellerrore:E

    [(y E[y | x])2

    ]= E[u2] = 2

    intendendola come valore atteso della varianza condizionata:2 = E[u2] = E

    [E[u2 | x]

    ]= E[2(x)]

    2.4 La regressione lineareIn generale, laspettativa condizionata pu assumere qualsiasi forma funzionale. Si usacomunque spesso la forma lineare nei parametri:E[y | x] = 0 + 1x1 + 2x2 + + kxk

    dove il primo parametro, 0, viene detto intercetta. Si dice lineare nei parametri perchi parametri j compaiono tutti con esponente 1, ma nulla vieta che qualche xj sia unaqualsiasi funzione di qualche altro; ad esempio, lequazione precedente potrebbe essere inrealt:E[y | x] = 0 + 1x1 + 2x21 + + kxk1

    con xj = xj1.Quando si scrive laspettativa condizionata come funzione di un vettore, E[y | x] =

    x, si intende x come un vettore di k + 1 elementi il primo dei quali sia 1:

    E[y | x] =[1 x1 x2 . . . xk

    ]01...k

    Altre volte, in modo del tutto equivalente (forse preferibile), si intende x1 = 1 e si scrive:

    E[y | x] = 1x1 + 2x2 + + kxk = 1 + 2x2 + + kxk =[1 x2 . . . xk

    ]12...k

    intendendo x come vettore di k elementi.

  • 10 2. La regressione lineare

    2.4.1 La regressione lineare come proiezione ortogonale

    La forma lineare dellaspettativa condizionata E[y | x] semplice, ma probabilmentepoco accurata sul piano empirico, niente pi che unapprossimazione. Per migliorare laqualit dellapprossimazione si cerca di minimizzare lerrore quadratico medio (MSE,Mean Squared Error):

    S() = E[u2] = E[(y x)2]che pu essere riscritta cos:

    S() = E[y2] 2E[xy] + E[xx]

    La condizione del primo ordine per la minimizzazione :

    S()

    = 2E[xy] + 2E[xx] = 0

    da cui:E[xy] = E[xx]

    Se ora si assume che E[xx] sia una matrice a rango pieno, quindi invertibile, si ottiene:

    = E[xx]1E[xy]

    Il parametro cos definito viene detto coefficiente di regressione, o anche coefficientedi proiezione lineare. Analogamente, lerrore u = yx viene detto errore di proiezione.

    Il motivo per cui si parla di proiezione risulta pi chiaro se si passa alla stima di .Una volta definito un modello quale y = 1 + 2x2 + + kxk + u, si osservano i valoridi y e di x su n unit e si ottengono n osservazioni del tipo:

    yi = 1 + 2xi2 + + kxik + ui yi = xi + ui

    In forma matriciale:y = X + u

    dove: y un vettore n 1 contenente le n osservazioni della variabile risposta; X una matrice n k contenente in ciascuna riga le k osservazioni delle variabili

    esplicative sullunit i-esima; la prima colonna costituita da tutti 1; xi il vettore colonna della i-esima riga della matrice X; un vettore k1 contenente i parametri (i coefficienti di regressione o di proiezione); u un vettore n 1.

    Lerrore quadratico medio da minimizzare diventa:

    Sn() =1n

    ni=1

    (yi xi)2

    dove le differenze yi xi vengono dette residui e spesso indicate con ei.

  • La regressione lineare 11

    Essendo n dato, si tratta di minimizzare la somma dei quadrati dei residui RSSn() =ni=1 e

    2i =

    ni=1(yi xi)2 (Residual Sum of Squares) e si ha:

    RSSn() =ni=1

    (yi xi)2 = (yX)(yX) = yy 2yX + XX

    RSSn()

    = 2Xy + 2XX = 0 Xy = XX

    Se XX risulta, oltre che simmetrica, anche invertibile, si ottiene b come stima di da:

    b = (XX)1Xy =(

    ni=1

    xixi

    )1( ni=1

    xiyi)

    =(

    1n

    ni=1

    xixi

    )1( 1n

    ni=1

    xiyi)

    In sostanza, si stimano i momenti di popolazione E[xx] e E[xy] con le rispettive mediecampionarie.

    questo il metodo dei minimi quadrati, detto anche OLS (Ordinary Least Squares).Lo stimatore cos ottenuto viene quindi detto stimatore OLS.

    Laspettativa condizionata E[y | x] viene stimata day = Xb = X(XX)1Xy = Hy

    La matrice H = X(XX)1X risulta simmetrica (in quanto prodotto di matrici con leloro trasposte) e idempotente, in quanto:

    H2 = X(XX)1XX(XX)1X = X[(XX)1(XX)](XX)1X

    = XI(XX)1X = XI(XX)1X = H

    quindi una matrice di proiezione ortogonale di rango k che proietta y sullo spaziogenerato dalle colonne di X (cfr. lappendice A).

    I residui e, a loro volta, sono dati da:

    e = y y = yHy = (IH)ydove IH una matrice di rango nk, anchessa simmetrica e idempotente, che proiettay in uno spazio che il complemento ortogonale di quello generato dalle colonne di X.La lunghezza del vettore e misura quindi la distanza tra y e la sua proiezione ortogonaley (v. figura 2.1).

    Analogamente a quanto si ha per lerrore, anche i residui hanno media nulla e sonoincorrelati con le variabili esplicative. Infatti:

    E[e | X] = E[y | X]E[Xb | X] = E[y | X]E[(X(XX)1Xy) | X]= E[y | X]X(XX)1XE[y | X]= XbX[(XX)1(XX)]b = XbXb = 0

    Da ci seguono E[e] = 0 e E[Xe] = 0, quindi anche:

    Cov(X, e) = E[Xe]E[X]E[e] = 0che un altro modo di esprimere il fatto che, da un punto di vista geometrico, il vettoree ortogonale al piano generato dalle colonne di X.

  • 12 2. La regressione lineare

    Esempio 2.1. Sia y una variabile che si ritiene spiegata da una sola variabile esplicativa.Siano x = (1, 2, 3) e y = (2.9, 5.2, 6.9) i valori osservati su tre unit. Si ha:

    y = X + u

    2.95.26.9

    =1 11 21 3

    [12

    ]+ u

    La stima di porta a:

    b = (XX)1Xy =

    [1 1 11 2 3]1 11 2

    1 3

    1 [

    1 1 11 2 3

    ]2.95.26.9

    = [b1 = 1b2 = 2

    ]

    Oppure, con R:

    > x y reg coef(reg)(Intercept) x

    1 2

    Ne seguono le stime y dellaspettativa condizionata, dette valori teorici o valori predetti,e i residui (che hanno media 0):

    y1 = b1 + b2x12 = 1 + 2 1 = 3y2 = b1 + b2x22 = 1 + 2 2 = 5y3 = b1 + b2x32 = 1 + 2 3 = 7

    e1 = y1 y1 = 2.9 3 = 0.1e2 = y2 y2 = 5.2 5 = 0.2e3 = y3 y3 = 6.9 7 = 0.1

    Con R:

    > predict(reg)1 2 33 5 7> residuals(reg)

    1 2 3-0.1 0.2 -0.1

    La matrice H :

    H = X(XX)1X =

    5/6 1/3 1/61/3 1/3 1/31/6 1/3 5/6

    Lo spazio su cui y viene proiettato limmagine della matrice H, ovvero lo spazio generatodalle sue colonne linearmente indipendenti. Dato che H risulta dal prodotto di matricidi rango 2 e delle loro trasposte, ha anchessa rango 2. Essendo peraltro simmetrica, possibile e conveniente diagonalizzarla, pervenendo a H = MM1: 5/6 1/3 1/61/3 1/3 1/3

    1/6 1/3 5/6

    =2 1 11 0 20 1 1

    1 0 00 1 00 0 0

    2 1 11 0 20 1 1

    1

  • La regressione lineare 13

    y = (2.9, 5.2, 6.9)

    e = (0.1, 0.2,0.1)

    (2, 1, 0)

    (1, 0, 1)

    (1,2, 1)

    y = (3, 5, 7)

    Figura 2.1. La regressione lineare come proiezione ortogonale.

    Si ottengono cos tre autovettori (le colonne di M), i primi due dei quali, essendo nonnulli i relativi autovalori, costituiscono una base dellimmagine. Si nota anche che il terzoautovettore (una base del kernel) ortogonale ai primi due, che generano il piano cuiappartiene il vettore y: 35

    7

    = 5210

    + 710

    1

    I residui appartengono invece allo spazio immagine della matrice IH; diagonalizzando: 1/6 1/3 1/61/3 2/3 1/3

    1/6 1/3 1/6

    = 1 2 12 1 0

    1 0 1

    1 0 00 0 00 0 0

    1 2 12 1 0

    1 0 1

    1

    si ritrovano gli stessi autovettori, ma ora c un solo autovalore non nullo e il relativoautovettore, che costituisce una base dellimmagine, ortogonale agli altri due. Si vedecos che il vettore dei residui, (0.1, 0.2,0.1) = 110(1,2, 1), appartiene ad uno spazioad una dimensione ortogonale a quello cui appartiene il vettore delle stime (v.figura 2.1).

    2.4.2 Il problema dellidentificazioneSi dice che il vettore identificato quando univocamente determinato. Il problemadellidentificazione, nel caso della regressione lineare, si riduce al rango della matrice kkE[xx]: se la matrice a rango pieno, lequazione

    E[xy] = E[xx]

    ha ununica soluzione, si possono cio trovare valori univoci per i k parametri j .In caso contrario, lequazione ha infinite soluzioni. Si pu trovare una soluzione usando

    la pseudoinversa di Moore-Penrose (v. appendice A):

    = E[xx]+E[xy]

    ma risulta cos identificata solo laspettativa condizionata E[y | x] = x, non anche isingoli elementi di .

  • 14 2. La regressione lineare

    2.4.3 Il coefficiente di determinazioneI dati osservati nel vettore y presentano una variabilit che si tenta di spiegare con lasua proiezione x sul piano generato dalle colonne della matrice X. In tale contesto, unamisura tipica della variabilit costituita dalla somma dei quadrati degli scarti tra i singolivalori di y e la loro media aritmetica y, che viene detta TSS (Total Sum of Squares).Analogamente, viene detta ESS (Explained Sum of Squares) la somma degli scarti degliyi dalla media y. Si verifica facilmente che:

    TSS = ESS +RSS

    ovvero:ni=1

    (yi y)2 =ni=1

    (yi y)2 +ni=1

    (yi yi)2

    Si dice anche che la devianza totale uguale alla somma della devianza spiegata e delladevianza residua.

    Si usa calcolare la bont delladattamento della funzione di regressione ai dati median-te il rapporto tra devianza spiegata e devianza totale, detto coefficiente di determinazionemultipla e indicato con R2:

    R2 = ESSTSS

    = 1 RSSTSS

    0 R2 1

    Si considera ladattamento tanto migliore quanto pi R2 si avvicina a 1.In realt R2 aumenta con laumentare del numero delle variabili esplicative. Per tenere

    conto di ci, Henri Theil propose un R2 corretto:

    R2 = 1 RSS/(n k)

    TSS/(n 1)dove n k sono i gradi di libert della devianza residua (n e k sono le dimensioni dellamatrice mX) e n 1 quelli della devianza totale.

    Si deve inoltre tenere presente che non esiste alcuna legge che stabilisca unasso-ciazione tra il valore dei coefficienti di determinazione e la bont di una regressione,e che anche in caso di valori piccoli possibile una stima accurata dei coefficienti diregressione se lampiezza del campione grande.

    Esempio 2.2. Usando la semplice regressione dellesempio precedente:

    TSS = (2.9 5)2 + (5.2 5)2 + (6.9 5)2 = 4.41 + 0.04 + 3.61 = 8.06ESS = (3 5)2 + (5 5)2 + (7 5)2 = 4 + 0 + 4 = 8RSS = (2.9 3)2 + (5.2 5)2 + (6.9 7)2 = 0.01 + 0.04 + 0.01 = 0.06R2 = 8/8.06 = 0.9926

    R2 = 1 0.06/(3 2)

    TSS/(3 1) = 0.9851

    La figura 2.2 mostra loutput del comando summary() di R, con i coefficienti R2 e R2

    insieme ad altri risultati che verranno commentati nella sezione successiva.

  • La regressione lineare 15

    > summary(reg)

    Call:lm(formula = y ~ x)

    Residuals:1 2 3

    -0.1 0.2 -0.1

    Coefficients:Estimate Std. Error t value Pr(>|t|)

    (Intercept) 1.0000 0.3742 2.673 0.228x 2.0000 0.1732 11.547 0.055 .---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

    Residual standard error: 0.2449 on 1 degrees of freedomMultiple R-squared: 0.9926,Adjusted R-squared: 0.9851F-statistic: 133.3 on 1 and 1 DF, p-value: 0.055

    Figura 2.2. Output del comando summary() di R per una semplice regressione di y = (2.9, 5.2, 6.9) sux = (1, 2, 3).

    2.4.4 Il modello lineare normaleNegli studi sperimentali molto spesso lerrore viene indicato con e si assume che siadistribuito normalmente; poich x il prodotto di un vettore di dati osservati e di pa-rametri, ne segue che anche y una variabile aleatoria normale, in quanto trasformazionelineare di una variabile aleatoria normale.

    Lipotesi di normalit comporta anche che, se y e sono incorrelati, sono ancheindipendenti; da ci segue naturalmente lipotesi di omoschedasticit:{

    y = x + N(0, 2)

    {E[y | x] = xV[y | x] = E[2 | x] = E[2] = 2 y N(x

    , 2)

    In econometria lipotesi di normalit non appare utile, in quanto i dati economiciben difficilmente presentano distribuzioni normali. Si pu comunque notare che, data lafunzione di densit:

    f(y) =( 1

    2pi2

    )nexp

    { 122 (yX)

    (yX)}

    la funzione di log-verosimiglianza :

    `(, 2) = n2 ln(2pi)n

    2 ln 2 (yX)

    (yX)22

    Si vede che `(, 2), per qualsiasi valore di 2, massimizzata dai valori di che mi-nimizzano il numeratore dellultimo termine, che a sua volta altro non che la quantitRSSn(), minimizzata da bML = (XX)1Xy. Il metodo di massima verosimiglianzaporta dunque ad uno stimatore uguale a quello OLS.

  • 16 2. La regressione lineare

    Lipotesi di normalit consente di definire test per la verifica di ipotesi sia sulla stimadei singoli coefficienti di regressione, sia sullintera funzione di regressione.

    Quanto alla stima di un singolo coefficiente, da b = (XX)1Xy e da V[y | x] = 2segue:

    E[b] = (XX)1XE[y] = (XX)1XX = Cov(b) = (XX)1X2X(XX)1 = 2(XX)1

    Indicando con aii li-esimo elemento della diagonale principale della matrice (XX)1:

    E[bi] = i, V[bi] = 2aii ovvero: bi N(1, 2aii)

    Sotto ipotesi nulla i = 0, si pu definire la variabile normale standardbi 02aii

    . Poich

    2 non nota, si pu sostituire con una stima data dalla devianza residua divisa per isuoi gradi di libert, ottenendo cos la statistica test:

    t = biRSS

    n kaii tnk

    che distribuita come una t di Student. Il denominatoreRSS

    n kaii viene detto errorestandard (standard error).

    Quanto allintero modello ci si avvale del teorema di Cochran, che pu essere formulatocome segue:

    Teorema 2.3 (Cochran). Se n osservazioni yi provengono dalla stessa distribuzionenormale con media e varianza 2, se la devianza totale TSS scomposta nella sommadi una devianza spiegata ESS con k 1 gradi di libert e di una devianza residua RSScon nk gradi di libert, allora ESS/2 e RSS/2 si distribuiscono come 2 indipendenticon gradi di libert, rispettivamente, k 1 e n k:

    ESS

    2 2k1

    RSS

    2 2nk

    Lipotesi nulla consiste nel supporre pari a zero tutti i coefficienti tranne lintercetta(in due dimensioni, retta di regressione orizzontale). Ci vuol dire ipotizzare che tutti gliyi siano uguali allintercetta e che abbiano pertanto la stessa media, oltre che la stessavarianza. Si pu quindi costruire la statistica test:

    F =ESS

    2/(k 1)

    RSS

    2/(n k)

    =

    ESS

    k 1RSS

    n k Fk1,nk

    che si distribuisce come una F di Snedecor.I software statistici propongono sempre i risultati dei test t e F (v. esempio 2.2).

    Tuttavia, se non si assume normalit i test devono essere diversamente fondati.

  • Applicazione a campioni di ampiezza finita 17

    2.5 Applicazione a campioni di ampiezza finitaLa regressione lineare tradizionalmente applicata a campioni di ampiezza finita. Conci si intende che, data una popolazione, si assume che si possano estrarre da essa picampioni di ampiezza n e si considerano le possibilit di inferenza sui parametri del-la popolazione per n dato. In econometria, per i motivi che si vedranno, si preferisceun approccio asintotico: si cerca di inferire i parametri della popolazione sulla base diun campione di ampiezza n . comunque opportuno approfondire alcuni aspettidellapproccio tradizionale.

    Gli assunti di partenza sono:1) indipendenza e identica distribuzione: possibilit di estrarre campioni casuali conte-

    nenti n osservazioni yi,xi;2) linearit: esistenza di una relazione lineare del tipo

    yi = xi + ui

    3) attesa condizionata nulla dellerrore:

    E[ui | xi] = 0

    4) momenti secondi finiti per tutte le variabili:

    E[y2i ]

  • 18 2. La regressione lineare

    Quanto alla varianza, in generale per un vettore n 1 di variabili aleatorie z si ha:V[z] = E

    [(zE[z])(zE[z])

    ]= E[zz]E[z]E[z]

    che una matrice n n. La varianza condizionata rispetto ad una matrice X invece:V[z | X] = E

    [(zE[z | X])(zE[z | X]) | X

    ]Poich E[u | X] = 0, la matrice di varianza e covarianza condizionate del vettore u

    una matrice diagonale n n:D = E[uu | X]

    Si tratta di una matrice diagonale in quanto gli elementi della diagonale prinicipale sono:

    E[u2i | X] = E[u2i | xi] = 2imentre gli altri sono, per lipotesi di indipendenza:

    E[uiuj | X] = E[ui | xi]E[uj | xj ] = 0Se si assume omoschedasticit, D = 2In.

    Poich V[y | X] = E[uu | X] (cfr. sez. 2.3), la matrice D anche la matrice divarianza e covarianza di y.

    Se una variabile aleatoria v data dal prodotto di unaltra v.a. z per una matrice A,allora V[v] = AV[z]A. Nel caso dello stimatore b = (XX)1Xy, si ha:

    V[b | X] = (XX)1XDX(XX)1

    utile notare che:3

    XX =ni=1

    xixi XDX =ni=1

    xixi2i

    in particolare, XDX una versione ponderata di XX. Se poi si assume omoschedasticit,XDX diventa XX2.

    3Se X =

    [a bc de f

    ], allora XX =

    [a c eb d f

    ][a bc de f

    ]=[a2 + c2 + e2 ab+ cd+ efab+ cd+ ef b2 + d2 + f2

    ], che la somma

    di:

    x1x1 =[ab

    ] [a b

    ]=[a2 abab b2

    ], x2x2 =

    [cd

    ] [c d

    ]=[c2 cdcd d2

    ], x3x3 =

    [ef

    ] [e f

    ]=[e2 efef f2

    ]Inoltre,

    XDX =[a c eb d f

    ][21 0 00 22 00 0 23

    ][a bc de f

    ]=

    [a21 c

    22 e

    23

    b21 b22 b

    23

    ][a bc de f

    ]

    =

    [a221 + c222 + e223 ab21 + cd22 + ef23ab21 + cd22 + ef23 b221 + d222 + f223

    ]che la somma di:

    x1x121 =

    [a221 ab

    21

    ab21 b221

    ], x2x222 =

    [c222 cd

    22

    cd22 d222

    ], x3x323 =

    [e223 ef

    23

    ef23 f223

    ]

  • Applicazione a campioni di ampiezza finita 19

    2.5.2 Il teorema di Gauss-MarkovTeorema 2.4 (Gauss-Markov). In un modello di regressione lineare con ipotesi di omo-schedasticit, lo stimatore lineare corretto di minima varianza lo stimatore OLS

    b = (XX)Xy

    In un modello di regressione lineare con eteroschedasticit, lo stimatore lineare correttodi minima varianza :

    = (XD1X)1XD1y

    La prima parte del teorema afferma s che lo stimatore OLS efficiente (minimavarianza) in caso di omoschedasticit, ma lascia aperta la possibilit che risultino ancoramigliori stimatori non lineari oppure distorti.

    La seconda parte definisce uno stimatore lineare efficiente per il caso generale, cheviene detto stimatore GLS (Generalized Least Squares); si tratta tuttavia di uno stimatorenon direttamente praticabile, in quanto la matrice D non nota. Si usa quindi un unapproccio detto FGLS, Feasible GLS, in cui le varianze 2i vengono sostituite con lorostime.

    2.5.3 I residuiA rigore, il vettore dei residui e non uno stimatore del vettore degli errori u, ma unasua trasformata:

    e = (IH)y = (IH)X + (IH)u = [XX(XX)1(XX)] + (IH)u= (XX) + (IH)u= (IH)u

    dove H la matrice di proiezione ortogonale definita nella sezione 2.4.1.Da ci segue che, come per lerrore, laspettativa condizionata dei residui zero:

    E[e | X] = E[(IH)u | X] = (IH)E[u | X] = 0Quanto alla varianza:

    V[e | X] = V[(IH)u | X] = (IH)V[u | X](IH) = (IH)D(IH)Lespressione si semplifica nel caso di omoschedasticit; ricordando che la matrice IH simmetrica e idempotente:

    D = 2I V[e | X] = (IH)2

    In particolare, per la i-esima osservazione si ha:

    D = 2I V[ei | X] = (1 hii)2

    dove 1 hii li-esimo elemento della diagonale principale della matrice I H. Si vedecos che, anche nellipotesi che lerrore sia omoschedastico, i residui sono eteroschedasticie non indipendenti: V[eiej | X] = (1 hij)2.

    Ci nonostante i residui, come lerrore, sono incorrelati con le variabili esplicative inquanto sono una proiezione di y su uno spazio ortogonale a quello generato dalle colonnedi X; ci consente di usare i residui per una stima della varianza dellerrore.

  • 20 2. La regressione lineare

    2.5.4 Stima della varianza dellerroreLa varianza dellerrore, 2E[u2] (sez. 2.3), misura la variabilit di y non spiegata dallaregressione. Il suo stimatore col metodo dei momenti :

    2 = 1n

    ni=1

    e2i

    In forma matriciale, usando la simmetria e lidempotenza della matrice IH e le proprietdelloperatore traccia:

    2 = 1nee = 1

    nu(IH)u = 1

    ntr(u(IH)u

    )= 1n

    tr((IH)uu

    )da cui:

    E[2 | X] = 1n

    tr(E[(IH)uu | X]

    )= 1n

    tr((IH)E[uu | X]

    )= 1n

    tr((IH)D

    )Le matrici idempotenti hanno traccia uguale al rango (cfr. appendice A). In caso di

    omoschedasticit, quindi, lespressione si semplifica:

    D = 2I E[2 | X] = 1n

    tr((IH)2

    )=(n kn

    )2

    e si vede cos che lo stimatore distorto. Si pu ottenere uno stimatore corretto dividendoper n k:

    s2 = 1n k

    ni=1

    e2i

    2.5.5 MulticollinearitSi ha multicollinearit stretta quando il rango della matrice XX minore di k; in questocaso, b non definito (sez. 2.4.2).

    Pi frequente il caso della (quasi) multicollinearit, che si verifica quando la matriceXX quasi singolare. Si tratta di una definizione vaga (che vuol dire quasi?), da cuisegue comunque, nella pratica, che i calcoli numerici possono produrre risultati errati,ma, soprattutto, che le stime dei singoli coefficienti diventano imprecise.

    Accade infatti che, essendo i regressori tra loro correlati, diventa difficile distinguerei loro effetti sulla variabile risposta, quindi stimare i relativi coefficienti di regressione.Lo standard error dei singoli stimatori risulta ampio, conseguentemente ampi i relativiintervalli di confidenza, anche se gli stimatori rimangono corretti.

    Si pu comunque notare che, come nel caso della varianza campionaria, si possonoottenere risultati migliori aumentanto la dimensione del campione.

    2.6 Necessit di un approccio asintoticoLapproccio dei campioni finiti risulta poco utile nellanalisi econometrica, in quanto suc-cede raramente di poter estrarre pi campioni da una stessa popolazione (la popolazione,infatti, cambia nel tempo).

  • Necessit di un approccio asintotico 21

    Negli studi sperimentali il ricercatore ha il pieno controllo dellesperimento: scegliealcuni fattori di cui vuole indagare leffetto su alcune unit; a tale scopo sceglie diversitrattamenti, corrispondenti a diversi livelli di quei fattori (le variabili esplicative), e li som-ministra alle unit sperimentali in modo casuale; osserva quindi i valori di una variabilerisposta per verificare se essi possono essere intesi come effetti delle variabili esplicative,oppure se la variabilit osservata nella risposta imputabile solo a fattori accidentali. Lasomministrazione dei trattamenti a tal punto sotto il controllo del ricercatore, che levariabili esplicative vengono spesso intese come variabili deterministiche, non aleatorie.

    Tutto ci in econometria impossibile. Si possono solo osservare i valori di alcune va-riabili assunte come esplicative (valori osservati, non scelti dal ricercatore), senza alcunagaranzia di aver considerato tutte le variabili che potrebbero avere effetto sulla varia-bile risposta. Non possibile, inoltre, ripetere lo studio a piacimento; ad esempio, perstudiare leffetto delle spese promozionali sulle vendite non si pu provare prima con unammontare, poi con un altro, poi con un altro ancora; per studiare leffetto del livellodi istruzione sul salario non si possono far studiare fino a livelli diversi gruppi di ragazziscelti a caso e poi, dopo qualche anno, rilevare i loro salari. Ne segue che anche le variabiliesplicative vanno intese come variabili aleatorie e che non ha molto senso la ricerca distimatori corretti; si preferisce quindi effettuare ricerche su grandi campioni contando supropriet quali la consistenza e la normalit asintotica degli stimatori.

    Risultano ancora meno utili ipotesi di distribuzione normale, in quanto i fenomenieconomici sono tipicamente non-normali. Si pu notare, al riguardo, che negli studi spe-rimentali lerrore viene tradizionalmente inteso come errore sperimentale, come effetto diuna variabilit del tutto accidentale presente sia nel fenomeno studiato che nelle misu-razioni effettuate; in tale contesto ragionevole assumere sia che lerrore presenti unadistribuzione normale, sia che non risulti correlato con le variabili esplicative

    In econometria, invece, lerrore viene indicato preferibilmente con u, per unobserved,in quanto contiene anche variabili che possono avere effetto sulla variabile risposta ma nonsono state osservate; pu trattarsi di variabili per le quali non sono disponibili dati atten-dibili, o anche di variabili non direttamente misurabili (ad esempio, labilit individualecome fattore del livello del salario).

    Risulta necessario, pertanto, assumere inizialmente un modello della popolazione cheappaia ragionevolmente completo dal punto di vista della teoria economica. Nel caso sitratti di un modello lineare nei parametri, lapproccio pi semplice consiste nellapplicarela regressione lineare assumendo che le variabili non osservate non siano correlate conquelle osservate; rimane cos possibile mantenere la definizione di errore come differenzatra y e la sua aspettativa condizionata, quindi le propriet:

    E[u | x] = 0 E[u] = 0 E[f(x)u] = 0 E[xu] = 0

    Lassunzione di tali propriet dellerrore viene detta ipotesi di esogeneit e ad essa dedicato il prossimo capitolo.

  • 22 2. La regressione lineare

  • Capitolo 3

    Lipotesi di esogeneit

    In economia una variabile viene detta endogena se determinata nellambito di un mo-dello, ad esempio se variabile dipendente in equazioni in cui compaiono altre variabili,dette esogene, i cui valori sono assunti come dati. In econometria, invece, una variabileesplicativa viene detta endogena se correlata con la variabile non osservabile u, esogenain caso contrario.

    Nella regressione lineare con ipotesi di esogeneit si muove da un modello della po-polazione del tipo y = x + u assunto come vero e si assume, inoltre, lipoesi diesogeneit E[u | x] = 0]. Come si visto (sez. 2.2), da ci seguono E[u] = 0, E[xu] = 0 eCov(x, u) = 0.

    Obiettivo dellanalisi la stima degli effetti parziali delle variabili esplicative sulla-spettativa condizionata di y:

    xjE[y | x] =

    xj(1 + 2x2 + kxk) = j

    In questo capitolo si illustra limportanza dellipotesi di esogeneit e si mostra come,grazie ad essa, sia possibile ottenere stimatori consistenti e asintoticamente normali deglieffetti parziali. Si discutono poi alcuni test di ipotesi e si conclude mostrando i rimedi pisemplici alle frequenti situazioni di endogeneit.1

    3.1 Limportanza dellipotesiPer apprezzare limportanza dellipotesi di esogeneit, si pu ipotizzare che il modellovero (assunto come tale) della popolazione sia:

    y = 1 + 2x2 + 3x3 + u E[u | x2, x3] = 0Va notato che il modello non afferma che y dipende solo da x2, x3, ma piuttosto che,anche se u contiene altre variabili che hanno effetto su y, queste non sono correlate alledue considerate.

    Il modello consente di definire gli effetti parziali delle variabili x2, x3 sullaspettativacondizionata di y; ad esempio:

    x2E[y | x2, x3] =

    x2(1 + 2x2 + 3x3) = 2

    1Questo capitolo e il successivo seguono liberamente la traccia di Wooldridge (2002, capp. 4-5), conelementi tratti da Hansen (2010, capp. 5-6).

    23

  • 24 3. Lipotesi di esogeneit

    Se per si usasse il modello

    y = 1 + 2x2 + v v = 3x3 + u

    e se x2 e x3 fossero correlate, si avrebbe in realt, per qualche c,

    E[y | x2] = 1 + 2x2 + 3(cx2) quindi x2E[y | x2] = 2 + 3c

    dove 2 sarebbe leffetto diretto, 3c quello indiretto, di x2; 2 non potrebbe quindi essereconsiderato leffetto parziale di x2. In altri termini, non sarebbe possibile concludere: sex2 aumenta di una unit, allora E[y | x2] aumenta di 2.

    Da altro punto di vista, non si potrebbe pi definire lerrore v come differenza tra ye la sua aspettativa condizionata, infatti:

    y E[y | x2] = 1 + 2x2 + v 1 2x2 3(cx2) = v 3(cx2) 6= v

    Ne seguirebbe:

    E[v] = E[3x3 + u] = E[3cx2 + u] = 3cE[x2] 6= 0

    In pratica, si cerca di costruire modelli in cui compaiano, oltre alle variabili esplicativedi cui interessa studiare leffetto parziale, anche altre variabili esplicative di controllo, ilcui scopo fare in modo che il termine u possa s contenere variabili non osservate, masolo variabili non correlate con quelle di interesse.

    Lipotesi di esogeneit risulta particolarmente importante anche perch solo se risultaassumibile si pu pervenire a stime consistenti degli effetti parziali, come si vedr nellasezione successiva.

    Osservazione 3.1. Si visto nel capitolo 2 che il vettore dei residui ortogonale alsottospazio generato dalle colonne della matrice X e che si ha:

    e = (IH)u

    In grandi campioni la matrice H tende a diventare poco rilevante, in quanto le sue sommedi riga e di colonna sono sempre 1 e la somma degli elementi della diagonale principale sempre pari a k. Per n, quindi, e p u. Tuttavia questo avviene sempre e, pertanto,non consente di verificare lipotesi di esogeneit; n c altro modo. Vi sono comunquesituazioni in cui lipotesi appare manifestamente infondata:a) variabili omesse: il modello non comprende tutte le variabili di controllo perch non si

    disponde dei dati necessari; si pu ovviare usando variabili proxy (sez. 3.4);b) errore di misura: alcune variabili possono essere rilevate sono in modo imperfetto (ad

    esempio, perch il loro valore dipende dallaccuratezza e dallattendibilit delle unitdi rilevazione; il problema discusso nella sez. 3.5);

    c) simultaneit: una o pi variabili esplicativi sono in parte funzioni della variabile rispo-sta (ad esempio, se y il numero di omicidi in una citt e xj lorganico delle forze dipolizia, xj determinata in parte da y).

  • La stima dei parametri 25

    3.2 La stima dei parametriIl modello della popolazione viene espresso pi sinteticamente nella forma:

    y = x + u

    in cui x indica il vettore k 1 delle variabili esplicative.Assumendo di estrarre un campione dalla popolazione, si avranno n osservazioni del

    tipo:yi = xi + ui

    in cui xi indica il vettore colonna della i-esima riga della matrice X, contenente tanterighe quante sono le osservazioni e tante colonne quante sono le variabili esplicative.

    Lanalisi di regressione lineare si basa su un modello di popolazione che soddisfi iseguenti assunti.

    Assunti 3.2.1) Indipendenza e identica distribuzione: possibilit di estrarre campioni casuali conte-

    nenti le variabili iid yi,xi, i = 1, . . . , n.2) Linearit: y = x + u.3) Esogeneit: E[u | x] = 0.4) Momenti quarti finiti per x e u.5) Rango pieno (invertibilit) della matrice E[xx].

    Premoltiplicando il modello della popolazione per x e calcolando i valori attesi:

    E[xy] = E[xx + xu] = E[xx] +E[xu] = E[xx]

    in quanto u e x sono incorrelate (per lipotesi di esogeneit). Si ottiene cos:

    = E[xx]1E[xy]

    Per stimare E[xx] e E[xy] si pu ricorrere al metodo dei momenti, sostituendoli conle rispettive medie campionarie:

    b =(n1

    ni=1

    xixi

    )1(n1

    ni=1

    xiyi)

    = n(

    ni=1

    xixi

    )1n1

    (ni=1

    xiyi)

    =(

    ni=1

    xixi

    )1( ni=1

    xiyi)

    Oppure, in forma matriciale,2b = (XX)1Xy

    dove X la matrice con righe xi, i = 1, . . . , n, e y il vettore colonna [ y1 . . . yn ].Poich y = X + u, si pu anche scrivere:

    b = (XX)1XX + (XX)1Xu = + (XX)1Xu

    = +(

    ni=1

    xixi

    )1( ni=1

    xiui)

    2Cfr. cap. 2, nota 3 a pag. 18.

  • 26 3. Lipotesi di esogeneit

    Lo stimatore b non altro che lo stimatore OLS. Tuttavia, mentre nel caso di cam-pioni di ampiezza finita risulta uno stimatore corretto, nellapproccio asintotico rilevanoconsistenza e normalit asintotica.

    3.2.1 ConsistenzaTeorema 3.3. Se valgono gli assunti 3.2, lo stimatore OLS di :

    b = (XX)1XY = +(

    ni=1

    xixi

    )1( ni=1

    xiui)

    consistente:b p

    Dimostrazione. Lespressione di b in termini di medie campionarie rende evidente che bdipende anche da n; si pu quindi considerare la successione

    bn = +(n

    i=1 xixin

    )1(n1ni=1 xiuin

    )ni=1 xixi in termine n-esimo di una successione di variabili aleatorie assunte iid, il cui

    valore atteso E[xx], assunto finito; quindi, per la legge dei grandi numeri:ni=1 xixin

    p E[xx]

    Analogamente, e per lipotesi di esogeneit:ni=1 xiuin

    p E[xu] = 0

    Si assume inoltre il rango pieno di E[xx], quindi lesistenza di E[xx]1. Per il lemma diSlutsky (v. appendice C), essendo linversa una funzione continua,n

    i=1 xixin

    p E[xx] (n

    i=1 xixin

    )1p E[xx]1

  • La stima dei parametri 27

    Dimostrazione. La successione bn pu essere riscritta come segue, portando a sinistra e moltiplicando entrambi i membri per

    n:

    n(bn ) =

    (ni=1 xixin

    )1 (ni=1 xiuin

    )

    Si appena visto che(n

    i=1 xixin

    )1p E[xx]1

  • 28 3. Lipotesi di esogeneit

    3.2.3 Stima della varianza

    Se si volesse assumere omoschedasticit, la varianza dellerrore sarebbe costante e nondipenderebbe da x, n da xx. Si avrebbe quindi:

    E[u2xx] = 2E[xx] 2 = E[u2]

    La varianza asintotica din(b ) diventerebbe:

    A1BA1 = E[xx]12E[xx]E[xx]1 = 2E[xx]1

    Indicando con il simbolo Vob la varianza approssimata di b in omoschedasticit,

    Vob =2E[xx]1

    n

    Si gi usato, per E[xx], lo stimatore (XX)/n. Quanto a 2, si potrebbe usare come

    stimatore consistente la varianza campionaria dei residui, 2 = ee

    n.4 Infatti:5

    Teorema 3.5. Se valgono gli assunti 3.2, la varianza campionaria dei residui:

    2 = ee

    n

    uno stimatore consistente di 2 = E[u2].

    Dimostrazione. Muovendo da:

    ui = yi xiei = yi xib = ui + xi xib = ui xi(b )e2i = u2i 2uixi(b ) + (b )xx(b )

    si perviene a:

    2 = 1n

    ni=1

    e2i

    = 1n

    ni=1

    u2i 2(

    1n

    ni=1

    xiui)

    (b ) + (b )(

    1n

    ni=1

    xixi

    )(b )

    p 2

    ricordando che per gli assunti e per la legge dei grandi numeri:ni=1 xixin

    p E[xx]

  • La stima dei parametri 29

    La varianza approssimata di b verrebbe cos stimata da:

    Vob =2

    n

    (XXn

    )1= 2(XX)1

    Nel caso pi generale (eteroschedasticit), occorre una diversa stima di B = E[u2xx].

    Il metodo dei momenti suggerisce lo stimatoreni=1 u

    2ixixi

    n; dal momento che gli ui non

    sono osservabili, possono essere sostituiti dai residui ei e si dimostra che si ottiene cos

    uno stimatore consistente B =ni=1 e

    2ixixin

    .

    Teorema 3.6. Se valgono gli assunti 3.2, lo stimatore:

    B =ni=1 e

    2ixixin

    uno stimatore consistente di B = E[u2xx].

    Dimostrazione. Si pu esprimere B come segue (cfr. dimostrazione del teorema 3.5):

    B = 1n

    ni=1

    e2ixixi

    = 12

    ni=1

    xixiu2i 2(

    1n

    ni=1

    xixi(b )xiui)

    + 1n

    ni=1

    xixi((b )xi

    )2Considerando separatamente i tre addendi, il generico elemento hl-esimo della matricexixiu2i xihxilu2i . Per la disuguaglianza di Cauchy-Schwarz e per lassunto dei momentiquarti finiti:

    E

    [xihxilu2i ] E[x2ihx2il]1/2E[u4i ]1/2 E[x4ih]1/4E[x4il]1/4E[u4i ]1/2

  • 30 3. Lipotesi di esogeneit

    Per la disuguaglianza di Hlder (di cui quella di Cauchy-Schwarz caso particolare) e perlassunto dei momenti quarti finiti:

    E

    [xi3 |ui|

    ] E

    [xi4

    ]3/4E

    [u4i]1/4

  • Test di ipotesi e intervalli di confidenza 31

    Osservazione 3.7. Nella sez. 2.6 si rilevava che, mentre negli studi sperimentali le va-riabili esplicative sono spesso deterministiche, in econometria sono aleatorie. Pu es-sere utile tornare al semplice scenario dellomoschedasticit per esplicitare una conse-guenza della diversit degli approcci. Si assume comunque che Cov(x, u) = 0, quin-di V[y] = V[x] + V[u]. Se per le variabili esplicative non hanno variabilit, alloraV[x] = 0 e si ha:

    variabili esplicative deterministiche V[y] = V[u] = 2

    ovvero y sarebbe completamente determinata da x se non fosse per una componentepuramente accidentale. Quando invece le variabili esplicative sono anchesse aleatorie, lavariabilit di y comprende anche quella delle esplicative:

    variabili esplicative aleatorie V[y] = V[x] +V[u]

    Ne segue, tra laltro, che la variabilit di y dipende anche dalla scelta delle esplicative.In generale, infatti, non esiste alcuna garanzia che si considerino tutte le variabili dicontrollo, rispetto alle quali sono possibili scelte diverse e pu succedere, inoltre, chealcune variabili prima non osservabili lo diventino; la variabilit della variabile rispostapu quindi cambiare da modello a modello.

    3.3 Test di ipotesi e intervalli di confidenzaLa stima della varianza approssimata di b consente di effettuare test di ipotesi e dicalcolare intervalli di confidenza.

    3.3.1 Test zSi visto che, nel modello lineare normale con ipotesi di omoschedasticit (sez. 2.4.4),si usano test t in quanto la varianza 2 dellerrore non nota e viene sostituita con unavarianza campionaria corretta dei residui. In un approccio asintotico le differenze rispettoad un test z diventano trascurabili, mentre appare pi rivelante labbandono dellipotesidi omoschedasticit.

    La libreria lmtest di R contiene, tra altre, una funzione coeftest() che esegue testanaloghi a quelli calcolati da summary() sul risultato di lm() (cfr. fig. 2.2), con le seguentidifferenze (cfr. Zeileis 2004):a) il parametro df (degrees of freedom) ha n k come valore di default e, se lo si accetta

    o si assegna un numero finito e positivo, viene calcolato un test t; con df=Inf si usainvece unapprossimazione normale;

    b) il parametro vcov. (NB: con un punto finale, per distinguerlo dalla funzione vcov())consente di passare una matrice di varianza e covarianza diversa da quella calcolatadalla funzione lm().La libreria sandwich consente di calcolare la matrice di White (anche le sue varianti)

    con una funzione vcovHC().7 La funzione usa per default la matrice HC3, ma si pu usarequella di White assegnando HC0 al parametro type.

    7La libreria si chiama sandwich perch prodotti come quelli che compaiono nella matrice di White,A1BA1, vengono detti a forma di sandwich.

  • 32 3. Lipotesi di esogeneit

    Esempio 3.8. Si vuole determinare se il salario delle donne influenzato dalla condizionefamiliare, in particolare dallet e dal numero dei figli. Le relative variabili esplicative sono: age: let anagrafica in anni; kidslt6: il numero dei figli di et minore di 6 anni; kidsge6: il numero dei figli di et compresa tra 6 e 18 anni.Si prendono in considerazione anche altre variabili, che appaiono correlate almeno alletanagrafica (variabili di controllo): exper: lanzianit di lavoro; expersq: il quadrato dellanzianit di lavoro (si ipotizza che intervengano negli anni

    avanzamenti di qualifica, quindi che leffetto dellanzianit sul salario non sia lineare); educ: il livello di istruzione, misurato con gli anni di frequentazione delle scuole.Si sceglie il seguente modello per la popolazione:

    log(wage) = 1 + 2exper+ 3expersq + 4educ+ 5age+ 6kidslt6+ 7kidsge6+ u

    si sceglie cio di usare come variabile risposta il logaritmo del salario, lwage. Si carica ilfile mroz.csv8 e si esegue la regressione lineare:

    > mroz # seleziona le righe con inlf=1 (inlf: in labor force)> mroz reg

  • Test di ipotesi e intervalli di confidenza 33

    > library(sandwich)> library(lmtest)> coeftest(reg, df=Inf, vcov.=vcovHC(reg, type="HC0"))

    z test of coefficients:

    Estimate Std. Error z value Pr(>|z|)(Intercept) -0.42090796 0.31572069 -1.3332 0.182477exper 0.03981902 0.01513251 2.6314 0.008504 **expersq -0.00078123 0.00040632 -1.9227 0.054519 .educ 0.10783196 0.01351167 7.9807 1.456e-15 ***age -0.00146526 0.00588632 -0.2489 0.803418kidslt6 -0.06071057 0.10522938 -0.5769 0.563983kidsge6 -0.01459101 0.02910954 -0.5012 0.616199---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

    Figura 3.1. Test sui singoli coefficienti con approssimazione normale e matrice di White.

    3.3.2 Intervalli di confidenza

    Date le stime di un parametro incognito e della radice quadrata della sua varianza(dello standard error), un intervallo di confidenza Cn viene definito come linsieme deivalori cui appartiene con probabilit (1)% per un qualche . Nellapproccio asintoticosi usano i quantili della distribuzione normale e la stima della varianza approssimata,quindi:

    Cn =[bj c

    Vjj , + c

    Vjj

    ]dove c = 1.96 se = 0.05, in quanto la probabilit che una variabile normale standardsia minore di 1.96 0.025, che sia maggiore di 1.96 0.975, quindi che sia compresa tra1.96 e 1 96 0.95 = 1 0.05.

    R fornisce una funzione confint() che, usando il risultato di lm(), calcola intervalli diconfidenza basati sulla distribuzione t e sullipotesi di omoschedasticit. Esite anche unafunzione confint.default() che usa unapprossimazione normale, ma rimane vincolataallipotesi di omoschedasticit; la funzione confintHC(), proposta nella figura 3.3, calcolagli intervalli usando la matrice di White (o eventuali varianti).

    Esempio 3.11. Partendo dalla regressione dellesempio precedente, confintHC() calcolagli intervalli di confidenza mostrati nella figura 3.2. Se si confrontano gli intervalli con irisultati dei test z (fig. 3.1), si pu notare che:a) quasi tutti gli intervalli lasciano dubbi sul segno dei coefficienti (quindi sulla stessa

    direzione degli effetti parziali!); si salvano quelli di exper e di educ, che risultanoanche quelli statisticamente pi significativi;

    b) il coefficiente di expersq risulta moderatamente significativo (al 94.5%), ma il relativointervallo talmente stretto intorno allo zero che apparirebbe comunque avventatoipotizzare leffettiva significativit di un valore non nullo.

  • 34 3. Lipotesi di esogeneit

    3.3.3 Test di WaldSi possono sottoporre a verifica pi ipotesi contemporaneamente usando una matrice direstrizioni R, per definire unipotesi nulla multipla del tipo:

    Rr,kk,1 qr,1

    = 0r,1

    dove R una r 1 (r il numero delle restrizioni) e k colonne (il numero dei parametri).Ad esempio, dato il modello:

    y = 1 + 2x2 + 3x3 + 4x4 + u

    a) se lipotesi nulla :H0 : 2 = 3, 4 = 5

    si usa:

    R q =[0 1 1 00 0 0 1

    ]1234

    [05

    ]=[2 34

    ][05

    ]=[00

    ]

    b) se lipotesi nulla :H0 : 2 + 3 + 4 = 1

    si usa:

    R q =[0 1 1 1

    ] 1234

    [1] = [2 + 3 + 4] [1] = [0]

    Essendo lo stimatore di approssimativamente normale per grandi campioni, taleanche la sua trasformazione lineare Rb q:

    Rb q a N(R q,RVbR

    )Sotto ipotesi nulla si ha:

    Rb q a N(0,RVbR)

    > confintHC(reg)2.5 % 97.5 %

    (Intercept) -1.03971 0.19789exper 0.01016 0.06948expersq -0.00158 0.00002educ 0.08135 0.13431age -0.01300 0.01007kidslt6 -0.26696 0.14554kidsge6 -0.07164 0.04246

    Figura 3.2. Intervalli di confidenza (con approssimazione normale e matrice di White) dei parametri dellaregressione di cui allesempio 3.8.

  • Test di ipotesi e intervalli di confidenza 35

    confintHC

  • 36 3. Lipotesi di esogeneit

    > lht(reg, "age=0", test="Chisq", vcov.=vcovHC(reg, type="HC0"))Linear hypothesis test

    Hypothesis:age = 0

    Model 1: lwage ~ exper + expersq + educ + age + kidslt6 + kidsge6Model 2: restricted model

    Note: Coefficient covariance matrix supplied.

    Res.Df Df Chisq Pr(>Chisq)1 4212 422 -1 0.062 0.8034

    Figura 3.4. Un semplice esempio di utilizzo della funzione linear.hypothesis().

    > reg reg2 waldtest(reg, reg2, vcov=vcovHC(reg, type="HC0"), test="Chisq")Wald test

    Model 1: lwage ~ exper + expersq + educ + age + kidslt6 + kidsge6Model 2: lwage ~ exper + expersq + educRes.Df Df Chisq Pr(>Chisq)

    1 4212 424 -3 0.5016 0.9185

    Figura 3.5. Esempio di utilizzo della funzione waldtest() per un confronto tra un modello pieno e unmodello ridotto.

    La libreria lmtest contiene invece una funzione waldtest() che opera confrontandodue o pi modelli e accetta anchessa i parametri test e vcov (senza punto finale).

    Esempio 3.13. Restando alla regressione degli esempi precedenti, si nota che i coefficientirelativi alla condizione anagrafica e familiare risultano tutti non significativi (figura 3.1)e con intervalli di confidenza che non consentono di determinarne il segno (figura 3.2). Sipu quindi sottoporre a verifica lipotesi nulla H0 : 4 = 5 = 6. Invece di costruire unamatrice R, si pu eseguire una seconda regressione sul modello ridotto:

    log(wage) = 1 + 2exper + 3expersq + 4educ + u

    quindi passare a waldtest() i risultati di entrambe le regressioni (figura 3.5). Il p-valueconsente di accettare lipotesi nulla i due modelli sono equivalenti.

    3.3.4 Test FSi visto che, nel modello lineare normale (sez. 2.4.4), si usano test F per sottoporrea verifica lipotesi nulla tutti i coefficienti nulli tranne lintercetta. Con R si possono

  • Test di ipotesi e intervalli di confidenza 37

    > F F[omissis]F-statistic: 13.19 on 6 and 421 DF, p-value: 1.057e-13

    > wF wF[omissis]Res.Df Df F Pr(>F)

    1 4212 427 -6 13.191 1.057e-13 ***

    > wChi wChi[omissis]Res.Df Df Chisq Pr(>Chisq)

    1 4212 427 -6 79.144 5.368e-15 ***

    > wChi$Chisq[2] / F$fstatistic[1]value

    6

    Figura 3.6. Confronto tra test F e 2.

    eseguire analoghi test di Wald in vario modo; ad esempio:a) linear.hypothesis(reg, names(coef(reg))[-1], ...): il secondo parametro in-

    dica di usare i nomi di tutti i coefficienti tranne il primo, che vengono uguagliati a zeroper default se non si avvalora il parametro rhs;

    b) waldtest(reg, ...): indicando un solo modello, questo viene confrontato col modelloridotto contenente la sola intercetta.

    Se si usasse una matrice di varianza e covarianza omoschedastica, i risultati non sarebberomolto diversi da quelli che si otterrebbero con summary() (cfr. figura 2.2); in particolarei valori della statistica F e della statistica di Wald risulterebbero coerenti e i relativip-value presenterebbero differenze trascurabili.

    Si ha infatti che, se S Fr,s, allora lims rS = T

    2r . Ne segue che, se la stati-

    stica T si distribuisce approssimativamente come un 2r , il rapporto T/r si distribuisceapprossimativamente come una Fr,nk:

    Ta 2r

    T

    ra Fr,nk

    Il valore della statistica F calcolato da summary() risulterebbe quindi pari al valoredella statistica Wald diviso per il numero r delle restrizioni (cfr. figura 3.6).

    Osservazione 3.14. Hansen (2010, p. 93) sottolinea che test F come quelli calcolati dasummary() hanno senso solo con piccoli campioni, per valutare se una regressione puaspirare ad avere un qualche valore esplicativo. Con grandi campioni, invece, larea di

  • 38 3. Lipotesi di esogeneit

    accettazione di unipotesi nulla generale si riduce a tal punto che la relativa statistica Frisulta quasi sempre molto significativa, quindi inutile.9

    3.4 Il problema delle variabili omesseNella pratica, lipotesi di esogeneit si scontra spesso con la mancanza di dati o con ladifficolt di una loro espressione quantitativa. Pu esserne un esempio il modello:

    log(wage) = 1 + 2exper + 3expersq + 4educ + abil + u

    in cui risulta arduo disporre di misure dellabilit e, quindi, di relativi dati. Come givisto, ci comporta che, se si regredisse la variabile risposta solo sulle variabili disponibili,verrebbe meno la consistenza degli stimatori e non sarebbe possibile stimare gli effettiparziali. In tali casi, si dice che lequazione strutturale (quella relativa al modello vero)non stimabile e si cerca, quindi, una equazione stimabile.

    In generale si cerca di escludere le variabili non disponibili e di sostituirle con altre. Ilprossimo capitolo dedicato allinclusione di variabili strumentali, mentre qui si illustrail metodo delle variabili proxy: una variabile proxy una variabile che ha sulla variabilerisposta un effetto paragonabile a quello della variabile mancante ed a questa correlataal punto di poter ipotizzare che la variabile proxy agisce sulla variabile risposta perprocura di quella mancante (una persona proxy appunto una persona che agisce perprocura).

    Pi formalmente, se lequazione strutturale :

    y = 1 + 2x2 + + kxk + q + u

    se q correlata con qualche xj (quindi non pu essere relegata nellerrore) ma non disponibile, si pu sostituire q con una variabile proxy z che soddisfi le seguenti condizioni:a) ridondanza: se q fosse disponibile, z sarebbe inutile:

    E[y | x, q, z] = E[y | x, q]

    b) correlazione forte: z deve essere correlata a q in modo che, una volta inclusa z nelle-quazione, q non sia pi correlata con alcuna xj :

    L(q | 1, x2, . . . , xk, z) = L(q | 1, z)

    dove L(a | b) indica la proiezione ortogonale di a sullo spazio generato da b.La seconda condizione ricorre allaspetto geometrico dei modelli di regressione lineare

    (cfr. sez. 2.4.1). Sia Xxz una matrice avente k+2 colonne, una prima costituita da tutti 1,le altre per le variabili x2, . . . , xk e z. Xxz pu essere vista come somma di due matrici Xx,le cui colonne non nulle contengono x2, . . . , xk, e Xz, le cui colonne non nulle contengono1 e z. Indicando con Im(X) lo spazio generato dalle colonne di una matrice X, si ha (cfr.proposizione A.23):

    Im(Xxz) = Im(Xx) + Im(Xz)

    9Pu bastare considerare che F = ESS/(k 1)RSS/(n k) aumenta allaumentare di n.

  • Il problema delle variabili omesse 39

    Se q = 1 + 2z+ r, e se 2 6= 0, si pu proiettare q sullo spazio generato da Xz e indicaretale proiezione con:

    L(q | 1, z)Indicando con L(q | 1, x2, . . . , xk, z) lanaloga proiezione sullo spazio generato da Xxz, sesi ha:

    L(q | 1, x2, . . . , xk, z) = L(q | 1, z)ne segue che E[q] = 1 + 2z pu essere espresso come combinazione lineare dei vettoridi una base sia di Im(Xxz) che di Im(Xz), ma nel primo caso i coefficienti dei termini xjsarebbero tutti nulli. Quanto a r = q E[q], se vale luguaglianza r ortogonale a tuttoIm(Xxz), quindi per ogni j = 2, . . . , k:

    L(q | 1, x2, . . . , xk, z) = L(q | 1, z) Cov(r, xj) = 0, Cov(q, xj) = 0

    Se valgono entrambe le condizioni, ponendo

    q = 1 + 2z + r E[r] = 0, Cov(z, r) = 0

    si perviene allequazione:

    y = (1 + 1) + 2x2 + + kxk + (2z) + (r + u)

    che risulta stimabile in quanto viene rispettata lipotesi di esogeneit (in particolare,lerrore r + u non correlato con alcuna variabile esplicativa).

    Esempio 3.15. Si vuole ragionare sul salario usando i dati del National LongitudinalSurvey del 1980.10 Si definisce lequazione strutturale:

    log(wage) =1 + 2exper + 3tenure + 4married + 5south+ 6urban + 7black + 8educ + abil + u

    dove: wage il salario mensile, lwage il suo logaritmo; exper lanzianit di lavoro totale in anni; tenure lanzianit di lavoro nellazienda; married vale 1 se il lavoratore sposato; south vale 1 se il lavoratore vive negli stati del sud; urban vale 1 se il lavoratore vive in unarea metropolitana; black vale 1 se il lavoratore nero; educ il livello di istruzione misurato con gli anni di frequentazione delle scuole; abil labilit.

    10File http://web.mclink.it/MC1166/Econometria/nls80.csv. Rispetto ai dati contenuti nel file sca-ricabile dal sito di Wooldridge (2002), si sono assegnati i nomi di colonna e si usata la stringa NA per idati mancanti.

  • 40 3. Lipotesi di esogeneit

    Non disponibile una misura dellabilit, che non pu essere scartata in quanto facilesupporre una sua correlazione almeno con educ. Sono disponibili i quozienti di intelligenzaiq; si valuta che, se fossero disponibili dati circa labilit, il quozienge di intelligenzasarebbe inutile (ridondanza), si ipotizza che sia rispettata anche la seconda condizione. Siprova quindi ad eseguire una regressione sia sullequazione strutturale senza la variabileabil, sia su unequazione stimabile con iq al posto di abil:

    > nls80 regomitted regproxy cbind(coeftest(reg, ...), confintHC(reg, ...))

    Osservando la figura 3.7, si pu notare che nella regressione con la variabile proxy ilcoefficiente di educ si riduce da 0.065 a 0.054 e aumenta lo standard error, anche se il suointervallo di confidenza al 95% rimane coerente (estremi entrambi positivi) e piuttostostretto.

    3.5 Il problema degli errori di misuraPu succedere che una variabile sia osservabile, ma che i dati disponibili non siano piena-mente attendibili. Si pu pensare, per un esempio, ai risparmi delle famiglie: si tratta diun aggregato che potrebbe essere misurato con esattezza, ma se i dati disponibili derivanoda risposte dei diretti interessati potrebbero essere imprecisi.

    Se lerrore di misura riguarda la variabile risposta, il modello assume la forma:

    y = 1 + 2x2 + + kxk + (u+ )

    dove lerrore di misura della variabile risposta. Appare naturale assumere che E[] = 0,pu esserlo meno assumere anche che sia incorrelato con le variabili esplicative. Se ciappare possibile, si pu comunque procedere con la regressione. Si pu solo notare che,se u e non sono correlati (come spesso ragionevole assumere), la varianza complessivadellerrore sar somma delle loro varianze; si avranno quindi stime con un maggiorestandard error, ma comunque consistenti.

    In realt lerrore di misura problematico quello relativo alle variabili esplicative, chepu presentarsi in due forme.

    Sia xk una variabile affetta da un errore k e si disponga solo della sua misura xk, conk = xk xk. Il modello diventa:

    y = 1 + 2x2 + + kxk + u= 1 + 2x2 + + k(xk k) + u= 1 + 2x2 + + kxk + (u kk)

  • Il problema degli errori di misura 41

    > round(cbind(+ coeftest(regomitted, df=Inf, vcov.=vcovHC(regomitted, type="HC0")),+ confintHC(regomitted)), 5)

    Estimate Std. Error z value Pr(>|z|) 2.5 % 97.5 %(Intercept) 5.39550 0.11264 47.89935 0.00000 5.17472 5.61627exper 0.01404 0.00322 4.35484 0.00001 0.00772 0.02036tenure 0.01175 0.00253 4.64721 0.00000 0.00679 0.01670married 0.19942 0.03952 5.04552 0.00000 0.12195 0.27688south -0.09090 0.02725 -3.33644 0.00085 -0.14430 -0.03750urban 0.18391 0.02700 6.81251 0.00000 0.13100 0.23682black -0.18835 0.03655 -5.15375 0.00000 -0.25998 -0.11672educ 0.06543 0.00638 10.25271 0.00000 0.05292 0.07794

    > round(cbind(+ coeftest(regproxy, df=Inf, vcov.=vcovHC(regproxy, type="HC0")),+ confintHC(regproxy)), 5)

    Estimate Std. Error z value Pr(>|z|) 2.5 % 97.5 %(Intercept) 5.17644 0.12064 42.90859 0.00000 4.93999 5.41289exper 0.01415 0.00322 4.38964 0.00001 0.00783 0.02046tenure 0.01140 0.00252 4.51376 0.00001 0.00645 0.01634married 0.19976 0.03890 5.13520 0.00000 0.12352 0.27601south -0.08017 0.02760 -2.90424 0.00368 -0.13427 -0.02607urban 0.18195 0.02661 6.83678 0.00000 0.12979 0.23411black -0.14313 0.03746 -3.82032 0.00013 -0.21655 -0.06970educ 0.05441 0.00724 7.51747 0.00000 0.04022 0.06860iq 0.00356 0.00095 3.73942 0.00018 0.00169 0.00542

    Figura 3.7. Risultati di una regressione con variabile omessa e di unaltra con variabile proxy.

    Se Cov(xk, k) = 0 non c problema: lipotesi di esogeneit rispettata e si ottengonostimatori consistenti, anche se con una maggiore varianza dellerrore.

    Se, tuttavia, Cov(xk, k) = 0, allora xk e k sono necessariamente correlate. Infatti,assumendo E[k] = 0 (se cos non fosse, basterebbe aggiungere la media allintercetta delmodello),

    Cov(xk, k) = E[xkk] = 0Cov(xk, k) = E[xkk] = E[(xk + k)k] = E[2k] = 2k

    ovvero la covarianza tra xk e k uguale alla varianza dellerrore di misura. Una regres-sione porterebbe a stimatori non consistenti.

    Si tratta quindi di valutare, caso per caso, se lerrore di misura correlato al valorevero oppure al valore errato.

  • 42 3. Lipotesi di esogeneit

  • Capitolo 4

    Le variabili strumentali

    Se il modello della popolazione comprende k 1 variabili esogene (compresa, al solito,x1 = 1) e una endogena:

    y = 1 + 2x2 + + kxk + uE[u] = 0 Cov(xj , u) = 0, j = 2, . . . , k 1 Cov(xk, u) 6= 0

    operando come nel capitolo precedente si otterrebbero stimatori non consistenti.Si cerca quindi di prendere in considerazione ulteriori variabili, dette variabili stru-

    mentali,1 che siano sia esogene che correlate con xk: lesogeneit assicura la consistenza,la correlazione fa s che le nuovi variabili possano spiegare in buona parte la quota cheverrebbe spiegata da xk della variabilit di y.

    4.1 Una sola variabile strumentale

    Una variabile z1, diversa dalle xj , pu essere usata come variabile strumentale se soddisfale seguenti due condizioni:a) esogeneit:

    Cov(z1, u) = 0

    b) correlazione parziale: deve esistere una proiezione ortogonale di xk sullo spazio generatoda tutte le esogene, compresa in particolare z1:

    xk = 1 + 2x2 + + k1xk1 + 1z1 + rk, 1 6= 0

    ovvero z1 deve risultare parzialmente correlata con xk al netto delle altre esogene.2

    1Si usa spesso chiamare strumenti le nuove variabili, strumentali tutte le variabili esogene (sia quellegi presenti nel modello che quelle nuove). Qui si diranno strumentali solo le variabili aggiunte alle esogenegi considerate.

    2In altri termini, z1 non deve risultare correlata a xk solo perch correlata con alcune delle x2, . . . , xk1a loro volta sono correlate con xk.

    43

  • 44 4. Le variabili strumentali

    Lequazione della proiezione di xk viene detta equazione in forma ridotta. Sostituendoxk nellequazione strutturale, si ottiene lequazione in forma ridotta per y:

    y = 1 + 2x2 + + k1xk1+ k(1 + 2x2 + + k1xk1 + 1z1 + rk) + u

    = (1 + k1) + (2 + k2)x2+ (k1 + kk1)xk1 + (k1)z1 + (u+ krk)

    = 1 + 2x2 + + k1xk1 + 1z1 + vSe una variabile z1 rispetta le condizioni di esogeneit e di correlazione parziale,

    possibile stimare affiancando allequazione strutturale quella in forma ridotta.Sia y = x+u lequazione strutturale del modello originario, con x = (1, x2, . . . , xk).

    Sia inoltre z il vettore di tutte le esogene: z = (1, x2, . . . , xk1, z1). Si ha ovviamenteE[zu] = 0, per lesogeneit sia di x2, . . . , xk che di z1.

    Premoltiplicando lequazione strutturale per z e calcolando i valori attesi si ha:

    E[zy] = E[zx] +E[zu] = E[zx]

    Se E[zx], una matrice k k, ha rango pieno, il sistema di equazioni ammette ununicasoluzione:

    = E[zx]1E[zy]Si giunge quindi, analogamente a quanto gi visto nel capitolo precedente (sez. 3.2),

    allo stimatore consistente:

    bIV =(n1

    ni=1

    zixi

    )1(n1

    ni=1

    ziyi)

    = (ZX)1Zy

    Affinch E[zx] abbia rango pieno, deve essere rispettata la condizione di correlazioneparziale: xk non deve risultare correlata solo con x2, . . . , xk1.3

    Osservazione 4.1. Le condizioni che una variabile proxy deve soddisfare non sono ve-rificabili, in quanto la variabile sostituita , per definizione, non osservabile. Quando siconsidera una possibile variabile strumentale risulta non verificabile la condizione di eso-geneit (cfr. osservazione 3.1), ma la condizione di correlazione parziale pu, e dovrebbe,essere verificata.

    3Se X e Z fossero matrici 4 3, si avrebbe:

    ZX =

    [ 1 1 1 1x12 x22 x32 x42z11 z21 z31 z41

    ]1 x12 x131 x22 x231 x32 x331 x42 x43

    =

    1 + 1 + 1 + 1 x12 + x22 + x32 + x42 x13 + x23 + x33 + x43x12 + x22 + x32 + x42 x212 + x222 + x232 + x242 x12x13 + x22x23 + x32x33 + x42x43z11 + z21 + z31 + z41 z11x12 + z21x22 + z31x32 + z41x42 z11x13 + z21x23 + z31x33 + z41x43

    Se fosse x3 = x2, la terza colonna sarebbe proporzionale alla seconda e la matrice non avrebbe rangopieno; prendendo la terza riga:

    z11x13 + z21x23 + z31x33 + z41x43 = (z11x12 + z21x22 + z31x32 + z41x42)

    Se invece x3 = x2 + z1, 6= 0, la proporzionalit viene meno.

  • Pi variabili strumentali 45

    4.2 Pi variabili strumentaliSe si dispone di pi variabili strumentali z1, . . . , zm, che soddisfino tutte i requisiti diesogeneit e correlazione parziale, lequazione in forma ridotta per xk diventa:

    xk = 1 + 2x2 + + k1xk1 + 1z1 + + mzm + rkNon si pu procedere come nel caso di una sola strumentale, in quanto il vettore delle

    esogenez = (1, x2, . . . , xk1, z1, . . . , zm)

    che un vettore di l = (k1)+m elementi, non ora moltiplicabile per il vettore x dellevariabili strutturali.

    Tuttavia, lequazione in forma ridotta di xk unequazione stimabile. Infatti:

    rk = xk (1 + 2x2 + + k1xk1 + 1z1 + + mzm)= xk L(xk | z)= xk xk

    ovvero rk ortogonale alla proiezione di xk su z, indicata con xk, quindi incorrelato conle esogene.

    Inoltre xk, essendo una combinazione lineare di esogene, anchessa unesogena e puessere usata come unica variabile strumentale.

    Si procede quindi in due passi, con una regressione detta 2SLS (Two-Stage LeastSquares):1) si stima xk dalla sua equazione in forma ridotta usando Z, la matrice n (k 1 +m)

    contenente le n determinazioni di z nel campione estratto:

    dOLS = (ZZ)1Zxkxk = ZdOLS = Z(ZZ)1Zxk = Hxk

    2) si crea una matrice X sostituendo la colonna della matrice X contenente gli xik congli xik e si stimano i parametri dellequazione strutturale:

    bIV =(

    ni=1

    xix)1( n

    i=1xiyi

    )= (XX)1Xy

    poich X = HX,4 ed essendo H simmetrica e idempotente, si ha:

    XX = XHX = XHHX = XX

    si pu quindi usare la sola matrice X:

    bIV = (XX)1Xy

    4La matrice H proietta le colonne di X sullo spazio generato dalle colonne di Z. Le k 1 colonnedi X che sono gi in Z (corrispondono alle strutturali esogene) rimangono immutate, la colonna con leosservazioni della variabile endogena viene modificata e contiene le relative stime.

  • 46 4. Le variabili strumentali

    > # primo stadio> # - OLS dellendogena su tutte le esogene> olsreg # secondo stadio> # - creazione della matrice X> n X # - creazione della matrice con le stime di log(price)> Xhat Xhat[,2] # - stima dei coefficienti beta> solve(t(Xhat) %*% Xhat) %*% t(Xhat) %*% log(cigarettes$packs)

    [,1][1,] 9.8949555[2,] -1.2774241[3,] 0.2804048

    Figura 4.1. Esecuzione separata dei due stadi di una regressione 2SLS. La stima dei coefficienti identicaa quella che si ottiene con la funzione ivreg().

    Esempio 4.2. Il dataset cigarettes.csv5 contiene dati relativi al consumo di sigarettenei 48 stati continentali degli USA nel 1995: state: lo stato; packs: il numero pro capite di pacchetti di sigarette; price: il prezzo medio alla vendita; income: il reddito pro capite; stax: imposta media sulle vendite (sales tax, imposta ad valorem analoga allIVA); etax: imposta media sulla produzione (excise tax, imposta specifica).Gli importi delle ultime quattro variabili sono reali, non nominali (sono divisi per lindicedei prezzi al consumo). Si muove dal modello:

    log(packs) = 1 + 2 log(price) + 3 log(income) + u

    ma si considera che il prezzo pu essere effetto di fattori non considerati. Tra questi hannosicuramente rilievo le imposte sulla produzione e sulle vendite, che peraltro appaionoverosimilmente esogene. Si definisce quindi un vettore di esogene contenente log(income),stax e etax. Per eseguire la regressione con R si pu usare la funzione ivreg(), contenutanella libreria AER:

    > reg

  • Pi variabili strumentali 47

    > coef(reg)(Intercept) log(price) log(income)

    9.8949555 -1.2774241 0.2804048

    La figura 4.1 mostra come si potrebbe ottenere lo stesso risultato eseguendo separata-mente i due stadi della regressione.

    Osservazione 4.3. Nellesempio precedente prezzi e redditi sono reali, non nominali. Ciconsente di ritenere le due variabili non correlate. Si potrebbe forse pensare di risolvere ilproblema della endogeneit dei prezzi semplicemente eliminandoli dal modello. Per quantoovvio, si sottolinea che cos si otterrebbero s stimatori consistenti, ma diminuirebbela quota spiegata della variabilit della variabile risposta (misurata da R2). In questocaso la diminuzione sarebbe vistosa. La libreria AER contiene una versione di summary()specifica per il risultato di ivreg(); eseguendo summary(reg) sulla regressione descrittanellesempio si ottengono R2 = 0.43 e R2 = 0.40. Eseguendo una regressione OLS solo sulog(income):

    > lm(log(packs) ~ log(income), data=cigarettes)

    si otterrebbero R2 = 0.038 e R2 = 0.017.

  • 48 4. Le variabili strumentali

  • Capitolo 5

    Variabile risposta qualitativa

    La variabile risposta potrebbe essere qualitativa (lavorare o non lavorare, comprare o noncomprare un bene ecc.). In questi casi, viene espressa con un numero finito di possibilirisultati e quello che interessa determinare la probabilit di ciascuno in funzione diun vettore x di variabili esplicative. Nei modelli a risposta binaria vi sono due possibilirisultati, y = 1 e y = 0, il primo dei quali si verifica con probabilit p e laltro conprobabilit q = 1 p.

    5.1 Logit e probitNei modelli logit e probit Si usa sottindere un modello a variabile latente: si muove daiconsueti vettori di esplicative x e di parametri , si definisce una variabile

    y = x + , y = I(y > 0)

    dove I() la funzione indicatrice, si pone:

    P [y = 1 | x] = P [y > 0 | x] = P [ > x | x] = 1G(x) = G(x)

    dove G una funzione di ripartizione. Si usa anche indicare P [y = 1 | x] con p(x):

    p(x) P [y = 1 | x] = G(x)

    I due modelli si distinguono per la funzione di ripartizione adottata: in probit si trattadi (z), la funzione di ripartizione della normale standard, mentre in logit si usa quelladella distribuzione logistica:

    logit : G(z) = ez

    1 + ezprobt : G(z) = (z)

    Poich p(x) una funzione di x, per determinare gli effetti parziali di una variabileesplicativa continua si deve ricorrere alla regola di derivazione delle funzioni composte:

    p(x)xj

    = g(x)j , g(z) =dG(z)dz

    49

  • 50 5. Variabile risposta qualitativa

    Se la variabile esplicativa xh binaria, invece, leffetto parziale non altro che:

    G

    kj=1

    jxj

    G kj=1, j 6=h

    jxj

    Analogamente nel caso di variabili discrete a pi di due valori.

    In ogni caso, poich G non lineare, leffetto dipende dal punto in cui viene calcolato.Hanno quindi senso solo valutazioni degli effetti relativi di due esplicative.

    Si usano stimatori di massima verosimiglianza, che sono per loro natura asintoticamen-te corretti, consistenti (a condizioni di regolarit soddisfatte dalle distribuzioni normalee logistica) e asintoticamente normali.

  • Parte II

    Serie storiche

  • Capitolo 6

    La regressione spuria

    Nei dati cross-section le singole osservazioni sono contraddisinte da un indice i che siriferisce alla i-esima unit del campione estratto. Nelle serie storiche le singole osservazionisi riferiscono a istanti o periodi di tempo diversi, quindi di usa un indice t. Sembra unamodifica solo formale: se posso usare vari tipi di regressione su dati del tipo:

    yi = 1xi1 + 2xi2 + + kxiksembrerebbe ovvio usare le stesse tecniche su dati del tipo:

    yt = 1xt1 + 2xt2 + + kxtkEppure, cos facendo, si perviene a risultati paradossali, a volte palesemente assurdi.

    Il problema venne posto con chiarezza da G. Udny Yule nel 1926 e ha poi trovato unasoluzione solo gradualmente.1

    6.1 Matrimoni religiosi e mortalitYule (1926) propose la correlazione tra la percentuale di matrimoni religiosi e la mortalit(numero di morti ogni 1000 abitanti) in Inghilterra e nel Galles dal 1866 al 1911.2

    Il grafico delle due serie mostra una notevole somiglianza (figura 6.1). Yule calcolla correlazione, trovando un valore decisamente elevato. Fece i calcoli a mano, ottenendo0.9512; con R si ottiene un valore poco diverso: 0.9515. Se invece si prova ad eseguire unaregressione, si ottiene un R2 di 0.9054!3

    Dobbiamo pensare, commentava Yule, che si tratti di una correlazione spuria? Forsematrimoni religiosi e mortalit appaiono correlati tra loro solo perch entrambi correlaticon unaltra variabile? Con un po di fantasia e di buona volont, aggiungeva, si pupensare che questaltra variabile sia il progresso della scienza, che fa diminuire sia lamortalit che le manifestazioni religiose. In realt, concludeva, pi ragionevole pensareche si tratti solo di una correlazione senza senso: But most people would, I think, agreewith me that the correlation is simply sheer nonsense.

    1I capitoli della parte II si basano liberamente su Hamilton (1994), Hansen (2010) e Lucchetti (2008).2I dati sono scaricabili da http://web.mclink.it/MC1166/Econometria/yule.csv. Per caricarli in R

    come serie storica si pu usare il comando read.ts("yule.csv", header=TRUE, sep=",", start=1866).3Ovviamente, visto che R2 il quadrato del coefficiente di correlazione.

    53

  • 54 6. La regressione spuria

    6065

    7075

    chur

    chm

    arria

    ges

    1416

    1820

    22

    1870 1880 1890 1900 1910

    morta

    lity

    Time

    Figura 6.1. Percentuali di matrimoni religiosi e indici di mortalit (numero di morti per 1000 abitanti) inInghilterra e nel Galles dal 1866 al 1911.

    La conclusione pu apparire opinabile, lipotesi di correlazione spuria forse meno fan-tasiosa di quanto Yule credeva, ma in seguito emersa sempre pi chiaramente la possibi-lit di individuare serie temporali indiscutibilmente indipendenti e tuttavia tali da esibirecoefficienti R2 di tutto rispetto. Una regressione che non tenesse conto di ci rischierebbedi rivelarsi una regressione spuria.4

    6.2 Processi stocastici

    6.2.1 Con memoria

    Prima di affrontare formalmente il problema, si possono considerare due semplici situa-zioni:a) si lancia una moneta regolare n volte;b) si lancia una moneta e:

    se viene testa si fa un passo avanti a destra; se viene croce si fa un passo avanti a sinistra.

    4Curiosamente, le regressioni incaute eseguite su serie storiche vengono dette spurie, mentre Yuleparlava di correlazioni senza senso in opposizione a possibili loro interpretazioni come correlazioni spurie(anche se non usava questo termine).

  • Processi stocastici 55

    0 10 20 30 40 50

    10

    5

    05

    p1p2

    Figura 6.2. Due passeggiate governate dal lancio di una moneta: se viene testa si va in su, se viene crocesi va in gi.

    Il primo caso una stilizzazione dei dati cross-section: vi sono n realizzazioni divariabili aleatorie indipendenti e identicamente distribuite; realizzazioni che vengono in-dicizzate con una i che va da 1 a n, ma possono essere mescolate a piacere. Il loro ordinenon ha alcuna importanza.

    Nel secondo caso la materia prima sembra identica (pi lanci di una stessa moneta,tra loro indipendenti), ma gli spostamenti impongono un ordinamento che non pu essereignorato: la posizione in cui ci si trova dopo un lancio non dipende solo dal suo esito,ma anche dalla posizione in cui si era a seguito dei lanci precedenti. Si parla quindi diprocesso stocastico, o aleatorio, con memoria (a rigore, con persistenza).

    Simulare una passeggi