(eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

185
Lezioni di Econometria Gianni Amisano Febbraio 1999

Transcript of (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

Page 1: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

Lezioni di Econometria

Gianni Amisano

Febbraio 1999

Page 2: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2

Page 3: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

Premessa

Queste note, che costituiscono il materiale di riferimento per gli studenti del corsodi econometria attivato presso la Facolta di Economia dell’Universita di Brescia,sono il risultato della composizione di diverse fonti di riferimento.

Un elenco (purtroppo non esaustivo) di tali fonti deve necessariamente comin-ciare con l’ottimo testo di Maddala (Maddala, 1992: “Introductory Econometrics”)che a tutt’oggi rappresenta uno dei migliori testi di econometria adatti per un pri-mo corso. La trattazione di Maddala, carente sotto l’aspetto della rappresentazionematriciale degli argomenti,e stato integrata facendo riferimento ad altre fonti. Hoattinto largamente dallo splendido libro di W. Greene (“Econometric Analysis”, 3rdedition, 1997), dove si trovano trattati ad un ottimo livello teorico una vastissimagamma di tecniche econometriche. Le parti relative all’analisi delle serie stori-che sono ispirate alla lettura del libro di J.D.Hamilton (“Time Series Analysis”,Princeton University Press, 1994).

Queste note si articolano in diverse parti. La prima parte copre tutti gli argo-menti fondamentali di un primo corso di econometria, mentre la secondae una par-te monografica che ricomprende alcuni argomenti particolari e piu avanzati. Cia-scun capitolo di queste note si chiude con un insieme di esercizi svolti che servonoad aiutare gli studenti nella preparazione per l’esame. Un aspetto complementaredella preparazione all’esamee costituito dalla parallela attivita di esercitazione chesara svolta in classe utilizzando i software applicativi Gauss e Microfit disponi-bili presso il laboratorio informatico della Facolta di Economia dell’Universita diBrescia.

Gli studenti sono caldamente invitati a contattarmi ogni volta che abbiano pro-blemi di comprensione o di ogni altro tipo. Sono contattabile presso il Diparti-mento di Scienze Economiche dell’Universita di Brescia (via San Faustino 74B)o tramite e-mail all’[email protected] . Tutto il materialedistribuito agli studenti sara depositato alla CLUB (corso Mameli) e disponibileelettronicamente alla mia pagina web:

(http://www.eco.unibs.it/˜amisano/index.html )

Desidero ringraziare gli studenti del corso di econometria dell’anno accademi-co 1997/8 e anticipatamente quelli del corrente anno accademico, che mi hannosegnalato e sicuramente mi segnaleranno molti tra i refusi sicuramente presenti inqueste note.

3

Page 4: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4

Page 5: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

Indice

1 Modelli economici e modelli econometrici 91.1 Il significato del termineeconometria . . . . . . . . . . . . . . . 91.2 Forma usuale dei modelli econometrici . . . . . . . . . . . . . . . 101.3 Modelli econometrici . . . . . . . . . . . . . . . . . . . . . . . . 111.4 Aspetti essenziali dell’analisi econometrica . . . . . . . . . . . . 12

2 Richiami matematici 132.1 Operatori sommatoria e produttoria . . . . . . . . . . . . . . . . . 132.2 Matrici e vettori . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.1 Tipologia di matrici . . . . . . . . . . . . . . . . . . . . . 142.2.2 Operazioni matriciali . . . . . . . . . . . . . . . . . . . . 162.2.3 Vettori particolari . . . . . . . . . . . . . . . . . . . . . . 172.2.4 Traccia di una matrice quadrata . . . . . . . . . . . . . . 192.2.5 Matrici partizionate . . . . . . . . . . . . . . . . . . . . . 192.2.6 Il determinante di una matrice quadrata . . . . . . . . . . 192.2.7 La matrice aggiunta . . . . . . . . . . . . . . . . . . . . . 202.2.8 La matrice inversa . . . . . . . . . . . . . . . . . . . . . 202.2.9 Alcune proprieta rilevanti . . . . . . . . . . . . . . . . . 212.2.10 Matrici idempotenti . . . . . . . . . . . . . . . . . . . . . 222.2.11 Spazio vettoriale . . . . . . . . . . . . . . . . . . . . . . 222.2.12 Base di uno spazio vettoriale . . . . . . . . . . . . . . . . 232.2.13 Sottospazio vettoriale . . . . . . . . . . . . . . . . . . . . 232.2.14 Rango di una matrice . . . . . . . . . . . . . . . . . . . . 242.2.15 Indipendenza lineare di vettori . . . . . . . . . . . . . . . 252.2.16 Autovalori e autovettori . . . . . . . . . . . . . . . . . . 252.2.17 Serie geometriche di matrici . . . . . . . . . . . . . . . . 272.2.18 Matrici definite, semidefinite positive e negative . . . . . . 272.2.19 Prodotto di Kronecker (prodotto tensore) . . . . . . . . . 292.2.20 L’operatorevec . . . . . . . . . . . . . . . . . . . . . . . 30

2.3 Funzioni in piu variabili . . . . . . . . . . . . . . . . . . . . . . . 312.3.1 Derivate parziali prime e seconde . . . . . . . . . . . . . 312.3.2 Alcune semplici regole di derivazione per funzioni in piu

variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5

Page 6: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

6 INDICE

2.3.3 Ottimizzazione . . . . . . . . . . . . . . . . . . . . . . . 332.3.4 Ottimizzazione vincolata . . . . . . . . . . . . . . . . . . 34

2.4 Esercizi su richiami di matematica . . . . . . . . . . . . . . . . . 362.5 Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . . 37

3 Richiami di inferenza statistica 433.1 Variabile casuale . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2 Distribuzione di probabilita . . . . . . . . . . . . . . . . . . . . . 433.3 Funzione di ripartizione . . . . . . . . . . . . . . . . . . . . . . . 443.4 Momenti di una variabile casuale . . . . . . . . . . . . . . . . . . 463.5 La distribuzione normale . . . . . . . . . . . . . . . . . . . . . . 473.6 Inferenza statistica parametrica . . . . . . . . . . . . . . . . . . . 483.7 Proprieta degli stimatori . . . . . . . . . . . . . . . . . . . . . . 49

3.7.1 Non distorsione o correttezza . . . . . . . . . . . . . . . . 493.7.2 Efficienza . . . . . . . . . . . . . . . . . . . . . . . . . . 493.7.3 Consistenza . . . . . . . . . . . . . . . . . . . . . . . . . 503.7.4 La legge dei grandi numeri (Versione piu semplice) . . . . 513.7.5 Teorema centrale del limite . . . . . . . . . . . . . . . . . 52

3.8 Variabili casuali in piu dimensioni . . . . . . . . . . . . . . . . . 533.8.1 La covarianza . . . . . . . . . . . . . . . . . . . . . . . . 54

3.9 Distribuzione normale multivariata . . . . . . . . . . . . . . . . . 553.10 Alcune distribuzioni notevoli . . . . . . . . . . . . . . . . . . . . 57

3.10.1 La distribuzioneχ2 . . . . . . . . . . . . . . . . . . . . . 573.10.2 La distribuzionet di Student . . . . . . . . . . . . . . . . 573.10.3 La distribuzione F di Fisher . . . . . . . . . . . . . . . . 59

3.11 La funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . 603.12 Stima di massima verosimiglianza . . . . . . . . . . . . . . . . . 623.13 Metodo dei momenti . . . . . . . . . . . . . . . . . . . . . . . . 623.14 Proprieta degli stimatori ottenuti per campionamento da una distri-

buzione gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . 633.15 Stima per intervallo . . . . . . . . . . . . . . . . . . . . . . . . . 643.16 Prova delle ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . 663.17 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 703.18 Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . . 72

4 Il modello di regressione lineare 814.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . . . 81

4.1.1 Il ruolo del termine di disturbo e le sue proprieta . . . . . 824.1.2 Ipotesi sui regressori . . . . . . . . . . . . . . . . . . . . 834.1.3 Rappresentazione matriciale del modello di regressione li-

neare . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844.1.4 Ricapitolando . . . . . . . . . . . . . . . . . . . . . . . . 85

4.2 Stima dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . 864.2.1 Metodo dei momenti (MM) . . . . . . . . . . . . . . . . 86

Page 7: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

INDICE 7

4.2.2 Metodo della massima verosimiglianza. . . . . . . . . . . 884.2.3 Metodo dei minimi quadrati (OLS=ordinary least squares) 904.2.4 Aspetti algebrici dello stimatore OLS . . . . . . . . . . . 934.2.5 Ricapitolazione sulla stima OLS dei parametriβ . . . . . 964.2.6 Interpretazioni alternative della stima OLS di un MRL . . 96

4.3 Stima del momento secondo (σ2) . . . . . . . . . . . . . . . . . . 1004.4 Analisi della varianza . . . . . . . . . . . . . . . . . . . . . . . . 1014.5 Regressione partizionata . . . . . . . . . . . . . . . . . . . . . . 1024.6 Anticipazione su test congiunti . . . . . . . . . . . . . . . . . . . 1034.7 Inferenza statistica sul modello di regressione . . . . . . . . . . . 104

4.7.1 Costruzione di intervalli di confidenza . . . . . . . . . . . 1044.7.2 Prova delle ipotesi . . . . . . . . . . . . . . . . . . . . . 1064.7.3 Un utile esempio: il MRL con 3 regressori . . . . . . . . 1094.7.4 Inferenza statistica nel modello di regressione multipla . . 1124.7.5 Esempio di regressione multipla conk = 3 regressori . . . 114

4.8 La previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1174.9 Diversi modi di costruire Test: Test LR, di Wald, LM . . . . . . . 119

4.9.1 Il test LR . . . . . . . . . . . . . . . . . . . . . . . . . . 1194.9.2 Il test di Wald . . . . . . . . . . . . . . . . . . . . . . . . 1214.9.3 Test LM (Lagrange Multipliers) (test dei moltiplicatori di

Lagrange) . . . . . . . . . . . . . . . . . . . . . . . . . . 1244.9.4 Ricapitolazione sulle modalita di costruzione dei test . . . 126

4.10 Stima del modello soggetto a vincoli lineari sui parametri . . . . . 1274.10.1 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . 129

4.11 Effetti dell’omissione di variabili rilevanti . . . . . . . . . . . . . 1314.12 Effetti dell’inclusione di variabili irrilevanti . . . . . . . . . . . . 1344.13 Gradi di liberta e indiceR2 . . . . . . . . . . . . . . . . . . . . . 136

4.13.1 Relazione tra test di significativita t, testF e indiceR2 . . 1374.14 Test di stabilita del MRL . . . . . . . . . . . . . . . . . . . . . . 138

4.14.1 Test basati sull’analisi della varianza . . . . . . . . . . . . 1384.14.2 Test previsivo di stabilita . . . . . . . . . . . . . . . . . . 1394.14.3 Alcuni commenti ai test di stabilita strutturale . . . . . . . 140

4.15 Eserciziario sulla regressione lineare . . . . . . . . . . . . . . . . 1414.15.1 Esercizio 1 . . . . . . . . . . . . . . . . . . . . . . . . . 1414.15.2 Esercizio 2 . . . . . . . . . . . . . . . . . . . . . . . . . 1414.15.3 Esercizio 3 . . . . . . . . . . . . . . . . . . . . . . . . . 1424.15.4 Esercizio 4 . . . . . . . . . . . . . . . . . . . . . . . . . 1424.15.5 Esercizio 5 . . . . . . . . . . . . . . . . . . . . . . . . . 1434.15.6 Esercizio 6 . . . . . . . . . . . . . . . . . . . . . . . . . 143

4.16 Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . . 1434.16.1 Esercizio 1 . . . . . . . . . . . . . . . . . . . . . . . . . 1434.16.2 Esercizio 2 . . . . . . . . . . . . . . . . . . . . . . . . . 1454.16.3 Esercizio 3 . . . . . . . . . . . . . . . . . . . . . . . . . 1454.16.4 Esercizio 4 . . . . . . . . . . . . . . . . . . . . . . . . . 147

Page 8: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

8 INDICE

4.16.5 Esercizio 5 . . . . . . . . . . . . . . . . . . . . . . . . . 1494.16.6 Esercizio 6 . . . . . . . . . . . . . . . . . . . . . . . . . 150

5 Variabili di comodo e variabili troncate 1535.1 Variabili di comodo come variabili esplicative . . . . . . . . . . . 153

5.1.1 Variabili di comodo a correzione di intercetta . . . . . . . 1535.1.2 Variabili dummy a correzione di intercetta per trattare dati

con stagionalita . . . . . . . . . . . . . . . . . . . . . . . 1555.1.3 Variabili dummy a correzione di intercetta per ”outliers” . 1565.1.4 Variabili dummy a correzione di intercetta e di pendenza . 1575.1.5 Variabili dummy per provare l’ipotesi di stabilita dei coef-

ficienti di regressione . . . . . . . . . . . . . . . . . . . . 1585.1.6 Test di Chow del secondo tipo (o test di validita previsiva) 159

5.2 Variabili dummy come variabili dipendenti . . . . . . . . . . . . . 1605.2.1 Modello di probabilita lineare . . . . . . . . . . . . . . . 1615.2.2 Alcune anticipazioni sulla stima di modelli con disturbi

eteroschedastici . . . . . . . . . . . . . . . . . . . . . . . 1625.2.3 Stima del modello di probabilita lineare . . . . . . . . . . 1645.2.4 Modelli probit e logit . . . . . . . . . . . . . . . . . . . . 1655.2.5 Modello Probit . . . . . . . . . . . . . . . . . . . . . . . 1695.2.6 Effetti di variazioni delle variabili esplicative . . . . . . . 1705.2.7 Indici di bonta di adattamento del modello . . . . . . . . . 171

5.3 Il modello Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . 1735.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1765.5 Soluzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

Page 9: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

Capitolo 1

Modelli economici e modellieconometrici

1.1 Il significato del termineeconometria

Il termine econometriasignifica letteralmente misurazione in economia. Con iltermine econometria ci si riferisce ad una disciplina scientifica basata sull’applica-zione di metodi statistici e matematici per l’analisi di dati economici con l’intentodi dare riscontro empirico alle teorie economiche.

Nel 1933 viene pubblicato il primo numero della rivista scientificaEconometri-ca, fondata dalla Econometric Society. Nel primo numero della rivista l’editorialestabiliva:

“obiettivo della Econometric Societye la promozione di studi cheunifichino gli aspetti teorico-quantitativo e empirico quantitativo e chesiano caratterizzato dal modo di pensare rigoroso proprio delle scienzenaturali”.

L’econometria quindi si compone dell’unione di matematica, statistica, teoriaeconomica e di aspetti computazionali per i qualie stato sicuramente rilevantel’enorme sviluppo delle capacita di calcolo degli elaboratori elettronici avvenutonegli ultimi venti anni.

L’econometria si basa sullo studio formalizzato dimodelli economici. Per mo-dello economico intendiamo una rappresentazione schematizzata della realta di unfenomeno economico, quali ad esempio il comportamento individuale o collettivodei consumatori, l’offerta di lavoro, le modalita operative delle autorita di politicamonetaria.

Generalmente, un modello economico fornisce una rappresentazione sempli-ficata della realta che intende spiegare. La semplicita del modelloe funzionale aconsentire di comunicare facilmente i risultati ottenuti dall’analisi del modello. Lasemplicita del modello deriva dall’adozione di ipotesi di partenza semplificatrici,finalizzate ad astrarre da quegli aspetti della realta osservata che non sono rilevanti

9

Page 10: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

10 CAPITOLO 1. MODELLI ECONOMICI E MODELLI ECONOMETRICI

per il fenomeno che si intende studiare. In sintesi, per modello economico si inten-de un insieme di assunzioni finalizzate alla descrizione di un particolare fenomenoeconomico.

Negli ultimi decenni la teoria economica ha assunto aspetti di crescente forma-lizzazione. Molto spesso i modelli economici prendono la forma di equazioni checonnettono misurazioni dei fenomeni che si intendono spiegare (ad esempio la di-soccupazione, il consumo aggregato, i profitti di un settore industriale . . . ) ai valoriassunti da una serie di variabili che si intendono misurare le cause del fenomenooggetto di indagine. Quando il modello economico prende la forma di relazionimatematiche,e possibile utilizzare i dati disponibili sul fenomeno studiato per ve-rificare la rispondenza del modello stesso alla realta osservata. La verifica empirica(sulla base dei dati disponibili) della validita dei modelli economici costituisce unodegli scopi fondamentali dell’analisi econometrica.

1.2 Forma usuale dei modelli econometrici

In generale, un modello econometrico assume la forma:

yt = f(xt) + εt, t = 1, 2, . . . , T,

doveyt e un vettore(n× 1) di variabili che il modello intende spiegare (variabiliendogene) che si riferiscono all’osservazione t-esima del campione in esame,f euna funzione che fa dipendereyt da un vettore(k × 1) di variabili esogenext

(variabili esplicative), eεt rappresenta un vettore(n × 1) di termini di disturbocasuali. La componentef(xt) viene detta partesistematicadel modello, mentre lacomponenteεt inviene indicata come partestocastica(o casuale) del modello.

Il pi u semplice esempio di modello econometricoe il seguente, doveyt, xt eεt

sono tutte grandezze scalari:

yt = α + βxt + εt, t = 1, 2, . . . , T.

Tale modello viene dettomodello di regressione lineare semplice: la variabile di-pendenteyt viene fatta dipendere in modo lineare da ulla grandezza esplicativaxt

ede influenzata dalla variabile casualeεt.La presenza della componente stocastica implica che il modello debba essere

trattato con tecniche inferenziali. L’aspetto fondamentalee quello della stima, cioedell’utilizzazione di un campione di dati osservabili sulle variabiliyt e xt per de-terminare quale sia la configurazione della parte sistematica del modello meglio ingrado di spiegare il comportamento campionario delle variabili endogene.

Accanto allo scopo di verifica empirica dei modelli economici, l’econometria sirivolge tradizionalmente anche alla produzione di modelli previsivi utilizzati da di-verse istituzioni. Gli intermediari finanziari, e piu in generale ogni impresa produt-tiva in grado di dedicare risorse alla programmazione delle proprie attivita futuretrova naturalmente utile disporre di scenari sul valore futuro delle variabili econo-miche che influiscono sull’andamento dei costi e dei ricavi. Accanto alle istituzioni

Page 11: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

1.3. MODELLI ECONOMETRICI 11

private, anche le autorita di politica economica (governi e banche centrali) e le isti-tuzioni di coordinamento internazionale (Fondo Monetario Internazionale, BancaMondiale ecc. . . ) necessitano di disporre di previsioni affidabili sull’andamento digrandezze economiche di rilievo nazionale o internazionale (cambi, prezzi, entrateed uscite del settore pubblico). Tali previsioni possono essere fondate sull’utilizzodi modelli econometrici adattati ai dati osservati per i fenomeni di interesse.

1.3 Modelli econometrici

Per modello econometrico intendiamo:

• un insieme di equazioni comportamentali che collegano tra loro piu variabilieconomiche e una struttura di componenti casuali, detti termini di disturbo;

• un insieme di affermazioni relative alla qualita dei dati utilizzati per la stimadel modello: per esempio la presenza o la rilevanza di errori di misurazionenelle variabili utilizzate;

• la specificazione della distribuzione di probabilita dei disturbi e degli erroridi misurazione nelle variabili utilizzate.

Ad esempio, il famoso modello di M. Friedman del comportamento dei consu-matori basato sul reddito permanente puo essere formalizzato nel modo seguente:

ci = α · y∗i + εi

y∗i = yi + ηi

p(εi) ∼ N(0, σ2ε)

p(ηi) ∼ N(0, σ2η)

In questo esempio la spesa per consumo individuale dell’individuo i-esimo (ci) vie-ne ipotizzata proporzionale al reddito permanente di tale individuo (y∗i ). Inoltre siipotizza che le decisioni di consumo individuali siano influenzata da un termine didisturboεi che rappresenta le caratteristiche individuali non esplicitamente misu-rabili dell’individuo i-esimo. Il reddito permanente dell’individuo i-esimoy∗i noneosservabile e differisce dal suo livello di reddito corrente (yi) per via di un terminecasualeηi che costituisce necessariamente l’errore di misurazione quando si in-tenda spiegare il comportamento di consumo sulla base del reddito osservabile.Siipotizza che i termini di disturboεi e gli errori di misurazioneηi siano variabilicasuali distribuite secondo una legge di distribuzione gaussiana (o Normale). Ilsimbolo∼ indica “si distribuisce come”.

Un altro esempioe dato dalla funzione di domanda di un determinato bene:

qdt = α + β · pt + ut

ut ∼ N(0, σ2u)

Page 12: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

12 CAPITOLO 1. MODELLI ECONOMICI E MODELLI ECONOMETRICI

In questo esempio, la quantita domandata del bene all’istante t-esimo (qdt ) viene

ipotizzata dipendere linearmente dal prezzo del bene allo stesso istante (pt). Inoltresi ipotizza che la domanda sia influenzata da un termine di disturbout distribuitonormalmente.

Nei modelli econometrici i termini di disturbo sono variabili inosservabili chedescrivono l’effetto sulla varibile dipendente di tutto quello che non puo esserericompreso nella parte sistematica del modello.

1.4 Aspetti essenziali dell’analisi econometrica

Le fasi dell’analisi econometrica sono le seguenti.

1. Formulare un modello in forma empiricamente verificabile attraverso la scel-ta di alcuni aspetti fondamentali quali:

• forma funzionale della relazione. A questo proposito, nella maggiorparte delle applicazioni econometriche sie soliti ricorrere ad una for-ma funzionale di tipo lineare. Tale scelta risponde essenzialmente allanecessita di rendere piu semplici gli aspetti computazionali.

• Variabili da inserire: si tratta di definire l’insieme di variabili esplicati-ve (dette “regressori”) contenute nel vettorext.

• Struttura probabilistica dei disturbi. Nell’analisi econometrica tradi-zionalee consuetamente utilizzata l’ipotesi di distribuzione normaledei termini di disturbo.

2. Stima del modello. I dati disponibili vengono utilizzati per generare stimedel modello econometrico. Nella maggior parte dei casi, la stima si concretanell’ottenimento di valori per i parametri del modello.

3. Uso del modello: il modello viene utilizzato per verificare la validita di teorieeconomiche, per produrre previsioni, per svolgere simulazioni di politicaeconomica, cioe per simulare gli effetti di manovre di politiche economichealternative.

Page 13: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

Capitolo 2

Richiami matematici

In questo capitolo esponiamo gli elementi di algebra matriciale e di matematica chesono necessari all’analisi econometrica oggetto degli argomenti trattati nel corso.Gli argomenti sono raggruppati per omogeneita e sono trattati al livello di formaliz-zazione richiesto dalla loro successiva utilizzazione. Gli studenti sono caldamenteinvitati a svolgere molti esercizi per impratichirsi con le operazioni matriciali.

2.1 Operatori sommatoria e produttoria

L’operatoresommatoriae indicato con il simbolo∑

e serve ad indicare operazionidi somma in modo compatto. L’operatore sommatoriae accompagnato da unacoppia di indici che determinano l’insieme degli addendi. Ad esempio:

n∑i=1

ai = a1 + a2 + . . . + an

L’operatoreproduttoria e indicato con il simbolo∏

e serve ad indicare ope-razioni di prodotto in modo compatto. L’operatore produttoriae accompagnato dauna coppia di indici che determinano l’insieme dei fattori. Ad esempio:

n∏i=1

ai = a1 · a2 · . . . · an

Le proprieta di questi operatori sono intuitive e facilmente verificabili.

2.2 Matrici e vettori

In questa sezione vengono descritti alcuni elementi fondamentali dell’algebra dellematrici necessari per la trattazione degli argomenti ricompresi all’interno del corso.

Per matrice si intende un insieme di numeri ordinati sum ≥ 1 righe en ≥ 1colonne. Per indicare una matrice si utilizza la notazione:

13

Page 14: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

14 CAPITOLO 2. RICHIAMI MATEMATICI

A(m×n)

= aij =

a11 a12 . . . a1n

a21 a22 . . . a2n

. . . . . . . . . . . .an1 an2 . . . ann

Si noti che gli elementi della matriceA sono caratterizzati da due indici, il

primo dei quali identifica la riga ed il secondo identifica la colonna di appartenza.Ad esempio, l’elemento sulla quarta riga, sesta colonnae indicato cona46. Unamatrice si dice di ordinim en quando ham righe en colonne.

Per vettore si indica una matrice particolare caratterizzata dall’avere una solariga (vettore riga) o una sola colonna (vettore colonna ). Ad esempio:

a(4×1)

=

1247

,

b(1×5)

=[

4 3 2 5 7]

2.2.1 Tipologia di matrici

Una matrice (n × n) si dice quadrata di ordinen quando il numero di righee parial numero delle sue colonne.

Una matrice quadrataA (n× n) si dicesimmetricaquando:

aij = aji,∀i, j

Ad esempio la matrice:

A(3×3)

=

1 2 42 5 74 7 4

e simmetrica, mentre la matrice

A(3×3)

=

1 2 52 5 74 7 4

non loe (confrontate gli elementia13 ea31).

Una matrice quadrataA, di dimensione (n× n) si dicediagonalequando:

A = aij , aij = 0,∀i 6= j.

Ad esempio, la matrice

Page 15: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.2. MATRICI E VETTORI 15

A =

2 0 00 4 00 0 7

e chiaramente diagonale.

Una matrice quadrataA, di dimensione (n × n) si dice triangolare inferiorequando:

A = aij , aij = 0,∀i < j.

Ad esempio, la matrice

A =

3 0 0 04 7 0 05 5 2 08 5 6 4

e triangolare inferiore.

Una matrice quadrataA, di dimensione (n × n) si dicetriangolare superiorequando:

A = aij , aij = 0,∀i > j.

Ad esempio, la matrice

A =

3 4 5 80 7 3 30 0 2 60 0 0 4

e triangolare superiore.

Una matrice quadrataA, di dimensione (n × n) si dicematrice identita e siindicaIn se:

A = aij ,

aij = 0,∀i 6= j,

aii = 1,∀i.

Ad esempio:

I4 =

1 0 0 00 1 0 00 0 1 00 0 0 1

.

Data una matriceA di dimensioni (n×m), la matriceB, di dimensione (m×n)si dice trasposta diA, e si indica con il simboloA′ ede definita come:

Page 16: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

16 CAPITOLO 2. RICHIAMI MATEMATICI

B = A′ = bij , bij = aji, , ∀i, j.

La matriceA′ viene quindi ottenuta “trasformando” le colonne diA in righe diA′.Ad esempio:

A =[

1 24 3

],A

′=[

1 42 3

].

2.2.2 Operazioni matriciali

Somma e differenza tra matrici

Date due matriciA e B, entrambe di dimensioni (m × n), e possibile definire lamatrice (m× n) C, definita commesommadi A eB:

C = A + B = cij ,

cij = aij + bij ,∀i, j.

Nello stesso modo si definisce ladifferenzatra due matriciA e B, entrambe didimensioni (m× n), la matrice (m× n) C:

C = A−B = cij ,

cij = aij − bij ,∀i, j.

Prodotto

Dati due vettori(n × 1) a e b, si definisce prodotto interno tra tali vettori lagrandezza scalare:

a′b = b′a =n∑

i=1

(ai · bi) .

Date le matriciA, di dimensioni(m×n) eB, di dimensioni(n×p), il prodottomatriciale traA eB e la matriceC, di dimensione(m× p)definita come:

C = A ·B = cij ,

cij =n∑

k=1

aik · bkj , i = 1, 2, . . . m, j = 1, 2, . . . , p.

In altri termini C e una matrice il cui elemento genericocij e dato dal prodottointerno tra lai-esima riga diA e laj-esima colonna diB. Ad esempio:

Page 17: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.2. MATRICI E VETTORI 17

[1 3 62 3 4

1 01 10 3

=[

4 215 15

].

Si noti che l’operazione di prodotto matriciale none definita per qualsiasi cop-pia di matriciA e B, ma tali matrici debbono verificare la condizione di confor-mabilita per il prodotto: il numero di colonne del primo fattoreA deve essere parial numero di righe del secondo fattoreB.

Si noti che ovviamente,A · B in generalee diverso daB ·A: in generalequando il prodottoA ·B e possibile none neppure detto cheB ·A lo sia.

Il prodotto e la somma matriciale hanno le seguenti proprieta:

1. Proprieta distributiva: seA e una matrice(m × n) e B e C sono matrici(n× q):

A·(B + C) = A ·B + A ·C.

2. Proprieta associativa: date le matriciA,B,C di dimensioni opportune, siha:

(A + B) + C = A + (B + C),(A ·B) ·C = A· (B ·C)

Moltiplicazione per una grandezza scalare

Data la matrice(m× n) A e la grandezza scalarec, e possibile definire la matriceC, di dimensioni(m× n) derivante dalprodotto scalaredi c perA:

C = c ·A = A·c = cij , cij = c · aij , i = 1, 2, . . . ,m, , j = 1, 2, . . . n.

2.2.3 Vettori particolari

Il vettore somma

Si definisca il vettoresommadi dimensione(n× 1):

in =

11. . .1

Tale vettore se post-moltiplica una matriceA di dimensione(m × n) genera

un vettorec (m × 1) che contiene le somme degli elementi sulle singole righe diA:

A · in = c = ci , ci =n∑

j=1

aij , i = 1, 2, . . . ,m.

Page 18: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

18 CAPITOLO 2. RICHIAMI MATEMATICI

Ad esempio:

[1 2 1 43 6 1 0

1111

=[

810

].

Il vettore somma di dimensione(m × 1), se trasposto e utilizzato a premolti-plicare una matrice A di dimensione(m× n), genera un vettorec′ , di dimensione(1× n) che contiene le somme degli elementi sulle singole colonne diA:

i′n ·A = c′ = cj , cj =n∑

i=1

aij , j = 1, 2, . . . , n.

Il vettore estrazione

Il vettore estrazioneuin, di dimensione(n × 1), e definito come un vettore di ele-

menti tutti pari a zero tranne l’elemento i-esimo chee pari a uno. In altri terminiela colonna i-esima della matriceIn:

uin =

00. . .1. . .0

→ i-esimo elemento

Il vettore estrazioneuin, se utilizzato per post-moltiplicare una matriceA di

dimensione(m × n) genera un vettorec di dimensione(n × 1) che coincide conla i-esima colonna diA. Ad esempio:

A · u34 =

[1 2 1 43 6 1 0

0010

=[

11

].

Se invece il vettore estrazioneuim viene trasposto e utilizzato per pre-moltiplicare

una matriceA di dimensione(m×n) genera un vettore di dimensione(1×n) checoincide con lai-esima riga diA. Ad esempio:

[0 0 1

] 1 0 5 62 0 4 34 5 5 4

=[

4 5 5 4].

Page 19: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.2. MATRICI E VETTORI 19

2.2.4 Traccia di una matrice quadrata

Sia data una matrice quadrataA di dimensione(n × n). Si definice traccia diA(indicata cometr(A)) la somma degli elementi diagonali diA:

tr(A) =n∑

i=1

aii.

Le proprieta dell’operatore traccia sono le seguenti:

tr(A ·B) = tr(B ·A),tr(A ·B ·C) = tr(C ·A ·B) = tr(B ·C ·A),

(invarianza rispetto a permutazioni cicliche),

tr(λ ·A) = λ · tr(A), doveλ e una grandezza scalare.

2.2.5 Matrici partizionate

Data la matriceA, di dimensione(m× n), e possibile partizionare tale matrice indiversi blocchi. Ad esempio:

A =

A11(m1×n1)

A12(m1×n2)

A21(m2×n1)

A22(m2×n2)

,m = m1 + m2, n = n1 + n2

In caso di prodotto matriciale tra matrici conformabili per il prodotto all’internodelle quali siano stati definiti blocchi conformabili per prodotto, si puo ricavare:

A·(mn)

B(np)

=

A11(m1×n1)

A12(m1×n2)

A21(m2×n1)

A22(m2×n2)

· B11

(n1×p1)B12

(n1×p2)

B21(n2×p1)

B22(n2×p2)

=

=[

(A11 ·B11 + A12 ·B21) (A11 ·B12 + A12 ·B22)(A21 ·B11 + A22 ·B21) (A21 ·B12 + A22 ·B22)

],

m1 + m2 = m,n1 + n2 = n, p1 + p2 = p.

2.2.6 Il determinante di una matrice quadrata

Data una matrice quadrataA, di dimensione(n× n), si definiscedeterminantediA (e lo si indica con|A|) la quantita scalare:

|A| =n∑

j=1

(−1)i+j · aij · |Aij | , (2.1)

Page 20: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

20 CAPITOLO 2. RICHIAMI MATEMATICI

doveAij e la matrice che si ottiene a partire da A sopprimendone la riga i-esima ela colonna j-esima. Ad esempio:

|A| =

1 2 43 1 01 0 1

= 1 ·∣∣∣∣ 1 0

0 1

∣∣∣∣− 2 ·∣∣∣∣ 3 0

1 1

∣∣∣∣+ 4 ·∣∣∣∣ 3 1

1 0

∣∣∣∣ == 1− 6− 4 = −9

Data l’espressione con cui si ricava il determinante, risulta particolarmente fa-cile calcolare il determinante di una matrice triangolare. Infatti seA, di dimensione(n× n), e triangolare (superiore o inferiore), data la (2.1), allora si ha:

|A| =n∏

i=1

aii

In altri termini, per una matrice triangolare, il determinantee pari al prodotto deglielementi diagonali.

Nel caso della matrice identita, e facile mostrare che il determinantee pari a 1:

|In| = 1,∀n.

Si noti che, date le matrici quadrate(n× n) A eB, si ha:

|A ·B| = |A| · |B| .

2.2.7 La matrice aggiunta

Data la matrice quadrata(n × n) A, si definisceA+,matrice aggiuntadi A, lamatrice che soddisfa:

A+ ·A = A ·A+ = |A| · In.

(la matrice aggiunta pre-moltiplicata o post-moltiplicata per A genera una matricediagonale con elementi tutti pari al determinante di A sulla diagonale).

La matriceA+ viene ottenuta come:

A+ =

a+ij

,

a+ij = (−1)i+j · |Aji| .

2.2.8 La matrice inversa

Data la matrice quadrata(n×n) A,con|A| 6= 0,si definisceA−1la matrice inversatale per cui:

A−1 ·A = A ·A−1 = In.

Data la matrice quadrata(n× n) A,con|A| 6= 0, si ha:∣∣A−1∣∣ = |A|−1

Page 21: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.2. MATRICI E VETTORI 21

(il determinante dell’inversae pari al reciproco del determinante, quando il deter-minantee diverso da zero).

Si noti chee possibile ottenere la matrice inversa di A come:

A−1 = |A|−1 ·A+.

(la matrice inversa puo essere calcolata a partire dalla matrice aggiunta dividendociascun elemento della matrice aggiunta per il determinante diA ). Si noti cheepossibile calcolare la matrice inversa solo per matrici con determinante diverso dazero. Tali matrici vengono per questo motivo dette invertibili. Ad esempio, data lamatrice:

A =

1 3 50 1 02 1 0

,

si ha:

A+ =

0 5 −50 −10 0−2 5 1

,

|A| = −10,

A−1 =

0 −12

12

0 1 015 −1

2 − 110

.

2.2.9 Alcune proprieta rilevanti

• Date due matrici conformabili per prodottoA (m× n) eB (n× p) :

(A ·B)′ = B′ ·A′

(si noti l’inversione di ordine tra i fattori)

• Date due matrici quadrate, di dimensioni (nn) ed invertibili A (mn) e B(np),vale:

(A ·B)−1 = B−1 ·A−1

(si noti l’inversione di ordine tra i fattori).

• Data una matrice quadrata ed invertibileA (n×n), la trasposta della matriceinversae uguale all’inversa della trasposta:

(A−1)′ = (A′)−1.

• Data una matrice quadrata ed invertibileA (n× n) ed uno scalarec, si ha:

(c ·A)−1 =1c·A−1,∀c 6= 0.

Page 22: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

22 CAPITOLO 2. RICHIAMI MATEMATICI

2.2.10 Matrici idempotenti

La matrice quadrataA (n× n) si dice idempotente se:

Ak = A,∀k > 0.

In altri termini, moltiplicando per se stessa la matriceA quante volte si vuole siottiene sempreA. Alcuni esempi di matrice idempotente sono i seguenti:

A = [0](n×n)

,

A = In,

A = in · (i′n · in)−1 · i′n =1n· in · i′n =

1n·

1 1 . . . 11 1 . . . 1. . . . . . . . . . . .1 1 . . . 1

.

Data la matrice(n× k) A tale per cui:∣∣A′A∣∣ 6= 0,

si noti che le matrici:

B(n×n)

= A · (A′ ·A)−1 ·A′,

C(n×n)

= In −A · (A′ ·A)−1 ·A′

sono idempotenti (lo si verifichi moltiplicando ciascuna matrice per se stessa ).

2.2.11 Spazio vettoriale

Si consideri il vettore(k × 1) a:

a(k×1)

=

a1

a2

. . .ak

puo essere inteso come espressione delle coordinate del puntoa nello spazio realek-dimensionale (Rk), cosı come da figura (2.2.11) perk = 2. Si noti che qualunquevettore ottenuto come risultato del prodotto tra uno scalareλ ed il vettorea (a∗=λ ·a) rappresenta le coordinate di un puntoa∗ che si trova sulla semiretta che uniscel’origine degli assi e il puntoa.

Inoltre si noti (figura 2.2.11) che, dati due vettori(2× 1) a eb, che la somma(C) e la differenza (d) tra a e b rappresentano rispettivamente i puntic e d nellospazio reale bidimensionale.

Definiamo spaziok-dimensionaleRk l’insieme di tutti i vettori reali di dimen-sione(k × 1).

Le proprieta elementari diRk sono:

Page 23: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.2. MATRICI E VETTORI 23

0 1 2 3 4 5 6 7 8 9

1

2

3

4

5

6

7

a

b=2a

1. Chiusura rispetto alla somma: datia ∈ Rk e b ∈ Rk, il vettore derivantedalla sommac = a + b appartiene aRk.

2. Chiusura rispetto al prodotto scalare: dato qualunque vettorea ∈ Rk equalunque grandezza scalareλ, il vettorea∗ = λ·a appartiene aRk.

Si definiscespazio vettorialequalsiasi insieme di vettori chiuso rispetto allamoltiplicazione scalare ed alla somma.

2.2.12 Base di uno spazio vettoriale

Dato uno spazio vettorialeS, si definiscebasedi S un insieme di vettoria1,a2, . . . ,ak

che appartengono aS con la proprieta che qualunque vettore appartenente aS puoessere ottenuto come combinazione lineare dia1,a2, . . . ,ak:

c =∑

λi · ai,∀c ∈ S.

Ad esempio, per lo spazio vettorialeR2, i vettori:

a1 =[

10

],a2 =

[01

]sono una base dato che qualunque vettore(2 × 1) puo essere ottenuto come com-binazione lineare dia1ea2.

2.2.13 Sottospazio vettoriale

Si definisceS(a1,a2, . . . ,ak), sottospazio vettorialeassociato ad un insieme divettoria1,a2, . . . ,ak lo spazio vettoriale “coperto” da tali vettori: qualunque vetto-re appartenente aS(a1,a2, . . . ,ak) puo essere espresso come combinazione lineare

Page 24: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

24 CAPITOLO 2. RICHIAMI MATEMATICI

−2 −1 0 1 2 3 4 5 6 7

1

2

3

4

5

6

7

a

b

c

d

di a1,a2, . . . ,ak:

c =∑

λi · ai,∀c ∈ S(a1,a2, . . . ,ak).

Ad esempio, i vettori:

a =

120

,b =

230

,

non copronoR3. Infatti il vettore:

c =

123

,

non puo essere espresso come combinazione lineare dia e b. Il sottospazio vet-toriale generato daa eb e invece l’insieme di tutti i vettori appartenenti aR3 chehanno terzo elemento pari a zero.

2.2.14 Rango di una matrice

Si definiscespazio colonnadi una matriceA di dimensione(m × n), lo spaziovettoriale coperto dai vettori colonna contenuti nella matrice. Si definiscerangocolonnala dimensione di tale spazio vettoriale. Ad esempio, data la matrice:

A =[

3 84 6

]

Page 25: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.2. MATRICI E VETTORI 25

ha dimensione pari a 1. Si noti infatti (figura 2.2.11) che sia la prima colonna chela seconda della matriceA rappresentano punti che giacciono sulla retta passantedall’origine diR2 e avente inclinazione+2. Qualunque combinazione lineare dellecolonne diA rappresenta punti su tale semiretta.

Si noti che per ogni matriceA (m× n) vale:

Rango riga≡ Rango colonna,

ossia:

dimensione(spazio riga) ≡ dimensione(spazio colonna).

Si noti inoltre che, date due matrici conformabili per prodottoA (m× n) eB(n× p), si ha:

rango(A ·B) ≤ min(rango(A), rango(B)).

2.2.15 Indipendenza lineare di vettori

Datin vettori di dimensione (n×1) a1, a2, . . . ,an, tali vettori si diconolinearmenteindipendentise:

n∑i=1

λi · ai = 0

vale solo per:λ1 = λ2 = . . . = λn = 0.

In altri termini i vettoria1, a2, . . . ,an sono linearmente indipendenti se nessu-no tra essi puo essere espresso come combinazione lineare degli altrin− 1.

Si noti che data la matriceA (n×n), tale matrice avra determinante diverso dazero se e solo se i suoi vettori riga (o, chee lo stesso, i suoi vettori colonna) sonolinearmente indipendenti. Ad esempio, per la matrice:

A =[

1 152 30

]ha determinante pari a zero e i suoi vettori colonna (riga) non sono linearmenteindipendenti: ad esempio la seconda riga puo essere ottenuta moltiplicando per 2la prima.

2.2.16 Autovalori e autovettori

Data la matriceA , di dimensione(n× n), il sistema:

A(n×n)

· x(n×1)

= λ(1×1)

· x(n×1)

⇒ (A− λ · In) · x = [0](n×1)

Page 26: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

26 CAPITOLO 2. RICHIAMI MATEMATICI

ammette soluzionix 6= [0](n×1)

se e solo se:

|A− λ · In| = 0. (2.2)

altrimenti la matrice(A−λ ·In) puo essere invertita e l’unica soluzioneex = [0].Le radiciλi (i = 1, 2, . . . , n) dell’equazione (2.2): sono chiamatiautovalori.

Le soluzionixi (i = 1, 2, . . . , n) associate ad ogni autovaloreλi :

A · xi = λi · xi, i = 1, 2, . . . , n.

sono dettiautovettori.Ad esempio,per la matrice:

A =[

1 22 2

], |A− λ · I2| =

∣∣∣∣ 1− λ 22 2− λ

∣∣∣∣⇒−2− 3λ + λ2 = 0 ⇒ λ1 =

32

+12

√17, λ2 =

32− 1

2

√17.

Si noti che la relazioni tra autovalori, autovettori e la matriceA puo esserescritta in modo compatto come:

A(n×n)

· X(n×n)

= X(n×n)

· Λ(n×n)

,

X = [x1,x2, . . . ,xn] ,

Λ =

λ1 0 0 00 λ2 0 00 0 . . . 00 0 0 λn

Un utile risultato relativo agli autovalorie il seguente: se tutti gli autovalori

λ1, λ2, . . . , λn sono distinti allora gli autovettorix1,x2, . . . ,xn sono linearmen-te indipendenti. Data l’indipendenza lineare delle colonne diX (e quindi la suainvertibilita), e possibile scrivere:

A = X ·Λ ·X−1.

Una importante proprieta degli autovalori di una qualunque matrice quadrataA di dimensioni(n×n) e che il determinante di tale matricee pari al prodotto deisuoi autovalori:

|A| =n∏

i=1

λi

Page 27: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.2. MATRICI E VETTORI 27

2.2.17 Serie geometriche di matrici

Data la matrice quadrata(n× n) A, si definisca la somma:

ST = In + A + A2 + . . .AT =T∑

i=0

Ai.

Pre-moltiplicandoST perA, si ottiene:

A · ST = A + A2 + . . .AT+1 =T+1∑i=0

Ai+1.

Sottraendo le due precedenti espressioni tra loro, si ricava:

(In −A) · ST =T∑

i=0

Ai −T+1∑i=0

Ai+1 = (In −AT+1).

Se la matrice(In −A) e invertibile (in termini equivalenti, seλ = 1 NON eautovalore diA), allorae possibile pre-moltiplicare per(In −A)−1 l’espressioneprecedente ed ottenere:

ST = (In −A)−1·(In −AT+1).

E possibile mostrare che che se tutti gli autovalori diA sono minori di 1 inmodulo:

|λi| < 1, i = 1, 2, . . . , n,

allora:lim

T→∞AT+1 = [0]

(n×n)

,

e quindi:

limT→∞

ST = (In −A)−1.

2.2.18 Matrici definite, semidefinite positive e negative

La matriceA simmetrica(n× n) viene dettadefinita positivase:

x′(1×n)

· A(n×n)

· x(n×1)

> 0,∀ x(n×1)

6= [0](n×1)

.

A simmetrica(n× n) viene dettasemidefinita positivase:

x′(1×n)

· A(n×n)

· x(n×1)

≥ 0,∀ x(n×1)

6= [0](n×1)

.

Page 28: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

28 CAPITOLO 2. RICHIAMI MATEMATICI

A simmetrica(n× n) viene dettadefinita negativase:

x′(1×n)

· A(n×n)

· x(n×1)

< 0,∀ x(n×1)

6= [0](n×1)

.

A simmetrica(n× n) viene dettasemi-definita negativase:

x′(1×n)

· A(n×n)

· x(n×1)

≤ 0,∀ x(n×1)

6= [0](n×1)

.

Gli autovalori di una matrice positiva sono tutti positivi, dato che:

A · xi = λi · xi,

x′i ·A · xi = λi · x′i · xi>0=⇒λi > 0, i = 1, 2, . . . , n.

Con ragionamenti simili si puo mostrare che tutti gli autovalori di matrici se-midefinite positive sono non-negativi, che tutti gli autovalori di matrici definitenegative sono negative e che tutti gli autovalori di matrici semidefinite negativesono non positivi. Quindi un modo per verificare le proprieta di definitezza di unamatricee quello di controllare il segno degli autovalori. Cio none molto agevoleper una matrice di dimensioni superiori a(2 × 2), dato che per trovare gli auto-valori e necessario in tali casi risolvere equazioni di grado superiore al secondoche non sempre sono risolubili senza l’ausilio di un computer. Per tale motivoepossibile fare riferimento ad un criterio alternativo, basato sulla verifica del segnodei minori principali. Per minore principale di ordinei (i = 1, 2, . . . , n) di unamatrice quadrataA (n×n) si intendono i determinanti della sottomatrice ottenutaconsiderando solo le primei righe ei-colonne diA. Una matricee definita positivase tutti i suoi minori principali hanno segno positivo ede definita negativa se i suoiminori principali hanno segni alternati a partire da−.

Fattorizzazione di una matrice definita positiva

Qualunque matriceΩ (n × n) definita positiva puo essere fattorizzata nel modoseguente:

Ω = A ·D ·A′,

doveA e triangolare inferiore con elementi diagonali unitari:

aij = 0,∀j > i, aii = 1, i = 1, 2, . . . , n,

eD e una matrice diagonale con elementi diagonali posiivi:

dij = 0,∀i 6= j, dii > 0, i = 1, 2, . . . n.

Tale scomposizionee unica.Da questa scomposizionee possibile ricavare la cosiddetta fattorizzazione di

Choleski diΩ :

Page 29: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.2. MATRICI E VETTORI 29

Ω = (A ·D1/2) · (A ·D1/2)′ = P ·P′,

P = A ·D1/2,D1/2 =

d11 0 . . . 00

√d22 . . . . . .

. . . . . . . . . . . .0 . . . . . .

√dnn

.

Si noti che la matriceP, detta fattore di Choleski diΩ, ha dimensione(n×n) edetriangolare inferiore con elementi diagonali positivi e pari a

√d11,

√d22, . . . ,

√dnn.

2.2.19 Prodotto di Kronecker (prodotto tensore)

Date due matriciA, di dimensione(m×n) eB, di dimensione(p×q), si definisceprodotto di Kronecker traA eB la matriceC, di dimensione(m · p× n · q) :

C(m·p×n·q)

= A(m×n)

⊗ B(p×q)

=

a11 ·B a12 ·B . . . a1n ·Ba21 ·B a22 ·B . . . a2n ·B

. . . . . . . . . . . .an1 ·B an2 ·B . . . anm ·B

.

Ad esempio:

A =[

1 23 4

],B =

5 6 78 9 1011 12 13

,

C = A⊗B =[

1 23 4

]⊗

5 6 78 9 1011 12 13

=

=

5 6 7 10 12 148 9 10 16 18 2011 12 13 22 24 2615 18 21 20 24 2824 27 30 32 36 4033 36 39 44 48 52

.

Le piu importanti proprieta dell’operatore prodotto di Kronecker sono le se-guenti:

1) Date le matriciA, di dimensione(m× n) eB, di dimensione(p× q):

(A⊗B)′ = A′ ⊗B′.

2) Date le matriciA, di dimensione(m × n) ,B, di dimensione(p × q) e C,di dimensione(r × s):

(A⊗B)⊗C = A⊗ (B⊗C).

Page 30: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

30 CAPITOLO 2. RICHIAMI MATEMATICI

3) Date le matriciA eB, di dimensione(m× n) eC, di dimensione(r × s):

(A + B)⊗C = A⊗C + B⊗C.

4) Date le matriciA (m× n), B (p× q), C (n× r) eD (q × s) :

(A

(m×n)⊗ B

(p×q)

(C

(n×r)⊗ D

(q×s)

)=(A ·C)

(m×r)

⊗ (B ·D)(p×s)

= E(m·p×r·s)

5) Date le matrici quadrate ed invertibiliA (m×m) eB (n× n):

(A⊗B)−1 = A−1 ⊗B−1.

2.2.20 L’operatorevec

Data una matrice(m× n) A :

A = [a1,a2, . . . ,an] ,

l’operatorevec trasforma la matriceA in un vettore di dimensione(mn × 1),allineando uno sopra all’altra le colonne diA:

vec(A) =

a1

a2

. . .an

.

Ad esempio:

A =[

1 3 52 4 6

],

vec(A) =

123456

.

Una proprieta rilevante dell’operatorevec e la seguente: date le matrici con-formabili per prodottoA (m× n), B (n× p) eC (p× q), e possibile dimostrare

Page 31: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.3. FUNZIONI IN PIU VARIABILI 31

che:

vec

[A

(m×n)· B

(n×p)· C

(p×q)

]= d

(m·q×1)=

=

[Iq⊗ (A ·B

(m×p)

)

]· vec (C)

(p·q×1)

=

=[C′ ⊗A

](q·m×p·n)

· vec (B) ,(n·p×1)

=[(C′B′)⊗ Im

](q·m×·n·m)

· vec (A) .(m·n×1)

2.3 Funzioni in piu variabili

Data la grandezza scalarey e il vettore(n× 1) x:

y ∈ R1,

x ∈

x1

x2

. . .xn

,

si definisce funzioneRn → R1 (funzione scalare di un vettore) la funzione:

y = f(x) = f(x1, x2, . . . , xn). (2.3)

Ad esempio, si consideri la funzione di produzione Cobb-Douglas omogeneadi primo grado, che fa dipendere il prodottoY dall’utilizzazione di capitale (K) elavoro (L):

Y = f(K, L) = A ·Kα · L1−α,

A > 0, 0 < α < 1.

2.3.1 Derivate parziali prime e seconde

Si definisce la derivata prima parziale della funzione (2.3) rispetto al suo i-esimoargomento (xi, i = 1, 2, . . . , n) la seguente espressione:

∂f(x)∂xi

= fi(x) lim∆→0

∆−1 · [f(x1, . . . , xi + ∆, ..xn)− f(x1, . . . , xi, ..xn)] .

Ad esempio, per la funzione di produzione Cobb-Douglas, la derivata parzialerispetto al capitale (produttivita marginale del capitale)e:

fK(K, L) =∂f(K, L)

∂K= α ·A ·Kα−1 · L1−α.

Page 32: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

32 CAPITOLO 2. RICHIAMI MATEMATICI

Si definisce gradiente il vettore delle derivate prime di una funzione scalare diun vettore:

∇(n×1)

=

∂f(x)∂x1

∂f(x)∂x2

. . .∂f(x)∂xn

.Ad esempio, per la funzione lineare:

f(x)(n×1)

= a(1×n)

′ x(n×1

+ b(1×1)

=n∑

i=1

ai · xi + b,

il gradientee:

∇(n×1)

=

a1

a2

. . .an

= a(n×1)

.

Per la funzione di produzione Cobb-Douglas, il gradientee invece:

∇(2×1)

=

[∂f(K,L)

∂K∂f(K,L)

∂L

]=[

α ·A ·Kα−1 · L1−α

(1− α) ·A ·Kα · L−α

].

Le derivate seconde di una funzionef(x) scalare di un vettoreRn → R1 sonodefinite come:

fij =∂2f

∂xi∂xj=

∂(

∂f∂xj

)∂xi

, fji =∂2f

∂xj∂xi=

∂(

∂f∂xi

)∂xj

,

fij = fji, i = 1, 2, . . . , n, j = 1, 2, . . . , n.

E possibile definire una matrice(n × n) H, chiamata matrice hessiana, checontiene le derivate parziali seconde della funzionef(x):

H(n×n)

=

∂2f

∂x1∂x1

∂2f∂x1∂x2

. . . ∂2f∂x1∂xn

∂2f∂x2∂x1

∂2f∂x2∂x2

. . . ∂2f∂x2∂xn

. . . . . . . . . . . .∂2f

∂xn∂x1

∂2f∂xn∂x2

. . . ∂2f∂xn∂xn

=∂

[(∂f(x)

∂x

)′]∂x

=∂(5′)

∂x.

Si noti che la matrice hessianae naturalmente simmetrica, dato che:

∂2f

∂xi∂xj=

∂2f

∂xj∂xi∀i, j.

Ad esempio, per la funzione di produzione Cobb-Douglas. la matrice hessianae:

H(2×2)

=[

α · (α− 1) ·A ·Kα−2 · L1−α α · (1− α) ·A ·Kα−1 · L−α

α · (1− α) ·A ·Kα−1 · L−α −α · (1− α) ·A ·Kα · L−α−1

]

Page 33: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.3. FUNZIONI IN PIU VARIABILI 33

2.3.2 Alcune semplici regole di derivazione per funzioni in piu varia-bili

Si notino le seguenti regole di derivazione per funzioni scalari di vettori.

1. Data la funzionef(x) = a′(1×n)

· x(n×1)

, il gradiente di tale funzionee:

∂f

∂x= a

(n×1).

2. Data la funzionef(x) = x′(1×n)

· a(n×1)

, il gradiente di tale funzionee:

∂f

∂x= a

(n×1).

3. Data la funzionef(x) = x′(1×n)

· A(n×n)

· x(n×1)

, il gradiente di tale funzionee:

∂f

∂x=

(A′

(n×n)+ A

(n×n)

)· x

(n×1)

Se la matriceA e simmetrica, ovviamente il gradientee:

∂f

∂x= 2· A

(n×n)x

(n×1)

2.3.3 Ottimizzazione

Nel caso di una funzione scalare di uno scalareR1 → R1, y = f(x), la condizionedel primo ordine per avere un massimo o un minimoe:

∂f

∂x= 0,

mentre le condizioni del secondo ordine sono:

∂2f

∂x2> 0 per unmin imo,

∂2f

∂x2< 0 per un massimo.

Nel caso di funzione scalare di un vettoreRn → R1, y = f(x), le condizionidel primo ordine per avere un massimo o un minimo sono date dal sistema dinequazioni:

∂f

∂x= ∇ = [0]

(n×1)

,

Page 34: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

34 CAPITOLO 2. RICHIAMI MATEMATICI

mentre le condizioni del secondo ordine sono:

H(n×n)

definita positiva per un minimo,

H(n×n)

definita negativa per un massimo.

2.3.4 Ottimizzazione vincolata

Sia data la funzione scalare di un vettoreRn → R1, y = f(x) e si immagini didover massimizzare la funzione rispetto ax sotto un insieme dik vincoli sux:

Maxx

f(x)

con :

c1(x) = d1

c2(x) = d2

. . .ck(x) = dk

oppure :

c(x)(k×1)

= d(k×1)

Un modo di procedere al calcolo del massimo vincolatox∗ e quello di costruire

la funzione lagrangiana:

L(x, λ) = f(x) +n∑

i=1

λi · [ci(x)− di] = f(x) + λ′ · [c(x)− d] ,

λ =

λ1

λ2

. . .λk

.

Gli elementi del vettore(k × 1) λ sono dettimoltiplicatori di Lagrangee con-sentono di tenere in considerazione i vincoli che la soluzione del problema di ot-timizzazione deve soddisfare. La costruzione della funzione lagrangiana consentedi impostare il problema di ottimizzazione vincolata come un problema di otti-mizzazione libera, semplicemente specificando le condizioni del primo ordine inrelazione ad un vettore di variabili di scelta di dimensione superiore:

z(n+k)×1

=[

].

Le condizioni del primo ordine sono:

∂L(x, λ)∂x

= [0](n×1)

⇒∂f(x)∂x

(n×1)

+

∂c(x)′

∂x(n×k)

· λ(k×1)

= [0](n×1)

,

∂L(x, λ)∂λ

= [0](k×1)

[c(x)− d

(n×k)

]= [0]

(k×1)

.

Page 35: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.3. FUNZIONI IN PIU VARIABILI 35

Dalla risoluzione del sistema delle condizioni del primo ordine si ricava lasoluzionex∗ che ottimizza la funzionef(x) sotto i vincolic(x) = d.

Le proprieta dell’ottimo vincolato sono le seguenti:

• la funzione valutata nel punto di massimo (minimo) vincolatox∗ e non su-periore (non inferiore) alla funzione valutate nel punto di massimo (minimo)liberox∗∗ :

f(x∗) ≤ f(x∗∗) nel caso di massimo vincolato,

f(x∗) ≥ f(x∗∗) nel caso di minimo vincolato.

Infatti: [∂f(x)

∂x

]x=x∗

+[∂c′(x)

∂x

]x=x∗

· λ = [0](n×1)

e quindi il gradiente valutato in corrispondenza dix = x∗,[

∂f(x)∂x

]x=x∗

, e

diverso da [0](n×1)

.

• Quando l’ottimo vincolato coincide con quello vincolato, si ha:

λ = [0](k×1)

: x∗ = x∗∗ ⇔ λ = [0](k×1)

.

Ad esempio, si consideri il seguente problema di massimizzazione vincolata:

Maxx

f(x) = a′(1×3)

· x(3×1)

− x′(3×1)

· A(3×3)

· x(3×1)

,

con :

x1 − x2 + x3 = 0x1 + x2 + x3 = 0

,

oppure :

C

(2×3)· x

(3×1)= d

(2×1)

Questoe il caso di ottimizzazione di una funzione quadratica inx con vincolilineari (e omogenei, dato ched = [0]). Le condizioni del primo ordine sono:

∂L(x, λ)∂x

= [0](3×1)

⇒ (2.4)

a(3×1)

−2· A(3×3)

· x(3×1)

+ C′(3×2)

· λ(2×1)

= [0](3×1)

, (2.5)

∂L(x, λ)∂λ

= [0](2×1)

⇒ (2.6)

C(2×3)

· x(3×1)

= [0](2×1)

. (2.7)

Page 36: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

36 CAPITOLO 2. RICHIAMI MATEMATICI

La soluzione di queste due insiemi di equazioni con incognitex eλ fornisce ilmassimo vincolato della funzione: esplicitando l’espressione (2.4) rispetto ax siottiene:

x =12·A−1 ·

(a + C′ · λ

). (2.8)

Sostituendo quest’ultima espressione nella (2.6) si ottiene:

C · 12·A−1 ·

(a + C′ · λ

)= [0] ⇒ λ = −

(C ·A−1 ·C′)−1 ·C ·A−1 · a.

Sostituendo quest’ultima espressione nella (2.8) si ottiene finalmente il valore dix:

x =12·A−1 ·

[a−C′ ·

(C ·A−1 ·C′)−1 ·C ·A−1 · a

].

2.4 Esercizi su richiami di matematica

1. Per le matrici:

A =[

1 3 32 4 1

],B =

2 41 56 2

si calcolino:

A ·B,

A′ ·B′,

B ·AB′ ·A

2. Si espanda il prodotto matriciale:

X =[

A ·B + (C ·D)′] [

(E · F)−1 + G ·H]′

,

dove tutte le matrici sono quadrate ed invertibili.

3. Data la matrice:

A =

1 4 73 2 55 8 8

calcolarne il determinante, la traccia e l’inversa.

4. Si calcoli la scomposizione di Choleski per la matrice:

A =[

25 77 13

].

Page 37: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.5. SOLUZIONI AGLI ESERCIZI 37

5. Quale operazione si compie post-moltiplicando una matriceA (m × n)per una matrice diagonaleΛ di dimensione(n × n)? E se invece la sipre-moltiplica per una matrice diagonaleΓ di dimensione(m×m)?

6. Date le seguenti forme quadratiche:

a)y = x21 − 14 · x1 · x2 + 11 · x2

2

b) y = 5 · x21 + x2

2 + 7 · x23 + 4 · x1 · x2 + 6 · x1 · x3 + 8 · x2 · x3,

dire se sono positive per tutti i valori dix1, x2, x3.

7. Si calcolino gli autovalori della matrice:

A =

2 4 34 8 63 6 5

.

8. Si risolva, scrivendo la funzione lagrangiana e le condizioni del primo ordi-ne, il problema di massimizzazione vincolata dell’utilita del consumatore:

Max U(q)q

= qα1 · q

β2 , 0 < α < 1, 0 < β < 1,q =

[q1

q2

],

con il vincolo : p1 · q1 + p2 · q2 = y,

doveq1 e q2 sono le quantita dei beni 1 e 2,p1 ep2 sono i prezzi di tali beniey e il reddito monetario dell’individuo.

2.5 Soluzioni agli esercizi

1. Le matrici richieste sono:

A ·B =[

1 3 32 4 1

2 41 56 2

=[

23 2514 30

],

A′ ·B′ =

1 23 43 1

· [ 2 1 64 5 2

]=

10 11 1022 23 2610 8 20

,

B ·A =

2 41 56 2

· [ 1 3 32 4 1

]=

10 22 1011 23 810 26 20

,

B′(2×3)

· A(2×2)

non conformabili per prodotto.

Si noti che:

B ·A =(A′ ·B′)′ ⇔ (B ·A)′ = A′ ·B′.

Page 38: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

38 CAPITOLO 2. RICHIAMI MATEMATICI

2. Si espanda il prodotto matriciale:

X =[

A ·B + (C ·D)′] [

(E · F)−1 + G ·H]′

=

= A ·B · F−1 ·E−1 + A ·B ·G ·H++D′ ·C′ · F−1 ·E−1+D′ ·C′ ·G ·H′

= E−1′ · F−1′ ·B′ ·A′ + H′ ·G′·B′·A′++E−1′ · F−1′ ·C ·D+H′ ·G′ ·C ·D

3. Per la matriceA abbiamo:

A =

1 4 73 2 55 8 8

|A| = 1 ·

∣∣∣∣ 2 58 8

∣∣∣∣− 4 ·∣∣∣∣ 3 5

5 8

∣∣∣∣+ 7 ·∣∣∣∣ 3 2

5 8

∣∣∣∣ = −24 + 4 + 98 = 78,

tr(A) = 1 + 2 + 8 = 11,

A+ =

−24 24 61 −27 1614 12 −10

,A−1 = |A|−1 ·A+ =

178

239

778

126

139

578

578

439

439

=

=

− 413

413

113

178 − 9

26839

739

213 − 5

39

.

4. La matriceA e simmetrica e definita positiva. Per trovare gli autovalori diA si procede nel modo seguente:

|A− λ · I2| = 0 ⇒∣∣∣∣ 25− λ 7

7 13− λ

∣∣∣∣ = 0 ⇒ (25− λ) · (13− λ)− 49 = 0,

λ2 − 38 · λ + 276 = 0 ⇒ λ = 19±√

85 = 19± 9.21 : entrambi positivi.

Il calcolo degli autovalori conferma che la matrice sia definita positiva.Epossibile quindi procedere alla scomposizione di Choleski:

P =[

p11 0p21 p22

], p11 > 0, p22 > 0.

A = P ·P′ =[

p211 p11 · p21

p11·p21 p221 + p2

22

].

Page 39: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.5. SOLUZIONI AGLI ESERCIZI 39

Quindi uguagliando elemento per elemento le matriciA eP ·P′ si ottiene:

p211 = 25 ⇒ p11 = 5

p11 · p21 = 7 ⇒ p21 =75,

p221 + p2

22 = 13 ⇒ p22 =

√13− 49

25=

25

√69 .

Si noti che per calcolare gli elementi diagonali della matriceP si prendonoradici positive5 e 2

5

√69 (e non -5 e -

√13), dato che il fattore di Choleski

per definizione ha elementi diagonali positivi.

5. Post-moltiplicando una matriceA (m × n) per una matrice diagonaleΛ didimensione(n× n) si ottiene:

A ·Λ = A∗(m×n)

=

a11 a12 . . . a1n

a21 a22 . . . a2n

. . . . . . . . . . . .am1 am2 . . . amn

·

λ11 0 . . . 00 λ22 . . . 0

. . . . . . . . . . . .0 0 . . . λnn

=

=

a11 · λ11 a12 · λ22 . . . a1n · λnn

a21 · λ11 a22 · λ22 . . . a2n · λnn

. . . . . . . . . . . .am1 · λ11 am2 · λ22 . . . amn · λnn

vale a dire si ricava una matriceA∗ (m × n) che risulta moltiplicando ognicolonnadi A per il corrispondente elemento diagonale diΓ. Se invece sipre-moltiplicaA per una matrice diagonaleΓ di dimensione(m × m) siottiene:

Γ ·A· = A∗∗(m×n)

=

=

γ11 0 . . . 00 γ22 . . . 0

. . . . . . . . . . . .0 0 . . . γmm

·

a11 a12 . . . a1n

a21 a22 . . . a2n

. . . . . . . . . . . .am1 am2 . . . amn

=

=

a11 · γ11 a12 · γ11 . . . a1n · γ11

a21 · γ22 a22 · γ22 . . . a2n · γ22

. . . . . . . . . . . .am1 · γnn am2 · γnn ... amn · γnn

vale a dire si ricava una matriceA∗∗ (m× n) che risulta moltiplicando ogniriga di A per il corrispondente elemento diagonale diΓ.

6. Si scriva (a) come:

y = x′(1×2)

· A(2×2)

· x(2×1)

= a11 · x21 + 2 · a12 · x1 · x2 + a22 · x2

2,

Page 40: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

40 CAPITOLO 2. RICHIAMI MATEMATICI

conA matrice simmetrica:

A =[

a11 a12

a12 a22

].

In questo caso si ha:

A =[

1 −7−7 11

],

con autovalori:λ = 6 ±√

74 =−2.60214.602

. Da cio si ricava che la

matriceA non e definita positiva e quindi la forma quadratica(a) non epositiva per qualunque valore dix1 ex2.

Per quello che riguarda(b), essa puo essere scritta come:

y = x′(1×3)

· A(3×3)

· x(3×1)

= a11 · x21 + 2 · a12 · x1 · x2 + +2 · a13 · x1 · x3 +

+2 · a23 · x2 · x3 + a22 · x22 + a33 · x2

3,

A =

5 2 32 1 43 4 7

Per verificare seA e definita positiva occorrerebbe verificare se tutti i suoiautovalori sono positivi. Cio in generale none molto agevole per una matricedi dimensioni superiori a(2 × 2), senza l’ausilio di un computer. Per talemotivo e possibile fare riferimento al segno deiminori principali. Nel casodella matriceA:

5 > 0,∣∣∣∣ 5 22 1

∣∣∣∣ = 5− 4 > 0,∣∣∣∣∣∣5 2 32 1 43 4 7

∣∣∣∣∣∣ = −34 < 0.

Da questo si deduce che la matriceA none definita positiva e quindi che laforma quadratica(b) none positiva per qualsiasi valori dix.

7. Gli autovalori della matriceA vengono ottenuti come soluzione all’equazio-ne: ∣∣∣∣∣∣

2− λ 4 34 8− λ 63 6 5− λ

∣∣∣∣∣∣ = 0 ⇒

(2− λ) [(8− λ)(5− λ)− 36]−4 [4 (5− λ)− 18]+3 [24− 3 (8− λ)] = 0 ⇒

−5λ + 15λ2 − λ3 = 0 ⇒ −λ ·(5− 15λ + λ2

)= 0 ⇒

Page 41: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

2.5. SOLUZIONI AGLI ESERCIZI 41

λ =

⟨ 015−

√205

2 = 0.34115+

√205

2 = 14.659

Si noti comunque che la seconda colonna diA e pari a due volte la primacolonna. Questo implica che:

|A| = 0

e quindi, dato che il determinante di una matricee dato dal prodotto dei suoiautovalorie ovvio che almeno uno degli autovalori diA sia nullo.

8. La funzione lagrangiana puo essere scritta come:

L(q, λ) = u(q) + λ ·(p′q− y

),

u(q) = qα1 · q

β2 ,p =

[p1

p2

],q =

[q1

q2

].

Le condizioni del primo ordine sono:

∂L(q, λ)∂q

= [0] ⇒∂u(q)∂q

(2×1)

+λ · p = [0](2×1)

, (2.9)

∂L(q, λ)∂λ

= 0 ⇒ p′q = y. (2.10)

In questo caso conviene scrivere la (2.9) come :

α · qα−11 · qβ

2 + λ · p1 = 0, (2.11)

β · qα1 · q

β−12 + λ · p1 = 0. (2.12)

Si risolva la (2.11) aλ:

λ = −α · qα−11 · qβ

2

p1,

e si sostituisca tale valore nella (2.12), risolvendo perq1:

q1 =p2

p1· α

β· q2. (2.13)

Si utilizzino ora la (2.10) e la (2.13) per ottenere le soluzioni in termini diq1

e q2:

q∗ =[

q∗1q∗2

]=

(α+β)·p1· y

β(α+β)·p2

· y

].

Page 42: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

42 CAPITOLO 2. RICHIAMI MATEMATICI

Si noti che con la funzione di utilita specificata le domandeq∗1 e q∗2 sonofunzioni lineari del reddito monetarioy. Infine si noti chee possibile dareinterpretazione geometrica alle condizioni (2.9):[

∂u(q)∂q1

= −λ · p1∂u(q)∂q2

= −λ · p2

]⇒

∂u(q)∂q1

∂u(q)∂q2

=p1

p2,

che stabilisce la condizione di tangenza (uguaglianza delle pendenze) tra lacurva di indifferenza e la retta di bilancio.

Page 43: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

Capitolo 3

Richiami di inferenza statistica

3.1 Variabile casuale

Per variabile casuale (VC) intendiamo la misurazione quantitativa del risultato diun esperimento casuale. Ad esempio, consideriamo il lancio di una moneta che conprobabilita pari a 1/2 fornisce il risultato ”testa” e con la stessa probabilita fornisceil risultato ”croce”. Immaginiamo di attribuire il valore 0 all’evento testa e il valore1 all’evento croce. Abbiamo quindi che la variabile casualeX, risultato del lanciodi una moneta, puo essere descritta come segue:

X =

0 Pr(X = 0) = 1/21 Pr(X = 1) = 1/2

In genere si utilizza la notazioneX (la lettera maiuscola) per indicare una variabilecasuale e la corrispondente lettera minuscola (x in questo caso) per indicare larealizzazione di una variabile casuale in un determinato esperimento casuale.

A seconda dell’insieme dei valori che una variabile casuale puo assumere (do-minio o supporto di una variabile casuale) sie soliti distinguere le variabili ca-suali in assolutamente continue e discrete. Una variabile casuale continua (VCC)assume valori appartenenti all’insieme dei numeri reali (o a suoi sottoinsiemi):

X : x ∈ A, A ⊆ R

Le variabili casuali discrete (VCD) assumono valori discreti. Ad esempio la va-riabile casuale numero di risultati ”testa” nel lancio ripetuto 10 volte di una monetaassume valori discreti compresi tra 0 e 10.

3.2 Distribuzione di probabilit a

Per una variabile casualee importante poter attribuire una misura connessa allaprobabilita del prodursi dei diversi risultati ammissibili. Cio viene fatto tramite laspecificazione di una distribuzione di probabilita. La distribuzione di probabilita e

43

Page 44: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

44 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

diversamente trattata a seconda che si consideri una VCC o una VCD. Nel caso diuna VCDe possibile attribuire ad ogni possibile realizzazione della VC un deter-minato valore che misura la probabilita del prodursi di quel determinato evento. Intal caso si parla di probabilita associata al valore x, che indichiamo conf(x):

f(x) = pr(X = x), x ∈ A,∑xi∈A

f(xi) = 1.

Per le VCC invece si parla didensita di probabilita assegnata ad ogni puntoappartenente al supportoA della VC e si definisce la probabilita che la VC inquestione assuma valori compresi in un qualunque intervallo come:∫ b

af(x)dx = pr(a ≤ x ≤ b), a ≤ b

La funzionef(x) viene dettafunzione di densita di probabilita. Si noti quindiche per una VCC la probabilita di essere uguale ad un determinato valoree perdefinizione nulla dato che:

prob(X = x0) =∫ x0

x0

f(x)dx = 0,∀x0

In altri termini, la massa di probabilita sottesa da un unico puntoe identicamen-te nulla per ogni punto del supporto di una VCC, a prescindere dall’entita delladensita di probabilita assegnata a tale punto. Questo perche l’integrale di una qua-lunque funzione definito su di un intervallo di misura nullae identicamente ugualea zero.

3.3 Funzione di ripartizione

Perfunzione di ripartizionedi una variabile casualeX si intende la funzione cheper ogni valorex appartenente al dominio della variabile casuale assegna una mi-sura della probabilita che la variabile casuale stessa assuma valori inferiori ax. Intermini formali abbiamo:

F (x) = pr(X ≤ x) =∫ x

−∞f(t)dt

per una VCC e :F (x) = pr(X ≤ x) =

∑xi≤x

f(xi)

per una VCD. Si noti che, ovviamente la funzione di ripartizione, sia per una VCCche per VCD assume valori compresi nell’insieme [0,1]; in altri termini la funzionedi ripartizionee una funzioneA → [0, 1], ed in piu valgono le seguenti proprieta:

limx→−∞

F (x) = 0, limx→+∞

F (x) = 1.

Le figure (3.1) e (3.2) presentano rispettivamente un esempio di funzione di ripar-tizione per una VCC e la funzione di ripartizione di una VCD.

Page 45: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.3. FUNZIONE DI RIPARTIZIONE 45

Figura 3.1: Funzione di ripartizione per VC discreta

F(x)

1

x

Figura 3.2: Funzione di ripartizione per VC continua

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

-3 -2 -1 0 1 2 3

Page 46: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

46 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

3.4 Momenti di una variabile casuale

Il valore attesodi una VCe:

E(X) =∑xi∈A

xif(xi),

per una VCD, e:

E(X) =∫ +∞

−∞xf(x)dx.

per una VCC. L’operatoreE(·) che definisce l’operatore atteso, dato che si riferi-sce all’applicazione di un’operazione di sommatoria o di integralee un operatorelineare: data la VCx e le costantia e b, si ha:

E (a + bx) = a + bE(x).

Il valore atteso costituisce la principalemisura della posizionedi una VC.Per sintetizzare le caratteristiche principali di una VC si puo fare ricorso alla

mediana, vale a dire ad unamisura di tendenza centrale. Per mediana si intendequel valorexmed appartenente al supporto della VC tale per cui:

pr(X < xmed) = pr(X > xmed) = 1/2.

La medianaxmed e diversamente definita a seconda che si tratti di VCC o VCD:

xmed :∫ xmed

−∞f(x)dx =

12

(VCC),

xmed :∑

xi≤xmed

p(xi) ≤12

(VCD).

Piu in generalee possibile definirequantiledi una VC corrispondente al valore diα, 0 < α < 1, quel valorexα in corrispondenza del quale la massa di probabilitaassegnata a valore minori dixα e pari adα. In tal senso la mediana di una VCechiaramente il quantile corrispondente aα = 1/2.

Un altro concetto rilevante per una VCe lamoda. Per moda (o valore modale)si intende un punto i massimo almeno locale della funzione di probabilita (se VCD)o della funzione di densita di probabilita per una VCC. Ad esempio, se la funzionedi densita di una VCCX ammette un massimo interno nel puntoxmo, tale puntoevalore modale perX ed in corrispondenza di esso abbiamo:[

∂f(x)∂x

]x=xmo

= 0.

A seconda che la VC ammetta uno o piu valori modali viene dettaunimodaleomultimodale.

Page 47: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.5. LA DISTRIBUZIONE NORMALE 47

Un’altra importante classe di indicatori sono quelli che forniscono misure diquanto grandee la variabilita insita nella VC in questione. Tali indicatori sonodetti misure della dispersionee tra esse assume particolare rilievo lavarianza: pervarianza della VC X si intende il valore atteso dei quadrati delle deviazioni daE(X):

v(X) =∫ +∞

−∞[x− E (x)]2 f(x)dx (per una VCC),

v(X) =∑xi∈A

[xi − E (x)]2 p(x) (per una VCD).

Si noti che sia nel caso di una VCC che di una VCD la varianza puo esserealternativamente espressa come:

v(X) = E(X2)− [E(X)]2 ,

vale a dire come differenza tra il valore atteso del quadrato diX e valore atteso diX al quadrato. Questa espressione puo essere facilmente ottenuta sviluppando ilquadrato[X − E (X)]2 ed applicando il valore atteso a ciascun elemento.

Le proprieta della varianza possono essere facilmente sintetizzate: data la VCX e le costantia e b, dalla definizione di varianza diX e possibile ricavare facil-mente:

v(a + bX) = b2v(X).

Questo significa che aggiungere una costante ad una VC non ne modifica la va-rianza e moltiplicare questa VC per una costanteb comporta l’ottenimento di unavarianza chee pari ab2 volte quella della VC di partenza: la varianzae infatti unoperatore quadratico.

3.5 La distribuzione normale

In statisticae particolarmente diffuso il riferimento alla VCnormale o gaussiana:una VCCX si distribuisce come una normale o gaussiana con valore attesoµ evarianzaσ2 (con notazione sinteticaX ∼ N(µ, σ2)) se la sua funzione di densitae:

f(x) =1√2πσ

exp− 1

2σ2(x− µ)2

, x ∈ R1.

Nella figura (3.5) viene rappresentata la funzione di densita di una VCX ∼N(µ, σ2). Si noti chee possibile notare che tale VC ha moda e mediana che coin-cidono conµ, il valore atteso, e punti di flesso corrispondenti a±σ. Si noti pureche la funzione di densita ha un asintoto orizzontale corrispondente all’asse delleascisse:

limx→−∞

f(x) = limx→+∞

f(x) = 0.

Page 48: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

48 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Figura 3.3: Funzione di densita normale con media 0 e varianza 1

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

-3 -2 -1 0 1 2 3

Dens. normale standard

Una proprieta importante delle VC normalie che qualsiasi trasformazione li-neare di una VC normalee anch’essa distribuita normalmente. Data infattiX ∼N(µ, σ2) e qualunque coppia di constantia e b, abbiamo che:

Y = (a + bX) ∼ N(a + bµ, b2σ2).

Ad esempio, se consideriamo:

a =µ

σ, b =

,

si ha:

Y =1σ

(X − µ) ∼ N(0, 1)

La VC Y viene detta in questo casonormale standardizzata, vale a dire con valoreatteso nullo e varianza unitaria. L’ottenimento diY a partire diX viene dettaoperazione distandardizzazionedi un VC normale.

3.6 Inferenza statistica parametrica

L’inferenza statistica parametrica consiste nel ricavare informazioni relative ai pa-rametri incogniti della distribuzione di una popolazione a partire dall’osservazio-ne di un campione di ampiezzan (n-pla campionaria) di elementi estratti da talepopolazione:

x1, x2, ..., xn.

Page 49: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.7. PROPRIETA DEGLI STIMATORI 49

L’inferenza puo essere condotta con modalita differenti che si possono ricondurrealle seguenti:

1. Stima puntuale

2. Stima per intervallo (costruzione di intervalli di confidenza o intervalli fidu-ciari).

3. Prova delle ipotesi.

Perstimatoresi intende un valore sintetico delle informazioni contenute nell’n-pla campionaria. Ad esempio se si considera un campione di ampiezzan:

x1, x2, ..., xn,

uno stimatore possibile (e sensato)e la media campionaria, definita come:

xn =1n

n∑i=1

xi

Si noti che gli stimatori sono VC in quanto valori sintetici ottenuti sulla basedell’osservazione di un campione, e ciascuno degli elementi del campionee unaVC.

3.7 Proprieta degli stimatori

3.7.1 Non distorsione o correttezza

Uno stimatoreg(x1, x2, ...xn) (con questa notazione si intende sottolineare il fattoche lo stimatoree una VC ottenuta come funzione delle variabili casuali elementidel campione) viene dettonon distortoo correttoper il parametroθ incognito dellapopolazione che si vuole stimare se vale:

E [g(x1, x2, ...xn)] = θ

3.7.2 Efficienza

Il concetto di efficienza di uno stimatore, in relazione alla stima di un parametroincognitoθ della popolazione si riferisce alla precisione delle informazione relativea θ che possono essere ottenute dallo stimatore utilizzato. La proprieta dell’effi-cienza di uno stimatoree un concetto relativo e pertiene agli stimatori appartenentiad una determinata classe. Si considerino ad esempio gli stimatori non distorti.Lo stimatoreg(x1, x2, ...xn) appartenente a tale classe che ha varianza minimaviene detto stimatore efficiente (stimatoreMVUE: Minimum Variance UnbiasedEstimator: stimatore corretto a varianza minima).

Page 50: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

50 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Nella classe degli stimatori lineari e corretti, lo stimatore piu efficiente vienedettoBLUE ( Best Linear Unbiased Estimator, migliore stimatore lineare corretto).

Ad esempio, avendo a disposizione un campione din = 10 elementi estrattiin modo identico ed indipendente da una popolazione distribuita normalmente conmomenti entrambi incogniti:

xi ∼ N(µ, σ2), i = 1, 2, ..10,

xi ‖ xj∀i 6= j.

Si considerino gli stimatori:

g10(x1, x2, ...x10) =110

10∑i=1

xi,

g7(x1, x2, ...x10) =17

7∑i=1

xi,

Notiamo che entrambi gli stimatori sono corretti:

E [g10(x1, x2, ...x10)] =110

10∑i=1

E (xi) =110

10∑i=1

µ = µ,

E [g7(x1, x2, ...x10)] =17

7∑i=1

µ = µ,

ede possibile mostrare che:

V [g10(x1, x2, ...x10)] =1

100

10∑i=1

V (xi) =1

100

10∑i=1

σ2 =110

σ2,

V [g7(x1, x2, ...x10)] =149

7∑i=1

V (xi) =149

7∑i=1

σ2 =17σ2.

Il pi u efficiente tra questi due stimatorie quindig10(x1, x2, ...x10), dato che ha va-rianza piu bassa. Si noti che questo none sorprendente dato cheg10(x1, x2, ...x10)utilizza tutte le informazioni provienienti dal campione mentreg7(x1, x2, ...x10)non assegna alcun ruolo all’informazione proveniente dalle osservazionix8, x9 ex10.

3.7.3 Consistenza

La consistenzae una proprieta asintotica, vale a dire che riguarda il comportamentodegli stimatori per campioni di grande ampiezza (n →∞).

Page 51: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.7. PROPRIETA DEGLI STIMATORI 51

Uno stimatoreg(·) viene detto consistente per il parametro incognito dellapopolazioneθ se per ogni coppia di valoriε > 0 e δ > 0, esiste un ampiezzacampionarian0 tale per cui:

prob [|gn − θ| < ε] > 1− δ,∀n > n0.

In altri termini:lim

n→∞pr [|gn − θ| < ε] = 1,∀ε > 0

Altre notazioni equivalenti per esprimere la consistenza sono:

gnp→ θ, plim(gn) → θ

La consistenza di uno stimatore puo quindi essere indicata come laconvergenza inprobabilita di tale stimatore al valore incognito dei parametri da stimare.

Perche si abbia consistenzae necessario che:

limn→∞

E (gn − θ)2 = 0

Uno stimatore distorto puo essere consistente purche sia asintoticamente non di-storto:

limn→∞

E(gn) = θ.

E possibile enumerare le principali proprieta dell’operatoreplim:

plim

(n∑

i=1

cixi

)=

n∑i=1

ci · plim (xi) ,

plim

(n∏

i=1

xi

)=

n∏i=1

plim (xi) ,

plim(

x1

x2

)=

plim (x1)plim (x2)

, se plim (x2) 6= 0,

plim (g(x)) = g (plim(x)) se la funzioneg (·) e continua inplim(x)

3.7.4 La legge dei grandi numeri (Versione piu semplice)

Si consideri un campione din elementi estratti indipendentemente da una distribu-zione con valore attesoµ e varianzaσ2:

x1, x2, ...xn ∼ i.i.d.(µ, σ2)

Si consideri la media campionaria:

xn =1n

n∑i=1

xi

Page 52: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

52 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

La legge dei grandi numeri ci assicura che la media campionaria converge inprobabilita al valore atteso incognitoµ della popolazione:

p lim (xn) = µ

3.7.5 Teorema centrale del limite

Consideriamo le stesse ipotesi che abbiamo avanzato a proposito della legge deigrandi numeri, vala a dire che ci sia un campione di n elementi estratti in modoindipendente dalla stessa popolazione con valore attesoµ e varianzaσ2:

x1, x2, ...xn ∼ i.i.d.(µ, σ2)

Se consideriamo la variabile casuale:

zn =√

n

σ(xn − µ)

e conf(zn) indichiamo la sua funzione di densita di probabilita, il teorema centraledel limite (TCL) afferma che al crescere din la funzione di densita dizn convergea quella dellaVC gaussiana standardizzata:

limn→∞

f (zn) = φ(zn)

doveφ(·) e la funzione di densita della VC normale standardizzataN(0, 1). Connotazione del tutto equivalente si puo affermare che:

znd→ z ∼ N(0, 1).

La notazioned→ indica convergenza in distribuzione e si dice chezn converge in

distribuzione ad una VC normale standardizzata. Il TCL si puo parimenti enun-ciare nei termini della funzione di ripartizione: definendoF (zn) la funzione diripartizione dizn, il TCL afferma che al crescere din la funzione di ripartizione dizn converge a quella dellaVC gaussiana standardizzata:

limn→∞

F (zn) = Φ(zn)

doveΦ(·) e la funzione di ripartizione della VC normale standardizzata N(0,1).In altri termini, qualunque sia la distribuzione della popolazioneX, la VC zn

(la media campionaria standardizzata) ha una distribuzione limite che coincide conquella della Normale standardizzata. Ad esempio, se consideriamo la seguente VC(VC bernoulliana):

X =

0 con probabilita1− p1 con probabilitap, 0 < p < 1

Page 53: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.8. VARIABILI CASUALI IN PIU DIMENSIONI 53

sappiamo che:

E(X) = p, V (X) = p(1− p),

E(xn) = p, V (xn) =p(1− p)

n

Quindi, applicando il TCL si ottiene:

zn =√

n(xn − p)√p(1− p)

d→ N(0, 1)

3.8 Variabili casuali in piu dimensioni

Si consideri il vettore(2× 1) x :

x =[

x1

x2

]dove siax1 chex2 sono due variabili casuali, per semplicita di esposizione conti-nue. Il vettorex puo essere quindi definito una variabile casuale bidimensionale.Con riferimento adx e possibile definire:

• La distribuzione congiunta dix1 ex2:

f(X) = f(x1, x2)

• Le distribuzioni marginali dix1 ex2:

f(x1) =∫ +∞

−∞f(x1, x2)dx2

f(x2) =∫ +∞

−∞f(x1, x2)dx1

• Le distribuzioni condizionali dix1 condizionata ax2 e dix2 condizionata adx1:

f(x1|x2) =f(x1, x2)

f(x2)

f(x2|x1) =f(x1, x2)

f(x1)

Si haindipendenza statisticatrax1ex2 quando la distribuzione condizionata dix1 datox2 coincide con la distribuzione marginale dix1; oppure, in termini equiva-lenti quando la distribuzione dix2 condizionata sux1 coincide con la distribuzionemarginale dix2:

f(x1|x2) = f(x1) ⇔ f(x2|x1) = f(x2).

Page 54: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

54 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Si noti che le due condizioni di cui sopra sono del tutto equivalenti, data la defi-nizione di densita di probabilita condizionale, e da questo si evince la natura sim-metrica del concetto di indipendenza statistica: dire chex1 e indipendente dax2

equivale ad affermare chex2 e indipendente dax1:

f(x1|x2) = f(x1) ⇒f(x1, x2)

f(x2)= f(x1)

⇒ f(x1, x2) = f(x1)f(x2),

f(x2|x1) = f(x2) ⇒f(x1, x2)

f(x1)= f(x2)

⇒ f(x1, x2) = f(x1)f(x2).

Entrambe le condizioni possono essere riscritte come la condizione che la den-sita di probabilita congiunta sia pari al prodotto tra le densita marginali per ognicoppia di valorix1 ex2 appartenenti al dominio diX.

3.8.1 La covarianza

La covarianza misura quanto due variabili casuali tendano ad essere legate tra loroin modo lineare. La covarianza tra le variabili casualix1, x2 e definita come:

Cov(x1, x2) = E [x1 − E (x1)] [x2 − E (x2)]

e facile mostrare che:

Cov(x1, x2) = E [x1 − E (x1)] [x2 − E (x2)] == E x1x2 − x1E (x2)− x2E (x1) + E (x1) E (x2) =

E(x1x2)− E (x1) E (x2)

La covarianza trax1 ex2 assume valori che sono compresi tra−√

V (x1)V (x2)e +√

V (x1)V (x2). Per questoe possibile costruire una misura relativa della di-pendenza lineare trax1 ex2 opportunamente scalando la covarianza: si costruiscein questo modo l’indice di correlazione lineare:

ρ =Cov(x1, x2)√V (x1)V (x2)

In assenza di correlazione l’indiceρ sara pari a zero. Quando due variabilicasuali sono perfettamente correlate in senso positivo l’indice di correlazione sarapari a uno e in caso di perfetta correlazione negativa l’indice sara pari a -1.

La correlazione quindi deve essere intesa come misura della dipendenza linearetra due variabili casuali. Si noti che l’indipendenza statistica implica assenza dicorrelazione. Infatti datex1 ex2 sex1 ex2 sono indipendenti si avra:

Cov(x1, x2) = E(x1x2)− E (x1) E (x2) =

Page 55: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.9. DISTRIBUZIONE NORMALE MULTIVARIATA 55

=∫ +∞

−∞

∫ +∞

−∞x1x2f(x1, x2)dx1dx2 − E (x1) E (x2) =

=∫ +∞

−∞

∫ +∞

−∞x1x2f(x1)f(x2)dx1dx2 − E (x1) E (x2) =

=∫ +∞

−∞x1f(x1)dx1

∫ +∞

−∞x2f(x2)dx2 − E (x1) E (x2) =

= E (x1) E (x2)− E (x1) E (x2) = 0

L’assenza di correlazione non implica pero l’indipendenza statistica tra duevariabili casuali1: x1 e x2 possono essere non indipendenti in senso statistico macon correlazione nulla qualora il legame di dipendenza tra le due variabili sia ditipo non lineare.

3.9 Distribuzione normale multivariata

La variabile casualen-variatax, dovex e un vettore(n × 1) di variabili casuali,ha distribuzione Normalen-variata e si indica tale proprieta come:

x(n×1)

=

x1

x2

...xn

∼ N

(n×1), Σ(n×n)

)

doveµ e un vettore(n × 1) i cui singoli elementi sono i valori attesi dei corri-spondenti elementi dix eΣ e una matrice(n×n) simmetrica almeno semidefinitapositiva:

µ =

E(x1)E(x2)...E(xn)

=

µ1

µ2

...µn

,

Σ = E[(X− µ) (X− µ)′

]=

1Nel caso di due variabili casuali distribuite normalmente, l’assenza di correlazione implical’indipendenza statistica. Vedi oltre.

Page 56: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

56 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

=

E[(x1 − µ1)

2]

... E [(x1 − µ1) (xn − µn)]E [(x2 − µ2) (x1 − µ1)] ... E [(x2 − µ2) (xn − µn)]... ... ...

E [(xn − µn) (x1 − µ1)] ... E[(xn − µn)2

] =

=

v(x1) ... cov(x1, xn)cov(x2, x1) ... cov(x2, xn)... ... ...cov(xn, x1) ... v(xn)

=

σ11 σ12 ... σ1n

σ21 σ22 ... σ2n

... ... ... ...σn1 σn2 ... σnn

,

σji = σij∀i, j.

La funzione di densita dix puo essere scritta come:

f(x) =(

1√2π

)n

|Σ|−1/2 exp−1

2(x− µ)′Σ−1 (x− µ)

,

f(x) : Rn → R1+

Dalla distribuzione congiuntae possibile ottenere le distribuzioni condizionalie marginali di sottoinsiemi dix. Ad esempio, partizionando il vettorex nel modo:

x =

x1(n1×1)

x2(n2×1)

, n1 + n2 = n

Partizionando nello stesso modo il vettoreµ e la matriceΣ:

µ =

µ1(n1×1)

µ2(n2×1)

,Σ =

Σ11(n1×n1)

Σ12(n1×n2)

Σ21(n2×n1)

Σ21(n2×n2)

,

Σ21 = Σ′12

riusciamo a definire le distribuzioni marginali dix1 ex2:

x1 ∼ N(µ1,Σ11),x2 ∼ N(µ2,Σ22),

e le distribuzioni condizionali dix1 datox2 e dix2 datox1:

x1|x2 ∼ N(µ∗1,Σ∗11),

µ∗1 = µ1 + Σ12Σ−122 (x2 − µ2) ,Σ∗

11 = Σ11 −Σ12Σ−122 Σ21,

x2|x1 ∼ N(µ∗2,Σ∗22),

µ∗2 = µ2 + Σ21Σ−111 (x1 − µ1) ,Σ∗

22 = Σ22 −Σ21Σ−111 Σ12,

Page 57: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.10. ALCUNE DISTRIBUZIONI NOTEVOLI 57

Si noti che nel caso di assenza di correlazione trax1 e x2,quando cioe lamatrice delle covarianze tra gli elementi dix1 e gli elementi dix 2 e nulla:

Σ12 = E[(x1 − µ1) (x2 − µ2)′

]= [0]

(n1×n2)

,

la distribuzione dix1 condizionata ax2 coincide con la distribuzione marginale dix1 e la distribuzioni dix2 condizionata ax1 coincide con la distribuzione marginaledi x2:

µ∗2 = µ2,Σ∗22 = Σ22, µ

∗1 = µ1,Σ∗

11 = Σ11,

in altri termini si ha indipendenza statistica trax1 e x2. Nel caso in cui trattiamouna VCn-dimensionale gaussiana, l’assenza di correlazione linearee sinonimo diindipendenza statistici tra i blocchi dix che hanno covarianze nulle.

3.10 Alcune distribuzioni notevoli

3.10.1 La distribuzioneχ2

Date n variabili casuali indipendenti ed identicamente distribuite come normalistandardizzate:

x1, x2, ...xn, f(x1, x2, ..., xn) =n∏

i=1

f(xi),

xi ∼ N(0, 1), i = 1, 2, ..., n,

la VC ottenuta come somma di queste variabili al quadrato ha distribuzioneχ2n

(chi-quadro conn gradi di liberta):

z =n∑

i=1

x2i ∼ χn, z ∈ R1

+.

Si noti che dal modo in cui ricaviamo la distribuzioneχ2 e possibile dedurre chea partire da due VCz1 e z2 indipendenti aventi entrambe distribuzioneχ2 rispet-tivamente conn1 e n2 gradi di liberta, la VC risultante dalla sommae anch’essadistribuita come unaχ2 conn = n1 + n2 gradi di liberta:

z1 ∼ χ2n1

, z2 ∼ χ2n2⇒ z = z1 + z2 ∼ χ2

n1+n2.

Una distribuzioneχ2k con k gradi di liberta assume valori solamente positivi ed ha

una funzione di densita con le proprieta descritte dalla Figura (3.4).

3.10.2 La distribuzionet di Student

Data una VCx, distribuita come una normale standardizzata:

x ∼ N(0, 1)

Page 58: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

58 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Figura 3.4: Funzione di densita di VCχ2

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

0 2 4 6 8 10 12 14 16 18 20

4 gdl8 gdl

e data una seconda VCy indipendente dax e distribuita come unaχ2n:

f(x, y) = f(x)f(y), y ∼ χ2n

si definisca la VC:

z =x√y/n

La VC Z e distribuita come unat di Student con n gradi di liberta:

Z ∼ tn.

La distribuzionet di Student, la cui funzione di densita e rappresentata nellaFigura (3.5) per diversi valori din, e chiaramente molto simile ad una distribuzionegaussiana standardizzata, vale a diree simmetrica intorno a zero e assegna densitadi probabilita molto bassi a valori distanti da zero. Confrontandola con la distribu-zione Gaussiana standardizzata,e possibile concludere che la densita t di Studenttende ad assegnare densita di probabilita piu alte ai valori sulle code rispetto alladistribuzione normale standardizzata. Per questo motivo si dice che la distribuzio-ne t di Student ha le ”code spesse” ( fat tails nella dizione inglese). Le proprieta

Page 59: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.10. ALCUNE DISTRIBUZIONI NOTEVOLI 59

Figura 3.5: Funzione di densita di VC t di Student

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

-3 -2 -1 0 1 2 3

2 gdl80 gdl

essenziali della distribuzionet di Student sono le seguenti:

E(Z) = 0,

v(Z) = E(Z2) =n

n− 2,

sen > 2, altrimenti la varianza non esiste,

limn→∞

f(Z) = φ(Z).

Quindi al crescere del numero dei gradi di liberta la distribuzione converge indistribuzione a quella di una VC normale standardizzata.

3.10.3 La distribuzione F di Fisher

Date due variabili casualiX1 eX2 statisticamente indipendenti tra loro ed entram-be distribuite comeχ2 rispettivamente conn1 e n2 gradi di liberta:

X1 ∼ χ2n1

, X2 ∼ χ2n2

, f(x1, x2) = f(x1)f(x2),

la VC Z:

Z =X1/n1

X2/n2∼ Fn1 ,n2

si distribuisce come unaF di Fisher conn1 gradi di liberta al numeratore en2

gradi liberta al denominatore. Ovviamente il supporto diz e limitato aR1+, dato

che si tratta del rapporto tra grandezze necessariamente positive. Le proprieta dellafunzione di densita della distribuzione F sono rappresentate nella figura (3.6).

Page 60: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

60 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Figura 3.6: Funzione di densita di VCF di Fischer

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

3-50 gdl8-50 gdl

3.11 La funzione di verosimiglianza

Siax1, x2, ..., xn un campione din elementi estratti in modo indipendente ed iden-ticamente dalla stessa popolazione (indicati comeIID, cioe distribuiti identica-mente e indipendentemente) la cui densita indichiamo conf(x, θ) ad indicare chetale densita e descritta dal vettore(k × 1) di parametri incognitiθ:

x1, x2, ...xn ∼ IID, f(xi, θ),i = 1, 2, ..., n.

Data l’ipotesi di indipendenza tra i diversi elementi del campione possiamo scriverela funzione di densita del campione come:

f(x1, x2, ...xn, θ) =n∏

i=1

f(xi, θ)

Ad esempio, se la popolazione fosse distribuita normalmente con valore attesoµ e varianzaσ2, potremmo scrivere:

f(x1, x2, ...xn, θ) = (2π)−n/2 σ−nexp

− 1

2σ2

n∑i=1

(xi − µ)2

, θ =[

µσ

]Questae la funzione di densita dell’n − pla campionaria sulla base dei parametridella popolazioneµ e σ. Questa funzione puo essere vista sotto un diverso punto

Page 61: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.11. LA FUNZIONE DI VEROSIMIGLIANZA 61

Figura 3.7: Funzione di verosimiglianza diµ

0

0.002

0.004

0.006

0.008

0.01

0.012

-3 -2 -1 0 1 2 3

Si assume cheσ2 sia noto e pari a 1.

di vista, cioe come una funzione del valore dei parametri stessi e quindi comefunzione di verosimiglianza:

L(x1, x2, ...xn, θ) = (2π)−n/2 σ−nexp

− 1

2σ2

n∑i=1

(xi − µ)2

. (3.1)

Questa funzione esprime laverosimiglianzache l’n-pla campionaria osservata siastata estratta in modoIID da una distribuzione normale con parametriµ e σ2. Adesempio, dato il campione di ampiezzan = 5:

x1 = 1.2, x2 = 1.4, x3 = 1.6, x4 = 0.8, x5 = 0.4,

assumendo per semplicita cheσ sia noto e pari a1, possiamo calcolare in relazionea diversi valori diµ il valore di (3.1) (si veda la figura 3.7) ed effettivamente siha che la verosimiglianza calcolata in corrispondenza diµ = 0.5 e pari a 0.0027,e calcolata in corrispondenza diµ = 3 e pari a(6.318) × 10−7, indicando inquesto modo che il valoreµ = 0.5 e molto piu verosimile del valoreµ = 3. Inaltri termini, sulla base del campione analizzato,e molto piu verosimile che i datiosservati siano stati generati da una distribuzione normale con valore atteso pari a0.5, che da una distribuzione normale con valore atteso pari a 3.

Page 62: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

62 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

3.12 Stima di massima verosimiglianza

Dato un certo campionex1, x2, ...xn estratti a una determinata popolazione di cuisi conosce la forma funzionale della funzione di densitaf(x, θ), che dipende da unvettore di parametri incognitiθ, la stima di massima verosimiglianza consiste nelcercare quei valori dei parametri del modello che rendono l’estrazione de campioneosservato il piu possibile verosimile. In altri termini, si massimizza la funzione diverosiglianza rispetto ai parametri da stimare:

Maxθ

L(x1, x2, ...xn, θ).

La soluzioneθ viene indicata come stimatore di massima verosimiglianza diθ.Spesso si ricorre all’espediente di massimizzare il logaritmo della funzione di

verosimiglianza, la cosiddetta funzione di log-verosimiglianza, al fine di ottenerecondizioni del primo ordine piu semplici. Si ricordi infatti che se una funzioneviene sottoposta ad una trasformazione monotonica conserva i punti di massimo edi minimo della funzione di partenza. Ad esempi per il caso di un campione dinelementi estratti in modoIID da una popolazione normaleN(µ, σ2), la funzionedi log-verosimglianzae:

log L(x1, x2, ...xn, µ, σ2) = −n

2log (2π)− n log(σ)− 1

2σ2

n∑i=1

(xi − µ)2 .

Le condizioni del primo ordine sono quindi:

∂ log L(x1, x2, ...xn, µ, σ2)∂µ

= 0 ⇒ 22σ2

n∑i=1

(xi − µ) = 0

⇒ µ = xn, xn =1n

n∑i=1

xi

∂ log L(x1, x2, ...xn, µ, σ2)∂σ

= 0 ⇒ −n

σ+

1σ3

n∑i=1

(xi − µ)2 = 0

⇒ σ2 =1n

n∑i=1

(xi − µ)2

Si noti che lo stimatore del valore attesoµ e non distorto e consistente:

E(xn) = µ, v(xn) =σ2

n

3.13 Metodo dei momenti

Il medodo dei momentie una modalita di stima chee utilizzata quando l’interes-se del ricercatoree concentrato sull’ottenimento di stime consistenti. Il metodo

Page 63: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.14. PROPRIETA DEGLI STIMATORI OTTENUTI PER CAMPIONAMENTO DA UNA DISTRIBUZIONE GAUSSIANA63

dei momenti consiste nell’uguagliare i momenti teorici della distribuzione da cuiproviene i campione ai momenti campionari. Dato che i momenti teorici della po-polazione dipendono dai parametri incogniti della popolazione, si risolve rispettoai parametri incogniti e si ottiene una stima dei parametri della popolazione. Adesempio, supponiamo di avere:

x1, x2, ...xn ∼ I.I.D., f(xi, θ)i = 1, 2, ..., n.

e la popolazione si distribuisce come una t- di Student conν gradi di liberta eν eincognito. Sapendo che per una variabile casuale z distribuita come una t di Studentconν gradi di liberta vale:

E(z) = 0, V (z) =ν

ν − 2,∀ν > 2,

e possibile per stimareν ricavare la varianza campionaria e uguagliarla alla va-rianza della popolazione, ed ottenere una stima diν esplicitando rispetto a taleparametro:

S2 =ν

ν − 2⇒ ν = 2

S2

S2 − 1

3.14 Proprieta degli stimatori ottenuti per campionamen-to da una distribuzione gaussiana

Supponiamo di avere un campione din elementix1, x2, ..., xn estratti in modoIID da una popolazione avente distribuzione normaleN(µ, σ2). Si ricordino ledefinizioni di media e di varianza campionaria:

xn =1n

n∑i=1

xi,

S2 =1

n− 1

n∑i=1

(xi − µ)2

Abbiamo visto chee facile definire le proprieta della media campionaria e stabilireche:

xn ∼ N

(µ,

σ2

n

)e quindie possibile standardizzarexn ottenendo:

√n

σ(xn − µ) ∼ N (0, 1) .

D’altro cantoe possibile mostrare cheS2 si distribuisce indipendentemente daxn e che:

(n− 1)S2

σ2∼ χ2

n−1

Page 64: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

64 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Quindi e possibile ricavare che vale:

√n

σ (xn − µ)√(n− 1)S2

σ2 /(n− 1)=√

n

S(xn − µ) ∼ tn−1

Quindi si puo standardizzare anche quando non si conosceσ utilizzandone unasua stima corretta ed in questo modo si ottiene una VC la cui distribuzionee notae tabulata.

Nel caso in cui il campione fosse estratto in modoIID da una distribuzionenon normale, abbiamo visto che al crescere din possiamo contare sul risultatofornito dal teorema centrale del limite:

limn→∞

f (zn) = φ(zn), zn =√

n

σ(xn − µ)

e quindi possiamo ritenere che pern sufficientemente grande (per molti problemicomunin > 100 osservazioni), si abbia:

√n

S(xn − µ) ≈ N (0, 1)

dove con il simbolo≈ si indica ”si distribuisce approssimativamente come”. quin-di per n sufficientemente grande possiamo ritenenre valida il risultato di normalitadella media campionaria asintoticamente alla grandezza

√n

S (xn − µ) verra consi-derata come distribuita normalmente dato che la distribuzione t di Student convergein distribuzione alla Normale standardizzata al crescere din.

3.15 Stima per intervallo

Volendo stimare un parametro incognitoθ sulla base di un campione di ampiezzan, x1, x2, ..., xn, si immagini di costruire due funzioni dell’n-pla campionaria:

g1(x1, x2, ..., xn), g1(·) : Rn → R1,

g2(x1, x2, ..., xn), g2(·) : Rn → R1

con la proprieta:

pr [g1(x1, x2, ..., xn) ≤ θ ≤ g2(x1, x2, ..., xn)] = α,

dove il valore diα e dato ede denominatolivello di confidenza o fiduciario. L’in-tervallo definito dalle funzionig1(·) e g2(·) viene dettointervallo fiduciario o diconfidenza.

Ad esempio ,dato il campione:

x1, x2, ..., xn ∼ IIDN(µ, σ2)

Page 65: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.15. STIMA PER INTERVALLO 65

Figura 3.8: Quantili corrispondenti al 5% e al 95% per una VCχ219

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0 5 10 15 20 25 30 35 40 45 50

se abbiamo:n = 20, xn = 5, S2 = 9

ricordando che:

(n− 1)S2

σ2∼ χ2

n−1

e scegliendo ad esempioα=0.90 (90% ), si ha che:

Pr

[zn−1(0.05) ≤ (n− 1)

S2

σ2≤ zn−1(0.95)

]= 0.90 ⇒

Pr

[(n− 1)

S2

zn−1(0.95)≤ σ2 ≤ (n− 1)

S2

zn−1(0.95)

]= 0.90 ⇒

Pr

[(19)

930.144

≤ σ2 ≤ (19)9

10.117

]= 0.90 ⇒

Pr[5.67 ≤ σ2 ≤ 16.90

]= 0.90

dovezn−1(0.05) = 10.117 e zn−1(0.95) = 30.144 sono i quantili corrispondentirispettivamente a 0.05 e 0.95 di una variabile casualeχ2

19 che sono ricavabili dallaconsultazione delle tavole statistica della distribuzioneχ2. (si veda la Figura 3.8).

Dalla considerazione precedente si ricava che:

Pr

[(n− 1)

S2

zn−1

(1−α

2

) ≤ σ2 ≤ (n− 1)S2

zn−1

(1− 1−α

2

)] = α

In questo modo si ottiene l’intervallo di confidenza al livello di confidenzaα per lavarianza nel caso in cui il campione sia di elementiIID estratti da una popolazione

Page 66: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

66 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

normale. Per dimostrare di aver capito il concetto di intervallo fiduciario il lettoredovrebbe provare a costruire un intervallo di confidenza al livello 95% per il valoreatteso incognito della popolazioneµ.

3.16 Prova delle ipotesi

Supponiamo di avere un campionex1, x2, ..., xn di elementi tratti da una popola-zione distribuita normalmente con valore attesoµ e varianzaσ2, dal quale si sianoricavati i seguenti indicatori sintetici:

xn = 0.52, S2n = 0.09, n = 20.

Si immagini che il ricercatore formuli un’ipotesi relativa al parametro incognitoµ formalizzata come la congettura cheµ sia pari ad un determinato valoreµ0 (adesempioµ0 = 3). Per ipotesi statistica parametrica(nell’accezione di Neyman ePearson, gli statistici che hanno formulato lo schema concettuale della prova delleipotesi) si intende quindi un’affermazione relativa ad un certo parametro incognitodella popolazione. Si possono avere ipotesipuntuali (come ad esempioµ = 0.6),oppure ipotesi che riguardino un intervallo di valori per un parametro incognito,come ad esempio:

0.55 ≤ µ ≤ 0.60.

Si possono avere ipotesisempliciche riguardano un singolo parametro della popo-lazione e ipotesicomposteche riguardano piu parametri congiuntamente.

Perprova delle ipotesisi intende una procedura statistica per verificare se unadeterminata ipotesi possa essere accettata o meno. La procedura di prova delle ipo-tesi si basa sulla formulazione di un’ipotesi di interesse, chiamataipotesi nulla(in-dicata comeH0) e di un’ipotesi alternativa(indicata comeH1) che viene specificataappunto come alternativa aH0. Ad esempio l’ipotesi:

H0 : µ = 0.6

puo essere provata avendo come riferimento l’ipotesi alternativa:

H1 : µ = 0.7.

La prova statistica di ipotesie quindi un criterio decisionale per scegliere traH0

e H1. In connessione ad entrambe sceltee possibile commettere due tipi distintidi errore. Il primo tipo di errore consiste nel rifiutareH0 quando l’ipotesiH0

e vera. Il secondo tipo di errore consiste nel rifiutareH1 quando l’ipotesiH1 evera. Immaginiamo di utilizzare un determinato criterio per scegliere tra accettareo menoH0 e si definiscanoα come probabilita dell’errore di prima specie eβ laprobabilita dell’errore di seconda specie. Il complemento a uno della probabilitadell’errore di seconda specie viene chiamatopotenza del test(1 − β) e misura laprobabilita di correttamente rifiutare un’ipotesi nullaH0 non vera.

Page 67: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.16. PROVA DELLE IPOTESI 67

Figura 3.9: Distribuzioni sottoH0 e H1 di una statistica utilizzata per condurreprova di ipotesi

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

−2 0 2 4 6

La figura sulla destra rappresenta la distribuzione sottoH0 mentre la figura sulla sinistra rappresen-

ta la distribuzione sottoH1. La semiretta verticale corrisponde al valore critico utilizzato. Quindi

l’area alla destra di tale valore, sottesa alla distribuzione sottoH0 e pari adα (errore di prima spe-

cie), mentre l’area alla sinistra di tale valore, sottesa alla distribuzione sottoH1 e pari adβ (errore

di seconda specie)

Page 68: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

68 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Figura 3.10: Esempio sulla prova di ipotesi sul valore atteso: test a una coda

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

−4 −3 −2 −1 0 1 2 3 4

Neyman e Pearson propongono un criterio per decidere quando accettare orifiutareH0 in modo tale che sceltoα, la probabilita dell’errore di prima specie siminimizzaβ, la probabilita dell’errore di seconda specie. Ad esempio, nella Figura(3.9) notiamo le distribuzioni sottoH0 eH1 di una statistica utilizzata per condurreprova delle ipotesi.

A proposito dell’esempio riportato all’inizio di questa sezione, ipotizzando chesia soggetta a prova l’ipotesiH0 : µ = µ0 controH1 : µ > µ0, sappiamo che:

√n

xn − µ

σ∼ N(0, 1),

(n− 1)S2

σ2∼ χ2

n−1 ⇒ τ =√

nxn − µ

S∼ tn−1

Quindi possiamo ricavare:

pr (τ ≤ a) = 0.95

⇒ pr

(√n

xn − µ

S≤ tn−1

0.05

∣∣∣H0

)= 0.95

⇒ pr

(√n

xn − µ0

S≤ tn−1

0.05

)= 0.95.

Page 69: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.16. PROVA DELLE IPOTESI 69

Figura 3.11: Esempio sulla prova di ipotesi sul valore atteso: test a due code

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

−4 −3 −2 −1 0 1 2 3 4

In questo contestoe quindi possibile utilizzare criterio per condurre la provadelle ipotesi la seguente regola: se la VC:

√n

xn − µ0

S

risulta minore ditn−10.05 si accettaH0; viceversa si rifiutaH0. Si noti che tale criterio

e connesso naturalmente ad una probabilita dell’errore di prima specie pari aα =0.05.

Nel nostro caso abbiamo:√

nxn − µ0

S=

√20

0.52− 0.60.3

= −1.1926,

tn−10.05 = 1.729,

ed quindie possibile accettareH0 (si veda Figura 3.10).Nel caso l’ipotesi alternativa fosse stata specificata come:H1: µ 6= µ0, avrem-

mo ricavato:

pr

(−tn−1

0.025 ≤√

nxn − µ

S≤ tn−1

0.025

∣∣∣H0

)= 0.95 ⇒

pr

(−tn−1

0.025 ≤√

nxn − µ0

S≤ +tn−1

0.025

)= 0.95.

In questo modo si costruisce una criterio decisionale in base al quale i punti:

−tn−10.025, t

n−10.025 ⇒ −2.093,+2.093

Page 70: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

70 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

costituiscono gli estremi di un intervallo all’interno del quale se cade la VC:

√n

xn − µ0

S

si perviene all’accettazione diH0, avendo probabilita di errore di prima specie pariaα = 0.05 (si veda la figura 3.11). Nel nostro esempio abbiamo:

√n

xn − µ0

S= −1.1926,

e quindi si accettaH0. In questo caso si parla ditest a due codementre per il testutilizzato per verificareH0 controH1: µ > µ0 si parla ditest ad una coda.

3.17 Esercizi

1. Data la seguente distribuzione normale bivariata:

x =[

x1

x2

]∼ N [µ,Σ] , µ =

[µ1

µ2

],=[

σ11 σ12

σ12 σ22

]Dimostrare che la distribuzione marginale dix1 e la distribuzione condizio-nale dix2 datox1 sono normali. (esercizio difficile ma istruttivo).

2. Dato il seguente campione di elementi estratti in modoIID da una distribu-zione normale con momentiµ eσ2:

x1 = 1.3, x2 = 2.1, x3 = 0.4, x4 = 1.3, x5 = 0.5,

x6 = 0.2, x7 = 1.8, x8 = 2.5, x9 = 1.9, x10 = 3.2.

(a) si calcolino media, mediana e varianza campionaria.

(b) Si verifichino le seguenti ipotesi:

H0 : µ = 2,

H0 : µ = 0.7,

H0 : σ2 = 0.5,

(per le ipotesi sul valore atteso si calcolino i test a una coda e quelli adue code).

(c) Si trovino gli intervalli di confidenza al 95% perµ eσ2.

3. Dato un campione di ampiezzan estratto da una popolazione avente la se-guente distribuzione:

f(x) = λ exp(−λx), x ∈ R1+, λ > 0.

Page 71: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.17. ESERCIZI 71

(a) Si scriva la funzione di verosimiglianza del campione e si ricavi lo sti-matore di massima verosimiglianza diλ. Quale stimatore si otterrebbeutilizzando il metodo dei momenti?

4. Dato il vettore(p× 1) x:x ∼ N(µ,Ω)

(a) ottenere una trasformazione lineare dix che sia distribuita nel seguentemodo:

y ∼ N(0, Ip).

5. Immaginamo di avere a disposizione un programma che genera estrazionida una distribuzione che puo assumere solo valori pari a uno o a zero conprobabilita rispettivamente pari ap e1− p (distribuzione bernoulliana:

x = 1 con probabilita pari ap, 0 ≤ p ≤ 1x = 0 con probabilita pari a 1-p.

Descrivere come sarebbe possibile ottenere estrazioni casuali da una di-stribuzione normale standardizzata, sfruttando le note proprieta di grandicampioni.

6. E estratto un campione di 30 elementiIID da una distribuzione incognita.Si ipotizzi che in relazione al campione osservato si abbia:

x30 =130

30∑i=1

xi = 0.07,

S2 =129

30∑i=1

(xi − x30)2 = 0.112.

Calcolare un intervallo di confidenza approssimativo al 95% per il valoreatteso incognito della popolazione facendo riferimento al teorema centraledel limite.

7. Il vettore di variabili casualix, di dimensione(3 × 1), si distribuisce nelmodo seguente:

x =

x1

x2

x3

∼ N (µ,Ω)

Si descriva la distribuzione delle seguenti variabili casuali:

z1 = x1 + x2 + x3,

z2 = x1 − x2 − x3,

y = P−1 (x− µ) ,

P = fattore di Choleski diΩ.

Page 72: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

72 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

8. Dato il vettore di variabili casuali:

x =[

x1

x2

]∼ N [µ,Σ] , µ =

[µ1

µ2

],=[

σ11 σ12

σ12 σ22

]Ricavare la fattorizzazione di Choleski diΣ e darne un’interpretazione intermini di regressione. (esercizio difficile ma istruttivo).

3.18 Soluzioni agli esercizi

1. Si consideri:

f(x1, x2) =(

1√2π

)2

|Σ|−1/2 exp−1

2(x− µ)′Σ−1 (x− µ)

,

f(x1) =∫ +∞

−∞f(x1, x2)dx2,Σ−1 =

1∆

[σ22 −σ12

−σ12 σ11

],

∆ = |Σ| = σ11σ22 − σ212

La parte esponenziale della funzione di densita puo essere scritta come:

exp− 1

2∆[y21σ22 − 2σ12y1y2 + y2

2σ11

],

y1 = x1 − µ1, y2 = x2 − µ2

e possibile trasformare i termini dove apparey2 nello sviluppo di un quadra-

to, aggiungendo e togliendo la quantita(

σ12√σ12

y1

)2:

exp

− 1

2∆

[y21σ22 −

(σ12√σ12

y1

)2

+(

σ12√σ12

y1

)2

− 2σ12y1y2 + y22σ11

]=

exp

− 1

2∆

[y21σ22 −

(σ12√σ11

y1

)2

+ σ11

(y2 −

σ12

σ11

)2]

.

Si noti che la quantita:

exp

−σ11

2∆

(y2 −

σ12

σ11

)2

descrive la parte esponenziale di una variabile casuale normale con valoreatteso pari aσ12

σ11e varianza pari a∆

σ11e quindi:

∫ +−∞

−∞exp

−σ11

2∆

(y2 −

σ12

σ11

)2

dx2 =√

2π∆σ11

Page 73: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.18. SOLUZIONI AGLI ESERCIZI 73

Dato che:

f(x1) =∫ +∞

−∞f(x1, x2)dx2 =

=(

1√2π

)2

|∆|−1/2

√2π

∆σ11

· exp− 1

2∆σ11

(σ11σ22 − σ2

12

)y21

=(

1√2πσ11

)exp

− 1

2σ11(x1 − µ1)

2

,

si puo concludere chex1 ∼ N(µ1, σ11).

Ora veniamo alla distribuzione dix2 condizionata sux1:

f(x1|x2) =f(x1, x2)

f(x2)=

(1√2π

)2|∆|−1/2(

1√2π

)σ−1/211

×

exp

− 1

2∆σ11

(y21σ22 − 2σ12y1y2 + y2

2σ11

)+

y21

2σ11

=(

1√2π

)(σ11σ22 − σ2

12

)−1/2×

exp− 1

2∆σ11

[y21σ11σ22 − 2σ11σ12y1y2 + y2

2σ211 − y2

1(σ11σ22 − σ212)]

=

=(

1√2π

)(σ11σ22 − σ2

12

)−1/2 exp

− [y2 − (σ12/σ11)y1]

2

2(σ22 − σ212/σ11)

Quindi, ricordando le definizioni diy1 ey2 possiamo concludere che:

x1|x2 ∼ N

[µ2 +

σ12

σ11(x1 − µ1) , σ22 − σ2

12/σ11

].

2. (a) In relazione ai dati, si ha:

x10 =110

10∑i=1

xi = 1.52,

S2 =19

10∑i=1

(xi − x10)2 = 0.9418,

S =√

S2 = 0.97.

La stima della medianae tra i valori 1.3 e 1.8.

Page 74: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

74 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

(b) Per la verifica dell’ipotesiµ = 2 si ottiene:

x10 − 2√S2/10

=1.52− 2√0.9418/10

== −1.5641

Il valore critico al 5% del test a due codee t90.025 = 2.262 .

Quindi il test conduce all’accettazione diH0. Se si considera il test aduna coda:

H0 : µ = 2, controH1 : µ < 2,

il valore critico e -t90.05 = −1.833 ed anche in questo caso si accettaH0.

Considerando la prova dell”ipotesi:

H0 : µ = 0.7controH1 : µ 6= 0.7,

si ottiene:x10 − 0.7√

S2/9=

1.52− 0.7√0.9418/10

= 2.672.

Dato che il valore critico per il teste ancora±t90.025 = ±2.262,si rifiutaH0. A maggior ragione, se si considera l’ipotesi alternativa:

H1 : µ > 0.7,

dato che il valore criticoe t90.05 = 1.833, si arriva al rifiuto diH0.

Passando alla prova delle ipotesi sulla varianza:

H0 : σ2 = 0.5, controH1 : σ2 6= 0.5,

si ricordi che:

(n− 1)S2

σ2∼ χ2

n−1

Quindi se valeH0 si ha:

z = (n− 1)S2

0.5∼ χ2

n−1.

Possiamo definire, sulla base della distribuzioneχ29 di riferimento:

pr(b < z < a|H0) = α = 0.05

In questo modo si definisconoa eb (si veda la figura 3.12). Dalla tavoladella distribuzioneχ2

9 si ricava:

a = 2.70, b = 19.0.

Page 75: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.18. SOLUZIONI AGLI ESERCIZI 75

Figura 3.12: Test a due code per la varianza; distribuzione di riferimentoχ29, α =

0.05

0

0.02

0.04

0.06

0.08

0.1

0.12

0 5 10 15 20 25 30

Figura 3.13: Test a una coda per la varianza; distribuzione di riferimentoχ29, α =

0.05

0

0.02

0.04

0.06

0.08

0.1

0.12

0 5 10 15 20 25 30

Page 76: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

76 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

In questo contesto abbiamo:

z = 90.9418

0.5= 16.952,

e quindi si accettaH0. Se invece si considera come ipotesi alternativa:

H1 : σ2 > 0.5,

dalla tavola della distribuzioneχ29 di riferimento si determina il valore

c = 16.9 che soddisfa (figura 3.13):

pr(z > c|H0) = α = 0.05

Quindi in questo esercizio il test ad una coda comporta il rifiuto diH0.

(c) Per costruire l’intervallo di confidenza perµ, si ricordi che:

τ =xn − µ√

S2/n∼ tn−1

quindi e possibile determinare il valoret90.025 = 2.262 (si veda la figura3.13) tale per cui:pr(−t90.025 < τ < t90.025) = 0.95 = 1 − α. Quindil’intervallo di confidenza viene ottenuto come:[

x10 − t90.025

√S2/10, x10 + t90.025

√S2/10,

]= [0.8258, 2.2142].

Per quello che riguarda l’intervallo di confidenza perσ2, ricordiamoche:

z = (n− 1)S2

σ2∼ χ2

n−1

e quindi possiamo determinarea e b in modo tale che:

pr(a ≤ z ≤ b) = 0.95 = 1− α, a = 2.70, b = 19.0,

o, in termini equivalenti:

pr(2.70 ≤ z ≤ 19.0) =

pr

(2.70 ≤ 8.476

σ2≤ 19.0

)=

pr

(1

19.0≤ σ2

8.476≤ 1

2.70

)=

pr

(8.47619.0

≤ σ2 ≤ 8.4762.70

)=

pr(0.44611 ≤ σ2 ≤ 3.1393

)= 0.95

Quindi l’intervallo di confidenza al 95% perσ2 e dato da [0.44611,3.1393].

Page 77: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.18. SOLUZIONI AGLI ESERCIZI 77

3. La verosimiglianza del campione (funzione di densita congiunta degli ele-menti del campione)e:

f(x1, x2, ..., xn) =n∏

i=1

f(xi) = (λ)n exp(−λ

n∑i=1

xi)

e quindi la log-verosimiglianzae:

logL = nlog(λ)− λ

n∑i=1

xi

e la stima diλ di massima verosimiglianzae:

∂logL

∂λ= 0 ⇒ n

λ−

n∑i=1

xi = 0 ⇒ λ =n∑n

i=1 xi⇒ λ =

1xn

.

Per ottenere lo stimatore ottenuto utilizzando il metodo dei momenti,e ne-cessario ricavare in primo luogo il valore atteso della distribuzione:

E(x) =∫ +∞

0xf(x)dx = λ

∫ +∞

0xexp(−λx)dx =

Uguagliando il momento teorico al momento campionario e risolvendo perλ si ottiene lo stimatore derivante dal metodo dei momenti:

= xn ⇒ λ =1xn

che quindi coincide con lo stimatore di massima verosimiglianza.

4. DefinendoP il fattore di Choleski diΩ:

Ω = PP′

sappiamo che:P−1ΩP−1′ = Ip.

Quindi si ha che:

z = P−1(x− µ),E(z) = P−1 [E(x)− µ] = [0] ,

E(zz′) = P−1ΩP−1′ = Ip.

Da questo notiamo che la variabilez si distribuisce come una normalep-dimensionale standardizzata:

z ∼N(0, Ip).

Page 78: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

78 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

5. Ricordando che, grazie al teorema centrale del limite, possiamo dire:

xn − E(x)√v(x)

n

d→ N(0, 1),

qualunque sia la distribuzione della popolazione da cui sono estratti gli ele-menti del campione. Quindi, dato che per una VC bernoulliana abbiamo:

E(x) = 0 · (1− p) + 1 · p = p,

v(x) = E(x2)− (E(x))2 = p− p2 = p(1− p),

grazie al teorema centrale del limite possiamo scrivere:

xn − p√p(1−p)

n

≈ N(0, 1)

Quindi e possibile estrarren = 10000 (un numero altissimo) di elementiIID da una bernoulliana e calcolare la media delle realizzazioni, sottrarrep e

dvidere per√

p(1−p)10000 . La variabile ottenutae approssimativamente distribuita

come una normale.

6. Per il TCL, possiamo dire che:

x30 − E(x)√σ2/n

≈ N(0, 1),

(n− 1)S2

σ2≈ χ2

n−1.

quindi il rapporto si distribuisce approssimativamente come una normale:

x30−E(x)√σ2/n√

(n− 1)S2

σ2 /(n− 1)=

x30 − E(x)√S2/n

' z

In relazione alla distribuzione normalee possibile determinare il quantilez0.025 = 1.96 in corrispondenza del quale abbiamo:

pr

[−1.96 ≤ x30 − E(x)√

S2/n≤ 1.96

]= 0.95 ⇒

pr[x30 − 1.96

√S2/n ≤ µ ≤ x30 + 1.96

√S2/n

]= 0.95 ⇒

pr[0.07− 1.96

√0.112/30 ≤ µ ≤ 0.07 + 1.96

√0.112/30

]= 0.95 ⇒

pr [−0.0498 ≤ µ ≤ 0.1898] = 0.95.

Questo definisce un intervallo di confidenza approssimativo costruito perµ.

Page 79: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

3.18. SOLUZIONI AGLI ESERCIZI 79

7. Definendo:

z1 = a1(3×1)

′ x(3×1)

,

a1 =

111

si ricava che:

z1 ∼ N(a′1µ,a′1Ωa1),a′1Ωa1 = ω11 + ω22 + ω33 + 2ω12 + 2ω13 + 2ω23.

Definendo:

z2 = a2(3×1)

′ x(3×1)

,

a2 =

1−1−1

si ricava che:

z2 ∼ N(a′2µ,a′2Ωa2),a′2Ωa2 = ω11 + ω22 + ω33 − 2ω12 − 2ω13 + 2ω23.

Per quanto riguarda la variabile casualey, e facile concludere che:

y ∼ N( 0(3×1)

, I3)

8. La fattorizzazione di Choleski diΣ di ottiene ricavando la matrice P con leseguenti proprieta:

P =[

p11 0p21 p22

], p11 > 0, p22 > 0,

PP′ = Σ⇒[

p211 p11p21

p21p11 p222 + p2

11

]=[

σ11 σ12

σ12 σ22

].

Quindi, risolvendo l’uguaglianza appena scrittae facile trovare i valori deglielementi diP corrispondenti:

p11 =√

σ11, p21 =σ12√σ11

, p22 =√

σ22 −σ12

σ11

Si definisca ora la variabile casuale bidimensionale:

z = P−1(x− µ) ∼ N(0, I2)

Page 80: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

80 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Dato che si ha:

P−1 = |P|−1P+ =[

p−111 0

− p21

p11p22p−122

]la variabile casualez e:

z =[

z1

z2

]=[

p−111 (x1 − µ1)

− p21

p11p22(x1 − µ1) + p−1

22 (x2 − µ2)

]Notate che:

z1 ∼ N(0, 1) ⇒ x1 − µ1√σ11

∼ N(0, 1),

z2 ∼ N(0, 1) ⇒ 1p22

[(x2 − µ2)−

σ12

σ11(x1 − µ1)

]∼ N(0, 1).

Quindi√

σ11z1 da i termini di disturbo di una regressione dix1 su una co-stante (con coefficiente pari aµ1) e tali termini di disturbo hanno varianzapari aσ11, mentrep22z2 esprime i termini di disturbo di una relazione diregressione lineare di(x2 − µ2) su(x1 − µ1) la cui varianzae pari a:

p222 = σ22 −

σ12

σ11.

Page 81: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

Capitolo 4

Il modello di regressione lineare

4.1 Concetti fondamentali

In un modello di regressione lineare, una variabileyt, chiamata variabiledipenden-teo endogenae ipotizzata dipendere in modo lineare, tramite un vettore(k× 1) diparametri:

β =

β1

β2

. . .βk

da un insieme dik variabili x1t, x2t, . . . , xkt che vengono dette variabili esplicativeo regressori. In aggiunta si ipotizza che la variabileyt sia influenzata da un terminestocasticoεt :

yt =k∑

i=1

βixit + εt, t = 1, 2, . . . T,

k∑i=1

βixit = parte sistematica del modello

εt = parte stocastica del modello

Immaginiamo di avere a disposizioniT osservazioni su tutte le variabili che ap-paiono nel modello e di chiederci come stimare i parametri incogniti del model-lo. Ad esempio, supponiamo di fare riferimento ad una semplice formulazionedell’equazione del consumo:

yt = β1 + β2x2t + β3x3t + εt,t = 1, . . . , T,

yt = consumo all’istantet ,

x1t = 1∀t (termine costante della regressione),

x2t = reddito disponibile all’istantet ,

x3t = stock di ricchezza finanziaria all’istantet

81

Page 82: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

82 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Figura 4.1: Rappresentazione grafica di una relazione di regressione semplice teo-rica(β1 = 3.0, β2 = 0.5, T = 4 osservazioni)

(x23 = 3.2, y3 = 7.7)

(x21 = 4.5, y1 = 6.35)

(x22 = 6.5, y2 = 5.25)

(x24 = 2.2, y4 = 2.0)

ε3 = 3.1

ε4 = −2.1

ε1 = 1.1 ε2 = −2.2

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6 7

In questo capitolo cercheremo di capire in quale modoe possibile stimare iparametri incogniti del modello

4.1.1 Il ruolo del termine di disturbo e le sue proprieta

I motivi dell’inserimento di un termine di disturbo stocastico nel modello di regres-sione lineare possono essere sintetizzati come segue:

1. Il termine di disturboεt rappresenta un elemento di asistematicita connessoal comportamento umano;

2. inoltre, il termine di disturbo puo essere interpretato come la descrizionedell’effetto congiunto di un numero elevato di variabili che producono effettisuyt ma che non sono suscettibili di misurazione e quindi non inseribili nellaparte sistematica del modello;

3. infine, possono essere presenti errori di misurazione tra le variabili.

Graficamente (si veda la figura 4.1), possiamo rappresentare facendo riferimen-to alla regressione semplice (numero di regressorik = 2, x1t = 1,∀t):

yt = β1 + β2x2t + εt,t = 1, . . . , T,

Page 83: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.1. CONCETTI FONDAMENTALI 83

si nota che ciascun termineεt ha l’effetto di indurre la corrispondente osservazionesulla variabile dipendente a deviare dalla relazione teorica che legayt a x1t e x2t,cioe dalla retta di regressione.

Nel modello di regressione lineare a ciascuna osservazione associamo un ter-mine di errore o termine di disturboεt con le seguenti proprieta:

E(εt) = 0,∀tE(εtεs) = 0,∀t 6= s (assenza di correlazione)E(ε2

t ) = σ2,∀t. (costanza della varianza o omoschedasticita(4.1)

A queste assunzioni di solito si aggiunge l’ipotesi di normalita dei disturbi chevedremo non essere strettamente necessaria alla stima puntuale del modello:

εt ∼ N(0, σ2), t = 1, 2, . . . , T. (4.2)

4.1.2 Ipotesi sui regressori

Nel caso piu semplice, i regressori del modellox1t, x2t, . . . , xkt , t = 1, 2, . . . , k,sono assunti non stocastici oppure si ipotizza di considerarli come variabili casualie di lavorare con la distribuzione condizionale diyt datix1t, x2t, . . . , xkt:

yt =k∑

i=1

βixit + εt,

E(yt|x1t,x2t, . . . , xkt) =k∑

i=1

βixit

Nella versione piu semplice del MRL, le ipotesi avanzate sui regressori sono:1) E(xitεs) = 0,∀i, t, s (esogenita strettadei regressori)

cioe non si ha correlazione tra i regressori ed i termini di disturbo. Particolarmenterilevantee l’ipotesi di assenza di simultaneita:

E(xitεt) = 0,∀i, t (4.3)

2) Definendo la matriceX di dimensioni(T × k) :

X =

x11 x21 . . . xk1

x12 x22 . . . xk2

. . . . . . . . . . . .x1T x2T . . . xkT

(4.4)

si ipotizza:ρ(X) = k (4.5)

vale a dire i diversi regressori devono essere linearmente indipendenti.

Page 84: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

84 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.1.3 Rappresentazione matriciale del modello di regressione lineare

Consideriamo il MRL conk regressori in forma matriciale:

y(T×1)

= X(T×k)

β(k×1)

+ ε(T×1)

Ogni riga della rappresentazionee un’osservazione distinta:

yt =k∑

i=1

βixit + εt = x′tβ+εt, (4.6)

x′t(1×k)

=[

x1t x2t . . . xkt

], t = 1, 2, . . . , T (4.7)

Con l’ipotesi di normalita dei termini di disturbo posso scrivere il modello diregressione (4.3) nei termini della distribuzione diyt datix1t, x2t, . . . , xkt:

(yt|x1t, x2t, . . . , xkt) ∼ N(k∑

i=1

βixit + εt, σ2)

f(y|X) =(

1√2πσ

)T

exp

− 12σ2

T∑t=1

[yt −

k∑i=1

βixit

]2

oppure in termini matriciali:

f(y|X) =(

1√2πσ

)T

exp

− 1

2σ2

T∑t=1

ε(1×T )

′ ε(T×1)

Si noti che l’inclusione di un termine d’intercetta nel modello (si prenda il casopiu semplice di un modello con soli due regressori, uno dei qualie il termine diintercetta:x1t = 1,∀t):

yt = β1 + β2x2t + εt, t = 1, 2, . . . , T

si puo rendere in termini matriciali scrivendo:

y(T×1)

= X(T×2)

β(2×1)

+ ε(T×1)

,

X =

1 x21

1 x22

. . . . . .1 x2T

Ricapitolando, dato il MRL:

yt =k∑

i=1

βixit + εt, t = 1, 2, . . . , T

Page 85: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.1. CONCETTI FONDAMENTALI 85

l’obiettivo e quello di ottenere una stima:

β =

β1

β2

. . .

β2

dei parametri incogniti del modello:

β =

β1

β2

. . .βk

Sulla base di tale stima puntuale dei parametrie possibile:

a) “prevedere”yT+j :

yT+j =k∑

i=1

βixiT+j

disponendo di informazioni o avanzando ipotesi sui valori dixiT+j , i = 1, 2, . . . , k, j =1, 2, . . . ..

b) fare ulteriore inferenza sul valore dei parametri. Ad esempio, prendiamo ilsemplice modello dove spieghiamo il consumo privato (y) in relazione al redditodisponibile (x2) ed alla spesa pubblica (x3):

yt = β1 + β2x2t + β3x3t + εt

Possiamo, ad esempio, verificare la compatibilita dell’ipotesi di equivalenzaricardiana (neutralita della spesa pubblica) con una semplice prova delle ipotesi:

H0 : β3 = 0H1 : β3 6= 0

Immaginiamo che il valore stimato diβ3, β3 sia pari a 0.07. Quanto questovaloree statisticamente vicino a zero? A domande di questo tipoe possibile ri-spondere facendo riferimento alla prova delle ipotesi e alla costruzione di intervallidi confidenza. E possibile inoltre costruire intervalli di confidenza intorno alleprevisioni sulla variabile dipende, oltre che intorno alle stime dei parametri.

4.1.4 Ricapitolando

Assunzioni del modello lineare di regressione classico:a) linearita della relazione:

yt =k∑

i=1

βixit + εt, t = 1, 2, . . . T.

y = Xβ + ε

Page 86: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

86 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

b) ipotesi sui termini di disturbo:

E(εt) = 0,∀t,E(ε2

t ) = v(εt) = σ2,∀t,E(εtεt−j) = 0,∀j 6= 0

cioe:εt ∼ i.i.d(0, σ2),∀t.

Spesso si assume l’ipotesi di normalita dei termini di disturbo (che none stretta-mente necessaria per la stima puntuale dei parametri):

εt ∼ N(0, σ2),∀t.

c) Ipotesi sui regressorix1t, x2t, . . . xkt:Nella formulazione piu semplice del MRL si ipotizza che i regressori siano non

stocastici oppure variabili casuali ortogonali (non correlate) rispetto ai termini dierrore:

E(xitεs) = 0,∀i, t, s (esogenita strettadei regressori)

Una condizione meno stringentee quella che richiede l’assenza di simultaneitatra ciascuno dei regressori ed i termini di disturbo:

E(xitεt) = 0,∀i, t (assenza di simultaneita)

In piu si richiede l’indipendenza lineare tra le colonne diX:

ρ(X) = k

4.2 Stima dei parametri

4.2.1 Metodo dei momenti (MM)

Come abbiamo visto consiste nell’uguagliare i momenti campionari con quellidella popolazione; i momenti rilevanti in questo caso sono quelli che esprimonol’assenza di simultaneita tra i termini di disturbo e i regressori:

E(xitεt) = 0,∀i, t

Prendiamo un semplice esempio con due regressori:

yt = β1 + β2x2t + εt

In questo caso i momenti teorici sono:

E(εtx1t) = 0E(εtx2t) = 0

Page 87: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.2. STIMA DEI PARAMETRI 87

che hanno come equivalenti campionari:

1)1T

T∑t=1

εtx1t = 0 ⇒ 1T

T∑t=1

(yt − β1 − β2x2t) = 0 ⇒

⇒−y −β1 − β2

−x2= 0,

−y =

1T

T∑t=1

yt,−x2=

1T

T∑t=1

x2t

2)1T

T∑t=1

εtx2t = 0 ⇒ 1T

T∑t=1

(yt − β1 − β2x2t)x2t = 0 ⇒

⇒ S(y, x2)− β1−x2 −β2S(x2, x2) = 0,

S(y, x2) =1T

T∑t=1

ytx2t, S(x2, x2) =1T

T∑t=1

x22t,

da cui si ricava sostituendo la prima nella seconda:

β1 =−y −β2

−x2,

0 = S(y, x2)− (−y −β2

−x2)

−x2 −β2S(x2, x2)

⇒ β2 =c(y, x2)v(x2)

(4.8)

Passiamo ora al MRL conk regressori. I momenti teorici sono:

E(xitεt) = 0, i = 1, 2, . . . , k.

I corrispondenti momenti campionari sono:

1T

X(k×T )

′ ε(T×k)

=

1T

T∑t=1

x1tεt

1T

T∑t=1

x2tεt

. . .

1T

T∑t=1

xktεt

Uguagliando i momenti campionari (intesi come funzioni dei parametri incogniticontenuti inβ) ai corrispondenti momenti della popolazione (tutti pari a zero), siottiene:

X′(y −Xβ) = 0X′y −X′Xβ = 0 (4.9)

Page 88: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

88 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Ricordando l’assunzione che:ρ(X) = k

possiamo ricavare che:ρ(X′X) = k

per cui si puo invertire la matriceX′X ed ottenere:

βMM = (X′X)−1X′y (4.10)

Come utile esercizio, verificate che conk = 2 e un primo regressore datodal termine di intercetta (x1t = 1,∀t), utilizzando la (4.10) si ottiene l’espressio-ne (4.8) perβ1 e β2 vista prima nell’esempio a due variabili. La relazione (4.9)esprime le cosiddetteequazioni normali.

Si noti che in tutta l’applicazione del metodo dei momenti si sono utilizzatesolo le seguenti proprieta:

- la linearita della relazione di regressioney = Xβ + ε;- l’ortogonalita diX rispetto ai termini di disturbo (assenza di simultaneita):

E(xitετ ),∀i, t, τ.

4.2.2 Metodo della massima verosimiglianza.

Si utilizzano tutte le proprieta sui termini di disturbo, anche quella relativa allanormalita dei termini di disturbo:

E(εt) = 0,∀t,E(ε2

t ) = σ2,∀t,E(εtετ ) = 0,∀t 6= τ,

εt ∼ N(0, σ2),∀t.

In questo modoe possibile scrivere la verosimiglianza associata al MRL:

L = (1√2πσ

)T exp

− 1

2σ2

T∑t=1

(yt − β1x1t − . . .− βkxkt)2

=

= (1√2πσ

)T exp− 1

2σ2(y −Xβ)′(y −Xβ)

Della funzione di verosimiglianzae possibile prendere il logaritmo, in questo

modo ottenendo:

log L = −T

2log(2π)− T log σ − 1

2σ2(y −Xβ)′(y −Xβ)

Per massimizzare la verosimiglianza possiamo ottenere le condizioni del primoordine rispetto aβ eσ, i parametri del modello:

Page 89: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.2. STIMA DEI PARAMETRI 89

∂ log L

∂β= 0 → −1

2∂

∂β

[(y −Xβ)′(y −Xβ)

]= 0

∂ log L

∂σ= 0 → −T

σ+

1σ3

(y −Xβ)′(y −Xβ) = 0

Utilizzando il primo blocco delle condizioni del primo ordine otteniamo:

∂(β′X′Xβ)∂β

− ∂

∂β(β′X′y + y′Xβ) = 0⇒

2(X′X)β − 2(X′y) = 0

Ricordando cheρ(X) = k e quindi che:

ρ(X′X) = k ⇐⇒∣∣X′X

∣∣ 6= 0

possiamo esplicitare rispetto aβ ed ottenere lo stimatore di massima verosimi-glianza:

βML = (X′X)−1X′y (4.11)

Notate chee lo stesso stimatore che si ottiene applicando il metodo dei momenti.SostituendoβML nel secondo blocco delle condizioni del primo ordine (la derivataprima della logverosimiglianza rispetto aσ) e risolvendo rispetto aσ2 si ottieneanche uno stimatore per la varianza:

σ2ML =

1T

(y −XβML)′(y −XβML) =

=1T

ε′ε =1T

T∑t=1

ε2t , (4.12)

ε = y −XβML = y −X(X′X)−1X′y

Notate chee possibile confermare che la soluzioni associate alle condizioni delprimo ordine, cioe la (4.11) e la (4.12), definiscono un punto di massimo per lafunzione di logverosimiglianza. Questo puo essere verificato calcolando la matricehessiana in corrispondenza della soluzione:

H(βML, σ2ML) =

=[− 1

σ2 X′X 2σ3 (X′Xβ −X′y)

2σ3 (β′X′X− y′X) T

σ2 − 3 1σ4 ε′ε

](βML,σ2

ML)

=

=[− 1

σ2 X′X 2σ3 (X′Xβ −X′y)

2σ3 (β′X′X− y′X) T

σ4(σ2 − 3 1T ε′ε)

](βML,σ2

ML)

= − 1σ2

MLX′X 0

(k×1)

0′(1×k)

Tσ4

ML(−2σ2

ML)

=

− 1σ2

MLX′X 0

(k×1)

0′(1×k)

−2Tσ2

ML

(4.13)

Page 90: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

90 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Figura 4.2: retta di regressione interpolante una nuvola di punti

3.7

3.8

3.9

4

4.1

4.2

4.3

4.4

4.5

1.4 1.6 1.8 2 2.2 2.4 2.6 2.8

E evidente che la matrice hessiana, calcolata in corrispondenza della stima dimassima verosimiglianza sia definita negativa.

4.2.3 Metodo dei minimi quadrati (OLS=ordinary least squares)

Supponiamo di avereT osservazioni relative ad una misura del consumo aggregatoyt e ad una misura del reddito disponibilex2t.di volere stimare una relazione diregressione lineare del tipo:

yt = β1 + β2x2t + εt, t = 1, 2, . . . , T.

Si veda la figura 4.2: ogni punto sul grafico rappresenta un’osservazione suyt ex2t.

Il metodo di stima OLS consiste nel trovare una retta che interpoli la nuvoladi punti in modo tale da minimizzare la somma dei quadrati degli errori commessiinterpolando linearmente la nuvola di punti.

Supponiamo per esempioT = 4 osservazioni, in relazione a ciascuna di questeosservazioni si definisce un errore di interpolazione:

y1 − (β1 + β2x21)y2 − (β1 + β2x22)y3 − (β1 + β2x23)y4 − (β1 + β2x24)

Page 91: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.2. STIMA DEI PARAMETRI 91

La stima della relazione di regressione consiste nel trovare la configurazionedei parametriβ1 eβ2 (intercetta e coefficiente angolare) che consenta di minimiz-zare la somma dei quadrati degli errori di interpolazione:

minβ1,β2

T∑t=1

(yt − β1 − β2x2t)2

In termini piu generali, sulla base del MRL conk regressori:

yt =k∑

i=1

βixit + εt, t = 1, 2, . . . , T

si minimizza la funzione obiettivo somma dei quadrati degli errori di interpolazio-ne:

Q =T∑

t=1

(ε2t )

oppure in termini matriciali:

Q = (y −Xβ)′(y −Xβ) = y′y − β′X′y − y′Xβ + β′X′Xβ

rispetto al vettore dei parametriβ:

minβ

(y −Xβ)′(y −Xβ)

Ricaviamo le condizioni del primo ordine

∂Q

∂β=[0]

k×1

⇒ −2X′y + 2X′Xβ = 0

Da cui si ottiene facilmente:

βOLS = (X′X)−1X′y (4.14)

Si noti che:βOLS = βML = βMM

Propriet a dello stimatore OLS

(a) Quando si hanno regressori non stocastici, lo stimatore OLSe non distorto.Infatti:

E(β) = E[(

X′X)−1 X′y

]= E

[(X′X

)−1 X′(Xβ + ε)]

=

= β + (X′X)−1X′E(ε) = β

Page 92: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

92 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Nel caso in cui abbiamo regressori stocastici, per conservare la proprieta di nondistorsione diβ occorre ipotizzare:

E(X′ε) = 0

(b) La matrice di varianze e covarianze dello stimatore OLSe:

V ar(β) = E(β − β)(β − β)′ = E[(

X′X)−1 X′εε′X(X′X)−1

]A questo punto, ricordando le assunzioni sui termini di disturbo:

E(εt) = 0,∀t,E(εtετ ) = 0,∀t 6= τ,

E(ε2t ) = σ2,∀t

oppure in forma compatta:

E(ε) = 0,

E(εε′) = σ2IT

Quindi la matrice di varianze e covarianze dello stimatore OLSe:

V (β) = (X′X)−1X′σ2ITX(X′X)−1 = σ2(X′X)−1

Notate che con l’ipotesi aggiuntiva:

limT→∞

1T

(X′X) = Q(k×k)

doveQ e una matrice di rango pieno che puo essere interpretata come matrice divarianza e covarianza dei regressori, otteniamo:

limT→∞

V (β) = limT→∞

σ2

[X′XT

T

]−1

= limT→∞

σ2Q−1

T= [0]

che equivale a dire che lo stimatore di minimi quadratie consistente.(c) lo stimatore OLSe il piu efficiente nella classe degli stimatori lineari non

distorti (teorema di Gauss-Markov), se valgono le ipotesi canoniche sui termini didisturbo (E(ε) = 0 eE(εε′) = σ2I).

Infatti, si consideri un qualsiasi stimatore lineare non distorto

β = C(k×T )

y(T×1)

,

E(β) = β = CXβ + CE(ε)

quindi la matriceC , perche β sia non distorto,deve soddisfare:

CX = Ik

Page 93: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.2. STIMA DEI PARAMETRI 93

e la matrice di varianze e covarianze diβ e:

V ar(β) =σ2CC′ (4.15)

Si definisca ora:D = C− (X′X)−1X′

in modo tale che la (4.15) puo essere riscritta come:

V ar(β) =σ2[D + (X′X)−1

] [D + (X′X)−1

]′Si ricordi che:

CX = Ik= DX + (X′X)−1X′X = DX + Ik

che implica:DX = 0

e quindi possiamo scrivere la (??) come:

V ar(β) = σ2D′D + σ2(X′X)−1 = σ2DD′ + V ar(βOLS)

oppure:V ar(β)− V ar(βOLS) = σ2DD′

Quindi la differenza tra le due matrici di varianza e covarianzee σ2DD′ eD′D edefinita positiva:

x′D′Dx > 0,∀ x(k×1)

6= [0]

In questo modo sie dimostrato che lo stimatore OLSe piu efficiente di qualunquealtro stimatore lineare non distorto.

4.2.4 Aspetti algebrici dello stimatore OLS

(1) Si considerino i residui dell’equazione stimata utilizzando lo stimatore OLS:

ε = y −Xβ = y −X(X′X)−1X′y =

=[IT −X(X′X)−1X′

]y = (4.16)

=[IT −X(X′X)−1X′

](Xβ + ε) =

= Xβ + ε−X(X′X)−1X′Xβ −X(X′X)−1X′Xε = (4.17)[IT −X(X′X)−1X′

]ε (4.18)

Notate che:X′ε = X′y − (X′X)(X′X)−1X′y = 0 (4.19)

L’espressione appena riportata vale sempre. In termini geometrici descrive l’orto-gonalita dei residui OLS rispetto allo spazio coperto dalle colonne diX.

Page 94: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

94 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Se la regressione include una costante, la prima riga diX′ (colonna diX) sarauna colonna di elementi pari a1. Quindi, ricordando la (4.19) possiamo scrivere:

u1′

k X′ε =L′ε =T∑

t=1

εt = 0 (4.20)

doveu1k e il vettore estrazione di dimensione(k× 1) con primo elemento pari a 1:

u1′k

(1×k)

=[

1 0 . . . . . . 0]

Notate che la (4.20) implica che in questo caso, quando cioe la regressione includeun termine di intercetta, i residui hanno media campionaria pari a zero.

(2) Calcoliamo il valore atteso del vettore dei residui facendo riferimento alla(4.18):

E(ε) =(IT −X(X′X)−1X′

)E(ε) = 0

e quindi concludiamo che il valore atteso dei residuie nullo. La matrice di varianzee covarianze dei residuie:

V ar(ε) = E(εε′) =

=(IT −X(X′X)−1X′

)E(εε′)

(IT −X(X′X)−1X′

)=

= σ2(IT −X(X′X)−1X′

)(4.21)

dato cheE(εε′) = σ2IT ,eσ2(IT −X(X′X)−1X′

)e matrice idempotente.

(3) Riprendendo le equazioni normali dei minimi quadrati:

(X′X)β −X′y = 0

possiamo premoltiplicare per un idoneo vettore estrazione:

u1′

k X′Xβ = u1′

k X′y

Se la prima colonna diX e una colonna di1, si ha:

i(1×T )

′ Xβ = i(1×T )

′ y, (4.22)

i =[

1 1 . . . 1]′

e quindi, premoltiplicando entrambi i membri della (4.22) perT−1, si ottiene:

x′(1×k)

β =y (4.23)

Page 95: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.2. STIMA DEI PARAMETRI 95

Figura 4.3: retta di regressione stimata con termine di intercetta (puntoA=baricentro)

A

valo

re d

i y

valore di x2

y

x2

2

2.5

3

3.5

4

4.5

0 0.5 1 1.5 2

dove:

x = (1T

i′X)′ =1T

TT∑

t=1x2t

. . .T∑

t=1xkt

=

1x2

. . .xk

,

y = (1T

i′y) =1T

T∑t=1

yt.

Si noti chex e il vettore delle medie campionarie dei regressori ey e la media cam-pionaria della variabile dipendente. Quindi la relazione (4.23) indica che la retta diregressione (iperpiano di regressione sek > 2) passa per il baricentro campionario,cioe passa per il punto nello spaziok dimensionale con coordinate date dalle me-die campionarie delle grandezze che appaiono nella relazione di regressione. Cioavviene solo se il MRL comprende un termine di intercetta.

Nel caso della regressione semplice:

yt = β1 + β2x2t + εt, t = 1, 2 . . . , T

Page 96: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

96 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

abbiamo:y = β1 + β2x2

come evidenziato dal grafico 4.3.

4.2.5 Ricapitolazione sulla stima OLS dei parametriβ

La stima OLS coincide con la stima di massima verosimiglianza (ML=maximumlikelihood) e quella che si ottiene grazie all’applicazione del metodo dei momenti(MM ).La stima OLS non richiede alcuna assunzione sulla forma della distribuzio-ne dei termini di disturbo.

4.2.6 Interpretazioni alternative della stima OLS di un MRL

Una prima possibile interpretazione della stima del MRLe nei termini di proiezio-ne. Prendiamo i valori stimatiy:

y = Xβ = X(X′X)−1X′y (4.24)

E possibile definire la matriceX(X′X)−1X′ come la matrice di proiezione sullospazio coperto dalle colonne diX. Quindi y e la proiezione diy sullo spaziocoperto dalle colonne diX e il vettore dei residui:

ε = y−y =[IT −X(X′X)−1X′]y

da la distanza diy dalla proiezione sullo spazio coperto dalle colonne diX. Fa-cendo un esempio per il quale sia possibile dare una semplice rappresentazionegrafica, ipotizziamo un MRL con un solo regressore:

yt = β1x1t + εt, t = 1, ..T

Immaginiamo di avere soloT = 2 osservazioni:

y =[

24

],x =

[11

]E chiaro che:

β = (x′x)−1x′y =3

y = βx =[

33

]ε = y − y =

[−11

]Vediamo quindi chey esprime la proiezione ortogonale diy sullo spazio co-

perto dax.

Page 97: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.2. STIMA DEI PARAMETRI 97

Figura 4.4: regressione stimata come proiezione ortogonale

0 1 2 3 4 5 6 7 8 9

−2

−1

1

2

3

4

5

6

7

x

y

y

ε

^

Page 98: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

98 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

a) Un’altra interpretazione della stima OLS del MRLe la seguente. Supponia-mo di avere:

y = Xβ + ε

dove la prima colonna diX e il termine di intercetta. Ricordando le equazioninormali dei Minimi Quadrati:

(X′X)β = X′y

possiamo scrivere:

1T

u1′

k

(X′X

)β =

1T

u1′

k X′y ⇒1T

i′Xβ =1T

i′y ⇒

x(1×k)

′ β = y,

x′ =[

1 x2 . . . xk

]oppure in termini equivalenti:

k∑i=1

βixi = y

conx1 = 1, e quindi:

β1 = y−k∑

i=2

βix (4.25)

Utilizzando l’espressione (4.25) possiamo riscrivere il modello come:

yt − y =k∑

i=2

β(xit − xi)

oppure in termini matriciali:

y∗ = X∗β∗+ε∗,

y∗ =

y1 − yy2 − y. . .yT − y

,

X∗[T×(k−1)]

=

(x21 − x2) . . . (xk1 − xk)(x22 − x2) . . . (xk2 − xk)

. . . . . . (xk3 − xk)(x2T − x2) . . . (xk4 − xk)

=

=[

x∗2(T×1)

. . . x∗k(T×1)

]

Page 99: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.2. STIMA DEI PARAMETRI 99

Si definisca allora:

zt(k×1)

=

yt

x2t

. . .xkt

e si ipotizzi che tutte le variabili siano distribuite normalmente:

zt ∼ N(µ,Σ),

µ =

µ1

(1×1)

−−µ2

(k×1)

,Σ =

σ11 σ′21(1×k)

σ21(k×1)

Σ22(k×k)

,

µ1 = E(yt), µ2 = E

x2t

. . .xkt

,

σ11 = V ar(yt), σ′12 = Cov(yt [x2t . . . ..xkt])

Σ22 = V ar

x2t

. . .xkt

Notate che, per le proprieta della distribuzione normale,e possibile immediata-mente ricavare la distribuzione diyt condizionata sui valori dixt:

(yt|x2t . . . xkt) ∼ N(µ∗1, σ∗11)

E(yt|x2t . . . xkt) = µ∗1 = µ1 + σ′12Σ−122

x2t

. . .xkt

− µ2

,

V ar(yt|x2t . . . xkt) = σ∗11 = σ11 − σ′12Σ−122 σ21

Se vogliamo stimare i momenti della distribuzione condizionale diyt, datix2t . . . xkt,sulla base diT osservazioni disponibili su tutte le variabili, possiamo utilizzare gliequivalenti campionari dei momenti della popolazione:

µ1 = y, σ11 =1T

T∑t=1

(yt − y)2 =1T

y∗′y∗,

σ′12 =1T

T∑t=1

(yt − y)[

(x2t − x2) . . . . . . (xkt − xk)]

=

=1T

y∗′X∗,Σ22 =1T

X∗′X∗

Page 100: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

100 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Quindi la stima dei momenti della distribuzione condizionale diyt e:

µ∗1 = y + (y∗′X∗)(X∗′X∗)−1

x2t

. . .xkt

− x2

. . .xk

e quindi:

yt − y = [(x2t − x2) . . . (xkt − xk)][(X∗′X∗)−1X∗′y∗

],

y∗ = X∗β

e la stima della varianza condizionale diy e:

σ∗11 = V ar(yt|x2t . . . xkt) =[y∗′y∗−y∗′X∗(X∗′X∗)−1X∗′y∗

]=

= y∗′[IT −X∗(X∗′X∗)−1X∗′

]y∗

4.3 Stima del momento secondo (σ2)

Abbiamo visto che la scelta piu naturale per la stima della varianza dei termini didisturboe data da:

σ2ML =

1T

ε′ε

Tale stimatore deriva dalla massimizzazione della funzione di verosimiglianza.Purtroppo questo stimatoree distorto. Infatti, applicando l’operatore valore attesoabbiamo:

E(σ2ML) =

1T

E(ε′Mε) = (nb: M = IT−X(X′X)−1X′)

=1T

E(tr[Mε′ε

]= (nb: tr(ABC) = tr(BCA))

=1T

tr(Mσ2IT ) =σ2

T(tr [M])

dove:

tr(M) = tr(IT )− tr(X(X′X)−1X′) == T − tr((X′X)−1(X′X)) == T − tr(Ik) == T − k

e quindi:

E(σ2ML) =

T − k

Tσ2

Page 101: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.4. ANALISI DELLA VARIANZA 101

Quindi questo stimatoree distorto ma consistente, dato cheT−kT tende a 1 al

crescere diT . Si noti che lo stimatore

σ2OLS =

1T − k

ε′ε

e chiaramente non distorto. Quindi:

σ2ML =

1T

ε′ε distorto ma consistente

σ2OLS =

1T − k

ε′ε non distorto e consistente

Il denominatore diσ2OLS , cioe la grandezzaT−k, viene chiamatanumero dei gradi

di liberta della regressione.

4.4 Analisi della varianza

Quanto della variabilita diy e spiegata dalla retta (iperpiano) di regressione?

y′y = TSS Total Sum of Squares

= (Xβ + ε)′(Xβ + ε) =

= β′X′Xβ + β′X′ε + ε′Xβ + ε

′ε

Ricordando che:X′ε = 0

otteniamo:

y′y = β′X′Xβ + ε′ε ⇒

TSS = ESS + RSS (4.26)

dove:

ESS = β′X′Xβ =Explained Sum of Squares =

= somma dei quadrati “spiegata”

RSS = ε′ε =Residual Sum of Squares=

= somma dei quadrati dei residui

Quanto piu altoeESS rispetto aTSS, tanto miglioree la spiegazione della varia-bilit a diy fornita dalla regressione. Possiamo definire un indice basato sulla scom-posizione (4.26). Questo indice, chiamatoR2

UC = indice di bonta di adattamentoedefinito come:

R2UC =

ESS

TSS= 1− RSS

TSS

Page 102: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

102 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Questo indice viene definito “non centrato” (uncentered), dato che indica quantodella variabilita complessiva diy, misurata come somma dei quadrati dei valoridi y, viene spiegata dalla relazione di regressione. Quando il MRL ha un terminedi intercetta (ad esempiox1t = 1,∀t),una misura alternativa di adattamento si hascrivendo il MRL nei termini seguenti:

y∗(T×1)

=. X∗(T×(k−1))

β∗

((k−1)×1)+ u

(T×1)

dovey∗ e X∗ raccolgono le deviazioni dalla rispettiva media di colonna (cam-pionarie) eβ∗ comprende tutti i parametri escluso quello associato al termine diintercetta.E possibile definire un indiceR2

C “centrato” (centered):

R2C =

ESS

TSS=

β∗′X∗′X∗β∗

y∗′y∗

In questo modo si ottiene un indice di bonta di adattamento, sempre compre-so tra 0 e 1, che indica quanto della variabilita complessiva diy, misurata comesomma dei quadrati delle deviazioni dei valori diyt dalla media campionaria, vie-ne spiegata dalla relazione di regressione in base alla variabilita campionaria deiregressori diversi dal termine di intercetta.

4.5 Regressione partizionata

Il contenuto di questa sottosezionee rilevante per l’interpretazione dei coefficientistimati di un MRL.

Si immagini di avere un MRL del tipo:

y(T×1)

= X(T×k)

β(k×1)

+ ε(T×1)

Immaginiamo di partizionare la matriceX e il vettoreβ nei termini seguenti:

X =[

X1 X2

]β =

[β1

β2

]dove gli oggetti definiti hanno le seguenti dimensioni:

X1(T×k1)

, X2(T×k2)

, β1(k1×1)

, β1(k1×1)

, k1 + k2 = k

Ora, applichiamo la partizione appena descritta alle equazioni normali dei MQ:

X′Xβ = X′y ⇒[X′

1X1 X′1X2

X′2X1 X′

2X2

] [β1

β2

]=

[X′

1yX′

2y

](4.27)

Page 103: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.6. ANTICIPAZIONE SU TEST CONGIUNTI 103

E possibile risolvere il primo blocco delle equazioni (4.27) rispetto aβ1:

β1= (X′1X1)

−1[y −X2β2

](1 blocco)

Sostituendo questa soluzione nel secondo blocco di (4.27) si ottiene:

X′2X1(X

′1X1)

−1X′1(y −X2β2) + (X′

2X2β2) = X′2y.

Ora posso raccogliere tra loro i termini dove appareβ2 e portare gli altri a sinistra,ottenendo:

X′2

[IT −X1(X

′1X1)

−1]X2β2 = X′

2y −X′2X1(X

′1X1)

−1X′1y ⇒

X′2

[IT −X1(X

′1X1)

−1]X2β2 = X′

2

[IT−X1(X

′1X1)

−1X′1

]y (4.28)

La matrice:IT−X1(X

′1X1)

−1X′1 = M1

e chiaramente simmetrica e idempotente. Per cui posso scrivere la (4.28) come:

X′2M1β2= X′

2M1y

Definendo:

M1X2 = X∗2 residui della regressione diX2 suX1

M1y = y∗ residui della regressione diy suX1

si puo scrivere la (4.28) come:

β2= (X∗′2 X∗

2)−1X∗′

2 y∗ (4.29)

Quindi, la stima diβ2 e equivalente a quella che si otterrebbe regredendo prelimi-narmenteX2 ey dall’effetto diX1 tramite regressioni preliminari. I coefficienti diregressione stimati hanno quindi il significato di vere e proprie derivate parziali.

4.6 Anticipazione su test congiunti

Facciamo riferimento ad un MRL dove il primo dei regressorie un termine diintercetta:

y = Xβ + ε

oppure nella sua formulazione alternativa

y∗= X∗β∗+u

dove siano rispettate le ipotesi sui termini di disturbo:

ε ∼ N(0, σ2IT )

Page 104: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

104 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Quandoe vera la seguente ipotesi nulla:

H0 : β2 = β3 = . . . = βk = 0

(quando cioe il comportamento diy non e influenzato dai regressori diversi daltermine di intercetta),e possibile descrivere la distribuzione diRSS quando siadiviso perσ2 (varianza teorica dei termini di disturbo):

RSS

σ2=

ε′

σ(IT−X1(X

′1X1)

−1X′1)

ε

σ∼ χ2

T−1 (4.30)

Nello stesso modo, quandoe veraH0 abbiamo:

ESS

σ2=

1σ2

β∗′X∗′X∗β ∼ χ2k−1 (4.31)

con ESSσ2 indipendente daRSS

σ2 . Sulla base di tutto cio possiamo definire una gran-dezza costruita come rapporto tra (4.30) e (4.31), ognuna divisa per il proprio nu-mero di gradi di liberta, ed in questo modo ottenere una grandezza distribuita comeuna variabile casualeF di Fisher:

ESS/(k − 1)RSS/(T − k)

=R2

c/(k − 1)(1−R2

c)/(T − k)∼ Fk−1,T−k (4.32)

che puo essere utilizzata per provare l’ipotesi:

H0 : β2 = β3 = . . . = βk = 0 (4.33)

H1 : β2 6= β3 6= . . . 6= βk 6= 0

Notate che l’ipotesi (4.33)e l’ipotesi che la regressione non abbia alcun potereesplicativo, ede evidente che il testF utilizzato sia ovviamente una funzione cre-scente dell’indiceR2

c : quando la regressione ha basso potere esplicativo (bassoR2

c ), il testF calcolato sara vicino a zero, mentre quando l’indice calcolatoe vicinoa 1, allora il valore calcolato per il testF tende ad essere molto grande.

4.7 Inferenza statistica sul modello di regressione

4.7.1 Costruzione di intervalli di confidenza

Se sono valide le ipotesi sui termini di disturbo che sintetizziamo in questo modo:

ε ∼ N(0, σ2IT )

e facile mostrare che:

β ∼ N(β, σ2Q) (4.34)

Q = (X′X)−1

Page 105: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 105

Figura 4.5: distribuzione per la stima diβ, opportunamente standardizzata, erelativi quantili corrispondenti aα/2. (Nella figuraT − k = 20, α = 0.05)

α/2)t(− α/2)t(

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

−4 −3 −2 −1 0 1 2 3 4

quandoX sia non stocastico, (o condizionatamente rispetto aX). Questo risultatodi normalita e immediato dato cheβ e ottenuto comek combinazioni lineari dellavariabile casualeT−dimensionaleε distribuita normalmente:

β = (X′X)−1X′y = β + (X′X)−1X′ε

Sulla base di questo risultato possiamo scrivere:

βi − βi

σ√

qii∼ N(0, 1), qii = elemento diagonalei-esimo diQ

Sappiamo pure che:RSS

σ2∼ χ2

T−k

e chee indipendente dalla distribuzione diβ. In termini equivalenti:

(T − k)σ2

σ2∼ χ2

T−k

Quindi posso costruire una variabile casuale distribuita come unat di Student conT − k gradi di liberta

βi − βi

σ(qii)1/2√(T − k) σ2

σ2

T − k

=βi − βi

σqii1/2

∼ tT−k (4.35)

Page 106: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

106 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

e, utilizzando questo risultato distributivo,e possibile ricorrere ai valori tabulatidei quantili della distribuzionet di Student conT − k gradi di liberta per definireintervalli che soddisfano:

p

−t(α/2) ≤

βi − βi

σ(qii)1/2≤ −t(α/2)

= 1− α (4.36)

come si evince dalla figura 4.5.Notate che in questo modoe possibile definire l’intervallo fiduciario perβi

centrato intorno alla sua stima puntuale e associato ad un livello fiduciario pari adα :

P

βi − t(α/2) [σ√

qii] ≤ βi ≤ βi + t(α/2) [σ√

qii]

= 1− α

I termini βi− t(α/2)

[σ√

qii

]e βi + t(α/2)

[σ√

qii

]costituiscono quindi gli estremi

di tale intervallo fiduciario.

4.7.2 Prova delle ipotesi

Supponiamo che vi sia interesse per la verifica dell’ipotesi semplice che riguardail parametroβi:

H0 : βi = β0i

H1 : βi 6= β0i (4.37)

dove perβ0i si intende un determinato valore. Ad esempio, seβ0i = 0, l’ipotesinulla contempla la mancanza di potere esplicativo dixit suyt. Si noti che la (4.37)definisce un’ipotesi alternativa bilaterale.

Fissando la probabilita dell’errore di prima specie:

pr(rifiuto H0 | H0 vero)= α

possiamo utilizzare il risultato distributivo (4.35) per definire il criterio che defi-nisce la regione di accettazione e la regione di rifiuto diH0 (si veda la figura 4.6)basato sulla probabilita dell’errore di prima specie scelto:

p

−t(α/2) >

βi − β0i

σqii1/2

> t(α/2)

= α

Come si evince dalla figura, il test da utilizzaree a due code e si sostanzia nelseguente criterio decisionale: si calcoli:

βi − β0i

σqii1/2

Se tale valoree compreso tra−t(α/2) e t(α/2), si accettaH0, altrimenti si rifiutaH0. Notate che esiste una dualita interpretativa tra costruzione dell’intervallo di

Page 107: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 107

Figura 4.6: test a due code per verificareH0 : β0 = 0, controH0 : β0 6= 0

se il valore calcolato del test cade in questointervallo, accetto l’ipotesi nulla

αprobabilità pari a

/2αprobabilità pari a

/2

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

−4 −3 −2 −1 0 1 2 3 4

confidenza e prova delle ipotesi: se il test conduce all’accettazione diH0, alloral’intervallo fiduciario corrispondente ad un livello fiduciario pari a1 − α conterrail valore puntualeβio ipotizzato vero sottoH0, e viceversa.

Supponiamo ora che l’ipotesi alternativaH1 sia ora unilaterale, ad esempio:

H1 : βi > β0i.

Fissando la probabilita dell’errore di prima specie:

pr(rifiuto H0 | H0 vero)= α

possiamo utilizzare il risultato distributivo (4.35) per definire il criterio che defi-nisce la regione di accettazione e la regione di rifiuto diH0 (si veda la figura 4.7)basato sulla probabilita dell’errore di prima specie scelto:

p

βi − β0i

σqii1/2

> t(α)

= α

Come si evince dalla figura, il test da utilizzaree a una coda e si sostanzia nelseguente criterio decisionale: si calcoli:

βi − β0i

σqii1/2

Page 108: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

108 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Figura 4.7: test a una coda per verificareH0 : β0 = 0, controH0 : β0 > 0

αprobabilità pari a

se il valore calcolato del test cade nell’intervalloa sinistra del quantile, accetto l’ipotesi nulla

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

−4 −3 −2 −1 0 1 2 3 4

Se tale valoree minore dit(α/2), si accettaH0, altrimenti si rifiutaH0. Lasciamotrovare al lettore, come semplice esercizio, la regione critica corrispondente al testche verificaH0 contro:

H1 : βi < β0i.

Un esempio

Supponiamo che in relazione ad un MRL stimato si abbia:

βi = 0.05,√σ2 · qii = 0.02,

T = 66, k = 6

e supponiamo di voler verificare:

H0 : βi = 0 contro

H1 : βi 6= 0

con probabilita dell’errore di primaα = 5%.Dalle tavole della distribuzione t di Student conT − k = 60 gradi di liberta, si

trova il quantile:tα/2 = 2.00

Page 109: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 109

L’intervallo di confidenza al 95%e dato da:

[βi − tα/2σq1/2ii , βi − tα/2σq

1/2ii ] =

[0.05− 2.00 · 0.02, 0.05 + 2.00 · 0.02] = [0.01, 0.09]

Il valore calcolato del teste:

βi

σq1/2ii

=0.050.02

= 2.5

che confrontato con il valore criticotα/2 = 2.00 conduce a rifiutareH0.Se avessi-mo come ipotesi alternativa:

H1 : βi > 0

scegliendo come probabilita di errore di prima specieα = 0.05, il quantile rilevantedella distribuzionee:

tα = 1.671

Dato che il valore calcolato del test (2.5)e maggiore ditα anche il test ad una codacomporta il rifiuto diH0.

4.7.3 Un utile esempio: il MRL con 3 regressori

Supponiamo di avere il seguente MRL:

yt = β1 + β2x2t + β2x3t + εt, t = 1, 2, . . . , T

x1t = 1,∀t.

oppure in termini matriciali:

y = X(T×3)

β(3×1)

+ε,

X =

1 x21 x31

. . . . . . . . .1 x2T x3T

, β =

β1

β2

β3

In questo caso abbiamo quindi 3 regressori, di cui unoe il termine di intercetta.

Consideriamo ora le equazioni normali dei minimi quadrati:

X′Xβ = X′y

Possiamo utilizzare anche un’altra notazione. Definiamo la somma dei quadratidegli errori come:

Q =T∑

t=1

(yt − β1 − β2x2t − β3x3t)2

Page 110: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

110 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Differenziando rispetto ai parametriβ1, β2, β3 otteniamo:

∂Q

∂β1= 0 ⇒ β1 =

1T

T∑t=1

yt − β21T

T∑t=1

x2t − β31T

T∑t=1

x3t

⇒ β1 = y − x2β2 − x3β3 (prima equazione dei MQ)

dove:

y =1T

T∑t=1

yt media campionaria diy

x2 =1T

T∑t=1

x2t media campionaria dix2

x3 =1T

T∑t=1

x3t media campionaria dix3

∂Q

∂β2= 0 ⇒

T∑t=1

x2tyt = β1

T∑t=1

x2t + β2

T∑t=1

x22t + β3

T∑t=1

x2tx3t

Nella relazione precedente, sostituiamo l’espressione perβ1:(T∑

t=1

x2tyt − T yx2

)= β2

(T∑

t=1

x22t − T x2

2

)+

+β3

(T∑

t=1

x2tx3t − T x2x3

)cioe:

S2y = β2S22 + β3S23 2a equazione deiMQ

dove:

S2y =T∑

t=1

x2tyt − T yx2 (T volte la covarianza campionaria tray ex2)

S22 =T∑

t=1

x22t − T x2

2 (T volte la varianza campionaria dix2)

S23 =T∑

t=1

x2tx3t − T x2x3 (T volte la covarianza campionaria trax2 ex3)

DifferenziandoQ rispetto aβ3 (e sostituendoβ1) otteniamo:

∂Q

∂β3

= 0 ⇒ S3y = β2S23 + β3S33 3a equazione deiMQ

Page 111: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 111

con:

S3y =T∑

t=1

x3tyt − T x3y

Ora,e possibile risolvere la2 e la3 equazione deiMQ per ottenere:

β2 =S33S2y − S23S3y

β3 =S23S3y − S23S2y

∆,

∆ = S22S33 − S223

e infine si ottiene anche un espressione per il coefficiente di intercetta stimato:

β1 = y − β2x2 − β3x3

Le soluzioni cosı ricavate per gli stimatori OLS diβ1, β2, β3 sono del tutto equiva-lenti a quelli ottenuti facendo riferimento alla usuale notazione matriciale:

β(3×1)

= (X′X)−1X′y

Si noti che:

TSS = Syy =T∑

t=1

(yt − y)2 = y∗′y∗,

ESS = β2S2y + β3S3y = β∗′X∗′y∗ == β∗′X∗′X∗β∗,

β∗ =[

β1

β2

]dato che:

X∗′y∗ = X∗′(X∗β∗+ε),

X∗′ε = 0

A questo punto possiamo scrivere la somma dei quadrati dei residui della regres-sione stimata come:

RSS = Syy − β2S2y − β3S3y = y∗′y∗−β∗X∗′X∗β∗= ε′ε

e l’indiceR2 come:

R2 =ESS

TSS=

β2S2y + β3S3y

Syy(coefficiente di determinazione multipla).

mentre l’indiceR e detto anchecoefficiente di correlazione multipla.

Page 112: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

112 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.7.4 Inferenza statistica nel modello di regressione multipla

Si ricordi che, sotto le ipotesi canoniche sui termini di disturbo, compresa l’ipotesidi normalita, abbiamo che:

β ∼ Nβ, σ2(X′X)−1

Si consideri ora il modello di regressione con:

yt = β1 + β2x2t + β3x3t + εt, t = 1, 2, .., T

y = X(T×3)

β(3×1)

oppure:

y∗ = X∗β∗+u,

β∗ =[

β2

β3

]e quindi avremo:

β∗ ∼ Nβ∗, σ2(X∗′X∗)−1

[X∗′X∗]−1 =

[S22 S23

S22 S33

]−1

=1

S23S33

[1− r2

23

] [ S22 −S23

−S23 S33

],

r223 =

S223

S22S33(coefficiente di correlazione campionario trax2 ex3)

Quindi possiamo scrivere le varianze e covarianze dei singoli coefficienti stimaticome:

V ar(β2) =σ2

S22(1− r223)

, (4.38)

V ar(β3) =σ2

S33(1− r223)

, (4.39)

Cov(β2, β3) =σ2r2

23

S23(1− r223)

, (4.40)

V ar(β1) =σ2

T+ x2

2V ar(β2) + 2x2x3Cov(β2, β3) +

+x23V ar(β3) (4.41)

Le seguenti considerazioni sembrano degne di nota:

1. Si noti che le varianze diβ2 e β3 crescono al crescere dir223.

2. La variabile casuale:RSS

σ2∼ χ2

(T−3)

puo essere utilizzata per costruire intervalli di confidenza perσ2.

Page 113: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 113

Figura 4.8: intervallo fiduciario perβ2 eβ3

β3

β2

β2

β3

β2 β3

intervallo fiduciarioper e

stima puntuale di

stima puntuale di

3. Standardizzando opportunamente gli stimatori dei singoli parametri otte-niamo variabili casuali distribuite comet di Student conT − 3 gradi diliberta:

β1 − β1

σq1/211

∼ t(T−3)

β2 − β2

σq1/222

∼ t(T−3)

β3 − β3

σq1/233

∼ t(T−3)

Questi risultati distributivi possono essere utilizzati per costruire intervalli diconfidenza perβ1, β2 eβ3.

4. La variabile casuale:

F =1

2σ2[S22(β2 − β2)2 + 2S23(β2 − β2)(β3 − β3) +

S33(β3 − β3)2] (4.42)

si distribuisce come una variabile casualeF di Fisher:

F ∼ F2,(T−3)

Questo risultato distributivo puo essere utilizzato come riferimento per co-struire intervalli di confidenza perβ2 eβ3. Ad esempio, facendo riferimento

Page 114: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

114 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

alla Figura 4.8, possiamo definire un’ellisse, che corrisponde ad una curvadi livello delle funzioni di densita F2,(T−3) tale per cui i punti ricompresinell’ellisse definiscono un intervallo con massa di probabilita = 1 − α (adesempio =0.95), cioe:∫ ∫

β1,β2∈A

f(β1, β2)dβ1dβ2 = 0.95

Alternativamente, la grandezzaF definita nella (4.42) puo essere utilizzata perverificare l’ipotesi nulla:

H0 : β1 = β2 = 0

contro:H1 : β1 e/o β2 6= 0

In tal caso la grandezza F viene calcolata in corrispondenza diH0 :

F =ESS/2

RSS/(T − 3)=

=1

2σ2

[S22(β2)2 + 2S23β2β3 + S33(β3)2

]In questo caso l’esame della tavola per la distribuzioneF2,T−2 fornisce il valorecritico di riferimento alla probabilita dell’errore di prima specie scelta.

4.7.5 Esempio di regressione multipla conk = 3 regressori

Immaginiamo di avere una funzione di produzione specificata in logaritmi:

yt = β1 + β2x2t + β3x3t + εt, t = 1, 2, . . . , T

dove:

y = log(prodotto)x2 = log(lavoro)x3 = log(k)

Abbiamo dati relativi a 23 imprese (T = 23) che possono essere riassunti comesegue: x2 = 10 x3 = 5 y = 12

S22 = 12 S23 = 8 S33 = 12S2y = 10 S3y = 8 Syy = 10

1. Calcolareβ1, β2, β3 e le stime dei rispettivi errori standard.

2. Trovare gli intervalli di confidenza al95% perβ1, β2, β3,e provare le ipotesiseparateβ2 = 0 eβ3 = 0 (con livello di confidenza pari a 95% e probabilitadell’errore di prima specie al 5%)

Page 115: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 115

3. Trovare la regione di confidenza al95% perβ2 eβ3

4. Verificare l’ipotesi (con probabilita d’errore di prima specie al 5%):

H0 : β2 = 1, β3 = 0

Soluzioni:

1. equazioni normali:β1 = y − β2x2 − β3x3

S22β2 + S23β3 = S2y

S23β2 + S33β3 = S3y

β1 = 4β2 = 0.7β3 = 0.2

R2c =

ESS

TSS=

β2S2y + β3S3y

Syy= 0.86

da cui

RSS = Syy(1−R2c) = 1.4

σ2 =RSS

(T − 3)= 0.07

r212 =

S223

S22S33=

64144

= 0.4444

da cui (applicando le formule (4.41-??)):

V ar(β2) =320

σ2

V ar(β3) =320

σ2

Cov(β2, β3) =−σ2

10V ar(β1) = 8.7935σ2 (varianze e covarianze teoriche)

Sostituisci oraσ2 con σ2 (stima della varianza diεt) e prendi le rediciquadrate delle varianze stimate cioe gli errori standard stimati√

V (β2) = SE(β2) = 0.102√V (β3) = SE(β3) = 0.102√V (β1) = SE(β1) = 0.78

Page 116: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

116 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

L’equazione di regressione stimata diventa (errori standard in parentesi sottoi coefficienti stimati):

yt = 4(0.78)

+ 0.7(0.102)

x2t+ 0.2(0.102)

x3t

σ2 = 0.07R2 = 0.86

2. Per costruire intervalli di confidenza

βi − βi

SE(βi)∼ t(T−k), i = 1, 2, 3

Nel nostro caso (conα = 0.05, T = 23, k = 3), la distribuzione di riferi-mentoe una t di Student con 20 gradi di liberta e quindit(α/2) = t(0.025) =2.086. Pertanto gli intervalli di confidenza sono ottenuti come:

β1 ± SE(β1) · 2.086 = [2.37, 5.63]β2 ± SE(β2) · 2.086 = [0.49, 0.91]β3 ± SE(β3) · 2.086 = [−0.01, 0.41]

I test delle ipotesi:

H0 : βi = 0H1 : βi 6= 0, i = 2, 3 conα = 5%

sono ottenuti facendo riferimento a:

βi − βi0

SE(βi)∼ t20,

βi0 = 0, i = 2, 3

La regione di accettazione diH0 e ovviamente definita dall’intervallo:

[−t(α/2), t(α/2)] = [−t(0.025, t(0.025)] = [−2.086, 2.086]

I valori calcolati di tali test sono:

β2 − 0

SE(β2)=

0.71.02

= 6.9 ⇒ Rifiuto H0

β3 − 0

SE(β3)=

0.21.02

= 1.9 ⇒ AccettoH0

Page 117: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.8. LA PREVISIONE 117

3. Costruisci:

(β∗ − β∗)′X∗′X∗(β∗ − β∗)/(k − 1)RSS/(T − k)

∼ Fk−1,T−k

cioe:[S22(β2 − β2)2 + 2S23(β2 − β2)(β3 − β3) + S33(β3 − β3)

]≤ 3.49(2σ2) ⇒[

12(0.7− β2)2 + 16(0.7− β2)(0.2− β3) + 12(0.2− β3)2]≤ 3.49(2 · 0.07) ⇒

(β2 − 0.7)2 +43(β2 − 0.7)(β3 − 0.2) + (β3 − 0.2)2 ≤ 0.041

che definisce la superficie delimitata da un’ellisse centrata sul punto:

β∗ =[

0.70.2

]4. Per la verifica dell’ipotesi congiunta:

H0 : β2 = 1, β3 = 0 contro

H1 : β2 6= 1, e/o β3 6= 0

si costruisce il testF :

F =1

2σ2

[S22β

22 + 2S23β2β3 + S33β

23

]= 4.3

Consultando la tavola della distribuzioneF2,20 si ottiene che il valore criticoal 5% e:

f(0.05) = 3.49

che confrontato con il valore calcolato del test (4.3) comporta il rifiuto diH0.

4.8 La previsione

Supponiamo di avere un MRL stimato del tipo

y = Xβ

Immaginiamo che le osservazioni(t = 1, . . . , T ) sulle quali si basa la stima delmodello siano riferite a diversi istanti temporali, da un inizio del campione nel pas-sato (t = 1) ad un istante che corrisponde al presente (t = T , fine del campione).E possibile utilizzare il MRL stimato perprevederel’andamento futuro diy :

yT+1 =x′T+1(1×k)

β previsione un passo in avanti

Page 118: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

118 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Ovviamente, per poter utilizzare il modello a fini estrapolativi, occorre poter for-mulare un’ipotesi relativa al valore futuro dei regressori. Tale ipotesi si chiamascenario della previsione:

x′T+1 =[

x1,T+1 . . . xk,T+1

]L’attivit a di previsione comporta necessariamente che vengano compiuti degli er-rori. Ipotizzando che non esista incertezza sullo scenario (cioe si ipotizza chexT+1sia conosciuto con certezza), l’errore di previsioneviene definito come:

εT+1|T = yT+1 − yT+1 = x′T+1β + εT+1 − x′T+1β =

= x′T+1(β − β) + εT+1

Notate che l’errore di previsione ha due componenti: la prima componente legataal fatto cheβ none conosciuto e deve essere stimato (x′T+1(β − β)), e la secondacomponente chee invece connessa alla presenza di un termine di disturbo stoca-stico ed imprevedibile (εT+1). L’errore di previsione ha comunque valore attesonullo (se la stima dei parametrie non distorta):

E(yT+1 − yT+1) = x′T+1E(β − β) + E(εT+1)

e la varianza dell’errore di previsionee data da:

V ar(εT+1|T ) = x′T+1V ar(β)xT+1 + σ2 =

= σ21 + x′T+1

[(X′X)−1

]xT+1

Ad esempio, consideriamo il MRL semplice:

yt = β1 + β2x2t + εt, t = 1, 2, . . . T

possiamo scrivere la varianza dell’errore di previsione come:

V ar(εT+1|T ) = σ2T+1|T = V ar(yT+1 − yT+1) =

= σ2

[1 +

1T

+(x2T+1 − x2)2

Sxx

],

Sxx =T∑

t=1

(x2t − x2)2, x2 =T∑

t=1

x2t

Si noti che l’errore di previsioneεT+1|T = yT+1−yT+1 = x′T+1(β−β) e una com-

binazione lineare di variabili casuali normali (εT+1, β − β) se i termini di disturbosono normali, per cui avra una distribuzione normale e quindi posso scrivere:

yT+1 − yT+1

σT+1|T∼ tT−k,

σ2T+1|T = σ2

[1 + x′T+1(X

′X)−1xT+1

](4.43)

Page 119: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 119

Figura 4.9:

estremo fiduciariosuperiore

puntualeprevisione

estremo fiduciarioinferiore

valore dello scenario

media camp.di x2

prev

isio

ne p

untu

ale

e in

terv

. fid

ucia

rio

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7

Sulla base di questo risultato distributivoe possibile costruire un intervallofiduciario intorno alla previsione puntuale. Nel caso della regressione semplice,abbiamo un intervallo fiduciario ad un livello fiduciario pari a1 − α definito nelmodo seguente:

[yT+1 ± t(α/2) · σT+1|T ]

Quindi notiamo che, a parita di ogni altra circostanza, quanto piu mi allontanodalla media campionariax2, tanto piu la previsione diyT+1 diventa incerta:eaccompagnata da un intervallo fiduciario la cui ampiezza cresce con il crescere dix2T+1 dax2. Si veda a questo proposito la Figura 4.9.

4.9 Diversi modi di costruire Test: Test LR, di Wald, LM

4.9.1 Il test LR

Il primo test che descriviamo viene chiamatoLR (rapporto delle verosimiglianze =likelihood ratio). Questo test ha validita in grandi campioni ede basato sulla stimadi massima verosimiglianza. Si immagini di voler provare l’ipotesi che i parametridel modello soddisfino un certo insieme di restrizioni. Si definiscaθ il vettore di

Page 120: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

120 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

parametri del modello (nel MRLθ = [β′σ2]′) e chiamiamo:

λ =massimo di L sotto le restrizioni

massimo di L non vincolato=

=L(θR)

L(θUR)(R = restricted, UR = un− restricted)

E possibile mostrare che:

φLR = −2 log λ(a)∼H0

χ2q (4.44)

cioe che la distribuzione asintotica di−2 log λ sottoH0 e χ2q doveq = numero di

restrizioni imposte sul modello vincolato. Ad esempio, consideriamo il MRL:

y = X(T×k)

β + ε = X1(T×k1)

β1+ X2(T×k2)

β2 + ε

per il quale supponiamo siano verificate le seguenti ipotesi sui termini di disturbo:

ε ∼ N(0, σ2IT )

Immaginiamo di avere come ipotesi nulla:

H0 : β2 = 0 (k2 vincoli di uguaglianza a zero)

La stima del modello non vincolato tramite massima verosimiglianzae:

β = (X′X)−1X′y,

σ2 =1T

ε′ε

In corrispondenza di tale valore, la funzione di verosimiglianza assume il valore:

L(β, σ2) =(

1√2πσ

)T

exp− 1

2σ2ε′ε

=(

1√2πσ

)T

exp−T

2

La stima del modello vincolatoe invece basata su di una formulazione del MRLsulla quale sono stati imposti i vincoli che caratterizzanoH0:

y = X1β1+εR

i cui parametri stimati sono:

βR =

[(X′

1X1)−1X′

1y0

(k2×1)

],

σ2R =

1T

ε′RεR

Page 121: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 121

e il valore della verosimiglianza calcolato in corrispondenza di questo massimovincolatoe:

L(βR, σ2R) =

(1√

2πσR

)T

exp− 1

2σ2R

ε′RεR

=

=(

1√2πσR

)T

exp−T

2

Quindi posso costruire la variabile casuale definita dalla (4.44) come:

φLR = −2 logL(θR)

L(θUR)= T log(

σ2R

σ2) = T [log RRSS − log URSS]

dato che:

σ2 =1T

ε′ε =URSS

T

σ2R =

1T

ε′RεR =RRSS

TURSS = somma dei quadrati dei residui

del modelloUR (non vincolato,unrestricted)

RRSS = somma dei quadrati dei residui

del modelloR(vincolato,restricted)

Il modo in cui e costruito il test implica che sia necessario stimare separatamenteil modello vincolato ed il modello non vincolato.

4.9.2 Il test di Wald

Supponiamo che le consuete ipotesi sul MRL abbiamo condotto ad ottenere lastima dei parametri del primo ordine che ha la seguente proprieta:

β ∼ N(β, σ2(X′X)−1)

Immaginiamo di voler provare l’ipotesi:

H0 : β2 = 0

H1 : β2 6= 0

doveβ2 e un sottoinsieme diβ. Si consideri la stima diβ2 (ottenuta sulla basedel modello di partenza non vincolato, vale a dire su cui non sono stati imposti ivincoli che caratterizzanoH0) e si definisca:

(X′X)−1 = [Q] =[

Q11 Q12

Q21 Q22

]

Page 122: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

122 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Grazie alle proprieta della distribuzione gaussiana, sappiamo che:

β2−β2 ∼ N(0, σ2Q22) (4.45)

Definiamo alloraP2 la fattorizzazione di Choleski diQ22:

P2P′2 = Q22

Ik2 = P−12 Q22P−1′

2

Possiamo ora standardizzare la distribuzione diβ2 utilizzando la seguente trasfor-mazione della (4.45):

1σP−1

2 (β2−β2) ∼ N(0, Ik2) (4.46)

che sotto l’ipotesi nullaH0 : β2 = 0 diventa:

1σP−1

2 (β2) ∼ N(0, Ik2)

Facendo la somma dei quadrati degli elementi del vettore:

z =1σP−1

2 (β2)

ottengo chiaramente una grandezza distribuita come unaχ2k2

:

z′z =[

1σP−1

2 (β2)]′ [ 1

σP−1

2 (β2)]

=1σ2

β′2Q−122 β2 ∼

H0

χ2k2

Ovviamente nella formulazione della statistica appena descritta appare la gran-dezzaσ2 che in generee sconosciuta. Occorre quindi stimare questo parametro,in genere utilizzando lo stimatore di massima verosimiglianza, e la statistica diriferimento sara:

φW =1

σ2ML

β′2Q−122 β2

a∼H0

χ2k2

Nel caso piu generale dell’imposizione sottoH0 di q vincoli lineari indipendentisui parametri del primo ordine:

H0 : R(q×k)

β = d

ρ(R) = q

ricordando che:β ∼ N(β, σ2(X′X)−1)

possiamo ricavare la distribuzione sottoH0 della grandezza(Rβ − d):

(Rβ − d) ∼ N(0, σ2R(X′X)−1R′)

Page 123: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 123

e quindi possiamo costruire il test:

φW =1

σ2ML

(Rβ − d)′ [

R(X′X)−1R′]−1 (Rβ − d)(a)∼H0

χ2q

Prendiamo come esempio piu semplice un MRL dove tutte le variabili appaionoespresse in termini di deviazioni dalle rispettive medie campionarie:

y∗= X∗β∗+u

e supponiamo che l’ipotesi nulla sia quella che implica l’assenza assoluta di potereesplicativo da parte della regressione:

H0 : β∗ = 0

R = Ik−1

d = [0](k−1)×1

Possiamo quindi costruire un test di Wald come:

φW =β∗

′X∗′X∗β∗

σ2ML

H0∼(a)

χ2k−1

Notate che questa statistica si puo esprimere in termini equivalenti come:

φW =β∗

′X′Xβ

σ2ML

=ESS

(URSST )

= T

(R2

c

1−R2c

)(test di Wald in formaχ2)

nb : R2c =

ESS

TSS

Una formulazione alternativa del test di Walde la seguente:

fW =ESS/(k − 1)

URSS/(T − k)=

(RRSS − URSS)/k − 1URSS/T − k

∼ Fk−1,T−k

In questo caso la distribuzione di riferimento sottoH0 e unaF di Fisher conk− 1eT − k gradi di liberta. Si noti che l’equivalente test LR della medesima ipotesie:

φLR = T log(

RRSS

URSS

)Per questo esempio abbiamo:

RRSS = y′ y

URSS = ε′ ε

(dato che azzeriamo i coefficienti associati a tutti i regressori diversi dall’intercettasottoH0) e quindi:

φLR = T log[y′ yε′ ε

]Si noti che per ottenere il test di Wald, in via generale,e necessario stimare solo ilmodello non vincolato.

Page 124: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

124 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.9.3 Test LM (Lagrange Multipliers) (test dei moltiplicatori di La-grange)

Stimiamo il MRL:y = Xβ + ε

sottoposto ai vincoli:R

(q×k)β

(k×1)

q<k

= d

ρ(R) = q

Dobbiamo quindi massimizzare la logverosimiglianza:

log L

sotto i vincoli:Rβ = d

Il primo passoe quello di costruire la funzione lagrangiana:

log L + λ′ (Rβ − d)

∂ log L

∂θ+ R′ λ = 0 (4.47)

dove conθ indichiamo il vettore che contiene tutti i parametri del modello:

θ(k+1)×1

=[

βσ2

]Ovviamente, il gradiente, calcolato in corrispondenza della configurazione di

θ che massimizza la logverosimiglianza sotto i vincoli imposti (θR) none zero mae pari a−R′ λ, come si evince dalla (4.47). Se i vincoli non fossero stringenti,allora il punto di massimo vincolatoθR coinciderebbe con il punto di massimonon vincolatoθUR e quindi avremmo che il gradientee nullo. In questo casoinfatti, il vettore di moltiplicatori di Lagrangeλ e un vettore di dimensioni (q × 1)di zeri. Quanto piu i vincoli sono stringenti, tanto piu il gradiente calcolato incorrispondenza diθR tendera ad essere diverso da zero.

E possibile costruire un test dell’ipotesi nulla

H0 : Rβ = d

basato sulla seguente domanda: il gradiente della funzione di logverosimiglian-za, calcolato in corrispondenza diθR e significativamente diverso da0? Si puodimostrare che, sottoH0 (e date le ipotesi consuete sul modello, compresa quel-la di normalita dei termini di disturbo), possiamo descrivere la distribuzione delgradiente:

γ(θR) =[∂ log L (θ)

∂θ

]θ=θR

∼ N(0 , I

(θR

))

Page 125: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 125

dove

I(θR

)=

[−E

(∂2 log (θ)

)∂ θ ∂ θ′

]θR

si intende lamatrice di informazionecalcolata in corrispondenza diθR, cioe il va-lore atteso della matrice Hessiana delle derivate seconde (cambiate di segno) dellalogverosimiglianza calcolata in corrispondenza della stima di massima verosimi-glianza sottoH0.

Dato questo risultato distributivo, posso definire una grandezza scalare definitacome:

φ = γ(θR)′ [

I(θR

)]−1γ(θR) (4.48)

e questa grandezzae asintoticamente distribuita sottoH0 come una variabile ca-sualeχ2

q , conq gradi di liberta:

φH0∼(a)

χ2q (4.49)

Ad esempio, consideriamo il MRL:

y = Xβ + ε = X1β1 + X2β2 + εε ∼ N

(0 , σ2I

)

H0 : β2 = 0H1 : β2 6= 0

calcoliamo le derivate prime e seconde della funzione di logverosimiglianza:

∂ log L

∂β= − 1

2σ2

(−2X′y + 2X′Xβ

)∂2 log L

∂β ∂β′= −X′X

σ2

con:

βR =[

β1 R

0

]I(θR) =

XX′

σR2

∂ log L(σR)∂ σR

=1

σ2R

(X′y −XX′βR

)E possibile mostrare (solo un con un po’ di algebra e buona volonta) che vale:

test LM = φLM =RSS − URSS

RSS/T

Page 126: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

126 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Figura 4.10: Logiche di costruzione di test a confronto

non vinc.ββ0

test LR

test di Wald

S’

Test LM

β

log

L

S

L’inclinazione diSS′ e alla base della costruzione del test LM

Ad esempio, nel caso del test di bonta della regressione:

H0 : β2 = · · · = βk = 0contro

H1 : β2 6= 0, e/o β3 6= 0, e/o βk 6= 0

il testLM e:φLM = T ·R2

c

dato che in questo caso abbiamo:

RSS = TSS = y∗′ y∗

in generale, il testLM e basato sulla stima del modello ristretto

4.9.4 Ricapitolazione sulle modalita di costruzione dei test

Prendiamo come riferimento la Figura 4.10 dove, in relazione ad un modello mol-to semplice con un unico parametro da stimareβ, rappresentiamo la logverosi-miglianza in corrispondenza dei diversi valori diβ e definiamoβML la stima di

Page 127: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.10. STIMA DEL MODELLO SOGGETTO A VINCOLI LINEARI SUI PARAMETRI127

massima verosimiglianza non vincolata. Supponiamo che l’ipotesi nulla sia:

H0 : β = 0H1 : β 6= 0

Ovviamente in questo semplice contesto (in cui c’e un solo parametro) il ”massi-mo vincolato” della verosimiglianza coincide con la funzione di verosimiglianzacalcolata in corrispondenza diβ = β0

Ricapitolando, quindi:testLR = basato sulla distanza tralog L(βML) e log L(β0)test di Wald= basato sulla distanza traβ0 e βML

testLM = basato sulla pendenza dilog L in β0 (quindi dalla misura di quantoil gradientee diverso da zero inβ0).

E possibile dimostrare che i tre test sono legati da una semplice relazione: perqualsiasi ipotesi nulla ed in relazione a qualsiasi MRL, si ha:

φW ≥ φLR ≥ φLM

e quindi puo succedere che un’ipotesi sia rifiutata daW e accettata daLR,LM,peresempio

4.10 Stima del modello soggetto a vincoli lineari sui para-metri

Supponiamo di avere un modello di regressione lineare del tipo:

y = Xβ + ε

per il quale valgono tutte le ipotesi consuete su termini di disturbo e regressori. Im-maginiamo che esistano ragioni per ritenere che valgano i seguenti vincoli linearisui parametri:

R(q×k)

β(k×1)

= d(q×1)

, (4.50)

ρ(R) = q

Ad esempio, supponiamo di avere un MRL:

yt = β1 + β2x2t + β3x3t + β4x4t + β5x5t + εt, t = 1, . . . T

dove le variabili hanno il seguente significato:yt = consumox2t = reddito disponibilex3t = spesa pubblica

Page 128: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

128 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

x4t = stock di ricchezza privatax5t = debito pubblicoIn una sua semplice formalizzazione, l’ipotesi diequivalenza ricardiana(la

spesa pubblica, dato che prima o poi necessita di un suo finanziamento tramitemaggiori tasse implica che il consumatore razionale anticipi l’incremento delle tas-se e quindi consideri spesa pubblica alla stregua di riduzione di reddito disponibilee debito pubblico come riduzione della ricchezza) implica che:

β3 = −β2,

β5 = −β4

Questi sono due vincoli imposti sullo spazio parametrico che possiamo rappresen-tare in termini matriciali come:

Rβ = d,

β =

β1

β2

β3

β4

β5

,R =[

0 1 1 0 00 0 0 1 1

],d =

[00

]

Ora vediamo un modo possibile per stimare il modello in modo tale che rispettivincoli lineari del tipo (4.50): questo metodoe chiamato metodo dei minimi qua-drati vincolati (e possibile anche definire uno stimatore di massima verosimiglianzavincolata):

minβ

ε′ε

soggetta ai vincoli:Rβ = dPer risolvere questo problema siamo attrezzati: costruiamo la funzione lagrangia-na e ricaviamo le condizioni del primo ordine rispetto ai parametri del modello erispetto ai moltiplicatori di Lagrange

L = ε′ε + 2λ′(Rβ − d) (4.51)∂L

∂β= 0 ⇒ −2X′y + 2X′Xβ + 2R′λ = 0 (4.52)

∂L

∂λ= 0 ⇒ Rβ − d = 0 (4.53)

Ora, esplicitiamo (4.52) rispetto aβ, chiamando la soluzioneβR :

βR = (X′X)−1(X′y −R′λ) (4.54)

Sostituiamo ora la (4.54) nella (4.53) ottenendo:

R βR = d⇒R(X′X)−1(X′y −R′λ) = d⇒

R(X′X)−1X′y − d = R(X′X)−1R′λ ⇒

Page 129: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.10. STIMA DEL MODELLO SOGGETTO A VINCOLI LINEARI SUI PARAMETRI129

λ =[R(X′X

)−1 R′] [

RβUR − d]

(4.55)

βUR = stima non vincolata==

(X′X

)−1 X′y (4.56)

Notate che quando il vincoloe esattamente verificato dalla stima non vincolata,dalla espressione perλ riportata qui sopra si evince che il vettore dei moltiplicatoridi Lagrangee nullo (i vincoli non sono stringenti: il punto di massimo vincolatocoincide con quello di massimo libero):

RβUR − d = 0⇒ λ = 0

Ora risostituiamo la (4.55) nella (4.54):

βR =(X′X

)−1X′y −R′

[R(X′X

)−1 R′]−1

·[RβUR − d

](4.57)

La formula vista sopra fornisce un modo per ottenere la stima del MRL sotto ivincoli che caratterizzano l’ipotesi nullaH0. Per verificare:

H0 : Rβ = d

contro

H1 : Rβ 6= d

sono disponibili tutti i test descritti alla sezione precedente:

test di Wald=

φW = T

(RRSS − URSS)URSS

∼ χ2q

fW =(RRSS − URSS)/q

URSS/(T − k)∼ Fq , T−k

testLR = φLR = T log(

RRSS

URSS

)∼ χ2

q

testLM = φLM = T(RRSS − URSS)

RRSS∼ χ2

q

4.10.1 Alcuni esempi

Prendiamo come primo esempio una funzione di domanda di investimenti:

It = β1 + β2Rt + β3Πt + εt

It = domanda di investimentoRt = tasso di interesse nominaleΠt =tasso di inflazioneipotesi:β3 = −β2

Page 130: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

130 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Per verificare l’ipotesi nulla:

H0 : β3 = −β2,

contro

H0 : β3 6= −β2

e possibile lavorare con uno qualsiasi dei test visti. Possiamo stimare il modellonon vincolato ottenendoURSS. Per ricavareRSS in questo casoe facile: bastastimare direttamente un modello che soddisfi implicitamente il vincolo imposto,vale a dire:

It = β1 + β2(Rt −Πt) + εRt (4.58)

Nel modello precedente definiamo un nuovo regressoreRt −Πt, tasso di interessereale. In questo modo, la regressione stimata (4.58) ha una somma dei quadrati deiresidui chee esattamenteRSS.

Come secondo esempio, si consideri la seguente funzione di produzione inlogaritmi:

yt = β1 + β2lt + β3kt + εt

Si supponga di voler provare l’ipotesi di rendimenti costanti di scala:

H0 : β2 + β3 = 1contro

H1 : β2 + β3 6= 1

Si noti che, se sono valide tutte le ipotesi consuete su termini di disturbo e regresso-ri allora sappiamo che la stima OLS non ristretta del modello si distribuisce comeuna variabile casuale normalek-variata:

β ∼ N(β, σ2(X′X)−1)

e quindi la variabile casualeβ2 + β3−1 (somma di due variabili casuali normali-1)sottoH0 si distribuisce nel modo seguente:

β2 + β3 − 1 = r′β − 1 ∼ N [0, ω] ,ω2 = var(β2 + β3 − 1) = r′ σ2Qr =

= σ2 (q22 + 2q23 + q33) == var(β2) + var(β3) + 2cov(β2, β3),

Q = (X′X)−1, r =[

0 1 1],

ω2 = σ2 (q22 + 2q12 + q11) (controparte stimata di ω)

Quindi opportunamente standardizzandoβ2+β3−1 si ottiene una variabile casualela cui distribuzione sottoH0 e nota:

Page 131: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.11. EFFETTI DELL’OMISSIONE DI VARIABILI RILEVANTI 131

τ =

(β2 + β3 − 1

=∼H0

tT−3, (4.59)

ω =√

ω2 = σ√

(q22 + 2q12 + q11) = (4.60)

=

√RSS

T − 3

√(q22 + 2q12 + q11) (4.61)

E quindi possibile ottenere il valore calcolato della statisticaτ e confrontar-lo con il valore critico della distribuzionet di Student, scegliendo la probabilitadell’errore di prima specie.

In questo esempio (come nel precedente)e semplice fare prova delle ipotesiperche abbiamo una sola restrizione.E pero anche possibile costruire il test Waldnella sua formaF :

fW =(RRSS − URSS)/q

URSS/(T − k)Per ottenere laRRSS (dalla stima del modello vincolato)e possibile:

• applicareMQ vincolati

• trasformare la relazione di regressione ipotizzando che valgaH0 :

yt = β1 + β2lt + (1− β2)kt + εRt ⇒yt − kt = β1 + β2(lt − kt) + εRt

Quindi ottengo un MRL in cui regrediscolog[

YK

]su log

[LK

]e un termine di

intercetta. Utilizzo OLS e ottengo laRSS. Si noti che il testfW e il testτ descrittonella (4.59) conducono a conclusioni equivalenti, dato che il valore di questi testsono legati dalla seguente relazione:

fW = (τ)2

in altri termini: il F e il quadrato del testτ , quando c’e un solo vincolo.

4.11 Effetti dell’omissione di variabili rilevanti

Supponiamo che il modello “vero” sia:

y = Xβ + ε = X1(T×k1)

β1+ X2(T×k2)

β2 + ε

Supponiamo di escludere dall’analisiX2,perche non ne disponiamo di una misu-razione affidabile oppure perche non sappiamo di doverlo inserire. Quindi, invecedi stimare il modello “vero”, stimo il seguente MRL:

y = X1β1 + u (4.62)

β1 s = (X′1X1)−1X′

1y (4.63)

Page 132: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

132 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Il vettore dei parametriβ1 e stimato sulla base del modello “scorretto”. Il valoreatteso diβ1 s e quindi:

E(β1 s) = (X′1X1)−1X′

1 (X1β1 + X2β2 + ε)= β1 + (X′

1X1)−1X′1X2β2 ⇒

E(β1 s)− β1 = distorsione= (X′1X1)−1X′

1X2β2

Si noti che il termine(X′1X1)−1X′

1X2 da la stima dei coefficienti della regressioneOLS diX2suX1. Si noti che:

β1s − β1s = (X′1X1)−1X′

1ε (4.64)

e quindi la matrice di varianze e covarianze diβ1s e:

V (β1 s) = E[(β1 s − E(β1 s))(β1 s − E(β1 s))′

]= σ2(X′

1X1)−1 (4.65)

Quindi, gli effetti dell’esclusione diX2 sono che in questo modo:

• si ottiene una stima distorta (a meno che siaX′1X2 = 0, cioe cheX′

1 eX2

siano ortogonali)

• la varianza teorica diβ1 s e sicuramente minore di quella associata alla stimadel modello completo.

Ma cosa si puo dire della stima della varianza diβ1 s? Per capire meglio siconsideri il caso in cui il MRL ”vero” abbia due variabili esogene oltre al terminedi intercetta:

yt = β1 + β2x2 t + β3x3 t + εt

ed invece venga stimato un modello “scorretto”:

yt = β1 + β2x2 t + ut

Notiamo immediatamente che:

V ar(β2 s) =σ2

S22(varianza teorica),

S22 =T∑

t=1

(x2 t − x2)2

mentre la varianza teorica della stima diβ2 sulla base del modello “vero”e:

Page 133: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.11. EFFETTI DELL’OMISSIONE DI VARIABILI RILEVANTI 133

V ar(β2) =σ2

(1− r223)S22

,

r223 =

1T

T∑t=1

(x2t − x2)(x3t − x3)[1T

T∑t=1

(x2t − x2)2] [

1T

T∑t=1

(x3t − x3)2] =

cov(x2, x3)var(x2)var(x3)

quindi, ser21 2 > 0 (cioe sex1 ex2 non sono ortogonali), allora avremo:

V (β1) > V (β1 s)

Quanto detto vale per le varianze teoriche. Ora consideriamo le controparti stimate:

var(β2) =σ2

S22(1− r223)

var(β2 s) =σ2

s

S22

Prendiamo il rapporto di tali varianze:

var(β2)

var(β2 s)=

σ2s

σ2·(1− r2

23

)quindi seσ2

s e molto superiore aσ2, cioe se il contributo dix2 alla spiegazione diy, una volta che sia gia inseritox1, e molto rilevante, piu di quanto non sia l’entitadella correlazione dix1 e x2, allora la stima del modello completo ha varianzastimata minore.

Ad esempio, se consideriamo un’equazione di domanda di beni alimentari:

yt = β1 + β2x2 t + β3x3t + εt, t = 1, . . . , T

dove:y = quantita domandatax2 = prezzo del benex3 = reddito(dati riportati sul libro di Maddala)Stimiamo un modello dove viene omesso il reddito e stimiamo il modello

”scorretto”:

yt = 89.97(11.85)

+ 0.107(0.118)

x2t,

σ = 2.338

Page 134: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

134 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Notate cheβ2 s ha il segno sbagliato (positivo); ricordiamo infatti che abbiamoindicato l’entita della distorsione teorica come:

E(β2 s)− β2 =[(x∗′2 x∗2)

−1x∗′2 x∗3

]β3 = (4.66)

=cov(x2, x3)

var(x2)β3 (4.67)

Dall’esame della espressione precedente, possiamo concludere che, dato cheβ3,coefficiente del redditoe ragionevolmente positivo, e dato che il termine(x∗′2 x∗2)

−1x∗′2 x∗3ha lo stesso segno della correlazione tra prezzi e reddito (x2 ex3), presumibilmentepositiva, la distorsione della stima diβ2 e ragionevolmente positiva.

Tutte queste supposizioni sono confermate dall’esame del modello completostimato:

yt = 92.05(5.84)

− 0.142(0.067)

x2t+ 0.236(0.031)

x3t,

σ = 1.952

Notate che l’errore standard diβ1 e diminuito: il contributo dix3t alla spiegazionedi yt e superiore all’entita della correlazione dix2t ex3t.

4.12 Effetti dell’inclusione di variabili irrilevanti

Supponiamo che il modello “vero” sia:

y = X1(T×k1)

β1(k1×1)

+ ε

e che si stimi invece il modello:

y = X1(T×k1)

β1(k1×1)

+ X2(T×k2)

β2(k2×1)

+u

In altri termini, siamo in una situazione in cui il vettore di parametri verie:

β =β1

0

La stima del modello “scorretto”e:

βs =[

β1 s

β2 s

]= (X′X)−1X′y

chee non distorta. Questo significa che il valore atteso diβs e:

E[βs

]= E

[β1 s

β2 s

]= β =

[β1

0

]

Page 135: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.12. EFFETTI DELL’INCLUSIONE DI VARIABILI IRRILEVANTI 135

La matrice di varianze e covarianze della stima del modello “scorrettoe:

V (βs) = σ2(X′X)−1 = σ2Q = σ2

[Q11 Q1 2

Q2 1 Q2 2

]e quindi:

V (βs) = σ2Q11

mentre la matrice di varianze e covarianze diβ1(stima diβ1 sulla base del modello“vero”):

V (β1) = σ2(X′1X1)−1

E possibile dimostrare che la matrice di varianze e covarianze diβ1 s differisce daquella diβ1 per una matrice definita positiva. Quindi la stima del modello scorrettoe inefficiente.

Ad esempio, se il modello veroe:

yt = β1 + β2x2t + εt

e viene invece stimato:

yt = β1 + β2x2t + β3x3t + ut

Possiamo confrontare le varianze:

V ar(β2s) =σ2

(1− r223)S22

V ar(β2) =σ2

S22

quindi:V ar(β2s) > V ar(β2) ser2

23 > 0

Anche per le controparti stimate generalmente vale:

V ar(β2s) > V ar(β2),

V ar(β2) =σ2

S22,

V ar(β2s) =σ2

s

(1− r223)S22

anche see vero cheσ2s < σ2 (c’e una variabile esplicativa in piu nel modello

scorretto) ma il contributo dix3t alla spiegazione diyt e ragionevolmente moltobasso.

Notate che:E(σ2

s) = σ2

Page 136: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

136 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Quindi se il modelloe sovraparametrizzato, la stima diσ rimane non distorta, anchese meno efficiente (PROVA: fatelo come esercizio).

Come succede alla stima dei parametri rilevanti quando dalla regressione siesclude un parametro irrilevante? La rispostae che in grandi campioni la stimanon cambia affatto, dato che comunque le stime sono non distorte e consistenti.

Per MRL stimati in base a campioni di ampiezza finita esiste il risultato provatoda Leamer (1975): si supponga di essere interessati aβj e che il regressorexi siairrilevante. Indichiamo conβj la stima diβj sulla base del modello in cui appareanchexi. Leamer prova che, escludendo dalla regressionexj dalla regressione, siottiene una una stima chee vincolata a stare nell’intervalloβj ± tisj , dove:

sj = errore standard diβj

ti = testt di βi = 0

4.13 Gradi di libert a e indiceR2

In un MRL, quando viene incrementato il numero dei regressori inclusi, a prescin-dere dalla effettiva capacita eplicative dei regressori aggiunti suy, si ottiene unincremento nell’indiceR2:

σ2 =RSS

T − k= (1−R2)

TSS

T − k

Si definisce allora un indice che chiamiamoR2 (R2 ”adjusted”):

R2 = 1− RSS/(T − k)TSS/(T − 1)

= 1− (1−R2c)(

T − 1T − k

)che “penalizza” l’inserimento di regressori. Si noti che:

(1− R2

)· TSS

T − 1=(1−R2

c

)· TSS

T − k= σ2

al crescere diR2 (o di R2) diminuisceσ2.E possibile che si verifichi il caso in cui1 − R2 > 1, cioe R2 < 0. Questo si

ha quando:

(1−R2c) >

T − k

T − 1,⇒

R2c <

k

T − 1

Ad esempio, conT = 21 ek = 2, seR2 < 0.1 si avra R2 < 0

Page 137: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.13. GRADI DI LIBERTA E INDICE R2 137

4.13.1 Relazione tra test di significativita t, testF e indiceR2

Se una variabile esplicativaxi, con coefficiente stimato pari aβi e con testt > 1,viene esclusa dalla regressione, allora diminuisceR2. (Ovviamente, sarebbe belloseR2 diminuisse con l’esclusione di variabili con coefficiente significativo, cioecon t > 2 !). Piu in generale, sex1t, . . . , xrt sonor grandezze il cui testF diesclusione congiunta (H0 : β1 = β2 = · · · = βr = 0) e> 1, allora l’esclusione ditali grandezze comporta una diminuzione dell’indiceR2.

Dimostrazione:

σ2R =

RRSS

T − k + r→ stima varianza nel modello ristretto

σ2UR =

URSS

T − k→ stima varianza nel modello non ristretto

F =(RRSS − URSS)/r

URSS/(T − k)=

[(T − k + r) σ2

R − (T − k)σ2UR

]/r

(T − k)σ2UR/(T − k)

Risolvi perF =(RSSR −RSSUR)/r

RSSUR/(T − k):

F =

[(T − k + r) σ2

R − (T − k)σ2UR

]/r

σ2UR

,

F =(T − k + r)

r

σ2R

σ2UR

− (T − k)r

definisciT − k

r= a

quindi:T − k

r+ 1 =

T − k + r

r= a + 1

Sostituendo nell’espressione perF :

F = (a + 1)σ2

R

σ2UR

− a

e quindi:

σ2R

σ2UR

=a + F

a + 1,

a =T − k

r

quindi seF e maggiore di 1, escludendox1, . . . , xr si ottiene un aumento dellavarianza stimata del modello ristretto, vale a dire una diminuzione diR2, datoche:

Page 138: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

138 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

σ2(1− R2

)( TSS

T − 1

)(relazione inversa traσ2eR2) (4.68)

e viceversa seF < 1.

4.14 Test di stabilita del MRL

Sono test di costanza dei parametri. Abbiamo due tipi diversi di test: test basatisull’analisi della varianza e test previsivi.

4.14.1 Test basati sull’analisi della varianza

Supponiamo di poter distinguere all’interno del campione due sottoinsiemi di os-servazioni (T = T1 + T2) in relazione ai quali abbiamo:

yt = β(1)1 x1t + β

(1)2 x2t + · · ·+ β

(1)k xkt + εt, t = 1, 2, . . . , T1

yt = β(2)1 x1t + β

(2)2 x2t + · · ·+ β

(2)k xkt + εt, t = T1 + 1, . . . , T1 + T2

Possiamo costruire un test di stabilita dei parametri:

H0 :

β(1)i = β

(2)i i = 1, 2, . . . , k

SottoH0 tutti i parametri sono uguali per tutte le osservazioni periodo campionarie(ampiezza campionaria completaeT1 + T2)

Ora, stimiamo il MRL separatamente nei due sotto-campioni ottenendo:

• RSS1 = somma quadrati residui equazione stimata cont = 1 . . . T1.

• RSS2 = somma quadrati residui equazione stimata cont = T1+1 . . . T1+2.

Ricordiamo che:

RSS1/σ2 ∼ χ2T1−k,

RSS2/σ2 ∼ χ2T2−k

SottoH0 i parametri sono costanti su tutto il campione. Quindie possibile stimareil MRL sotto H0:

yt = β1x1t + · · ·+ βkxkt + εt, t = 1, 2, . . . , T1, T1 + 1, . . . , T1 + T2

ottenendo la somma dei quadrati dei residui:

RRSS = ε′ε

Page 139: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.14. TEST DI STABILITA DEL MRL 139

da intendere come somma dei quadrati dei residui del modello vincolato (stiamostimando il MRL sotto i vincoli che caratterizzanoH0). Ricordiamo anche che:

RRSS

σ2∼ χ2

T1+T2−k

La somma dei quadrati dei residui del modello non vincolatoe

URSS = RSS1 + RSS2,

URSS ∼ χ2T1+T2−2k

Quindi e possibile costruire il test di Wald in formaF come

fW =(RRSS − URSS)/k

URSS/(T1 + T2 − 2k)

dove:k = numero vincoli imposti per ottenere il modello ristrettoT1 + T2 − 2k = T − 2k = gradi di liberta del modelloUR

Questo teste basato sull’analisi della varianza ede chiamatotest di Chow delprimo tipo.

4.14.2 Test previsivo di stabilita

QuandoT2 < k non e possibile stimare separatamente il MRL nel secondo sot-tocampione. Allora si utilizza la seguente idea per costruire un test alternativo distabilita basato sulla capacita previsiva del modello: se il modelloe stabile,e possi-bile stimarlo utilizzando solo le osservazioni che appartengono al primo sottocam-pione (t = 1, . . . T1). Sulla base di questa stima, possiamo utilizzare il modello in”previsione” per il sotto-campione dato dalle osservazioniT1 + 1, . . . , T1 + T2 eottenere errori non sistematici, vale a dire con valore atteso nullo. Specifichiamoquindi un’ipotesi nulla in base alla quale gli errori di previsione relativi al secondosottocampione hanno tutti valore atteso nullo:

H0 : E(εT1+1|T1) = E(εT1+2|T1

) = . . . = E(εT1+T2|T1) = 0,

contro

H1 : E(εT1+1|T1) 6= 0, e/oE(εT1+2|T1

) 6= 0, e/oE(εT1+T2|T1) 6= 0

Il test di questa ipotesie costruito definendo:RSS = somma dei quadrati dei residui ottenuti stimando il modello con tutte

le osservazioni (t = 1, 2, . . . , T1 + T2).RSS1 = somma dei quadrati dei residui ottenuti stimando il modello con le

osservazioni appartenenti al primo sotto-campione (t = 1, 2, . . . , T1).Queste due somme dei quadrati possono essere utilizzate per costruire un test

di Wald in formaF :

Page 140: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

140 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

fW =(RSS −RSS1)/T2

RSS1/(T1 − k)∼H0

FT2,T1−k (4.69)

Per giustificare la costruzione di questo test occorre fare riferimento all’uso e alsignificato delle delle variabili di comodo (variabilidummy) nei modelli econome-trici (vedi capitolo 5). Il test descritto dalla (4.69)e dettotest di Chow del secondotipo.

4.14.3 Alcuni commenti ai test di stabilita strutturale

Per quanto riguarda il test di Chow del primo tipo, tale teste basato sull’assun-zione implicita che la varianza dei termini di disturbo sia uguale nei due sotto-campioni, mentre invecee possibile che anche tale parametro sia diverso nei duesotto-campioni:

E(ε2t ) = σ2

1, t = 1, 2, . . . , T1,

E(ε2t ) = σ2

2, t = T1 + 1, T1 + 2, . . . , T1 + T2

Occorre quindi verificare l’ipotesi:

H0 : σ21 = σ2

2

H1 : σ21 6= σ2

2

Ricordando che:

RSS1/σ21 ∼ χ2

T1−k

RSS2/σ22 ∼ χ2

T2−k

posso costruire un test per verificareH0 basato sul rapporto delle due grandezzesopra indicate:

f =

(RSS1/σ21)

T1−k

(RSS2/σ22)

T2−k

H0

=

[(RSS1)T1−k

(RSS2)T2−k

]

=[σ2

1

σ22

]∼

(H0)FT1−k, T2−k (4.70)

quindi, utilizzando la tavola della distribuzioneFT1−k, T2−k, si determinano i quan-tili a e b in modo tale che:

p a ≤ F ≤ b = 1− α

scegliendoα = probabilita errore di prima specie. Quindi si calcola il testf defi-nito dalla (4.70) e si verifica se cade all’interno o all’esterno dell’intervallo[a, b].

Page 141: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.15. ESERCIZIARIO SULLA REGRESSIONE LINEARE 141

Nel primo caso si accettaH0, nel secondo si rifiutaH0 ( test a 2 code)

2) A proposito del test di Chow del secondo tipo, se i parametri sono costanti , ilvalore atteso degli errori di previsionee zero; ma se i parametri non sono costanti,potrebbe comunque darsi che gli errori di precisione abbiano valore atteso nulloQuindi questo teste piu che altro un test di non distorsione delle previsioni.

4.15 Eserciziario sulla regressione lineare

4.15.1 Esercizio 1

Data la seguente funzione di produzione stimata in logaritmi:

log yt = 1, 37+ 0, 632(0,257)

log kt+ 0, 452(0,219)

log Lt,

T = 40,

R2c = 0.98

σ2 = 0.01,

Cov(β2, β3) = −0.044

si provino le seguenti ipotesi:a) Ci sono rendimenti costanti di scalab) β2=β3

Si calcolinoR2 e gli intervalli di confidenza perβ2 e β3, sia quelli individualiche quello congiunto.

4.15.2 Esercizio 2

Sia data la seguente regressione stimata:

yt = 2.20(3.4)

+ 0.104(0.005)

x2t+ 3.48(2.2)

x3t+ 0.34(0.15)

x4t,

T = 80,

ESS = 112.5RSS = 19.5

a) quali regressori sono singolarmente significativi al 5%?b) calcolareR2 e R2

Page 142: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

142 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.15.3 Esercizio 3

Siano dati due campioni con le seguenti informazioni:

Campione 1 Campione 2Ti 20 25xi

2 20 23yi 25 28Si

22 80 100S2y 120 150Syy 200 250

,

n.b. :

xi2 =

1Ti

∑campione i

x2t, i = 1, 2

yi =1Ti

∑campione i

yt, i = 1, 2

Si22 =

∑campione i

(x2t − x2)2, i = 1, 2

Si2y =

∑campione i

(x2t − x2)(yt − y), i = 1, 2

Siyy =

∑campione i

(yt − y)2, i = 1, 2

a) stimare una regressione lineare diy su di una costante (termine di intercetta)e x2 per ogni campione separatamente e per il campione esteso che combina tuttele osservazioni.

b) Quali sono le ipotesi sotto le quali la regressione combinata (con 45 osser-vazioni)e valida?

c) Spiegare in quale modo sia possibile verificare l’ipotesi di validita di taliassunzioni.

4.15.4 Esercizio 4

Sia data la seguente regressione stimata:

yt = 2.0(0.62)

+ 3.5(1.842)

x2t− 0.7(0.318)

x3t+ 2.0(1.333)

x4t,

T = 26, R2 = 0.982

Stimando il modello sotto la restrizione:

β2 = β3

si e ottenuto:

Page 143: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.16. SOLUZIONI AGLI ESERCIZI 143

yt = 1.5(0.54)

+ 3.0(1.111)

(x2t + x3t)− 0.6(0.250)

x4t,

R2 = 0.876

a) verificare la validita del vincoloβ2 = β3 in tutti i modi possibili.b) se ometto la variabilex3t dalla regressione di partenza, cosa succede aR2?

E perche?

4.15.5 Esercizio 5

Per il MRL:

yt = β1x1t + β2x2t + β3x3t + εt

abbiamo indicazioni di teoria economica che affermano che:

β1 + β2 = α,

β1 + β3 = −α

doveα e un parametro sconosciuto.Trovare lo stimatore BLUE diα e la sua varianza, stabilendo accuratamente le

ipotesi che occorre utilizzare.

4.15.6 Esercizio 6

Ricavare la matrice di varianza e covarianza dello stimatore ottenuto utilizzandominimi quadrati vincolati e confrontarla con quella della stima OLS non vincolata.Comee possibile confrontarle? (NB: stiamo parlando di matrici teoriche!)

4.16 Soluzioni agli esercizi

4.16.1 Esercizio 1

a) Ipotesi di rendimenti costanti di scala:

H0 : β2 + β3 = 1contro

H1 : β2 + β3 6= 1

Ricordiamo che:

β2 + β3 − 1 ∼Ho

N(0, V ar(β2 + β3 − 1))

Page 144: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

144 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Quindi costruisco il rapporto:β2 + β3 − 1[

V ar (β2 + β3 − 1)] 1

2

=0, 632 + 0, 452− 1[

V ar (β2) + V ar(β3) + 2Cov (β2, β3)] 1

2

=

=0, 084

[(0, 257)2 + (0, 219)2 + 2(−0, 044)]=

0, 0840, 026

= 3, 230

valore criticot37∼= 2, 021 al 95% (test a 2 code) (disponibilet40): rifiuto H0 !

b) H0 : β2 − β3 = 0β2 − β3[

V ar (β2 − β3)] 1

2

=0, 632− 0, 452[

V ar (β2) + V ar(β3)− 2Cov(β2, β3)] 1

2

=

=−0, 820, 202

= −4, 059 → rifiuto H0 (valore critico∼= 2.021)

R2 = 1− (1−R2)T−1

T−k = 1− 0.023937 = 0.9789

Intervallo di confidenza perβ2 al 95%:

β2 ± se (β2) · tα2⇒ 0, 632± (0, 257)(2, 021) ⇒⇒ [0, 112 ; 1, 151]

Intervallo di confidenza perβ3 al 95%

β3 ± se (β3) · tα2⇒ 0, 452± (0, 219)(2, 021) ⇒⇒ [0, 009 ; 0, 894]

Intervallo congiunto: tutti i valori diβ2 eβ3 tali per cui:[Skk(β2 − β2)2 + 2Skl(β2 − β2)(β3 − β3) + Sll(β3 − β3)2

]< f2, 37

f2, 37 = quartile al 95% della distribuzioneF2, 37∼= 3, 23 F (2, 40)

e:Skk =

∑Tt=1(kt − k)2 kt = log Kt

Skl =∑T

t=1(kt − k)(lt − l) lt = log Lt

Sll =∑T

t=1(lt − l)2

quindi nel modelloy∗ = X∗(T×2)

β∗

(2×1)

β∗ =[

β2

β3

]

X∗ =

...

...kt − k lt − l

......

V(β

∗) = σ2(X∗′X∗)−1 = σ2

[Skk Skl

Skl Sll

]−1

=[

(0, 257)2 (−0, 044)(−0, 044) (0, 219)2

]

Page 145: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.16. SOLUZIONI AGLI ESERCIZI 145

Ma si conosce ancheσ2 = 0, 01, e quindi si possono ricavareSkk, SkL eSLL

come:[Skk SkL

SkL SLL

]=

1σ2

[(0, 257)2 (−0, 044)(−0, 044) (0, 219)2

]−1

da utilizzare nella costruzione dell’intervallo di confidenza ?congiunto perβ2

eβ3.

4.16.2 Esercizio 2

a) sono quelli i cui testt sono maggiori del valore critico del test a 2 code:H0 : βi

H1 : βi 6= 0

sulla base di una distribuzione t di Student con 76 gradi di liberta. Il valore criticoe approssimativamente 2,00 (vedi sulla tavola dellat di Student il valore piu vicinoe 60). Quindi:

tβ1 =β1

se (β1)=

2, 203, 4

= 0, 647 → non significativo

tβ2 =β2

se (β2)=

0, 1040, 005

= 20, 8 → significativo

tβ3 =β3

se (β3)=

3, 482, 2

= 1, 58→non significativo

tβ4 =β4

se (β4)=

0, 340, 15

= 2, 26 → significativo

b)

R2 =ESS

TSS=

112, 519, 5 + 112, 5

= 0, 82

R2 = 1− (1−R2)T − 1T − k

= 1− (0, 148)7976

= 0, 846

4.16.3 Esercizio 3

Stima del modello nel primo sotto-periodo:

yt = β1 + β2x2t + εt, t = 1, 2, . . . , 20

β12 =

S12y

S122

=12080

= 1, 5,

β11 = y1 − β1

2x12 = 25− (1, 5)(20) = −5

Stima del modello nel secondo sotto-periodo:

Page 146: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

146 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

β22 =

S22y

S222

=150100

= 1.5

β21 = y2 − β2

2x22 = 28− 23(1.5) = −6.5

Stima del campione esteso (con 45 osservazioni):

20∑t=1

x22t = S1

22 + 20(x1

2

)2 = 80 + 20(20)2 = 8080,

45∑t=21

x22t = S2

22 + 20(x2

2

)2 = 100 + 25(23)2 = 13325,

S∗22 =20∑

t=1

x22t +

45∑t=21

x2t − 45

20∑

t=1x2

i +45∑

t=21x2

i

45

2

=

= 21405− 45(

20x1 + 25x2

45

)2

=

= 21405− 21125 = 280

20∑t=1

x2tyt = S12y + T1x

12y

1 = 120 + 20 · 20 · 25 = 10120

45∑t=21

x2tyt = S22y + T2x

22y

2 = 150 + 25 · 23 · 28 = 16250

S∗2y =20∑

t=1x2tyt +

45∑t=21

x2tyt − 45[(

20x1 + 25x2

45

)(20y1 + 25y2

45

)]=

= 26370− 45 · [(21, 667) (26, 667)] = 369, 27520∑

t=1y2

t = S1yy + T1(y1)2 = 200 + 20(25)2 = 12700

45∑t=21

y2t = Sy2 + T1(y2)2 = 250 + 25(28)2 = 19850

S∗yy =20∑

t=1y2

t +45∑

t=21y2

t − 45(

T1y1 + T2y

2

45

)2

=

= 12700 + 19850− 45(

20 · 25 + 25 · 2845

)2

=

= 32550− 32000 = 550Quindi per tutto il campione ho:T = 45x∗2 = 21, 667y∗ = 26, 667S∗22 = 280S∗2y = 369, 275

Page 147: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.16. SOLUZIONI AGLI ESERCIZI 147

S∗yy = 550da cui si ottiene la stima:

β∗2 =S∗2y

S∗22

= 1, 319

β∗1 = y∗ − β∗2x∗2 = 26, 667− 1, 319 · 21, 667 = −1, 912b) Devono valere le seguenti ipotesi:

β11 = β2

1

β12 = β2

2

σ21 = σ2

2c) Si verificano queste ipotesi costruendo un test, ad esempio il testfW :

fW =(RRSS − URSS)/k

URSS/(T − 2k)

dove:RRSS = somma quadrati residui modello stimato con 45 osservazioni=S∗yy

TSS

− β∗S∗2yESS

= 550− 369, 275 · 1, 319 = 62, 926

URSS = RSS1 + RSS2 == S1

yy − β11S1

2y + S2yy − β2

1S22y =

= 200− (1, 5)(120) + 250− (1, 5)(150) = 45

fW =(62, 926− 45)/2

45/(45− 4)=

8, 9631, 097

= 8, 166

Il valore critico dellaF2, 41 al 5%∼= 3, 23 (F2 40 e disponibile sulle tavole)→rifiuto H0!

L’altra ipotesiH0 : σ21 = σ2

2 si verifica costruendo il test in formaF :σ2

1

σ22

=RSS1/(T1 − k)RSS2/(T2 − k)

∼(H0)

FT1−k, T2−k

σ21

σ22

=20/1825/23

= 1, 022

Il valore criticoe: F18, 23∼= 2, 05 (disponibile perF20, 23)

accettaH0 : σ21 = σ2

2 controσ21 > σ2

2

Ma la prima ipotesi (β11 = β2

1 , β12 = β2

2) e stata rifiutata, per cui none legittimocombinare tutte le 45 osservazioni.

4.16.4 Esercizio 4

a) H0 : β2 = β3

H1 : β2 6= β3

Il test di Wald in formaF e:

fW =(RSS − URSS)/q

URSS/(T − k)=

Ora, moltiplico numeratore e denominatore perTSS:

=(RSS−URSS

TSS )/qURSSTSS /(T − k)

=(1−R2

R)−(1−R2U )

q

1−R2U

T−k

Page 148: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

148 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

dove:R2

U = R2 modello non ristrettoR2

R = R2 modello ristrettoQuindi:

fW =0, 106/1

0, 018/(26− 4)= 129, 555

Il valore critico della distribuzione di riferimentoe: F1, 22 = 4, 30 al 5%.Quindi il test suggerisce il rifiuto diH0.

Calcoliamo ora il test di Wald in formaχ2 :

φW =T · [RRSS − URSS]

URSS=

=T ·[1−R2

R − (1−R2U )]

(1−R2U )

=

= 26 · 0.1060.018

= 153. 111

Il valore critico della distribuzioneχ21 = 3.84 al 5%. Quindi anche questo test

conduce al rifiuto diH0.Si noti chee possibile costruire anche il testt come:

β2 − β3[V (β2) + V (β3)− 2Cov(β2β3)

] 12

∼(H0)

t2 2

chee la radice quadrata del testfW calcolato in precedenza.Ora calcoliamo il testLR :

φLR = T log[RRSS

URSS

]=

= 26 log[1−R2

R

1−R2U

]= 26 · log(

0.1240.018

) =

= 50. 178

mentre il valore critico (χ21) e3.84.Quindi anche questo test porta al rifiuto diH0.

Ora calcoliamo il testLM

φLM = TRSS − URSS

RSS=

=T ·[(R2

U −R2R)]

(1−R2R)

=

= 26[0.1060.124

]= 22.226

Quindi anche utilizzando questo test, si conclude che occorre rifiutareH0 (il valorecritico della distribuzione rilevante sottoH0(χ2

1) e 3.84)Si noti che in relazione alla prova delle ipotesi svolta in questo esercizio abbia-

mo riscontrato:

Page 149: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.16. SOLUZIONI AGLI ESERCIZI 149

φW ≥ φLR ≥ φLM

(153.11 > 50.178 > 22.226)

come abbiamo visto nella parte teorica.b) Se omettox2t dalla regressione, dato che il testt di significativita di tale pa-

rametroe− 0.70.318

= −2.201, che in valore assolutoe> 1, l’indice R2 e destinato

a scendere.

4.16.5 Esercizio 5

Basta esprimere il modello nei termini del parametro incognitoα, sostituendo:

β2 = α− β1,

β3 = −α− β1

quindi sottoH0:

yt = β1x1t + (α− β1)x2t + (−α− β1)x3t + ut ⇒yt = β1(x1t − x2t − x3t) + α(x2t − x3t) + ut

Definiamo:

z1t = x1t − x2t − x3t

z2t = x2t − x3t

e stimiamo il MRL:yt = β1x1t + αz2t + ut

La stima OLS diα sulla base di questo modelloe BLUE se, oltre a valere l’ipotesinulla

H0 :

β2 = α− β1

β3 = −α− β1

si ha che tutte le condizioni usuali sui termini di disturbo e sui regressori sonorispettate:

E(ut) = 0,∀tE(utuτ ) = 0,∀t 6=τ

E(u2t ) = σ2,∀t

ρ(Z) = 2E(Z′u) = 0

Page 150: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

150 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.16.6 Esercizio 6

Calcoliamo la stima corrispondente all’applicazione dei MQ vincolati:

βR = (X′X)−1X′y −R′ [R(X′X)−1R′]−1

[RβUR − d

]=

= βUR − (X′X)−1R′ [R(X′X)−1R′]−1[RβUR − d

]=

Per comodita chiamiamo:

(X′X)−1R′ [R(X′X)−1R′]−1 = H(k×q)

quindi:

βR = βUR −H[RβUR − d

]E(βR) = β −H(Rβ − d)

quindi βR e non distorto solo quando valeH0 (quandoR′β = d). Ora calcoliamola distorsione diβR :

βR − E(βR) = βUR −H[RβUR − d

]− β −H(Rβ − d) =

= (βUR − β)−HR(βUR − β) == (Ik −HR)(βUR − β) =

(Ik −HR)(X′X)−1X′ε

Usando questa espressione possiamo calcolare la matrice di varianze e covarianzedi βR :

V ar(βR) = E[(βR − E(βR))(βR − E(βR))′] == E[(Ik −HR)(X′X)−1X′εε′X(X′X)−1(Ik −R′H′) == σ2[(Ik −HR)(X′X)−1(Ik −R′H′)] == σ2[(X′X)−1 −HR(X′X)−1 − (X′X)−1R′H′ +

+HR(X′X)−1R′H′]

Ricordando la definizione diH :

H = (X′X)−1R′[R(X′X)−1R′]−1

otteniamo:

V (βR) = σ2(X′X)−1 −−(X′X)−1R′[R(X′X)−1R′]−1R(X′X)−1 −−(X′X)−1R′[R(X′X)−1R′]−1R(X′X)−1 ++(X′X)−1R′[R(X′X)−1R′]−1R(X′X)−1 ··R′[R(X′X)−1R′]−1R(X′X)−1

= σ2(X′X)−1 −−(X′X)−1R′[R(X′X)−1R′]−1R(X′X)−1

Page 151: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

4.16. SOLUZIONI AGLI ESERCIZI 151

Ricordiamoci chela varianza diβUR e:

V (βUR) = σ2(X′X)−1

e quindi:

V (βUR)− V (βR) = σ2(X′X)−1R′[R(X′X)−1R′]−1 ··R(X′X)−1

ede facilmente dimostrabile che questa matricee definita positiva.

Page 152: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

152 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Page 153: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

Capitolo 5

Variabili di comodo e variabilitroncate

5.1 Variabili di comodo come variabili esplicative

5.1.1 Variabili di comodo a correzione di intercetta

Consideriamo per semplicita il MRL semplice, e supponiamo che esistano duesottocampioni in corrispondenza di ciascuno dei quali il termine di intercetta possaessere diverso:

yt = β(1)1 + β2x2t + εt t = 1.....T1 (5.1)

yt = β(2)1 + β2x2t + εt t = T1 + 1........T1 + T2 (5.2)

In termini esattamente equivalenti possiamo indicare il modello di cui sopra come:

yt = β(1)1 + (β(2)

1 − β(1)1 )Dt + β2x2t + εt, t = 1, 2, ..., T1 + T2 (5.3)

introducendo unavariabile di comodo(o variabile dummy) che chiamiamoDt :

Dt = 0 ∀t ∈ [1, T1]Dt = 1 ∀t ∈ [T1 + 1, T1 + T2]

Se esistono tre diversi ”regimi” (vale a dire tre diversi sottocampioni in relazione aciascuno dei quali si immagina che il termine di intercetta possa essere diverso):

yt = β(1)1 + β2x2t + εt ,t = 1.....T1

= β(2)1 + β2x2t + εt, t = T1 + 1........T1 + T2

= β(3)1 + β2x2t + εt, t = T1 + T2 + 1........T1 + T2 + T3

e possibile dare rappresentazione equivalente a questo MRL definendo due distintevariabili di comodo:

yt = β(1)1 + (β(2)

1 − β(1)1 )D1t + (β(3)

1 − β(1)1 )D2t + εt

153

Page 154: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

154 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

con

D1t =

0 t ∈ [1, T1] o t ∈ [T1 + T2 + 1......T1 + T2 + T3]1 t ∈ [T1 + 1, T1 + T2]

D2t =

0 t ∈ [1, T1 + T2]1 t ∈ [T1 + T2 + 1......T1 + T2 + T3]

Una variabile di comodo (che indichiamo con VDC)e quindi una particolare va-riabile che assume valori pari a 0 o a 1.

Possiamo fare il seguente esempio: la Figura 5.1a riporta l’andamento di con-sumo e reddito (in logaritmi) aggregati per l’Italia nel periodo 1920-1996. Si notache per gli anni relativi alla Seconda Guerra Mondiale (1940-45), la relazione chelega le due variabili sembra modificata. Infatti, se esaminiamo la Figura 5.1b, cheriporta il diagramma a dispersione per tale coppia di variabili, notiamo un grup-po di osservazioni che ”sembrano” essere disomogenee rispetto alle altre. Taliosservazioni si riferiscono agli anni 1940-45.

[Figura 5.1a qui nel testo][Figura 5.1b qui nel testo]Sulla base di queste considerazioni, stimiamo il MRL:

yt = β(1)1 + (β(2)

1 − β(1)1 )Dt + β2x2t + εt (5.4)

Dt =

0 t = 1920.....1939, 1946.....19961 t = 1940.....1945

in cui yt e il logaritmo del consumo ex2t e il logaritmo del reddito. Per questomodello, la matrice dei regressorie

X(T×3)

=

1 0 x2,1920

1 0 x2,1921

1 0 x2,1922

... ... ...

1 1 x2,1940

... ... ...1 1 x2,1945

... ... ...1 0 x2,1996

dove gli anni dal 1940 al 1945 sono anni di guerra e la seconda colonna della ma-triceX e una variabile dummy. Specificando un MRL come quello descritto dalla(5.4), introducendo una VDC del tipo appena descritto, si opera una correzione sultermine di intercetta, come la Figura 5.1c chiaramente illustra.

[Figura 5.1c qui nel testo]

Page 155: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE 155

Notate che se effettivamente la relazione che si vuole modellare presenta dellediscontinuita che richiedono una correzione del termine di intercetta e tale cor-rezione non viene apportata,e possibile ottenere risultati distorti e inconsistenti,anche per quello che riguarda i coefficienti di pendenza del MRL: si tratta infattidella conseguenza dell’omissione di una variabile rilevante (in questo caso la VDCnecessaria ad apportare la correzione necessaria). Si veda a questo proposito laFigura 5.2

[Figura 5.2 qui nel testo]

5.1.2 Variabili dummy a correzione di intercetta per trattare dati constagionalita

Molte variabili macroeconomiche presentano marcate dinamiche stagionali. Con-sideriamo, per esempio, una relazione di regressione lineare tra log consumo (y) elog reddito (x2), sulla base di dati trimestrali non destagionalizzati:

yt = α1 + α2D2t + α3D3t + α4D4t + β2x2t + εt (5.5)

dove si ha:

D2t = variabile dummy pari a 1 solo nel 2 trimestre

D3t = variabile dummy pari a 1 solo nel 3 trimestre

D4t = variabile dummy pari a 1 solo nel 4 trimestre

Si ha quindi la seguente matrice dei regressori:

X(T×5)

=

1 0 0 0 x21

1 1 0 0 x22

1 0 1 0 x23

1 1 0 1 x24

... ... ... ... ...1 ... ... ... x2t

Notate che il MRL appena descritto puo essere scritto in termini esattamente

equivalenti come:

yt = γ1D1t + γ2D2t + γ3D3t + γ4D4t + β2x2t + εt

ma none possibile stimare il MRL:

yt = δ0 + δ1D1t + δ2D2t + δ3D3t + δ4D4t + β2x2t + εt

perche la matrice dei regressori in questo casoe:

X(T×6)

=

1 1 0 0 0 x21

1 0 1 0 0 x22

1 0 0 1 0 x23

1 0 0 0 1 x24

... ... ... ... ... ...

... ... ... ... ... ...

Page 156: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

156 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

che NON ha rango pieno! Infatti la 1 colonnae la somma delle colonne 2,3,4 e 5.Nel caso in cui si abbia un MRL che utilizzi dati mensili non destagionalizzati,

allora avremmo :

yt = α1 + α2D2t + ..... + α12D12t + β2x2t + εt

dove:Dit e una variabile dummy chee pari a 1 nel mese i-esimo (i = 1, ....., 12).

5.1.3 Variabili dummy a correzione di intercetta per ”outliers”

Supponiamo che nel campione a disposizione, una osservazione sia chiaramente”anomala” (ad esempio, si veda la Figura 5.3).

[Figura 5.3 qui nel testo]L’osservazione anomala viene chiamataoutlier (cioe che giace fuori) e si tratta

di un’osservazione connessa ad un evento particolare, non modellabile esplicita-mente, che rende tale osservazione completamente disomogenea rispetto alle altre.Ad esempio, supponiamo che nella Figura 5.3 l’osservazione anomala sia quellarelativa at = T ∗. Definiamo ora una VDC definita come segue:

Dt =

1 per t = T ∗

0 t 6= T ∗

e inseriamo questa VDC nel MRL:

yt = β1 + β2x2t + β3Dt + εt (5.6)

La matrice dei regressori diventa:

X =

1 0 x21

1 0 x22

... ... ...1 1 x2T ∗

1 0 x2T ∗+1

1 ... ...1 0 x2T

⇒ t = T ∗

Stimando il MRL risultante:y = Xβ + ε

β =

β1

β2

β3

e possibile mostrare (basta fare riferimento alle usuali proprieta del modello di re-gressione partizionata che abbiamo visto nel Capitolo 4) che il coefficiente stimatorelativo alla VDCe pari alla distanza dell’outlier dalla retta di regressione stimata.Quindi, in corrispondenza dell’outlier, si haεT ∗ = 0. Inoltree possibile dimostrare

Page 157: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE 157

che la stima del MRL risultantee esattamente equivalente a quella del MRL sen-za introdurre tra i regressori la VDC e eliminando contestualmente dal campionel’osservazione anomala:

yt = β1 + β2x2t + εt, (5.7)

t = 1, 2, ...T ∗ − 1, T ∗ + 1, ..., T

Per questo motivo, si puo concludere cheβ3 coincide con l’errore di previsione diyT ∗ ottenuto utilizzando la stima del MRL (5.7) e la varianza diβ3 coincide con lala varianza di tale errore di previsione. In termini un po meno formali, l’uso dellaVDC, che viene chiamata anche variabile di comodoad impulso(e uguale a unoin corrispondenza di una sola osservazione), in questo casoequivale a ”fare fuori”l’outlier.

5.1.4 Variabili dummy a correzione di intercetta e di pendenza

Se riteniamo che il MRL sia:

yt = β(1)1 + β

(1)2 x2t + εt t = 1...T1

yt = β(2)1 + β

(2)2 x2t + εt t = T1 + 1.....T1 + T2

T = T1 + T2 (5.8)

cioe se riteniamo che entrambi i coefficienti del primo ordine siano diversi nei duesottocampioni, possiamo scrivere in termini esattamente equivalenti:

yt = β(1)1 + (β(2)

1 − β(1)1 )Dt + β2x2t + (5.9)

+(β(2)2 − β

(1)2 )(Dt · x2t) + εt,

t = 1, 2, ...T1, T1 + 1, ...T1 + T2

dove:

Dt =

0 ∀t ∈ [1, T1]1 ∀t ∈ [T1 + 1, T1 + T2]

Quindi in questo MRL si operano congiuntamente una correzione di intercetta euna correzione della pendenza. Notate che a questo finee necessario definire unanuova variabile esplicativa la cui singola osservazione t-esimae data dal prodottotraDt ex2t. La matrice dei regressori del MRL diventa quindi:

X(T×4)

=

1 0 x21 01 0 x22 0... ... ... ...1 0 x2T1 01 1 x2T1+1 x2T1+1

1 1 ... ...... ... ... ...1 1 x2T1+T2 x2T1+T2

Page 158: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

158 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

5.1.5 Variabili dummy per provare l’ipotesi di stabilit a dei coefficientidi regressione

Supponiamo di avere un MRL conk regressori per il quale riteniamo che si abbia:

yt = β(1)1 + β

(1)2 x2t + ... + β

(1)k xkt + εt t = 1.....T1

yt = β(2)1 + β

(2)2 x2t + ... + β

(2)k xkt + εt t = T1 + 1.....T1 + T2

cioe si hanno e tutti i parametri del primo ordine del modello hanno una configu-razione diversa in relazione a due distinti sottocampioni. Alternativamente, possoscrivere in modo compatto:

yt = β(1)1 +

(2)1 − β

(1)1

)Dt + β

(1)2 x2t +

(2)2 − β

(1)2

)(Dt · x2t) +

+... + β(1)k xkt +

(2)k − β

(1)k

)(Dt · xkt) + εt,

t = 1, 2, ..., T1 + T2

con:

Dt =

0 ∀t ∈ [1, T1]1 ∀t ∈ [T1 + 1, T1 + T2]

Quindi procedo alla stima del seguente MRL:

yt = δ1 + δ2x2t + ... + δkxkt + δk+1Dt + δk+2D(x2)t + (5.10)

+... + δ2kD(xk) + εt, (5.11)

t = 1, 2, ..., T1 + T2,

dove:

D(xj)t = Dt · xjt,

j = 2, 3, ..., k,

t = 1, 2, ..., T

Ovviamente i parametri del modello (5.10) hanno il seguente significato:

δ1 = β(1)1 , δ2 = β

(1)2 , ..., δk = β

(1)k ,

δk+1 = β(2)1 − β

(1)1 , δk+2 = β

(2)2 − β

(1)2 , ...,

δ2k = β(2)k − β

(1)k ,

Notate chee possibile provare l’ipotesi:

H0 : δk+1 = δk+2 = δ2k = 0contro

H1 : δk+1 6= 0, e/o δk+2 6= 0, e/o δ2k 6= 0

Page 159: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE 159

In altri termini, l’ipotesi nullaH0 significa che i parametri non cambiano ma simantengono costanti per tutto il campione. Per verificare tale ipotesie possibileutilizzare qualunque tra i test visti nel capitolo 4; ad esempio il testfW e costruitocome:

fW =(RRSS − URSS)/k

URSS/(T − 2k)(5.12)

dove URSSe la somma dei quadrati dei residui del modello (5.10) stimato (mo-dello non vincolato), mentre RRSSe la somma dei quadrati dei residui dello stessomodello stimato sottoH0. Notate che il test appena descrittoe molto simile al testdi Chow del1 tipo visto nel capitolo 4, con la differenza che la stima del modellonon vincolato si basa sull’ipotesi che la varianza dei termini di disturbo sia la stessanei due sottoperiodi.

5.1.6 Test di Chow del secondo tipo (o test di validita previsiva)

Questo test si utilizza per verificare la stabilita strutturale del MRL. Il test si basasul principio che il modello stimato cont = 1, ..., T1, in assenza di modificazionidei parametri, dovrebbe generare previsioni pert = T1 + 1, ..., T1 + T2 con erroriassociati che hanno valore atteso nullo. Se invece si ipotizza che tali errori diprevisione abbiano valore atteso diverso da zero, occorre inserire in corrispondenzadi ciascuna osservazione del2 sottocampione una variabile dummy puntuale; ilmodello non vincolato diventa allora:

yt = β1 + β2x2t + ... + βkxkt + γ1D1t + γ2D2t + (5.13)

+... + γT2DT2t + εt, (5.14)

t = 1, 2, ..., T1 + T2

doveDit e una dummy che assume valore unitario solo in corrispondenza dit =i, (i = T1 + 1, ..., T1 + T2). Vengono quindi stimatiT2 parametri aggiuntivi chehanno l’effetto di eliminare le ultimeT2 osservazioni (ricordatevi l’effetto che hal’inclusione di una VDC ad impulso:εt = 0, t = T1 + 1, T1 + 2, ..., T1 + T2)

La somma dei quadrati dei residui del modello (5.13) stimatoe quindi:

T1+T2∑t=1

ε2t =

T1∑t=1

ε2t (5.15)

e la stima del modello non vincolato equivale alla stima del modello:

yt = β1 + β2x2t + ... + βkxkt + εt, (5.16)

t = 1, 2, ...., T1

Notate che, con l’inserimento delle VDC puntuali, dalla stima del modello (5.13)e possibile ottenere direttamente gli errori di previsione e le stime delle varianze

Page 160: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

160 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

degli errori di previsione, rispettivamente come:

eT1+1|T1= yT1+1 − yT1+1|T1

= γk+1,

V(eT1+1|T1

)= V (γk+1)

E’ possibile definire l’ipotesi nulla:

H0 : γ1 = γ2 = ... = γT2 = 0contro

H0 : γ1 6= 0 e/oγ2 6= 0 e/o... 6= 0 e/oγT2 6= 0

Questo test, chiamato test di validita previsiva o test di Chow del secondo tipo,puo essere costruito confrontando RRSS e URSS, rispettivamente ottenuti comesomma dei quadrati dei residui del modello (5.16) stimato sulla base dell’interocampione (t = 1, 2, ..., T1 + T2), e somma dei quadrati dei residui dello stessomodello stimato con i dati relativi al sottocampione (t = 1, 2, ..., T1), che a suavolta e equivalente alla somma dei quadrati dei residui del modello (5.13) stimato.

5.2 Variabili dummy come variabili dipendenti

Vi sono importanti applicazioni econometriche dovee necessario modellare feno-meni che si sostanziano in scelte dicotomiche (o comunque discrete):

yt = 0,

oppure

yt = 1,

t = 1, 2, ..., T

Rilevanti esempi sono ad esempio, la partecipazione al mercato del lavoro, l’acqui-sto di una casa di proprieta, la scelta di quotarsi in borsa ecc...

Il modello econometrico di riferimento dovrebbe spiegare quali sono le circo-stanze che determinano, i valori osservati suyt:

yt = f(1, x2t...xkt, εt), (5.17)

t = 1, 2, ..., T

Notate che il suffissot indica lat-esima osservazione relativa al campione. In gene-re, in questi contesti applicativi le diverse osservazioni si riferiscono a diverse unita(individui, imprese, famiglie) osservate ad un dato istante temporale. Ad esempio,possiamo immaginare di avere un campione diT imprese, alcune delle quali sonoquotate in borsa (yt = 1) ed altre no (yt = 0) e le variabilixit...xkt costituisconola misurazione dei fattori ritenuti rilevanti per determinare la scelta dell’impresa.

Per stimare un modello del tipo (5.17)e possibile utilizzare due possibili ap-procci alternativi:

Page 161: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 161

1) Modello di probabilita’ lineare: nel modello di probabilita’ lineare (MPL):

yt =k∑

i=1

βixit + εt = x′tβ + εt, t = 1, 2, ..., T,

E(εt) = 0,∀t,

la variabile dipendenteyt viene fatta dipendere in modo lineare da un insieme dikvariabili esplicative

(2) Approccio basato sull’esistenza di una variabile latentey∗t che none possi-bile osservare (o misurare) tale per cui:

yt =

1 se y∗t > 00 se y∗t ≤ 0

Questo approccioe alla base dei modellilogit e probit. Ora vedremo questi dueapprocci separatamente.

5.2.1 Modello di probabilita lineare

Il MPL e basato sulla regressione lineare:

yt = x′t(1×k)

β + εt

con:E(εt) = 0,∀t

E(yt|xt) = x′tβ, ∀t

Si noti che:

E(yt|xt) = prob(yt = 1|xt) percheyt puo assumere solo valori pari a

01

Quindi il MPL da una probabilita condizionata suxt in termini lineari. Notate che,

dato cheyt =

01

, εt puo assumere solo due valori:

εt =−x′tβ (seyt = 0)1− x′tβ (seyt = 1)

cioe il termine di disturboe una variabile casuale discreta. Il MRL implica che:

p(yt = 1|xt) = x′tβ

p(yt = 0|xt) = 1− x′tβ

Page 162: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

162 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

e quindi:

E(εt|xt) = −x′tβ · p(yt = 0|xt) +(1− x′tβ

)· p(yt = 1|xt) =

= −x′tβ ·(1− x′tβ

)+(1− x′tβ

)· x′tβ = 0

V (εt) =(−x′tβ

)2 · (1− x′tβ)

+(1− x′tβ

)2 · x′tβ == x′tβ ·

(1− x′tβ

)= E(yt) · [1− E(yt)]

Quindi, la varianza diεt none costante per le diverse osservazioni: siamo in pre-senza di eteroschedasticita. Il prossimo paragrafo contiene alcune anticipazionisulla stima di modelli con eteroschedasticita.

5.2.2 Alcune anticipazioni sulla stima di modelli con disturbi etero-schedastici

Immaginiamo di avere un MRL del tipo:

y = Xβ + ε,

E(ε) = [0] .

E(ε′ε) = Ω =

ω11 0 ... 00 ω22 ... ...... ... ... 00 ... 0 ωTT

,

V (εt) = σ2t = ωtt, t = 1, 2, .., T

In questo caso il miglior stimatoree quello dei ”Minimi Quadrati Ponderati” (WLS=weightedleast squares), che si ottiene in questo modo: si definisce:

P =

ω

1/211 0 ... 0

0 ω1/222 ... ...

... ... ... 00 ... 0 ω

1/2TT

tale che:

PP′ = P2= Ω

IT = P−1ΩP−1 == P−1ΩP−1′,

P−1 =

ω−1/211 0 ... 0

0 ω−1/222 ... ...

... ... ... 00 ... 0 ω

−1/2TT

Page 163: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 163

Inoltre, si definiscono:

y∗ = P−1y

X∗ = P−1X

ε∗ = P−1ε

Notate che premoltiplicarey e X per P−1 equivale a ponderare ciascuna osser-vazione perω−1/2

tt . Per questo motivo si parla di Minimi Quadrati Ponderati. Aquesto punto si puo verificare che il modello ponderato:

y∗ = X∗β + ε∗,

E(ε∗) = [0],E(ε∗ε∗′) = P−1ΩP−1′ = IT

ha quindi termini di disturbo omoschedastici. Lo stimatore WLSe

βwls = (X∗′X∗)−1X∗′y∗ = (X′P−1P−1′X)−1X′P−1P−1′y == (X′Ω−1X)−1X′Ω−1y

e questo stimatoree non distorto ede il piu efficiente nella classe degli stimatorilineari e non distorti (stimatore BLUE):

E(βwls) = E[(X′Ω−1X)−1X′Ω−1(Xβ + ε)

]= β (Non distorto)

V (βwls) = E[(X′Ω−1X)−1X′εε′X(X′Ω−1X)−1

]=

= (X′Ω−1X)−1X′Ω−1X(X′Ω−1X)−1 == (X′Ω−1X)−1

Purtroppo questo stimatore none praticabile perche di normaΩ (e quindiP)none nota. Occorre stimarla in qualche modo venga (vedi capitolo 6).

Se invece si usa lo stimatoreOLS sul modello di partenza:

y = Xβ + ε

si ottiene:βOLS= (X′X)−1X′y

con le seguenti proprieta:

E(βOLS) = (X′X)−1X′(Xβ + ε) = β Non distorto

V (βOLS) = E[(βOLS−β)(βOLS−β)′

]=

= E[(X′X)−1X′ε′εX(X′X)−1

]=

= (X′X)−1X′ΩX(X′X)−1

Page 164: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

164 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

Quindi βOLS e meno efficiente diβGLS e che la stimaOLS della varianza dellestimee distorta e inconsistente. Quindi, se usoOLS in presenza di eteroscheda-sticita le stime dei parametri inβ sono non distorte ma inefficienti, e le stime deglierrori standard associati sono del tutto insoddisfacenti (distorte e inconsistenti). Siveda il capitolo 6 per i dettagli.

5.2.3 Stima del modello di probabilita lineare

Ritornando al modello di probabilita lineare, dato che sappiamo che:

V (εt) = E(yt) [1− E(yt)] (eteroschedasticita)

possiamo utilizzare la seguente procedura a 2 stadi:(1) Si stima:

yt = x′tβ + εt

usandoOLS,e si ricavano i valori adattati diyt : yt = x′tβOLS .

(2) Si costruisce la matrice dei pesi:

P−1 =

[y1(1− y1)]

−1/2 0 ... 00 [y2(1− y2)]

−1/2 ... ...... ... ... 00 ... 0 [yT (1− yT )]−1/2

chee ovviamente una stima consistente diP. Questa matrice stimata viene utiliz-zata per ottenere lo stimatore WLS:

βWLS = (X′Ω−1X)−1X′Ω−1y,

Ω = PP′

Questo approccio presenta alcuni problemi:(a) Per qualche osservazione, la grandezzayt(1 − yt) potrebbe anche essere

negativo (seyt > 1 oppure seyt < 0) per campioni finiti (in grandi campioniquesta circostanza si verifica raramente, dato cheβOLS e consistente e quindiyt

p⇒yt)

(b) i termini di errore sono non gaussiani e questo complica molto l’inferenza,dato che sappiamo costruire intervalli fiduciari e fare prova delle ipotesi solo inpresenza di termini di disturbo normali.

In ogni caso, il problema piu gravee comunque quello cheE(yt|xt) = x′tβpotrebbe giacere al di fuori dell’intervallo[0, 1]. Ricordate infatti cheE(yt|xt) ≡p(yt = 1|xt), ma un MPL potrebbe implicare probabilita assurde (cioe negative omaggiori di uno) per determinate osservazioni: si veda ad esempio la Figura 5.4dove abbiamo riportato un diagramma a dispersione conyt variabile dicotomica ex2 come unico regressore (oltre il termine di intercetta). Le osservazioni suyt sonoquindi pari o a zero o a 1. Ad esempio, le osservazioni che abbiano valori dix2

Page 165: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 165

pari ax2a o x2b sono associate ad una probabilita stimata rispettivamente negativae superiore ad uno.

[Figura 5.4 qui nel testo]E’ chiaro che sarebbe molto meglio poter interpolare le osservazioni campio-

nari con una curva non lineare, comee ben evidenziato dalla figura 5.4, piuttostoche con una retta.

5.2.4 Modelli probit e logit

Questi modelli sono basati sull’assunzione che esista una variabile inosservabiley∗tche viene determinata da un certo insieme di regressorix1 ... xk nel solito modo:

y∗t = x′tβ + εt,

t = 1, 2, ..., T

E(εt) = 0,∀t

Questa grandezza none pero osservabile, e si osserva invece la variabile dipendenteyt:

yt =

1 se y∗t > 00 se y∗t ≤ 0

La variabile latentey∗t puo essere interpretata come ”propensione” o ”abilita” adassumere valoreyt = 1 (abilita a trovare lavoro, trovare casa, essere quotati in bor-sa) oppure come costo opportunita diyt = 0.Si noti che sey∗t viene moltiplicata perqualsiasi costante non nulla, il modello non cambia (problema di identificazione):

λy∗t = λx′tβ + λεt

y∗∗t = x′tβ∗ + ε∗t

Per questo motivo si utilizza la convenzione di ”normalizzare” il modello in modotale da avere un termine di disturboεt che ha varianza unitaria:

E(ε2t ) = σ2 = 1

Definiamo ora:

Pt = prob(yt = 1) = prob(y∗t > 0) == prob(x′tβ + εt > 0) = prob(εt > −x′tβ) == 1− prob(εt < −x′tβ) = 1− F (−x′tβ)

dove conF (·) indichiamo la funzione di ripartizione della variabile casualeεt :

F (h) =

h∫−∞

f(εt)dεt

Page 166: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

166 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

Se si ipotizza che la funzione di densita diεt sia simmetrica intorno a zero,[f(−h) = f(h)],allora abbiamo:

F (−x′tβ) = 1− F (x′tβ)

come si evince dalla Figura 5.5[Figura 5.5 qui nel testo]Quindi possiamo scrivere:

Pt = prob(yt = 1) = F (x′tβ)

Si noti che, ovviamente, dato cheF (·) e una funzione di ripartizione,Pt e vincolatoad essere compreso tra0 e1 :

limx′

tβ⇒−∞F (x′tβ) = 0,

limx′

tβ⇒+∞F (x′tβ) = 1

Si veda a questo proposito la Figura 5.6[Figura 5.6 qui nel testo]

Esempio di modello logit strutturale (Nakosteen e Zimmer, 1980)

Si consideri un modello di migrazione :

yt =

1 se l′individuo t-esimo emigra0 se l′individuo t-esimo non emigra

, t = 1, 2, ...T

Si definiscono:

yR∗t

= xR′t

(1×k)

β + εRt

yR∗t = salario medio atteso

chet rimanendo nel suo paese si attenderebbe di ricevere

e si fa dipendere tale salario da un vettore di variabili esplicativexRt (eta, raz-

za, educazione, sesso dell’individuo, occupazione e reddito aggregati del paesedi partenza). Si definisce:

yM∗t

= xM ′t

(1×h)

γ + εMt

y∗Mt= salario atteso chet si attende di ricevere emigrando

che dipende dal vettorexMt (caratteristiche personali, cioe eta, educazione, sesso

ecc e alcuni indicatori macro economici del paese di arrivo).Il singolo individuo t-esimo compie la scelta di emigrare se:

yM∗t

− yR∗t > c∗

c∗ = costo di emigrazione (difficilmente misurabile)

Page 167: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 167

Si definisce quindi il modello:

y∗t = yM∗t

− yR∗t− c∗

y∗t = x′tδ + εt

xt = unione degli insiemi di variabili esplicative peryM∗t

eyR∗t

εt = εMt − εR

t

e quindi:yt = 1 se y∗t > 0

A questo puntoe possibile scrivere la funzione di verosimiglianza delleTosservazioni suyt, t = 1...T :

P (y1, y2, ..., yT |x1,x2, ...,xT ) = (∏yt=1

Pt)∏

(1−yt=0

Pt) (5.18)

dove(∏

yt=1Pt) indica la produttoria rispetto a tutti le osservazioni in corriispon-

denza delle qualiyt = 1 e∏(1−

yt=0Pt) indica la produttoria rispetto a tutti le osservazioni in corriispon-

denza delle qualiyt = 0.Ipotizziamo che i termini di disturbo del modello abbiano distribuzione logisti-

ca:

F (εt) =exp(εt)

1 + exp(εt)=

11 + exp(−εt)

(5.19)

otteniamo il cosiddetto modellologitUna variabile casuale logistica ha le seguenti funzione di densita e di riparti-

zione:

f(x) =ex

(1 + ex)2x ∈ (−∞,+∞)

F (x) =ex

1 + ex=

11 + e−x

nb : f(x) =∂F (x)

∂x

e le caratteristiche di tali funzioni sono rappresentate, a confronto con quelle di unavariabile casuale normale standardizzata nelle Figure 5.7a e 5.7b.

[Figure 5.7a e 5.7 b qui nel testo]Notate che una variabile casuale logisticae caratterizzata da maggiore disper-

sione rispetto alla normale standardizzata. Infatti:

E(x) = 0

V (x) =π2

3∼= 3.28 (> 1)

Il comportamento di una variabile casuale logisticae abbastanza simile a quello diunaN(0, 1) (tranne che nelle code).

Page 168: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

168 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

Per quello che riguarda il nostro modello, l’assunzione di distribuzione logisti-ca implica:

Pt = F (x′tβ) =exp(x′tβ)

1 + exp(x′tβ)=

11 + exp(−x′tβ)

Esplicitando rispetto aexp(x′tβ) otteniamo:

[1 + exp(−x′tβ)

]Pt = 1 ⇒ exp(x′tβ) =

Pt

1− Pt⇒

x′tβ = ln(Pt

1− Pt) = ln

prob(yt = 1)prob(yt = 0)

Quindi la grandezzax′tβ da il logaritmo del rapporto delle probabilita (”log-oddsratio”). Si noti che per il modello logit, il log-odds ratioe funzione lineare dellevariabili esplicativext (nel modello di probabilita linearee Pt ad essere funzionelineare delle variabili esplicative).

Problema della stima del modello logit

Si tratta di trovare una curva che interpoli la nuvola dei punti corrispondenti alle os-servazioni campionarie, come gia visto nella Figura 5.4. Con l’ipotesi che i terminidi disturbo siano distribuiti come una logistica,e possibile scrivere la funzione diverosimiglianza per il campione:

L = (∏

yt=1

Pt)

∏yt=0

(1− Pt)

=

=

∏yt=1

11 + exp(−x′tβ)

∏yt=0

(1− 1

1 + exp(−x′tβ)

) =

=

∏yt=1

11 + exp(−x′tβ)

∏yt=0

(1

1 + exp(x′tβ)

) (5.20)

ma la stima di questo modello si presenta problematica: infatti, la stima di massimaverosimiglianza richiede di considerare la verosimiglianza o la log verosimiglian-za (lnL) e derivarla rispetto aβ. Si ottiene un’espressione che non si riesce ad

Page 169: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 169

esplicitare rispetto aβ:

L = (∑

yt=1

lnPt) +

∑yt=0

ln(1− Pt)

=

= −∑yt=1

ln[(1 + exp(−x′tβ)]−∑yt=0

ln[(1 + exp(x′tβ)]

∂L

∂β= [0] ⇒

∑yt=1

11 + exp(x′tβ)

· xt + (5.21)

−∑yt=0

11 + exp(−x′tβ)

· xt = [0] (5.22)

Queste condizioni del primo ordine non possono essere esplicitare rispettoβ e oc-corre utilizzare un metodo di massimizzazione numerica. In ogni caso la funzionedi log verosimiglianzae concava ed ha un unico massimo, quindi non da problemiin questo senso. A questo proposito,e necessario partire da un valore iniziale perla stima numerica, che chiamiamoβ0, che in generee quello che si ricava dallastima del modello di probabilita lineare.

5.2.5 Modello Probit

E’ possibile utilizzare una diversa assunzione sulla distribuzione dei termini didisturbo e ipotizzare che:

εt ∼ N(0, 1)

In questo caso, data l’ipotesi di normalita, il modello viene chiamatoprobit

p(yt = 1) = p(y∗t > 0) = Φ(x′tβ)

Φ(x′tβ) =

x′tβ∫

−∞

1√2π

exp−x2

2

dx

dove conΦ(·) indichiamo la funzione di ripartizione di una variabile casuale nor-male standardizzata. La funzione di verosimiglianza per un modello probite:

L =∏yt=1

Φ(x′tβ)∏yt=0

[1− Φ(x′tβ)

]lnL =

∑yt=1

lnΦ(x′tβ)+∑yt=0

ln[1− Φ(x′tβ)

]ed anche in questo caso per ottenere la stima di massima verosiglianzae necessariousare un metodo di massimizzazione numerica.

Come abbiamo visto nelle Figure 5.7a e 5.7b, le funzioni di densita e di ripar-tizione di una variabile casuale logistica e di una variabile casuale normale sono

Page 170: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

170 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

molto simili, a parte il comportamento delle code. Per questo motivo, l’assunzionerelativa alla distribuzione dei termini di disturboe relativamente poco importantee l’applicazione dei modelli logit e probit allo stesso insieme di dati conduce arisultati simili, ma dato che nel modello logit si ha

V (εt) = E(ε2t ) =

π2

3

occorre dividere i risultati della stima logit perπ2

3 per poterle confrontare con quel-le della stima probit (dove invece la varianza dei termini di disturboe per ipotesiunitaria.

Un problema ulterioree che tipicamente la proporzione di osservazioni asso-ciate ayt = 1 e di quelle associate ayt = 0 possono essere molto sbilanciate tra diloro; quindi si usano tassi di campionamento diversi per riequilibrare il campione.Per il modello logit questa procedura ha come unico effetto quello di indurre unadistorsione nel parametro di intercetta che deve essere corretta incrementandola dilog(P1

P0) (P1 e la proporzione delle osservazioni conyt = 1 ritenute eP0 e la pro-

porzione delle osservazioni conyt = 0 ritenute). Le stime degli altri parametri nonsono invece influenzate dalla diversita dei tassi di campionamento.

5.2.6 Effetti di variazioni delle variabili esplicative

Ricordiamo che il MPL stabilisce:

P (yt = 1|xt) = x′tβ

mentre il modello logit stabilisce:

P (yt = 1|xt) =exp(x′tβ)

1 + exp(x′tβ)=

11 + exp(−x′tβ)

ed il modello probit stabilisce:

P (yt = 1|xt) = Φ(x′tβ)

Quindi, chiamandoP (yt = 1|xt) = Pt, possiamo verificare che variazioni dellevariabili esplicative hanno diversi effetti suPt a seconda del modello di riferimento

∂Pt

∂xit=

βi per il modello di prob. lineare

exp(x′tβ)

[1+exp(x′tβ)]2

· βi = Pt(1− Pt)βi per il modello logit

Φ(x′tβ)·βi per il modello Probit

Quindi per il MPL, ∂Pt

∂xite costante, cioe non dipende daxt, mentre none costante

per gli altri due modelli. Si noti che per il modello logit, dato che il log-odds ratioe:

ln(Pt

1− Pt) = x′tβ

abbiamo che:∂ ln( Pt

1−Pt)

∂xit= βi

Page 171: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 171

5.2.7 Indici di bonta di adattamento del modello

Nei modelli dove la variabile dipendentee dicotomica, esiste il problema dellamisurazione della bonta di adattamento, indotto dal fatto cheyt assume solo valori0 o 1. Sono state avanzate diverse proposte per misurare quanto il modello spiegadel comportamento della variabile dipendente (per i modelli di regressione linearetutte queste misure sono equivalenti):

1) IndiceR2 inteso come il quadrato della correlazione trayt e yt.

2) Misure basate sulla somma dei quadrati dei residui.Nel MRL abbiamo:

R2 = 1− RSS

TSS

RSS = ε′ε = (y − y)′(y − y) =T∑

t=1

(yt − yt)2

TSS = y∗′y∗ =T∑

t=1

(yt − y) =T∑

t=1

y2t − T y2 =

= T1 − T (T1/T )2 =T1T0

T

doveT1 = numero di osservazioni conyt = 1, T0 = numero di osservazioni conyt = 0 (T0 + T1 = T ). Quindi:

R2 = 1− T

T1T0

T∑t=1

(yt − yt)2 = 1− T

T1T0ε′ε

Questae la misura proposta da Efron (1978).Amemiya (1981) suggerisce di definire la somma dei quadrati dei residui in

modo diverso:T∑

t=1

[(yt − yt)2

yt(1− yt)

]in modo tale che ciascun residuo viene ponderato per l’inverso della stima delproprio errore standard (vale per il modello di probabilita lineare).

3) Misure basate sul rapporto delle verosimiglianzePer il modello di regressione lineare con termini di disturbo gaussiani:

y = Xβ + ε (5.23)

E(ε) = [0] , ε ∼ N(0, σ2IT )

sappiamo che possiamo scrivere l’indiceR2 come:

Page 172: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

172 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

R2 = 1− RSS

TSS= 1−

(LR

LUR

) 2T

(5.24)

doveLR = massimo della verosimiglianza del modello vincolato ad avere tutti iparametri di pendenza

uguali a 0,LUR = massimo della verosimiglianza del modello per il modellonon vincolato, dato che sappiamo che:

L = (2πσ2)−T2 exp

− 1

2σ2ε′ε

Notate che questa interpretazione dell’indiceR2 puo essere validamente utiliz-

zata per modelli a variabile dipendente qualitativa. Si ricordi che per i modelli aVDQ (diversi dal MPL) abbiamo che:

L =(∏

yt=1

Pt)

∏yt=0

(1− Pt)

Notate che la verosimiglianzae generata come produttoria di probabilita che sonotutte< 1; quindiL ≤ 1 e questo ci assicura che:

LR ≤ LUR ≤ 1

da cui:

1LR

≥ 1LUR

≥ 1

1 ≥ LR

LUR≥ LR

1 ≥(

LR

LUR

) 2T

≥ LR2T

LR2T ≤ 1−R2 ≤ 1

e quindi:0 ≤ R2 ≤ 1− LR

2T

A partire da questo tipo di considerazioni, Cragg e Uhler (1970) suggerisconodi costruire uno ”pseudoR2”

pseudoR2p =

LUR2T − LR

2T

(1− LUR2T )LUR

2T

Page 173: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.3. IL MODELLO TOBIT 173

mentre McFadden (1974) propone un’altra misura:

R2MF = 1− lnLUR

lnLR

Quest’ultima misura non corrisponde ad alcuna misura diR2 nel modello di re-gressione lineare.

4) Bonta del modello come proporzione di previsioni corrette.Vediamo quante volte il modello correttamente ”prevede” il comportamento

della variabile dipendente. Associamo ad ogni osservazione una sorta di ”pseudoprevisione”y∗∗t secondo la seguente regola:

Seyt > 0.5 ⇒ y∗∗t = 1Seyt 6 0.5 ⇒ y∗∗t = 1

Quindi per ogni osservazione calcoliamoyt − y∗∗t (”pseudo errore di previsio-ne). Ovviamente, seyt − y∗∗t = 0, la previsionee giusta e seyt − y∗∗t = 1 o seyt − y∗∗t = −1, la previsionee sbagliata. Quindi possiamo definire un indice dibonta del modello basato sul numero di previsioni corrette

R2C =

numero di previsioni corretteT

(5.25)

che comunque none molto utile per discriminare tra i modelli

5.3 Il modello Tobit

Nel modello Tobit (Tobin’s probit, Tobin 1958) abbiamo una variabile troncata,vale a dire osservata solo se positiva:

yt =

y∗t = x′tβ + εt se y∗t > 00 altrimenti

t = 1, 2, ..., T, ε ∼ N(0, σ2It)

Si tratta quindi di un modello di regressione gaussiano ”censurato”.Ad esempio, si consideri un modello per le decisioni di spesa per l’acquisto

di un’automobile, sulla base di un campione di famiglie (si vogliono studiare ledeterminanti dell’acquisto di auto). Si ipotizza:

y∗t =

x′t

(1×k)

β + εt se y∗t > 0

0 per chi non possiede auto

oppure:

Page 174: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

174 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

ore lavorate: Ht =

x′tβ + εt

0

salario: Wt =

x′tβ + εt

0

Per stimare questo modello NONe possibile usare lo stimatore OLS utilizzan-do solo le osservazioni per le qualiy∗t > 0, dato che per utilizzare validamentetale stimatore occorre che valgaE(ε) = [0] e questa proprieta none soddisfatta inquesto caso. Infatti, in questo modo si considerano solo quelle osservazioni per lequaliεt > −x′tβ e quindi:

E(εt) =

∞∫−x′

εtΦ(εt)dεt 6= 0

Si ha quindi una distribuzione troncata per i termini di disturbo, comee evidenziatodalla Figura 5.8.

[Figura 5.8 qui nel testo]Quindi lo stimatore OLS none utilizzabile perche porterebbe ad un risultato

distorto:

E(β∗OLS) = β + (X∗′X∗)X∗′E(ε∗)

(ricorda cheE(εt) 6= 0)

y∗(T1×1)

= X∗(T1×k)

β + ε∗

y∗ = vettore con tutte e sole le osservazioniy∗t > 0.X∗ = matrice delle corrispondenti osservazioni sulle variabili esplicative.ε∗ = vettore con i corrispondenti termini di disturboOccorre quindi utilizzare lo stimatore di massima verosimiglianza :

L =∏

yt>0

(1√2πσ

)exp

− 1

2σ2(yt − x′tβ)2

×

∏yt=0

Φ(−x′tβ

σ

)(5.26)

Notate che nell’espressione precedente il secondo blocco di fattori corrispondea quelle osservazioni conyt = 0, cioe per le quali si haεt < −x′tβ.(con Φ(·)indichiamo ancora la funzione di ripartizione associata ad una VCN(0, 1)).

Anche nel caso del modello Tobin, la log verosimiglianza non ha condizionidel primo ordine che possano essere risolte analiticamente:

lnL = −T1

2ln(2π)−T1 ln(σ)− 1

2σ2

∑yt>0

(yt−x′tβ)2+∑

yt=0

ln[Φ(−x′tβ

σ

)]

Page 175: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.3. IL MODELLO TOBIT 175

∂ lnL

∂β= [0] ⇒ 1

σ2

∑yt>0

xt(yt − x′tβ)−∑

yt=0

1

σΦ(−x′tβ

σ

)xt = [0]

∂ lnL

∂σ= 0 ⇒ −T1

σ+

1σ2

∑yt=0

1

Φ(−x′tβ

σ

) = 0

Quindi ccorre fare riferimento a metodi di ottimizzazione numerica.

Problema concettuale del modello Tobit

Il modello si basa sull’assunzione chey∗t possa effettivamente, in linea di principio,assumere valori negativi che non vengono riportati perche non osservabili. Negliesempi visti in precedenzae evidente chey∗t < 0 none possibile concettualmente.

Esistono dei rischi connessi all’applicazione acritica del modello tobit. Adesempio, nel caso della modellazione del salario percepito, si puo pensare comemaggiormente indicato un modello del tipo:

Wt = salario osservato per lat− esima unita campionaria:

Wt =

WMt se WM

t > WRt

0 altrimenti

dove:

WMt = x′Mtβ + εMt = salario di mercato

WRt = x′Rtγ + εRt = salario di ”riserva”

Modello ”strutturale” del tipo visto per l’immigrazioneQui si osservaWMt quando

WMt −WRt > 0

cioe quando:

xM ′t β + εM

t − xR′t γ − εR

t > 0 ⇒ εMt − εR

t > xR′t γ − xM ′

t β

quindi Wt = 0 non quandoεMt > −xM ′

t β (come risulterebbe dall’applicazionedel modello tobit), ma quando

εMt − εR

t < xR′t γ − xM ′

t β

Utilizzando il modello tobit si ottengono quindi stime dei parametri inconsitenti.

Page 176: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

176 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

Differenza tra il modello tobit e modello di regressione troncata

Nel modello di regressione troncata si hanno osservazioni tratte da una distribu-zione troncata: si osservano ley∗t solo se maggiori di zero (non si osservano ne lavariabile dipendente, ne i valori dei regressori nel caso in cuiy∗t < 0). Nel modellotobit, non si osserva la variabiley∗t see negativa, ma si osserva il corrispondentevettorext di variabili esplicative.

Ad esempio, consideriamo l’esperimento dell’introduzione di una tassa sul red-dito negativa (sussidio di poverta) per le famiglie a basso reddito nel New Jersey(anni ’70). Tutte le famiglie con redditto al di sopra della soglia di poverta sono sta-te pertanto eliminate dal campione. Se si usa lo stimatore OLS sul campione tron-cato si possono ottenere risultati distorti e non consistenti. di questo possiamo dareun’interpretazione intuitiva in termini grafici, riferendoci ad un MRL semplice. Siveda la Figura 5.9 di seguito riportata.

[Figura 5.9 qui nel testo]Occorre quindi far riferimento allo stimatore di massima verosimiglianza:Dominio diyt : (−∞, L] ⇒ εt < L− x′tβ

f(yt | xt) =1√2πσ

exp− 1

2σ2 (yt − x′tβ)2

Φ(

L−x′tβ

σ

)quindi:

lnL = −T

2lnσ2 − 1

2σ2

T∑t=1

(yt − x′tβ)2 −T∑

t=1

lnΦ(

L− x′tβσ

)Occorre anche in questo caso utilizzare un metodo di massimizzazione numerica.

5.4 Esercizi

1) Dato il seguente modello:

y∗t = β1 + β2Dt + εt, t = 1, 2, ..., 100,

yt = 1 sey∗t > 0yt = 0 in caso contrario

L’unico regressore,Dt e una variabiledummy con valori nulli o unitari. Scrivetela funzione di verosimiglianza per il modello sotto le ipotesi che:

a) εt ∼Logisticab) εt ∼ normale standard

Page 177: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.4. ESERCIZI 177

Scrivete le condizioni del primo ordine per trovare lo stimatore di massimaverosimiglianza diβ1 eβ2 nei due casi.

2)Si supponga che un modello di probabilita lineare sia applicata ad una rela-zione del tipo:

yt = β1 + βx2t + εt

doveyt =

01

e una variabile dipendente dicotomica, ex2t e una variabile

esplicativa che varia nel continuo. L’ampiezza campionariae pari aT. Come siottiene la stima OLS di questo modello nei termini della media e della varianzadi x2? Come possono essere interpretati i risultati? Scrivere la funzione di log-verosimiglianza del modello di probabilita lineare in questo caso.

3) Le seguenti 20 osservazioni sono tratte da una distribuzione normale ”cen-surata” (a valori negativi diy si sostituiscono valori nulli )

3.8396, 7.2040, 0, 0, 4.4132, 8.0230, 5.7971, 7.0828,0, 0.80260, 13.0670, 4.3211, 0, 8.6801, 5.4571, 0, 8.1021,0, 1.2526, 5.6016Il modello applicabilee:

y∗t =

µ + εt seµ + εt > 00 altrimenti

εt ∼ N(0, σ2)

a) formulate la log-verosimiglianza per questo modello tobit

b) ottenete lo stimatore di massima verosimiglianza diµ eσ2.

4) Data la seguente ipotesi comportamentale: l’individuot − esimo decidedi lavorare (yt = 1) se il suo salarioe superiore al salario di riserva (WR). Sisupponga inoltre che:

WR = costante∀t (salario di riserva uguale per tutti)

Wt = β1 + β2x2t + β3x3t + β4Dt + εt

x2t = eta,

x3t = anni di scuola,

Dt = dummy per sesso =

1 se individuoe di sesso maschile0 altrimenti

εt ∼ N(0, 1)

Costruire un modello stimabile, ricavare la funzione di log-verosimiglianza e tro-vare le condizioni del primo ordine per la stima di massima verosimiglianza deiparametri incogniti. Come cambierebbero le conclusioni se seεt fosse distribuitocome una VC logistica?

Page 178: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

178 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

5) Spiegare come sia possibile in relazione al modello

y(T×1)

= X(T×k)

β(k×1)

E(ε) = [0]

E(εε′) = σ2IT

generare un errore di previsione peryT+1 (conoscendoxT+1 eyT+1)6) Dato il MRL:

yt = β1 + β2pt + β3zt + β4rt + εt

dove:yt = stock di moneta in termini realipt = indice dei prezzizt = reddito realert = tasso di interesse nominale a breveQuesta equazionee stimata per la Germania dal 1970 al 1994 sulla base di dati

trimestrali.a) Se si ritiene che l’unificazione (4o trimestre del 1990) abbia influito sul-

l’intercetta del modello, come potrebbe essere corretta la specificazione per tenerepresente questo fenomeno?

b) Se invece si ritiene che tale evento abbia influenzato anche la sensitivita delladomanda di moneta rispetto a variazioni del tasso d’interesse, come si modifiche-rebbe il modello?

c) Comee possibile verificare quest’ultima ipotesi?d) Come andrebbe verificata invece l’ipotesi che tutti i parametri della relazione

sono stati modificati da quell’evento?

5.5 Soluzioni

1) a) Seεt ∼ VC logistica, allora:

F (εt) =eεt

1 + eεt=

11 + e−εt

f(εt) =eεt

(1 + eεt)2

prob(y∗t > 0) = prob(β1 + β2Dt + εt > 0) == prob(εt > −β1 − β2Dt) = prob(εt > β1 + β2Dt) == F (β1 + β2Dt)

(data la proprieta di simmetria della logistica)

Page 179: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.5. SOLUZIONI 179

quindi abbiamo:

p(y1 · · · yT | D1 · · · DT , β1, β2) =

∏yt=1

p(y∗t > 0)

× ∏yt=0

p(y∗t ≤ 0)

e la verosimiglianza del campionee:

L =

∏yt=1

11 + exp(−β1 − β2Dt)

∏yt=0

11 + exp(β1 + β2Dt)

lnL =∑yt=1

− ln [1 + exp(−β1 − β2Dt)]−∑yt=0

ln[(1 + exp(+β1 + β2Dt)]

lnL =∑yt=1

(β1 + β2Dt)−T∑

t=1

ln(1 + exp(β1 + β2Dt))

Le condizioni del primo ordine sono:

∂ lnL

∂β1= 0 ⇒ T1 −

T∑t=1

exp(β1 + β2Dt)1 + exp(β1 + β2Dt)

= 0

∂ lnL

∂β= 0 ⇒

∑yt=1

Dt −T∑

t=1

Dtexp(β1 + β2Dt)

1 + exp(β1 + β2Dt)= 0

Si noti cheT1 = numero di osservazioni in relazione alle qualiyt = 1b) Seεt ∼ N(0, 1), si ha:

p(yt = 1) = p(y∗t > 0) = p(εt > −β1 − β2Dt) == p(εt < β1 + β2Dt) = Φ(β1 + β2Dt)

L =

∏yt=1

Φ(β1 + β2Dt)

∏yt=0

[1− Φ(β1 + β2Dt)]

Page 180: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

180 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

lnL =∑yt=1

lnΦ(β1 + β2Dt) +∑yt=0

ln[1− Φ(β1 + β2Dt)]

e le condizioni del primo ordine sono:

∂ lnL

∂β1= 0 ⇒

∑yt=1

φ(β1 + β2Dt)Φ(β1 + β2Dt)

−∑yt=0

φ(β1 + β2Dt)1− Φ(β1 + β2Dt)

= 0

∂ lnL

∂β= 0 ⇒

∑yt=1

Dtφ(β1 + β2Dt)

1− Φ(β1 + β2Dt)−∑yt=0

Dtφ(β1 + β2Dt)

1− Φ(β1 + β2Dt)= 0

Notate che:

∂Φ(β1 + β2Dt)∂β1

=∂Φ(β1 + β2Dt)∂(β1 + β2Dt)

· ∂(β1 + β2Dt)∂β1

= Φ(β1 + β2Dt)

∂Φ(β1 + βDt)∂β

=∂Φ(β1 + βdt)∂(β1 + βdt)

· ∂(β1 + βdt)∂β

= Φ(β1 + βdt) · dt

e:Φ(·) = funzione di ripartizione di una VCN(0, 1)φ(·) = funzione di densita di una VCN(0, 1)2) Consideriamo

β1 = y − β2 x2

x2 =1T

T∑t=1

x2t

y =1T

T∑t=1

yt = p = percentuale di 1 nel campione

β2 =

T∑t=1

(yt − y)(x2t − x2)

T∑t=1

(yt − y)2=

1T

T∑t=1

(yt − y)(x2t − x2)

1T

T∑t=1

(yt − y)2=

=

1T

T∑t=1

ytx2t − x2 y − x2 y + x2 y

V (x2)=

1T

T∑t=1

ytx2t − x2 y

V (x2),

V (x2) = varianza campionaria dix2

Page 181: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.5. SOLUZIONI 181

DefinendoT1 = numero di osservazioni conyt = 1, abbiamo:

β2 =

T1

T

1T1

T∑t=1

ytx2t − x2p

V (x2)=

= px12 − p

[px0

2 + (1− p)x02

]=

=p(1− p)(x1

2 − x02)

V (x)

dovex12 e la media delle osservazioni dix2t in relazione alle qualiyt = 1, e x0

2 e lamedia delle osservazioni sux2t associate ayt = 0. Quindi β2 ha il numeratore chedipende da quanto la media dix2 e diversa tra le osservazioni conyt = 1 eyt = 0:se x1

2 = x02 allora β2 = 0. In questo caso allora il modello non spiegherebbey

sulla base dix2.3)In relazione al nostro modello tobit, abbiamo:

yt = 0, εt ∈ (−∞, µ)εt ∼ N(0, σ2)

a)quindi la verosimiglianzae:

L = (2πσ2)−T12 exp

− 12σ2

∑yt=1

(yt − µ)2

· ∏yt=0

Φ(−µ

σ) =

= (2πσ2)−T12 exp

− 12σ2

∑yt=1

(yt − µ)2

· [Φ(−µ

σ)]T0

T1 = numero di osservazioni per cuiyt > 0 eT0 = T−T1. La log verosimiglianzae:

lnL = −T1

2ln(2πσ2)− 1

2σ2

∑yt=1

(yt − µ)2 − T0 lnΦ(−µ

σ)

e le condizioni del primo ordine sono:

∂ lnL

∂µ= 0 ⇒ 1

σ2

∑yt=1

(yt − µ) +T0

σ

φ(−µ

σ)

Φ(−µ

σ)

= 0

∂ lnL

∂σ2= 0 ⇒ − T1

2σ2+

12σ4

∑yt=1

(yt − µ)2 − T0

φ(−µ

σ)

Φ(−µ

σ)

(− µ

2σ3

)= 0

Page 182: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

182 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

E’ quindi necessario utilizzare un metodo numerico per la massimizzazione dellafunzione di verosimiglianza

4) Il lavoratore partecipa seWt > WR, quindi sey∗t > 0

y∗t = Wt −WR

y∗t = (β1 −WR) + β2x2t + β3x3t + β4Dt + εt

y∗t = β∗1 + β2x2t + β3x3t + β4Dt + εt

β∗1 = (β1 −WR) = intercetta del modello

p(yt = 1) = p(y∗t > 0) = p(εt > −β1 − β2x2t − β3x3t − β4Dt) == Φ(zt)

con zt = β1 + β2x2t + β3x3t + β4Dt = x′t(1×4)

β(4×1)

La funzione di verosimiglianzae:

L =

∏yt=1

p(yt = 1)

∏yt=0

p(yt = 0)

=

=

∏yt=1

Φ(zt)

∏yt=0

[1− Φ(zt)]

=

zt = x′tβ

e la funzione di log-verosimiglianzae:

→ lnL =∑yt=1

lnΦ(zt) +∑yt=0

ln[1− Φ(zt)]

mentre le condizioni del primo ordine sono:

∂ lnL

∂β1= 0 ⇒

∑yt=1

φ(zt)Φ(zt)

+∑yt=0

φ(zt)1− Φ(zt)

= 0

Si noti che:∂Φ(zt)∂β1

=∂Φ(zt)

∂zt· ∂zt

∂β1= Φ(zt)

∂ lnL

∂βi= 0 ⇒

∑yt=1

xitφ(zt)Φ(zt)

+∑yt=0

xitφ(zt)

1− Φ(zt)= 0, i = 2, 3, 4

Page 183: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.5. SOLUZIONI 183

che deriva da:∂Φ(zt)

∂βi=

∂Φ(zt)∂zt

· ∂zt

∂βi= φ(zt) · xit

In forma vettoriale abbiamo:

∂ lnL

∂β(4×1)

= 0 ⇒∑yt=1

φ(zt)Φ(zt)

xt(4×1)

+∑yt=0

φ(zt)1− Φ(zt)

xt(4×1)

= 0

dove:∑yt=1

significa sommatoria rispetto a tutte le osservazioni conyt = 1∑yt=0

significa sommatoria rispetto a tutte le osservazioni conyt = 0

Seεt ∼ logistica, abbiamo:

F (εt) =eεt

1 + eεt

f(εt) =eεt

(1 + eεt)2

1− F (εt) =1

1 + eεt

La funzione di verosimiglianzae:

L =

∏yt=1

F (zt)

∏yt=0

[1− F (zt)]

e la funzione di log-verosimiglianzae:

lnL =∑yt=1

[zt − ln(1 + ezt)]−∑yt=0

ln(1 + ezt) =

=∑yt=1

zt −T∑

t=1

ln(1 + ezt)

Le condizioni del primo ordine per lo stimatore di massima verosimiglianza sono:

∂ lnL

∂β= 0 ⇒

∑yt=1

xt −T∑

t=1

lnezt

1 + ezt· xt = [0]

dovezt = x′tβ. Occorre utilizzare un metodo di massimizzazione numerica perricavare la stima di massima verosimiglianza.

Page 184: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

184 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

5) Si scrive

y∗(T+1)×1

=

y1...

yT

yT+1

e si aggiunge un regressoredt =0 ∀t ∈ [1, T ] e = 1 per t = T + 1 e si aggiungel’osservazioneT + 1 sullex.

y∗ = X∗(T+1)×(k+1)

β∗

(k+1)×1+ε∗

β∗ =[

βγ

]β = vettorek × 1 parametri modello di partenzaγ = parametro sulla variabile dummy puntuale.Si stima alloraβ∗ con OLS:

β∗OLS = (X∗′X∗)−1X∗′y∗

ottenendo una stima che coincide conβOLS = (X′X)−1X

′y per i primik elementi

di β, mentreγ e:

γ = yT+1 − yT+1

dove:yT+1 = x′T+1β

∗OLS

La stima della varianza dell’errore di previsionee:

V (γ) = σ2qk+1,k+1,

qk+1,k+1 = elemento sulla riga k+1, colonna k+1 diQ

Q = (X∗′X∗)−1

6) a) Costruiamo il seguente MRL:

yt = β1 + β2pt + β3zt + β4rt + β5Dt + εt

dove:

Dt =

0 fino al 3o trimestre 19901 oltre

Si stima il MRL con OLS e si verifica la significativita del coefficienteβ5 utilizzandoil test t:

tβ5 =β5√V (β5)

∼H0

t95

Page 185: (eBook - Ita - Economia Amisano, Gianni - Lezioni Di Econometria

5.5. SOLUZIONI 185

dato cheT = 100 (osservazioni trimestrali dal 1970:1 al 1994:4), k = 5.b) Si stima

yt = β1 + β2pt + β3zt + β4rt + β5Dt + β6(Dtrt) + εt

con OLS (la variabileDt e definita come al punto (a))c) Si verifica l’ipotesi congiunta:

H0 :

β5 = 0β6 = 0

contro

H1 :

β5 6= 0e/oβ6 6= 0

con un testLM, di Wald o LR, che hanno una distribuzione sottoH0 χ22 o F2,95.

d) Si specifica il seguente MRL:

yt = β1 + β2pt + β3zt + β4rt + β5Dt ++β6(Dtpt) + β7(Dtzt) + β8(Dtrt) + εt

Si stima il modello con OLS e si verifica l’ipotesi:

H0 : β5 = β6 = β7 = β8 = 0contro

H1 : β5 6= 0 e/oβ6 6= 0 e/oβ7 6= 0 e/oβ8 6= 0

con testLM, di Wald o LR. La distribuzione di riferimentoe χ24 per i test in

formaχ2 eF4,92 per il test diWald in formaF .