Universit`a di Pavia -...

34
Universit` a di Pavia Econometria Minimi quadrati ordinari Interpretazione geometrica Eduardo Rossi Universit` a di Pavia

Transcript of Universit`a di Pavia -...

Universita di Pavia

Econometria

Minimi quadrati ordinari

Interpretazione geometrica

Eduardo Rossi

Universita di Pavia

Introduzione

L’econometria si interessa all’analisi dei dati economici.

I dati economici provengono esclusivamente da fonti non sperimentali.

Non possiamo come economisti ripetere l’esperimento, cioe valutare

le reazioni a due diversi stimoli, per misurarne l’effetto.

Possiamo pero esaminare come variano tra individui eterogeni, cioe

con diversi caratteri (scolarita, eta, razza, area geografica di residenza,

ecc.), i redditi da lavoro individuali. Per lo stesso periodo di tempo o

per un certo numero di periodi.

1

Introduzione

Il modello lineare di regressione multipla e usato per studiare le re-

lazioni tra la variabile dipendente e diverse variabili indipendenti (es-

plicative).

yt = β1x1t + . . . + βKxKt + ǫt (1)

β1, . . . βK fixed but unknown parameters, ǫt ignoto, yt regredendo,

v.casuale, xkt regressore, covariata casuale. In genere, uno dei re-

gressori e fissato uguale ad 1,per esempio il primo: x1t = 1, ∀t; con

β1 intercetta (o costante) dell’equazione.

2

Le osservazioni possono essere:

• serie storiche, tempi successivi (anni, trimestri, mesi, settimane,

ecc.)

• cross-section, unita economiche individuali (individui, famiglie, im-

prese, ecc.) osservate allo stesso istante di tempo.

• Cross-section di unita individuali osservate un certo numero di

periodi di tempo (panel data).

3

Introduzione

Si suppone che le osservazioni siano generate da un esperimento ca-

suale, prima del quale i loro valori sono ignoti. In verita, la nozione di

esperimento e piuttosto vaga e fa riferimento all’atto di raccolta dei

dati.

4

Il metodo dei minimi quadrati

I caratteri variano simultaneamente tra gli individui. Il metodo dei

minimi quadrati ordinari e un modo per scomporre le differenze

nella variabile dipendente fra diverse caratteristiche osservate (variabili

esplicative) per le diverse unita nel campione. Il metodo dei minimi

quadrati orinari (in inglese Ordinary Least Squares, OLS) e usato

per stimare il valore di βk, k = 1, . . . , K. Questi sono scelti in modo

tale che siano la soluzione al seguente problema:

minβ1,...,βK

N∑

t=1

[yt − (β1x1t + β2x2t + . . . + βKxKt)]2

Il termine ”minimi quadrati” si riferisce alla minimizzazione della

somma delle differenze al quadrato. [yt − (β1x1t + . . . + βKxKt)], i

residui.

5

La funzione obiettivo

f(β1, . . . , βK) =N∑

t=1

[yt − (β1x1t + β2x2t + . . . + βKxKt)]2 (2)

e la sum of squared residuals (somma dei quadrati dei residui). Quando

i residui sono valutati in β1, . . . , βK i residui sono detti fitted residuals

(residui fittati, o residui della regressione).

Consideriamo il caso in cui l’unica variabile esplicativa e la costante:

K = 1 e x1t = 1,∀t. OLS trova il valore di β1 che e il piu vicino a yt nel

senso della somma dei qudrati dei residui. OLS e la minimizzazione

di una funzione quadratica in β1 e il risultato e la media:

β1 = argminN∑

t=1

(yt − β1)2 =

∑Nt=1 yt

N

6

Notazione

β = [β1, β2, . . . , βK]′ (K × 1) (3)

xt =

x1t...

xKt

(K × 1)

Notazione matriciale

y =

y1...

yN

(N × 1)

X =

x′1...x′N

=

x11 x12 . . . x1K

x21 x22 . . . x2K... ... ...

xN1 xN2 . . . xNK

(N × K)

7

x′1β...

x′Nβ

= Xβ

Il vettore y raccoglie tutte le osservazioni della variabile dipendente.

La matrice X raccoglie le osservazioni sulle variabili esplicative. Ogni

colonna di X contiene tutte le osservazioni per la singola variabile

esplicativa.

8

Lo stimatore dei minimi quadrati (OLS)

Stimatore = E’ una regola per calcolare una stima (un numero) dai

dati campionari.

Il metodo dei minimi quadrati risolve

β ≡ argminβ

(y − Xβ)′(y − Xβ)

Definiamo

S(β) ≡ (y − Xβ)′(y − Xβ)

9

∂S(β)

∂β=

∂(y′y − 2β′X′y + β′X′Xβ

)

∂β

=∂

(−2β′X′y + β′X′Xβ

)

∂β

= −2∂β′

∂βX′y +

∂(β′X′Xβ

)

∂β

= −2X′y + 2X′Xβ

10

∂S(β)

∂β= −2X′y + 2X′Xβ = 0 (4)

Le equazioni normali

X′y − X′Xβ = 0 (5)

Lo stimatore OLS e

β =(X′X

)−1X′y (6)

Poiche la funzione stimata e lineare nei coefficienti, gli OLS ci danno

dei coefficienti stimati che sono somme ponderate delle {yt}. Le stime

OLS sono funzioni lineari della variabile dipendente. Questa linearita

in {yt} semplifica l’analisi statistica degli OLS.

11

L’interpretazione geometrica degli OLS

Lo spazio delle colonne di X, Col(X), e il sottospazio lineare di RN

coperto dalle combinazioni lineari dei vettori colonna di X:

Col(X) ≡ {z ∈ RN |z = Xα, α ∈ R

k}

La procedura di stima OLS trova il vettore in Col(X), µ, che e piu

vicino a y.

µ e detta proiezione di y.

Il metodo OLS risolve:

β ≡ argminβ

(y − Xβ)′(y − Xβ) (7)

12

La somma delle deviazioni al quadrato tra gli elementi di di y e Xβ e

il quadrato della distanza Euclidea fra y e Xβ:

(y − Xβ)′(y − Xβ) =N∑

t=1

(yt − x′tβ)2 =‖ y − Xβ ‖2

13

Procedura in due passi:

1. Trovare il punto in un sottospazio che e il piu vicino ad un punto

che non si trova il quel sottospazio. Il sottospazio e l’insieme

dei possibili vettori reali N dimensionali Xβ che puo essere creato

cambiando β e questo sottospazio e lo spazio delle colonne di X.

µ ≡ arg minµ∈Col(X)

‖ y − µ ‖2

2. Trovare un β che sia soluzione a:

µ = Xβ

14

La soluzione al primo passo e unica mentre ci possono essere molte

soluzione al secondo problema. Sia β una soluzione di (7) e sia µ =

Xβ.

1. Il vettore dei valori fittati µ e l’unica proiezione ortogonale di y su

Col(X).

2. Il vettore dei residui fittati y − µ e ortogonale a Col(X)

3. Se dim[Col(X)] = K, allora (7) ha una soluzione unica:

β = (X′X)−1X′µ′

15

Tre idee base:

1. La regressione OLS significa minimizzare la distanza al quadrato

tra il vettore osservato y e un vettore di regressione Xβ che ap-

partiene a Col(X).

2. Il vettore dei valori fittati µ = Xβ e la proiezione ortogonale su

Col(X). Il vettore dei residui (y− µ) e perpendicolare a µ e ad ogni

altro vettore in Col(X).

3. If the dim[Col(X)] = K allora β e unico.

16

La dipendenza lineare fra le variabile esplicative non ha un ruolo fonda-

mentale su quanto bene una regressione lineare spiega y. La distanza

dipende solo da µ. Caso Speciale: possiamo costruire una soluzione

direttamente. Mostriamo che

µ = Xβ = X(X′X)−1X′y

solo quando le colonne di X sono linearmente indipendenti.

||y − µ||2 = ||y − µ + µ − µ||2

= ||y − µ||2 + ||µ − µ||2 + 2(y − µ)′(µ − µ)

ma

(y − µ)⊥(µ − µ) ⇔ (y − µ)′(µ − µ) = 0

17

Teorema di Pitagora

||y − µ||2 = ||y − µ||2 + ||µ − µ||2

Se c’e un µ ∈ Col(X) tale che

X′(y − µ) = 0

allora per tutti gli altri µ ∈ Col(x)

µ′(y − µ) = 0

(µ − µ)′(y − µ) = 0

||y − µ||2 = ||y − µ||2 + ||µ − µ||2

≥ ||y − µ||2

18

Poiche y − µ e ortogonale a Col(X), µ e vicino a y almeno quanto

un qualunque µ in Col(X). Therefore µ is one solution to the OLS

(minimum distance) problem

µ = arg minµ∈Col(X)

||y − µ||2

La soluzione e unica perche per ogni altra possibile soluzione µ deve

essere che

||y − µ||2 = ||y − µ||2

poiche nessun altro µ e piu vicino a µ.

19

Il teorema di Pitagora implica che

||µ − µ||2 = 0 ⇒ µ = µ

La condizione di ortogonalita caratterizza completamente il vettore

OLS dei valori fittati µ.

Costruiamo µ per il caso

X′(y − Xβ) = 0

e mostriamo che la soluzione unica e

X′(y − Xβ) = 0

X′Xβ − X′y = 0

β = (X′X)−1X′y

dato che X′X e nonsingolare.

20

La soluzione per µ segue

µ = Xβ = X(X′X)−1X′y

β e µ hanno una relazione 1-to-1. Possiamo anche ottenere β da µ:

premoltiplicando per (X′X)−1X′

(X′X)−1X′µ = (X′X)−1X′Xβ = β

21

Teorema Proiezione

Sia y ∈ RN e S ⊆ RN un sottospazio lineare. Allora µ ∈ S e una

soluzione al problema

minµ∈S

||y − µ||2

se e solo se (y − µ)⊥S. Inoltre, µ e la soluzione unica ed esiste.

22

Il teorema identifica il meccanismo di minimizzazione che significa

trovare un µ ∈ Col(X) tale che

y − µ ⊥ Col(X)

Secondo, il teorema chiarisce che Col(X) determina l’ottimale µ.

23

Proiettori ortogonali

Per ogni y, c’e un’unica µ,

µ = argminµ∈S

||y − µ||2

chiamata proiezione di y. La proiezione ortogonale di y e sempre una

trasformazione lineare di y:

µ = Py

P proiettore ortogonale. Nel caso generale che S = Col(X) e X sia di

rango-colonna pieno, la matrice

PX ≡ X(X′X)−1X′

µ = PXy

e la trasformazione lineare di y su Col(X) che produce µ.

24

PX ha due proprieta:

• non modifica i vettori in Col(X)

z ∈ Col(X) ⇒ PXz = z

• trasforma i vettori ortogonali a Col(X) nel vettore zero.

z ⊥ Col(X) ⇒ PXz = 0

25

Prova

∀z ∈ Col(X) esiste un α : z = Xα

PXz = PXXα = X(X′X)−1X′Xα = Xα = z

Se z⊥Col(X) : z′X = 0,∀X ∈ Col(X) cosicche X′z = 0 e

PXz = X(X′X)−1X′z = 0

26

Scomposizione ortogonale

∀z ∈ RN , possiamo scomporre z univocamente nel vettore somma

z1 + z2 dove z1 ∈ Col(X) e z2 ∈ Col⊥(X) ≡ {z ∈ RN |X′z = 0}. Dove

Col⊥(X) e il complemento ortogonale.

Complemento ortogonale

Il sottospazio lineare di vettori S⊥ , ortogonale al sottospazio S ⊆ V:

S⊥ = {v ∈ V|u′v = 0,∀u ∈ S}

e chiamato complemento ortogonale di S. E’ equivalente a scrivere

v ∈ S⊥ come v⊥S. Notiamo che se v ∈ S ∩ S⊥ allora v′v = 0 tale che

v deve essere il vettore zero. In altre parole S ∩ S⊥ = {0}

27

Proiezione ortogonale

Sia S ⊆ RN (sottospazio lineare) tale che per ogni z ∈ RN c’e un unico

z1 ∈ S ed un unico z2 ∈ S⊥ tale che z = z1 + z2. Allora la funzione

da RN a S⊥ che associa ogni z con il suo corrispondente z1 e una

proiezione ortogonale.

Quando S = Col(X) allora PXz = z1 e la proiezione ortogonale di z su

Col(X). Solo la componente di z in Col(X) sopravvive alla premolti-

plicazione per PX.

La proiezione ortogonale da RN su un sottospazio S e una trasfor-

mazione lineare. (La proiezione ortogonale di una combinazione lin-

eare di vettori uguaglia la combinazione lineare delle proiezioni ortog-

onali dei singoli vettori).

28

Proiettore ortogonale

Ogni proiezione ortogonale da RN in un sottospazio S puo essere

rappresentata da una matrice P, chiamata Proiettore ortogonale.

Sia S ⊆ RN , ∀z ∈ RN c’e un unico z1 ∈ S ed un unico z2 ∈ S⊥ tale che

z = z1 + z2. Allora una matrice (N × N) P tale che Pz = z1 e un

proiettore ortogonale su S.

Un proiettore ortogonale preserva la componente di un vettore in un

sottospazio S e annulla la componente nel sottospazio complementare

ortogonale S⊥. Se P e un proiettore ortogonale su un sottospazio di

RN , allora P e unica.

29

Proprieta dei Proiettori ortogonali

1. Simmetria

PX = X(X′X)X′ = [X(X′X)X′]′ = P′X

2. Idempotenza

PXPX = [X(X′X)X′][X(X′X)X′] = X(X′X)X′ = PX

3. Semidefinitezza positiva

Per ogni w ∈ RN

w′PXw = w′PXPXw = w′P′XPXw = (PXw)′(PXw) = ||PXw||2 ≥ 0

30

Osserviamo che

z ∈ Col⊥(X) ⇒ (I − PX)z = z

z ∈ Col(X) ⇒ (I − PX)z = 0

cioe MX = (I − PX) e un proiettore ortogonale su Col⊥(X), il com-

plemento ortogonale di Col(X).

31

Multicollinearita esatta

Se esiste un vettore α ∈ RK tale che Xα = 0 allora le colonne di X sono

linearmente indipendenti. Questa situazione e detta multicollinearita

esatta.

Un unico µ esite anche quando X e di rango ridotto. Quando X

e (X′X) sono singolari non possiamo usare PX = X(X′X)−1X′ per

trovare PX.

Quando dim[Col(X)] < K, possiamo trovare PX applicando la formula

ad ogni sottoinsieme linearmente indipendente delle colonne di X cioe

una base per Col(X).

32

Indichiamo con PX il proiettore ortogonale su Col(X) e sia X1 una

matrice composta da un sottoinsieme linearmente di colonne di X tale

che

Col(X1) = Col(X)

allora

PX = X1(X′1X1)

−1X′1

33