Regressione lineare semplice: inferenza -...

Regressione lineare semplice: inferenza

Eduardo Rossi2

2Universita di Pavia (Italy)

Marzo 2013

Rossi Regressione lineare semplice Econometria - 2013 1 / 60

Outline

1 Introduzione

2 Verifica di ipotesi

3 Intervalli di confidenza

4 Variabili binarie

5 Omoschedasticita

6 Errori standard con omoschedasticita

7 Teorema di Gauss-Markov


Introduzione

Sommario

L’errore standard di β1

Verifiche di ipotesi concernenti β1

Intervalli di confidenza per β1

La regressione quando X e variabile binaria

Eteroschedasticita e omoschedasticita

Efficienza OLS e distribuzione t di Student


Introduzione

Sommario

Vogliamo conoscere la pendenza della retta di regressione. Disponiamodei dati di un campione, percio sussiste l’incertezza dovuta alcampionamento. Per raggiungere l’obiettivo si procede in cinquepassaggi:

Definire la popolazione oggetto di interesse

Fornire uno stimatore di questa popolazione

Derivare la distribuzione campionaria dello stimatore (cio richiedealcune assunzioni). In grandi campioni questa distribuzionecampionaria sara normale per il TLC.

La radice quadrata della varianza stimata della distribuzionecampionaria e l’errore standard (SE) dello stimatore

Utilizzare SE per costruire statistiche- t (per le verifiche di ipotesi)e intervalli di confidenza.


Introduzione

L’oggetto di interesse: β1

Yi = β0 + β1Xi + ui i = 1, 2, . . . , n

β1 =∆Y

∆Y

per una variazione autonoma in X (effetto casuale). Sotto leassunzioni degli OLS:

1 E[ui|Xi] = 0 (prima assunzione)

2 {Yi, Xi}, i = 1, 2, . . . , n sono i.i.d. (seconda assunzione).

3 X, Y hanno momenti quarti finiti non nulli (terza assunzione)


Introduzione

La distribuzione campionaria di β1

Sotto le assunzioni dei minimi quadrati, per n grande, la distribuzionedi β1 e approssimata da

β1 ≈ N(β1,

σ2v

n(σ2X)2

)


Verifica di ipotesi

Verifica di ipotesi ed errore standard

L’obiettivo e di verificare un’ipotesi, quale β1 = 0, utilizzando i dati -per determinare sperimentalmente se l’ipotesi (nulla) e corretta.

Impostazione generale

Ipotesi nulla e alternativa bilaterale:

H0 : β1 = β1,0 vs. H1 : β1 6= β1,0

dove β1,0 e il valore ipotizzato sotto l’ipotesi nulla.

Ipotesi nulla e alternativa unilaterale:

H0 : β1 = β1,0 vs. H1 : β1 < β1,0


Verifica di ipotesi

Soluzione generale: costruire la statistica-t

In generale:

t =stimatore− valore ipotizzato

errore standard dello stimatore

dove l’SE dello stimatore e la radice quadrata di uno stimatoredella varianza dello stimatore.

Per verificare la media di Y :

t =Y − µY,0sY /√n

Per verificare β1

t =β1 − β1,0

SE(β1),

dove SE(β1) e la radice quadrata di uno stimatore della varianzadella distribuzione campionaria di β1.


Verifica di ipotesi

Formula per calcolare lo SE(β1)

Si ricordi l’espressione per la varianza di (n grande):

Var [β1] =Var [(Xi − µX)ui]

n(σ2X)2

,

dove vi = (Xi − µX)ui. Lo stimatore della varianza di β1 sostituisce ivalori di popolazione ignoti di σ2

v e σ2X con gli stimatori ricavati dai

dati:

σ2β1

=1

n

stimatore di σ2v

(stimatore di σ2X)2

=1

n

1n−2

∑i v

2i

1n

∑i(Xi − X)2


Verifica di ipotesi

Formula per calcolare lo SE(β0)

Dato

Var[β0] =Var[Hiui]

n[E(H2i )]2

Hi = 1−[

µXE(X2

i )

]Xi

lo stimatore

σ2β0

=1

n

1n−2

∑i=1 H

2i u

2i(

1n

∑ni=1 H

2i

)2

dove

Hi = 1−

[X

1n

∑i=1X

2i

]Xi


Verifica di ipotesi

Formula per calcolare lo SE

E’ leggermente complicato, tuttavia:

lo e meno di quanto sembri. La varianza Var[v] e stimata dalnumeratore, mentre Var[X]2 e stimata dal denominatore.

Perche la correzione dei gradi di liberta n− 2? Perche sono statistimati due coefficienti β0 e β1.

SE(β1) viene calcolato dal software di regressione


Verifica di ipotesi

Riepilogo

Per verificare:H0 : β1 = β1,0 vs H1 : β1 6= β1,0

Costruire la statistica-t

t =β1 − β1,0

SE(β1)=β1 − β1,0√

σ2β1

Si rifiuta al livello di significativita del 5% se |t| > 1, 96.

Il valore p e p = Pr[|t| > |tact|] = probabilita nell’area delle codedella normale, cioe > |tact|;si rifiuta al livello di significativita del 5% se il valore p e < 5%.

Questa procedura si affida all’approssimazione di n grande che β1

sia distribuito normalmente; in generale n = 50 e grandeabbastanza per un’approssimazione eccellente.


Verifica di ipotesi

Esempio: Punteggi nei test e STR dati della California

Regressione lineare stimata:

Test Score = 698, 9− 2, 28STR

Il software di regressione segnala gli errori standard:

SE(β0) = 10, 4 SE(β1) = 0, 52

Verifica dell’ipotesi nulla β1,0 = 0. Rapporto t

t =β1 − β1,0

SE(β1)=−2, 28− 0

0, 52= −4, 38

Il livello di significativita bilaterale dell’1 % e 2,58, perciorifiutiamo l’ipotesi nulla al livello di significativita dell’1%.

In alternativa, possiamo calcolare il valore p...

Il valore p basato sull’approssimazione normale standard con ngrande alla statistica t e 0,00001 (10–5)


Verifica di ipotesi

P-value


Intervalli di confidenza

Intervalli di confidenza per β1

Si ricordi che un intervallo di confidenza al 95% equivale a:

la serie di punti che non puo essere rifiutata al livello disignificativita del 5%;

una funzione polidroma (un intervallo funzione dei dati) checontiene il reale valore del parametro il 95% delle volte neicampioni ripetuti.

Poiche la statistica t per β1 e N(0, 1) in grandi campioni, lacostruzione di un intervallo di confidenza al 95% per β1 equivale alcaso della media campionaria:

intervallo di confidenza al 95% per β1

{β1 ± 1, 96× SE(β1)}



Esempio di intervallo di confidenza

Retta di regressione stimata

Test Score = 698, 9− 2, 28STR

SE(β0) = 10, 4 SE(β1) = 0, 52

Intervallo di confidenza al 95% per β1:

{β1 ± 1, 96SE(β1)} = {−2, 28± 1.96× 0.52} = {−3, 30;−1, 26}

Le due affermazioni seguenti sono equivalenti:

L’intervallo di confidenza al 95% non include lo zero;

L’ipotesi β1 = 0 e rifiutata al livello del 5%.



Riepilogo di inferenza statistica

Stima:

Gli stimatori OLS hanno approssimativamente distribuzionicampionarie normali in grandi campioni

Verifica:

H0 : β1 = β1,0 vs β1 6= β1,0 (β1,0 e il valore di β1 sotto H0)

T (β1 − β1,0)/SE(β1)

valore-p = area sotto la normale standard al di fuori di |tact| (ngrande)

Intervalli di confidenza:

l’intervallo di confidenza al 95% per β1 e {β1 ± 1, 96× SE(β1)}Questo e l’insieme di β1 che non e rifiutato al livello del 5%

L’IC al 95% contiene il β1 reale nel 95% di tutti i campioni.


Variabili binarie

La regressione quando X e una variabile binaria

A volte un regressore e binario:

X =

{1 se classe piccola0 altrimenti

X =

{1 femmina0 maschio

X =

{1 se trattato (farmaco sperimentale)0 altrimenti

I regressori binari sono a volte chiamati variabili dummy.

Fin qui β1 e stato chiamato ”pendenza” ma cio non ha senso se lavariabile X e binaria.

Come interpretiamo la regressione con un regressore binario?


Variabili binarie

Interpretazione delle regressioni con un regressorebinario

Yi = β0 + β1Xi + ui

Quando Xi = 0:Yi = β0 + ui

E[Yi|Xi = 0] = β0

quando Xi = 1Yi = β0 + β1 + ui

E[Yi|Xi = 1] = β0 + β1

quindiβ1 = E[Yi|Xi = 1]− E[Yi|Xi = 0]

e pari alla differenza tra medie.


Variabili binarie

Esempio

Sia

Di =

{1 se STR ≤ 200 se STR > 20

Regressione OLS:

Test Score = 650(1,3)

+ 7, 4(1,8)×Di

Dimensione classe Punteggio medio Y Dev.Stand. (sY ) N

Piccola STR ≤ 20 657,4 19,4 238Grande STR > 20 650 17,9 182

Differenza tra medie:

Ypiccola − Ygrande = 657, 4− 650 = 7, 4

SE =

√s2p

np+s2g

ng=

√19, 42

238+

17, 92

182= 1, 8


Variabili binarie

Riepilogo: regressione quando la variabile X e binaria

β0 media di Yi quando X = 0

β0 + β1 = media di Yi quando X = 1

β1 = differenza tra medie, X =1 meno X = 0

SE(β1) ha l’interpretazione consueta

statistica-t, intervalli di confidenza costruiti come di consueto.

Questo e un altro modo (facile) per eseguire l’analisi delladifferenza tra medie

La formulazione della regressione e particolarmente utile quandoabbiamo regressori supplementari.


Omoschedasticita

Eteroschedasticita e omoschedasticita

Conseguenze dell’omoschedasticita

Implicazioni per il calcolo degli errori standard

Che cosa significano questi due termini?

Se Var[u|X = x] e costante - ossia se la varianza delladistribuzione di u condizionata a X non dipende da X –allora u edetto omoschedastico. In caso contrario, u e eteroschedastico.


Omoschedasticita

Esempio: etero/omoschedasticita nel caso di unregressore binario

Errore standard quando le varianze sono ineguali:

SE =

√s2p

np+s2g

ng

Errore standard quando le varianze sono uguali:

SE = sp

√1

np+

1

ng

Vedi SW, Paragrafo 3.6

s2p =

(ns − 1)s2s + (ng − 1)s2

g

np + ng − 2

sp stimatore di σ2 quando σ2p = σ2

g .Varianze uguali = omoschedasticitaVarianze ineguali = eteroschedasticita


Errori standard con omoschedasticita

Omoschedasticita in un’immagine:

E[u|X] = 0 (u soddisfa l’assunzione dei minimi quadrati n. 1)

La varianza di u non dipende da x



Un esempio con dati reali dall’economica del lavoro

La retribuzione oraria media rispetto agli anni di istruzione (fonte dati:Current Population Survey):Eteroschedasticita o omoschedasticita?



Quale assunzione sulla varianza degli errori?

Le tre assunzioni dei minimi quadrati:

E[u|X] = 0

(Xi, Yi), i = 1, 2, . . . , n, sono i.i.d.

Gli outlier sono rari

Eteroschedasticita e omoschedasticita concernono Var[u|X]. Poichenon abbiamo assunto esplicitamente gli errori omoschedastici,abbiamo ammesso implicitamente l’eteroschedasticita.



Errori omoschedastici-Var[β1]

Si puo dimostrare che l’OLS ha la varianza minore tra gli stimatorilineari in Y... un risultato chiamato teorema di Gauss-Markov.La formula per la varianza di β1 e per l’errore standard OLS sisemplifica: se

Var[ui|Xi = x] = σ2

Var[β1] =V ar[v]

[V ar(Xi)]2=

1

n

σ2v

(σ2X)2

=σ2u

nσ2X

dato

Var[(Xi − µX)ui] = E{

[vi − E(vi)]2}

= E[v2i ]

= E[(Xi − µX)2u2i ]

= E[(Xi − µX)2E(u2i |Xi)]

= σ2Xσ

2u

da cui segue

σ2β1

=σ2u

nσ2X



Errori omoschedastici-Var[β0]

La formula per la varianza di β0 nel caso eteroschedastico

Var[β0] =Var[Hiui]

n[E(H2i )]2

Hi = 1−[

µXE(X2

i )

]Xi

σ2β0

dato che

E[Hiui] = E[HiE(ui|Xi)] = 0

Var[Hiui] = E[H2i u

2i ]

= E[H2i E(u2

i |Xi)]

= σ2uE[H2

i ]



Errori omoschedastici–Var[β0]

Ora

H2i = 1 +

[µX

E(X2i )

]X2i − 2

[µX

E(X2i )

]X2i

= 1−[

µXE(X2

i )

]X2i

= 1−µ2X

E(X2i )

=E(X2

i )− µ2X

E(X2i )

=σ2X

E(X2i )

segue che

σ2β0

=1

n

E(X2i )

σ2X

σ2u



Due formule per gli errori standard

Errori standard nel caso di omoschedasticita:

σβ1=

√(1n

∑iX

2i

)s2u∑

i(Xi − X)2

σβ1=

√s2u∑

i(Xi − X)2

Errori standard per l’omoschedasticita sono validi solo se gli errorisono omoschedastici.Gli errori standard consueti – per differenziare i due, econvenzione chiamarli errori standard robustiall’eteroschedasticita, poiche sono validi a prescinderedall’eteroschedasticita o meno degli errori.Il principale vantaggio degli errori standard per l’omoschedasticitapura e che la formula e piu semplice. Lo svantaggio, pero, e che laformula e corretta solo se gli errori sono omoschedastici.



Implicazioni pratiche...

La formula dell’omoschedasticita pura per l’errore standard di e laformula “robusta all’eteroschedasticita” sono diverse - quindi, ingenerale, si ottengono errori standard diversi utilizzando formuledifferenti.

Gli errori standard per l’omoschedasticita pura sonol’impostazione predefinita nei software di regressione - a voltel’unica impostazione (per esempio in Excel). Per ottenere gli erroristandard ”robusti all’eteroschedasticita” generale occorremodificare l’impostazione di default.

Se non si modifica l’impostazione di default e vi eeteroschedasticita, gli errori standard (e la statistica-t egli intervalli di confidenza) saranno errati - generalmente,gli SE per l’omoschedasticita pura sono troppo piccoli.



Il punto essenziale

Se gli errori sono omoschedastici o eteroschedastici e si utilizzanoerrori standard robusti all’eteroschedasticita, va bene

Se gli errori sono eteroschedastici e si utilizza la formuladell’omoschedasticita pura per gli errori standard, gli erroristandard saranno errati (lo stimatore dell’omoschedasticita puradella varianza di β1 e incoerente in presenza di eteroschedasticita).

Le due formule coincidono (quando n e grande) nel caso speciale diomoschedasticita

Quindi si dovrebbero sempre utilizzare errori standard robustiall’eteroschedasticita.



Fondamenti teorici dei minimi quadrati ordinari

Abbiamo gia appreso molto sugli stimatori dei minimi quadratiordinari: lo stimatore OLS e non distorto e consistente; abbiamouna formula per gli errori standard robusti all’eteroschedasticita epossiamo costruire intervalli di confidenza e statistiche di test.

Una buona ragione per utilizzare i minimi quadrati ordinari eanche l’impiego universale, percio gli altri saranno in grado dicapire cio che fate. In effetti, l’OLS e il linguaggio dell’analisi diregressione, e se utilizzate uno stimatore diverso, parlerete unlinguaggio differente.


Teorema di Gauss-Markov

Eppure potreste ancora chiedervi...

Tutto quanto detto e davvero una buona ragione per utilizzareOLS? Non esistono altri stimatori che potrebbero essere migliori –in particolare che potrebbero avere una varianza inferiore?

Inoltre, che ne e stato della distribuzione t di Student?

Ora risponderemo a queste domande – ma per farlo abbiamobisogno di assunzioni piu forti delle tre relative ai minimi quadratiche abbiamo gia visto.



Le assunzioni dei minimi quadrati estese

Consistono nelle tre assunzioni dei minimi quadrati, piu altre due:1 E[ui|Xi] = 0, i = 1, 2, . . . , n;2 (Xi, Yi), i = 1, 2, . . . , n, sono i.i.d.;3 Gli outlier sono rari E[Y 4

i ] <∞, E[X4i ] <∞;

4 ui e omoschedastico5 ui ha distribuzione N(0, σ2)

Le assunzioni 4 e 5 sono piu restrittive – percio si applicano a unnumero inferiori di casi pratici. Tuttavia, facendo questeassunzioni, determinati calcoli matematici si semplificano e sipossono dimostrare risultati piu robusti –che valgono se taliassunzioni aggiuntive sono vere.

Iniziamo con una discussione sull’efficienza dello stimatore OLS



Efficienza dello stimatore OLS, parte I: il teorema diGauss-Markov

Nelle assunzioni dei minimi quadrati ordinari estese 1-4 (le tre di base,piu l’omoschedasticita), β1 ha la varianza minima tra tutti gli stimatorilineari (stimatori che sono funzioni lineari di Y1, Y2, . . . , Yn. Questo e ilteorema di Gauss-Markov.



Il teorema di Gauss-Markov

Date le condizioni

1 E[ui|X1, . . . , Xn] = 0, i = 1, 2, . . . , n

2 Var[ui|X1, . . . , Xn] = σ2u <∞

3 E[uiuj |X1, . . . , Xn] = 0, i 6= j, i, j = 1, 2, . . . , n

Le condizioni di G-M derivano dalle tre assunzioni degli OLS

1 Poiche le osservazioni sono i.i.d. (A.2)E[ui|X1, . . . , Xn] = E[ui|Xi] = 0, i = 1, 2, . . . , n

2 L’A.3 (monenti quarti finiti) assicura che σ2u <∞

3 Per l’A.1 E[uiuj |X1, . . . , Xn] = E[uiuj |Xi, Xj ],∀i 6= j,i, j = 1, 2, . . . , n. Per la stessa A.2E[uiuj |Xi, Xj ] = E[ui|Xi]E[uj |Xj ] = 0, ∀i 6= j



Il teorema di Gauss-Markov

β1 e uno stimatore lineare:

β1 =

∑ni=1(Xi − X)Yi∑ni=1(Xi − X)2

=∑i

aiYy

dove

ai =(Xi − X)∑ni=1(Xi − X)2

i pesi ai, i = 1, 2, . . . , n dipendono da X1, . . . , Xn ma non daY1, Y2, . . . , Yn, lo stimatore OLS hatβ1 e uno stimatore lineare.Sotto le condizioni di G-M lo stimatore OLS e

condizionatamente non distorto

la varianza della distribuzione di β1 condizionata a X1, X2, . . . , Xn

Var[β1|X1, . . . , Xn] =σ2u∑

i=1(Xi − X)2



Il teorema di Gauss-Markov-Prova

Per ogni stimatore lineare del tipo

β1 =

n∑i=1

aiYi

β1 = β0

(n∑i=1

ai

)+ β1

(n∑i=1

aiXi

)+

n∑i=1

aiui

Per la prima condizione

E[

n∑i=1

aiXi|X1, . . . , Xn] =

n∑i=1

aiE[ui|X1, . . . , Xn] = 0

E[β1|X1, . . . , Xn] = β0

(n∑i=1

ai

)+ β1

(n∑i=1

aiXi

)Rossi Regressione lineare semplice Econometria - 2013 39 / 60



Affinche β1 sia condizionamente non distorto:

E[β1|X1, . . . , Xn] = β0

(n∑i=1

ai

)+ β1

(n∑i=1

aiXi

)= β1

deve valere chen∑i=1

ai = 0

n∑i=1

aiXi = 1

da cui

β1 − β1 =n∑i=1

aiui




Sotto le condizioni del Teorema, la varianza condizionale di β1

Var[β1|X1, . . . , Xn

]= Var

[n∑i=1

aiui|X1, . . . , Xn

]=∑i

∑j

aiaj Cov [ui, uj |X1, . . . , Xn]

Applicando la seconda e terza condizione di G-M, i termini incrociatinella doppia sommatoria si annullano

Var[β1|X1, . . . , Xn] = σ2u

n∑i=1

a2i

inoltre

Var[β1|X1, . . . , Xn] = σ2u

n∑i=1

a2i




Siaai = ai + di

quindi ∑i

a2i =

∑i

(ai + di)2 =

∑i

a2i + 2

∑i

aidi +∑i

d2i

∑i

aidi =

∑i(Xi − X)di∑i(Xi − X)2

=

∑i diXi − X

∑i di∑

i(Xi − X)2

=

[(∑aiXi −

∑aiXi)− X (

∑ai −

∑ai)]∑

i(Xi − X)2

= 0




Pertanto,

σ2u

∑i

a2i = σ2

u

∑i

a2i + σ2

u

∑i

d2i

= Var[β1|X1, . . . , Xn] + σ2u

∑i

d2i

segue che

Var[β1|X1, . . . , Xn] = σ2u

n∑i=1

a2i = Var[β1|X1, . . . , Xn] + σ2

u

∑i

d2i

Var[β1|X1, . . . , Xn]−Var[β1|X1, . . . , Xn] = σ2u

∑i

d2i




Lo stimatore β1 ha varianza condizionata maggiore di quella di β1 se die diverso da zero per ogni i = 1, 2, . . . , n. Ma se di = 0,∀i, allora

ai = ai e β1 = β1

Conclusione: OLS e BLUE (best linear unbised estimator)



Efficienza dello stimatore OLS, parte II

In tutte e cinque le assunzioni dei minimi quadrati estese -compresa la distribuzione normale degli errori - β1 ha la varianzapiu piccola di tutti gli estimatori consistenti (funzioni lineari o nonlineari di Y1, Y2, . . . , Yn), per n→∞.

Questo e un risultato assai sorprendente - afferma che, se (inaggiunta alle assunzioni dei minimi quadrati 1-3) gli errori sonoomoschedastici e normalmente distribuiti, OLS e la scelta migliorerispetto a qualsiasi altro stimatore consistente. E poiche unostimatore che non sia consistente e una scelta scadente, cio affermache l’OLS e davvero la miglior scelta che si possa fare - se valgonotutte e cinque le assunzioni dei minimi quadrati estese. (Ladimostrazione di questo risultato va oltre l’ambito di questo corsoe non e fornita nel testo).



Alcuni aspetti critici di OLS

I risultati precedenti sono impressionanti, tuttavia tali risultati - elo stimatore OLS - hanno limitazioni importanti.

Il teorema di G-M non e poi cosı avvincente:

La condizione di omoschedasticita spesso non regge(l’omoschedasticita e speciale)Il risultato vale solo per gli stimatori lineari - solo un piccolosottoinsieme di stimatori (ulteriori informazioni a breve)

Il risultato di ottimalita piu robusto (”parte II” precedente)richiede errori normali omoschedastici – cosa non plausibile nelleapplicazioni (si pensi ai dati delle retribuzioni orarie!)



Inferenza con omoschedasticita e gaussianita

1 E[ui|Xi] = 0, i = 1, 2, . . . , n;

2 (Xi, Yi), i = 1, 2, . . . , n, sono i.i.d.;

3 Gli outlier sono rari E[Y 4i ] <∞, E[X4

i ] <∞;

4 ui e omoschedastico

5 ui ha distribuzione N(0, σ2)

Se tutte le cinque assunzioni valgono, allora:

β0 e β1 sono normalmente distribuiti per tutti gli n

la statistica-t ha una distribuzione t di Student con n− 2 gradi diliberta, questo vale esattamente per tutti gli n.



Distribuzione campionaria gaussiana di β1

β1 − β1 =

∑i(Xi − X)ui∑i(Xi − X)2

=1

n

∑i

wiui

dove

wi =(Xi − X)

1n

∑ni=1(Xi − X)2

Qual e la distribuzione di una media ponderata di normali?

E[β1 − β1] =1

n

∑i

wiE[ui] = 0

Var[β1 − β1] =1

n2E

(∑i

wiui

)2



Distribuzione campionaria gaussiana di β1

Var[β1 − β1] =1

n2

∑i

w2iE[u2

i ] =1

n2σ2u

∑i

w2i



Assunzioni

Assunzioni MRL semplice:

Yi = β0 + β1Xi + ui i = 1, 2, . . . , n

E[ui|Xi] = 0

{Xi, Yi} i.i.d

Xi, ui momenti quarti finiti non nulli e finiti.

Var[ui|Xi] = σ2u, omoschedasticita

Distribuzione di ui data Xi e normale (errori normali):ui ∼ i.i.d.N(0, σ2

u).

Stimatori OLS:

β0 = Y − β1X

β1 =

∑ni=1(Yi − Y )(Xi − X)∑n

i=1(Xi − X)2



Distribuzioni campionarie esatte

Quando gli errori (ui) si distribuiscono normalmente e sonoomoschedastici le distribuzioni campionarie degli stimatori OLS e dellestatistiche test sono note:

Lo stimatore OLS si distribuisce in modo normale.

la statistica t si distribuisce come una t di Student.



Distribuzione di β1

β1|X1, . . . , Xn ∼ N(β1, σ2β1|X

)

dove

σ2β1|X

=σ2u∑

i=1(Xi − X)2

Per dimostrare che la distribuzione condizionale e normale, si noti cheβ1 − β1 e una media ponderata di u1, . . . , un

β1 = β1 +1n

∑i=1(Xi − X)ui

1n

∑i=1(Xi − X)2

Medie ponderate di variabili casuali che si distribuiscono in modonormale si distribuiscono normalmente.



Non distorsione di β1

Abbiamo visto che:

E[β1|X1, . . . , Xn] = β1 +

∑ni=1(Xi − X)E[ui|X1, . . . , Xn]∑n

i=1(Xi − X)2

= β1

β1 e condizionatamente non distorto.



Varianza condizionale di β1

Per mostrare che

σ2β1|X

=σ2u∑

i=1(Xi − X)2

sfruttiamo l’ipotesi che ui ∼ i.i.d.N(0, σ2u)

Var[β1|X1, . . . , Xn] = Var

[∑ni=1(Xi − X)ui∑ni=1(Xi − X)2

|X1, . . . , Xn

]=

∑ni=1(Xi − X)2 Var[ui|X1, . . . , Xn][∑n

i=1(Xi − X)2]2

=

∑ni=1(Xi − X)2σ2

u[∑ni=1(Xi − X)2

]2=

σ2u[∑n

i=1(Xi − X)2]



Distribuzione della statistica t

La statistica t per verificare l’ipotesi nulla β1 = β1,0 e

t =β1 − β1,0

SE(β1)

Sostituendo la formula per SE(β1)

SE(β1) ≡ σβ1=

√s2u∑n

i=1(Xi − X)2




t =β1 − β1,0√

s2u∑ni=1(Xi−X)2

=β1 − β1,0√

s2u∑ni=1(Xi−X)2

σ2uσ2u

=β1 − β1,0√σ2u∑n

i=1(Xi−X)2

√s2uσ2u

=β1 − β1,0√

σ2u∑n

i=1(Xi−X)2

/

√s2u

σ2u

=(β1 − β1,0)/σβ1|X√

W/(n− 2), W =

n∑i=1

u2i

σ2u




Sotto l’ipotesi nulla

β1|X1, . . . , Xn ∼ N(β1, σ2β1|X

)

quindiβ1 − β1,0

σβ1|X|X1, . . . , Xn ∼ N(0, 1)

il numeratore della statistica t e N(0, 1).La variabile casuale W si distribuisce come una chi-quadrato con n− 2

gradi di liberta. W e indipendente daβ1−β1,0

σβ1|X.




Lo stimatore s2u ha una distribuzione proporzionale a una distribuzione

chi-quadrato con n− 2 gradi di liberta:

s2u ∼

σ2u

n− 2× χ2

n−2

quindis2u

σ2u

∼ 1

n− 2× χ2

n−2




Se Z ha una distribuzione normale standard, se W ∼ χ2m e Z e W sono

indipendentemente distribuite, allora la variabile casuale

t =Z√W/m

∼ tm

Nel caso della statistica t

N(0, 1)√χ2n−2/(n− 2)

∼ tn−2

Per n < 30 i valori critici t possono essere un po’ piu grandi deivalori critici N(0, 1)

Per n > 50 o simile, la differenza nelle distribuzioni tn2 e N(0, 1) etrascurabile.



Implicazioni pratiche

Se n < 50 e credete davvero che, per la vostra applicazione, u siaomoschedastico e normalmente distribuito, utilizzate tn−2 invecedei valor critici N(0, 1) per le verifiche di ipotesi e gli intervalli diconfidenza.

Nella maggior parte delle applicazioni econometriche, non vi ealcun motivo di ritenere che u sia omoschedastico e normale -solitamente vi sono ottime ragioni per credere che ne l’una nel’altra assunzione valga.

Fortunatamente, nelle applicazioni moderne n > 50, cosı possiamoaffidarci ai risultati per n grande presentati in precedenza, basatisul teorema limite centrale, per eseguire verifiche di ipotesi ecostruire intervalli di confidenza usando l’approssimazione normaleper n grande


Regressione lineare semplice: inferenza -...

Documents

Transcript of Regressione lineare semplice: inferenza -...