_ CORSO DI ECONOMETRIA _ Prof. Paolo Mattana...

___________________________ CORSO DI ECONOMETRIA___________________________

Prof. Paolo Mattana

Lez. 13 - Variabili qualitative. L’uso delle “dummy”

Dipartimento di EconomiaUniversità degli Studi di Cagliari

L’assunzione di omogeneità nel metodo OLS

OLS assume che tutti le osservazioni siano generate dallo stesso “processo stocastico” (tutte comparabili);

Le osservazioni sono un campione tratto dalla medesima popolazione;

Tuttavia il campione può essere composto da gruppi distinti in cui il valore medio di Y può differire;

Ciò è possibile anche per una singola osservazione (outlier) ;

Anche per gruppi sistematici (ad esempio il 4° trimestre).

L’USO DI “DUMMY” QUALITATIVE


Quali sono le implicazioni per OLS?

•Se non “controllati”, questi effetti di gruppo entrano a far parte del termine di errore;

•Come conseguenza generiamo una forma di correlazione simultanea tra errori e variabili indipendenti;

•Violazione dell’assunzione di indipendenza;

•Bias da variabili omesse + non consistenza.


•Le variabili “dummy” costituiscono un modo semplice e flessibile per misurare effetti di gruppo

•Sono però ammissioni di ignoranza relativamente al perchè certi gruppi si comportino difformemente

•Si cerchino quindi le motivazioni teoriche e le si modellino

•Se possibile, si cerchi di misurare il fenomeno più direttamente

1

0=

female a foris nobservatio the if

male a foris nobservatio the ifD

Il modello di regressione lineare diventa

eXβDδβY +ˆ+ˆ+ˆ= 211


Come si costruisce un variabile D? Si consideri il caso binario

Acquisisce solo 2 valori:

Es: differenze di genere nella relazione fra reddito e “skills”

Se l’osservazione riguarda un maschio (= 0) o una femmina (= 1).

++

1

1

1

0

0

0

+

1

1

1

1

1

1

=

2+

1+

2

1

2+

1+

2

1

211

2+

1+

2

1

N

m

m

m

N

m

m

m

N

m

m

m

u

u

u

u

u

u

X

X

X

X

X

X

βδβ

Y

Y

Y

Y

Y

Y

Il modello che mette in relazione reddito, Y, alle capacità, X, e algenere può visualizzarsi come segue:


Questo assume che abbiamo ordinato i dati in modo da avere le “femmine” per prime.

In generale, se i dati non sono ordinati avremmo nella 3rd colonna 0 e 1 in corrispondenza del genere


Dummy Variable Regression

Le D permettono all’intercetta di gruppi diversi di differire tra gruppi

E’ possibile che sia l’intercetta che il coeff. angolare varino tra gruppi:

eDXδXβDδβY 2211


Xi

Yi

b1

Female Only

b1 + d1

Male Only

No Gender Differences

L’USO DI “DUMMY” QUALITATIVE: SHIFT NELL’INTERCETTA

Le variabili D sono utili anche perchè consentono di condurre test sui gruppi.

Es. E’ il reddito nel gruppo “Maschi” diverso da quello del gruppo “Femmine” (a parità di skills).

Femmine è il “control group”, cioè quello contro il quale si confronta.

Se i “Maschi” sono “differenti”, allora d1 sarà significativ. differente da 0.

H0: d1 = 0



Possiamo anche utilizzare la forma generalizzata per verificare se anche la pendenza della retta varia tra i gruppi

(i.e. the wage paid to skill levels)

Se i “Maschi” sono “differenti”, allora sia d1 che d2

signif. differenti da 0.

Null Hypothesis is H0: d1 = d2 = 0

Le dummy sono utilissime anche per:

i) Annullare osservazioni: outliers (dummy observation specific)

ii) Creare test per testare la presenza di gruppi generati da processi stocastici diversi

iii) Studiare la stabilità del modello (molto utile e importante)

iv) Trattare la destagionalizzazione dei dati


Estensioni:

Nel caso in cui si sospetti la presenza di gruppi diversi caratterizzati da parametri diversi è utile capire se i parametri stimati si applichino a tutti i gruppi o solo una media (per cui è opportuno separare i dati)

Per fare ciò è possibile condurre il test di Chow

Dati su 74 scuole superiori a Shanghai.

Il modello riguarda la relazione tra costi e numero di studenti

IL TEST DI CHOW SUI GRUPPI

0

100000

200000

300000

400000

500000

600000

700000

0 200 400 600 800 1000 1200 1400

N

COST

Occupational schools Regular schools L3

Diagramma di dispersione con linea di regressione


. reg COST N

Source | SS df MS Number of obs = 74---------+------------------------------ F( 1, 72) = 46.82 Model | 5.7974e+11 1 5.7974e+11 Prob > F = 0.0000Residual | 8.9160e+11 72 1.2383e+10 R-squared = 0.3940---------+------------------------------ Adj R-squared = 0.3856 Total | 1.4713e+12 73 2.0155e+10 Root MSE = 1.1e+05

------------------------------------------------------------------------------ COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- N | 339.0432 49.55144 6.842 0.000 240.2642 437.8222 _cons | 23953.3 27167.96 0.882 0.381 -30205.04 78111.65------------------------------------------------------------------------------

Risultati della stima quando COST è “regredito” su N, senza fare nessuna distinzione tra diversi tipi di scuole


Evidenziamo ora i dati che si riferiscono alle “occupational schools” e alle “regular schools” e stimiamo regressioni separate

0

100000

200000

300000

400000

500000

600000

700000

0 200 400 600 800 1000 1200 1400

N

COST

Occupational schools Regular schools


. reg COST N if OCC==1

Source | SS df MS Number of obs = 34---------+------------------------------ F( 1, 32) = 55.52 Model | 6.0538e+11 1 6.0538e+11 Prob > F = 0.0000Residual | 3.4895e+11 32 1.0905e+10 R-squared = 0.6344---------+------------------------------ Adj R-squared = 0.6229 Total | 9.5433e+11 33 2.8919e+10 Root MSE = 1.0e+05

------------------------------------------------------------------------------ COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- N | 436.7769 58.62085 7.451 0.000 317.3701 556.1836 _cons | 47974.07 33879.03 1.416 0.166 -21035.26 116983.4------------------------------------------------------------------------------

Risultato se usiamo le 34 osservazioni sulle “occupational schools”.


. reg COST N if OCC==0

Source | SS df MS Number of obs = 40---------+------------------------------ F( 1, 38) = 13.53 Model | 4.3273e+10 1 4.3273e+10 Prob > F = 0.0007Residual | 1.2150e+11 38 3.1973e+09 R-squared = 0.2626---------+------------------------------ Adj R-squared = 0.2432 Total | 1.6477e+11 39 4.2249e+09 Root MSE = 56545

------------------------------------------------------------------------------ COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- N | 152.2982 41.39782 3.679 0.001 68.49275 236.1037 _cons | 51475.25 21599.14 2.383 0.022 7750.064 95200.43------------------------------------------------------------------------------

Risultato se usiamo le 40 osservazioni sulle “regular schools”.


Notate le due rette di regressione

0

100000

200000

300000

400000

500000

600000

700000

0 200 400 600 800 1000 1200 1400

N

COST

Occupational schools Regular schools


RESIDUAL SUM OF SQUARES (x1011)

Regression Occupational Regular Total

RSS1 RSS2 (RSS1+RSS2)

Separate 3.49 1.22 4.71

RSSP

Pooled 5.55 3.36 8.91

20


F(k, n – 2k) =

overall reduction in RSS whenseparate regressions are run

cost in degreesof freedom

total RSS remaining whenseparate regressions are run

degrees of freedomremaining

26

The test statistic is the F statistic defined as shown.


kn/RSSRSS

/kRSSRSSRSS

221

21p

1 2

1 2

( [ ]) /( ) /( 2 )

PRSS RSS RSS kRSS RSS n k

11 11 11

11 11

(8.91 10 [3.49 10 1.22 10 ]) /2(2,70) 31.2

(3.49 10 1.22 10 ) /70F

La riduzione dei residui è dunque significativa

Nel caso sotto esame


7.82,60 0.1 %crit,F

L’idea CBT è quella di stimare 2 regressioni separate per 2 sub-campioni e di vedere se esistono “differenze significative”. Come si svolge il test? Dividere le osservazioni in 2 sottocampioni (ciascun sottocampione deve contenere più osservazioni di regressori). Nella versione F, il test confronta:

)2/()+(

/])+[(=

21

21

k-nRSSRSS

kRSSRSS-RSSF

pooled

APPLICAZIONE 1: IL BREAKPOINT TEST (STABILITA’)

Dove RSSpooled è riferito al modello ristretto ( “pooled”, condotto su tutte le osservazioni), RSSi è riferito al sub-campione i, n è il numero di osservazioni, k il numero di regressori

Problema principale:

Servono molte osservazioni in tutti i sub-campioni (es: structural change da periodi di pace a periodi di guerra per i quali sono disponibili poche osservazioni). ll Chow forecast test, dovrebbe essere usato in questi casi

APPLICAZIONE 1: IL BREAKPOINT TEST (STABILITA’)

Il “Chow test for predictive failure” stima il modello in un sub-campione (comprendente la prima osservazione). Il modello stimato è utilizzato per predire i valori della variabile dipendente. Nella versione F abbiamo:

dove RSSpooled si riferisce a tutte n le osservazioni, RSST1 alle T1 osservazioni del sub-campione.

Equivalente a supporre T2 dummy observation specific “ristrette a zero” (vedi bene libro a pag 268)

)/(

/)(=

11

21

k-TRSS

TRSS-RSSF

T

Tpooled

APPLICAZIONE 2: IL PREDICTIVE FAILURE TEST

Spesso le serie temporali esibiscono una qualche periodicità (chiamata stagionalità);

ES: I dati trimestrali di vendite al dettaglio tendono ad avere un picco nel quarto trimestre;

La stagionalità può risolversi aggiungendo un set di dummy in corrispondenza dei trimestri (mesi). Come saranno fatte le dummy in questo caso?

STAGIONALITA’

Recursive Least Squares

- Le stime RLS consentono di verificare la stabilità dei parametri.

- Le equazioni sono stimate ripetutamente.

- i) si stima con le prime k+1 osservazioni (k numero dei regressori)

- ii) si plotta il primo beta;

- iii) si stima con k+1…..e così via

STABILITA’

Definizione correlata: recursive residuals

- In corrispondenza di ciascuna nuova previsione di beta, si può cercare di predire il valore della variabile dipendente. The one-step ahead forecast error (opportunamente normalizzato), è un “recursive residual”.

- Definizione utile per verificare la presenza di “cambiamento strutturale”

CUSUM TEST

CUSUM^2 TEST

STABILITA’

CUSUM Test

Il test CUSUM (Brown, Durbin, and Evans, 1975) si basa sulla somma cumulata dei residui ricorsivi

Se non ci sono cambiamenti strutturali, il valore atteso della statistica è zero. Altrimenti tende a fuoriuscire dalle bande di accettabilità. (Cfr. test in Eviews)

STABILITA’

t

t

kr

s

wW

1

T.......,kt 1,

CUSUM of Squares

The CUSUM of squares test (Brown, Durbin, and Evans, 1975) si basa sulla statistica

Il valore atteso sotto H0 del CUSUM^2 varia da zero a uno. Anche qui esistono bande di accettabilità

STABILITA’

T

kr

t

kr w/wSQ

1

2

1

2

_ CORSO DI ECONOMETRIA _ Prof. Paolo Mattana...

Documents

Transcript of _ CORSO DI ECONOMETRIA _ Prof. Paolo Mattana...

___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana...

Documents

Transcript of ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana...

_ CORSO DI ECONOMETRIA _ Prof. Paolo Mattana...

Transcript of _ CORSO DI ECONOMETRIA _ Prof. Paolo Mattana...