___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana...
-
Upload
francesca-ferro -
Category
Documents
-
view
217 -
download
1
Transcript of ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana...
___________________________ CORSO DI ECONOMETRIA___________________________
Prof. Paolo Mattana
Lez. 13 - Variabili qualitative. L’uso delle “dummy”
Dipartimento di EconomiaUniversità degli Studi di Cagliari
L’assunzione di omogeneità nel metodo OLS
OLS assume che tutti le osservazioni siano generate dallo stesso “processo stocastico” (tutte comparabili);
Le osservazioni sono un campione tratto dalla medesima popolazione;
Tuttavia il campione può essere composto da gruppi distinti in cui il valore medio di Y può differire;
Ciò è possibile anche per una singola osservazione (outlier) ;
Anche per gruppi sistematici (ad esempio il 4° trimestre).
L’USO DI “DUMMY” QUALITATIVE
L’USO DI “DUMMY” QUALITATIVE
Quali sono le implicazioni per OLS?
•Se non “controllati”, questi effetti di gruppo entrano a far parte del termine di errore;
•Come conseguenza generiamo una forma di correlazione simultanea tra errori e variabili indipendenti;
•Violazione dell’assunzione di indipendenza;
•Bias da variabili omesse + non consistenza.
L’USO DI “DUMMY” QUALITATIVE
•Le variabili “dummy” costituiscono un modo semplice e flessibile per misurare effetti di gruppo
•Sono però ammissioni di ignoranza relativamente al perchè certi gruppi si comportino difformemente
•Si cerchino quindi le motivazioni teoriche e le si modellino
•Se possibile, si cerchi di misurare il fenomeno più direttamente
1
0=
female a foris nobservatio the if
male a foris nobservatio the ifD
Il modello di regressione lineare diventa
eXβDδβY +ˆ+ˆ+ˆ= 211
L’USO DI “DUMMY” QUALITATIVE
Come si costruisce un variabile D? Si consideri il caso binario
Acquisisce solo 2 valori:
Es: differenze di genere nella relazione fra reddito e “skills”
Se l’osservazione riguarda un maschio (= 0) o una femmina (= 1).
++
1
1
1
0
0
0
+
1
1
1
1
1
1
=
2+
1+
2
1
2+
1+
2
1
211
2+
1+
2
1
N
m
m
m
N
m
m
m
N
m
m
m
u
u
u
u
u
u
X
X
X
X
X
X
βδβ
Y
Y
Y
Y
Y
Y
Il modello che mette in relazione reddito, Y, alle capacità, X, e algenere può visualizzarsi come segue:
L’USO DI “DUMMY” QUALITATIVE
Questo assume che abbiamo ordinato i dati in modo da avere le “femmine” per prime.
In generale, se i dati non sono ordinati avremmo nella 3rd colonna 0 e 1 in corrispondenza del genere
L’USO DI “DUMMY” QUALITATIVE
Dummy Variable Regression
Le D permettono all’intercetta di gruppi diversi di differire tra gruppi
E’ possibile che sia l’intercetta che il coeff. angolare varino tra gruppi:
eDXδXβDδβY 2211
L’USO DI “DUMMY” QUALITATIVE
Xi
Yi
b1
Female Only
b1 + d1
Male Only
No Gender Differences
L’USO DI “DUMMY” QUALITATIVE: SHIFT NELL’INTERCETTA
Le variabili D sono utili anche perchè consentono di condurre test sui gruppi.
Es. E’ il reddito nel gruppo “Maschi” diverso da quello del gruppo “Femmine” (a parità di skills).
Femmine è il “control group”, cioè quello contro il quale si confronta.
Se i “Maschi” sono “differenti”, allora d1 sarà significativ. differente da 0.
H0: d1 = 0
L’USO DI “DUMMY” QUALITATIVE
L’USO DI “DUMMY” QUALITATIVE
Possiamo anche utilizzare la forma generalizzata per verificare se anche la pendenza della retta varia tra i gruppi
(i.e. the wage paid to skill levels)
Se i “Maschi” sono “differenti”, allora sia d1 che d2
signif. differenti da 0.
Null Hypothesis is H0: d1 = d2 = 0
Le dummy sono utilissime anche per:
i) Annullare osservazioni: outliers (dummy observation specific)
ii) Creare test per testare la presenza di gruppi generati da processi stocastici diversi
iii) Studiare la stabilità del modello (molto utile e importante)
iv) Trattare la destagionalizzazione dei dati
L’USO DI “DUMMY” QUALITATIVE
Estensioni:
Nel caso in cui si sospetti la presenza di gruppi diversi caratterizzati da parametri diversi è utile capire se i parametri stimati si applichino a tutti i gruppi o solo una media (per cui è opportuno separare i dati)
Per fare ciò è possibile condurre il test di Chow
Dati su 74 scuole superiori a Shanghai.
Il modello riguarda la relazione tra costi e numero di studenti
IL TEST DI CHOW SUI GRUPPI
0
100000
200000
300000
400000
500000
600000
700000
0 200 400 600 800 1000 1200 1400
N
COST
Occupational schools Regular schools L3
Diagramma di dispersione con linea di regressione
IL TEST DI CHOW SUI GRUPPI
. reg COST N
Source | SS df MS Number of obs = 74---------+------------------------------ F( 1, 72) = 46.82 Model | 5.7974e+11 1 5.7974e+11 Prob > F = 0.0000Residual | 8.9160e+11 72 1.2383e+10 R-squared = 0.3940---------+------------------------------ Adj R-squared = 0.3856 Total | 1.4713e+12 73 2.0155e+10 Root MSE = 1.1e+05
------------------------------------------------------------------------------ COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- N | 339.0432 49.55144 6.842 0.000 240.2642 437.8222 _cons | 23953.3 27167.96 0.882 0.381 -30205.04 78111.65------------------------------------------------------------------------------
Risultati della stima quando COST è “regredito” su N, senza fare nessuna distinzione tra diversi tipi di scuole
IL TEST DI CHOW SUI GRUPPI
Evidenziamo ora i dati che si riferiscono alle “occupational schools” e alle “regular schools” e stimiamo regressioni separate
0
100000
200000
300000
400000
500000
600000
700000
0 200 400 600 800 1000 1200 1400
N
COST
Occupational schools Regular schools
IL TEST DI CHOW SUI GRUPPI
. reg COST N if OCC==1
Source | SS df MS Number of obs = 34---------+------------------------------ F( 1, 32) = 55.52 Model | 6.0538e+11 1 6.0538e+11 Prob > F = 0.0000Residual | 3.4895e+11 32 1.0905e+10 R-squared = 0.6344---------+------------------------------ Adj R-squared = 0.6229 Total | 9.5433e+11 33 2.8919e+10 Root MSE = 1.0e+05
------------------------------------------------------------------------------ COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- N | 436.7769 58.62085 7.451 0.000 317.3701 556.1836 _cons | 47974.07 33879.03 1.416 0.166 -21035.26 116983.4------------------------------------------------------------------------------
Risultato se usiamo le 34 osservazioni sulle “occupational schools”.
IL TEST DI CHOW SUI GRUPPI
. reg COST N if OCC==0
Source | SS df MS Number of obs = 40---------+------------------------------ F( 1, 38) = 13.53 Model | 4.3273e+10 1 4.3273e+10 Prob > F = 0.0007Residual | 1.2150e+11 38 3.1973e+09 R-squared = 0.2626---------+------------------------------ Adj R-squared = 0.2432 Total | 1.6477e+11 39 4.2249e+09 Root MSE = 56545
------------------------------------------------------------------------------ COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------------------- N | 152.2982 41.39782 3.679 0.001 68.49275 236.1037 _cons | 51475.25 21599.14 2.383 0.022 7750.064 95200.43------------------------------------------------------------------------------
Risultato se usiamo le 40 osservazioni sulle “regular schools”.
IL TEST DI CHOW SUI GRUPPI
Notate le due rette di regressione
0
100000
200000
300000
400000
500000
600000
700000
0 200 400 600 800 1000 1200 1400
N
COST
Occupational schools Regular schools
IL TEST DI CHOW SUI GRUPPI
RESIDUAL SUM OF SQUARES (x1011)
Regression Occupational Regular Total
RSS1 RSS2 (RSS1+RSS2)
Separate 3.49 1.22 4.71
RSSP
Pooled 5.55 3.36 8.91
20
IL TEST DI CHOW SUI GRUPPI
F(k, n – 2k) =
overall reduction in RSS whenseparate regressions are run
cost in degreesof freedom
total RSS remaining whenseparate regressions are run
degrees of freedomremaining
26
The test statistic is the F statistic defined as shown.
IL TEST DI CHOW SUI GRUPPI
kn/RSSRSS
/kRSSRSSRSS
221
21p
1 2
1 2
( [ ]) /( ) /( 2 )
PRSS RSS RSS kRSS RSS n k
11 11 11
11 11
(8.91 10 [3.49 10 1.22 10 ]) /2(2,70) 31.2
(3.49 10 1.22 10 ) /70F
La riduzione dei residui è dunque significativa
Nel caso sotto esame
IL TEST DI CHOW SUI GRUPPI
7.82,60 0.1 %crit,F
L’idea CBT è quella di stimare 2 regressioni separate per 2 sub-campioni e di vedere se esistono “differenze significative”. Come si svolge il test? Dividere le osservazioni in 2 sottocampioni (ciascun sottocampione deve contenere più osservazioni di regressori). Nella versione F, il test confronta:
)2/()+(
/])+[(=
21
21
k-nRSSRSS
kRSSRSS-RSSF
pooled
APPLICAZIONE 1: IL BREAKPOINT TEST (STABILITA’)
Dove RSSpooled è riferito al modello ristretto ( “pooled”, condotto su tutte le osservazioni), RSSi è riferito al sub-campione i, n è il numero di osservazioni, k il numero di regressori
Problema principale:
Servono molte osservazioni in tutti i sub-campioni (es: structural change da periodi di pace a periodi di guerra per i quali sono disponibili poche osservazioni). ll Chow forecast test, dovrebbe essere usato in questi casi
APPLICAZIONE 1: IL BREAKPOINT TEST (STABILITA’)
Il “Chow test for predictive failure” stima il modello in un sub-campione (comprendente la prima osservazione). Il modello stimato è utilizzato per predire i valori della variabile dipendente. Nella versione F abbiamo:
dove RSSpooled si riferisce a tutte n le osservazioni, RSST1 alle T1 osservazioni del sub-campione.
Equivalente a supporre T2 dummy observation specific “ristrette a zero” (vedi bene libro a pag 268)
)/(
/)(=
11
21
k-TRSS
TRSS-RSSF
T
Tpooled
APPLICAZIONE 2: IL PREDICTIVE FAILURE TEST
Spesso le serie temporali esibiscono una qualche periodicità (chiamata stagionalità);
ES: I dati trimestrali di vendite al dettaglio tendono ad avere un picco nel quarto trimestre;
La stagionalità può risolversi aggiungendo un set di dummy in corrispondenza dei trimestri (mesi). Come saranno fatte le dummy in questo caso?
STAGIONALITA’
Recursive Least Squares
- Le stime RLS consentono di verificare la stabilità dei parametri.
- Le equazioni sono stimate ripetutamente.
- i) si stima con le prime k+1 osservazioni (k numero dei regressori)
- ii) si plotta il primo beta;
- iii) si stima con k+1…..e così via
STABILITA’
Definizione correlata: recursive residuals
- In corrispondenza di ciascuna nuova previsione di beta, si può cercare di predire il valore della variabile dipendente. The one-step ahead forecast error (opportunamente normalizzato), è un “recursive residual”.
- Definizione utile per verificare la presenza di “cambiamento strutturale”
CUSUM TEST
CUSUM^2 TEST
STABILITA’
CUSUM Test
Il test CUSUM (Brown, Durbin, and Evans, 1975) si basa sulla somma cumulata dei residui ricorsivi
Se non ci sono cambiamenti strutturali, il valore atteso della statistica è zero. Altrimenti tende a fuoriuscire dalle bande di accettabilità. (Cfr. test in Eviews)
STABILITA’
t
t
kr
s
wW
1
T.......,kt 1,
CUSUM of Squares
The CUSUM of squares test (Brown, Durbin, and Evans, 1975) si basa sulla statistica
Il valore atteso sotto H0 del CUSUM^2 varia da zero a uno. Anche qui esistono bande di accettabilità
STABILITA’
T
kr
t
kr w/wSQ
1
2
1
2