Struttura dei dati panel

51
Struttura dei dati panel it kit it x y Variabile dipendente osservata in N unità in T occasioni K variabili indipendenti osservate in N unità in T occasioni Residuo pertinente all’unità i e all’occasione t Di solito “incolloniamo” i dati: nt n n t t knt nt nt kn n n kn n n t k t t k k t k t t k k nt n n t t x x x x x x x x x x x x x x x x x x x x x x x x x x x X y y y y y y y y y Y 2 1 2 22 21 1 12 11 2 1 2 2 2 2 1 1 1 2 1 1 2 22 12 22 222 122 21 221 121 1 21 11 12 212 112 11 211 111 2 1 2 22 21 1 12 11 . . . . . . . . . . . . . . . Unità 1 Unità n Var.1 Var.k Occasione 1 Occasione 2 Occasione t

description

Struttura dei dati panel. Variabile dipendente osservata in N unità in T occasioni K variabili indipendenti osservate in N unità in T occasioni Residuo pertinente all’unità i e all’occasione t Di solito “incolloniamo” i dati:. Var.1. Var.k. Occasione 1. Unità 1. Occasione 2. Occasione t. - PowerPoint PPT Presentation

Transcript of Struttura dei dati panel

Page 1: Struttura dei dati panel

Struttura dei dati panel

it

kit

it

xy

Variabile dipendente osservata in N unità in T occasioni

K variabili indipendenti osservate in N unità in T occasioni

Residuo pertinente all’unità i e all’occasione t

Di solito “incolloniamo” i dati:

nt

n

n

t

t

kntntnt

knnn

knnn

tktt

k

k

tktt

k

k

nt

n

n

t

t

xxxxxxxxx

xxxxxxxxxxxxxxxxxx

X

yyy

yyyyyy

Y

2

1

2

22

21

1

12

11

21

22221

11211

22212

22222122

21221121

12111

12212112

11211111

2

1

2

22

21

1

12

11

.

.

.

.....

.

.

.

.

.

.

.

Unità 1

Unità n

Var.1 Var.k

Occasione 1Occasione 2Occasione t

Page 2: Struttura dei dati panel

0

10

20

30

40

50

60

0 5 10 15 20 25

Reddito

Con

sum

i

Vediamo un esempio:

C=1.5+4.12 R

C=10+0.45 R

C=20+0.45 R

C=30+0.45 R

C=40+0.45 R

Stessa “pendenza” diverse “intercette”!!!!

Page 3: Struttura dei dati panel

In altri termini la elasticità del consumo rispetto al reddito sono le stesse per tutti gli individui, ciò che cambia è il “punto di partenza, cioè il consumo che corrisponde ad un reddito 0

I dati sezionali “nascondono” questo fatto:Sottostimano il “punto di partenza” (l’intercetta) Sovrastimano l’elasticità (la pendenza)

Vi è Distorsione: essa distorsione si annulla solo se l’intercetta per ogni individuo è la STESSA

Cioè una stima sezionale ipotizza un MODELLO di comportamento in cui la parte non spiegata della relazione (l’intercetta) è la stessa per tutti gli individui

Cioè nega l’ETEROGENEITA’ tra individui

Page 4: Struttura dei dati panel

1) E’ venuta alla luce una ipotesi del modello che non era stata esplicitata: l’omogeneità tra le parti non osservate di ciascun individuo.

2) Solo una certa configurazione dei dati (osservazioni in più occasioni) consente di esplicitare ed affrontare l’eterogeneità

3) Il modo in cui rappresentiamo con dati (simboli) il fenomeno (modello) hanno una influenza diretta sulle leggi che regolano il linguaggio (la tecnica ) e quindi sulle conclusioni

4) Dobbiamo sempre occuparci del processo che ha generato i dati che può non essere neutrale per il modello

Page 5: Struttura dei dati panel

Casistica di non neutralità delle misure.

Consideriamo un collettivo di unità statistiche, il DGP ha tra le sue caratteristiche più importanti la relazione (se c’è) che lega le misure effettuate sulle diverse unità. La casistica possibile è ampia, tra le assunzioni più comuni:

1. Indipendenza (nota e utile, tuttavia un DGP poco verosimile: ad es: imprese di uno stesso settore, pazienti di una stessa città….)

2. Di solito misure ripetute relative ad una stessa unità sono più “simili” di quelle tra unità diverse

3. Di solito misure vicine nel tempo e nello spazio tendono ad essere più simili di quelle più lontane

Page 6: Struttura dei dati panel

Un problema dei dati sezionali: l’eterogeneità non osservata

• Molte caratteristiche individuali non sono osservate, alcune sono anche non osservabili (es. Capacità imprenditoriale, entusiasmo, propensione al rischio)

• Queste variano tra gli individui e sono denominate “eterogeneità non osservata”

• Se queste caratteristiche sono correlate con la variabile di interesse e/o con le variabili osservate, allora la stima dei coefficienti è DISTORTA

• DISTORSIONE DA VARIABILE OMESSA.

• I dati di panel consentono di correggere questo BIAS

Page 7: Struttura dei dati panel

(digressione sulle variabili omesse)Supponiamo che il modello “vero” sia (in forma vettoriale):

2211 XXy

Se ignoriamo X2

22.1122'

11'

1111

'1

1'1122

'1

1'111

'1

1'111

PXXXXbE

saràXXXXXXXyXXXb

La matrice P contiene le pendenze OLS di X2 su X1. Ad esempio nella relazione

)(),(

:*

**

prezzoVarredditoprezzoCovbE

redditoilignorandoprezzoredditosia

redditoprezzoconsumo

Page 8: Struttura dei dati panel

Sulla matrice di var-covar il discorso è più complesso:

1'2

1'222

'12

12.1

11

'2

1'222

1'11

22.1

1'11

21

1)(

)(

)(

XXXXXXbVarbVar

cioèXXXXIMcon

MXXbVar

XXbVar

Con due variabili:

)(1

)(

)(

212

1221211

2

2.1

21111

11

2

1

xxcorrelrconrs

bVar

xxscons

bVar i

Distorsione nella stima sia sui coefficienti che sulla Var

Page 9: Struttura dei dati panel

Dobbiamo specificare la forma della eterogeneità, ciò implica ipotesi sulla

matrice di varianza-covarianza, cioè sulla struttura dei residui del modello

In generale le varianze dei (residui) del modello non saranno omoschedastichesaranno caratterizzate da diverse componenti che vanno “scorporate” in modoottenere stime corrette.

Questo tipologia di modelli è detta “a componenti di varianza”.

Naturalmente si avranno diversi tipi di modelli a seconda delle ipotesi sulle componenti di varianza che potranno essere, in prima istanza, di tipo deterministico o stocastico

Un discorso analogo vale anche per la Covarianza che, però, definisce modelliDiversi, in gran parte legati alla analisi di serie storiche

Page 10: Struttura dei dati panel

Un esempio Costi e produzione di 6 imprese per 4 anni:

I DATI

Costi (Y) Produzione (X) impresa t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4

1 3,5 4,3 4,6 5,8 214 419 588 1025 2 3,9 5,5 8,1 16,4 696 811 1640 2506 3 19,0 26,0 32,4 44,7 3202 4802 5821 9275 4 35,2 51,1 61,0 77,9 5668 7612 10206 13702 5 33,2 40,0 43,1 57,7 6000 8222 8484 10004 6 73,1 98,8 138,9 191,6 11796 15551 27218 30958

LOGARITMI:

Costi (Y) Produzione (X) impresa t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4

1 1,25 1,45 1,52 1,77 5,37 6,04 6,38 6,93 2 1,35 1,71 2,10 2,80 6,55 6,70 7,40 7,83 3 2,95 3,26 3,48 3,80 8,07 8,48 8,67 9,14 4 3,56 3,93 4,11 4,36 8,64 8,94 9,23 9,53 5 3,50 3,69 3,76 4,06 8,70 9,01 9,05 9,21 6 4,29 4,59 4,93 5,26 9,38 9,65 10,21 10,34

Page 11: Struttura dei dati panel

Adattiamo un modello lineare: ln(Y)=a+bln(X)+

OLS: a=-4.18 b=0.89 Var=0.04 r²=0.98

4 5 6 7 8 9 10 11 12 130

1

2

3

4

5

6

7

Impr.1Impr.2Impr.3Impr.4Impr.5Impr.6Stima

Page 12: Struttura dei dati panel

Abbiamo una PRIMA stima del modello quindi possiamo stimare i residui

E dai residui Varianze individuali e correlazioni

Ovviamente dobbiamo ipotizzare una “forma” per Varianze e Covarianze

IPOTESI:Per le varianze individuali: Costanti nel tempoPer le correlazioni: processo AR(1)

• Sotto queste ipotesi la stima è possibile mediando (rispetto al tempo) i quadrati dei residui per ogni individuo

• Calcolando l’autocorrelazione con lag=1T

eT

tit

i

1

2

T

tti

T

ttiti

e

ee

2

2,

21,,

ˆ

ˆˆ

tititi xye ,,,ˆ

Page 13: Struttura dei dati panel

Consideriamo i residui per per ciascuna impresa:y x y* e Var correl

t=1 1,25 5,37 0,65 -0,60t=2 1,45 6,04 1,23 -0,22t=3 1,52 6,38 1,53 0,01t=4 1,77 6,93 2,02 0,25 0,13 0,99t=1 1,35 6,55 1,68 0,33t=2 1,71 6,70 1,81 0,10t=3 2,10 7,40 2,43 0,33t=4 2,80 7,83 2,81 0,01 0,03 -0,95t=1 2,95 8,07 3,02 0,07t=2 3,26 8,48 3,38 0,12t=3 3,48 8,67 3,54 0,06t=4 3,80 9,14 3,96 0,16 0,00 -0,92t=1 3,56 8,64 3,52 -0,04t=2 3,93 8,94 3,78 -0,15t=3 4,11 9,23 4,04 -0,07t=4 4,36 9,53 4,30 -0,06 0,00 -0,62t=1 3,50 8,70 3,57 0,07t=2 3,69 9,01 3,84 0,15t=3 3,76 9,05 3,88 0,12t=4 4,06 9,21 4,02 -0,04 0,01 -0,25t=1 4,29 9,38 4,17 -0,12t=2 4,59 9,65 4,41 -0,18t=3 4,93 10,21 4,90 -0,03t=4 5,26 10,34 5,01 -0,25 0,01 -0,95

Page 14: Struttura dei dati panel

Scopriamo che le varianze per impresa sono diverse cioè c’è eteroschedasticità:(significatività test F per l’uguaglianza delle varianze)

impresa1 impresa2 impresa3 impresa4 impresa5 impresa6 overallimpresa1 1,000 0,225 0,006 0,007 0,039 0,050 0,083impresa2 0,225 1,000 0,060 0,069 0,307 0,369 0,828impresa3 0,006 0,060 1,000 0,934 0,317 0,262 0,029impresa4 0,007 0,069 0,934 1,000 0,356 0,295 0,034impresa5 0,039 0,307 0,317 0,356 1,000 0,894 0,176impresa6 0,050 0,369 0,262 0,295 0,894 1,000 0,220

impresa1 0,99impresa2 -0,95impresa3 -0,92impresa4 -0,62impresa5 -0,25impresa6 -0,95

E che le autocorrelazioni tra i residui della stessa impresa sono MOLTO diverse da 0

Page 15: Struttura dei dati panel

Infatti se utilizziamo GLS (con stima elementare della matrice Var/covar)(varianze residui sulla diagonale e AR1 nei blocchi di impresa)

0,05 0,83 0,69 0,48 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0,83 0,05 0,83 0,69 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0,69 0,83 0,05 0,83 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0,48 0,69 0,83 0,05 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0,39 0,99 0,98 0,96 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0,99 0,39 0,99 0,98 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0,98 0,99 0,39 0,99 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0,96 0,98 0,99 0,39 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0,13 0,98 0,96 0,92 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0,98 0,13 0,98 0,96 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0,96 0,98 0,13 0,98 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0,92 0,96 0,98 0,13 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0,11 0,96 0,92 0,84 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0,96 0,11 0,96 0,92 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0,92 0,96 0,11 0,96 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0,84 0,92 0,96 0,11 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,05 0,82 0,68 0,46 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,82 0,05 0,82 0,68 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,68 0,82 0,05 0,82 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,46 0,68 0,82 0,05 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,18 1,00 1,00 1,00

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1,00 0,18 1,00 1,00

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1,00 1,00 0,18 1,000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1,00 1,00 1,00 0,18

Otteniamo stime diverse per i coefficienti:a= -5.91 b=1.10

NB. Non è stima FGLS! Dimostra solo che i residui non sono omoschedastici e incorrelati

Page 16: Struttura dei dati panel

),...,,( 21 kitititit xxxfy

A questo punto dobbiamo modificare il modello semplice: Formuliamo una ipotesi di dipendenza:

itkitkititit xxxy ...22110

itiit u

Errore “Composto”Componente individualeCostante nel tempo

),0(~ 2uit Nu

Variabiliesplicative

Sviluppiamo un modello: (a componenti di varianza)

Page 17: Struttura dei dati panel

Diversi modi per specificare l’errore

(ce ne sono altri…)

itiit u

it i t itu

EffettoIndividuale

Errorecasuale

Effettotemporale

Page 18: Struttura dei dati panel

Effetto individuale

• Effetti FISSI: i sono constanti e vengono trattati come una intercetta

• Effetti CASUALI: i sono estrazioni da una distribuzione di probabilità data e diventano componenti stocastiche dell’errore, cioè i i hanno una “loro” varianza

Due possibilità di trattamento (due dgp):

itkitkititiit uxxxy ...22110

)(......

22110

22110

itikitkititit

itkitkititit

uxxxyxxxy

Page 19: Struttura dei dati panel

Stima per effetti FISSI1. Eliminazione dei i:(scarti dalla media – stimatore

“within”)

2. Eliminazione dei i:(punti medi – stimatore “between”)

N.B. Perdita di osservazioni – minore efficienza

iitiiiiitiiit

iitiitiit

uuuuma

xxyy

)(

iii xy

Page 20: Struttura dei dati panel

Stima delle intercette individuali: Least Square Dummy Variables

(LSDV)I metodi di eliminazione non stimano i i,cioè non

forniscono una misura delle caratteristiche non osservate.

Se si è interessati alla stima dei i è necessario adottare un altro stimatore.:

nt

n

n

t

t

kntnt

knn

knn

tkt

k

k

tkt

k

k

nt

n

n

t

t

xxxxxx

xxxxxxxxxxxx

X

yyy

yyyyyy

Y

2

1

2

22

21

1

12

11

2

222

112

222

22222

21221

121

12212

11211

2

1

2

22

21

1

12

11

.

.100

.100

.100....

.010

.010

.010

.001

.001

.001

.

Page 21: Struttura dei dati panel

Riassumendo: EFFETTI FISSI4 stimatori

ititiit

iii

itiitiit

ititit

uxyLSDVxybetween

uxxyywithinxyoverall

0

0

)(

Page 22: Struttura dei dati panel

Stimatore "overall"

y = 3,4975x + 6,2438R2 = 0,8331

0

10

20

30

40

50

60

70

0 2 4 6 8 10 12 14 16 18x

y

Page 23: Struttura dei dati panel

Stimatore "overall" RESIDUI

-20

-15

-10

-5

0

5

10

15

20

0 2 4 6 8 10 12 14 16 18

x

y re

sidu

o ind1ind2ind3ind4

Page 24: Struttura dei dati panel

Stimatore "within"

y = 0,7691x + 7E-16R2 = 0,5272

-5

-4

-3

-2

-1

0

1

2

3

4

5

-5 -4 -3 -2 -1 0 1 2 3 4 5

x

y

Page 25: Struttura dei dati panel

Stimatore "within" RESIDUI

-4

-3

-2

-1

0

1

2

3

4

-5 -4 -3 -2 -1 0 1 2 3 4 5

x

y

Page 26: Struttura dei dati panel

Stimatore "beetween"

y = 4,1195x + 1,5372R2 = 0,9927

0

10

20

30

40

50

60

0 2 4 6 8 10 12 14x

y

Page 27: Struttura dei dati panel

Stimatore "LSDV"

0

10

20

30

40

50

60

0 2 4 6 8 10 12 14 16 18x

y

Y= 10,6+0,77 X +10,6 ind2 +21,6 ind3 +32,7 ind4r²=0,99

Page 28: Struttura dei dati panel

Stimatore "LSDV residui"

-4

-3

-2

-1

0

1

2

3

4

0 2 4 6 8 10 12 14 16 18

x

y

Page 29: Struttura dei dati panel

Overall 3.4974

Within 0.7691

Between 4.1195

LSDV 0.7691

I coefficienti della X

2 considerazioni: 1. LSDV=Within2. Overall = media ponderata (within e between)

Page 30: Struttura dei dati panel

Esempio e test di ipotesi

NB. Dati lievemente diversi Rispetto all’esempio precedente

Page 31: Struttura dei dati panel

I DATI

Costi (Y) Produzione (X) impresa t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4

1 3,2 4,3 4,6 5,8 214 419 588 1025 2 3,9 5,5 8,1 11,0 696 811 1640 2506 3 19,0 26,0 32,4 41,2 3202 4802 5821 9275 4 35,2 51,1 61,0 77,9 5668 7612 10206 13702 5 33,2 40,0 43,1 57,7 6000 8222 8484 10004 6 73,1 98,8 138,9 191,6 11796 15551 27218 30958

LOGARITMI:

Costi (Y) Produzione (X) impresa t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4

1 1,15 1,45 1,52 1,77 5,37 6,04 6,38 6,93 2 1,35 1,71 2,10 2,39 6,55 6,70 7,40 7,83 3 2,95 3,26 3,48 3,72 8,07 8,48 8,67 9,14 4 3,56 3,93 4,11 4,36 8,64 8,94 9,23 9,53 5 3,50 3,69 3,76 4,06 8,70 9,01 9,05 9,21 6 4,29 4,59 4,93 5,26 9,38 9,65 10,21 10,34

MEDIE:

impresa Costi Produzione 1 1,47 6,18 2 1,89 7,12 3 3,35 8,59 4 3,99 9,08 5 3,75 8,99 6 4,77 9,89

Totale 3,20 8,31

Page 32: Struttura dei dati panel

SCARTI DI CIASCUNA IMPRESA RISPETTO ALLA SUA MEDIA DEI TEMPI:

Costi (Y) Produzione (X) impresa t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4

1 -0,32 -0,02 0,05 0,29 -0,81 -0,14 0,20 0,75 2 -0,54 -0,18 0,21 0,51 -0,57 -0,42 0,28 0,71 3 -0,40 -0,09 0,13 0,37 -0,52 -0,11 0,08 0,55 4 -0,43 -0,06 0,12 0,36 -0,44 -0,15 0,15 0,44 5 -0,25 -0,06 0,01 0,30 -0,29 0,02 0,05 0,22 6 -0,48 -0,17 0,17 0,49 -0,52 -0,24 0,32 0,45

CALCOLO DEGLI RSS Wxx,i Wxy,i Wyy,i beta.i alfa,i RSS,i impresa

1 1,2877 0,4974 0,1941 0,3863 -0,9143 0,0019 2 1,0869 0,8001 0,6201 0,7361 -3,3518 0,0311 3 0,5850 0,4304 0,3233 0,7357 -2,9673 0,0067 4 0,4326 0,3762 0,3346 0,8697 -3,9095 0,0074 5 0,1368 0,1391 0,1592 1,0164 -5,3873 0,0178 6 0,6276 0,5596 0,5226 0,8916 -4,0538 0,0237

totale 4,1566 2,8027 2,1539 0,6743 Beta(i)= Wxy,i / Wxx,i Alfa(i)=E(Y)-Beta(i)*E(X) RSS(i)= Wyy,i -Beta(i)* Wxy,i

 

Page 33: Struttura dei dati panel

SCARTI RISPETTO ALLA MEDIA TEMPI-INDIVIDUI (overall mean):

Costi (Y) Produzione (X) impresa t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4

1 -2,06 -1,75 -1,68 -1,44 -2,94 -2,27 -1,93 -1,38 2 -1,85 -1,49 -1,11 -0,81 -1,76 -1,61 -0,91 -0,48 3 -0,26 0,06 0,28 0,51 -0,24 0,17 0,36 0,83 4 0,36 0,73 0,91 1,15 0,33 0,63 0,92 1,22 5 0,30 0,49 0,56 0,85 0,39 0,71 0,74 0,90 6 1,09 1,39 1,73 2,05 1,07 1,34 1,90 2,03

Txx Txy Tyy beta alfa rss 42,633 37,858 34,633 0,888 -4,175 1,015

Stima senza intercette individuali:

Si effettua utilizzando gli scarti rispetto alla media GENERALE

Page 34: Struttura dei dati panel

246

0152,13

2641,02

0887,01

,

1

,,,

,

1

,,,

KTN

TTTTS

WWWWS

RSSS

iixy

iixx

iixy

iiyy

iixy

iixx

iixy

iiyy

ii

Definiamo 3 stime corrette di RSS secondo tre ipotesi di modello

Somma quadrati residui «individuali» - within

Dev. «spiegata» - between

Dev. Totale

Page 35: Struttura dei dati panel

6211

6214

6211

621

6213

....:....:

....:

........:

datoHH

H

H

Rapportando le Varianze (test F), possiamo «testare» 3 ipotesi :

Page 36: Struttura dei dati panel

6211

6214

6211

621

6213

....:....:

)0003,0(10,91(/2

1/234

....:

)435,0(19,11/1

1/121

........:

)043,0(18,41/1

11/133

datoHH

KTNSNSSF

HKNNTS

KNSSF

HKNNTSKNSSF

I test (F)

Page 37: Struttura dei dati panel

Il TEST dice che le PENDENZE non sono significativamente diverse mentre lo sono le INTERCETTE

Il modello più appropriato è del tipo: ititiit xy Costi e produzione (log per anno)

0

1

2

3

4

5

6

5 6 7 8 9 10 11

ln(produzione)

ln(c

osti)

impresa 1

impresa 2

impresa 3

impresa 4

impresa 5

impresa 6

Page 38: Struttura dei dati panel

Stima intercette variabili – Effetti fissi Matrici:

Y matrice X costi dummy 1 dummy 2 dummy 3 dummy 4 dummy 5 dummy 6 prod 1,15 1 0 0 0 0 0 5,37 1,45 1 0 0 0 0 0 6,04 1,52 1 0 0 0 0 0 6,38 1,77 1 0 0 0 0 0 6,93 1,35 0 1 0 0 0 0 6,55 1,71 0 1 0 0 0 0 6,70 2,10 0 1 0 0 0 0 7,40 2,39 0 1 0 0 0 0 7,83 2,95 0 0 1 0 0 0 8,07 3,26 0 0 1 0 0 0 8,48 3,48 0 0 1 0 0 0 8,67 3,72 0 0 1 0 0 0 9,14 3,56 0 0 0 1 0 0 8,64 3,93 0 0 0 1 0 0 8,94 4,11 0 0 0 1 0 0 9,23 4,36 0 0 0 1 0 0 9,53 3,50 0 0 0 0 1 0 8,70 3,69 0 0 0 0 1 0 9,01 3,76 0 0 0 0 1 0 9,05 4,06 0 0 0 0 1 0 9,21 4,29 0 0 0 0 0 1 9,38 4,59 0 0 0 0 0 1 9,65 4,93 0 0 0 0 0 1 10,21 5,26 0 0 0 0 0 1 10,34

Page 39: Struttura dei dati panel

x'x 4 0 0 0 0 0 24,71 0 4 0 0 0 0 28,47 0 0 4 0 0 0 34,35 0 0 0 4 0 0 36,34 0 0 0 0 4 0 35,97 0 0 0 0 0 4 39,58

24,71 28,47 34,35 36,34 35,97 39,58 1699,72

x'x-1 9,43 10,58 12,77 13,50 13,37 14,71 -1,49 10,58 12,44 14,71 15,56 15,40 16,94 -1,71 12,77 14,71 17,99 18,77 18,58 20,44 -2,07 13,50 15,56 18,77 20,10 19,65 21,62 -2,19 13,37 15,40 18,58 19,65 19,71 21,41 -2,16 14,71 16,94 20,44 21,62 21,41 23,80 -2,38 -1,49 -1,71 -2,07 -2,19 -2,16 -2,38 0,24

x'y (x'x)-1x'Y 5,89 -2,694 a1 7,55 -2,912 a2

13,40 -2,440 a3 15,96 -2,134 a4 15,01 -2,311 a5 19,07 -1,904 a6 676,78 0,674 beta

Page 40: Struttura dei dati panel

DIAGNOSTICA: impresa

(i) Tempo

(t) Costi

osservati Costi

stimati Ai beta prod residuo residuo

^2 1 1 1,149 0,925 -2,694 0,674 5,366 0,224 0,050 1 2 1,452 1,378 -2,694 0,674 6,038 0,074 0,006 1 3 1,523 1,606 -2,694 0,674 6,377 -0,084 0,007 1 4 1,766 1,981 -2,694 0,674 6,932 -0,215 0,046 2 1 1,350 1,502 -2,912 0,674 6,545 -0,151 0,023 2 2 1,711 1,605 -2,912 0,674 6,698 0,106 0,011 2 3 2,095 2,080 -2,912 0,674 7,402 0,016 0,000 2 4 2,395 2,365 -2,912 0,674 7,826 0,029 0,001 3 1 2,946 3,003 -2,440 0,674 8,072 -0,056 0,003 3 2 3,260 3,276 -2,440 0,674 8,477 -0,016 0,000 3 3 3,480 3,406 -2,440 0,674 8,669 0,074 0,005 3 4 3,718 3,720 -2,440 0,674 9,135 -0,002 0,000 4 1 3,562 3,693 -2,134 0,674 8,643 -0,131 0,017 4 2 3,934 3,892 -2,134 0,674 8,937 0,042 0,002 4 3 4,112 4,090 -2,134 0,674 9,231 0,022 0,000 4 4 4,355 4,288 -2,134 0,674 9,525 0,067 0,004 5 1 3,501 3,555 -2,311 0,674 8,700 -0,054 0,003 5 2 3,690 3,767 -2,311 0,674 9,015 -0,078 0,006 5 3 3,764 3,789 -2,311 0,674 9,046 -0,025 0,001 5 4 4,056 3,900 -2,311 0,674 9,211 0,156 0,024 6 1 4,291 4,418 -1,904 0,674 9,376 -0,127 0,016 6 2 4,594 4,605 -1,904 0,674 9,652 -0,011 0,000 6 3 4,934 4,982 -1,904 0,674 10,212 -0,048 0,002 6 4 5,255 5,069 -1,904 0,674 10,340 0,186 0,035

RSS= 0,2640619 gdl= NT-N-K 17 S^2 0,0155331

Page 41: Struttura dei dati panel

Lo SQM dei coefficienti è la radice della diagonale di S^2 (X’X)-1 Matrice di var-covar dei coefficienti

0,147 0,164 0,198 0,210 0,208 0,228 -0,023 0,164 0,193 0,228 0,242 0,239 0,263 -0,027 0,198 0,228 0,280 0,292 0,289 0,318 -0,032 0,210 0,242 0,292 0,312 0,305 0,336 -0,034 0,208 0,239 0,289 0,305 0,306 0,333 -0,034 0,228 0,263 0,318 0,336 0,333 0,370 -0,037

-0,023 -0,027 -0,032 -0,034 -0,034 -0,037 0,004 SQM dei coefficienti a1 0,383 a2 0,440 a3 0,529 a4 0,559 a5 0,553 a6 0,608 beta 0,061

Page 42: Struttura dei dati panel

Calcolo di R2 per il modello con intercette variabili:

992375,034,24694,280/2640,01

/12

2222

R

yNyeR ii

Per il modello con unica intercetta:

970686,0632,34/633,42)888,0(

/22

22

R

TTR yyxx

TEST PER LA SIGNIFICATIVITA’ DELLE INTERCETTE USUALE test t:

coeff. sqm test t a1 -2,694 0,383 -7,037 a2 -2,912 0,440 -6,624 a3 -2,440 0,529 -4,615 a4 -2,134 0,559 -3,820 a5 -2,311 0,553 -4,177 a6 -1,904 0,608 -3,130

beta 0,674 0,061 11,030

Page 43: Struttura dei dati panel

IL TEST DICE CHE LE INTERCETTE SONO SIGNIFICATIVAMENTE DIVERSE DA 0 MA E’ PIU’ APPROPRIATO VALUTARE SE TUTTE LE INTERCETTE SONO DIVERSE DA UN QUALCHE VALORE FISSATO (INTERCETTA COMUNE) VALUTIAMO L’INCREMENTO DI VARIANZA SPIEGATA TRA IL MODELLO CON UNICA INTERCETTA (r) E QUELLO NON RISTRETTO (6 INTERCETTE)

)00016,0(708,917/)9924,01(

5/)9707,09924,0(

)/()1()1/()(

)17,5(

2

22

),1(

F

KNNTRNRR

Fu

puKNNTN

L’INCREMENTO DI SPIEGAZIONE E’ SIGNIFICATIVO

Page 44: Struttura dei dati panel

valori previsti e osservati

0,000

1,000

2,000

3,000

4,000

5,000

6,000

5,000 6,000 7,000 8,000 9,000 10,000 11,000

Costi osservati stime I.V. stime Pooled

INFATTI i.v. PREVEDE “MEGLIO”

Page 45: Struttura dei dati panel

INSE impr. 1 impr. 2 impr. 3 impr. 4 impr. 5 impr. 6 anno 2 anno 3 anno 4 prod

1 0 0 0 0 0 0 0 0 5,37 1 0 0 0 0 0 1 0 0 6,04 1 0 0 0 0 0 0 1 0 6,38 1 0 0 0 0 0 0 0 1 6,93 0 1 0 0 0 0 0 0 0 6,55 0 1 0 0 0 0 1 0 0 6,70 0 1 0 0 0 0 0 1 0 7,40 0 1 0 0 0 0 0 0 1 7,83 0 0 1 0 0 0 0 0 0 8,07 0 0 1 0 0 0 1 0 0 8,48 0 0 1 0 0 0 0 1 0 8,67 0 0 1 0 0 0 0 0 1 9,14 0 0 0 1 0 0 0 0 0 8,64 0 0 0 1 0 0 1 0 0 8,94 0 0 0 1 0 0 0 1 0 9,23 0 0 0 1 0 0 0 0 1 9,53 0 0 0 0 1 0 0 0 0 8,70 0 0 0 0 1 0 1 0 0 9,01 0 0 0 0 1 0 0 1 0 9,05 0 0 0 0 1 0 0 0 1 9,21 0 0 0 0 0 1 0 0 0 9,38 0 0 0 0 0 1 1 0 0 9,65 0 0 0 0 0 1 0 1 0 10,21 0 0 0 0 0 1 0 0 1 10,34

INSERIAMO UN EFFETTO VARIABILE NEL TEMPO E COSTANTE TRA GLI INDIVIDUI:

itittiit xy

La matrice X si modifica così (vanno inseriti T-1 effetti tempo per evitare perfetta col linearità e quindi i coeff vanno letti come contrasti rispetti a t=1)

Page 46: Struttura dei dati panel

COEFF -0,035 a1 0,197 a2 1,374 a3 1,917 a4 1,696 a5 2,536 a6 0,238 t2 0,380 t3 0,587 t4 0,195 beta

RSS= 0,12248064 gdl= NT-N-K 17 S^2 0,00720474

VAR/COVAR COEFFICIENTI 0,458 0,532 0,650 0,690 0,683 0,755 0,027 0,056 0,083 -0,081 0,532 0,622 0,758 0,804 0,796 0,881 0,032 0,065 0,097 -0,094 0,650 0,758 0,928 0,984 0,973 1,077 0,039 0,080 0,119 -0,115 0,690 0,804 0,984 1,046 1,033 1,143 0,042 0,085 0,126 -0,122 0,683 0,796 0,973 1,033 1,024 1,131 0,041 0,084 0,125 -0,121 0,755 0,881 1,077 1,143 1,131 1,253 0,046 0,093 0,138 -0,133 0,027 0,032 0,039 0,042 0,041 0,046 0,004 0,005 0,006 -0,005 0,056 0,065 0,080 0,085 0,084 0,093 0,005 0,010 0,012 -0,010 0,083 0,097 0,119 0,126 0,125 0,138 0,006 0,012 0,018 -0,015 -0,081 -0,094 -0,115 -0,122 -0,121 -0,133 -0,005 -0,010 -0,015 0,014

Page 47: Struttura dei dati panel

E quindi... coeff. sqm test t a1 -0,035 0,677 -0,051 a2 0,197 0,788 0,250 a3 1,374 0,964 1,425 a4 1,917 1,023 1,874 a5 1,696 1,012 1,677 a6 2,536 1,119 2,266 t2 0,238 0,065 3,683 t3 0,380 0,097 3,899 t4 0,587 0,134 4,381 beta 0,195 0,119 1,635

R2= 0,996463

Migliore del precedente??? In generale SI’

Page 48: Struttura dei dati panel

valori assoluti dei residui

-0,1

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

osservazioni (i,t)

residuo ti

residuo ai

residuo pooled

Page 49: Struttura dei dati panel

Ma se volessi stimare i valori medi….

Per impresa

Residui calcolati sui valori medi per impresa

-0,3

-0,25

-0,2

-0,15

-0,1

-0,05

0

0,05

0,1

0,15

0,2

1 2 3 4 5 6

impresa

resi

dui residuo ti

residuo ai

residuo pooled

Page 50: Struttura dei dati panel

TOGLIENDO IL “POOLED”

zoom sui Residui calcolati sui valori medi per impresa

-2E-11

-1,5E-11

-1E-11

-5E-12

0

5E-12

1 2 3 4 5 6

impresa

resi

dui residuo ti

residuo ai

I TEMPI FANNO PEGGIORARE LA STIMA

Page 51: Struttura dei dati panel

Valori medi per anno…….

valori assoluti residui

-0,1

-0,08

-0,06

-0,04

-0,02

0

0,02

0,04

0,06

0,08

1 2 3 4

anni

resi

dui residuo ti

residuo ai

residuo pooled

QUI, OVVIAMENTE, SONO LE INTERCETTE VARIABILI CHE PREVEDONO PEGGIO