Modelli per variabili dipendenti limitate

38
Modelli per variabili dipendenti limitate (Limited Dependent Variable Models) (Limited Dependent Variable Models) Logit Probit [Pampel F. (2000), Logistic regression. Sage University Papers. Verbeek M. (2006), Econometria, Zanichelli Stock e Watson, Introduzione all’econometria ] Tobit [Verbeek M. (2006), Wooldridge, Introductory Ec. ] 1 Spesso vogliamo studiare (le determinanti Spesso vogliamo studiare (le determinanti de) la probabilità di un attributo (o evento): esempi: esempi: probabilità (P) di essere disoccupato P di sposarsi P di essere razionati sul mercato del credito P di essere razionati sul mercato del credito P di possedere una casa P PVS di i d ll P per un PVS di ottenere un prestito dalla BM 2

Transcript of Modelli per variabili dipendenti limitate

Page 1: Modelli per variabili dipendenti limitate

Modelli per variabili dipendenti limitate(Limited Dependent Variable Models)(Limited Dependent Variable Models)

• Logitg

• Probit

[Pampel F. (2000), Logistic regression. Sage[ p ( ), g g gUniversity Papers.

Verbeek M. (2006), Econometria, Zanichelli

Stock e Watson, Introduzione all’econometria ]

• Tobit

[Verbeek M. (2006), Wooldridge, Introductory Ec. ]

1

Spesso vogliamo studiare (le determinantiSpesso vogliamo studiare (le determinanti de) la probabilità di un attributo (o evento):

esempi:esempi:probabilità (P) di essere disoccupato P di sposarsiP di essere razionati sul mercato del creditoP di essere razionati sul mercato del creditoP di possedere una casaP PVS di i d llP per un PVS di ottenere un prestito dalla

BM2

Page 2: Modelli per variabili dipendenti limitate

P blProblema:

• Non osserviamo la probabilità

• Osserviamo l’attributo (o evento)• Osserviamo l attributo (o evento)

• Esempi

• Persona disoccupata/non disoccupata

• Persona coniugata/non coniugata

• Impresa razionata/non razionata

• Famiglia proprietaria/non proprietaria dellaFamiglia proprietaria/non proprietaria dellapropria abitazione

3

V i bili di d ti di tVariabili dipendenti discrete

In altri termini, osserviamo la realizzazione di variabili discrete (y) che assumono ildi variabili discrete (y), che assumono il valore

• y=1 se l’evento (attributo) si verificay 1 se l evento (attributo) si verifica

• y=0 se non si verifica

4

Page 3: Modelli per variabili dipendenti limitate

I tInteresse

• P(y=1|X)

Probabilità dell’evento y=1, dato un set di yvariabili esplicative X

5

Li P b bilit M d lLinear Probability Model

byi=a+bxi+ui

• y dummy =1 se la famiglia è proprietaria

• x=reddito

• A) Siccome E(u)=0→ E(yi|xi)=a+bxiA) Siccome E(u) 0→ E(yi|xi) a+bxi

B) inoltre E(yi|xi)= 1*Pr (yi=1|xi)+0*Pr (yi=0|xi)

D A B P ( 1| ) bDa A e B → Pr (yi=1|xi)= a+bxi

valore atteso di y dato xi (valore predetto dalla regressione)b bilità h 1 d t ( diti l b bilit ) h= probabilità che y=1, dato xi (conditional probability), che

dovrebbe essere compresa tra 0 e 1

6

Page 4: Modelli per variabili dipendenti limitate

LPM S tt l tLPM: Scatterplot

Y

• Asse ascisse: valori di x

Y

• Asse ordinate: valori di y

1 . . . . .. . ………

Asse ordinate: valori di y

00 ……… . . . . .

x

7

LPM tt iLPM: retta regressione

• Asse ascisse: x

• Asse ordinate: valori reali di y ed E(y|x) = P(y=1| x)

• Retta di regressione passa 1 . .. . … .. ………g pattraverso i valori reali di y (0-1) nei punti di

i imaggiore concentrazione degli stessi

NOTA BENE l i di

0………. .. … . . .

• NOTA BENE: valori di R^2 bassi x

8

Page 5: Modelli per variabili dipendenti limitate

LPM tt iLPM: retta regressione

• Asse ascisse: x

• Asse ordinate: E(y|x) =Asse ordinate: E(y|x) P(y=1| x)

• valori di R^2 alti solo in casi del genere 1 ………

00……

9

ESEMPIOESEMPIO

• fittedyi=- 0.9457+0.1021 xi

t (-7.7) (12.5)

Intercetta= prob che una famiglia con zero reddito possieda una casa: negativa!!

Coeff di x= per un incremento unitario di x , in media, la prob di possedere una casa aumenta di 0.1021, circa il 10%

10

Page 6: Modelli per variabili dipendenti limitate

PROBLEMIPROBLEMI

PROBLEMI PROBLEMI PROBLEMI DIDIDI INFERENZAINFERENZAINFERENZA PROBLEMI PROBLEMI PROBLEMI DIDIDI FORMA FORMA FORMA FUNZIONALEFUNZIONALEFUNZIONALE

Le assunzioni dinormalità/omoschedasticità degli errori sono

• Predicted probabilitiesillimitate

tà degli errori sonoviolate (residui dicotomi edeteroschedastici)

P(y=1| x) >1

P(y=1| x) < 0)

ui=1-(a+bxi) se yi=1

ui=0-(a+bxi) se yi=0

• Relazione lineare tra probabilità e variabili

li tii ( i) y

Var(ui|xi )=[1- (a+bxi)] (a+bxi)esplicative

11

I ltàIn realtà…

• La relazione tra probabilità e variabili

li ti è ll

Asse ascisse: valori di x

Asse ordinate: P(y=1| x)esplicative è nella maggior parte dei casi NON LINEARE 1

P

• Esempio: se il reddito aumenta di 10000 euro

l à l’i tt llquale sarà l’impatto sulla prob di possedere una casa? DIPENDE dal 0

livello del reddito

12

Page 7: Modelli per variabili dipendenti limitate

Ri it l dRicapitolando:

• abbiamo bisogno che la prob non ecceda i limiti di 0 e 1, e chelimiti di 0 e 1, e che

• la relazione tra probabilità e variabili esplicative sia non lineareesplicative sia non lineare. A tal fine ricorriamo a delle FUNZIONI diRIPARTIZIONE (C l i D iRIPARTIZIONE (Cumulative DensityFunctions).

13

Funzioni di densità di probabilità (pdf) e p (p )funzioni di ripartizione (cdf)

Ad ogni variabile casuale s continua sono associateassociate

• una funzione di densità di probabilità, f(s)

• una funzione di ripartizione, F(s), che descrive la probabilità che la variabiledescrive la probabilità che la variabile casuale (v.c.) sia minore o uguale ad un certo valore [ P(s≤c)=F(c)]certo valore [ P(s≤c)=F(c)]

14

Page 8: Modelli per variabili dipendenti limitate

df dfpdf - cdf

L iLa curva in azzurrorappresenta una Pdf, Cdf, le probabilità sono indicate

sull’asse delle ordinate

1

Valori assunti dalla v.c. s

0

Valori assunti dalla v.c. s

F(-∞)=0

Se s è una v.c. continua e c è un valore che essa può assumere P(s<=c)=F(c) le probabilità sono

15

( )F(∞)=1δF/δs=f(s)≥0

P(s<=c)=F(c), le probabilità sono indicate dalle aree sotto la curva

L lt di F( )La scelta di F(.)

L CDF iù t llLe CDFs più usate sono quellaLOGISTICA e quella NORMALEstandard

16

Page 9: Modelli per variabili dipendenti limitate

Funzione di ripartizione della pdistribuzione logistica standard

F(L)=P=eL/(1+eL)• Asse ascisse: L=a+bx• Asse ordinate: P(y=1| X)

P=1/(1+e-L)(Nota: P è funzione non

Asse ordinate: P(y 1| X)

1(Nota: P è funzione non lineare dei coefficienti, L è funzione lineare dei

coefficienti) 0.5coefficienti)0

0

0.5

L

17

trasformiamo probabilità in plogits

La cd “logit transformation” consta di due stadi:due stadi:

1. Calcolare l’odds ratio =P/(1-P)

= [eL /(1+eL)] (1+eL)= eL

1 Assumere il ln dell’odds ratio1. Assumere il ln dell odds ratio

ln(P/1-P)=L

18

Page 10: Modelli per variabili dipendenti limitate

NON Li P b bilit M d lNON-Linear Probability Model

• Grazie a questa trasformazione possiamoesprimere una relazione lineare tra la nuovavariabile dipendente (espressa in logits “L”) e lavariabile esplicativa x:

L=ln(P/1-P)=a+bx• Tale relazione implica una relazione NON

lineare tra PROBABILITA’ ed x

P=ea+bx/(1+ea+bx)P=eL/(1+eL)

19

( )

LOGIT R iLOGIT: Regressione

L=a+bx+eIl coefficiente b rappresenta la variazione in E(L) al variareIl coefficiente b rappresenta la variazione in E(L) al variare

di x (se x è una variabile continua b è la derivata di E(L)rispetto a x). Gli effetti di x su L sono LINEARI ep )ADDITIVI

L’interpretazione di b è la stessa che viene data in ogni rettadi regressione, MA le unità in cui è misurata la variabiledipendente rendono l’interpretazione degli effetti di xmeno intuitiva

20

Page 11: Modelli per variabili dipendenti limitate

I tInteresse

• Vogliamo conoscere gli effetti di X (reddito) sulla probabilità di possedere una casa (P)su a p obab à d possede e u a casa ( )

Per c i dobbiamo con ertire• Per cui dobbiamo convertire

l’effetto stimato di x su L (cioè b) (δL/ δx)

nell’effetto di x su P (δP/ δx)

21

Ri di hRicordiamo che

la relazione (NON lineare) tra PROBABILITA’ ed xPROBABILITA ed x

èP a+bx/(1+ a+bx)P=ea+bx/(1+ea+bx)δP/ δx=b*P*(1-P)

NB. L’effetto di x su P non è costante: dipende dal livello di P (che a sua voltadipende dal livello di P (che a sua volta

dipende dal livello di x!)

22

Page 12: Modelli per variabili dipendenti limitate

SSe …

P=0.5

δP/ δX b*P*(1 P)δP/ δX=b*P*(1-P)

δP/ δX=b*0.25

massimo effetto

S P t d 1 P t d 0Se P tende a 1 o P tende a 0

l’effetto si riduce

23

Funzione di ripartizione di una pnormale standard

• Asse ascisse: Z=a+bx

• Asse ordinate:

1P=Φ(Z)

ancora una volta, usiamola cdf per ottenere:

1. prob comprese tra 0 e 1,P(y=1| x)

0

Z2. relazione non lineare

Z=Φ-1(P)24

Page 13: Modelli per variabili dipendenti limitate

P bit l iProbit analysis

trasformiamo probabilità (limitate tra 0 e 1)in Z scores (valori critici della distribuzione normalein Z-scores (valori critici della distribuzione normale

standardizzata), che variano tra –infinito e +i fi itinfinito

Z-scores rappresentano la variabile dipendente nelmodello Probitmodello Probit

25

Analogamente a quanto detto per la f i LOGITtrasformazione LOGIT

• Grazie a questa trasformazione possiamo esprimere una relazione lineare tra laesprimere una relazione lineare tra la nuova variabile dipendente (espressa in P bit “Z”) l i bil li tiProbits, “Z”) e la variabile esplicativa x:

Z= Φ-1(P) =a+bx( )

• Tale relazione implica una relazioneNON lineare tra PROBABILITA’ ed xNON lineare tra PROBABILITA ed x

26

Page 14: Modelli per variabili dipendenti limitate

Eff tt i l di PEffetto marginale di x su P

P=Φ(Z)= Φ(a+bx)

δP/ δx=b*f(Z)δP/ δx=b f(Z)

Dove f è la funzione di densità della normalet d di tstandardizzata

NB. L’effetto di x su P non è costante: dipende dal livello di Z (che dipende da x )

27

• Nella grande maggioranza dei casi, iparametri presenti nei modelli conparametri presenti nei modelli convariabile dipendente binaria (più in

l d li it t )generale, con v. d. limitata) vengonostimati usando il metodo della massimaverosimiglianza

28

Page 15: Modelli per variabili dipendenti limitate

Stima di massima verosimiglianzaStima di massima verosimiglianza(maximum likelihood estimation)

• Tale metodo restituisce le stime deiparametri che rendono massima laparametri che rendono massima laprobabilità di osservare le realizzazionid ll i bil di d t bi i ìdella variabile dipendente binaria cosìcome si presentano nel nostro campione

• Lo stimatore di max verosimiglianza (ML)restituisce i valori dei parametri che “piùrestituisce i valori dei parametri che piùverosimilmente” hanno prodotto i dati

29

Il t di t è t t• Il punto di partenza è rappresentatodall’ipotesi che la distribuzione(condizionale) di un fenomeno osservato(la variabile endogena) sia nota, a meno di( g ) ,un numero finito di parametri.

Q ti t i ti ti li d• Questi parametri sono stimati scegliendonei valori in modo da rendere massima laprobabilità – la verosimiglianza - delcampione osservatop

30

Page 16: Modelli per variabili dipendenti limitate

• Funzione di verosimiglianza (FV o LF):distribuzione di probabilità congiunta deidistribuzione di probabilità congiunta deidati, funzione dei coefficienti ignoti

• Lo stimatore ML dei coefficienti ignoti èdato dai valori dei coefficienti chemassimizzano la FV

31

L d 1La procedura, 1

1. Supponiamo di avere un campione di N dati.Innanzitutto bisogna fare delle assunzioni sul

h h t i d ti d ll d lprocesso che ha generato i dati, modellandoloattraverso un’appropriata distribuzione diprobabilità. Comunemente si assume:p– di avere N variabili casuali i.i.d. (indipendent. e

identicamente distribuite) Y[Y1, …YN] e uncorrispondente vettore di realizzazioni (dati osservati)corrispondente vettore di realizzazioni (dati osservati)y=[y1,…yN] estratte da Y

– che tali variabili abbiano una specifica distribuzione dib bili à ( d i l )probabilità (ad esempio normale)

32

Page 17: Modelli per variabili dipendenti limitate

L d 2La procedura, 2

2. Sulla base delle due ipotesi al punto 1, siesprime la probabilità congiunta dellerealizzazioni osservate: si scrive lalikelihood function, LF, distribuzione diprobabilità congiunta dei dati.

LF(θ)=P(y1) *P(y2) *P(y3)…*P(yN)=Π P(yi| θ)LF(θ) P(y1) P(y2) P(y3)… P(yN) Π P(yi| θ)

θ t i i tiθ =parametri ignoti

33

L d 3La procedura, 3

3. Si ottimizza la LF rispetto ai parametri θ. Per rendere più semplice l’ottimizzazione si assume il l it d ll LFil logaritmo della LF .

Nota: Siccome, nella LF, si moltiplicano delle Prob,il prodotto non può eccedere 1 o essere negativoil prodotto non può eccedere 1 o essere negativo.Essendo la likelihood compresa tra 0 e 1, la loglikelihood varia tra – ∞ e zero. Più vicina è lal lik lih d i l b bili h iloglikelihood a 0, maggiore è la probabilità che iparametri stimati possano produrre i datiosservatiosservati.

34

Page 18: Modelli per variabili dipendenti limitate

Nel caso di una variabile dipendente pbinaria (risultati possibili 0 e 1)

Assumendo di avere N osservazioni i.i.d. suAssumendo di avere N osservazioni i.i.d. suvariabili casuali Bernoulli Y [ossia assumendo chela probabilità associata ad ogni osservazione siala probabilità associata ad ogni osservazione siaPi

yi(1-Pi)1-yi] la distribuzione di probabilità congiunta(la likelihood function) è:(la likelihood function) è:

LF=Pr(Y1=y1,…,YN=yN|Xi)= Π[ Piyi (1-Pi)1-yi ]

yi=valore osservato di Y per il caso i, con i=1, …N

Xi= vettore variabili esplicative

Pi=probabilità che yi=1

35

• Nel caso del probit, assumiamo che

P( 1|X) Φ(Z) Φ( +bX)P(yi=1|X)=Φ(Z)=Φ(a+bX)

• Nel caso del logit:

P( | ) a+bX/(1 a+bX)P(yi=1|X)=ea+bX/(1+ea+bX)

36

Page 19: Modelli per variabili dipendenti limitate

i l i i i i lPer ricavare lo stimatore ML, si massimizza talefunzione rispetto ai parametri della regressione. Inrealtà come detto si preferisce massimizzare il suorealtà, come detto, si preferisce massimizzare il suologaritmo (funzione strettamente crescente):

lnLF=LLF=∑{ [ yi*lnPi]+ [ (1-yi)*ln(1-Pi) ] }∑{ [ yi i] [ ( yi) ( i) ] }

• Nel caso del probitlnL=∑{ yi*ln[Φ(a+bXi)]+ (1-yi)*ln[(1-Φ(a+bXi) ] }

37

• Come ogni funzione, la LLF può esseremassimizzata analiticamente usando l’analisimassimizzata analiticamente, usando l analisimatematica (condizioni del primo e del secondoordine). Spesso, però, data la complessità della) p , p , pfunzione, si preferisce ricorrere ad algoritminumerici implementati dai computerS tt di i i li l LF è ifi t• Sotto condizioni generali, se la LF è specificatacorrettamente, è possibile dimostrare che lostimatore ML è consistente, asintoticamentestimatore ML è consistente, asintoticamenteefficiente e normalmente distribuito in grandicampioni (cosicchè la statistica t e gli intervalli di

fid i ffi i ti t iti lconfidenza per i coefficienti sono costruiti nelmodo usuale)

38

Page 20: Modelli per variabili dipendenti limitate

• Condizione fondamentale perché lo stimatore di massimaverosimiglianza sia consistente è che la funzione di

i i li i tt t ifi t È i èverosimiglianza sia correttamente specificata. È cioènecessario essere certi della forma della distribuzioneadottata per le osservazioni. Qualsiasi differenza rispettop Q palla vera distribuzione provoca la perdita della proprietàdi consistenza degli stimatori e questa situazione di solitoinsorge quando la probabilità di y =1 è mal specificatainsorge quando la probabilità di yi=1 è mal specificata

• Di solito errori di questo tipo sono dovutiall’eteroschedasticità o alla non normalità (nel caso(probit) degli errori → importante verificare l’ipotesi diomoschedasticità e normalità

39

Mi di b tà d ll’ d tt tMisure di bontà dell’adattamento

• Le misure di adattamento sono statistichedescrittive che misurano l’accuratezza con la

l il d ll i l i i Alquale il modello approssima le osservazioni. Alcontrario del modello di regressione lineare, incui si calcola l’R2, per i modelli di scelta binaria, pnon esiste un’unica misura di adattamento ai dati.Spesso le misure di adattamento sono basate sulconfronto con n modello che contiene solo laconfronto con un modello che contiene solo lacostante (Pseudo R2 non rappresenta la frazionedi varianza spiegata dal modello, da cuip g ,l’aggettivo pseudo).

40

Page 21: Modelli per variabili dipendenti limitate

P d R2Pseudo R2

Indichiamo con

• logL il valore massimo della funzione di• logL0 il valore massimo della funzione di logverosimiglianza quando tutti i parametri, eccetto l’intercetta vengono posti uguali a zeroeccetto l intercetta, vengono posti uguali a zero

• logL1 il valore massimo della funzione di log erosimiglian a del modello esaminatologverosimiglianza del modello esaminato

logL1≥logL0

41

• Tanto maggiore è la differenza tra i valori dellal i i li i li è l i i f ilogverosimiglianza, tanto migliore è la spiegazione fornitadal modello stesso rispetto al modello completamentevincolato. McFadden 1974 ha proposto la seguente misura:

Pseudo R2=1-logL1/logL0

0≤R2<1à d l L l L ( t tti i ffi i ti β• sarà zero quando logL1=logL0 ( tutti i coefficienti β

stimati sono nulli)• sarà 1 se il modello è in grado di generare probabilità g g p

stimate che corrispondono esattamente ai valori osservati (p^

i=yi per ogni i). In tal caso, infatti, tutte le probabilità nella logverosimiglianza sono pari a 1, e di conseguenza la g g p , glogverosimiglianza (logL1)è nulla

42

Page 22: Modelli per variabili dipendenti limitate

F i tt t d ttFrazione correttamente predetta

Una strategia alternativa consiste nell’usare la seguente regola: si dice che yi è predetto segue e ego a: s d ce c e yi è p ede ocorrettamente

• Se y =1 e la probabilità stimata dal modello (P^)• Se yi 1 e la probabilità stimata dal modello (P ) eccede il 50%

• Se 0 e la probabilità stimata è inferiore al 50%• Se yi=0 e la probabilità stimata è inferiore al 50%

Frazione correttamente predetta è la frazione delle n osservazioni che sono predette correttamente

43

• In genere, viene costruita una tabella a doppia entrata dei risultati osservati e previsti, sulla base della quale è possibile costruire diverse misure di adattamento

• Indichiamo con - n11 il numero di previsioni pari a 1 quando il valore osservato è 1

(corrette); - n10 il numero di previsioni pari a 0 quando il valore osservato è 1

E così via…• Complessivamente la percentuale di previsioni errate è costituita da p p p

wr1= (n01+ n10)/NChe può essere confrontata con la percentuale di previsioni errate di un modello contenente solo l’intercetta (wr0 ).( 0 )Una misura di adattamento è ottenuta come

R2p=1- (wr1/ wr0)

44

Page 23: Modelli per variabili dipendenti limitate

percentuale di previsioni errate di un modellopercentuale di previsioni errate di un modello contenente solo l’intercetta

Per questo modello è facile dimostrare che lo stimatore ML di p è dato da:

p^=N /Np =N1/N (ossia la percentuale di osservazioni uguali a 1 nel

campione), per cui la previsione sarà 1 per tutte le osservazioni se

p^=N1/N >0.5 e sarà zero altrimenti.La percentuale di previsioni errate è:La percentuale di previsioni errate è:wr0=1- p^ se p^ > 0.5 wr0=p^ se p^ ≤ 0.5 0 p pSi noti che wr0 ≤ 0.5, persino il modello più semplice è in

grado di non sbagliare più della metà delle previsioni

45

• In un modello (ad esempio logit) contenente solo l’intercetta ( p g )P=ea/(1+ea) =P costante

• La likelihood function è:LF(P)=Pr(Y1=y1,…,Yn=yn|Xi)= Π[ Pyi (1-P)1-yi ]

lnLF(P)=∑{ [ yi*lnP]+ [ (1-yi)*ln(1-P) ] }=lnLF(P) ∑{ [ yi lnP]+ [ (1 yi) ln(1 P) ] }

= N1lnP+N0 ln(1-P)

Dove N1 è il numero di osservazioni per cui y=1N0 è il numero di osservazioni per cui y=0, N1 +N0=NC di i d l I diCondizione del I ordine:d lnLF(P)/dP = N1 /P - N0 /(1-P)=0(1-P) N1 - P (N0) =0N1-P N1- P N0=0

P= N1/(N1+N0)= N1/N

46

1 ( 1 0) 1

Page 24: Modelli per variabili dipendenti limitate

• Se nel campione il 90% delle osservazioni contenesseSe nel campione il 90% delle osservazioni contenesseyi=1 , wr0=1-0.9= 0.1. Di conseguenza qualsiasi modellodi scelta binaria dovrebbe realizzare più del 90% diprevisioni corrette per poter battere il modello elementareprevisioni corrette per poter battere il modello elementare.Per questo motivo, la percentuale complessiva diprevisioni corrette [1- wr1 = (n11+ n00)/N], chiamata anchetasso di successo non contiene molte informazioni sulletasso di successo, non contiene molte informazioni sulleproprietà del modello.

• Può essere più interessante quindi considerare let li di i i i tt i tt i ipercentuali di previsioni corrette per i sottocampioni con

yi=0 e yi=1P00=n00/N0 p11=n11/N100 00 0 p11 11 1

In un buon modello la loro somma dovrebbe essere >1

47

Interpretazione in termini di modelli pa variabile latente (Verbeek,cap. 7)

• Il modello di scelta binaria può, ma non necessariamentedeve, essere derivato a partire da alcune ipotesicomportamentali strutturalicomportamentali strutturali.

• Consideriamo ad esempio il caso della scelta di lavorare.Possiamo ipotizzare che ogni individuo tragga una certatilità d ll’ t d t tilità d lutilità dall’essere occupato ed una certa utilità dal non

esserlo. La differenza di utilità dipende dal salario maanche da altre caratteristiche individuali osservabili e non

biliosservabili.• Assumendo l’esistenza di una relazione lineare, possiamo

indicare con y* la variabile latente che indica laydifferenza in utilità. Inoltre, indichiamo con x il vettore divariabili (osservate) determinanti la scelta di lavorare.

48

Page 25: Modelli per variabili dipendenti limitate

• Un altro modo di considerare la variabile latente y * è in termini di “propensione a ”latente y è in termini di propensione a , nell’esempio precedente y* sarà la

i l T l ipropensione a lavorare. Tale propensione (non osservabile) genera lo stato osservato (lavora/non lavora)

49

y*i=xi’β+εi

L’i i è h l’i di id l di l l diff• L’ipotesi è che l’individuo scelga di lavorare se la differenza non osservata di utilità (o propensione a lavorare, y*) supera una certa soglia, che solitamente viene posta uguale a zero.

• Costruiamo una dummy: y=1 se l’individuo lavora y=0 se non lavora• Costruiamo una dummy: y=1 se l individuo lavora, y=0 se non lavora• Di conseguenza

P(yi=1|x)= P(yi*>0) = P(εi > -xi’β)

N l d l biNel caso del probit = Φ(xi

’β) dove Ф è la funzione di ripartizione della variabile casuale normale

standardizzata, εi ˜ NID(0, 1)

Nel caso logit si userà la distribuzione logistica standardg g

50

Page 26: Modelli per variabili dipendenti limitate

TOBIT d lTOBIT model

La variabile dipendente:

• è zero per una parte rilevante del campione• è zero per una parte rilevante del campione,

• continua per valori >0

Esempi:

• Spesa in alcolici,

• Spesa in beni durevoli

• Ammontare preso a prestitoAmmontare preso a prestito

51

Tobit model(Wooldridge , Verbeek)

• Assumiamo che la decisione di acquistare dipenda da una variabile nascosta “underlying latent variable” (utilità attribuita al consumo di alcolici…)

• yi*=xi’β+εi dove εi |x ˜ N(0, σ2)i i i i

• yi=yi*= xi’β+εi se yi*>0yi yi xi β εi se yi 0

• yi=0 se yi*<=0

52

Page 27: Modelli per variabili dipendenti limitate

I t t i ffi i tiInterpretazione coefficienti

• β rappresenta l’effetto parziale di x suE(y*|x) dove y* è una variabile latenteE(y |x), dove y è una variabile latente,che spesso non rappresenta il focusd ll’ li idell’analisi.

• Negli esempi di prima il focus èg p pl’ammontare speso in alcolici, l’ammontarepreso a prestitopreso a prestito

53

Il modello Tobit (I) è detto anche modello di i t l i idi regressione censurata: le osservazioni sono censurate (inferiormente) in zero. Il

d ll d i d d f imodello descrive dunque due fenomeni1. La probabilità che y sia uguale a zero (dato p y g (

x)P(yi=0)=P(yi*≤0)=P(εi≤- xi

’β)=P(yi 0) P(yi ≤0) P(εi≤ xi β)=P(εi /σ ≤- xi

’β /σ)=Φ(-xi’β/σ )=

1 ( ’β/ ) (1)=1- Φ(xi’β/σ ) (1)

54

Page 28: Modelli per variabili dipendenti limitate

2. La distribuzione di yi (dato x), condizionatamente al fatto che quest’ultima sia positivaE( | 0 ) ’β E( | ’β)E(yi|yi>0, x)= xi’β+E(εi| εi>- xi’β) =

= xi’β+σ [φ(xi’β/σ ) /Φ(xi

’β/σ ) ] (2)

dove φ è la funzione di densità normale standard. Il termine in parentesi quadra è noto come inverse Mill’s ratio (λ)Il secondo termine rappresenta il valore atteso di unavariabile casuale normale di media nulla,condizionatamente al fatto che il suo valore sia superiore

Èp

a - xi’β. Tale valore atteso è maggiore di zero. È perciòinappropriato limitare l’attenzione alle sole osservazionipositive e stimare un modello lineare per questop p qsottocampione; il valore atteso condizionale di yi non èpiù dato da xi’β, ma dipende da xi anche in modo nonlineare attraverso il secondo termine.

55

lineare attraverso il secondo termine.

• Nota: le formule (1) e (2) si basano su di una ipotesi fondamentale:una ipotesi fondamentale:

εi |x ˜ N(0, σ2)

Bisognerebbe testare la validità di tale ipotesiBisognerebbe testare la validità di tale ipotesi (normalità e omoschedasticità degli errori)

56

Page 29: Modelli per variabili dipendenti limitate

• Dalla (2), E(y|y>0,x), si può ricavare il valore atteso di y (dato x)

E(yi|xi) = E(yi|yi>0, x) * P(yi>0) + 0=={xi’β+σ [φ(xi

’β/σ ) /Φ(xi’β/σ ) ] }* Φ(xi

’β/σ )={ i β [φ( i β ) ( i β ) ] } ( i β )= xi’β Φ(xi

’β/σ ) +σ φ(xi’β/σ )

Riassumendo, abbiamo quindi due valori attesi di particolare interesse: E(y|y>0 x) eparticolare interesse: E(y|y>0,x) e

E(y|x)

57

ff tti i lieffetti parziali

• Dall’espressione 2 si evince che l’effettomarginale di una variazione di x sulmarginale di una variazione di xik sulvalore (medio) di yi, tenendo conto del

i di à di d βmeccanismo di censura, sarà diverso da βk,perché risentirà anche della variazionemarginale del secondo termine che riflettela censura

58

Page 30: Modelli per variabili dipendenti limitate

• δ E(yi|yi>0,xi) / δxik= βk *[fattore che dipende da δ (yi|yi 0, i) / δ ik βk [ a o e c e d pe de dax e da tutti i parametri del modello]

• δ E(yi|xi) / δxik= βk *[fattore che dipende da x e (yi| i) ik βk [ pda tutti i parametri del modello]

Entrambi gli effetti parziali hanno lo stesso segno di g p gβk , ma la grandezza degli effetti dipende dai valori assunti da tutte le variabili esplicative e dai parametri, tra cui σ

59

T bit ITobit I• Il modello Tobit I impone una struttura che spesso è troppo• Il modello Tobit I impone una struttura che spesso è troppo

restrittiva: le variabili che determinano la probabilità diun’osservazione non nulla sono le stesse che influenzano illivello di un’osservazione positiva e per giunta con lolivello di un’osservazione positiva e, per giunta, con lostesso segno

• Ciò implica, per esempio, che gli individui con probabilitàpiù elevata di effettuare una spesa positiva sono anchequelli che, in media, spendono di più in questo bene. Cisono casi in cui questo non è vero. Considerando, adq ,esempio, la spesa per vacanze, è ragionevole immaginareche le famiglie con molti figli abbiano minore probabilitàdi effettuare una spesa positiva, ma che se iniziano unap p ,vacanza, il livello atteso delle spese di queste famiglie siapiù elevato

60

Page 31: Modelli per variabili dipendenti limitate

T bit IITobit II

• Il c.d. Tobit II (Heckman selection model) consente di superare questo limite. In tale modello probabilità di

>0 d il li ll di t tt ti dosservare y>0 ed il livello di y sono trattati come due decisioni separate, sebbene non indipendenti.

• Vengono considerate due variabili latenti:Vengono considerate due variabili latenti:yi*=x1i

’β1+ε1i (main process)

hi*=x2i’β2+ε2i (selection process)

• ε1i , ε2i sono distribuiti come una normale bivariata, con ,valore atteso nullo, varianza σ1

2 e σ22, e covarianza σ12

• i segni e le grandezze dei coefficienti beta possono essere diversi fra le due equazioni

61diversi fra le due equazioni

• La regola di osservazione è data da:

* ’β + h *>0yi=y*= x1i β1+ε1i se hi*>0

yi=0 se hi*≤0yi i

• Il processo di selezione è un probit, per cui si normalizza σ 2=1si normalizza σ2

2=1

• Indichiamo con hi una variabile dummy, che assume il valore 1 se hi

*>0, zero altrimenti

62

Page 32: Modelli per variabili dipendenti limitate

Il valore atteso di y, condizionale al fatto che h 1 è d t dh=1 è dato da

E(yi| hi=1) = x1i’β1+E(ε1i| hi=1)== x1i’β+E( ε1i| ε2i >- x2i’β2)=1i β ( 1i| 2i 2i β2)= x1i’β+ σ12[φ(x2i

’β2) /Φ(x2i’β2) ]

σ12=ρ 12 σ1

ρ 12=coefficiente di correlazione tra gli errori

63(Per maggiori dettagli si veda Verbeek, pag 205)

• Se σ12=ρ 12=0 il valore atteso condizionaleè pari x ’β ossia se i termini di erroreè pari x1i β1, ossia se i termini di erroresono incorrelati, la main equation può

ti t i i i t tessere stimata in maniera consistenteusando il metodo dei minimi quadrati.

• Se σ12≠0 lo stimatore OLS sarà distorto

64

Page 33: Modelli per variabili dipendenti limitate

• Il modello Tobit II è chiamato anche modello di selezione campionaria• Il modello Tobit II è chiamato anche modello di selezione campionaria (Heckman selection model): può fornire una soluzione adeguata ad alcune forme di distorsione da selezione campionaria

• Supponiamo di essere interessati alla spiegazione dei salari. La nostraSupponiamo di essere interessati alla spiegazione dei salari. La nostravariabile dipendente, w, è ovviamente osservata solo per coloro i qualilavorano, ma per scopi di analisi economica siamo spesso interessati aisalari (potenziali) non condizionati da questa regola di selezione. Per

i i i i l h i bil t bb id ilesempio: una variazione in qualche variabile x potrebbe ridurre ilsalario di qualcuno al punto da indurlo a decidere di smettere dilavorare. Di conseguenza il suo salario non verrebbe più osservato el’effetto di x potrebbe essere sottostimato nei dati disponibili. Dato chel effetto di x potrebbe essere sottostimato nei dati disponibili. Dato cheil campione di lavoratori può non costituire un campione casuale dellapopolazione (dei potenziali lavoratori) – in particolare è lecitoattendersi che gli indicidui con w (potenziali) più bassi tendano

i t d di ti t bl i d fi itmaggiormente ad essere disoccupati – questo problema viene definitoproblema di selezione campionaria

65

• In linea di principio le variabili incluse nei vettori x1 e x2 possono essere diverse mavettori x1 e x2 possono essere diverse, ma è necessario fare molta attenzione (si veda

iù ti)più avanti)

• Il termine [φ(x2i’β2) /Φ(x2i

’β2) ] è noto[φ( 2i β2) ( 2i β2) ]come inverso del rapporto di Mill (inverseMill’s ratio) Siccome Heckman (1979) loMill s ratio). Siccome Heckman (1979) loha indicato con λ, viene anche chiamatol bd di H klambda di Heckman.

66

Page 34: Modelli per variabili dipendenti limitate

Key insightsf H k (1979) E iof Heckman (1979) Econometrica paper

• Un modo di pensare al selection problem è intermini di omitted variable problem.e d o ed va ab e p ob e .

• Una stima di tale variabile risolverebbel’omissione e quindi il problema di selezionel omissione e, quindi, il problema di selezione

• Unico elemento ignoto in λ è β2, che può esserestimato applicando la proced ra di Massimastimato applicando la procedura di MassimaVerosimiglianza al modello probit di selezione

67

Metodi di stima

1 T t ti ti D t H k1. Two step estimation. Dovuto a Heckman (1979), per questo è talvolta chiamato "Heckman two-step" method.

2 ML estimation2. ML estimation

68

Page 35: Modelli per variabili dipendenti limitate

T t ti tiTwo step estimation

• Primo stadio: Si stima la selection equation con un modello probit usando tutte lecon un modello probit, usando tutte le osservazioni. Le stime di β2 di questo

bit t t iprobit vengono usate per costruire una stima consistente dell’ inverse Mills ratio (λ^)

69

• Secondo stadio: l’outcome equation è stimata by OLS, aggiungendo al set di regressori il valore O S, agg u ge do a se d eg esso va o estimato dell’inverse Mills ratio (λ ^)

w = x’ β1 + θ λ ^ + ew x 1 β1 + θ λ + e

(θ =σ12)

i i b ll i iQuesta stima si basa sulle osservazioni “uncensored” e produce stimatori consistenti e

i i li β θasintoticamente normali per β1 e θ.

70

Page 36: Modelli per variabili dipendenti limitate

• il coefficiente dell’inverse Mills ratio è una stima• il coefficiente dell inverse Mills ratio è una stima della covarianza σ12=ρ 12 σ1 . Siccome σ1 > 0, il segno di questo coefficiente è lo stesso del segnosegno di questo coefficiente è lo stesso del segno di ρ 12 . Perciò, una covarianza positiva indica che è presente eterogenità non osservata che influisce p gpositivamente sia sul livello della variabile dipendente che sulla probabilità che essa sia >0.

• Lo standard t-test dell’ipotesi nulla θ = 0 è un test dell’ipotesi nulla che non ci sia selection bias

71

P bl i di i fProblemi di inferenza

• The inverse Mill’s ratio è un regressore generatogenerato

• Inoltre, se c’è selection bias, sorge un problema di eteroschedasticità.

• Heckman (1979) include uno stimatoreHeckman (1979) include uno stimatore consistente della varianza in presenza di tali problemi (Greene) Stata produce glitali problemi (Greene). Stata produce gli SE corretti automaticamente.

72

Page 37: Modelli per variabili dipendenti limitate

E l i t i tiExclusion restrictions

• Il modello Tobit II è formalmente identificatoanche se x1 = x2. L’identificazione è dovuta, int l ll li ità d ll’i Mill’tal caso, alla non-linearità dell’inverse Mill’sratio.

• Però se x = x si può generare una sostanziale• Però, se x1 x2 si può generare una sostanzialecorrelazione tra il termine dell’inverse Mill’sratio (stimato) e il set rimanente delle covariate

ll i bi di inell’outcome equation → c’è bisogno di imporredelle “exclusion restrictions“ (individuarevariabili che appartengono alla selection ma nonvariabili che appartengono alla selection ma nonalla outcome equation)

73

• L’inclusione in x2 di variabili aggiuntiverispetto a quelle in x1 può essererispetto a quelle in x1 può essereimportante per garantire la proprietà diid tifi i l d hidentificazione al secondo passo, anche sespesso non è chiaro quali variabili possanoessere candidate naturali a questo scopo, equalsiasi scelta può essere criticata.q p

74

Page 38: Modelli per variabili dipendenti limitate

Lo stimatore two-step• non è efficiente, o è e c e te,• ma in compenso è semplice da un punto di vista

computazionale • è consistenteLo stimatore ML:• è efficiente, assumendo che la bivariate normal

assumption sia correttali h il h f i l f• ma “relies more heavily on the functional form

assumption and so is less robust than the two-step method”;step method ;

• talvolta presenta problemi di convergenza

75