Inferenza Statistica Classica: Verosimiglianza e Stima...

Post on 03-Aug-2020

11 views 0 download

Transcript of Inferenza Statistica Classica: Verosimiglianza e Stima...

Inferenza Statistica Classica:Verosimiglianza e Stima Puntuale

Patrizio Frederic

Dipartimento di Economia Politica,Universita di Modena e Reggio Emilia,

patrizio.frederic@unimore.it

Eco.Progr.

Frederic (Dip.Econom) Inferenza Eco.Progr. 1 / 94

Indice

1 Fatti e congetture

2 Stimatori e Stima

3 Misure di verosimiglianza

4 Modelli multiparametrici

5 Misure di informazione

6 Modelli lineari

7 Modelli Lineari Generalizzati (GLM)Un modello logitIl modello di Poisson

8 Alta dimensionalita

Frederic (Dip.Econom) Inferenza Eco.Progr. 2 / 94

Fatti e congetture

Inferenza diretta e inferenza inversa.

“Uscira “6” dal lancio di questo dado”

“Questo dado e truccato.”

“Sapendo che A ha contratto la patologia X, A ha la febbre.”

“Sapendo che A ha la febbre, A ha contratto X.”

“L’indice Down Jones tra 3 ore quotera 13.100”

“La riduzione del costo del denaro incide del p% sul Down Jones.”

“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”

“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”

Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94

Fatti e congetture

Inferenza diretta e inferenza inversa.

“Uscira “6” dal lancio di questo dado”

“Questo dado e truccato.”

“Sapendo che A ha contratto la patologia X, A ha la febbre.”

“Sapendo che A ha la febbre, A ha contratto X.”

“L’indice Down Jones tra 3 ore quotera 13.100”

“La riduzione del costo del denaro incide del p% sul Down Jones.”

“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”

“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”

Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94

Fatti e congetture

Inferenza diretta e inferenza inversa.

“Uscira “6” dal lancio di questo dado”

“Questo dado e truccato.”

“Sapendo che A ha contratto la patologia X, A ha la febbre.”

“Sapendo che A ha la febbre, A ha contratto X.”

“L’indice Down Jones tra 3 ore quotera 13.100”

“La riduzione del costo del denaro incide del p% sul Down Jones.”

“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”

“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”

Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94

Fatti e congetture

Inferenza diretta e inferenza inversa.

“Uscira “6” dal lancio di questo dado”

“Questo dado e truccato.”

“Sapendo che A ha contratto la patologia X, A ha la febbre.”

“Sapendo che A ha la febbre, A ha contratto X.”

“L’indice Down Jones tra 3 ore quotera 13.100”

“La riduzione del costo del denaro incide del p% sul Down Jones.”

“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”

“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”

Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94

Fatti e congetture

Inferenza diretta e inferenza inversa.

“Uscira “6” dal lancio di questo dado”

“Questo dado e truccato.”

“Sapendo che A ha contratto la patologia X, A ha la febbre.”

“Sapendo che A ha la febbre, A ha contratto X.”

“L’indice Down Jones tra 3 ore quotera 13.100”

“La riduzione del costo del denaro incide del p% sul Down Jones.”

“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”

“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”

Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94

Fatti e congetture

Inferenza diretta e inferenza inversa.

“Uscira “6” dal lancio di questo dado”

“Questo dado e truccato.”

“Sapendo che A ha contratto la patologia X, A ha la febbre.”

“Sapendo che A ha la febbre, A ha contratto X.”

“L’indice Down Jones tra 3 ore quotera 13.100”

“La riduzione del costo del denaro incide del p% sul Down Jones.”

“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”

“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”

Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94

Fatti e congetture

Inferenza diretta e inferenza inversa.

“Uscira “6” dal lancio di questo dado”

“Questo dado e truccato.”

“Sapendo che A ha contratto la patologia X, A ha la febbre.”

“Sapendo che A ha la febbre, A ha contratto X.”

“L’indice Down Jones tra 3 ore quotera 13.100”

“La riduzione del costo del denaro incide del p% sul Down Jones.”

“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”

“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”

Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94

Fatti e congetture

Inferenza diretta e inferenza inversa.

“Uscira “6” dal lancio di questo dado”

“Questo dado e truccato.”

“Sapendo che A ha contratto la patologia X, A ha la febbre.”

“Sapendo che A ha la febbre, A ha contratto X.”

“L’indice Down Jones tra 3 ore quotera 13.100”

“La riduzione del costo del denaro incide del p% sul Down Jones.”

“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”

“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”

Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94

Stimatori e Stima

Stimatore e stima

Siano X = (X1, ..., Xn) n VA IID, Xi ∼ L (θ) e sia h una funzione,

h : X→ Θ, h(X) = θ

Allora h e detto uno stimatore per θ.Sia x = (x1, ..., xn) realizzazione di X e sia h uno stimatore allora h(x) edetta la stima di θ.Esempio Siano X = (X1, ..., Xn) n VA IID, X ∼ Ber(θ), con θ incognito

h(X) =X1 + ...+Xn

n

Se n = 5, x = (0, 1, 1, 0, 1) allora

h(x) =3

5= 0.6

Frederic (Dip.Econom) Inferenza Eco.Progr. 4 / 94

Stimatori e Stima

Correttezza di uno stimatore

Siano X = (X1, ..., Xn) n VA IID, Xi ∼ L (θ) e sia h uno stimatore per θ.Si dice che h e corretto se

E(h(X)) = θ

Frederic (Dip.Econom) Inferenza Eco.Progr. 5 / 94

Stimatori e Stima

Correttezza di uno stimatoreEsempio

Siano X = (X1, ..., Xn) n VA IID, X ∼ Ber(θ), con θ incognito. Siano

h(X) =X1 + ...+Xn

n; h∗(X) =

X2 + ...+Xn−2

n

Se n = 5, x = (0, 1, 1, 0, 1) allora

h(x) =3

5= 0.6; h∗(x) =

2

5= 0.4

Il valore atteso

E(h(X)) = E

(X1 + ...+Xn

n

)=

1

nE(X1 + ...+Xn)

=1

n(E(X1) + ...+ E(Xn)) = θ

E(h∗(X)) = E

(X2 + ...+Xn−1

n

)=

1

nE(X2 + ...+Xn−1)

=1

n(E(X1) + ...+ E(Xn−1)) =

n− 2

Frederic (Dip.Econom) Inferenza Eco.Progr. 6 / 94

Stimatori e Stima

Efficienza di uno stimatore

Siano X = (X1, ..., Xn) n VA IID, Xi ∼ L (θ) e sia h uno stimatore per θ.Si definisce il Mean Square Error, MSE, la quantita

MSE(h) = E((h(X)− θ)2)

= V (h(X)) +B2(h(X))

doveB2(h(X)) =

(E(h(X)

)− θ)2

Siano h e h∗ due stimatori, diremo che h e piu efficiente di h∗ se

MSE(h) < MSE(h∗)

Frederic (Dip.Econom) Inferenza Eco.Progr. 7 / 94

Stimatori e Stima

Efficienza di uno stimatoreEsempio

Siano X = (X1, ..., Xn) n VA IID, X ∼ Ber(θ), con θ incognito. Siano

h(X) =X1 + ...+Xn

n; h∗(X) =

X2 + ...+Xn−2

n

L’efficienza:

MSE(h(X)) = V

(X1 + ...+Xn

n

)=

1

n2V (X1 + ...+Xn)

=1

n2(V (X1) + ...+ V (Xn)) =

θ(1− θ)n

MSE(h∗(X)) = V

(X2 + ...+Xn−1

n

)+B2(h∗(X))

=1

n2V (X2 + ...+Xn−1) +

(θ − n− 2

)=

n− 2

n2θ(1− θ) + (2θ/n)2

Frederic (Dip.Econom) Inferenza Eco.Progr. 8 / 94

Stimatori e Stima

Confronto efficienza.

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.05

0.10

0.15

pi

MS

E

Frederic (Dip.Econom) Inferenza Eco.Progr. 9 / 94

Stimatori e Stima

Consistenza di uno stimatore

Siano X = (X1, ..., Xn) n VA IID, Xi ∼ L (θ) e sia h uno stimatore per θ.Si dice che h e consistente per θ, se

h(X)L2

−→ θ

Teorema SeMSE(h(X))→ 0, per n→∞

allora h e consistente.

Frederic (Dip.Econom) Inferenza Eco.Progr. 10 / 94

Stimatori e Stima

Consistenza di uno stimatoreEsempio

Siano X = (X1, ..., Xn) n VA IID, X ∼ Ber(θ), con θ incognito. Siano

h(X) =X1 + ...+Xn

n; h∗(X) =

X2 + ...+Xn−2

n

L’efficienza:

MSE(h(X)) =θ(1− θ)

n→ 0, se n→∞

MSE(h∗(X)) =n− 2

n2θ(1− θ) + (2θ/n)2 → 0, se n→∞

Frederic (Dip.Econom) Inferenza Eco.Progr. 11 / 94

Misure di verosimiglianza

Esiste lo stimatore piu efficiente?

Siano X = (X1, ..., Xn) n VA IID. Ci chiediamo se esiste uno stimatore htale che

MSE(h) < MSE(h∗), per ogni h∗ 6= h

Per rispondere dobbiamo introdurre il concetto di verosimiglianza.Sia X = (X1, ..., Xn) n VA IID Xi ∼ L (θ) si definisce funzione diverosimiglianza la funzione in θ

L(θ; x) = Const.P (X = x; θ)

∝n∏i=1

P (Xi = xi; θ)

Nota la funzione di verosimiglianza non e una probabilita su θ ma alla lucedi x mi dice quando e verosimile un valore di θ.Tanto piu e alta la probabilita che P (X = x; θ) tanto piu θ e verosimile

Frederic (Dip.Econom) Inferenza Eco.Progr. 12 / 94

Misure di verosimiglianza

Probabilita e Inferenza

Problema di probabilita

So com’e fatta l’urna (conosco θ = θ0), con quale probabilita estraggoSn = sn?

P (Sn = sn; θ = θ0)

Problema di Inferenza

Ho ottenuto Sn = sn, quanto e verosimile θ = θ0?

L(θ0;Sn = sn)

Frederic (Dip.Econom) Inferenza Eco.Progr. 13 / 94

Misure di verosimiglianza

Esempio binomiale

Supponiamo n = 10, Xi ∼ Ber(θ), e x = (0, 1, 1, 0, 1, 1, 1, 1, 0, 1)

Nota che in ipotesi IID x e equivalente a sn =∑xi = 7

Definiamo L(θ;Sn) = L(θ) la funzione di verosimiglianza per θ

L(θ) = Const · P (Sn = sn; θ)

Posto Sn = 7, n = 10, la verosimiglianza per alcuni valori di θ

L(θ = 0.00;Sn = 7) = 0

L(θ = 0.10;Sn = 7) < 10−5

L(θ = 0.50;Sn = 7) = 0.1172

L(θ = 0.70;Sn = 7) = 0.2668

L(θ = 0.95;Sn = 7) = 0.0105

L(θ = 1.00;Sn = 7) = 0.

Frederic (Dip.Econom) Inferenza Eco.Progr. 14 / 94

Misure di verosimiglianza

Esempio binomiale

Supponiamo n = 10, Xi ∼ Ber(θ), e x = (0, 1, 1, 0, 1, 1, 1, 1, 0, 1)

Nota che in ipotesi IID x e equivalente a sn =∑xi = 7

Definiamo L(θ;Sn) = L(θ) la funzione di verosimiglianza per θ

L(θ) = Const · P (Sn = sn; θ)

Posto Sn = 7, n = 10, la verosimiglianza per alcuni valori di θ

L(θ = 0.00;Sn = 7) = 0

L(θ = 0.10;Sn = 7) < 10−5

L(θ = 0.50;Sn = 7) = 0.1172

L(θ = 0.70;Sn = 7) = 0.2668

L(θ = 0.95;Sn = 7) = 0.0105

L(θ = 1.00;Sn = 7) = 0.

Frederic (Dip.Econom) Inferenza Eco.Progr. 14 / 94

Misure di verosimiglianza

Esempio binomiale

Supponiamo n = 10, Xi ∼ Ber(θ), e x = (0, 1, 1, 0, 1, 1, 1, 1, 0, 1)

Nota che in ipotesi IID x e equivalente a sn =∑xi = 7

Definiamo L(θ;Sn) = L(θ) la funzione di verosimiglianza per θ

L(θ) = Const · P (Sn = sn; θ)

Posto Sn = 7, n = 10, la verosimiglianza per alcuni valori di θ

L(θ = 0.00;Sn = 7) = 0

L(θ = 0.10;Sn = 7) < 10−5

L(θ = 0.50;Sn = 7) = 0.1172

L(θ = 0.70;Sn = 7) = 0.2668

L(θ = 0.95;Sn = 7) = 0.0105

L(θ = 1.00;Sn = 7) = 0.

Frederic (Dip.Econom) Inferenza Eco.Progr. 14 / 94

Misure di verosimiglianza

Esempio binomiale

Supponiamo n = 10, Xi ∼ Ber(θ), e x = (0, 1, 1, 0, 1, 1, 1, 1, 0, 1)

Nota che in ipotesi IID x e equivalente a sn =∑xi = 7

Definiamo L(θ;Sn) = L(θ) la funzione di verosimiglianza per θ

L(θ) = Const · P (Sn = sn; θ)

Posto Sn = 7, n = 10, la verosimiglianza per alcuni valori di θ

L(θ = 0.00;Sn = 7) = 0

L(θ = 0.10;Sn = 7) < 10−5

L(θ = 0.50;Sn = 7) = 0.1172

L(θ = 0.70;Sn = 7) = 0.2668

L(θ = 0.95;Sn = 7) = 0.0105

L(θ = 1.00;Sn = 7) = 0.

Frederic (Dip.Econom) Inferenza Eco.Progr. 14 / 94

Misure di verosimiglianza

La funzione di verosimiglianza con Const = 1

theta

lik (x)

0.0 0.5 0.7 1.0

0.000

00.0

005

0.001

00.0

015

0.002

0

Frederic (Dip.Econom) Inferenza Eco.Progr. 15 / 94

Misure di verosimiglianza

Lo stimatore di massima verosimiglianza

Definiamo:θ = argmax

θ∈ΘL(θ)

Qui Θ = [0, 1]

Nel caso Bernoulli:

θ =snn

=7

10= 0.7

Frederic (Dip.Econom) Inferenza Eco.Progr. 16 / 94

Misure di verosimiglianza

Lo stimatore di massima verosimiglianza

Definiamo:θ = argmax

θ∈ΘL(θ)

Qui Θ = [0, 1]

Nel caso Bernoulli:

θ =snn

=7

10= 0.7

Frederic (Dip.Econom) Inferenza Eco.Progr. 16 / 94

Misure di verosimiglianza

Lo stimatore di massima verosimiglianza

Definiamo:θ = argmax

θ∈ΘL(θ)

Qui Θ = [0, 1]

Nel caso Bernoulli:

θ =snn

=7

10= 0.7

Frederic (Dip.Econom) Inferenza Eco.Progr. 16 / 94

Misure di verosimiglianza

La funzione di verosimiglianza con L−1(θ)

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

x

likn (x

)

Frederic (Dip.Econom) Inferenza Eco.Progr. 17 / 94

Misure di verosimiglianza

La log-verosimiglianza e misure collegate

Definiamo la funzione di log-verosimiglianza:

`(θ) = logL(θ)

Notaθ = argmax

θ∈ΘL(θ) = argmax

θ∈Θ`(θ)

definiamo la funzione score

s(θ) =d

dθ`(θ) = `′(θ)

definiamo l’informazione di Fisher osservata:

I = −(d2

dθ2`(θ)

∣∣∣∣θ=θ

)= (`′′(θ))

Frederic (Dip.Econom) Inferenza Eco.Progr. 18 / 94

Misure di verosimiglianza

La log-verosimiglianza e misure collegate

Definiamo la funzione di log-verosimiglianza:

`(θ) = logL(θ)

Notaθ = argmax

θ∈ΘL(θ) = argmax

θ∈Θ`(θ)

definiamo la funzione score

s(θ) =d

dθ`(θ) = `′(θ)

definiamo l’informazione di Fisher osservata:

I = −(d2

dθ2`(θ)

∣∣∣∣θ=θ

)= (`′′(θ))

Frederic (Dip.Econom) Inferenza Eco.Progr. 18 / 94

Misure di verosimiglianza

La log-verosimiglianza e misure collegate

Definiamo la funzione di log-verosimiglianza:

`(θ) = logL(θ)

Notaθ = argmax

θ∈ΘL(θ) = argmax

θ∈Θ`(θ)

definiamo la funzione score

s(θ) =d

dθ`(θ) = `′(θ)

definiamo l’informazione di Fisher osservata:

I = −(d2

dθ2`(θ)

∣∣∣∣θ=θ

)= (`′′(θ))

Frederic (Dip.Econom) Inferenza Eco.Progr. 18 / 94

Misure di verosimiglianza

La log-verosimiglianza e misure collegate

Definiamo la funzione di log-verosimiglianza:

`(θ) = logL(θ)

Notaθ = argmax

θ∈ΘL(θ) = argmax

θ∈Θ`(θ)

definiamo la funzione score

s(θ) =d

dθ`(θ) = `′(θ)

definiamo l’informazione di Fisher osservata:

I = −(d2

dθ2`(θ)

∣∣∣∣θ=θ

)= (`′′(θ))

Frederic (Dip.Econom) Inferenza Eco.Progr. 18 / 94

Misure di verosimiglianza

La funzione di log-verosimiglianza

x

llikn (

x)

0.0 0.5 0.7 1.0

−25

−20

−15

−10

−50

log−liks(0.5)l(thetahat)

Frederic (Dip.Econom) Inferenza Eco.Progr. 19 / 94

Misure di verosimiglianza

Verosimiglianza, log verosimiglianza, e score nel caso Bernoulli

La verosimiglianza:

L(θ) ∝(n

sn

)θsn(1− θ)n−sn

∝ Const θsn(1− θ)n−sn

La log-verosimiglianza:

`(θ) = logConst+ sn log θ + (n− sn) log(1− θ)

La score function

s(θ) = `′(θ) =snθ− n− sn

1− θ

Frederic (Dip.Econom) Inferenza Eco.Progr. 20 / 94

Misure di verosimiglianza

Verosimiglianza, log verosimiglianza, e score nel caso Bernoulli

La verosimiglianza:

L(θ) ∝(n

sn

)θsn(1− θ)n−sn

∝ Const θsn(1− θ)n−sn

La log-verosimiglianza:

`(θ) = logConst+ sn log θ + (n− sn) log(1− θ)

La score function

s(θ) = `′(θ) =snθ− n− sn

1− θ

Frederic (Dip.Econom) Inferenza Eco.Progr. 20 / 94

Misure di verosimiglianza

Verosimiglianza, log verosimiglianza, e score nel caso Bernoulli

La verosimiglianza:

L(θ) ∝(n

sn

)θsn(1− θ)n−sn

∝ Const θsn(1− θ)n−sn

La log-verosimiglianza:

`(θ) = logConst+ sn log θ + (n− sn) log(1− θ)

La score function

s(θ) = `′(θ) =snθ− n− sn

1− θ

Frederic (Dip.Econom) Inferenza Eco.Progr. 20 / 94

Misure di verosimiglianza

Informazione nel caso Bernoulli

La derivata seconda:

`′′(θ) = −snθ2

+n− sn

(1− θ)2

L’informazione di Fisher osservata e:

I = −`′′(θ)

= − −(nθ2 − 2snθ + sn)

θ2(1− θ)2

∣∣∣∣θ=θ

= n1

θ(1− θ)= nvar−1(x)

Se sn = 7 e n = 10, allora

I =10

0.7 · (1− 0.7)= 47.61905

Frederic (Dip.Econom) Inferenza Eco.Progr. 21 / 94

Misure di verosimiglianza

Informazione nel caso Bernoulli

La derivata seconda:

`′′(θ) = −snθ2

+n− sn

(1− θ)2

L’informazione di Fisher osservata e:

I = −`′′(θ)

= − −(nθ2 − 2snθ + sn)

θ2(1− θ)2

∣∣∣∣θ=θ

= n1

θ(1− θ)= nvar−1(x)

Se sn = 7 e n = 10, allora

I =10

0.7 · (1− 0.7)= 47.61905

Frederic (Dip.Econom) Inferenza Eco.Progr. 21 / 94

Misure di verosimiglianza

Informazione nel caso Bernoulli

La derivata seconda:

`′′(θ) = −snθ2

+n− sn

(1− θ)2

L’informazione di Fisher osservata e:

I = −`′′(θ)

= − −(nθ2 − 2snθ + sn)

θ2(1− θ)2

∣∣∣∣θ=θ

= n1

θ(1− θ)= nvar−1(x)

Se sn = 7 e n = 10, allora

I =10

0.7 · (1− 0.7)= 47.61905

Frederic (Dip.Econom) Inferenza Eco.Progr. 21 / 94

Misure di verosimiglianza

Se n cresce e sn/n rimane costante...

Si considerino le seguenti situazioni:

sn = 7 n = 10

sn = 70 n = 100

sn = 700 n = 1000

la stima di massima verosimiglianza rimane invariata

θ = sn/n = 0.7

L’informazione di Fisher cambia:

sn = 7 n = 10 I = 10 · (0.7 · 0.3)−1 = 47.6372

sn = 70 n = 100 I = 100 · (0.7 · 0.3)−1 = 476.372

sn = 700 n = 1000 I = 1000 · (0.7 · 0.3)−1 = 4763.72

Frederic (Dip.Econom) Inferenza Eco.Progr. 22 / 94

Misure di verosimiglianza

Se n cresce e sn/n rimane costante...

Si considerino le seguenti situazioni:

sn = 7 n = 10

sn = 70 n = 100

sn = 700 n = 1000

la stima di massima verosimiglianza rimane invariata

θ = sn/n = 0.7

L’informazione di Fisher cambia:

sn = 7 n = 10 I = 10 · (0.7 · 0.3)−1 = 47.6372

sn = 70 n = 100 I = 100 · (0.7 · 0.3)−1 = 476.372

sn = 700 n = 1000 I = 1000 · (0.7 · 0.3)−1 = 4763.72

Frederic (Dip.Econom) Inferenza Eco.Progr. 22 / 94

Misure di verosimiglianza

La funzione di log-verosimiglianza a parita di sn con n crescente

0.0 0.2 0.4 0.6 0.8 1.0

−25

−20

−15

−10

−50

x

llikn (

x)

Frederic (Dip.Econom) Inferenza Eco.Progr. 23 / 94

Misure di verosimiglianza

Ricapitoliamo

x = (X1, ..., Xn) VC e x = (x1, ..., xn) sua realizzazione

p(x; θ) distribuzione congiunta di x, ovvero:

p(x; θ) =

{P (X1 = x1 ∩ ... ∩Xn = xn; θ), Se X discreta

fX(x1, ..., xn; θ), Se X continua, fX densita

Se X IID allora Xi ∼ X

p(x; θ) =n∏i=1

p(xi)

La verosimiglianza per θ e data

L(θ) ∝ p(x; θ); `(θ) = log p(x; θ)

e se X IID allora

L(θ) ∝n∏i=1

p(xi); `(θ) =

n∑i=1

log p(xi; θ)

Frederic (Dip.Econom) Inferenza Eco.Progr. 24 / 94

Misure di verosimiglianza

Ricapitoliamo

x = (X1, ..., Xn) VC e x = (x1, ..., xn) sua realizzazionep(x; θ) distribuzione congiunta di x, ovvero:

p(x; θ) =

{P (X1 = x1 ∩ ... ∩Xn = xn; θ), Se X discreta

fX(x1, ..., xn; θ), Se X continua, fX densita

Se X IID allora Xi ∼ X

p(x; θ) =n∏i=1

p(xi)

La verosimiglianza per θ e data

L(θ) ∝ p(x; θ); `(θ) = log p(x; θ)

e se X IID allora

L(θ) ∝n∏i=1

p(xi); `(θ) =

n∑i=1

log p(xi; θ)

Frederic (Dip.Econom) Inferenza Eco.Progr. 24 / 94

Misure di verosimiglianza

Ricapitoliamo

x = (X1, ..., Xn) VC e x = (x1, ..., xn) sua realizzazionep(x; θ) distribuzione congiunta di x, ovvero:

p(x; θ) =

{P (X1 = x1 ∩ ... ∩Xn = xn; θ), Se X discreta

fX(x1, ..., xn; θ), Se X continua, fX densita

Se X IID allora Xi ∼ X

p(x; θ) =

n∏i=1

p(xi)

La verosimiglianza per θ e data

L(θ) ∝ p(x; θ); `(θ) = log p(x; θ)

e se X IID allora

L(θ) ∝n∏i=1

p(xi); `(θ) =

n∑i=1

log p(xi; θ)

Frederic (Dip.Econom) Inferenza Eco.Progr. 24 / 94

Misure di verosimiglianza

Ricapitoliamo

x = (X1, ..., Xn) VC e x = (x1, ..., xn) sua realizzazionep(x; θ) distribuzione congiunta di x, ovvero:

p(x; θ) =

{P (X1 = x1 ∩ ... ∩Xn = xn; θ), Se X discreta

fX(x1, ..., xn; θ), Se X continua, fX densita

Se X IID allora Xi ∼ X

p(x; θ) =

n∏i=1

p(xi)

La verosimiglianza per θ e data

L(θ) ∝ p(x; θ); `(θ) = log p(x; θ)

e se X IID allora

L(θ) ∝n∏i=1

p(xi); `(θ) =

n∑i=1

log p(xi; θ)

Frederic (Dip.Econom) Inferenza Eco.Progr. 24 / 94

Misure di verosimiglianza

Ricapitoliamo

Lo stimatore di massima verosimiglianza e

θ = argmaxθ∈Θ

`(θ) = argminθ∈Θ

− `(θ)

L’informazione di Fisher osservata

I = −`′′(θ)

Informazione di Fisher

Supposto θ sia il vero parametro si definisce

I(θ) = −EX(`′′(θ))

= EX((`′(θ))2)

Frederic (Dip.Econom) Inferenza Eco.Progr. 25 / 94

Misure di verosimiglianza

Ricapitoliamo

Lo stimatore di massima verosimiglianza e

θ = argmaxθ∈Θ

`(θ) = argminθ∈Θ

− `(θ)

L’informazione di Fisher osservata

I = −`′′(θ)

Informazione di Fisher

Supposto θ sia il vero parametro si definisce

I(θ) = −EX(`′′(θ))

= EX((`′(θ))2)

Frederic (Dip.Econom) Inferenza Eco.Progr. 25 / 94

Misure di verosimiglianza

Ricapitoliamo

Lo stimatore di massima verosimiglianza e

θ = argmaxθ∈Θ

`(θ) = argminθ∈Θ

− `(θ)

L’informazione di Fisher osservata

I = −`′′(θ)

Informazione di Fisher

Supposto θ sia il vero parametro si definisce

I(θ) = −EX(`′′(θ))

= EX((`′(θ))2)

Frederic (Dip.Econom) Inferenza Eco.Progr. 25 / 94

Misure di verosimiglianza

log-likelihood, repeated samples

x

l(x, 1

)

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

−150

−100

−50

0

Frederic (Dip.Econom) Inferenza Eco.Progr. 26 / 94

Misure di verosimiglianza

Fisher Information

se X IID allora, Xi ∼ X,

I(θ) = −n∑i=1

EXi(`′′(θ;Xi)) = ni(θ), i(θ) = EX(p′′(X; θ))

Cramer-Rao Inequality

Sia h uno stimatore per θ, tale che E(h) = ξ(θ), allora

V (h) ≥ (ξ′(θ))2I−1(θ)

se h e corretto E(h) = θ, e dunque

V (h) ≥ I−1(θ) = n−1i−1(θ)

Frederic (Dip.Econom) Inferenza Eco.Progr. 27 / 94

Misure di verosimiglianza

Proprieta asintotiche

Stimatori di massima verosimiglianza

E(θ)→ θ

V (θ)→ I−1(θ)

θd−→ N(θ, I−1(θ))

θP−→ θ

IP−→ I(θ)

Sia ψ una trasformazione monotona allora:

ψ(θ) = ψ(θ)

Frederic (Dip.Econom) Inferenza Eco.Progr. 28 / 94

Misure di verosimiglianza

Proprieta asintotiche

Stimatori di massima verosimiglianza

E(θ)→ θ

V (θ)→ I−1(θ)

θd−→ N(θ, I−1(θ))

θP−→ θ

IP−→ I(θ)

Sia ψ una trasformazione monotona allora:

ψ(θ) = ψ(θ)

Frederic (Dip.Econom) Inferenza Eco.Progr. 28 / 94

Misure di verosimiglianza

Proprieta asintotiche

Stimatori di massima verosimiglianza

E(θ)→ θ

V (θ)→ I−1(θ)

θd−→ N(θ, I−1(θ))

θP−→ θ

IP−→ I(θ)

Sia ψ una trasformazione monotona allora:

ψ(θ) = ψ(θ)

Frederic (Dip.Econom) Inferenza Eco.Progr. 28 / 94

Misure di verosimiglianza

Proprieta asintotiche

Stimatori di massima verosimiglianza

E(θ)→ θ

V (θ)→ I−1(θ)

θd−→ N(θ, I−1(θ))

θP−→ θ

IP−→ I(θ)

Sia ψ una trasformazione monotona allora:

ψ(θ) = ψ(θ)

Frederic (Dip.Econom) Inferenza Eco.Progr. 28 / 94

Misure di verosimiglianza

Proprieta asintotiche

Stimatori di massima verosimiglianza

E(θ)→ θ

V (θ)→ I−1(θ)

θd−→ N(θ, I−1(θ))

θP−→ θ

IP−→ I(θ)

Sia ψ una trasformazione monotona allora:

ψ(θ) = ψ(θ)

Frederic (Dip.Econom) Inferenza Eco.Progr. 28 / 94

Misure di verosimiglianza

Proprieta asintotiche

Stimatori di massima verosimiglianza

E(θ)→ θ

V (θ)→ I−1(θ)

θd−→ N(θ, I−1(θ))

θP−→ θ

IP−→ I(θ)

Sia ψ una trasformazione monotona allora:

ψ(θ) = ψ(θ)

Frederic (Dip.Econom) Inferenza Eco.Progr. 28 / 94

Misure di verosimiglianza

Nel caso Bernoulli

Informazione di Fisher

I(θ) = −E(snθ2

+n− sn

(1− θ)2

)=

n

θ(1− θ)

Normalita dello ML:

θd−→ N(θ, θ(1− θ)/n)

θ − θ√θ(1− θ)/n

d−→ N(0, 1)

Proprieta

P (θ − zα/2√I(θ) ≤ θ ≤ θ + zα/2

√I(θ)) = 1− α,

con zα/2 : P (Z ≤ zα/2) = α/2, e Z ∼ N(0, 1).

Frederic (Dip.Econom) Inferenza Eco.Progr. 29 / 94

Misure di verosimiglianza

Nel caso Bernoulli

Informazione di Fisher

I(θ) = −E(snθ2

+n− sn

(1− θ)2

)=

n

θ(1− θ)

Normalita dello ML:

θd−→ N(θ, θ(1− θ)/n)

θ − θ√θ(1− θ)/n

d−→ N(0, 1)

Proprieta

P (θ − zα/2√I(θ) ≤ θ ≤ θ + zα/2

√I(θ)) = 1− α,

con zα/2 : P (Z ≤ zα/2) = α/2, e Z ∼ N(0, 1).

Frederic (Dip.Econom) Inferenza Eco.Progr. 29 / 94

Misure di verosimiglianza

Nel caso Bernoulli

Informazione di Fisher

I(θ) = −E(snθ2

+n− sn

(1− θ)2

)=

n

θ(1− θ)

Normalita dello ML:

θd−→ N(θ, θ(1− θ)/n)

θ − θ√θ(1− θ)/n

d−→ N(0, 1)

Proprieta

P (θ − zα/2√I(θ) ≤ θ ≤ θ + zα/2

√I(θ)) = 1− α,

con zα/2 : P (Z ≤ zα/2) = α/2, e Z ∼ N(0, 1).

Frederic (Dip.Econom) Inferenza Eco.Progr. 29 / 94

Misure di verosimiglianza

Distribuzione di θ con n crescente, se θ = 0.5

Histogram of rbinom(10000, 10, 0.5)/10

rbinom(10000, 10, 0.5)/10

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

0.00.5

1.01.5

2.02.5

Histogram of rbinom(10000, 50, 0.5)/50

rbinom(10000, 50, 0.5)/50

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

6

Histogram of rbinom(10000, 100, 0.5)/100

rbinom(10000, 100, 0.5)/100

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

02

46

8

Histogram of rbinom(10000, 200, 0.5)/200

rbinom(10000, 200, 0.5)/200

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

Frederic (Dip.Econom) Inferenza Eco.Progr. 30 / 94

Misure di verosimiglianza

Distribuzione di θ con n crescente, se θ = 0.7

Histogram of rbinom(10000, 10, 0.7)/10

rbinom(10000, 10, 0.7)/10

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

0.00.5

1.01.5

2.02.5

Histogram of rbinom(10000, 50, 0.7)/50

rbinom(10000, 50, 0.7)/50

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

6

Histogram of rbinom(10000, 100, 0.7)/100

rbinom(10000, 100, 0.7)/100

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

02

46

8

Histogram of rbinom(10000, 200, 0.7)/200

rbinom(10000, 200, 0.7)/200

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

12

Frederic (Dip.Econom) Inferenza Eco.Progr. 31 / 94

Misure di verosimiglianza

Intervalli di confidenza asintotici

Poiche

P (θ − zα/2√I(θ)−1 ≤ θ ≤ θ + zα/2

√I(θ)−1) = 1− α,

allora

P (θ − zα/2√I−1 ≤ θ ≤ θ + zα/2

√I−1) = 1− α,

Ovvero l’intervallo Iα = [θ − zα/2√I−1, θ + zα/2

√I−1] e detto

intervallo di confidenza asintotico per θ al livello α.

Nel nostro caso, posto 1− α = 0.95 abbiamon min Iα esatto (asintotico) max Iα esatto (asintotico)

10 0.3537 (0.4160) 0.9190 (0.9840)100 0.6102 (0.5989) 0.7898 (0.7855)

1000 0.6716 (0.6704) 0.7284 (0.7281)

Frederic (Dip.Econom) Inferenza Eco.Progr. 32 / 94

Misure di verosimiglianza

Intervalli di confidenza asintotici

Poiche

P (θ − zα/2√I(θ)−1 ≤ θ ≤ θ + zα/2

√I(θ)−1) = 1− α,

allora

P (θ − zα/2√I−1 ≤ θ ≤ θ + zα/2

√I−1) = 1− α,

Ovvero l’intervallo Iα = [θ − zα/2√I−1, θ + zα/2

√I−1] e detto

intervallo di confidenza asintotico per θ al livello α.

Nel nostro caso, posto 1− α = 0.95 abbiamon min Iα esatto (asintotico) max Iα esatto (asintotico)

10 0.3537 (0.4160) 0.9190 (0.9840)100 0.6102 (0.5989) 0.7898 (0.7855)

1000 0.6716 (0.6704) 0.7284 (0.7281)

Frederic (Dip.Econom) Inferenza Eco.Progr. 32 / 94

Misure di verosimiglianza

Test asintotici

Formuliamo le ipotesi: {H0 : θ = 0.5H1 : θ 6= 0.5

,

e consideriamo la statistica test

T =θ − θ√I−1(θ)

, θ stimatore,

definiamo

tobs =θ − θ√I−1(θ)

, θ stima

Frederic (Dip.Econom) Inferenza Eco.Progr. 33 / 94

Misure di verosimiglianza

Test asintotici

definiamopvalue = PH0(|T | > |tobs|)

pvalue puo essere rivisto come una misura di allontananza da H0

pvalue ≤ 0.050 tobs significativamente diverso da zero *pvalue ≤ 0.010 tobs significativamente diverso da zero **pvalue ≤ 0.001 tobs significativamente diverso da zero ***

Nel nostro caso,n pvalue esatto (asintotico)

10 0.3428 (0.2059)100 9.e-05 (6.e-05)

1000 2.e-16 (0.0000)

Frederic (Dip.Econom) Inferenza Eco.Progr. 34 / 94

Misure di verosimiglianza

Test asintotici

definiamopvalue = PH0(|T | > |tobs|)

pvalue puo essere rivisto come una misura di allontananza da H0

pvalue ≤ 0.050 tobs significativamente diverso da zero *pvalue ≤ 0.010 tobs significativamente diverso da zero **pvalue ≤ 0.001 tobs significativamente diverso da zero ***

Nel nostro caso,n pvalue esatto (asintotico)

10 0.3428 (0.2059)100 9.e-05 (6.e-05)

1000 2.e-16 (0.0000)

Frederic (Dip.Econom) Inferenza Eco.Progr. 34 / 94

Misure di verosimiglianza

Test asintotici

definiamopvalue = PH0(|T | > |tobs|)

pvalue puo essere rivisto come una misura di allontananza da H0

pvalue ≤ 0.050 tobs significativamente diverso da zero *

pvalue ≤ 0.010 tobs significativamente diverso da zero **pvalue ≤ 0.001 tobs significativamente diverso da zero ***

Nel nostro caso,n pvalue esatto (asintotico)

10 0.3428 (0.2059)100 9.e-05 (6.e-05)

1000 2.e-16 (0.0000)

Frederic (Dip.Econom) Inferenza Eco.Progr. 34 / 94

Misure di verosimiglianza

Test asintotici

definiamopvalue = PH0(|T | > |tobs|)

pvalue puo essere rivisto come una misura di allontananza da H0

pvalue ≤ 0.050 tobs significativamente diverso da zero *pvalue ≤ 0.010 tobs significativamente diverso da zero **

pvalue ≤ 0.001 tobs significativamente diverso da zero ***

Nel nostro caso,n pvalue esatto (asintotico)

10 0.3428 (0.2059)100 9.e-05 (6.e-05)

1000 2.e-16 (0.0000)

Frederic (Dip.Econom) Inferenza Eco.Progr. 34 / 94

Misure di verosimiglianza

Test asintotici

definiamopvalue = PH0(|T | > |tobs|)

pvalue puo essere rivisto come una misura di allontananza da H0

pvalue ≤ 0.050 tobs significativamente diverso da zero *pvalue ≤ 0.010 tobs significativamente diverso da zero **pvalue ≤ 0.001 tobs significativamente diverso da zero ***

Nel nostro caso,n pvalue esatto (asintotico)

10 0.3428 (0.2059)100 9.e-05 (6.e-05)

1000 2.e-16 (0.0000)

Frederic (Dip.Econom) Inferenza Eco.Progr. 34 / 94

Misure di verosimiglianza

Test asintotici

definiamopvalue = PH0(|T | > |tobs|)

pvalue puo essere rivisto come una misura di allontananza da H0

pvalue ≤ 0.050 tobs significativamente diverso da zero *pvalue ≤ 0.010 tobs significativamente diverso da zero **pvalue ≤ 0.001 tobs significativamente diverso da zero ***

Nel nostro caso,n pvalue esatto (asintotico)

10 0.3428 (0.2059)100 9.e-05 (6.e-05)

1000 2.e-16 (0.0000)

Frederic (Dip.Econom) Inferenza Eco.Progr. 34 / 94

Misure di verosimiglianza

Esempio con Xi ∼ Exp(λ)

Sia X = (X1, ..., Xn) n VA IID Xi ∼ Exp(λ)

f(xi;λ) = λe−λxi

la Likelihood:

L(λ; x) ∝n∏i=1

λe−λxi

= λnn∏i=1

e−λxi

= λne−λ∑ni=1 xi

Frederic (Dip.Econom) Inferenza Eco.Progr. 35 / 94

Misure di verosimiglianza

Esempio con Xi ∼ Exp(λ)

Sia X = (X1, ..., Xn) n VA IID Xi ∼ Exp(λ)

f(xi;λ) = λe−λxi

la Likelihood:

L(λ; x) ∝n∏i=1

λe−λxi

= λnn∏i=1

e−λxi

= λne−λ∑ni=1 xi

Frederic (Dip.Econom) Inferenza Eco.Progr. 35 / 94

Misure di verosimiglianza

Esempio con Xi ∼ Exp(λ)

la log-likelihood

`(θ) = n log λ− λn∑i=1

xi

la derivata prima (la score function)

`′(λ) =n

λ−

n∑i=1

xi

che eguagliata a zero porta:

λ =n∑ni=1 xi

Frederic (Dip.Econom) Inferenza Eco.Progr. 36 / 94

Misure di verosimiglianza

Esempio con Xi ∼ Exp(λ)

la log-likelihood

`(θ) = n log λ− λn∑i=1

xi

la derivata prima (la score function)

`′(λ) =n

λ−

n∑i=1

xi

che eguagliata a zero porta:

λ =n∑ni=1 xi

Frederic (Dip.Econom) Inferenza Eco.Progr. 36 / 94

Misure di verosimiglianza

Esempio con Xi ∼ Exp(λ)

la log-likelihood

`(θ) = n log λ− λn∑i=1

xi

la derivata prima (la score function)

`′(λ) =n

λ−

n∑i=1

xi

che eguagliata a zero porta:

λ =n∑ni=1 xi

Frederic (Dip.Econom) Inferenza Eco.Progr. 36 / 94

Misure di verosimiglianza

Esempio con Xi ∼ Exp(λ)

la derivata seconda`′′(θ) = − n

λ2

l’informazione osservata

I = −`′′(λ) =n

λ2=

(∑n

i=1 xi)2

n

lo SE stimato

SE =√I−1 =

√λ2

n=

√n∑n

i=1 xi

Frederic (Dip.Econom) Inferenza Eco.Progr. 37 / 94

Misure di verosimiglianza

Esempio con Xi ∼ Exp(λ)

la derivata seconda`′′(θ) = − n

λ2

l’informazione osservata

I = −`′′(λ) =n

λ2=

(∑n

i=1 xi)2

n

lo SE stimato

SE =√I−1 =

√λ2

n=

√n∑n

i=1 xi

Frederic (Dip.Econom) Inferenza Eco.Progr. 37 / 94

Misure di verosimiglianza

Esempio con Xi ∼ Exp(λ)

la derivata seconda`′′(θ) = − n

λ2

l’informazione osservata

I = −`′′(λ) =n

λ2=

(∑n

i=1 xi)2

n

lo SE stimato

SE =√I−1 =

√λ2

n=

√n∑n

i=1 xi

Frederic (Dip.Econom) Inferenza Eco.Progr. 37 / 94

Misure di verosimiglianza

Esempio con ψ = 1/λ

Poniamo la riparemetrizzazione:

ψ =1

λ,→ E(Xi) = ψ, V (Xi) = ψ2

in visrtu della proprieta 6

ψ =1

λ=

∑ni=1 xin

e dunque

E(ψ) = n−1E

(n∑i=1

xi

)= ψ; V (ψ) =

ψ2

n

Frederic (Dip.Econom) Inferenza Eco.Progr. 38 / 94

Misure di verosimiglianza

Esempio con ψ = 1/λ

Poniamo la riparemetrizzazione:

ψ =1

λ,→ E(Xi) = ψ, V (Xi) = ψ2

in visrtu della proprieta 6

ψ =1

λ=

∑ni=1 xin

e dunque

E(ψ) = n−1E

(n∑i=1

xi

)= ψ; V (ψ) =

ψ2

n

Frederic (Dip.Econom) Inferenza Eco.Progr. 38 / 94

Misure di verosimiglianza

Esempio con ψ = 1/λ

Poniamo la riparemetrizzazione:

ψ =1

λ,→ E(Xi) = ψ, V (Xi) = ψ2

in visrtu della proprieta 6

ψ =1

λ=

∑ni=1 xin

e dunque

E(ψ) = n−1E

(n∑i=1

xi

)= ψ; V (ψ) =

ψ2

n

Frederic (Dip.Econom) Inferenza Eco.Progr. 38 / 94

Modelli multiparametrici

Il modello normale

sia X n VA IID, Xi ∼ N(µ, σ2) ovvero

f(xi;µ, σ2) =

1√2θσ2

e−1

2σ2(xi−µ)2

la Likelihood:

L(µ, σ2) ∝n∏i=1

1√2θσ2

e−1

2σ2(xi−µ)2

∝ σ−2ne−1

2σ2

∑ni=1(xi−µ)2

la log-likelihood

`(µ, σ2) = −n2

log σ2 − 1

2σ2

n∑i=1

(xi − µ)2

Frederic (Dip.Econom) Inferenza Eco.Progr. 39 / 94

Modelli multiparametrici

Il modello normale

sia X n VA IID, Xi ∼ N(µ, σ2) ovvero

f(xi;µ, σ2) =

1√2θσ2

e−1

2σ2(xi−µ)2

la Likelihood:

L(µ, σ2) ∝n∏i=1

1√2θσ2

e−1

2σ2(xi−µ)2

∝ σ−2ne−1

2σ2

∑ni=1(xi−µ)2

la log-likelihood

`(µ, σ2) = −n2

log σ2 − 1

2σ2

n∑i=1

(xi − µ)2

Frederic (Dip.Econom) Inferenza Eco.Progr. 39 / 94

Modelli multiparametrici

Il modello normale

sia X n VA IID, Xi ∼ N(µ, σ2) ovvero

f(xi;µ, σ2) =

1√2θσ2

e−1

2σ2(xi−µ)2

la Likelihood:

L(µ, σ2) ∝n∏i=1

1√2θσ2

e−1

2σ2(xi−µ)2

∝ σ−2ne−1

2σ2

∑ni=1(xi−µ)2

la log-likelihood

`(µ, σ2) = −n2

log σ2 − 1

2σ2

n∑i=1

(xi − µ)2

Frederic (Dip.Econom) Inferenza Eco.Progr. 39 / 94

Modelli multiparametrici

Il modello normale

mettiamo a sistema{ d`dµ = 1

σ2

∑ni=1(xi − µ)

d`dσ2 = − n

2σ2 − 12σ4

∑ni=1(xi − µ)2

uguagliando a zero le derivate parziali si ottiene:{µ = n−1

∑ni=1 xi

σ2 = n−1∑n

i=1(xi − µ)2

Attenzione alla correttezza:{E(µ) = µE(σ2) = n−1

n σ2

Frederic (Dip.Econom) Inferenza Eco.Progr. 40 / 94

Modelli multiparametrici

Il modello normale

mettiamo a sistema{ d`dµ = 1

σ2

∑ni=1(xi − µ)

d`dσ2 = − n

2σ2 − 12σ4

∑ni=1(xi − µ)2

uguagliando a zero le derivate parziali si ottiene:{µ = n−1

∑ni=1 xi

σ2 = n−1∑n

i=1(xi − µ)2

Attenzione alla correttezza:{E(µ) = µE(σ2) = n−1

n σ2

Frederic (Dip.Econom) Inferenza Eco.Progr. 40 / 94

Modelli multiparametrici

Il modello normale

mettiamo a sistema{ d`dµ = 1

σ2

∑ni=1(xi − µ)

d`dσ2 = − n

2σ2 − 12σ4

∑ni=1(xi − µ)2

uguagliando a zero le derivate parziali si ottiene:{µ = n−1

∑ni=1 xi

σ2 = n−1∑n

i=1(xi − µ)2

Attenzione alla correttezza:{E(µ) = µE(σ2) = n−1

n σ2

Frederic (Dip.Econom) Inferenza Eco.Progr. 40 / 94

Modelli multiparametrici

Correzione della varianza

La stima della varianza ML in media sottostima σ2

Si consideri il seguente stimatore:

S2 =1

n− 1

n∑i=1

(xi − µ)2 =n

n− 1σ2

succede che:

E(S2) =n

n− 1E(σ2) =

n

n− 1

n− 1

nσ2 = σ2

Un’importante risultato

µ− µS2/n

∼ tn−1 → N(0, 1)

Frederic (Dip.Econom) Inferenza Eco.Progr. 41 / 94

Modelli multiparametrici

Correzione della varianza

La stima della varianza ML in media sottostima σ2

Si consideri il seguente stimatore:

S2 =1

n− 1

n∑i=1

(xi − µ)2 =n

n− 1σ2

succede che:

E(S2) =n

n− 1E(σ2) =

n

n− 1

n− 1

nσ2 = σ2

Un’importante risultato

µ− µS2/n

∼ tn−1 → N(0, 1)

Frederic (Dip.Econom) Inferenza Eco.Progr. 41 / 94

Modelli multiparametrici

Correzione della varianza

La stima della varianza ML in media sottostima σ2

Si consideri il seguente stimatore:

S2 =1

n− 1

n∑i=1

(xi − µ)2 =n

n− 1σ2

succede che:

E(S2) =n

n− 1E(σ2) =

n

n− 1

n− 1

nσ2 = σ2

Un’importante risultato

µ− µS2/n

∼ tn−1 → N(0, 1)

Frederic (Dip.Econom) Inferenza Eco.Progr. 41 / 94

Modelli multiparametrici

Correzione della varianza

La stima della varianza ML in media sottostima σ2

Si consideri il seguente stimatore:

S2 =1

n− 1

n∑i=1

(xi − µ)2 =n

n− 1σ2

succede che:

E(S2) =n

n− 1E(σ2) =

n

n− 1

n− 1

nσ2 = σ2

Un’importante risultato

µ− µS2/n

∼ tn−1 → N(0, 1)

Frederic (Dip.Econom) Inferenza Eco.Progr. 41 / 94

Misure di informazione

La divergenza Kullback-Leibler

Sia π la distribuzione ’vera’ di Y e sia pθ = p(·;θ) un modelloparametrico. Definiamo la divergenza di Kullback-Leibler di pθ da π

DKL(π||pθ) = EY

(log(π(Y )/p(Y ;θ)

))= EY (log π(Y ))− EY (log p(Y ;θ))

valgono la seguente proprieta:

DKL(π||pθ) = 0, sse π = pθ

DKL(π||pθ) > 0, altrimenti

Nota: EY (π(Y )) non dipende da θ e dunque DKL

Nota: Dalla Legge dei Grandi Numeri, abbiamo

n−1n∑i=1

log p(yi;θ) = n−1`(θ) →n→∞

EY (log p(Y ;θ))

Il θ che rende massima EY (log p(Y ;θ)) e il θ che minimizza DKL

Frederic (Dip.Econom) Inferenza Eco.Progr. 42 / 94

Misure di informazione

AIC: Akaike Information Criterion

Si noti che n−1`(θ) e stimatore distorto di EY (log p(Y ; θ)) e che:

EY (log p(Y ; θ))− EY (n−1`(θ)) ≈ −k/n

dove k = dim(Θ)

Cioe:EY (−`(θ) + k) ≈ −nEY (log p(Y ; θ))

si definisce Akaike Indormation Criterion:

AIC = −2`(θ) + 2k

lo stimatore della divergenza KL di pθ da π.

Siano pθ e p′θ′ due modelli per Y avremo che:

EY (AIC) < EY (AIC ′), sse DKL(π||pθ) < DKL(π||p′θ′)

Frederic (Dip.Econom) Inferenza Eco.Progr. 43 / 94

Modelli lineari

Modelli lineari

In forma stocastica

Yi = β0 + β1Xi + εi, εi ∼ N(0, σ2), IID

dalle proprieta della normale segue che

Yi|Xi ∼ N(β0 + β1Xi, σ2)

ovvero

f(yi|xi;β0, β1, σ2) =

1√2πσ2

exp

{− 1

2σ2(yi − (β0 + β1xi))

2

}

Frederic (Dip.Econom) Inferenza Eco.Progr. 44 / 94

Modelli lineari

Modelli lineari

In forma stocastica

Yi = β0 + β1Xi + εi, εi ∼ N(0, σ2), IID

dalle proprieta della normale segue che

Yi|Xi ∼ N(β0 + β1Xi, σ2)

ovvero

f(yi|xi;β0, β1, σ2) =

1√2πσ2

exp

{− 1

2σ2(yi − (β0 + β1xi))

2

}

Frederic (Dip.Econom) Inferenza Eco.Progr. 44 / 94

Modelli lineari

Modelli lineari

In forma stocastica

Yi = β0 + β1Xi + εi, εi ∼ N(0, σ2), IID

dalle proprieta della normale segue che

Yi|Xi ∼ N(β0 + β1Xi, σ2)

ovvero

f(yi|xi;β0, β1, σ2) =

1√2πσ2

exp

{− 1

2σ2(yi − (β0 + β1xi))

2

}

Frederic (Dip.Econom) Inferenza Eco.Progr. 44 / 94

Modelli lineari

Modelli lineari

Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello

Yi|Xi ∼ N(β0 + β1Xi, σ2)

porge verosimiglianza

L(β0, β1, σ2; x,y) ∝

n∏i=1

1√2πσ2

exp

{− 1

2σ2(yi − (β0 + β1xi))

2

}

∝(

1√σ2

)nexp

{− 1

2σ2

n∑i=1

(yi − (β0 + β1xi))2

}

la log-likelihood

`(β0, β1, σ2; x,y) = −n

2log(σ2)− 1

2σ2

n∑i=1

(yi − (β0 + β1xi))2

Frederic (Dip.Econom) Inferenza Eco.Progr. 45 / 94

Modelli lineari

Modelli lineari

Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello

Yi|Xi ∼ N(β0 + β1Xi, σ2)

porge verosimiglianza

L(β0, β1, σ2; x,y) ∝

n∏i=1

1√2πσ2

exp

{− 1

2σ2(yi − (β0 + β1xi))

2

}

∝(

1√σ2

)nexp

{− 1

2σ2

n∑i=1

(yi − (β0 + β1xi))2

}

la log-likelihood

`(β0, β1, σ2; x,y) = −n

2log(σ2)− 1

2σ2

n∑i=1

(yi − (β0 + β1xi))2

Frederic (Dip.Econom) Inferenza Eco.Progr. 45 / 94

Modelli lineari

Modelli lineari

Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello

Yi|Xi ∼ N(β0 + β1Xi, σ2)

porge verosimiglianza

L(β0, β1, σ2; x,y) ∝

n∏i=1

1√2πσ2

exp

{− 1

2σ2(yi − (β0 + β1xi))

2

}

∝(

1√σ2

)nexp

{− 1

2σ2

n∑i=1

(yi − (β0 + β1xi))2

}

la log-likelihood

`(β0, β1, σ2; x,y) = −n

2log(σ2)− 1

2σ2

n∑i=1

(yi − (β0 + β1xi))2

Frederic (Dip.Econom) Inferenza Eco.Progr. 45 / 94

Modelli lineari

Rappresentazione del modello di regressione

xgrid0ygrid0

zmat

Frederic (Dip.Econom) Inferenza Eco.Progr. 46 / 94

Modelli lineari

Modelli lineari (nei parametri)

Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello

Yi|Xi ∼ N(β0 + β1Xi, σ2)

supponiamo ora che

Xi = sin(Wi), ∀i

AlloraYi|Wi ∼ N(β0 + β1 sin(Wi), σ

2)

E’ sempre un modello lineare, la linearita e nei parametri

Frederic (Dip.Econom) Inferenza Eco.Progr. 47 / 94

Modelli lineari

Modelli lineari (nei parametri)

Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello

Yi|Xi ∼ N(β0 + β1Xi, σ2)

supponiamo ora che

Xi = sin(Wi), ∀i

AlloraYi|Wi ∼ N(β0 + β1 sin(Wi), σ

2)

E’ sempre un modello lineare, la linearita e nei parametri

Frederic (Dip.Econom) Inferenza Eco.Progr. 47 / 94

Modelli lineari

Modelli lineari (nei parametri)

Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello

Yi|Xi ∼ N(β0 + β1Xi, σ2)

supponiamo ora che

Xi = sin(Wi), ∀i

AlloraYi|Wi ∼ N(β0 + β1 sin(Wi), σ

2)

E’ sempre un modello lineare, la linearita e nei parametri

Frederic (Dip.Econom) Inferenza Eco.Progr. 47 / 94

Modelli lineari

Modelli lineari (nei parametri)

Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello

Yi|Xi ∼ N(β0 + β1Xi, σ2)

supponiamo ora che

Xi = sin(Wi), ∀i

AlloraYi|Wi ∼ N(β0 + β1 sin(Wi), σ

2)

E’ sempre un modello lineare, la linearita e nei parametri

Frederic (Dip.Econom) Inferenza Eco.Progr. 47 / 94

Modelli lineari

Rappresentazione del modello di regressione

xgrid0ygrid0

zmat

Frederic (Dip.Econom) Inferenza Eco.Progr. 48 / 94

Modelli lineari

Modelli lineari multivariati

Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Dove dim(W) = k.Il modello in forma stocastica e:

Yi = β0 + β1W1i + ...+ β1Wki + εi, εi ∼ N(0, σ2), IID

osserviamo la matrice w dei dati

w =

w11 w12 · · · w1k

w21 w22 · · · w2k

......

. . ....

wn1 wn2 · · · wnk

Definiamo il vettore dei β:

β = (β0, β1, ..., βk) ∈ Rk+1

Frederic (Dip.Econom) Inferenza Eco.Progr. 49 / 94

Modelli lineari

Modelli lineari multivariati

Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Dove dim(W) = k.Il modello in forma stocastica e:

Yi = β0 + β1W1i + ...+ β1Wki + εi, εi ∼ N(0, σ2), IID

osserviamo la matrice w dei dati

w =

w11 w12 · · · w1k

w21 w22 · · · w2k

......

. . ....

wn1 wn2 · · · wnk

Definiamo il vettore dei β:

β = (β0, β1, ..., βk) ∈ Rk+1

Frederic (Dip.Econom) Inferenza Eco.Progr. 49 / 94

Modelli lineari

Modelli lineari multivariati

Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Dove dim(W) = k.Il modello in forma stocastica e:

Yi = β0 + β1W1i + ...+ β1Wki + εi, εi ∼ N(0, σ2), IID

osserviamo la matrice w dei dati

w =

w11 w12 · · · w1k

w21 w22 · · · w2k

......

. . ....

wn1 wn2 · · · wnk

Definiamo il vettore dei β:

β = (β0, β1, ..., βk) ∈ Rk+1

Frederic (Dip.Econom) Inferenza Eco.Progr. 49 / 94

Modelli lineari

Modelli lineari multivariati

Definiamo la matrice disegno x = (1n; w) ∈ Rn×k dei dati

x = (1n; w) =

1 w11 w12 · · · w1k

1 w21 w22 · · · w2k

......

.... . .

...1 wn1 wn2 · · · wnk

e osserviamo che

y =

y1

y2

...yn

=

β0 + β1W11 + ...+ β1W1k + ε1β0 + β1W21 + ...+ β1W2k + ε2

...β0 + β1Wn1 + ...+ β1Wnk + εn

= xβ + ε

doveε = (ε1, ..., εn)

Frederic (Dip.Econom) Inferenza Eco.Progr. 50 / 94

Modelli lineari

Modelli lineari multivariati

Definiamo la matrice disegno x = (1n; w) ∈ Rn×k dei dati

x = (1n; w) =

1 w11 w12 · · · w1k

1 w21 w22 · · · w2k

......

.... . .

...1 wn1 wn2 · · · wnk

e osserviamo che

y =

y1

y2

...yn

=

β0 + β1W11 + ...+ β1W1k + ε1β0 + β1W21 + ...+ β1W2k + ε2

...β0 + β1Wn1 + ...+ β1Wnk + εn

= xβ + ε

doveε = (ε1, ..., εn)

Frederic (Dip.Econom) Inferenza Eco.Progr. 50 / 94

Modelli lineari

Modelli lineari multivariati

Definiamo la matrice disegno x = (1n; w) ∈ Rn×k dei dati

x = (1n; w) =

1 w11 w12 · · · w1k

1 w21 w22 · · · w2k

......

.... . .

...1 wn1 wn2 · · · wnk

e osserviamo che

y =

y1

y2

...yn

=

β0 + β1W11 + ...+ β1W1k + ε1β0 + β1W21 + ...+ β1W2k + ε2

...β0 + β1Wn1 + ...+ β1Wnk + εn

= xβ + ε

doveε = (ε1, ..., εn)

Frederic (Dip.Econom) Inferenza Eco.Progr. 50 / 94

Modelli lineari

Modelli lineari multivariati

Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Sia x la matrice disegno. Ilmodello

Yi|xi ∼ N(xiβ, σ2)

porge verosimiglianza

L(β, σ2; x,y) ∝n∏i=1

1√2πσ2

exp

{− 1

2σ2(yi − xiβ)2

}

∝(

1√σ2

)nexp

{− 1

2σ2

n∑i=1

(yi − xiβ))2

}

la log-likelihood

`(β, σ2; x,y) = −n2

log(σ2)− 1

2σ2

n∑i=1

(yi − xiβ)2

Frederic (Dip.Econom) Inferenza Eco.Progr. 51 / 94

Modelli lineari

Modelli lineari multivariati

Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Sia x la matrice disegno. Ilmodello

Yi|xi ∼ N(xiβ, σ2)

porge verosimiglianza

L(β, σ2; x,y) ∝n∏i=1

1√2πσ2

exp

{− 1

2σ2(yi − xiβ)2

}

∝(

1√σ2

)nexp

{− 1

2σ2

n∑i=1

(yi − xiβ))2

}

la log-likelihood

`(β, σ2; x,y) = −n2

log(σ2)− 1

2σ2

n∑i=1

(yi − xiβ)2

Frederic (Dip.Econom) Inferenza Eco.Progr. 51 / 94

Modelli lineari

Modelli lineari multivariati

Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Sia x la matrice disegno. Ilmodello

Yi|xi ∼ N(xiβ, σ2)

porge verosimiglianza

L(β, σ2; x,y) ∝n∏i=1

1√2πσ2

exp

{− 1

2σ2(yi − xiβ)2

}

∝(

1√σ2

)nexp

{− 1

2σ2

n∑i=1

(yi − xiβ))2

}

la log-likelihood

`(β, σ2; x,y) = −n2

log(σ2)− 1

2σ2

n∑i=1

(yi − xiβ)2

Frederic (Dip.Econom) Inferenza Eco.Progr. 51 / 94

Modelli lineari

Modelli lineari multivariati

rappresentazione matriciale della log-likelihood

`(β, σ2; x,y) = −n2

log(σ2)− 1

2σ2‖y − xβ‖22

dove ‖a‖ = a′a

la derivata prima della log-likelihood e un vettore (il gradiente)

d`(β, σ2; x,y)

dβ= − 1

2σ2x′(y − xβ)

uguagliata a zero diventa

d`(β, σ2; x,y)

dβ= 0

x′(y − xβ) = 0

x′xβ = x′y

β = (x′x)−1x′y

Frederic (Dip.Econom) Inferenza Eco.Progr. 52 / 94

Modelli lineari

Modelli lineari multivariati

rappresentazione matriciale della log-likelihood

`(β, σ2; x,y) = −n2

log(σ2)− 1

2σ2‖y − xβ‖22

dove ‖a‖ = a′a

la derivata prima della log-likelihood e un vettore (il gradiente)

d`(β, σ2; x,y)

dβ= − 1

2σ2x′(y − xβ)

uguagliata a zero diventa

d`(β, σ2; x,y)

dβ= 0

x′(y − xβ) = 0

x′xβ = x′y

β = (x′x)−1x′y

Frederic (Dip.Econom) Inferenza Eco.Progr. 52 / 94

Modelli lineari

Modelli lineari multivariati

rappresentazione matriciale della log-likelihood

`(β, σ2; x,y) = −n2

log(σ2)− 1

2σ2‖y − xβ‖22

dove ‖a‖ = a′a

la derivata prima della log-likelihood e un vettore (il gradiente)

d`(β, σ2; x,y)

dβ= − 1

2σ2x′(y − xβ)

uguagliata a zero diventa

d`(β, σ2; x,y)

dβ= 0

x′(y − xβ) = 0

x′xβ = x′y

β = (x′x)−1x′y

Frederic (Dip.Econom) Inferenza Eco.Progr. 52 / 94

Modelli lineari

Modelli lineari multivariati

definiamo la previsione

y = xβ = x(x′x)−1x′y = Hy

definiamo la stima dell’errore

e = y − y

si dimostra che

σ2 =e′e

n

attenzione σ2 non e corretto

E(σ2) =n− k − 1

nσ2

Frederic (Dip.Econom) Inferenza Eco.Progr. 53 / 94

Modelli lineari

Modelli lineari multivariati

definiamo la previsione

y = xβ = x(x′x)−1x′y = Hy

definiamo la stima dell’errore

e = y − y

si dimostra che

σ2 =e′e

n

attenzione σ2 non e corretto

E(σ2) =n− k − 1

nσ2

Frederic (Dip.Econom) Inferenza Eco.Progr. 53 / 94

Modelli lineari

Modelli lineari multivariati

definiamo la previsione

y = xβ = x(x′x)−1x′y = Hy

definiamo la stima dell’errore

e = y − y

si dimostra che

σ2 =e′e

n

attenzione σ2 non e corretto

E(σ2) =n− k − 1

nσ2

Frederic (Dip.Econom) Inferenza Eco.Progr. 53 / 94

Modelli lineari

Modelli lineari multivariati

definiamo la previsione

y = xβ = x(x′x)−1x′y = Hy

definiamo la stima dell’errore

e = y − y

si dimostra che

σ2 =e′e

n

attenzione σ2 non e corretto

E(σ2) =n− k − 1

nσ2

Frederic (Dip.Econom) Inferenza Eco.Progr. 53 / 94

Modelli lineari

Risultati importanti

lo stimatore corretto per σ2 e

S2 =e′e

n− k − 1

lo stimatore distorto della varianza di β

V (β) = σ2(x′x)−1

lo stimatore corretto della varianza di β

S2(β) = S2(x′x)−1

Frederic (Dip.Econom) Inferenza Eco.Progr. 54 / 94

Modelli lineari

Risultati importanti

lo stimatore corretto per σ2 e

S2 =e′e

n− k − 1

lo stimatore distorto della varianza di β

V (β) = σ2(x′x)−1

lo stimatore corretto della varianza di β

S2(β) = S2(x′x)−1

Frederic (Dip.Econom) Inferenza Eco.Progr. 54 / 94

Modelli lineari

Risultati importanti

lo stimatore corretto per σ2 e

S2 =e′e

n− k − 1

lo stimatore distorto della varianza di β

V (β) = σ2(x′x)−1

lo stimatore corretto della varianza di β

S2(β) = S2(x′x)−1

Frederic (Dip.Econom) Inferenza Eco.Progr. 54 / 94

Modelli lineari

Risultati importanti

lo stimatore per β per Y |x sono

β = (x′x)−1x′y Y |x = xβ

sono entrambi corretti:

E(β) = E((x′x)−1x′y)

= (x′x)−1x′E(y)

= (x′x)−1x′xβ = β

E(Y |x) = E(xβ) = xβ

con varianza:

V (β) = σ2(x′x)−1

V (Y |x) = σ2H

Frederic (Dip.Econom) Inferenza Eco.Progr. 55 / 94

Modelli lineari

Risultati importanti

lo stimatore per β per Y |x sono

β = (x′x)−1x′y Y |x = xβ

sono entrambi corretti:

E(β) = E((x′x)−1x′y)

= (x′x)−1x′E(y)

= (x′x)−1x′xβ = β

E(Y |x) = E(xβ) = xβ

con varianza:

V (β) = σ2(x′x)−1

V (Y |x) = σ2H

Frederic (Dip.Econom) Inferenza Eco.Progr. 55 / 94

Modelli lineari

Risultati importanti

lo stimatore per β per Y |x sono

β = (x′x)−1x′y Y |x = xβ

sono entrambi corretti:

E(β) = E((x′x)−1x′y)

= (x′x)−1x′E(y)

= (x′x)−1x′xβ = β

E(Y |x) = E(xβ) = xβ

con varianza:

V (β) = σ2(x′x)−1

V (Y |x) = σ2H

Frederic (Dip.Econom) Inferenza Eco.Progr. 55 / 94

Modelli lineari

Rappresentazione del modello di regressione

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y

Frederic (Dip.Econom) Inferenza Eco.Progr. 56 / 94

Modelli lineari

Importanti esemplificazioni

V continua, Y continua.

Esempio

x,y =

V Y1 0.1 0.051 0.2 2.011 0.3 2.561 0.4 5.151 0.5 6.021 0.6 6.89

il modello

y = xβ + ε

e la regressione lineare.

Frederic (Dip.Econom) Inferenza Eco.Progr. 57 / 94

Modelli lineari

Importanti esemplificazioni

V continua, Y continua.

Esempio

x,y =

V Y1 0.1 0.051 0.2 2.011 0.3 2.561 0.4 5.151 0.5 6.021 0.6 6.89

il modelloy = xβ + ε

e la regressione lineare.

Frederic (Dip.Econom) Inferenza Eco.Progr. 57 / 94

Modelli lineari

Importanti esemplificazioni

V continua, Y continua.

Esempio

x,y =

V Y1 0.1 0.051 0.2 2.011 0.3 2.561 0.4 5.151 0.5 6.021 0.6 6.89

il modello

y = xβ + ε

e la regressione lineare.

Frederic (Dip.Econom) Inferenza Eco.Progr. 57 / 94

Modelli lineari

Rappresentazione del modello di regressione

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y

Frederic (Dip.Econom) Inferenza Eco.Progr. 58 / 94

Modelli lineari

Rappresentazione del modello di regressione

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y

Frederic (Dip.Econom) Inferenza Eco.Progr. 59 / 94

Modelli lineari

Importanti esemplificazioni

V continua, V = (V1 = V, V2 = V 2), Y continua.

Esempio

x,y =

V1 V2 Y1 0.1 0.01 0.051 0.2 0.04 2.011 0.3 0.09 2.561 0.4 0.16 5.151 0.5 0.25 6.021 0.6 0.36 6.89

il modello

y = xβ + ε

e la regressione polinomiale di grado 2.

Frederic (Dip.Econom) Inferenza Eco.Progr. 60 / 94

Modelli lineari

Importanti esemplificazioni

V continua, V = (V1 = V, V2 = V 2), Y continua.

Esempio

x,y =

V1 V2 Y1 0.1 0.01 0.051 0.2 0.04 2.011 0.3 0.09 2.561 0.4 0.16 5.151 0.5 0.25 6.021 0.6 0.36 6.89

il modelloy = xβ + ε

e la regressione polinomiale di grado 2.

Frederic (Dip.Econom) Inferenza Eco.Progr. 60 / 94

Modelli lineari

Importanti esemplificazioni

V continua, V = (V1 = V, V2 = V 2), Y continua.

Esempio

x,y =

V1 V2 Y1 0.1 0.01 0.051 0.2 0.04 2.011 0.3 0.09 2.561 0.4 0.16 5.151 0.5 0.25 6.021 0.6 0.36 6.89

il modello

y = xβ + ε

e la regressione polinomiale di grado 2.

Frederic (Dip.Econom) Inferenza Eco.Progr. 60 / 94

Modelli lineari

Rappresentazione del modello di regressione

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y

Frederic (Dip.Econom) Inferenza Eco.Progr. 61 / 94

Modelli lineari

Importanti esemplificazioni

W categorial (con supporto {0,1}), V continua, Y continua.

Esempio

x,y =

W V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 1 0.4 5.151 1 0.5 6.021 1 0.6 6.89

2 intercette un coefficiente angolare

Frederic (Dip.Econom) Inferenza Eco.Progr. 62 / 94

Modelli lineari

Importanti esemplificazioni

W categorial (con supporto {0,1}), V continua, Y continua.

Esempio

x,y =

W V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 1 0.4 5.151 1 0.5 6.021 1 0.6 6.89

2 intercette un coefficiente angolare

Frederic (Dip.Econom) Inferenza Eco.Progr. 62 / 94

Modelli lineari

Importanti esemplificazioni

W categorial (con supporto {0,1}), V continua, Y continua.

Esempio

x,y =

W V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 1 0.4 5.151 1 0.5 6.021 1 0.6 6.89

2 intercette un coefficiente angolare

Frederic (Dip.Econom) Inferenza Eco.Progr. 62 / 94

Modelli lineari

Rappresentazione del modello di regressione

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y

Frederic (Dip.Econom) Inferenza Eco.Progr. 63 / 94

Modelli lineari

Importanti esemplificazioni

W = (W1,W2) categorial (con supporto {(0,0),(0,1),(1,0)}), Vcontinua, Y continua.

Esempio

x,y =

W1 W2 V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 1 0.3 2.561 0 1 0.4 5.151 1 0 0.5 6.021 1 0 0.6 6.89

3 intercette un coefficiente angolare

Frederic (Dip.Econom) Inferenza Eco.Progr. 64 / 94

Modelli lineari

Importanti esemplificazioni

W = (W1,W2) categorial (con supporto {(0,0),(0,1),(1,0)}), Vcontinua, Y continua.

Esempio

x,y =

W1 W2 V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 1 0.3 2.561 0 1 0.4 5.151 1 0 0.5 6.021 1 0 0.6 6.89

3 intercette un coefficiente angolare

Frederic (Dip.Econom) Inferenza Eco.Progr. 64 / 94

Modelli lineari

Importanti esemplificazioni

W = (W1,W2) categorial (con supporto {(0,0),(0,1),(1,0)}), Vcontinua, Y continua.

Esempio

x,y =

W1 W2 V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 1 0.3 2.561 0 1 0.4 5.151 1 0 0.5 6.021 1 0 0.6 6.89

3 intercette un coefficiente angolare

Frederic (Dip.Econom) Inferenza Eco.Progr. 64 / 94

Modelli lineari

Importanti esemplificazioni

W categorial (con supporto {0,1}), V continua, Y continua.

Esempio

x,y =

W ∗ V (1−W ) ∗ V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 0.4 0 5.151 0.5 0 6.021 0.6 0 6.89

1 intercetta 2 coefficienti angolari

Frederic (Dip.Econom) Inferenza Eco.Progr. 65 / 94

Modelli lineari

Importanti esemplificazioni

W categorial (con supporto {0,1}), V continua, Y continua.

Esempio

x,y =

W ∗ V (1−W ) ∗ V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 0.4 0 5.151 0.5 0 6.021 0.6 0 6.89

1 intercetta 2 coefficienti angolari

Frederic (Dip.Econom) Inferenza Eco.Progr. 65 / 94

Modelli lineari

Importanti esemplificazioni

W categorial (con supporto {0,1}), V continua, Y continua.

Esempio

x,y =

W ∗ V (1−W ) ∗ V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 0.4 0 5.151 0.5 0 6.021 0.6 0 6.89

1 intercetta 2 coefficienti angolari

Frederic (Dip.Econom) Inferenza Eco.Progr. 65 / 94

Modelli lineari

Rappresentazione del modello di regressione

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y

Frederic (Dip.Econom) Inferenza Eco.Progr. 66 / 94

Modelli lineari

Importanti esemplificazioni

W categorial (con supporto {0,1}), V continua, Y continua.

Esempio

x,y =

W W ∗ V (1−W ) ∗ V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 0 0.3 2.561 1 0.4 0 5.151 1 0.5 0 6.021 1 0.6 0 6.89

2 intercette 2 coefficienti angolari

Frederic (Dip.Econom) Inferenza Eco.Progr. 67 / 94

Modelli lineari

Importanti esemplificazioni

W categorial (con supporto {0,1}), V continua, Y continua.

Esempio

x,y =

W W ∗ V (1−W ) ∗ V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 0 0.3 2.561 1 0.4 0 5.151 1 0.5 0 6.021 1 0.6 0 6.89

2 intercette 2 coefficienti angolari

Frederic (Dip.Econom) Inferenza Eco.Progr. 67 / 94

Modelli lineari

Importanti esemplificazioni

W categorial (con supporto {0,1}), V continua, Y continua.

Esempio

x,y =

W W ∗ V (1−W ) ∗ V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 0 0.3 2.561 1 0.4 0 5.151 1 0.5 0 6.021 1 0.6 0 6.89

2 intercette 2 coefficienti angolari

Frederic (Dip.Econom) Inferenza Eco.Progr. 67 / 94

Modelli lineari

Rappresentazione del modello di regressione

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y

Frederic (Dip.Econom) Inferenza Eco.Progr. 68 / 94

Modelli Lineari Generalizzati (GLM)

La famiglia esponenziale

Sia Y = (Y1, ..., Yn), n VA IID.Si definisce la famiglia esponenziale:

Yi ∼ EF(b(θi), ψ/wi)

con densita

f(yi) = exp (wi/ψ(yiθi − b(θi)) + c(yi, ψ))

si dimostra che

E(Yi) = b′(θi) V (Yi) = b′′(θi)ψ/wi

nota valore atteso e varianza di Yi sono legate entrambe a θi.

Frederic (Dip.Econom) Inferenza Eco.Progr. 69 / 94

Modelli Lineari Generalizzati (GLM)

La famiglia esponenziale

Sia Y = (Y1, ..., Yn), n VA IID.Si definisce la famiglia esponenziale:

Yi ∼ EF(b(θi), ψ/wi)

con densita

f(yi) = exp (wi/ψ(yiθi − b(θi)) + c(yi, ψ))

si dimostra che

E(Yi) = b′(θi) V (Yi) = b′′(θi)ψ/wi

nota valore atteso e varianza di Yi sono legate entrambe a θi.

Frederic (Dip.Econom) Inferenza Eco.Progr. 69 / 94

Modelli Lineari Generalizzati (GLM)

La famiglia esponenziale

Sia Y = (Y1, ..., Yn), n VA IID.Si definisce la famiglia esponenziale:

Yi ∼ EF(b(θi), ψ/wi)

con densita

f(yi) = exp (wi/ψ(yiθi − b(θi)) + c(yi, ψ))

si dimostra che

E(Yi) = b′(θi) V (Yi) = b′′(θi)ψ/wi

nota valore atteso e varianza di Yi sono legate entrambe a θi.

Frederic (Dip.Econom) Inferenza Eco.Progr. 69 / 94

Modelli Lineari Generalizzati (GLM)

Esempio: la Bernoulli

Yi ∼ Ber(π)

f(yi) = πyi (1− π)(1− yi)= exp (yi log(π)− (1− yi) log(1− pi))= exp (yi(log(π)− log(1− π)))

= exp(θiyi − log(1− eθi)

)con

θi = logit(π) = log

1− π

)e conb(θi) = log(1 + eθi), b′(θi) = logit−1(θi) = π, b′′(θi) = π(1− π)

Frederic (Dip.Econom) Inferenza Eco.Progr. 70 / 94

Modelli Lineari Generalizzati (GLM)

Esempio: la Poisson

Yi ∼ Pois(λ)

f(yi) =λyiyi!e−λ

= exp (yi log λ− λ− log yi!)

= exp(

(yiθi − eθi)− log yi!)

con θi = log λ ⇒b(θi) = eθi , ψ = wi = 1, c(ψ, yi) = − log yi!.

Frederic (Dip.Econom) Inferenza Eco.Progr. 71 / 94

Modelli Lineari Generalizzati (GLM)

Modelli Lineari Generalizzati

Sia Yi ∼ EF(b(θi, ψ/wi)), IID e x matrice disegno

si poneµi = E(Yi) = b′(θi)

si sceglie una funzione (link function) g tale che

g(µi) = xiβ

se b′ ≡ g−1 ⇒ g e detta canonica.

Frederic (Dip.Econom) Inferenza Eco.Progr. 72 / 94

Modelli Lineari Generalizzati (GLM)

Modelli Lineari Generalizzati

Sia Yi ∼ EF(b(θi, ψ/wi)), IID e x matrice disegno

si poneµi = E(Yi) = b′(θi)

si sceglie una funzione (link function) g tale che

g(µi) = xiβ

se b′ ≡ g−1 ⇒ g e detta canonica.

Frederic (Dip.Econom) Inferenza Eco.Progr. 72 / 94

Modelli Lineari Generalizzati (GLM)

Modelli Lineari Generalizzati

Sia Yi ∼ EF(b(θi, ψ/wi)), IID e x matrice disegno

si poneµi = E(Yi) = b′(θi)

si sceglie una funzione (link function) g tale che

g(µi) = xiβ

se b′ ≡ g−1 ⇒ g e detta canonica.

Frederic (Dip.Econom) Inferenza Eco.Progr. 72 / 94

Modelli Lineari Generalizzati (GLM)

Modelli Lineari Generalizzati

Sia Yi ∼ EF(b(θi, ψ/wi)), IID e x matrice disegno

si poneµi = E(Yi) = b′(θi)

si sceglie una funzione (link function) g tale che

g(µi) = xiβ

se b′ ≡ g−1 ⇒ g e detta canonica.

Frederic (Dip.Econom) Inferenza Eco.Progr. 72 / 94

Modelli Lineari Generalizzati (GLM) Un modello logit

Modelli dose-risposta

Data from: Racine, A., Grieve, A. P., Fluhler, H., and Smith, A. F. M.(1986). Bayesian methods in practice: experiences in the pharmaceuticalindustry (with discussion). Applied Statistics 35, 93-150

Dose xi Number of Number of Sequence,(log g/ml) animals, ni deaths, si =

∑yi y1, ..., yn

-0.863 5 0 0 0 0 0 0-0.296 5 1 0 1 0 0 0-0.053 5 3 0 1 1 0 10.727 5 5 1 1 1 1 1

Obbiettivo: stimare la legge di probabilita condizionata di yi|xi

Frederic (Dip.Econom) Inferenza Eco.Progr. 73 / 94

Modelli Lineari Generalizzati (GLM) Un modello logit

Dati dose risposta

−1.0 −0.5 0.0 0.5 1.0

0.00.2

0.40.6

0.81.0

x

y/n

Frederic (Dip.Econom) Inferenza Eco.Progr. 74 / 94

Modelli Lineari Generalizzati (GLM) Un modello logit

Il modello logit

Per ogni xi fissata yi e una Bernoulli con parametro θi che dipendeda xi, ovvero una funzione θi = g(xi), e dunque:

P (Yi = yi|xi; θi) = g(xi)yi(1− g(xi))

1−yi

anche se poniamo alcune restrizioni su g la scelta non e univoca.

un modello standard e il modello logistico:

logit(θi) = logθ

1− θ, g(xi) = logit−1(xi) =

exp{β0 + β1xi}1 + exp{β0 + β1xi}

ora il modello ha 2 parametri espliciti θ = (β0, β1) ed uno implicito g.

Frederic (Dip.Econom) Inferenza Eco.Progr. 75 / 94

Modelli Lineari Generalizzati (GLM) Un modello logit

La curva logistica

−6 −4 −2 0 2 4 6

0.00.2

0.40.6

0.81.0

x

logisti

c (x)

a=0; b=1a=1; b=2a=−1,b=.89

Frederic (Dip.Econom) Inferenza Eco.Progr. 76 / 94

Modelli Lineari Generalizzati (GLM) Un modello logit

La funzione di verosimiglianza del modello logit

E’ un modello a 2 parametri con funzione di verosimiglianza:

L(θ) = L(β0, β1)

=

n∏i=1

g(xi)yi(1− g(xi))

1−yi

la log-verosimiglianza e

`(θ) = `(β0, β1)

=

n∑i=1

yi log g(xi) + (1− yi) log(1− g(xi))

con

g(xi) =exp{β0 + β1xi}

1 + exp{β0 + β1xi}

Frederic (Dip.Econom) Inferenza Eco.Progr. 77 / 94

Modelli Lineari Generalizzati (GLM) Un modello logit

La verosimiglianza, prospettive

a

b

Lik.ab

a

b

Lik.ab

ab

Lik.ab

a

b

Lik.ab

Frederic (Dip.Econom) Inferenza Eco.Progr. 78 / 94

Modelli Lineari Generalizzati (GLM) Un modello logit

La log-verosimiglianza, linee di contorno

−2 −1 0 1 2 3 4

−50

510

1520

Frederic (Dip.Econom) Inferenza Eco.Progr. 79 / 94

Modelli Lineari Generalizzati (GLM) Un modello logit

Le stime di massima verosimiglianza

Definiamo

θ = (β0, β1)

= argmaxθ∈Θ

`(θ)

nel nostro caso

β0 = 0.8737247, β1 = 7.9134744

Frederic (Dip.Econom) Inferenza Eco.Progr. 80 / 94

Modelli Lineari Generalizzati (GLM) Un modello logit

Distribuzione di θ con n crescente, se θ0 = 0.5

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

xgr[, 1]

ypred

Frederic (Dip.Econom) Inferenza Eco.Progr. 81 / 94

Modelli Lineari Generalizzati (GLM) Un modello logit

L’informazione di Fisher e una matrice

Definiamo l’informazione osservata

I =

(d2`dβ2

0

d2`dβ0dβ1

d2`dβ1dβ0

d2`dβ2

1

)(β0,β1)=(β0,β1)

Definiamo l’informazione di Fisher

I(θ) = EY (∂2`/∂θ∂θ′)

I−1 e lo stimatore di I(θ), la varianza di θ, con componenti√d2`dβ2

0e lo SE di β0√

d2`dβ2

1e lo SE di β1

Frederic (Dip.Econom) Inferenza Eco.Progr. 82 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Quante specie di formiche? Un esperimento di conteggio

The data give the ant species richness (number of ant species) foundin 64 square meter sampling grids, in 22 bogs and 22 forestssurrounding the bogs, in Connecticut, Massachusetts and Vermont(USA). The sites span a 3 dg of latitude in New England. Aaron MEllison (2004). Bayesian inference in ecology. Ecology Letters, 7,509-520

ogni sito i = 1, ..., n = 22 + 22 puo avere un numero casuale di speciediverse yi ∈ {0, 1, 2, ...}.Sn =

∑ni=1 yi = somma(tutti gli yi)=numero totale di specie negli n

siti.

Sn = 309

y = Sn/n = 309/44 = 7.023 numero medio di specie per sito.

Frederic (Dip.Econom) Inferenza Eco.Progr. 83 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Quante specie di formiche? Un esperimento di conteggio

The data give the ant species richness (number of ant species) foundin 64 square meter sampling grids, in 22 bogs and 22 forestssurrounding the bogs, in Connecticut, Massachusetts and Vermont(USA). The sites span a 3 dg of latitude in New England. Aaron MEllison (2004). Bayesian inference in ecology. Ecology Letters, 7,509-520

ogni sito i = 1, ..., n = 22 + 22 puo avere un numero casuale di speciediverse yi ∈ {0, 1, 2, ...}.

Sn =∑n

i=1 yi = somma(tutti gli yi)=numero totale di specie negli nsiti.

Sn = 309

y = Sn/n = 309/44 = 7.023 numero medio di specie per sito.

Frederic (Dip.Econom) Inferenza Eco.Progr. 83 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Quante specie di formiche? Un esperimento di conteggio

The data give the ant species richness (number of ant species) foundin 64 square meter sampling grids, in 22 bogs and 22 forestssurrounding the bogs, in Connecticut, Massachusetts and Vermont(USA). The sites span a 3 dg of latitude in New England. Aaron MEllison (2004). Bayesian inference in ecology. Ecology Letters, 7,509-520

ogni sito i = 1, ..., n = 22 + 22 puo avere un numero casuale di speciediverse yi ∈ {0, 1, 2, ...}.Sn =

∑ni=1 yi = somma(tutti gli yi)=numero totale di specie negli n

siti.

Sn = 309

y = Sn/n = 309/44 = 7.023 numero medio di specie per sito.

Frederic (Dip.Econom) Inferenza Eco.Progr. 83 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Quante specie di formiche? Un esperimento di conteggio

The data give the ant species richness (number of ant species) foundin 64 square meter sampling grids, in 22 bogs and 22 forestssurrounding the bogs, in Connecticut, Massachusetts and Vermont(USA). The sites span a 3 dg of latitude in New England. Aaron MEllison (2004). Bayesian inference in ecology. Ecology Letters, 7,509-520

ogni sito i = 1, ..., n = 22 + 22 puo avere un numero casuale di speciediverse yi ∈ {0, 1, 2, ...}.Sn =

∑ni=1 yi = somma(tutti gli yi)=numero totale di specie negli n

siti.

Sn = 309

y = Sn/n = 309/44 = 7.023 numero medio di specie per sito.

Frederic (Dip.Econom) Inferenza Eco.Progr. 83 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Quante specie di formiche? Un esperimento di conteggio

The data give the ant species richness (number of ant species) foundin 64 square meter sampling grids, in 22 bogs and 22 forestssurrounding the bogs, in Connecticut, Massachusetts and Vermont(USA). The sites span a 3 dg of latitude in New England. Aaron MEllison (2004). Bayesian inference in ecology. Ecology Letters, 7,509-520

ogni sito i = 1, ..., n = 22 + 22 puo avere un numero casuale di speciediverse yi ∈ {0, 1, 2, ...}.Sn =

∑ni=1 yi = somma(tutti gli yi)=numero totale di specie negli n

siti.

Sn = 309

y = Sn/n = 309/44 = 7.023 numero medio di specie per sito.

Frederic (Dip.Econom) Inferenza Eco.Progr. 83 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

I dati

Site Srich Habitat Latitude Elevation

TPB 6 Forest 41.97 389HBC 16 Forest 42.00 8CKB 18 Forest 42.03 152

...TPB 5 Bog 41.97 389HBC 6 Bog 42.00 8CKB 14 Bog 42.03 152

...

Tabella: ants data

Frederic (Dip.Econom) Inferenza Eco.Progr. 84 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Come se... un’urna con composizione incognita

Sia U un urna che contiene infinite palline ognuna marcata con unnumero intero, tale che

P (Yi = y; θ) =θye−θ

y!, y = 0, 1, 2, ...

dove θ e il parametro incognito che definisce l’urna.

Estraiamo con reintroduzione n = 10 palline

Ogni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.

Frederic (Dip.Econom) Inferenza Eco.Progr. 85 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Come se... un’urna con composizione incognita

Sia U un urna che contiene infinite palline ognuna marcata con unnumero intero, tale che

P (Yi = y; θ) =θye−θ

y!, y = 0, 1, 2, ...

dove θ e il parametro incognito che definisce l’urna.

Estraiamo con reintroduzione n = 10 palline

Ogni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.

Frederic (Dip.Econom) Inferenza Eco.Progr. 85 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Come se... un’urna con composizione incognita

Sia U un urna che contiene infinite palline ognuna marcata con unnumero intero, tale che

P (Yi = y; θ) =θye−θ

y!, y = 0, 1, 2, ...

dove θ e il parametro incognito che definisce l’urna.

Estraiamo con reintroduzione n = 10 palline

Ogni sito ha un numero di specie COME SE estraessi una pallina da U .

Il parametro θ non cambia nel tempo e con l’osservazione.

Frederic (Dip.Econom) Inferenza Eco.Progr. 85 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Come se... un’urna con composizione incognita

Sia U un urna che contiene infinite palline ognuna marcata con unnumero intero, tale che

P (Yi = y; θ) =θye−θ

y!, y = 0, 1, 2, ...

dove θ e il parametro incognito che definisce l’urna.

Estraiamo con reintroduzione n = 10 palline

Ogni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.

Frederic (Dip.Econom) Inferenza Eco.Progr. 85 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

La misura di verosimiglianza del modello Poisson

E’ una funzione di θ

L(θ;Yi = yi) ∝n∏i=1

θyie−θ

yi!,

∝ θ∑ni=1 yie−nθ

dove θ e il parametro incognito che definisce l’urna.

Estraiamo con reintroduzione n = 10 palline

Ogni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.

La log-verosimiglianza e:

`(θ) = ny log θ − nθ

θ = y = 7.0227, SE(θ) =√y/n = 0.3995.

Frederic (Dip.Econom) Inferenza Eco.Progr. 86 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

La misura di verosimiglianza del modello Poisson

E’ una funzione di θ

L(θ;Yi = yi) ∝n∏i=1

θyie−θ

yi!,

∝ θ∑ni=1 yie−nθ

dove θ e il parametro incognito che definisce l’urna.

Estraiamo con reintroduzione n = 10 palline

Ogni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.

La log-verosimiglianza e:

`(θ) = ny log θ − nθ

θ = y = 7.0227, SE(θ) =√y/n = 0.3995.

Frederic (Dip.Econom) Inferenza Eco.Progr. 86 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

La misura di verosimiglianza del modello Poisson

E’ una funzione di θ

L(θ;Yi = yi) ∝n∏i=1

θyie−θ

yi!,

∝ θ∑ni=1 yie−nθ

dove θ e il parametro incognito che definisce l’urna.

Estraiamo con reintroduzione n = 10 pallineOgni sito ha un numero di specie COME SE estraessi una pallina da U .

Il parametro θ non cambia nel tempo e con l’osservazione.

La log-verosimiglianza e:

`(θ) = ny log θ − nθ

θ = y = 7.0227, SE(θ) =√y/n = 0.3995.

Frederic (Dip.Econom) Inferenza Eco.Progr. 86 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

La misura di verosimiglianza del modello Poisson

E’ una funzione di θ

L(θ;Yi = yi) ∝n∏i=1

θyie−θ

yi!,

∝ θ∑ni=1 yie−nθ

dove θ e il parametro incognito che definisce l’urna.

Estraiamo con reintroduzione n = 10 pallineOgni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.

La log-verosimiglianza e:

`(θ) = ny log θ − nθ

θ = y = 7.0227, SE(θ) =√y/n = 0.3995.

Frederic (Dip.Econom) Inferenza Eco.Progr. 86 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

La misura di verosimiglianza del modello Poisson

E’ una funzione di θ

L(θ;Yi = yi) ∝n∏i=1

θyie−θ

yi!,

∝ θ∑ni=1 yie−nθ

dove θ e il parametro incognito che definisce l’urna.

Estraiamo con reintroduzione n = 10 pallineOgni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.

La log-verosimiglianza e:

`(θ) = ny log θ − nθ

θ = y = 7.0227, SE(θ) =√y/n = 0.3995.

Frederic (Dip.Econom) Inferenza Eco.Progr. 86 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

La misura di verosimiglianza del modello Poisson

E’ una funzione di θ

L(θ;Yi = yi) ∝n∏i=1

θyie−θ

yi!,

∝ θ∑ni=1 yie−nθ

dove θ e il parametro incognito che definisce l’urna.

Estraiamo con reintroduzione n = 10 pallineOgni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.

La log-verosimiglianza e:

`(θ) = ny log θ − nθ

θ = y = 7.0227, SE(θ) =√y/n = 0.3995.

Frederic (Dip.Econom) Inferenza Eco.Progr. 86 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Usando tutte le informazioni

Posto yi =Srich, xi1 =Habitat, xi2 =Latitude e xi3 =Elevation delsito i.

dove

xi1 =

{0, se Habitat=Forest

1, se Habitat=Blog

Vogliamo modellareYi ∼ Poisson(θi)

conlog(θi) = β0 + β1xi1 + β2xi2 + β3xi3

qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4

Frederic (Dip.Econom) Inferenza Eco.Progr. 87 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Usando tutte le informazioni

Posto yi =Srich, xi1 =Habitat, xi2 =Latitude e xi3 =Elevation delsito i.

dove

xi1 =

{0, se Habitat=Forest

1, se Habitat=Blog

Vogliamo modellareYi ∼ Poisson(θi)

conlog(θi) = β0 + β1xi1 + β2xi2 + β3xi3

qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4

Frederic (Dip.Econom) Inferenza Eco.Progr. 87 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Usando tutte le informazioni

Posto yi =Srich, xi1 =Habitat, xi2 =Latitude e xi3 =Elevation delsito i.

dove

xi1 =

{0, se Habitat=Forest

1, se Habitat=Blog

Vogliamo modellareYi ∼ Poisson(θi)

conlog(θi) = β0 + β1xi1 + β2xi2 + β3xi3

qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4

Frederic (Dip.Econom) Inferenza Eco.Progr. 87 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Usando tutte le informazioni

Posto yi =Srich, xi1 =Habitat, xi2 =Latitude e xi3 =Elevation delsito i.

dove

xi1 =

{0, se Habitat=Forest

1, se Habitat=Blog

Vogliamo modellareYi ∼ Poisson(θi)

conlog(θi) = β0 + β1xi1 + β2xi2 + β3xi3

qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4

Frederic (Dip.Econom) Inferenza Eco.Progr. 87 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Usando tutte le informazioni

Posto yi =Srich, xi1 =Habitat, xi2 =Latitude e xi3 =Elevation delsito i.

dove

xi1 =

{0, se Habitat=Forest

1, se Habitat=Blog

Vogliamo modellareYi ∼ Poisson(θi)

conlog(θi) = β0 + β1xi1 + β2xi2 + β3xi3

qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4

Frederic (Dip.Econom) Inferenza Eco.Progr. 87 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Usando solo β0, nota log β0 = y

Call:

glm(formula = Srich ~ 1, family = poisson, data = ants)

Deviance Residuals:

Min 1Q Median 3Q Max

-2.2409 -1.2420 -0.3959 0.4492 3.4539

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 1.94915 0.05689 34.26 <2e-16 ***

---

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 102.76 on 43 degrees of freedom

Residual deviance: 102.76 on 43 degrees of freedom

AIC: 265.12

Number of Fisher Scoring iterations: 5

Frederic (Dip.Econom) Inferenza Eco.Progr. 88 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Usando solo β0, nota log β0 = y

Call:

glm(formula = Srich ~ Habitat, family = poisson, data = ants)

Deviance Residuals:

Min 1Q Median 3Q Max

-1.9277 -1.1216 -0.4041 0.8928 3.3661

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 1.58179 0.09667 16.363 < 2e-16 ***

HabitatForest 0.63544 0.11956 5.315 1.07e-07 ***

---

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 102.763 on 43 degrees of freedom

Residual deviance: 73.078 on 42 degrees of freedom

AIC: 237.43

Number of Fisher Scoring iterations: 4

Frederic (Dip.Econom) Inferenza Eco.Progr. 89 / 94

Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Usando tutte le informazioni

> summary(glm(Srich~Habitat+Latitude+Elevation,ants,family=poisson))

Deviance Residuals:

Min 1Q Median 3Q Max

-2.20939 -0.72643 -0.05933 0.51571 2.60147

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 11.9368121 2.6214970 4.553 5.28e-06 ***

HabitatForest 0.6354389 0.1195664 5.315 1.07e-07 ***

Latitude -0.2357930 0.0616638 -3.824 0.000131 ***

Elevation -0.0011411 0.0003749 -3.044 0.002337 **

---

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 102.763 on 43 degrees of freedom

Residual deviance: 40.690 on 40 degrees of freedom

AIC: 209.04

Number of Fisher Scoring iterations: 4

Frederic (Dip.Econom) Inferenza Eco.Progr. 90 / 94

Alta dimensionalita

Quante X devo inserire nel modello?

Supponiamo di avere

y ∈ Rn×1, X ∈ Rn×k

dove k e un numero elevato rispetto ad n.

sotto ipotesi IID, vogliamo modellare

(Yi|xi;β, τ) ∼ L(xiβ, τ)

dovexiβ = β0 + β1xi1 + ...+ βkxik, i = 1, ..., n

e τ un parametro di variabilita.

in questo caso θ = (β, τ) e dim(Θ) = k + 2

Frederic (Dip.Econom) Inferenza Eco.Progr. 91 / 94

Alta dimensionalita

Quante X devo inserire nel modello?

Supponiamo di avere

y ∈ Rn×1, X ∈ Rn×k

dove k e un numero elevato rispetto ad n.

sotto ipotesi IID, vogliamo modellare

(Yi|xi;β, τ) ∼ L(xiβ, τ)

dovexiβ = β0 + β1xi1 + ...+ βkxik, i = 1, ..., n

e τ un parametro di variabilita.

in questo caso θ = (β, τ) e dim(Θ) = k + 2

Frederic (Dip.Econom) Inferenza Eco.Progr. 91 / 94

Alta dimensionalita

Quante X devo inserire nel modello?

Supponiamo di avere

y ∈ Rn×1, X ∈ Rn×k

dove k e un numero elevato rispetto ad n.

sotto ipotesi IID, vogliamo modellare

(Yi|xi;β, τ) ∼ L(xiβ, τ)

dovexiβ = β0 + β1xi1 + ...+ βkxik, i = 1, ..., n

e τ un parametro di variabilita.

in questo caso θ = (β, τ) e dim(Θ) = k + 2

Frederic (Dip.Econom) Inferenza Eco.Progr. 91 / 94

Alta dimensionalita

Se Y normale IID

sotto ipotesi IID, modelliamo

(Yi|xi;β, τ) ∼ N (xiβ, τ)

le equazioni di verosimiglianza per β coincidono con il criterio deiminimi quadrati

β = argminβ∈Rk+1

n∑i

(yi − xiβ)2

ma se k elevato il problema e computazionalmente instabile.

Esistono molti criteri di scelta del modello tutti basati su euristichedifficilmente razionalizabili.

Frederic (Dip.Econom) Inferenza Eco.Progr. 92 / 94

Alta dimensionalita

Se Y normale IID

sotto ipotesi IID, modelliamo

(Yi|xi;β, τ) ∼ N (xiβ, τ)

le equazioni di verosimiglianza per β coincidono con il criterio deiminimi quadrati

β = argminβ∈Rk+1

n∑i

(yi − xiβ)2

ma se k elevato il problema e computazionalmente instabile.

Esistono molti criteri di scelta del modello tutti basati su euristichedifficilmente razionalizabili.

Frederic (Dip.Econom) Inferenza Eco.Progr. 92 / 94

Alta dimensionalita

Se Y normale IID

sotto ipotesi IID, modelliamo

(Yi|xi;β, τ) ∼ N (xiβ, τ)

le equazioni di verosimiglianza per β coincidono con il criterio deiminimi quadrati

β = argminβ∈Rk+1

n∑i

(yi − xiβ)2

ma se k elevato il problema e computazionalmente instabile.

Esistono molti criteri di scelta del modello tutti basati su euristichedifficilmente razionalizabili.

Frederic (Dip.Econom) Inferenza Eco.Progr. 92 / 94

Alta dimensionalita

La regressione LASSO

si tratta di modificare il penalty dei minimi quadrati con la seguente:

β = argminβ∈Rk+1

n∑i

(yi − xiβ)2 + λ

k∑j

|βj |

Il parametro λ e detto il parametro di shrinkage e consente di stimarecongiuntamente il valore dei coefficienti e il numero di parametri

si stima il modello per diversi valori di lambd

Frederic (Dip.Econom) Inferenza Eco.Progr. 93 / 94

Alta dimensionalita

La regressione LASSO

si tratta di modificare il penalty dei minimi quadrati con la seguente:

β = argminβ∈Rk+1

n∑i

(yi − xiβ)2 + λ

k∑j

|βj |

Il parametro λ e detto il parametro di shrinkage e consente di stimarecongiuntamente il valore dei coefficienti e il numero di parametri

si stima il modello per diversi valori di lambd

Frederic (Dip.Econom) Inferenza Eco.Progr. 93 / 94

Alta dimensionalita

La regressione LASSO

si tratta di modificare il penalty dei minimi quadrati con la seguente:

β = argminβ∈Rk+1

n∑i

(yi − xiβ)2 + λ

k∑j

|βj |

Il parametro λ e detto il parametro di shrinkage e consente di stimarecongiuntamente il valore dei coefficienti e il numero di parametri

si stima il modello per diversi valori di lambd

Frederic (Dip.Econom) Inferenza Eco.Progr. 93 / 94

Alta dimensionalita

LASSO rappresentazione geometrica

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

−2 −1 0 1 2 3 4

−2−1

01

23

4

Frederic (Dip.Econom) Inferenza Eco.Progr. 94 / 94