ELEMENTI DI STIMA PARAMETRICA Introduzione Lezione 4...Elementi di teoria della stima parametrica 5...

ELEMENTI DI STIMA PARAMETRICA

Introduzione

Nell’ambito della Teoria delle Probabilità di ogni v.c. X si suppone di conoscere la loro distribuzione probabilistica.

In pratica, di un fenomeno descritto da X si conoscono solo un numero finito e limitato di informazioni ed utilizzando queste bisogna risalire ad alcune caratteristiche determinanti della popolazione.

Le informazioni di cui si dispone sono solo di tipo campionario che vengono utilizzate per inferire sulla popolazione.

L’inferenza è una tipica procedura induttiva: risalire dal particolare (le informazioni rac-colte su X e di cui si dispone) al generale (la popolazione o variabile casuale X oggetto di analisi) con tecniche messe a punto dalla statistica.

È evidente che bisogna possedere un campione rappresentativo della v.c. e non delle aspirazioni soggettive del ricercatore. Per evitare gli inconvenienti legati alle aspirazioni soggettive degli operatori, nella formazione del campione, bisogna affidarsi a procedure neutrali cioè a metodi che prescindono da influenze personali.

Il modo più semplice per ottenere tali campioni, come accennato all’inizio del corso, è di considerare campioni casuali.

Lezione 4 2 Stima parametrica • Data la v.c. X con funzione di densità o distribuzione di probabilità f(x; θ); • f(.) è nota, θ=(θ1 , θ2 , ..., θk ) è il parametro incognito da stimare utilizzando le informa-

zioni campionarie.

Esempio a) X~N(μ,σ

2) con f.d.

f(x; μ, σ2) =

22

1

πσexp

⎭⎬⎫

⎩⎨⎧

μ−σ

− 22 )x(

21

il parametro incogniyo è θ = (μ, σ

2).

b) X~B(N, p) con distribuzione di probabilità

p(x) = ⎟⎟⎠

⎞⎜⎜⎝

⎛

x

Npx (1-p)N-x, x = 0,1,2,...,N

Elementi di teoria della stima parametrica 3

i parametri incogniti sono θ = (N, p). c) X~P(λ) con

!xe)x(p

x λ−λ= , x = 0, 1, 2,...

il parametro incognito è θ =λ.

Problema: stimare il parametro incognito θ, nota la forma di f(.) e noto un campione ca-suale estratto da X.

Sia quindi X~f(x; θ) ed x = (x1 , x2 , ..., xn ) un campione estratto con rimessa da X. Al va-riare del campione si ottiene la v.c. ampionaria n-pla:

X = (X1 , X2 , ..., Xn )

Le v.c. X1 , X2 , ..., Xn sono fra di loro indipendenti ed hanno tutte la stessa distribuzione coincidente con quella della popolazione:

Xi ~ f(xi ; θ), i= 1, 2 ,..., n

Lezione 4 4 Si ha quindi

X = (X1 , X2 , ..., Xn ) ~ f(x1 ; θ) f(x2 ; θ) ... f(xn ; θ) =

= ∏=

n

1i

f(xi ; θ)

La sua stima di θ (che indichiamo con θ̂) è sempre una funzione del campione:

θ̂= dn( x ) = d(x1 , x2 , ..., xn )

Al variare del campione, θ̂ varia e descrive una v.c. che prende il nome di stimatore di θ:

θ̂= dn( X ) = d(X1 , X2 , ..., Xn )

la cui distribuzione, note la forma funzionale di f( .) e dn ( .), è teoricamente derivabile.

Elementi di teoria della stima parametrica 5 Metodo delle proprietà ottimali

Considerare, come stimatori di θ, quelle decisioni dn che soddisfano alcune proprietà. Fissate queste proprietà si elaborano dei metodi di stima che, automaticamente posseggo-no alcune di quelle proprietà.

SUFFICIENZA

Data la v.c. X con f.d. f(x; θ) e θ incognito e da stimare, sia X=(X1 ,..., Xn) la v.c. campio-naria estratta da X e d(X) = d lo stimatore di θ. Nel passaggio dalla v.c. campionaria X= (X1 ,..., Xn ) alla v.c. semplice d = d(X) si possono perdere informazioni su θ.

d(X) è sufficiente se possiede le stesse informazione che X=(X1 ,..., Xn) ha su θ.

Fra tutti i possibili stimatori di θ bisogna prendere in considerazione, se esistono, solo quelli che non disperdono alcuna informazione che il campione ha sul parametro incognito che si vuole stimare.

Lezione 4 6 Esempio

Se il parametro da stimare è μ e X=(X1 ,..., Xn) la v.c. campionaria, è evidente che

d1 = ∑=

m

1iiX , con m < n

è meno informativo su μ di quanto non lo sia

d2 = ∑=

n

1iiX

d( X) è uno stimatore sufficiente per il parametro θ se e solo se la distribuzione condizio-nata ( X|d( X) = d) è indipendente da θ per ogni d.

Se d è sufficiente per θ, quello che rimane di X dopo la sintesi, cioè (X|d(X) = d), non pos-siede altre informazioni su θ.


Teorema (di fattorizzazione) Sia d(X) uno stimatore di θ∈Ω, condizione necessaria e sufficiente perché d(X) sia suffi-

ciente per θ è

f(x1 ,x2 ,…,xn ; θ) = f(x ;θ) = ∏=

n

1i

f(xi; θ) = g[d(x); θ] h(x)

Si può dimostrare che se θ̂= d(X) è sufficiente per θ, allora essa è l’unica statistica suffi-

ciente per θ, a meno di una qualsiasi funzione di d(X), con una corrispondenza uno ad uno, che è ancora sufficiente per θ. (a) Se esiste uno stimatore sufficiente per θ, allora ne esistono infiniti dati da tutte le sue

trasformazioni biunivoche. (b) La sola sufficienza non basta per caratterizzare uno stimatore come accettabile. (c) Funzioni che non sono in corrispondenza uno ad uno con uno stimatore sufficiente pos-

sono essere ancora sufficienti.

Lezione 4 8 Dato il parametro θ da stimare e la v.c. campionaria X=(X1 ,..., Xn ), esiste sempre uno

stimatore detto ordinamento statistico,

)X...X( )n()1( ≤≤

che è sufficiente per θ. Esempio

X è la v.c. di Poisson con parametro λ incognito. Si vuole derivare uno stimatore suffi-ciente per λ a partire dal campione casuale x = (x1,..., xn ) estratto da X.

In questo problema risulta θ = λ e

p(x; λ) = !xex λ−λ

Dal teorema di fattorizzazione si ha

p(x1, x2, ..., xn; λ) = ∏=

n

1i

p(xi ; λ) = ∏=

λ−λn

1i i

x

!xei =

!x!...x!xe

n21

nxi λ−∑λ


Risulta

d(x) = ∑=

n

1iix ; h(x) =

!x!...x!x1

n21 ; g[d(x ); λ] = λ−λ n)x(d e

e

d(X) =∑=

n

1i

Xi

è sufficiente per λ, ma lo è anche lo stimatore

λ̂= n1 d(X) = ∑

=

n

1in1 Xi

essendo una trasformazione lineare, e quindi biunivoca, di d(X). Osserviamo che, in questo caso, λ̂ è la media campionaria delle osservazioni.

La sola sufficienza non basta per rendere uno stimatore accettabile.

Lezione 4 10 Non Distorsione

Sia X~f(x ;θ), con θ incognito. Lo stimatore dn(X) = d(X1 ,..., Xn) è non distorto per θ se E[dn

(X)] = θ, qualsiasi sia n.

In altri termini d(X) non sovrastima né sottostima, in media, il parametro o il vettore di pa-

rametri di interesse.

(a) Anche se d(X) è non distorto per θ, di solito, g(d(X)) è distorto per g(θ). (b) La sola non distorsione non basta per rendere accettabile uno stimatore. Esempio

Data la v.c. X~f(x; μ), con μ la media incognita di X. Sia x = (x1 ,..., xn ) consideriamo gli stimatori:

μ̂= ∑=

n

1iiX

n1

= X; )i(μ̂ = Xi , i=1, ..., n

Elementi di teoria della stima parametrica 11 tutti questi stimatori sono non distorti:

E(μ̂ ) =⎥⎥

⎦

⎤

⎢⎢

⎣

⎡

∑=

n

1iiX

n1E = ∑

=

n

1in1 E(Xi ) = μ

E( )i(μ̂ ) = E(Xi ) = μ, i = 1, ..., n.

Notare che μ̂ è la media campionaria.

Se uno stimatore è sufficiente e non distorto allora è ottimale per il parametro incognito, nel senso che la sua variabilità è la più piccola possibile.

Può capitare che dn(X) sia distorto, ma che tale distorsione diventi sempre più piccola al

crescere di n:

Lezione 4 12

Lo stimatore dn(X) è asintoticamente non distorto per θ se:

∞→nlim E[dn(X)] = θ

De uno stimatore distorto si può misurare la distorsione:

Dn = E( θ̂) - θ.

• Se è Dn > 0 lo stimatore sovrastima sistematicamente il parametro incognito, • Se è Dn < 0 lo sottostima sistematicamente.

EFFICIENZA

Sia X~f(x; θ) con θ parametro incognito, sia X = (X1, X2, ..., Xn) la v.c. campionaria, dn (X) uno stimatore di θ. La quantità

E[(dn (X) - θ)2]

è l’errore quadratico medio (MSE) dello stimatore dn (X).

Elementi di teoria della stima parametrica 13 Risulta:

E[(dn(X) -θ)2] = var(dn(X))+ 2

nD In definitiva, qualsiasi sia lo stimatore dn(X) di θ risulta sempre

MSE(dn) = var(dn(X)) + 2nD .

MSE(dn) è la somma di due addendi: - la varianza dello stimatore: var(dn ) - la distorsione al quadrato dello stimatore: 2

nD = [E(dn)-θ]2.

Gli stimatori che sono non distorti e con varianza minima vengono chiamati efficienti o

anche stimatori UMVU (Uniformly Minimum Variance Unbiased).

Lezione 4 14 Se dn(X) è non distorto e sufficiente per θ allora è anche UMVU. Non sempre esistono

stimatori non distorti di un parametro θ che si vuole stimare. E quindi non sempre esistono stimatori efficienti. Esempio Supponiamo di avere una popolazione X che assume i tre valori seguenti 1, 2, 3 e quindi possiede la seguente distribuzione di frequenza

xi 1 2 3 Tot

fi 1/3 1/3 1/3 1 Si ha μ = 2, 3/22

x =σ . Vogliamo stimare il parametro θ = μ utilizzando i risultati di un campione estratto bernoullianamente di ampiezza n=2. La v.c. campionaria X=(X1 , X2 ), costituita da tutti i possibili campioni che si possono estrarre da X, assume le seguenti 9 coppie di valori

(1, 1) (1, 2) (1, 3) (2, 1) (2, 2) (2, 3) (3, 1) (3 2) (3, 3)

che implicano la seguente variabile casuale campionaria doppia X = (X1, X2)


x1\x2 1 2 3 pi. 1 1/9 1/9 1/9 1/3 2 1/9 1/9 1/9 1/3 3 1/9 1/9 1/9 1/3 p.j 1/3 1/3 1/3 1

Le marginali X1 e X2 della v.c. campionaria hanno la stessa distribuzione della popolazione X e sono indipendenti dato che risulta pij = pi. p.j equivalente a 1/9=(1/3)( 1/3) per ogni (i, j). Per stimare μ usiamo le seguenti 6 funzioni della v.c. campionaria:

11 Xˆ =μ ; )X,Xmin(ˆ 212 =μ ; )X,Xmax(ˆ 213 =μ ;

)XX(ˆ 214 +=μ ; 2/)XX(X 21 += ; 216 XX=μ Otteniamo per ciascuno i valori che possono assumere

Lezione 4 16

1μ̂ 1 1 1 2 2 2 3 3 3

2μ̂ 1 1 1 1 2 2 1 2 3

3μ̂ 1 2 3 2 2 3 3 3 3

4μ̂ 2 3 4 3 4 5 4 5 6 X 1 1,5 2 1,5 2 2,5 2 2,5 3

6μ̂ 1 2 3 2 2 6 3 6 3

Elementi di teoria della stima parametrica 17 che implicano le seguenti 6 v.c. per ciascuno degli stimatori considerato

1μ̂ 2μ̂ 3μ̂ 4μ̂ X 6μ̂

xi pi xi pi xi pi xi pi xi pi xi pi 1 1/3 1 5/9 1 1/9 2 1/9 1 1/9 1 1/9

2 1/3 2 3/9 2 3/9 3 2/9 1,5 2/9 2

2/9

2 1/3 3 1/9 3 5/9 4 3/9 2 3/9 3 2/9 1 1 1 5 2/9 2,5 2/9 2 1/9

6 1/9 3 1/9 6

2/9

1 1 3 1/9

1

Lezione 4 18 Conclusione:

Stimatore 1μ̂ 2μ̂ 3μ̂ 4μ̂ X 6μ̂ Media 2 1,5555 2,4444 4 2 1,9101Varianza 0,6666 0,4691 0,4691 1,3333 0,3333 0,3512MSE 0,6666 0,6666 0,6666 5,3333 0,3333 0,3593

I due stimatori 1μ̂ e X sono non distorti, ma che X è il più efficiente: X è la v.c. media campionaria. Esempio

Nell’esempio 3 abbiamo visto che se X~P(λ), con λ incognita, uno stimatore sufficiente di λ è dato da

λ̂= X= ∑=

n

1iiX

n1 .

E( λ̂ ) = ⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛

∑=

n

1iiX

n1E = ∑

=

n

1in1 E(Xi) = ∑

=

n

1in1

λ = λ .

Elementi di teoria della stima parametrica 19 Questo vuole dire che λ̂ è non distorto e sufficiente per λ e quindi efficiente.

Non sempre esistono stime UMVU:

dn(X) è efficiente asintoticamente per θ se per ogni altro stimatore *nd (X) questi sono en-

trambi asintoticamente non distorti e risulta

∞→nlim E[ ]2

))X(d(n n θ− <∞→n

lim E [ ]2))X(d(n *n θ− , per ogni θ∈Ω

dn(X) è asintoticamente efficiente per θ se la sua variabilità tende a zero più rapidamente della variabilità di qualsiasi altro stimatore )X(d*

n .

Lezione 4 20 CONSISTENZA

Per ottenere stimatori con qualche proprietà ottimale si è spesso costretti a richiedere che soddisfino almeno qualche proprietà asintotica, quella più rilevante da un punto di vista pratico è la consistenza:

Lo stimatore dn(X) è consistente in media quadratica per g(θ) se

∞→nlim E[(dn(X) - g(θ))

2] = 0; per ogni θ∈Ω

dn(X) è consistente per g(θ) in media quadratica se è

∞→nlim var(dn(X)) = 0;

∞→nlim Dn(g(θ)) = 0

Nel caso in cui dn(X) è non distorto per g(θ) la di consistenza in media quadratica diviene

∞→nlim var(dn(X)) = 0


Esempio

Data una v.c. X~f(x; μ), con σ2<∞ , abbiamo visto che X è non distorta per μ e

Lezione 4 22

var( X) = ⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛

∑=

n

1iiX

n1var = ∑

=

n

1i2n1 var(Xi) = ∑

=

n

1i2n1

σ 2 =

n

2σ

e quindi Xè uno stimatore consistente in media quadratica per μ.

Esempio Data una v.c. X~f(x; μ , σ

2) dimostriamo che

S2 = ( )∑

=

−n

1i

2i XX

n1

è asintoticamente non distorto e consistente per σ

2.

Sappiamo che Xè uno stimatore non distorto e consistente per μ. In particolare si ha


n

2σ = var( X) = E( 2X ) - [E( X)] 2 = E( X

2) - μ

2

da cui

E( X2) =

n

2σ + μ2

ma

E(S2) =

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡−∑

=

n

1i

22i XX

n1E =

= ∑=

n

1in1 E(X2

i ) - E( X 2) = ( )∑

=

−μn

i

22 XE

n1

sostituendo quella ricavata per E( X 2

) si ottiene

E(S2) = μ2 - n

2σ - μ2 = σ

2 -

n

2σ = 2n

1nσ

−

Lezione 4 24 S

2 viene detta varianza campionara.

s2 = ( )∑

=

−−

n

1i

2i XX

1n1

è uno stimatore non distorto per σ

2.

Inoltre si ha

var(S2) = E[(S

2)

2] - [E(S

2)]

2 = E[(m2 - m21 )

2] - [E(S

2)]

2 =

= E(m22) - 2E(m2 m

21 ) + E(m4

1 ) - 42

2

n)1n(

σ−

con

mr = ∑=

n

1in1 r

iX

Risulta


var(S2) = ⎟

⎠⎞

⎜⎝⎛

−−

−+γσ−

1n3n3

n)1n(

23

42

e lo stimatore S

2 è consistente, in media quadratica per σ2, come lo è s

2.

Esempio Data la v.c. doppia (X,Y) da cui è estratto il campione casuale (Xi , Yi ), i=1, 2 ,...,n , il

coefficiente di correlazione campionario, come stimatore della correlazione ρ di (X,Y), è da-to da

21n

1i

2i

n

1i

2i

n

1iii

)YY()XX(

)YY)(XX(

r

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡−−

−−

=

∑∑

∑

==

=

Lezione 4 26 Si può dimostrare che

( ) ( )22n

1rnvarlim ρ−=∞→

r è uno stimatore consistente di ρ.

METODI DI COSTRUZIONE DELLE STIME (a) metodo dei momenti

(b) metodo dei minimi quadrati

(c) metodo della massima verosimiglianza


Metodo dei momenti

Data la popolazione X~f(x ;θ) con θ = (θ1 ,…,θk ) vettore di parametri incogniti

μr = ∫∞+

∞−

xr f(x; θ) dx , r =1,2,...,k

sono funzione dei parametri incogniti θ:

μr = μr(θ), r=1,2,...,k

dalla v.c. campionaria X = (X1 ,…, Xn ) si hanno i momenti campionari

mr = ∑=

n

1in1 r

iX , r = 1 , 2 ,…, k

Lo stimatore di θ può essere ottenuto risolvendo il sistema di k equazioni in k incognite

Lezione 4 28

⎪⎪

⎩

⎪⎪

⎨

⎧

=μ

=μ

=μ

kk

22

11

m)θ(

...................

m)θ(

m)θ(

Esempio Se X=(X1 ,…, Xn ) è la variabile campionaria generata da un campione casuale estratto da una qualsiasi v.c. X si ha

m1 = ∑=

n

1in1 Xi = X

e quindi m1 = X è lo stimatore della media, se esiste, della v.c. X ottenuto con il metodo dei momenti.

Elementi di teoria della stima parametrica 29 • Bisogna conoscere a priori i legami fra i parametri da stimare ed i momenti della v.c. • Non richiede la conoscenza della distribuzione della v.c. • E’ facilmente applicabile e può essere utilizzato per generare stime preliminari. • Il sistema è, in generale, non lineare ed ammette spesso più di una soluzione. • Gli stimatori sono, in generale, distorti. • Se la v.c. X ammette i momenti fino all’ordine k, gli stimatori sono consistenti. Esempio

La v.c. X ha primi due momenti finiti, si vuole stimare media e varianza utilizzando il me-todo dei momenti. Dato che è μ1 = μ e μ2 = μ

2 + σ

2 si ottiene:

⎪⎩

⎪⎨⎧

=σ+μ

=μ

222

1

m

m

da cui μ̂= X

2σ̂ = ∑ ∑= =

=−=−n

1i

n

1i

22i

22i S)XX(

n1XX

n1

Lezione 4 30 Xè non distorto e consistente per μ, mentre 2σ̂ è consistente ed asintoticamente non di-storto per σ

2. Lo stimatore non distorto di σ

2:

s2 = ∑

=

−−

n

1i

2i )XX(

1n1

ma non è uno stimatore dei momenti.

Con il metodo dei momenti si può ottenere lo stimatore di qualsiasi momento della v.c. X

mr = rμ̂ = ∑=

n

1i

riX

n1

che è non distorto e consistente per μr .

Elementi di teoria della stima parametrica 31 Metodo dei Minimi Quadrati

Data la v.c. X con parametro θ da stimare e la v.c. campionaria X = (X1,…, Xn). Sia

E(X) = g(θ) si ha

E(Xi ) = g(θ), i = 1 , 2 , ..., n si ottengono gli scarti

ei = Xi - g(θ), i = 1 , 2 , ..., n risulta

E(ei) = E(Xi ) - g(θ) = 0, i = 1, 2, ..., n Si sceglie θ tale che

[ ]∑ ∑= =

=θ−=n

1i

n

1i

2i

2i min)(gXe

θ

e si chiama stimatore dei minimi quadrati (o anche LSE: Least Square Estimator).

Lezione 4 32 Per l’applicazione di questo metodo non è necessaria la conoscenza della distribuzione

della popolazione, ma solo la forma funzionale

E(Xi ) = gi

Gli stimatori ottenuti sono, in generale, consistenti ma non i più efficienti. Esempio

Data la v.c. Y con E(Y) = θ ed E(Yi ) = θ, i=1,2,…,n, si ha

∑ ∑ =θ−= imomin)Y(e 2i

2i

da cui

∑∑ =θ−−=θ

0)Y(2edd

i2i

lo stimatore LS per θ è

YYn1ˆ

i ==θ ∑

∑θ2i2

2e

dd = 2n > 0

Elementi di teoria della stima parametrica 33 Metodo della Massima Verosimiglianza

L’uso di questo metodo di stima richiede la conoscenza della distribuzione della v.c. di cui vogliamo stimare i parametri.

La v.c. X ha distribuzione f(x; θ) nota a meno di θ. Per la v.c. X = (X1, X2, ..., Xn) risulta

f(x1, x2, ...,xn) = f(x1; θ) f(x2; θ) ... f(xn; θ)

La stessa funzione si chiama funzione di verosimiglianza se vista come funzione di θ L(θ;

x) = ∏=

n

1i

f(xi; θ)

x=(x1, x2 ..., xn) è noto e rappresenta gli n valori che il campione casuale ha effettivamente assunti. La funzione di verosimiglianza è funzione solo di θ ed è sempre non negativa.

Lezione 4 34

Data la v.c. X con distribuzione f(x; θ) nota a meno di θ, si chiama stimatore ML di θ quel

θ̂ tale che

L( θ̂; x) =θ

max L(θ; x) = ∏=

θ

n

1i

max f(xi ; θ)

La definizione di stima ML è equivalente a

L( θ̂; x) ≥ L(θ; x), θ ∈ Ω;

L( θ̂ ; x) >L(θ; x), per almeno un θ;

Se X è discreta e quindi f(xi; θ) = P(Xi = xi; θ), allora

L( θ̂; x) = θ

max P(X1 = x1 , X2 = x2 ,…, Xn = xn; θ)

Se X è continua si ha f(xi;θ)dxi = P(xi ≤Xi <xi + dxi; θ)


Nella scelta della stima ML non è importante quanto vale il massimo della funzione di ve-rosimiglianza, ma dove è localizzato. Questo vuole implica che L(θ; x) e logL(θ; x) forni-scono esattamente la stessa stima ML:

l(θ; x) = logL(θ; x) = ∑=

n

1i

log f(xi; θ)

*

Lezione 4 36

Teorema Sotto condizioni molto generali, risulta:

(a) se T è l’unica statistica sufficiente per θ e se θ̂è lo stimatore ML di θ allora θ̂ è funzio-ne di T;

(b) se θ* è uno stimatore UMVU di θ allora lo stimatore ML è funzione di θ*;

(c) θ̂ è l’unico stimatore ML consistente di θ; (d) gli stimatori ML sono asintoticamente normali;

(e) se θ̂ è ML per θ allora g( θ̂) è uno stimatore ML di g(θ), qualsiasi sia g( ⋅).

L’importanza del punto (e) è evidente dato che permette di ottenere stimatori ML, con le relative proprietà, come funzioni di altri stimatori ML. In particolare, se si vuole stimare g(θ) e questo è complicato, si può stimare θ con ML ottenendo θ̂ e quindi risalire a g( θ̂).

Esempio Supponiamo che sia X ~ N(μ; σ

2) con μ e σ

2 incogniti. Stimare tali parametri con ML uti-lizzando il campione x = (x1,…, xn).

Elementi di teoria della stima parametrica 37Dato che

f(x ;μ, σ2) =

22

1

πσexp

⎭⎬⎫

⎩⎨⎧

μ−σ

− 22 )x(

21

la funzione di verosimiglianza è

L(μ, σ2; x)=∏

=

πσn

1i

2)2(-1/2 exp

⎭⎬⎫

⎩⎨⎧

μ−σ

− 2i2 )x(

21 =

= (2πσ 2)-n/2

exp⎭⎬⎫

⎩⎨⎧

μ−σ

− ∑ 2i2 )x(

21

e prendendone il logaritmo si ha

Lezione 4 38

log L(μ, σ2; x) =

2n

− log(2π) 2n

− log(σ2) ( )2i2 x2

1 ∑ μ−σ

−

Derivando rispetto a μ e σ

2 ed uguagliando a zero si ottiene il sistema:

⎪⎪⎩

⎪⎪⎨

⎧

=μ−σ

+σ

−

=μ−σ

∑∑

0)x(2

112n

0)x(1

2i42

i2

da cui, dopo alcuni semplici passaggi, si ottengono gli stimatori ML

⎪⎪⎩

⎪⎪⎨

⎧

=−=σ

==μ

∑∑

22i

2

i

S)XX(n1ˆ

XXn1ˆ


Se le osservazioni xi , i=1,2,…,n, pur essendo indipendenti non sono identicamente di-stribuite, allora la funzione di verosimiglianza diviene

L(θ; x) = ∏=

n

1i

fi(xi ; θ)

e le proprietà degli stimatori ML non risultano più vere, in particolare non è vero neanche che tali stimatori sono, in generale, consistenti. La Distribuzione di Probabilità di Alcuni Stimatori Campionari

Prima di entrare nel merito delle tecniche che presenteremo, notiamo che nell’inferenza statistica si possono, schematicamente, individuare due momenti distinti:

I Il momento della

stima di una quantità statistica

II Il momento della valutazionedelle proprietà della quantità

statistica stimata

Lezione 4 40 L’ambito in cui ci muoveremo qui di seguito è il II: valutare le proprietà statistiche di una

quantità stimata. L’attenzione è rivolta a metodi analitici utilizzabili per derivare la distribuzione di alcuni

stimatori usati correntemente: media, varianza, correlazione. Abbiamo visto che, data una v.c. X con μ e σ

2 finite ma incognite, degli stimatori accetta-

bili di questi parametri sono:

X= ∑=

n

1iiX

n1 per μ

eM̂ = Mediana{X1, ..., Xn} per Me

2σ̂ = ( )∑=

μ−n

1i

2iX

n1 per σ

2, se μ è nota

s2 = ( )∑

=

−−

n

1i

2i XX

1n1 per σ

2, se μ è incognita

Elementi di teoria della stima parametrica 41 Data una v.c. doppia (X,Y), uno stimatore accettabile del coefficiente di correlazione ρ è

21n

1i

2i

n

1i

2i

n

1iii

)YY()XX(

)YY)(XX(

r

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡−−

−−

=

∑∑

∑

==

=

Sorge il problema di derivare, in modo esatto o approssimato, la loro distribuzione. DISTRIBUZIONE DI PROBABILITÀ DELLA MEDIA CAMPIONARIA

Data la v.c. X con media e varianza finite, supponiamo che σ2 sia nota. Uno stimatore

accettabile di μ è la media campionaria

∑=

=n

1iiX

n1X

Lezione 4 42

con le Xi per costruzione indipendenti, inoltre sappiamo che

E( X) = μ; ( )n

Xvar2σ

=

che ci permettono di costruire la v.c. standardizzata

σ

μ−=

μ−= ∑ )X(n

)Xvar(XZ i

per il teorema limite centrale si ha

Z ⎯→⎯L N(0,1)

Se n è sufficientemente grande, in pratica basta che sia n≥ 30, qualsiasi sia la distribuzione di X risulta

X ≈ ⎟⎟⎠

⎞⎜⎜⎝

⎛ σμ

n;N

2

Elementi di teoria della stima parametrica 43 Nel caso particolare in cui è X~N(μ σ

2), per una delle proprietà delle v.c. normali (una tra-

sformazione lineare di normali indipendenti è ancora una normale) risulta

X~ ⎟⎟⎠

⎞⎜⎜⎝

⎛ σμ

n;N

2

qualsiasi sia n.

In definitiva, possiamo affermare che qualsiasi sia la distribuzione di partenza da cui è estratto il campione, se questa possiede media e varianza finita, allora la media campiona-ria X , per n sufficientemente grande, può essere approssimata da una v.c. normale con media μ e varianza σ

2/n.

Nelle figure seguenti mostriamo la distribuzione effettiva di X a partire da v.c. note ma molto diverse fra di loro. I grafici vanno letti per colonna.

Lezione 4 44

Distribuzione della v.c. X

Distribuzione di X per n=2

Distribuzione di Xper n=4

Lezione 4 46

Distribuzione della v.c. X



Lezione 4 48

Il risultato precedente può essere esteso al caso di trasformazioni di X . Infatti, si può dimostrare che data la trasformazione Y = g( X ), se g(⋅) ha derivata prima g’(μ) non nulla in μ, posto

v2 = σ

2[g’(μ)]

2 si ha

Y = g( X)≈N ⎟⎟⎠

⎞⎜⎜⎝

⎛μ

nv),(g

2

cioè lo stimatore g( X) di g(μ) è, per n sufficientemente grande, approssimativamente nor-male con media g(μ) e varianza v

2/n.

La distribuzione di Xo di una sua trasformata regolare g( X) è sempre, in modo esatto o approssimata, normale.

Elementi di teoria della stima parametrica 49 DISTRIBUZIONE DI PROBABILITÀ DEI PERCENTILI CAMPIONARI

Data una v.c. X continua, e quindi con f.d. f(x), indichiamo con Qp il p-esimo percentile di X cioè tale da soddisfare l’equazione seguente

∫∞−

pQ

f(x) dx = p,

e con pQ̂ la relativa stima ottenuta sul campione:

[ ][ ]⎪⎩

⎪⎨⎧

−≥≥

≥≤

p1Q̂niosservazioeproporzion

pQ̂niosservazioeproporzion:Q̂

p

pp

Se pQ̂ è unico si dimostra (teorema di Glivenko-Cantelli)

Lezione 4 50

( ) NQQ̂n Lpp ⎯→⎯−

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛ −2

p )]Q(f[)p1(p;0 .

In altri termini, sotto le condizioni sopra riportate, se n è sufficientemente grande (in pratica deve essere n ≥ 80) risulta

pQ̂ ≈N ⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛ −2

pp )]Q(f[n

)p1(p;Q

Si noti che per p=0.5 il relativo percentile è la mediana, per p=0.25 è il primo quartile, per p=0.75 è il terzo quartile. Si osservi che pQ̂ è asintoticamente non distorta e consistente

per Qp.


DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA

Distinguiamo due diverse situazioni

(A) Caso di μ nota La v.c. X ha media μ nota e varianza σ

2 incognita e momenti μ3 e μ4 finiti. Uno stimatore

accettabile di σ2 è

2σ̂ = ∑=

μ−n

1i

2i )X(

n1

Dato che le v.c. (Xi - μ)2 sono indipendenti ed hanno media e varianza finita, applicando il

teorema limite centrale per n sufficientemente grande risulta

( ))ˆvar(;Nˆ 222 σσ≈σ

var( 2σ̂ ) = ∑=

n

1i2n1 var((Xi - μ)

2) =

n1 var[( X - μ)

2]

Lezione 4 52

= n1 [μ4 - 4μ3 μ + 6μ2 μ

2 - 3μ

4- σ

4]

Nel caso particolare in cui è X~N(μ; σ2) da 2σ̂ si ottiene

2

2ˆnσ

σ =

2n

1i

iX∑=

⎟⎟⎠

⎞⎜⎜⎝

⎛σ

μ−

e per costruzione (Xi - μ)/σ = Zi è una normale standardizzata per cui

2

2ˆnσ

σ = ∑=

n

1i

2iZ ~ 2

nχ .

In altri termini, se la variabile casuale X è normale allora 2σ̂ è proporzionale ad una v.c. Chi-quadrato con n gradi di libertà.

Elementi di teoria della stima parametrica 53 Inoltre risulta

E( 2σ̂ ) ( )2n

22n

2E

nnE χ

σ=⎟

⎟⎠

⎞⎜⎜⎝

⎛χ

σ= = σ

2

var( 2σ̂ ) = =⎟⎟⎠

⎞⎜⎜⎝

⎛χ

σ 2n

2

nvar ( )2

n2

4var

nχ

σ =n

2 4σ

(B) Caso di μ incognita In questa situazione, uno stimatore accettabile di σ

2 è dato da:

S2 = ∑

=

−n

1i

2i )XX(

n1

e vale il seguente

Lezione 4 54 Teorema

Se X~N(μ; σ2) allora

2n

σS

2 ~ 21n−χ ; X~ N ⎟

⎟⎠

⎞⎜⎜⎝

⎛ σμ

n,

2

con Xe S2 indipendenti. Una conclusione analoga si ha se al posto di S

2 si considera lo

stimatore ottimale s2.

Questo risultato, di grande importanza pratica, ci permette di derivarne altri di notevole

interesse. In particolare, dato che

σμ− )X(n ~ N(0; 1); 2

2 s1nσ

− ~ 21n−χ


e queste v.c. sono indipendenti, segue che

t = =

−χ −

)1n(

)1;0(N2

1ns

n)X(

1ns1n

1n)X(2

2

μ−=

−σ

−σμ− ~ T(n-1)

Come si può notare, la v.c.

sn)X( μ−

ha una distribuzione indipendente da μ e σ

2, per questo viene detta pivotale.

Lezione 4 56

Distribuzione della correlazione campionaria

Abbiamo visto che, data una v.c. doppia (X, Y) una stima accettabile della correlazione fra X ed Y è data dalla correlazione campionaria la cui distribuzione è derivata nei teoremi seguenti: Teorema

Data la v.c. (X, Y) ~ N2(μx , μy , σ2x , σ2

y , ρ ) con correlazione ρ = 0, sia (Xi , Yi), i =

1,2,…,n, la v.c. campionaria estratta da (X , Y), sia r la stima campionaria di ρ, si dimostra che

2r12nr

−

− ~ T(n-2).

Osserviamo che in questo caso X ed Y sono indipendenti.

Elementi di teoria della stima parametrica 57 Teorema

Data la v.c. (X , Y) ~ N2(μx , μy , σ 2x , σ2

y , ρ), con correlazione ρ ≠ 0, se (Xi , Yi ),

i=1,2,…,n, è la v.c. campionaria estratta da (X, Y), posto

Z = ⎟⎠⎞

⎜⎝⎛

−+

r1r1log

21 ; pz = ⎟

⎠

⎞⎜⎝

⎛ρ−ρ+

11log

21

per n moderatamente grande risulta

(Z - pz ) ≈ N ⎟⎟⎠

⎞⎜⎜⎝

⎛

−ρ−

+− )1n(2

41n

1;02

È facile verificare che

3n1

)1n(24

1n1 4

−≈

−ρ−

+−

Lezione 4 58 Due metodi di inferenza basati sul ricampionamento

Nel paragrafo precedente abbiamo derivato, in modo esatto o approssimato, la distribu-zione degli stimatori della media, dei percentili, della varianza e della correlazione utiliz-zando procedure di tipo analitico. Di solito queste procedure, esclusi i semplici casi sopra analizzati, richiedono assunzioni molto restrittive come la normalità di X, ma anche sotto questa assunzione, in molti casi, la distribuzione che si conosce è solo di tipo asintotico, quando si riesce a derivarla, e spesso non è analiticamente trattabile. Qui di seguito pre-sentiamo due procedure che forniscono informazioni sulla distribuzione di probabilità dello stimatore riutilizzando ripetutamente i dati campionari.

Le procedure di riuso del campione, ed in particolare le metodologie che vanno sotto il nome di Bootstrap e Jackknife, hanno assunto nei problemi di inferenza un ruolo sempre più rilevante come vie alternative a quella analitica classica. Questo ha portato alla com-parsa di un numero sempre più rilevante di lavori nella letteratura internazionale, sia di tipo teorico che applicato, sulle metodologie citate. Una caratteristica specifica su cui poggiano queste tecniche di ricampionamento, ed il Bootstrap in particolare, è la simulazione con metodi Monte Carlo di una procedura statistica, utilizzando il minor numero possibile di as-sunzioni a priori.

Nel seguito daremo un rapido cenno della procedura Bootstrap nella versione non pa-rametrica, che è quella che riserva i maggiori sviluppi e i più interessanti sbocchi applicati-vi, e la problematica ad essa connessa, e della procedura Jackknife per la sua semplicità

Elementi di teoria della stima parametrica 59d’uso e per le relazioni che questa ha con il Bootstrap. Più in particolare:

- data la variabile casuale o popolazione X con f.r. F(x ;θ), con θ parametro incognito di interesse;

- sia X=(X1 ,…,Xn ) la v.c. campionaria estratta da X; - sia nθ̂ = θ(X) uno stimatore di � ottenuto con uno dei metodi classici di stima,

si vuole inferire sulle proprietà statistiche di nθ̂ come stimatore di θ. Da un punto di vista statistico ciò può volere dire, per esempio:

(a) ottenere una stima di var( nθ̂ )

(b) fissate le costanti a e b, e ottenere una stima di P{a ≤ nθ̂ - θ ≤ b} (c) trovare le quantità σ̂ , )1(x α− , )(x α di modo che sia

P{θ∈ [ nθ̂ - n

-1/2 σ̂ )1(x α− ; nθ̂ - n

-1/2 σ̂ )(x α ]} = 1-2α.

La soluzione a problemi del tipo sopra esposti può essere ottenuta con due diversi ap-

procci:

Lezione 4 60 (i) tenuto conto delle caratteristiche di X, delle informazioni contenute in X=(X1 ,...,Xn ), del

problema che si vuole risolvere, si deriva analiticamente, in modo esatto o asintotico, la distribuzione di Rn (funzione monotona di nθ̂ ) e la si usa per ottenere risposte ai pro-blemi del tipo (a)-(c). Questa impostazione è stata seguita nel paragrafo precedente. I casi più noti di statistiche Rn sono

Rn (x ; θ̂) = nθ̂ - θ

Rn (x ; θ̂) = n

ns

ˆ θ−θ

con sn stima dello scarto quadratico medio di nθ̂ ;

(ii) in molte situazioni è difficile o impossibile ottenere la distribuzione di probabilità di Rn , altre volte l’approssimazione asintotica che si ottiene è non soddisfacente specie per piccoli campioni. In questi casi si può tentare di stimare la distribuzione di R n con metodi di simulazione Monte Carlo basati sul ricampionamento da X=(X1 ,...,Xn ). Le procedure Bootstrap e Jackknife sono di questo tipo. Qui di seguito presentiamo sinteticamente le due procedure nella loro versione origina-

ria.


La procedura Jackknife

Questa procedura è stata proposta per la prima volta da Quenouille nel 1956 e ripresa e generalizzata da Tukey nel 1958. È una procedura nata, ed usata per molti anni, essen-zialmente per ridurre o eliminare la distorsione presente in alcuni stimatori. Successiva-mente il suo uso è stato esteso alla stima della varianza di stimatori ed infine per derivare una distribuzione approssimata dello stimatore o di una sua trasformazione.

Dato il campione x=(x1 ,…,xn ) e la stima nθ̂ = θ(x) di θ, costruiamo le stime )i(θ̂ = θ(x(i)),

i=1, 2 ,…, n, ove x(i) = x escluso xi

Le n stime )i(θ̂ rappresentano la distribuzione Jackknife di nθ̂ , queste vengono utilizzate

per ottenere stime Jackknife di θ, della distorsione e della varianza di nθ̂ . Più in particolare,

(i) la stima Jackknife di θ basata su nθ̂ è

Lezione 4 62

)(Jˆ

⋅θ = ∑=

θn

1i)i(

ˆn1

;

(ii) la stima della distorsione di nθ̂ è

d̂ J( nθ̂ ) = (n-1) ( )(Jˆ

⋅θ - nθ̂ )

si dimostra che questa stima della distorsione, sotto condizioni non eccessivamente re-

strittive, è non distorta per la distorsione vera di nθ̂ (iii) la stima Jackknife corretta di θ basata su nθ̂ risulta

( )n(.)JnJ

ˆˆ)1n(ˆˆ θ−θ−−θ=θ = )(Jˆ

⋅θ - n ( )n)(Jˆˆ θ−θ ⋅ =

= [ ] ( )[ ]∑ ∑= =

θ−θ+θ=θ−−θn

1i

n

1i)i(n)i()i(n

ˆˆnˆn1ˆ)1n(ˆn

n1

;


(iv) la stima Jackknife della varianza di nθ̂ è data da

( ) [ ]∑=

θ−θ−

=θn

1i

2(.)J)i(n

2J

ˆˆn

1nˆV

(v) Tukey nel 1958 ipotizzò che

( )nJ

nJJ ˆV

ˆˆt

θθ−θ

=

potesse essere approssimata con una v.c. normale standardizzata. Altri autori come Ar-vesen, Beran, Miller, Sen dimostrarono che l’ipotesi di Tukey è vera sotto condizioni.

È importante osservare che la procedura Jackknife per la stima della varianza di nθ̂ non

sempre fornisce risultati accettabili. Per esempio tale stima, a meno di non considerare ge-neralizzazioni particolari del Jackknife qui non presentate, non è consistente per la varian-za della mediana campionaria e per i percentili campionari in generale.

Lezione 4 64 Esempio

Sia θ = μ e Xˆn =θ lo stimatore di μ. In questo caso è noto che

E( X) = μ; var( X) = σ

2/n

ed una stima non distorta di var( X ) è

⎟⎟⎠

⎞⎜⎜⎝

⎛∧ _Xvar =

ns2

, con s2 = ∑

=

θ−−

n

1i

2ni )ˆx(

1n1

.

Se si utilizza la procedura Jackknife si ottiene

∑ ∑≠ =

−−

=−

−−

=−

=n

ij

n

1j

iijj)i( 1n

xxnx

1n1x

n1

1nnx

1n1x

e quindi


∑=

=−−

==n

1i

2

)i((.)J x)1n(nxnxnx

n1x

mentre è 0)xx()1n()x(d̂ (.)JJ =−−= .

In definitiva, in questo caso si ha

xxx J(.)J ==

Per la stima Jackknife della varianza di x si ottiene:

[ ]2n

1i

in

1i(.)J)j(J x

1nxxn

n1nxx

n1n)x(V

2 ∑∑==

⎥⎦

⎤⎢⎣

⎡−

−−−

=−−

= =

= [ ]∑∑==

=−−

=⎥⎦

⎤⎢⎣

⎡−−−

n

1i

2i

2n

1i

insxx

1n1

n1

1nxx

n1n 2

.

Lezione 4 66

Come si può notare, in questo caso particolare, l’uso della procedura Jackknife genera gli stessi stimatori di quella classica. Naturalmente questo non succede in generale.

La procedura Bootstrap

Questa procedura è una generalizzazione di quella Jackknife. È stata proposta per la prima volta da Efron nel 1979. Ripresa da altri ricercatori, oltre allo stesso Efron, è stata via via approfondita ed applicata a numerose situazioni concrete.

Dato il campione x = (x1 ,…, xn), estratto bernoullianamente dalla v.c. X con funzione di ripartizione F(x; θ), data la stima nθ̂ = θ(x) di θ, si estraggono con rimessa da x i campioni

*B

*2

*1 x,...,x,x e si calcolano le stime di θ:

)x(,...,)x(ˆ,)x(ˆ *

B*B

*2

*2

*1

*1 θ=θθ=θθ=θ

le B stime *

bθ̂ rappresentano la distribuzione Bootstrap di nθ̂ e vengono utilizzate per ot-tenere:

Elementi di teoria della stima parametrica 67(i) la stima Bootstrap di θ tramite

∑=

θ=θB

1i

*bB ˆ

B1ˆ

(ii) la stima Bootstrap della varianza di nθ̂ utilizzando la seguente

( ) [ ]2B

1bB

*bnB ˆ

1B1ˆV ∑

=

θ−θ−

=θ

(iii) si ipotizza che

( )[ ] 2/1nB

nBB ˆV

ˆˆt

θ

θ−θ=

si distribuisce asintoticamente come una normale standardizzata. Efron, Bickel, Hall fissa-no le condizioni, che risultano essere molto generali, per cui una tale affermazione è vera.

ELEMENTI DI STIMA PARAMETRICA Introduzione Lezione 4...Elementi di teoria della stima parametrica 5...

Documents

Transcript of ELEMENTI DI STIMA PARAMETRICA Introduzione Lezione 4...Elementi di teoria della stima parametrica 5...