ELEMENTI DI STIMA PARAMETRICA Introduzione Lezione 4...Elementi di teoria della stima parametrica 5...
Transcript of ELEMENTI DI STIMA PARAMETRICA Introduzione Lezione 4...Elementi di teoria della stima parametrica 5...
ELEMENTI DI STIMA PARAMETRICA
Introduzione
Nell’ambito della Teoria delle Probabilità di ogni v.c. X si suppone di conoscere la loro distribuzione probabilistica.
In pratica, di un fenomeno descritto da X si conoscono solo un numero finito e limitato di informazioni ed utilizzando queste bisogna risalire ad alcune caratteristiche determinanti della popolazione.
Le informazioni di cui si dispone sono solo di tipo campionario che vengono utilizzate per inferire sulla popolazione.
L’inferenza è una tipica procedura induttiva: risalire dal particolare (le informazioni rac-colte su X e di cui si dispone) al generale (la popolazione o variabile casuale X oggetto di analisi) con tecniche messe a punto dalla statistica.
È evidente che bisogna possedere un campione rappresentativo della v.c. e non delle aspirazioni soggettive del ricercatore. Per evitare gli inconvenienti legati alle aspirazioni soggettive degli operatori, nella formazione del campione, bisogna affidarsi a procedure neutrali cioè a metodi che prescindono da influenze personali.
Il modo più semplice per ottenere tali campioni, come accennato all’inizio del corso, è di considerare campioni casuali.
Lezione 4 2 Stima parametrica • Data la v.c. X con funzione di densità o distribuzione di probabilità f(x; θ); • f(.) è nota, θ=(θ1 , θ2 , ..., θk ) è il parametro incognito da stimare utilizzando le informa-
zioni campionarie.
Esempio a) X~N(μ,σ
2) con f.d.
f(x; μ, σ2) =
22
1
πσexp
⎭⎬⎫
⎩⎨⎧
μ−σ
− 22 )x(
21
il parametro incogniyo è θ = (μ, σ
2).
b) X~B(N, p) con distribuzione di probabilità
p(x) = ⎟⎟⎠
⎞⎜⎜⎝
⎛
x
Npx (1-p)N-x, x = 0,1,2,...,N
Elementi di teoria della stima parametrica 3
i parametri incogniti sono θ = (N, p). c) X~P(λ) con
!xe)x(p
x λ−λ= , x = 0, 1, 2,...
il parametro incognito è θ =λ.
Problema: stimare il parametro incognito θ, nota la forma di f(.) e noto un campione ca-suale estratto da X.
Sia quindi X~f(x; θ) ed x = (x1 , x2 , ..., xn ) un campione estratto con rimessa da X. Al va-riare del campione si ottiene la v.c. ampionaria n-pla:
X = (X1 , X2 , ..., Xn )
Le v.c. X1 , X2 , ..., Xn sono fra di loro indipendenti ed hanno tutte la stessa distribuzione coincidente con quella della popolazione:
Xi ~ f(xi ; θ), i= 1, 2 ,..., n
Lezione 4 4 Si ha quindi
X = (X1 , X2 , ..., Xn ) ~ f(x1 ; θ) f(x2 ; θ) ... f(xn ; θ) =
= ∏=
n
1i
f(xi ; θ)
La sua stima di θ (che indichiamo con θ̂) è sempre una funzione del campione:
θ̂= dn( x ) = d(x1 , x2 , ..., xn )
Al variare del campione, θ̂ varia e descrive una v.c. che prende il nome di stimatore di θ:
θ̂= dn( X ) = d(X1 , X2 , ..., Xn )
la cui distribuzione, note la forma funzionale di f( .) e dn ( .), è teoricamente derivabile.
Elementi di teoria della stima parametrica 5 Metodo delle proprietà ottimali
Considerare, come stimatori di θ, quelle decisioni dn che soddisfano alcune proprietà. Fissate queste proprietà si elaborano dei metodi di stima che, automaticamente posseggo-no alcune di quelle proprietà.
SUFFICIENZA
Data la v.c. X con f.d. f(x; θ) e θ incognito e da stimare, sia X=(X1 ,..., Xn) la v.c. campio-naria estratta da X e d(X) = d lo stimatore di θ. Nel passaggio dalla v.c. campionaria X= (X1 ,..., Xn ) alla v.c. semplice d = d(X) si possono perdere informazioni su θ.
d(X) è sufficiente se possiede le stesse informazione che X=(X1 ,..., Xn) ha su θ.
Fra tutti i possibili stimatori di θ bisogna prendere in considerazione, se esistono, solo quelli che non disperdono alcuna informazione che il campione ha sul parametro incognito che si vuole stimare.
Lezione 4 6 Esempio
Se il parametro da stimare è μ e X=(X1 ,..., Xn) la v.c. campionaria, è evidente che
d1 = ∑=
m
1iiX , con m < n
è meno informativo su μ di quanto non lo sia
d2 = ∑=
n
1iiX
d( X) è uno stimatore sufficiente per il parametro θ se e solo se la distribuzione condizio-nata ( X|d( X) = d) è indipendente da θ per ogni d.
Se d è sufficiente per θ, quello che rimane di X dopo la sintesi, cioè (X|d(X) = d), non pos-siede altre informazioni su θ.
Elementi di teoria della stima parametrica 7
Teorema (di fattorizzazione) Sia d(X) uno stimatore di θ∈Ω, condizione necessaria e sufficiente perché d(X) sia suffi-
ciente per θ è
f(x1 ,x2 ,…,xn ; θ) = f(x ;θ) = ∏=
n
1i
f(xi; θ) = g[d(x); θ] h(x)
Si può dimostrare che se θ̂= d(X) è sufficiente per θ, allora essa è l’unica statistica suffi-
ciente per θ, a meno di una qualsiasi funzione di d(X), con una corrispondenza uno ad uno, che è ancora sufficiente per θ. (a) Se esiste uno stimatore sufficiente per θ, allora ne esistono infiniti dati da tutte le sue
trasformazioni biunivoche. (b) La sola sufficienza non basta per caratterizzare uno stimatore come accettabile. (c) Funzioni che non sono in corrispondenza uno ad uno con uno stimatore sufficiente pos-
sono essere ancora sufficienti.
Lezione 4 8 Dato il parametro θ da stimare e la v.c. campionaria X=(X1 ,..., Xn ), esiste sempre uno
stimatore detto ordinamento statistico,
)X...X( )n()1( ≤≤
che è sufficiente per θ. Esempio
X è la v.c. di Poisson con parametro λ incognito. Si vuole derivare uno stimatore suffi-ciente per λ a partire dal campione casuale x = (x1,..., xn ) estratto da X.
In questo problema risulta θ = λ e
p(x; λ) = !xex λ−λ
Dal teorema di fattorizzazione si ha
p(x1, x2, ..., xn; λ) = ∏=
n
1i
p(xi ; λ) = ∏=
λ−λn
1i i
x
!xei =
!x!...x!xe
n21
nxi λ−∑λ
Elementi di teoria della stima parametrica 9
Risulta
d(x) = ∑=
n
1iix ; h(x) =
!x!...x!x1
n21 ; g[d(x ); λ] = λ−λ n)x(d e
e
d(X) =∑=
n
1i
Xi
è sufficiente per λ, ma lo è anche lo stimatore
λ̂= n1 d(X) = ∑
=
n
1in1 Xi
essendo una trasformazione lineare, e quindi biunivoca, di d(X). Osserviamo che, in questo caso, λ̂ è la media campionaria delle osservazioni.
La sola sufficienza non basta per rendere uno stimatore accettabile.
Lezione 4 10 Non Distorsione
Sia X~f(x ;θ), con θ incognito. Lo stimatore dn(X) = d(X1 ,..., Xn) è non distorto per θ se E[dn
(X)] = θ, qualsiasi sia n.
In altri termini d(X) non sovrastima né sottostima, in media, il parametro o il vettore di pa-
rametri di interesse.
(a) Anche se d(X) è non distorto per θ, di solito, g(d(X)) è distorto per g(θ). (b) La sola non distorsione non basta per rendere accettabile uno stimatore. Esempio
Data la v.c. X~f(x; μ), con μ la media incognita di X. Sia x = (x1 ,..., xn ) consideriamo gli stimatori:
μ̂= ∑=
n
1iiX
n1
= X; )i(μ̂ = Xi , i=1, ..., n
Elementi di teoria della stima parametrica 11 tutti questi stimatori sono non distorti:
E(μ̂ ) =⎥⎥
⎦
⎤
⎢⎢
⎣
⎡
∑=
n
1iiX
n1E = ∑
=
n
1in1 E(Xi ) = μ
E( )i(μ̂ ) = E(Xi ) = μ, i = 1, ..., n.
Notare che μ̂ è la media campionaria.
Se uno stimatore è sufficiente e non distorto allora è ottimale per il parametro incognito, nel senso che la sua variabilità è la più piccola possibile.
Può capitare che dn(X) sia distorto, ma che tale distorsione diventi sempre più piccola al
crescere di n:
Lezione 4 12
Lo stimatore dn(X) è asintoticamente non distorto per θ se:
∞→nlim E[dn(X)] = θ
De uno stimatore distorto si può misurare la distorsione:
Dn = E( θ̂) - θ.
• Se è Dn > 0 lo stimatore sovrastima sistematicamente il parametro incognito, • Se è Dn < 0 lo sottostima sistematicamente.
EFFICIENZA
Sia X~f(x; θ) con θ parametro incognito, sia X = (X1, X2, ..., Xn) la v.c. campionaria, dn (X) uno stimatore di θ. La quantità
E[(dn (X) - θ)2]
è l’errore quadratico medio (MSE) dello stimatore dn (X).
Elementi di teoria della stima parametrica 13 Risulta:
E[(dn(X) -θ)2] = var(dn(X))+ 2
nD In definitiva, qualsiasi sia lo stimatore dn(X) di θ risulta sempre
MSE(dn) = var(dn(X)) + 2nD .
MSE(dn) è la somma di due addendi: - la varianza dello stimatore: var(dn ) - la distorsione al quadrato dello stimatore: 2
nD = [E(dn)-θ]2.
Gli stimatori che sono non distorti e con varianza minima vengono chiamati efficienti o
anche stimatori UMVU (Uniformly Minimum Variance Unbiased).
Lezione 4 14 Se dn(X) è non distorto e sufficiente per θ allora è anche UMVU. Non sempre esistono
stimatori non distorti di un parametro θ che si vuole stimare. E quindi non sempre esistono stimatori efficienti. Esempio Supponiamo di avere una popolazione X che assume i tre valori seguenti 1, 2, 3 e quindi possiede la seguente distribuzione di frequenza
xi 1 2 3 Tot
fi 1/3 1/3 1/3 1 Si ha μ = 2, 3/22
x =σ . Vogliamo stimare il parametro θ = μ utilizzando i risultati di un campione estratto bernoullianamente di ampiezza n=2. La v.c. campionaria X=(X1 , X2 ), costituita da tutti i possibili campioni che si possono estrarre da X, assume le seguenti 9 coppie di valori
(1, 1) (1, 2) (1, 3) (2, 1) (2, 2) (2, 3) (3, 1) (3 2) (3, 3)
che implicano la seguente variabile casuale campionaria doppia X = (X1, X2)
Elementi di teoria della stima parametrica 15
x1\x2 1 2 3 pi. 1 1/9 1/9 1/9 1/3 2 1/9 1/9 1/9 1/3 3 1/9 1/9 1/9 1/3 p.j 1/3 1/3 1/3 1
Le marginali X1 e X2 della v.c. campionaria hanno la stessa distribuzione della popolazione X e sono indipendenti dato che risulta pij = pi. p.j equivalente a 1/9=(1/3)( 1/3) per ogni (i, j). Per stimare μ usiamo le seguenti 6 funzioni della v.c. campionaria:
11 Xˆ =μ ; )X,Xmin(ˆ 212 =μ ; )X,Xmax(ˆ 213 =μ ;
)XX(ˆ 214 +=μ ; 2/)XX(X 21 += ; 216 XX=μ Otteniamo per ciascuno i valori che possono assumere
Lezione 4 16
1μ̂ 1 1 1 2 2 2 3 3 3
2μ̂ 1 1 1 1 2 2 1 2 3
3μ̂ 1 2 3 2 2 3 3 3 3
4μ̂ 2 3 4 3 4 5 4 5 6 X 1 1,5 2 1,5 2 2,5 2 2,5 3
6μ̂ 1 2 3 2 2 6 3 6 3
Elementi di teoria della stima parametrica 17 che implicano le seguenti 6 v.c. per ciascuno degli stimatori considerato
1μ̂ 2μ̂ 3μ̂ 4μ̂ X 6μ̂
xi pi xi pi xi pi xi pi xi pi xi pi 1 1/3 1 5/9 1 1/9 2 1/9 1 1/9 1 1/9
2 1/3 2 3/9 2 3/9 3 2/9 1,5 2/9 2
2/9
2 1/3 3 1/9 3 5/9 4 3/9 2 3/9 3 2/9 1 1 1 5 2/9 2,5 2/9 2 1/9
6 1/9 3 1/9 6
2/9
1 1 3 1/9
1
Lezione 4 18 Conclusione:
Stimatore 1μ̂ 2μ̂ 3μ̂ 4μ̂ X 6μ̂ Media 2 1,5555 2,4444 4 2 1,9101Varianza 0,6666 0,4691 0,4691 1,3333 0,3333 0,3512MSE 0,6666 0,6666 0,6666 5,3333 0,3333 0,3593
I due stimatori 1μ̂ e X sono non distorti, ma che X è il più efficiente: X è la v.c. media campionaria. Esempio
Nell’esempio 3 abbiamo visto che se X~P(λ), con λ incognita, uno stimatore sufficiente di λ è dato da
λ̂= X= ∑=
n
1iiX
n1 .
E( λ̂ ) = ⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛
∑=
n
1iiX
n1E = ∑
=
n
1in1 E(Xi) = ∑
=
n
1in1
λ = λ .
Elementi di teoria della stima parametrica 19 Questo vuole dire che λ̂ è non distorto e sufficiente per λ e quindi efficiente.
Non sempre esistono stime UMVU:
dn(X) è efficiente asintoticamente per θ se per ogni altro stimatore *nd (X) questi sono en-
trambi asintoticamente non distorti e risulta
∞→nlim E[ ]2
))X(d(n n θ− <∞→n
lim E [ ]2))X(d(n *n θ− , per ogni θ∈Ω
dn(X) è asintoticamente efficiente per θ se la sua variabilità tende a zero più rapidamente della variabilità di qualsiasi altro stimatore )X(d*
n .
Lezione 4 20 CONSISTENZA
Per ottenere stimatori con qualche proprietà ottimale si è spesso costretti a richiedere che soddisfino almeno qualche proprietà asintotica, quella più rilevante da un punto di vista pratico è la consistenza:
Lo stimatore dn(X) è consistente in media quadratica per g(θ) se
∞→nlim E[(dn(X) - g(θ))
2] = 0; per ogni θ∈Ω
dn(X) è consistente per g(θ) in media quadratica se è
∞→nlim var(dn(X)) = 0;
∞→nlim Dn(g(θ)) = 0
Nel caso in cui dn(X) è non distorto per g(θ) la di consistenza in media quadratica diviene
∞→nlim var(dn(X)) = 0
Elementi di teoria della stima parametrica 21
Esempio
Data una v.c. X~f(x; μ), con σ2<∞ , abbiamo visto che X è non distorta per μ e
Lezione 4 22
var( X) = ⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛
∑=
n
1iiX
n1var = ∑
=
n
1i2n1 var(Xi) = ∑
=
n
1i2n1
σ 2 =
n
2σ
e quindi Xè uno stimatore consistente in media quadratica per μ.
Esempio Data una v.c. X~f(x; μ , σ
2) dimostriamo che
S2 = ( )∑
=
−n
1i
2i XX
n1
è asintoticamente non distorto e consistente per σ
2.
Sappiamo che Xè uno stimatore non distorto e consistente per μ. In particolare si ha
Elementi di teoria della stima parametrica 23
n
2σ = var( X) = E( 2X ) - [E( X)] 2 = E( X
2) - μ
2
da cui
E( X2) =
n
2σ + μ2
ma
E(S2) =
⎥⎥
⎦
⎤
⎢⎢
⎣
⎡−∑
=
n
1i
22i XX
n1E =
= ∑=
n
1in1 E(X2
i ) - E( X 2) = ( )∑
=
−μn
i
22 XE
n1
sostituendo quella ricavata per E( X 2
) si ottiene
E(S2) = μ2 - n
2σ - μ2 = σ
2 -
n
2σ = 2n
1nσ
−
Lezione 4 24 S
2 viene detta varianza campionara.
s2 = ( )∑
=
−−
n
1i
2i XX
1n1
è uno stimatore non distorto per σ
2.
Inoltre si ha
var(S2) = E[(S
2)
2] - [E(S
2)]
2 = E[(m2 - m21 )
2] - [E(S
2)]
2 =
= E(m22) - 2E(m2 m
21 ) + E(m4
1 ) - 42
2
n)1n(
σ−
con
mr = ∑=
n
1in1 r
iX
Risulta
Elementi di teoria della stima parametrica 25
var(S2) = ⎟
⎠⎞
⎜⎝⎛
−−
−+γσ−
1n3n3
n)1n(
23
42
e lo stimatore S
2 è consistente, in media quadratica per σ2, come lo è s
2.
Esempio Data la v.c. doppia (X,Y) da cui è estratto il campione casuale (Xi , Yi ), i=1, 2 ,...,n , il
coefficiente di correlazione campionario, come stimatore della correlazione ρ di (X,Y), è da-to da
21n
1i
2i
n
1i
2i
n
1iii
)YY()XX(
)YY)(XX(
r
⎥⎥
⎦
⎤
⎢⎢
⎣
⎡−−
−−
=
∑∑
∑
==
=
Lezione 4 26 Si può dimostrare che
( ) ( )22n
1rnvarlim ρ−=∞→
r è uno stimatore consistente di ρ.
METODI DI COSTRUZIONE DELLE STIME (a) metodo dei momenti
(b) metodo dei minimi quadrati
(c) metodo della massima verosimiglianza
Elementi di teoria della stima parametrica 27
Metodo dei momenti
Data la popolazione X~f(x ;θ) con θ = (θ1 ,…,θk ) vettore di parametri incogniti
μr = ∫∞+
∞−
xr f(x; θ) dx , r =1,2,...,k
sono funzione dei parametri incogniti θ:
μr = μr(θ), r=1,2,...,k
dalla v.c. campionaria X = (X1 ,…, Xn ) si hanno i momenti campionari
mr = ∑=
n
1in1 r
iX , r = 1 , 2 ,…, k
Lo stimatore di θ può essere ottenuto risolvendo il sistema di k equazioni in k incognite
Lezione 4 28
⎪⎪
⎩
⎪⎪
⎨
⎧
=μ
=μ
=μ
kk
22
11
m)θ(
...................
m)θ(
m)θ(
Esempio Se X=(X1 ,…, Xn ) è la variabile campionaria generata da un campione casuale estratto da una qualsiasi v.c. X si ha
m1 = ∑=
n
1in1 Xi = X
e quindi m1 = X è lo stimatore della media, se esiste, della v.c. X ottenuto con il metodo dei momenti.
Elementi di teoria della stima parametrica 29 • Bisogna conoscere a priori i legami fra i parametri da stimare ed i momenti della v.c. • Non richiede la conoscenza della distribuzione della v.c. • E’ facilmente applicabile e può essere utilizzato per generare stime preliminari. • Il sistema è, in generale, non lineare ed ammette spesso più di una soluzione. • Gli stimatori sono, in generale, distorti. • Se la v.c. X ammette i momenti fino all’ordine k, gli stimatori sono consistenti. Esempio
La v.c. X ha primi due momenti finiti, si vuole stimare media e varianza utilizzando il me-todo dei momenti. Dato che è μ1 = μ e μ2 = μ
2 + σ
2 si ottiene:
⎪⎩
⎪⎨⎧
=σ+μ
=μ
222
1
m
m
da cui μ̂= X
2σ̂ = ∑ ∑= =
=−=−n
1i
n
1i
22i
22i S)XX(
n1XX
n1
Lezione 4 30 Xè non distorto e consistente per μ, mentre 2σ̂ è consistente ed asintoticamente non di-storto per σ
2. Lo stimatore non distorto di σ
2:
s2 = ∑
=
−−
n
1i
2i )XX(
1n1
ma non è uno stimatore dei momenti.
Con il metodo dei momenti si può ottenere lo stimatore di qualsiasi momento della v.c. X
mr = rμ̂ = ∑=
n
1i
riX
n1
che è non distorto e consistente per μr .
Elementi di teoria della stima parametrica 31 Metodo dei Minimi Quadrati
Data la v.c. X con parametro θ da stimare e la v.c. campionaria X = (X1,…, Xn). Sia
E(X) = g(θ) si ha
E(Xi ) = g(θ), i = 1 , 2 , ..., n si ottengono gli scarti
ei = Xi - g(θ), i = 1 , 2 , ..., n risulta
E(ei) = E(Xi ) - g(θ) = 0, i = 1, 2, ..., n Si sceglie θ tale che
[ ]∑ ∑= =
=θ−=n
1i
n
1i
2i
2i min)(gXe
θ
e si chiama stimatore dei minimi quadrati (o anche LSE: Least Square Estimator).
Lezione 4 32 Per l’applicazione di questo metodo non è necessaria la conoscenza della distribuzione
della popolazione, ma solo la forma funzionale
E(Xi ) = gi
Gli stimatori ottenuti sono, in generale, consistenti ma non i più efficienti. Esempio
Data la v.c. Y con E(Y) = θ ed E(Yi ) = θ, i=1,2,…,n, si ha
∑ ∑ =θ−= imomin)Y(e 2i
2i
da cui
∑∑ =θ−−=θ
0)Y(2edd
i2i
lo stimatore LS per θ è
YYn1ˆ
i ==θ ∑
∑θ2i2
2e
dd = 2n > 0
Elementi di teoria della stima parametrica 33 Metodo della Massima Verosimiglianza
L’uso di questo metodo di stima richiede la conoscenza della distribuzione della v.c. di cui vogliamo stimare i parametri.
La v.c. X ha distribuzione f(x; θ) nota a meno di θ. Per la v.c. X = (X1, X2, ..., Xn) risulta
f(x1, x2, ...,xn) = f(x1; θ) f(x2; θ) ... f(xn; θ)
La stessa funzione si chiama funzione di verosimiglianza se vista come funzione di θ L(θ;
x) = ∏=
n
1i
f(xi; θ)
x=(x1, x2 ..., xn) è noto e rappresenta gli n valori che il campione casuale ha effettivamente assunti. La funzione di verosimiglianza è funzione solo di θ ed è sempre non negativa.
Lezione 4 34
Data la v.c. X con distribuzione f(x; θ) nota a meno di θ, si chiama stimatore ML di θ quel
θ̂ tale che
L( θ̂; x) =θ
max L(θ; x) = ∏=
θ
n
1i
max f(xi ; θ)
La definizione di stima ML è equivalente a
L( θ̂; x) ≥ L(θ; x), θ ∈ Ω;
L( θ̂ ; x) >L(θ; x), per almeno un θ;
Se X è discreta e quindi f(xi; θ) = P(Xi = xi; θ), allora
L( θ̂; x) = θ
max P(X1 = x1 , X2 = x2 ,…, Xn = xn; θ)
Se X è continua si ha f(xi;θ)dxi = P(xi ≤Xi <xi + dxi; θ)
Elementi di teoria della stima parametrica 35
Nella scelta della stima ML non è importante quanto vale il massimo della funzione di ve-rosimiglianza, ma dove è localizzato. Questo vuole implica che L(θ; x) e logL(θ; x) forni-scono esattamente la stessa stima ML:
l(θ; x) = logL(θ; x) = ∑=
n
1i
log f(xi; θ)
*
Lezione 4 36
Teorema Sotto condizioni molto generali, risulta:
(a) se T è l’unica statistica sufficiente per θ e se θ̂è lo stimatore ML di θ allora θ̂ è funzio-ne di T;
(b) se θ* è uno stimatore UMVU di θ allora lo stimatore ML è funzione di θ*;
(c) θ̂ è l’unico stimatore ML consistente di θ; (d) gli stimatori ML sono asintoticamente normali;
(e) se θ̂ è ML per θ allora g( θ̂) è uno stimatore ML di g(θ), qualsiasi sia g( ⋅).
L’importanza del punto (e) è evidente dato che permette di ottenere stimatori ML, con le relative proprietà, come funzioni di altri stimatori ML. In particolare, se si vuole stimare g(θ) e questo è complicato, si può stimare θ con ML ottenendo θ̂ e quindi risalire a g( θ̂).
Esempio Supponiamo che sia X ~ N(μ; σ
2) con μ e σ
2 incogniti. Stimare tali parametri con ML uti-lizzando il campione x = (x1,…, xn).
Elementi di teoria della stima parametrica 37Dato che
f(x ;μ, σ2) =
22
1
πσexp
⎭⎬⎫
⎩⎨⎧
μ−σ
− 22 )x(
21
la funzione di verosimiglianza è
L(μ, σ2; x)=∏
=
πσn
1i
2)2(-1/2 exp
⎭⎬⎫
⎩⎨⎧
μ−σ
− 2i2 )x(
21 =
= (2πσ 2)-n/2
exp⎭⎬⎫
⎩⎨⎧
μ−σ
− ∑ 2i2 )x(
21
e prendendone il logaritmo si ha
Lezione 4 38
log L(μ, σ2; x) =
2n
− log(2π) 2n
− log(σ2) ( )2i2 x2
1 ∑ μ−σ
−
Derivando rispetto a μ e σ
2 ed uguagliando a zero si ottiene il sistema:
⎪⎪⎩
⎪⎪⎨
⎧
=μ−σ
+σ
−
=μ−σ
∑∑
0)x(2
112n
0)x(1
2i42
i2
da cui, dopo alcuni semplici passaggi, si ottengono gli stimatori ML
⎪⎪⎩
⎪⎪⎨
⎧
=−=σ
==μ
∑∑
22i
2
i
S)XX(n1ˆ
XXn1ˆ
Elementi di teoria della stima parametrica 39
Se le osservazioni xi , i=1,2,…,n, pur essendo indipendenti non sono identicamente di-stribuite, allora la funzione di verosimiglianza diviene
L(θ; x) = ∏=
n
1i
fi(xi ; θ)
e le proprietà degli stimatori ML non risultano più vere, in particolare non è vero neanche che tali stimatori sono, in generale, consistenti. La Distribuzione di Probabilità di Alcuni Stimatori Campionari
Prima di entrare nel merito delle tecniche che presenteremo, notiamo che nell’inferenza statistica si possono, schematicamente, individuare due momenti distinti:
I Il momento della
stima di una quantità statistica
II Il momento della valutazionedelle proprietà della quantità
statistica stimata
Lezione 4 40 L’ambito in cui ci muoveremo qui di seguito è il II: valutare le proprietà statistiche di una
quantità stimata. L’attenzione è rivolta a metodi analitici utilizzabili per derivare la distribuzione di alcuni
stimatori usati correntemente: media, varianza, correlazione. Abbiamo visto che, data una v.c. X con μ e σ
2 finite ma incognite, degli stimatori accetta-
bili di questi parametri sono:
X= ∑=
n
1iiX
n1 per μ
eM̂ = Mediana{X1, ..., Xn} per Me
2σ̂ = ( )∑=
μ−n
1i
2iX
n1 per σ
2, se μ è nota
s2 = ( )∑
=
−−
n
1i
2i XX
1n1 per σ
2, se μ è incognita
Elementi di teoria della stima parametrica 41 Data una v.c. doppia (X,Y), uno stimatore accettabile del coefficiente di correlazione ρ è
21n
1i
2i
n
1i
2i
n
1iii
)YY()XX(
)YY)(XX(
r
⎥⎥
⎦
⎤
⎢⎢
⎣
⎡−−
−−
=
∑∑
∑
==
=
Sorge il problema di derivare, in modo esatto o approssimato, la loro distribuzione. DISTRIBUZIONE DI PROBABILITÀ DELLA MEDIA CAMPIONARIA
Data la v.c. X con media e varianza finite, supponiamo che σ2 sia nota. Uno stimatore
accettabile di μ è la media campionaria
∑=
=n
1iiX
n1X
Lezione 4 42
con le Xi per costruzione indipendenti, inoltre sappiamo che
E( X) = μ; ( )n
Xvar2σ
=
che ci permettono di costruire la v.c. standardizzata
σ
μ−=
μ−= ∑ )X(n
)Xvar(XZ i
per il teorema limite centrale si ha
Z ⎯→⎯L N(0,1)
Se n è sufficientemente grande, in pratica basta che sia n≥ 30, qualsiasi sia la distribuzione di X risulta
X ≈ ⎟⎟⎠
⎞⎜⎜⎝
⎛ σμ
n;N
2
Elementi di teoria della stima parametrica 43 Nel caso particolare in cui è X~N(μ σ
2), per una delle proprietà delle v.c. normali (una tra-
sformazione lineare di normali indipendenti è ancora una normale) risulta
X~ ⎟⎟⎠
⎞⎜⎜⎝
⎛ σμ
n;N
2
qualsiasi sia n.
In definitiva, possiamo affermare che qualsiasi sia la distribuzione di partenza da cui è estratto il campione, se questa possiede media e varianza finita, allora la media campiona-ria X , per n sufficientemente grande, può essere approssimata da una v.c. normale con media μ e varianza σ
2/n.
Nelle figure seguenti mostriamo la distribuzione effettiva di X a partire da v.c. note ma molto diverse fra di loro. I grafici vanno letti per colonna.
Lezione 4 44
Distribuzione della v.c. X
Distribuzione di X per n=2
Distribuzione di Xper n=4
Elementi di teoria della stima parametrica 45
Distribuzione di Xper n=25
Lezione 4 46
Distribuzione della v.c. X
Distribuzione di Xper n=2
Distribuzione di Xper n=4
Elementi di teoria della stima parametrica 47
Distribuzione di Xper n=25
Lezione 4 48
Il risultato precedente può essere esteso al caso di trasformazioni di X . Infatti, si può dimostrare che data la trasformazione Y = g( X ), se g(⋅) ha derivata prima g’(μ) non nulla in μ, posto
v2 = σ
2[g’(μ)]
2 si ha
Y = g( X)≈N ⎟⎟⎠
⎞⎜⎜⎝
⎛μ
nv),(g
2
cioè lo stimatore g( X) di g(μ) è, per n sufficientemente grande, approssimativamente nor-male con media g(μ) e varianza v
2/n.
La distribuzione di Xo di una sua trasformata regolare g( X) è sempre, in modo esatto o approssimata, normale.
Elementi di teoria della stima parametrica 49 DISTRIBUZIONE DI PROBABILITÀ DEI PERCENTILI CAMPIONARI
Data una v.c. X continua, e quindi con f.d. f(x), indichiamo con Qp il p-esimo percentile di X cioè tale da soddisfare l’equazione seguente
∫∞−
pQ
f(x) dx = p,
e con pQ̂ la relativa stima ottenuta sul campione:
[ ][ ]⎪⎩
⎪⎨⎧
−≥≥
≥≤
p1Q̂niosservazioeproporzion
pQ̂niosservazioeproporzion:Q̂
p
pp
Se pQ̂ è unico si dimostra (teorema di Glivenko-Cantelli)
Lezione 4 50
( ) NQQ̂n Lpp ⎯→⎯−
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ −2
p )]Q(f[)p1(p;0 .
In altri termini, sotto le condizioni sopra riportate, se n è sufficientemente grande (in pratica deve essere n ≥ 80) risulta
pQ̂ ≈N ⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ −2
pp )]Q(f[n
)p1(p;Q
Si noti che per p=0.5 il relativo percentile è la mediana, per p=0.25 è il primo quartile, per p=0.75 è il terzo quartile. Si osservi che pQ̂ è asintoticamente non distorta e consistente
per Qp.
Elementi di teoria della stima parametrica 51
DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA
Distinguiamo due diverse situazioni
(A) Caso di μ nota La v.c. X ha media μ nota e varianza σ
2 incognita e momenti μ3 e μ4 finiti. Uno stimatore
accettabile di σ2 è
2σ̂ = ∑=
μ−n
1i
2i )X(
n1
Dato che le v.c. (Xi - μ)2 sono indipendenti ed hanno media e varianza finita, applicando il
teorema limite centrale per n sufficientemente grande risulta
( ))ˆvar(;Nˆ 222 σσ≈σ
var( 2σ̂ ) = ∑=
n
1i2n1 var((Xi - μ)
2) =
n1 var[( X - μ)
2]
Lezione 4 52
= n1 [μ4 - 4μ3 μ + 6μ2 μ
2 - 3μ
4- σ
4]
Nel caso particolare in cui è X~N(μ; σ2) da 2σ̂ si ottiene
2
2ˆnσ
σ =
2n
1i
iX∑=
⎟⎟⎠
⎞⎜⎜⎝
⎛σ
μ−
e per costruzione (Xi - μ)/σ = Zi è una normale standardizzata per cui
2
2ˆnσ
σ = ∑=
n
1i
2iZ ~ 2
nχ .
In altri termini, se la variabile casuale X è normale allora 2σ̂ è proporzionale ad una v.c. Chi-quadrato con n gradi di libertà.
Elementi di teoria della stima parametrica 53 Inoltre risulta
E( 2σ̂ ) ( )2n
22n
2E
nnE χ
σ=⎟
⎟⎠
⎞⎜⎜⎝
⎛χ
σ= = σ
2
var( 2σ̂ ) = =⎟⎟⎠
⎞⎜⎜⎝
⎛χ
σ 2n
2
nvar ( )2
n2
4var
nχ
σ =n
2 4σ
(B) Caso di μ incognita In questa situazione, uno stimatore accettabile di σ
2 è dato da:
S2 = ∑
=
−n
1i
2i )XX(
n1
e vale il seguente
Lezione 4 54 Teorema
Se X~N(μ; σ2) allora
2n
σS
2 ~ 21n−χ ; X~ N ⎟
⎟⎠
⎞⎜⎜⎝
⎛ σμ
n,
2
con Xe S2 indipendenti. Una conclusione analoga si ha se al posto di S
2 si considera lo
stimatore ottimale s2.
Questo risultato, di grande importanza pratica, ci permette di derivarne altri di notevole
interesse. In particolare, dato che
σμ− )X(n ~ N(0; 1); 2
2 s1nσ
− ~ 21n−χ
Elementi di teoria della stima parametrica 55
e queste v.c. sono indipendenti, segue che
t = =
−χ −
)1n(
)1;0(N2
1ns
n)X(
1ns1n
1n)X(2
2
μ−=
−σ
−σμ− ~ T(n-1)
Come si può notare, la v.c.
sn)X( μ−
ha una distribuzione indipendente da μ e σ
2, per questo viene detta pivotale.
Lezione 4 56
Distribuzione della correlazione campionaria
Abbiamo visto che, data una v.c. doppia (X, Y) una stima accettabile della correlazione fra X ed Y è data dalla correlazione campionaria la cui distribuzione è derivata nei teoremi seguenti: Teorema
Data la v.c. (X, Y) ~ N2(μx , μy , σ2x , σ2
y , ρ ) con correlazione ρ = 0, sia (Xi , Yi), i =
1,2,…,n, la v.c. campionaria estratta da (X , Y), sia r la stima campionaria di ρ, si dimostra che
2r12nr
−
− ~ T(n-2).
Osserviamo che in questo caso X ed Y sono indipendenti.
Elementi di teoria della stima parametrica 57 Teorema
Data la v.c. (X , Y) ~ N2(μx , μy , σ 2x , σ2
y , ρ), con correlazione ρ ≠ 0, se (Xi , Yi ),
i=1,2,…,n, è la v.c. campionaria estratta da (X, Y), posto
Z = ⎟⎠⎞
⎜⎝⎛
−+
r1r1log
21 ; pz = ⎟
⎠
⎞⎜⎝
⎛ρ−ρ+
11log
21
per n moderatamente grande risulta
(Z - pz ) ≈ N ⎟⎟⎠
⎞⎜⎜⎝
⎛
−ρ−
+− )1n(2
41n
1;02
È facile verificare che
3n1
)1n(24
1n1 4
−≈
−ρ−
+−
Lezione 4 58 Due metodi di inferenza basati sul ricampionamento
Nel paragrafo precedente abbiamo derivato, in modo esatto o approssimato, la distribu-zione degli stimatori della media, dei percentili, della varianza e della correlazione utiliz-zando procedure di tipo analitico. Di solito queste procedure, esclusi i semplici casi sopra analizzati, richiedono assunzioni molto restrittive come la normalità di X, ma anche sotto questa assunzione, in molti casi, la distribuzione che si conosce è solo di tipo asintotico, quando si riesce a derivarla, e spesso non è analiticamente trattabile. Qui di seguito pre-sentiamo due procedure che forniscono informazioni sulla distribuzione di probabilità dello stimatore riutilizzando ripetutamente i dati campionari.
Le procedure di riuso del campione, ed in particolare le metodologie che vanno sotto il nome di Bootstrap e Jackknife, hanno assunto nei problemi di inferenza un ruolo sempre più rilevante come vie alternative a quella analitica classica. Questo ha portato alla com-parsa di un numero sempre più rilevante di lavori nella letteratura internazionale, sia di tipo teorico che applicato, sulle metodologie citate. Una caratteristica specifica su cui poggiano queste tecniche di ricampionamento, ed il Bootstrap in particolare, è la simulazione con metodi Monte Carlo di una procedura statistica, utilizzando il minor numero possibile di as-sunzioni a priori.
Nel seguito daremo un rapido cenno della procedura Bootstrap nella versione non pa-rametrica, che è quella che riserva i maggiori sviluppi e i più interessanti sbocchi applicati-vi, e la problematica ad essa connessa, e della procedura Jackknife per la sua semplicità
Elementi di teoria della stima parametrica 59d’uso e per le relazioni che questa ha con il Bootstrap. Più in particolare:
- data la variabile casuale o popolazione X con f.r. F(x ;θ), con θ parametro incognito di interesse;
- sia X=(X1 ,…,Xn ) la v.c. campionaria estratta da X; - sia nθ̂ = θ(X) uno stimatore di � ottenuto con uno dei metodi classici di stima,
si vuole inferire sulle proprietà statistiche di nθ̂ come stimatore di θ. Da un punto di vista statistico ciò può volere dire, per esempio:
(a) ottenere una stima di var( nθ̂ )
(b) fissate le costanti a e b, e ottenere una stima di P{a ≤ nθ̂ - θ ≤ b} (c) trovare le quantità σ̂ , )1(x α− , )(x α di modo che sia
P{θ∈ [ nθ̂ - n
-1/2 σ̂ )1(x α− ; nθ̂ - n
-1/2 σ̂ )(x α ]} = 1-2α.
La soluzione a problemi del tipo sopra esposti può essere ottenuta con due diversi ap-
procci:
Lezione 4 60 (i) tenuto conto delle caratteristiche di X, delle informazioni contenute in X=(X1 ,...,Xn ), del
problema che si vuole risolvere, si deriva analiticamente, in modo esatto o asintotico, la distribuzione di Rn (funzione monotona di nθ̂ ) e la si usa per ottenere risposte ai pro-blemi del tipo (a)-(c). Questa impostazione è stata seguita nel paragrafo precedente. I casi più noti di statistiche Rn sono
Rn (x ; θ̂) = nθ̂ - θ
Rn (x ; θ̂) = n
ns
ˆ θ−θ
con sn stima dello scarto quadratico medio di nθ̂ ;
(ii) in molte situazioni è difficile o impossibile ottenere la distribuzione di probabilità di Rn , altre volte l’approssimazione asintotica che si ottiene è non soddisfacente specie per piccoli campioni. In questi casi si può tentare di stimare la distribuzione di R n con metodi di simulazione Monte Carlo basati sul ricampionamento da X=(X1 ,...,Xn ). Le procedure Bootstrap e Jackknife sono di questo tipo. Qui di seguito presentiamo sinteticamente le due procedure nella loro versione origina-
ria.
Elementi di teoria della stima parametrica 61
La procedura Jackknife
Questa procedura è stata proposta per la prima volta da Quenouille nel 1956 e ripresa e generalizzata da Tukey nel 1958. È una procedura nata, ed usata per molti anni, essen-zialmente per ridurre o eliminare la distorsione presente in alcuni stimatori. Successiva-mente il suo uso è stato esteso alla stima della varianza di stimatori ed infine per derivare una distribuzione approssimata dello stimatore o di una sua trasformazione.
Dato il campione x=(x1 ,…,xn ) e la stima nθ̂ = θ(x) di θ, costruiamo le stime )i(θ̂ = θ(x(i)),
i=1, 2 ,…, n, ove x(i) = x escluso xi
Le n stime )i(θ̂ rappresentano la distribuzione Jackknife di nθ̂ , queste vengono utilizzate
per ottenere stime Jackknife di θ, della distorsione e della varianza di nθ̂ . Più in particolare,
(i) la stima Jackknife di θ basata su nθ̂ è
Lezione 4 62
)(Jˆ
⋅θ = ∑=
θn
1i)i(
ˆn1
;
(ii) la stima della distorsione di nθ̂ è
d̂ J( nθ̂ ) = (n-1) ( )(Jˆ
⋅θ - nθ̂ )
si dimostra che questa stima della distorsione, sotto condizioni non eccessivamente re-
strittive, è non distorta per la distorsione vera di nθ̂ (iii) la stima Jackknife corretta di θ basata su nθ̂ risulta
( )n(.)JnJ
ˆˆ)1n(ˆˆ θ−θ−−θ=θ = )(Jˆ
⋅θ - n ( )n)(Jˆˆ θ−θ ⋅ =
= [ ] ( )[ ]∑ ∑= =
θ−θ+θ=θ−−θn
1i
n
1i)i(n)i()i(n
ˆˆnˆn1ˆ)1n(ˆn
n1
;
Elementi di teoria della stima parametrica 63
(iv) la stima Jackknife della varianza di nθ̂ è data da
( ) [ ]∑=
θ−θ−
=θn
1i
2(.)J)i(n
2J
ˆˆn
1nˆV
(v) Tukey nel 1958 ipotizzò che
( )nJ
nJJ ˆV
ˆˆt
θθ−θ
=
potesse essere approssimata con una v.c. normale standardizzata. Altri autori come Ar-vesen, Beran, Miller, Sen dimostrarono che l’ipotesi di Tukey è vera sotto condizioni.
È importante osservare che la procedura Jackknife per la stima della varianza di nθ̂ non
sempre fornisce risultati accettabili. Per esempio tale stima, a meno di non considerare ge-neralizzazioni particolari del Jackknife qui non presentate, non è consistente per la varian-za della mediana campionaria e per i percentili campionari in generale.
Lezione 4 64 Esempio
Sia θ = μ e Xˆn =θ lo stimatore di μ. In questo caso è noto che
E( X) = μ; var( X) = σ
2/n
ed una stima non distorta di var( X ) è
⎟⎟⎠
⎞⎜⎜⎝
⎛∧ _Xvar =
ns2
, con s2 = ∑
=
θ−−
n
1i
2ni )ˆx(
1n1
.
Se si utilizza la procedura Jackknife si ottiene
∑ ∑≠ =
−−
=−
−−
=−
=n
ij
n
1j
iijj)i( 1n
xxnx
1n1x
n1
1nnx
1n1x
e quindi
Elementi di teoria della stima parametrica 65
∑=
=−−
==n
1i
2
)i((.)J x)1n(nxnxnx
n1x
mentre è 0)xx()1n()x(d̂ (.)JJ =−−= .
In definitiva, in questo caso si ha
xxx J(.)J ==
Per la stima Jackknife della varianza di x si ottiene:
[ ]2n
1i
in
1i(.)J)j(J x
1nxxn
n1nxx
n1n)x(V
2 ∑∑==
⎥⎦
⎤⎢⎣
⎡−
−−−
=−−
= =
= [ ]∑∑==
=−−
=⎥⎦
⎤⎢⎣
⎡−−−
n
1i
2i
2n
1i
insxx
1n1
n1
1nxx
n1n 2
.
Lezione 4 66
Come si può notare, in questo caso particolare, l’uso della procedura Jackknife genera gli stessi stimatori di quella classica. Naturalmente questo non succede in generale.
La procedura Bootstrap
Questa procedura è una generalizzazione di quella Jackknife. È stata proposta per la prima volta da Efron nel 1979. Ripresa da altri ricercatori, oltre allo stesso Efron, è stata via via approfondita ed applicata a numerose situazioni concrete.
Dato il campione x = (x1 ,…, xn), estratto bernoullianamente dalla v.c. X con funzione di ripartizione F(x; θ), data la stima nθ̂ = θ(x) di θ, si estraggono con rimessa da x i campioni
*B
*2
*1 x,...,x,x e si calcolano le stime di θ:
)x(,...,)x(ˆ,)x(ˆ *
B*B
*2
*2
*1
*1 θ=θθ=θθ=θ
le B stime *
bθ̂ rappresentano la distribuzione Bootstrap di nθ̂ e vengono utilizzate per ot-tenere:
Elementi di teoria della stima parametrica 67(i) la stima Bootstrap di θ tramite
∑=
θ=θB
1i
*bB ˆ
B1ˆ
(ii) la stima Bootstrap della varianza di nθ̂ utilizzando la seguente
( ) [ ]2B
1bB
*bnB ˆ
1B1ˆV ∑
=
θ−θ−
=θ
(iii) si ipotizza che
( )[ ] 2/1nB
nBB ˆV
ˆˆt
θ
θ−θ=
si distribuisce asintoticamente come una normale standardizzata. Efron, Bickel, Hall fissa-no le condizioni, che risultano essere molto generali, per cui una tale affermazione è vera.