Distribuzioni Campionarie e Stima Parametrica

51
1 STATISTICHE CAMPIONARIE E LORO DISTRIBUZIONE Indichiamo una statistica campionaria come una funzione g(X 1 , …., X n ) oppure t(X 1 , …., X n ) dei risultati di un’estrazione di un campione di n unità, che può essere considerato una determinazione di una v.c. n-pla con componenti (X 1 , …., X n ) MEDIA CAMPIONARIA ( X ) Caso A n-pla estratta in modo bernoulliano da popolazione di forma ignota con media μ e varianza σ 2 . (X 1 , …., X n sono n v.c. IID) La statistica n X X n i i = = 1 è detta media campionaria. Di tale statistica conosciamo che: ( ) μ = X E ( X è uno stimatore di μ non distorto) ( ) n X Var 2 σ = ( X è uno stimatore di μ consistente-coerente) Caso B n-pla estratta in modo bernoulliano da popolazione normale (μ, σ 2 ) (X 1 , …., X n sono n v.c. NIID) Della media campionaria sappiamo, dal teorema circa la combinazione lineare di variabili NIID, che: n N 2 , ~ X σ μ (è uno stimatore di μ non distorto e consistente-coerente)

description

Statistics

Transcript of Distribuzioni Campionarie e Stima Parametrica

Page 1: Distribuzioni Campionarie e Stima Parametrica

1

STATISTICHE CAMPIONARIE E LORO DISTRIBUZIONE

Indichiamo una statistica campionaria come una funzione

g(X1, …., Xn) oppure t(X1, …., Xn)

dei risultati di un’estrazione di un campione di n unità, che può essere considerato una

determinazione di una v.c. n-pla con componenti (X1, …., Xn)

MEDIA CAMPIONARIA ( X )

Caso A

n-pla estratta in modo bernoulliano da popolazione di forma ignota con media µ e varianza σ2.

(X1, …., Xn sono n v.c. IID)

La statistica n

X

X

n

i

i∑== 1 è detta media campionaria.

Di tale statistica conosciamo che:

( ) µ=XE ( X è uno stimatore di µ non distorto)

( )n

XVar2σ

= ( X è uno stimatore di µ consistente-coerente)

Caso B

n-pla estratta in modo bernoulliano da popolazione normale (µ, σ2)

(X1, …., Xn sono n v.c. NIID)

Della media campionaria sappiamo, dal teorema circa la combinazione lineare di variabili NIID,

che:

nN

2

,~Xσ

µ (è uno stimatore di µ non distorto e consistente-coerente)

Page 2: Distribuzioni Campionarie e Stima Parametrica

2

Ma qual è la distribuzione di X quando non siamo nel caso di normalità (quando siamo nel Caso

A)?

Dobbiamo distinguere due casi.

Caso A1

La distribuzione di ogni Xi è nota, ma non normale

A partire dalla distribuzione di X possiamo costruire quella di X . Nel caso di campione

bernoulliano la distribuzione potrà essere definita dalla produttoria della funzione di densità

corrispondenti alle singole estrazioni).

Tuttavia per il teorema del limite centrale sappiamo che:

dzez

n

Xp

zz

n

2

2

2

1lim

∞−∞→ ∫=

≤−

πσµ

ovvero che:

asintoticamente

nN

2

,~Xσ

µ e che ( )0,1N~

n

X

σµ−

Inoltre se X è dicotomo, con frequenze relative p e q, tale popolazione è bernoulliana, con

distribuzione ( ) xnxqpxp −= e

:

asintoticamente

n

pqpN ,~R n e ( )0,1N~

n

pq

pRn −

Caso A2

La forma della distribuzione di Xi non è nota.

Possiamo considerare solo le proprietà asintotiche di X (utilizzando il teorema del limite

centrale o di Laplace, o a seconda che tali v.c. siano, rispettivamente, IID o solo indipendenti)

VARIANZA CAMPIONARIA (S2)

Caso A

n v.c. IID (campione bernoulliano da una popolazione di forma ignota)

Definiamo la statistica ( )

n

XxS

i

2

2 ∑ −= varianza campionaria, e il suo numeratore devianza

campionaria. Si può osservare che:

( )

( ) ( )

−−

−−

=

−=

4

43

2

2

2222

1

31

)(1

σµ

σσ

n

n

n

nSVar

didistortostimatoreèSn

nSE

Page 3: Distribuzioni Campionarie e Stima Parametrica

3

( )n

XxS

i

2

2 ∑ −= è la varianza campionaria distorta

( )1

2

12

−= ∑

n

XxS è la varianza campionaria non distorta (corretta)

( ) ( ) 2222

22

1

11

1

σσ =−

−=

−=

−=

n

n

n

nSE

n

nSE

n

nSS

Per dimostrare che ( ) 22 σ=SE possiamo esprimere 2S in un diverso modo:

( ) ( )=

+−−=

−= ∑∑

11

22

2

n

Xx

n

XxS

ii µµ

( ) ( )[ ]=

−−−= ∑

1

2

n

Xxi µµ

( ) ( ) ( )( )

( ) ( ) ( )( )

( ) ( ) ( )

( ) ( )2

2

222

22

22

11

1

2

11

1

2

11

1

2

11

µµ

µµµ

µµµµ

µµµµ

−−

−−

−=

=−

−−

−+

−=

=−

−−−

−−

+−

−=

=−

−−−

−−

+−

−=

∑∑

Xn

n

n

x

n

Xn

n

Xn

n

x

n

nXnX

n

Xn

n

x

n

Xx

n

Xn

n

x

i

i

i

ii

( ) ( ) ( ) =

−−

−= ∑ 2

2

2

11µ

µX

n

nE

n

xESE

i

( ) ( )

22

2

22

22

22

1

1

11

1

11

1

11

1

11

1

σσ

σ

σσ

σσ

µµ

=

−−

=

=

−−

=

=−

−−

=

=−

−−

=

=−−

−−−

=

n

n

n

n

nn

n

nn

nn

n

n

n

n

XEn

nxE

n

xi

i

Page 4: Distribuzioni Campionarie e Stima Parametrica

4

Caso B

n v.c. NIID (campione bernoulliano da una popolazione X normale)

TEOREMA: 2

1-n2

2

~ χσnS

e cioè la Devianza campionaria2

1

2~ −nχσ

Dimostrazione

( ) ( ) ( )[ ]∑ ∑ =−−−=−=i i

ii XXXXnS222 µµ

( ) ( ) ( ) ( )

( ) ( ) ( )

( ) ( )∑

∑ ∑

−−−=

=−−−+−=

=−−−−+−=

22

222

22

2

2

µµ

µµµ

µµµµ

µ

XnX

XnXnX

XXXnX

i

i

i

i

nXn

i

ii

43421

−−

−=

2

2

2

2

n

XXnS i

σµ

σµ

σ

2

nχ 2

Poiché 2SeX sono indipendenti

anche

2

2

2

n

Xe

nS

σµ

σsono indipendenti e quindi

( )( )

( ) ( )

( )( )

( )( )

2

1-n2

2

2

1

2

1

2

2

1

2

~

:

21

21

21

2121

2

2

2

2

2

2

2

2

2

2

χσ

σ

σ

σ

µ

σσ

µ

nS

quindie

it

it

iteE

iteEit

eEeEeE

nn

nSit

nSitn

n

Xit

nSit

Xit

i

−−

−−

−−

−=−

−=

=−

=

c.v.d.

Page 5: Distribuzioni Campionarie e Stima Parametrica

5

Ancora su Media Campionaria

Caso B1

n-pla estratta in modo bernoulloniano da popolazione normale con varianza incognita

Mentre se conosco σ2

nN

2

,~Xσ

µ

se ci basiamoS2, possiamo considerare che:

( )1-n

2

12

2t~

1

1,0

)1(

−←

=

n

N

n

nS

n

X

nχσ

σµ

=

−=

−=

1

1

n

S

X

Sn

n

n

X µσσ

µ

1-nt~

n

S

X µ−= (v.c media campionaria studentizzata)

Pertanto mentre se conosco la varianza considero la v.c. media campionaria standardizzata, se

non conosco la varianza utilizzo la v.c. media campionaria studentizzata.

Altri casi

n-pla estratta in modo bernoulloniano da popolazione di forma ignota con varianza incognita

Poichè per ( )1,0Ntn →∞→

per grandi campioni si può assumere la distribuzione normale.

DIFFERENZA TRA MEDIE

Siano X1 e X2 due v.c. normali indipendenti

( )2

111 ,~X σµN

( )2

222 ,~X σµN

Avendo estratto due campioni bernoulliani, rispettivamente di numerosità n1 e n2

qual è la distribuzione di 21 XX − ?

Caso A: σ12 e σ2

2 note

Poiché 21 XX − è una C.L., la distribuzione è ancora normale

+−

2

2

2

1

2

12121 ,~X-X

nnN

σσµµ

e quindi:

Page 6: Distribuzioni Campionarie e Stima Parametrica

6

( ) ( ) ( )0,1N~

2

2

2

1

2

1

2121

nn

XX

σσ

µµ

+

−−−

Caso B: varianze ignote ma uguali σ12 = σ2

2 = σ2

( ) ( )

( )2

21

2

2

21

2

2

22

2

11

2

2

1

2

2121

21

21

2

1,0

)2(

−+

−+

−+←

=

−+

+

+

−−−

nn

nn

t

nn

N

nn

SnSn

nn

XX

χσ

σσ

µµ

( ) ( )

+

−++

−−−=

2121

2

22

2

11

2121

11

2 nnnn

SnSn

XX µµ~ 221 −+nnt

se n1 e n2 e ∞→ è N(0, 1)

Siano X1 e X2 due v.c. Bernoulliane indipendenti ( con parametri p1 e p2).

Si estraggano due campioni di n1 e n2 unità.

Cosa può dirsi sulla distribuzione di Rn1 – R n2?

Per il teorema di De Moivre, per n1 e n2 e ∞→ :

−+

−−

2

22

1

1121nn

)1()1(,~R-R

21 n

pp

n

ppppN

RAPPORTO TRA VARIANZE

Date due v.c. normali indipendenti

( )2

111 ,~X σµN

( )2

222 ,~X σµN

Essendo:

n1 e n2 la numerosità dei due campioni;

S12 e S 2

2 le due varianze campionarie.

Allora:

Page 7: Distribuzioni Campionarie e Stima Parametrica

7

( )1;1n

2

2

1

1

2

1

2

2

2

2

2

1

2

1

2

22

2

22

2

11

2

11

21

2

1

F~

1

1

)1(

)1(−−

−←

−←

=

−n

n

n

n

n

S

S

n

Sn

n

Sn

χ

χ

σ

σ

σ

σ

Caso particolare: se σ12 = σ2

2 = σ2

la F diviene:

( )1,12

2

2

1

2

2

22

1

2

11

21~

1

1−−=

−nnF

S

S

n

Sn

n

Sn

Page 8: Distribuzioni Campionarie e Stima Parametrica

8

FUNZIONE DI VEROSIMIGLIANZA ( )θ|XL E’ la densità congiunta di (X1, ….., Xn) nel punto (x1, ….., xn), considerata come funzione

del parametro θ.

Si indica con L((X1, ….., Xn θ) la probabilità di estrarre una certa n-pla campionaria.

Se le n v.c. (X1, ….., Xn) sono IID:

( ) ( ) ( ) ( )θθθθ |........||| 21 nXpXpXpXL ⋅= (nel casi di v.c. discrete)

( ) ( ) ( ) ( )θθθθ |........||| 21 nXfXfXFXL ⋅= (nel di v.c. continue)

Due esempi:

• n v.c. N(µ, σ2) indipendenti

( ) ( )( )

2

2

2-

222

1 e2,| σ

µ

πσσµ ⋅

∑ −−

=iXn

XL

• n v.c. di Bernoulli indipendenti

( ) ∑∑=− ii XnX

qppXL |

Page 9: Distribuzioni Campionarie e Stima Parametrica

9

STIMA PARAMETRICA PUNTUALE

I metodi che saranno presentati risultano i seguenti

• Metodo dei minimi quadrati (Metodo LSE, K. F. Gauss)

• Metodo dei momenti (K. Pearson)

• Metodo BLUE (Best Linear Unbiased Estimators, Stime lineari non distorte con varianza minima)

• Metodo della massima verosimiglianza (R.A.Fisher)

• Metodo χχχχ2 o χχχχ2

modificato

• Metodi bayesiani

Una classificazione dei metodi può essere fatta secondo:

• il diverso grado di informazioni richieste;

• le caratteristiche stime.

Livello di informazioni richieste dai metodi di stima

I. Il metodo dei minimi quadrati e gli stimatori BLU presuppongono solo

la conoscenza del campione

II. Il metodo dei momenti, le stime di massima verosimiglianza e i metodi

del χ2 presuppongono la conoscenza oltre che del campione anche della

forma della funzione di densità descritta dalle v.c. X1, X2, ….., Xn

III. I metodi di stima bayesiani. presuppongono anche la conoscenza a

priori di una sorta di funzione di densità dei parametri da stimare. Tali

metodi si fondano dunque sui dati campionari e sull’assunzione di

ipotesi sulla forma delle v.c. X e dei parametri da stimare.

Caratteristiche delle stime

I metodi saranno presentati sottolineando le loro caratteristiche in termini di:

• Non distorsione (Correttezza)

• Coerenza (Consistenza)

• Efficienza (relativa e assoluta)

• Sufficienza

• Completezza

• Invarianza

Prima di presentare i metodi verranno definite tali caratteristiche (le più

importanti).

La problematica della stima

Dalla ricerca della tecnica di campionamento più opportuna o “migliore”, alla

ricerca di una “buona” stima o della “migliore” stima

Quali sono i criteri cui deve soddisfare una stima perché sia considerata una

“buona” o la “migliore” stima di un parametro?

Abbiamo già visto che nel caso di universo finito e di grandi campioni

possiamo basarci su alcuni importanti fondamenti teorici: al crescere di n e

Page 10: Distribuzioni Campionarie e Stima Parametrica

10

sotto determinate condizioni X tende in probabilità a µ e si distribuisce come

una v..c. ),(2

nN

σµ , Rn tende in probabilità a p e si distribuisce come una v.c.

))1(

,(n

pppN

−, che, che S

2 tende a distribuirsi come una v.c. χ2

.

Tuttavia, nel caso di universo infinito o di piccoli campioni con n prefissato,

devo studiare la v. c. descritta dalla stima sull’universo dei campioni e studiare

le caratteristiche di tale v. c.

L’obiettivo è proprio quello di individuare il modo migliore di effettuare la

stima, ovvero il migliore stimatore.

Allo scopo di stimare un parametro θ della popolazione si seleziona in modo

bernoulliano un campione di n unità.

Si definisce funzione di verosimiglianza L(X|θ) la funzione di densità della

v.c. multipla X1, X2, … , Xt descritta dal campione:

L(X|θ) = f(X1, X2, … , Xn|θ) = ∏=

)n

i 1

i |f(X θ (per l’indipendenza delle

v.c.estrazione)

(L sta per Likelihood, verosimiglianza). La funzione dipende dal parametro (o

dai parametri) θ.

Ad ogni campione x1, x2, … , xn corrisponde una certa probabilità di essere

estratto, che si indica come verosimiglianza del campione, e che dipende dal

parametro θ :

L(x1, x2, … , xn |θ) = f(x1, x2, … , xn|θ) = ∏=

)n

i 1

i |f(x θ

Per stimare θ utilizziamo uno stimatore T (estimator), definito come una

determinata funzione delle v.c. elementari estrazione X1, X2, … , Xn:

T = g(X1, X2,

… , Xn)

Il valore t assunto da T in corrispondenza di un determinato campione x1, x2, …

, xn è detta stima:

t = g(x1, x2, …

, xn)

La funzione di densità della v.c.stimatore dipende, tramite il campione, dal

parametro θ:

f(T|θ)

Page 11: Distribuzioni Campionarie e Stima Parametrica

11

Essendo T una funzione del campione, tale che per ogni campione corrisponde

un unico valore di t, la densità di probabilità dello stimatore corrisponde alla

densità del campione dunque alla verosimiglianza:

f(T|θ) = L(X|θ)

Ogni metodi di stima può essere quindi presentato come un certo stimatore che

presenta determinate caratteristiche,ad esempio in termini di valore atteso,

varianza, tipo di distribuzione,ecc.

Page 12: Distribuzioni Campionarie e Stima Parametrica

12

CARATTERISTICHE DEGLI STIMATORI

NON DISTORSIONE

Uno stimatore di un parametro si dice non distorto quando il valore atteeso dei

possibili valori che la v.c. stimatore può assumere al variare del campione,

coincide con il parametro della popolazione

( ) θθ == ∫+∞

∞−dttftTE |)(

Pertanto la stima T di θ si dice non distorta (o corretta) se il valore atteso

dello stimatore coincide con θ .

θ=)(TE

Come già visto p e X sono stime non distorte (essendo p =Rn)

Tale caratteristica delle stime garantisce che la funzione T, prescelta come

metodo di stima, non introduca alcun elemento sistematico di errore.

ovvero:

in media il metodo adottato non comporta né una sovra-stima, né una sotto-

stima del parametro θ .

Se invece ( ) )(B θθ +=TE la stima è distorta (B: Bias del parametro)

e il valore ( ) θθ −= TE(B è detta “distorsione della stima”

Se ⇒> 0)(B θ la v.c. T sottostima θ

Se ⇒< 0)(B θ la v.c. T sovrastima θ

Se la stima è distorta, la variabilità della stima deve essere misurata non con

la varianza, ma con l’errore quadratico medio (MSE):

( ) ( ) ( )[ ] =−+−=−= 22)( θθ TETETETETMSE

[ ] [ ]

22

0

22

)(B

)()(B2)(B)(

θσ

θθ

+=

=−++−=

T

TETETETE43421

A volte è possibile correggere una stima distorta, in modo da eliminarne la

distorsione

Esempio:

Sia ( ) baTE += θ

ponendo a

bTT

−=1

Page 13: Distribuzioni Campionarie e Stima Parametrica

13

si ha ( ) ( )θ

θ=

−+=

−=

a

bba

a

bTETE

1 e quindi la stima 1T risulterà non

distorta.

Page 14: Distribuzioni Campionarie e Stima Parametrica

14

CONSISTENZA

Uno stimatore T si dice consistente (in realtà consistency significa coerente),

se al tendere di n all’infinito, converge in probabilità al parametro da stimare:

[ ] 1||lim =<−∞→

εθTpn

con ε

piccolo a piacere

Come già visto, il teorema di Bernoulli e la legge dei grandi numeri

stabiliscono che la “proporzione campionaria” p e la “media campionaria” X

sono stime consistenti.

Condizione affinché uno stimatore sia consistente

Se la stima è non distorta la consistenza è garantita dalla condizione:

0lim 2 =⋅∞→ T

Dalla disuguaglianza di Tchebicheff sappiamo che:

[ ] ( )[ ]2

2

1|ε

θεθ

−−≥<−

TETp

Quindi affinché [ ] 1||lim =<−∞→

εθTpn

deve essere ( )[ ] 0lim2 =−⋅

∞→θTE

n

(consistenza in media quadratica).

Se la stima è distorta, ossia ( ) θ≠TE , affinché lo stimatore T sia consistente si

deve verificare contemporaneamente:

0lim 2 =⋅∞→ T

nσ e 0)(Blim =⋅

∞→θ

n

Se la stima è non distorta ossia ( ) θ=TE , affinché lo stimatore T sia

consistente si deve verificare soltanto che:

0lim 2 =⋅∞→ T

EFFICIENZA

Efficienza relativa

Si basa sul confronto tra la variabilità di diverse stime.

Siano T1 e T2 due stimatori. Lo stimatore T1 si dice più efficiente dello

stimatore T2 se presenta minore variabilità e quindi se MSE(T1)<MSE(T2). Il

confronto si può effettuare sulla base del rapporto, in cui convenzionalmente si

mette al numeratore lo stimatore più efficiente.

( ) ( )( )2

121 /

TMSE

TMSETTe =

Page 15: Distribuzioni Campionarie e Stima Parametrica

15

con ( ) ( )2

2

2

1 θθ −≤− TETE

( ) ( )[ ]( )[ ]

⇒=

⇒<

+

+=

−=

efficienzastessalahannostimatorigli

TdiefficientepiùstimatoreèT

d

d

TE

TETTe

TT

TT

1

1

/

21

22

22

2

2

2

121

22

11

σ

σ

θ

θ

Se ( ) ( ) θ== 21 TETE sono entrambe stime non distorte, allora

( )2

2

21

2

2/T

TTTe

σ

σ=

Efficienza assoluta (Best estimator)

Presuppone un confronto tra la variabilità di una stima e la variabilità minima

che una stima può assumere, se esiste.

Teorema di Fréchet-Rao-Cramer (FRC): stabilisce un limite minimo alla

varianza di una stima. Pertanto se esiste una stima T, tale che =2

Tσ limite

stabilito dal FRC, allora T è stima efficiente in assoluto (stimatore pienamente

efficiente).

DISUGUAGLIANZA DI FRECHET-RAO-CRAMER (o disuguaglianza di

FRC)

Si consideri la v.c. n-pla nXXX ,,, 21 L descritta da una campione di n unità.

Sia ( )θ|,,, 21 nXXXL L la sua funzione di verosimiglianza,

supponendo che ( )θ|XL sia derivabile almeno due volte, la disuguaglianza di

FRC è la seguente::

( )[ ]( )

∂∂

+≥

2

2

2

|log

'1

θθ

θσ

XLE

dT

dove ( )θ'd è la derivata prima della distorsione d rispetto a θ

Se ( ) θ=TE , il numeratore è 1 e l’estremo inferiore di la disuguaglianza

diventa:

( )

∂∂

≥2

2

|log

1

θθ

σXL

E

T

Page 16: Distribuzioni Campionarie e Stima Parametrica

16

Dimostrazione

( )

( ) ( )

( )θ

θθθ

funa

generale

inèd

ocampionarispazio

R

dxdXLTTEn ↑

+== ∫ ~|

deriviamo rispetto a θ

( ) ( ) ( )( )

( ) )('1||

|'|'

~

)(

~θθ

θθ

θθ

θ

dxdXLXL

XLTxdXLT

TE

XperLdividiamoeiamomoltiplich

RR nn

+===∂

∂∫∫

444 844 76

( ) ( ) ( ) )('1||log

~θθ

θθ

θdxdXL

XLT

TE

nR

+=∂

∂=

∂∂

( )( )

( )

⋅=

∂∂

θθθ

θ|'

|

1|loginfatti XL

XL

XL

( ) ( ))('1

|logθ

θθ

θd

XLTE

TE+=

∂∂

=∂

[è il valore atteso del prodotto tra le due v.c. T e

( )θ

θ∂

∂ |log XL ]

Il valore atteso della seconda v.c.( )

0|log

=

∂∂

θθXL

E [vedi (*)] e quindi il

valore atteso del prodotto delle due v.c.

( ) ( )[ ] ( )

∂−=

θθ

θθ |log|log XL

TETEXL

TE

Infatti

( )[ ] ( ) ( ) ( )

( )

( )

∂∂

=

∂∂

∂∂

=

∂∂

θθ

θθ

θθ

θθ

θθ

|log|log)(

|log|log

0

|log)(

XLTE

XLTEE

XLTE

XLTETE

XLETE

4444 34444 21

444 3444 21

(*) Dimostrazione che ( )

0|log

=

∂∂

θθXL

E .

Page 17: Distribuzioni Campionarie e Stima Parametrica

17

Poiché ( ) 1|~

=∫ xdXLn

R

θ (probabilità spazio di tutti i campioni), derivando

rispetto a θ

( )

( )( )

( ) 0||

|'

0|'

log

=

=

dxXLXL

XL

dxXL

n

n

R

L

R

θθθ

θ

θ

43421

( )0

|log=

∂∂

θθXL

E c.v.d.

Pertanto

( ) ( )[ ] ( ))('1

|logθ

θθ

θd

XLTETE

TE+=

∂∂

−=∂

Per la disuguaglianza di Cauchy-

Schwarz ii

i

i

i

i

i

ii baseugualebaba ∝≤

∑∑∑ ,22

2

( )[ ] ( ) [ ] ( )

∂∂

−≤

∂∂

−2

2

2

|log)(

|log

θθ

θ

σ

XLETETE

XLTETE

T

4434421

e quindi

[ ] ( )

∂∂

≤+2

22 |log)('1

θθ

σθXL

Ed T

Da cui

( )[ ]( )

( )[ ]( )θ

θ

θθ

θσ

I

d

XLE

dT

2

2

2

2 '1

|log

'1 +=

+≥

c.v.d.

dove ( )θI è detto “quantità d’informazione” fornita dal campione sul

parametro θ .

Se la stima è non distorta

Page 18: Distribuzioni Campionarie e Stima Parametrica

18

( ) )(

1

|log

12

2

θ

θθ

σIXL

E

T =

∂∂

Quali sono le condizioni che realizzano una stima pienamente efficiente?

La disuguaglianza di Cauchy-Schwarz è una uguaglianza se ai e bi sono

proporzionali e quindi se sono proporzionali le due v.c.

( )

∂∂

)(|log

TETeXL

θθ

:

Si tratta quindi di stabilire che tipo di funzione di densità deve avere la vc.

X affinché sia

( )

−=

∂∂

)(|log

TETKXL

θθ

(*)

e dunque ammetta una stima efficiente.

Integriamo i membri della (*)

( ) ( )

( ) cfTfXL

K

++= θθθ 21|log

( ) ( ) ( ) ( )n

fTfXXueXL ,...,| 1

21 θθθ += ( )←←

Inoltre se:

( )∑=

=n

i

iXaT1

ovvero funzione di ciascuna variabile Xi

e se ( ) ( )i

n

i

n XbXXu ∏=

=1

1,..., allora

( ) ( ) ( ) ( ) ( )θθθ 21

1

|fXaf

i

n

i

ieXbXL+

=∏=

Ovvero:X deve appartenere alla famiglia delle funzioni di densità

esponenziali, che ammettono tutte una stima efficiente

( ) ( ) ( ) ( ) ( )θθθ 21| fXafeXbXf

+=

Appartengono a tale famiglia:

la v.c. Normale

( )2

2

2

1

22

1 σ

µ

πσ

−− x

e

la v.c. Gamma ( )

xv exv

−−

Γ11

la v.c. Poisson !x

exλλ−

la v.c. Bernoulli xnxn

qpx−

Page 19: Distribuzioni Campionarie e Stima Parametrica

19

Ad esempio per la v.c. Normale:

( )( ) ( )

∏=

−−−

−− ∑

=

=

n

i

xnx ii

eeXL1

2

1

222

1

2

22

2

)2(1

| σ

µ

σ

µ

πσπσ

θ

( ) ( )=

−−−= ∑

2

2

2

2

1)2log(

2|log

σ

µπσθ ixn

XL

SUFFICIENZA DI UNA STATISTICA

Sia T una statistica campionaria, risultato di una funzione t sulla n-pla

campionaria ( )nXXtT ,...,1= .

In tale sintesi è auspicabile che non si perdano informazioni su θ .

T è detta statistica sufficiente se equivale al campione in termini di

contenuto informativo su θ.

Definizione:

Sia ( )nXX ,...,1 un campione estratto da una popolazione con funzione di

densità ( )θ|Xf .

Allora ( )nXXtT ,...,1= è detta statistica sufficiente per θ se e solo se la

funzione di densità condizionata di nXX ,...,1 dato da T non dipende da θ,

per ogni Tt ∈ .

T è una statistica sufficiente per θ se ( )TXf |' non dipende da θ Tt ∈∀

Ad esempio, data una v.c. ( )2,~X θµN si può dimostrare che ( )2,SX sono

statistiche sufficienti per ( )2,σµ .

IL TEOREMA DI FATTORIZZAZIONE: (Neyman-Fisher)

Fornisce un criterio per poter definire come sufficiente una statistica.

Sia ( )nXX ,...,1 un campione estratto da popolazione distribuita secondo la

funzione di densità ( )θ|Xf .

( )nXXtT ,...,1= è sufficiente per θ, se e solo se possiamo esprimere

( ) ( )[ ]( )

( )↓↓

⋅=

↓ θθ

θ

θθ

dadipende

noncheFunzione

campioneiltramite

dadipende

XhXtgXf

Tg

43421|

||

Page 20: Distribuzioni Campionarie e Stima Parametrica

20

Esempi:

Bernoulli

( ) ( ) ( ) 1|| 1 ⋅∑∑==∑∑=→−−

∑XnX

i

XnXqpXhpXgqppXf iii

ovvero n

X∑è una statistica sufficiente per p

Normale

( )( )

2

2

2

2

2

2

1,| σ

µ

πσσµ

−Σ−

=

ixn

eXf (supponendo noto 2σ )

( )( )

( )

( )

43421444 3444 21 campionedaledadipende

Xn

da

dipendenon

Xh

XXn

eeXf

i

µ

σ

µ

µ

σ

πσσµ 2

2

2

2

22

2

2

2

1,|

−−

−−∑

=

Una statistica ( )nXXtT ,...,1

* = si dice sufficiente minimale per θ se è

funzione di ogni altra statistica sufficiente per θ, ossia se:

( )[ ]nXXtfT ,...,1

* =

1T è stimatore sufficiente per θ se per ogni possibile n-pla di stime si ha

che:

f(T1,T2,….Tn) = g(T1|θ ) h(T2,T3,….Tn|T1)

GRAFICAMENTE

Sia nXX ,...,1 un campione e ∑=

==++n

i

in TXXX1

1 L una statistica

campionaria.

Ad ogni valore T corrisponde un piano, ovvero una partizione di S

Se T è sufficiente, i campioni nXX ,...,1 appartenenti alla singola “curva”

hanno funzione di densità ( )TXf |' che non dipende da θ. Non è rilevante

ai fini della conoscenza su θ, la posizione dello specifico campione sulla

“curva”.

Page 21: Distribuzioni Campionarie e Stima Parametrica

21

METODI STIMA PUNTUALE

IL METODO DEI MINIMI QUADRATI (K.F. Gauss)

LSE: Least Square Estimator

Tipicamente associato al modello di regressione

εββ ++= XY 10 componente modello + componente erratica

XY 10ˆ ββ +=

YY ˆ−=ε

Y: variabile dipendente (o di interesse); X variabile indipendente (o

esplicativa, o ausiliaria)

Modello deterministico: Y è v.c. mentre X assume valori predeterminati;

per ogni Xi si estrae un campione di una o più unita di Y;

Modello stocastico: Y e X sono entrambe v.c.; si estraggono coppie di

valori Xi, Yi.;

Il metodo LSE nasce come soluzione del problema dell’interpolazione

lineare.

A) Stima dei parametri della relazione lineare intercorrente tra due variabili

X e Y, sulla base di n coppie di informazioni

εββ ++= XY 10

Dove e la variabile che rappresenta l’effetto degli errori di osservazione

sulla variabile Y.

( )∑ ∑= =

==−−n

i

n

i

ii GXY1 1

22

10, 10

min εββββ

equazioni

normali

( )

( )

=−−−=∂∂

∑=−−−=

∂∂

=

=

=−−→

=→=

n

i

iii

n

i

XY

ii

XXYG

XYG

x

n

i

i

1

10

1

1

0

010

0

02

02 10

1

βββ

βββ

ββ

ε

(passa per il

baricentro YX , )

deistime

parametri

( )( )

−=

==−

−−=

10

2

,

21

ˆˆ

,

)(

))((ˆ

ββ

σ

σβ

XY

XVar

YXCov

XX

YYXX

X

YX

i

i

i

ii

ii XY 10ˆˆˆ ββ += ←valori Y interpolati

iiiii XYYY 10ˆˆˆˆ ββε −−=−= rappresenta la stima degli effetti degli errori

(detti residui)

Page 22: Distribuzioni Campionarie e Stima Parametrica

22

=Σ 2ˆiε minimo

Un esempio di stima LSE: la stima di µ

Dato un campione di n unità ( )ni XXX ,...,,..1

Si considera iiX εµ += si vuole stimare il parametro µ

( ) GXn

i

i µµµ minmin

1

2 =

−∑

=

( )∑ =−−=∂∂

i

iXG

02 µµ

è minimo perché derivata seconda è positiva

∑=i

iXn

X1

B) Stima dei parametri della funzione di regressione di una v.c. doppia,

attraverso un campione

di n unità

( ) XXYE 10| ββ +=

( )XYEY |−=ε

v.c. 2n-pla ( ) ( ) ( ),,,,,,, 2211 nn YXYXYX L per ciascuna delle estrazioni

iii XY εββ ++= 10

Scomposizione della devianza campionaria di Y

( ) ( ) ( )∑ ∑= =

=−+−=−=n

i

n

i

iiii YYYYYYYDev1 1

22 ˆˆ

( ) ( ) ( )( )∑ ∑ ∑= = =

=−−+−+−=n

i

n

i

n

i

iiiiii YYYYYYYY1 1

0

1

22ˆˆ2ˆˆ

444 3444 21

( )∑ ∑= =

=−+=n

i

n

i

ii YY1 1

22 ˆε

( ) ( )=+= YDevRDev ˆ Devianza residua + Devianza spiegata

Pertanto, poiché la funzione di regressione gode, rispetto a qualsiasi altra

funzione di X, della proprietà di rendere minima la varianza residua nella

popolazione, ha senso scegliere come metodo di stima dei suoi parametri quello

che si basa proprio sulla minimizzazione, nel campione, della quantità ad essa

corrispondente

Caratteristiche delle stime dei minimi quadrati: il teorema di Gauss-

Markov..

iii XY εββ ++= 10 ( )ni ,...,1=

Page 23: Distribuzioni Campionarie e Stima Parametrica

23

Se le v.c. iε soddisfano le seguenti condizioni:

1) ( ) 0=iE ε i∀ (stessa media nulla)

2) ( ) 2σε =iVar i∀ (stessa varianza finita)

3) ( ) 0, =jiCov εε ji ≠∀ (incorrelate tra loro)

4) ( ) 0, =iiXCov ε i∀ (incorrelate con la iX )

allora le stime dei minimi quadrati sono stime non distorte e hanno varianza

minima, tra le stime lineari.

Page 24: Distribuzioni Campionarie e Stima Parametrica

24

STIME BLU (Best Liner Unbiased Estimator)

Si basano sulle conoscenze del campione (soltanto) (come LSE).

Sono stime lineari, non distorte, con varianza minima.

Quindi ( ) θ=TE e min2 =Tσ

La stima T di θ si ottiene come opportuna combinazione lineare di opportune

funzioni sulla n-pla campionaria

∑=

=n

i

ii XgT1

)(λ

Dove gi(X) è un’opportuna funzione che viene definita a seconda dell’oggetto

della stima

e λi sono i parametri della combinazione lineare che garantiscono la non

distorsione e la piena efficienza delle stima0

La scelta delle funzioni ( )~Xgi dipende dall’oggetto della stima, come vedremo:

se ∑=⇒==i

iiii XTXXgallora λµθ )(

se ( ) ( )∑ −=⇒−==i

iiii XXTXXXgallora222 )( λσθ

se ;;, 120 Yji === θβθβθ iii XY εββ ++= 10

I coefficienti iλ devono essere determinati in modo che la stima T sia non

distorta e abbia varianza minima.

Affinché T sia non distorta si dovrà porre l’uguaglianza:

( ) [ ]∑=

==n

i

ii XgETE1

)( θλ

Da tale uguaglianza si ricava il vincolo V cui dovranno sottostare i coefficienti

iλ affinché T sia non distorta.

Per garantire la piena efficienza di T si procede a minimizzare la sua varianza

sotto il vincolo della non distorsione.

La varianza dello stimatore è:

∑ ∑∑=

+=n

i i j

ijjiiiT

1

222 σλλσλσ con ji ≠

Pertanto, la funzione da minimizzare sotto il vincolo V della non distorsione è:

VG T ασ += 2

dove V è il vincolo (posto in forma di espressione pari a zero) e α è il

moltiplicatore di Lagrange

I coefficienti iλ si ottengono risolvendo il sistema di equazioni:

Page 25: Distribuzioni Campionarie e Stima Parametrica

25

+

=∂∂

=∂∂

equazionin

G

G

i

1

0

0

α

λ

M

Dopo aver controllato le condizioni del secondo ordine (minimo e non

massimo)

Una volta determinati i coefficienti λ si ricava l’espressione dello stimatore e

della sua varianza.

∑=

=n

i

ii XgT1

)(λ

∑ ∑∑=

+=n

i i j

ijjiiiT

1

222 σλλσλσ con ji ≠

STIMA BLU DELLA MEDIA

Parametro da stimare: µθ =

Si pone: iii XXg ∀=)(

Caso A: Si assumono n v.c. IID con;

( ) jiijiiiXE ≠∀==∀= 022 σσσµ

Pertanto:

∑=i

ii XT λ

( ) ( )∑ ∑ ===i i

iii XETE µλµλ

Il vincolo è: 1=∑i

iλ , ovvero V può essere scritto come 01 =−∑i

∑=i

iT

222 λσσ

La funzione da minimizzare sotto vincolo è:

−+= ∑∑ 122

i

i

i

iG λαλσ

=−=∂∂

=+=∂∂

∑ 01

02 2

i

i

ii

G

G

λα

αλσλ

M

=

−=

∑ 1

2 2

i

i

λ

σα

λ

−==−

=+=

n

n

nni

2

2

2

2

21

2

1

2

12

σα

σα

σσ

λ

E quindi

XXn

Ti

i == ∑1

Page 26: Distribuzioni Campionarie e Stima Parametrica

26

nnn

ni

T

2

2

2

2

22 11 σσσσ === ∑

Caso B: n. v.c. con stessa media, diversa varianza, indipendenti

( ) jiijiiXE ≠∀=∀= 0σµ

Pertanto:

∑=i

ii XT λ

( ) ( ) µλµλ === ∑∑i

ii

i

i XETE (come caso A)

Vincolo V: 011 =−⇒= ∑∑i

i

i

i λλ (come caso A)

222

i

i

iT σλσ ∑=

La funzione da minimizzare sotto vincolo è:

∑ ∑

−+=

i i

iiiG 122 λασλ

=−=−

=−=

=−=∂∂

=+=∂∂

∑∑

∑i

i

i

w

i

i

i

i

i

i

i

i

ii

i

w

w

w

G

G

i

1

21

1

2

2

01

02

2

2

2

ασ

α

λσα

λ

λα

αλσλ

M

w

i i

ii

i

i

i

ii

X

X

w

wX

T ===

2

2

1

1

σ

σ

Lo stimatore è la media campionaria ponderata con pesi 2

1

iσ.

Si dà più importanza a valori campionari provenienti da v.c. con varianza più

piccola.

La varianza dello stimatore risulta quindi:

( )2

22

2

∑=

i

i

i

i

T

w

wσσ

STIMA BLU DELLA VARIANZA

Parametro da stimare 2σθ = Caso di n v.c. IID

Si pone ( ) 22)( iii SXXXg =−=

( ) 22

iii

i

i SXXT ∑∑ =−= λλ

Page 27: Distribuzioni Campionarie e Stima Parametrica

27

( ) ( ) ( ) 2

1

22

2

σλλ

σ

==−=−

∑∑ 321

n

n

iiii SEXXETE

∑ =− 22 1

σσλn

ni

Il vincolo è quindi: 1−

=∑n

niλ e dunque

01

=−

−=∑n

nV iλ

44 344 21321 2

2 ),( 2222

K

jiji

ji

i jK

SiT SSCov

i

i

λλσλσ

∑∑∑ +=

−−++= ∑∑∑∑

12

2

1n

nKKG iji

ji

i j

i λαλλλ321

−=

=−

−=∂∂

=++=∂∂

∑1

1

01

022 21

n

n

nG

KKG

i

i

i

iii

λ

λα

αλλλ

M

( )1

2

−= ∑

n

XXT

i

IL METODO DEI MOMENTI Il metodo dei momenti, consente la stima di parametri di una famiglia di v.c. (il

c.d. sistema di curve di Pearson), che comprende come casi particolari, ad

esempio, la normale, la Beta, la Gamma, la t di student.

Tali v.c. hanno funzione di densità generata dalla soluzione dell’equazione

differenziale:

( )2

210

log

XCXCC

Xa

dx

Xfd

++

+= (4 parametri)

che deve soddisfare le due condizioni ( )4434421

43421

II

I

dxXfXf 1)(0 =≥ ∫+∞

∞−

La forma di f(X) dipende dalle condizioni imposte sui parametri che compaiono

al denominatore, ovvero dalle soluzioni dell’equazione 02

210 =++ XCXCC

[ ]*

Da tale equazione Pearson fece derivare sette diversi tipi di curve.

TIPO I

Se la [ ]* ammette due soluzioni reali di segno opposto 1α e 2α , allora:

Page 28: Distribuzioni Campionarie e Stima Parametrica

28

( )( )( ) ( )

++

+

−=

−−

+=

X

a

X

a

CXXC

aX

x

Xf

2

2

1

1

122212

1log

αα

αα

αααα e quindi

( ) ( ) ( ) 21

21

bbXXKXf −−= αα che è una forma generalizzata della v.c.β(p,q)

TIPO II

Come Tipo I ma con 21 bb = e distribuzione simmetrica (altra v.c. Beta)

TIPO III

Nella [ ]* si pone 02 =C , 01 ≠C

( )XCC

C

Ca

CXCC

aX

dx

Xfd

10

1

0

110

1log

+

−−=+

+−=

( ) ( ) 1

10

C

X

beXCCKXf

+= , con 1

1

0

C

aC

C

b

−=

E’ una generalizzazione della v.c.Gamma a tre parametri

TIPO IV-V-VI

Nessuna delle v.c. di nostro interesse appartiene a questi tipi.

TIPO VII

Ponendo nella [ ]* 01 == aC e 00 20 >> CC

( )2

20

log

XCC

X

dx

Xfd

+=

( ) ( ) 22

12

20CXCCKXf

−+=

Appartiene a tale tipo la v.c. t di student

Pearson introdusse il metodo per valutare l’adattamento della distruzione

campionaria alle curve definite ( )VIII ÷ . Il criterio era costituito dall’analisi

dei valori di:

• 2

31 µβ = (quadrato dell’indice di asimmetria)

• 42 µβ = (indice di curtosi)

Page 29: Distribuzioni Campionarie e Stima Parametrica

29

Per ciascuno dei sette tipi di curve del sistema di Pearson, i momenti sono

funzione dei quattro parametri 10 ,, CCa e 2C

Il metodo dei momenti consiste nell’uguagliare le espressioni dei quattro

momenti campionari ( 4321 ,,, mmmm ) ai corrispondenti quattro momenti

incogniti della popolazione ( )4321 ,,, µµµµ , ricavando quindi una stima dei

quattro parametri incogniti .,,, 210 CCCa

In particolare:

( )( )( )( ) 42104

32103

22102

12101

,,,

,,,

,,,

,,,

mCCCa

mCCCa

mCCCa

mCCCa

=

=

=

=

µ

µ

µ

µ

Naturalmente, se la curva dipende da soli due parametri avrò un sistema di sole

due equazioni.

In questa impostazione, il metodo dei momenti, ha bisogno di altre

informazioni oltre a quelle campionarie: devo cioè ipotizzare che X su Ω si

distribuisca come un determinato tipo di curva.

E’ dimostrato che possiamo utilizzare il metodo dei momenti anche soltanto

conoscendo la f(X) su Ω (anche se non appartenente a uno dei sette tipi)

Il metodo di stima dei momenti presenta le seguenti caratteristiche

• Consistente (Glivenko Cantelli rr mn =∞→→ µ )

• Poco efficiente

Page 30: Distribuzioni Campionarie e Stima Parametrica

30

Anche stime parametriche con tale metodo sono poco soddisfacenti (solo

consistenti).

Esempi di utilizzo del metodo dei momenti in corrispondenza di diverse ipotesi

di distribuzione della v.c. X su Ω

v.c. Pascal (Binomiale negativa) (k,p)

xkqp

X

kXXp

−+=

1)(

( ) ( )

( ) ( )

−=

=

=−

=

=−

=

12

2

1

2

1

222

11

ˆ

ˆ

1,

1,

mm

mk

m

mp

mp

pkpk

mp

pkpk

µ

µ

v.c. Beta

( ) ( )( )

( ) 11 1,

1,

−− −= qp XXqp

XFqpβ

β

( )

( )( ) ( )

( )

( ) ( )

−=

−=

=+++

=

=+

=

1

2

11

2

111

222

11

111

ˆ

11

ˆ

1,

,

mm

mmq

m

mmmp

mqpqp

pqqp

mqp

pqp

µ

µ

v.c. Normale

( )( )

0

2

2

1

02

1 C

aX

eC

Xf

+−

( )( )

=

=−

=−

=−

20

1

202

101ˆ

,

,

mC

ma

mCa

mCa

µ

µ

v.c. Gamma generalizzata

( )( )( ) ( )

−+=

−=

=

=+==

=+−==

=+−==

2

1120

1

2

2

2

21

3

2

11013103

2

2

1102102

1110

ˆˆˆ

2,,

,,

,,

ccamc

mm

ma

m

mc

mcaccccca

mcacccca

mcacca ii

µµ

µµ

µµ

STIME DI VEROSIMIGLIANZA (MLE) (R.A. Fisher)

Coe nel metodo deoi momenti anche in questo caso, oltre al campione, è

necessario conoscere la distribuzione della v.c. X su Ω

Sia definita sulla popolazione una v.c. casuale X con densità f(X)

Page 31: Distribuzioni Campionarie e Stima Parametrica

31

( )θ|X~: fXΩ

E sia ( )∏=

=n

i

iXfXL1

|)|( θθ la corrispondente funzione di verosimiglianza di

tale v.c.

La stima MLE di θ è quell’espressione di T che massimizza la funzione di

verosimiglianza )|( θXL rispetto a θ.

Pertanto si sceglie come valore più verosimile da attribuire a θ, quel valore cui

è associata la massima probabilità di presentarsi nel campione estratto.

Lo stimatore si ottiene massimizzando rispetto a θ la funzione di

verosimiglianza e quindi attraverso la derivata prime seconda della funzione di

verosimiglianza stessa

)|(max θθ

XL

0)|(

=∂

∂θ

θXL e 0

)|(2

2

<∂

θθXL

Quindi affinché si possa utilizzare il metodo, si deve poter derivare rispetto a

)|( θXL

Poiché 0)|( >θXL , possiamo cercare il massimo di )|(log θXL .

Ciò rende la ricerca di T più agevole.

Verosimiglianza L(X / teta)

0

0,01

0,02

0,03

0,04

0,05

0,06

0,07

1 3 5 7 9 11 13 15 17 19 21 23 25 27

teta

L(X

/te

ta)

Page 32: Distribuzioni Campionarie e Stima Parametrica

32

Log-verosimiglianza log L(X / teta)

-3

-2,5

-2

-1,5

-1

-0,5

0

1 3 5 7 9 11 13 15 17 19 21 23 25 27

teta

log

L(X

/te

ta))

Inoltre, poiché

)|(

)|(')|(log

θθ

θθ

XL

XLXL=

∂∂

La derivata prima di )|(log θXL si annulla per gli stessi valori di θ per i quali

si annulla la derivata prima di )|( θXL .

Quindi il metodo consiste nel trovare il valore T per il quale:

0)|(log

=∂

∂θ

θXL

e 0)|(log

2

2

<∂

θθXL

ovviamente se ( )kXL θθ ,...,| 1~

le stime kTTT ,...,, 21 si ottengono come soluzione

del sistema di K equazioni in K incognite:

0)|(log

0)|(log

1

=∂

=∂

k

XLL

XLL

θθ

θθ

Controllando che siano negative le derivate seconde.

Esempi di utilizzo del metodo della massima verosimiglianza in corrispondenza

di diverse ipotesi di distribuzione della v.c. X su Ω

[ ]1

nXX ,...,1 popolazione Bernoulliana

( ) ∑−∑= − ii XnXpppXL 1)|(

( ) ( )∑ ∑ −−+= pXnpXpXL ii 1loglog)|(log

( ) 01

11)|(log=−

−−=

∂∂

∑∑ ii Xnp

Xpp

pXL

=( ) ( )

( )0

1

1=

−−− ∑ ∑pp

XnpXp ii

∑ ∑ ∑ =+−− 0iii XpnpXpX

Page 33: Distribuzioni Campionarie e Stima Parametrica

33

∑ =− 0npX i

n

iR

n

Xp == ∑ˆ , rappresenta la stima MLE della proporzione p

Infatti 0)|(log2

<∂

∂p

pXL

[ ]2

nXX ,...,1 popolazione normale con 2σ nota

( ) ( )( )

2

2

2222| σ

µ

πσµ∑

=−

−−iX

n

eXL

( ) ( ) ( )2

2

2

22log

2|log

σ

µπσµ ∑ −

−−= iXnXL

( ) ( )

02

2|log2

=−

=∂

∂ ∑σ

µ

µµ iXXL

( )∑ =− 0µiX

∑ = µnX i

Xn

X i == ∑µ) , rappresenta la stima MLE di µ

Infatti ( )

0|log

<∂

∂µ

µXL

[ ]3

nXX ,...,1 popolazione normale con µ nota

( ) ( )( )

2

2

2222 2| σ

µ

πσσ∑

=−

−−iX

n

eXL

( ) ( )2

2

22

2log

22log

2|log

σ

µσπσ ∑ −

−−−= iXnnXL

( ) ( )0

2

1

2

|log4

2

22

2

=−

+−=∂

∂ ∑σ

µ

σσσ iXnXL

( )0

22 4

2

4

2

=−

+−= ∑σ

µ

σσ iXn

( )∑ −= 22 µσ iXn

( )2

2

2ˆ Sn

X i =−

= ∑µ

σ rappresenta la stima MLE di σ

Infatti ( )

0|log

2

2

<∂

σσXL

Proprietà degli stimatori MLE

I) Se esiste uno stimatore sufficiente per θ ,lo stimatore MLE ne è funzione.

Dimostrazione

1T è sufficiente se

Page 34: Distribuzioni Campionarie e Stima Parametrica

34

( ) ( ) )(|| 1

2 XhTgXL ⋅= θσ

Quindi:

( ) ( )43421

0

1

2 )(log|log|log

=

+= XhTgXL θσ (=0 derivando rispetto a θ)

( )2|logmax σXL si ha in corrispondenza di uno stimatore 2T che rende

( )θ|max 1Tg e quindi 2T è funzione dello stimatore sufficiente 1T .

II) Se esiste uno stimatore corretto e pienamente efficiente, questo si ottiene

come MLE

Dimostrazione

Si consideri uno stimatore ( )nXXtT ,...,11 = , pienamente efficiente in quanto:

( ) ( )θθ

θ−=

∂∂

1

|logTK

XL

Si consideri uno stimatore ( )MLET2 ottenuto ponendo:

0)|(log

=∂

∂θ

θXL

Quindi se esiste uno stimatore pienamente efficiente si può scrivere

0)|(log

=∂

∂θ

θXL come

( ) ( )θθ

θ−=

∂∂

1

|logTK

XL=0 e quindi T1 = T2

Quindi lo stimatore T2 MLE coincide con quello pienamente efficiente T1, se

esiste .

III) Sotto alcune condizioni generali, al divergere di n, lo stimatore MLE si

distribuisce normalmente

( )[ ]( )1,N~ˆ −θθθ I ,

Lo stimatore MLE risulta quindi asintoticamente corretto e pienamente

efficiente

METODO DI STIMA DEL MINIMO CHI QUADRATO Sia X una v.c. discreta che assume le modalità Xu, con u=1,…, k con

probabilità ( )θ|uXp

Anche questo metodo di stima si fonda sulla conoscenza della distribuzione di

probabilità di X su Ω.

In un campione di n unità uX si presenta con frequenza nu .

Si definisce n

nf u

u = la frequenza relativa con cui osserviamo la modalità Xu

nel campione (Σfu=1).

Metodo del minimo χ2

Page 35: Distribuzioni Campionarie e Stima Parametrica

35

La stima di θ si fonda sulla minimizzazione, rispetto al parametro θ, della

funzione :

( )[ ]( )∑

u n

nu

Xp

Xpf

θθ

θ |

|min

2

La funzione (χ2) è una somma di rapporti in cui al numeratore compaiono le

contingenze (differenze tra frequenze relative osservate e teoriche) e al

denominatore ci sono le frequenze relative teoriche (teoriche in quanto sono

quelle attese corrispondenti alla v.c casuale considerata).

Poiché cerco il minimo, debbo annullare la derivata prima, rispetto a θ; il fatto

che θ compare anche al denominatore può dare luogo a difficoltà. Per tale

motivo si può utilizzare il metodo del minimo χ2 modificato.

Metodo del minimo χ2 modificato

( )[ ]∑

n u

nu

f

Xpf2

|min

θθ

Entrambi i metodi godono delle proprietà asintotiche degli stimatori MLE e

pertanto, al divergere di n, lo stimatore del minimo χ2, nelle due versioni, si

distribuisce normalmente

( )[ ]( )1

1 ,N~ˆ −θθθ I ,

Tali stimatori risultano quindi asintoticamente corretti e pienamente efficienti

Esempi:

Stima di p in caso di v.c. Bernoulli con il metodo del minimo χ2

=−

+−−

+

−=

p

pn

Xn

p

pn

X

1

1

22

=−

+−−+

−=

p

pn

X

p

pn

X

1

11

22

( )

( )=

−+−

−=

pp

ppn

Xpp

n

X

1

1

22

( )pp

pn

X

−=

1

2

E quindi l’espressione che rende minimo il χ2 (nullo il numeratore) è

Page 36: Distribuzioni Campionarie e Stima Parametrica

36

nRn

Xp ==ˆ , che rappresenta la stima di p on il metodo del minimo chi

quadrato

Stima di p in caso di v.c. Bernoulli con il metodo del minimo χ2 modificato

=−

+−−

+

−=

n

Xn

pn

Xn

n

X

pn

X22

2

1

modχ

=−

+−−+

−=

n

Xn

pn

X

n

X

pn

X22

11

=−

−+

−=

n

Xn

pn

X

n

X

pn

X22

−=

n

Xn

n

X

pn

X2

E quindi il χ2 modificato è minimo per

nRn

Xp ==ˆ , che rappresenta la stima di p on il metodo del minimo chi

quadrato.

STIME BAYESIANE

• Assumono nota a priori una distribuzione del parametro θ da stimare,

che denota le informazioni che si hanno a priori sul parametro da

stimare;

• Assumono nota anche la forma della f(x) nellapopolazione.

Stima di θ a priori

Se conosciamo che ( )θθ g~ , potremmo stimare a priori il parametro θθ

attraverso il valore medio della g(θ):

( ) ( )pdgE θθθθθ ˆ== ∫

+∞

∞−

In questo modo per stimare θ θutilizziamo soltanto le informazioni a priori e

non utilizziamo informazioni campionarie.

Page 37: Distribuzioni Campionarie e Stima Parametrica

37

Invece, quello che vogliamo fare è di utilizzare le informazioni a priori

unitamente alle informazioni campionarie.

Per ottenere una stima di θ θallora consideriamo il valore medio della

distribuzione a posteriori del parametro, cioè della v.c. θ θcondizionata

θall’essersi presentato il campione.

Distribuzione a posteriori di θ

Si tratta dunque di determinare la funzione di densità a posteriori del parametro,

ovvero una volta estratto il campione:

La distribuzione del parametro a posteriori può essere scritta come:

)(

),()(

Xf

XhXf

θθ = (1)

Poiché la funzione di densità delle v.c. descritte dalle n estrazioni è L(X|θ), la

funzione di densità congiunta del campione e del parametro (numeratore della

(1)) è:

( ) ( )θθθ |),( XLgXh =

Da questa possiamo ottenere la distribuzione marginale del campione f(X) (il

denominatore della (1)):

( ) ( ) ( ) θθθθθ dXLgdXhXf |,)( ∫∫+∞

∞−

+∞

∞−==

e possiamo così riscrivere la (1),ossia la distribuzione a posteriori di θ posto il

campione come:

( ) ( )( ) ( ) θθθ

θθθθ

dXLg

XLg

Xf

XhXf

|

|

)(

),()(

∫∞+

∞−

==

La stima bayesiana di θ θsarà quindi il valorE medio della distribuzione a

posteriori, cioè il valor medio di θ θcondizionato nell'essersi presentato il

campione estratto:

Stima di θ a posteriori (stima Bayesiana di θ)

( ) ( ) ( )( ) ( )

θθθ

θθθθθ d

Lg

XLgXEB

|

||ˆ

∫∫ ∞+

∞−

∞+

∞−==

Tali stime sono generalmente distorte ma efficienti.

La distorsione è funzione della “qualità” dell’informazione a priori.

STIMA BAYESIANE DI p

Sia g(p) l’informazione a priori su p

Page 38: Distribuzioni Campionarie e Stima Parametrica

38

Nel caso di assenza di informazioni a priori possiamo considerare come g(p) la

v.c. uniforme (ipotesi di Laplace), ritenendo così equiprobabili tutti i valori di

p.

( )

≤≤

= altrove

ppg 0

101

( ) ( )∫ ===1

0 2

1ˆ dpppgpEpp

Si estragga un campione bernoulliano di n elementi.

Essendo la funzione verosimiglianza

( ) ( ) XnX pppXL−−= 1|

la funzione di densità congiunta è:

( ) ( ) ( ) ( ) XnX pppgpXLpXh−−== 1|,

la funzione di densità marginale del campione à:

( ) ( ) ( ) =−== −+∞

∞−

+∞

∞− ∫∫ dppppgpXLXfXnX 1|)(

( )1;1 +−+= XnXB ossia è la funzione Beta con 1+= Xp e 1+−= Xnq .

La funzione di densità del parametro a posteriori è quindi:

( ) ( ) ( )( ) ( ) ( )

( ) XnXpp

XnXBdppgpXL

pgpXLXpf

∞+

∞−

−+−+

==

∫1

1;1

1

|

||

che è una v.c. Beta con 1+= Xp e 1+−= Xnq .

Poiché 1µ della v.c. Beta è qp

p

+ allora la stima bayesiana di p risulta:

2

1

11

1)/(ˆ

++

=+−++

+==

n

X

XnX

XXpEpB

La stima Bayesiana di p può essere espressa come combinazione lineare delle

due stime:

2

1ˆ =pp (stima a priori)

n

Xp =ˆ (stima classica MLE)

Infatti:

=+

++

=++

=2

1

22

nn

X

n

XpB

2

2

2

1

2 +

+

+⋅

=

nn

n

n

X

Page 39: Distribuzioni Campionarie e Stima Parametrica

39

La stima bayesiana è dunque una combinazione lineare delle due stime p

(basata sul campione) e pp (basate solo sulle informazioni a priori).

Per quanto riguarda i pesi delle due stime, si noti che:

• al crescere di n il peso di pp diminuisce e per n molto grande pB → p. (al

crescere di n si dà meno importanza alle informazioni a priori);

• nonostante l’assenza di informazioni a priori (equiprobabilità di p) la

stima bayesiana è diversa da quella usuale.

Si ipotizzi a questo punto di estrarre, nelle stesse condizioni precedenti, un

secondo campione di n' unità ed ottenere X' successi.

Si voglia stimare p assumendo come distribuzione a priori di p la distribuzione

a posteriori ottenuta dal primo campione:

In questo caso si porrà:

( )( )

( ) XnX ppXnXB

pg−−

+−+= 1

1;1

1

e quindi la stima a priori, sarà considerata pari alla stima a posteriori, ottenuta

con il primo campione Bernoulliano di n dati

( )2

++

==n

XpEpp

Poiché:

( ) ( ) ''' 1|'XnX pppXL

−−=

( ) ( ) ( ) == pXLpgpXh |','

( )( ) ( ) =−−

+−+= −− ''' 11

1;1

1 XnXXnXpppp

XnXB

( )( ) ''' 1

1;1

1 XXnnXXpp

XnXB

−−++ −+−+

=

( ) ( )( )

( )( )

44444 344444 211'';1'

''1

11;1

1,''

+−−+++

−−++∞+

∞−

∞+

∞−−

+−+== ∫∫

XXnnXXB

XXnnXX dpppXnXB

dppXnXf

La distribuzione del paramero a posteriori è quindi

( ) ( )( ) ( )

( ) ''' 11''1'

1

'

,''|

XXnnXX ppXXnnXXBXf

pXhXpf

−−++ −+−−+⋅++

==

che è v.c. Beta con 1'++= XXp e 1'' +−−+= XXnnq

( )2

1'|ˆ

1

1

++

++==

nn

XXXpEpB (cumulazione dell’esperienza)

Si noti che coincide con la stima che si otterrebbe ipotizzando a priori

l’equiprobabilità di p ed estraendo un campione di n+n' unità ottenendo X +

X' successi.

Si noti che se si ignorasse il primo campione la stima MLE di p’ sarebbe

'

''

n

Xp =)

Page 40: Distribuzioni Campionarie e Stima Parametrica

40

Per tale motivo si dice che le stime bayesiane permettono l’accumulo

dell’esperienza: ogni nuova stima del parametro, tiene conto dell’informazione

a priori della distribuzione a posteriori relativa alla prova precedente.

Al crescere del numero di unità del campione prevale l'importanza accordata

alle informazioni campionarie rispetto a quelle conosciute a priori.

Ciò è valido soltanto se la composizione dell’urna (la popolazione) rimane

immutata.

STIMA BAYESIANA DI µ

Sia ( )2

1N~ σµX

Informazione a priori su µ:

2

0 ,N~ αµµ 2α è precisione /fiducia nell’informazione a priori

pµµ ˆ0 = stima a priori

Poiché:

( ) ( )( )

2

2

2222| σ

µ

πσµ∑

=−

−−iX

n

eXL

( ) ( ) ( ) ( )( )

( )( )

2

2

2

20

22222

12 22|, σ

µ

σ

µµ

πσπαµµµ∑

==−

−−−

−−iX

n

eeXLgXh

( ) ...................=Xf ………

( ) .......................| =Xf µ ……

Si ottiene che:

22

2

0

2

ˆασαµσ

µn

XnB +

+=

Ponendo 2

2

ασ

δn

= si può scrivere la stima bayesiana

XB δµ

δδ

µ+

++

=1

1

0 come combinazione lineare di 0µ e X , essendo X

una stima MLE di µ.

Ancora, quindi, la stima bayesiana può essere considerata come una

combinazione lineare della stima a priori e di quella campionaria.

Si noti che

Per

=+

=+∞→

11

1

01

δ

δδ

n per cui XB →µ

Inoltre, il parametro α rappresenta una misura dell’imprecisione

dell’informazione a priori e quindi:

per α → 0

pB µµ ˆˆ →

Page 41: Distribuzioni Campionarie e Stima Parametrica

41

viceversa

per

=+

=+∞→

11

1

01

δ

δδ

α per cui XB →µ

Page 42: Distribuzioni Campionarie e Stima Parametrica

42

STIMA PARAMETRICA INTERVALLARE

Abbiamo visto che la stima puntuale di un parametro θ consiste nell’assumere

il risultato T di una opportuna funzione dei dati campioni X1, ……,Xn come

indicativo del valore del parametro.

La stima intervallare consiste invece nel definire mediante altre opportune

funzioni dei dati campionari gli estremi di uno o più intervalli entro i quali si

afferma che sia compreso l’effettivo valore θ del parametro. L’affermazione

può essere vera o falsa ed è possibile, usando i metodi che studieremo, limitare

la probabilità che l’affermazione sia errata.

Sia T una stima del parametro θ e sia t è la determinazione di una v.c. T che

dipende da ( )θ|Xf

Scelto un valore α, tale che 0<α<1, possibile definire in funzione di θ, gli

estremi di un intervallo I1(θ) , I2(θ) tale che:

( ) ( ) αθθ −=<< 121 ITIp (1)

Ovvero che sia 1-α la probabilità che il valore assunto dalla stima di θ sia

compreso nell’intervallo I1(θ) , I2(θ).

Si supponga che sia possibile invertire le due disuguaglianze

T > I1(θ) e T < I2(θ), ricavando:

h1(T)> θ e h2(T) < θ

Scelto un valore α sarà quindi possibile ottenere gli estremi di un intervallo che

sono funzione di T:

( ) ( ) αθ −=<< 112 ThThp (2)

Dato α, è pari a 1-α la probabilità che questo intervallo comprenda θ .

Attenzione: non è possibile leggere la (2) come:

è 1-α la probabilità che θ assuma valori compresi tra h1(T) e h2(T).

Infatti θ è una costante (ignota). Pertanto, mentre nella (1) gli estremi I1(θ) e

I2(θ) non variano al variare del campione e varia invece T; nella (2), invece,

non varia θ ma variano gli estremi h1(T) e h2(T).

Quindi l’evento aleatorio nella (2) è l’intervallo h1(T) e h2(T) comprendente θ.

L’intervallo (o l’insieme di intervalli) è detto intervallo di confidenza e 1-α è

detto livello di confidenza dell’affermazione esposta.

Chiariamo l’inversione analitica della disuguaglianza attraverso una

rappresentazione grafica

Page 43: Distribuzioni Campionarie e Stima Parametrica

43

Se il parametro θ può assumere valori compresi in un certo intervallo, al variare

di θ in tale intervallo i punti di coordinate θ, I1(θ) e θ, I2(θ) descrivono le due

curve indicate nel grafico.

Per un dato valore θ0 di θ, la retta θ=θ0 interseca le curve I1(θ) e I2(θ) nei punti

I1(θ0) e I2(θ0): vale la (1), ovvero, se 0θθ = è α−1 la probabilità che

( ) ( )0201 θθ ITI << .

L’inversione analitica si risolve graficamente nel considerare la retta T=t0 e

quindi i punti di intersezione h2(t) e h1(t).

Intervallo di confidenza della media

Date n v.c. normali IID (campione bernoulliano) sappiamo che:

( )1,0~ N

n

X

σµ−

e quindi

ασ

µσ

αα −=

+≤≤− 12/2/n

zXn

zXp

Se non conosciamo σ sappiamo che:

( )1~ −

−nt

n

S

X µ e quindi:

T

θ

t

θ0

I1(θ0)

I1(θ)

I2(θ0)

h2(t) h1(t)

I2(θ)

Page 44: Distribuzioni Campionarie e Stima Parametrica

44

( ) ( ) αµ αα −=

+≤≤− −− 12/;12/;1n

StX

n

StXp nn

Intervallo di confidenza della varianza

Date n v.c. normali IID (campione bernoulliano) sappiamo che:

( )2

2

2

~ n

iXχ

σ

µ∑ − e quindi:

( )( )

( )( )

αχ

µσ

χ

µ

αα

−=

≤≤−

∑∑1

2

2/1;

2

2

2

2/;

2

n

i

n

i XXp

Se non conosciamo µ sappiamo che:

( )2

12

2

~ −∑ −

n

i XXχ

σ e quindi:

( )( )

( )( )

αχ

σχ αα

−=

≤≤−

−−−

∑∑1

2

2/1;1

2

2

2

2/;1

2

n

i

n

i XXXXp

Page 45: Distribuzioni Campionarie e Stima Parametrica

45

Intervallo di confidenza della differenza tra due medie

Si estragga da ciascuna di due popolazioni normali un campione bernoulliano

rispettivamente di n1 e n2 unità.

( )( ) tiindipenden

NX

NX

2

222

2

111

,~

,~

σµ

σµ

Sappiamo che

+−−

2

2

2

1

2

1

2121 ,~nn

NXXσσ

µµ e quindi:

( ) ( ) ασσ

µµσσ

αα −=

++−<−<+−− 12

2

2

1

2

1

2/2121

2

2

2

1

2

1

2/21nn

zXXnn

zXXp

Se σ12 e σ2

2 sono ignote ma uguali

+=+−−

21

2

2

2

1

2

2121

11,~

nnnnN σ

σσµµµµ

La stima di σ2 è:

( ) ( ) ( ) ( )2

)(

2

)()(

22

1

21

2

1

21

21

21

1

2

221

1

2

11

21

2

212

2

11

21

−+=

−+

+=

−+

−+−=

−+

+− ∑∑∑===−

nn

XDev

nn

XDevXDev

nn

XXXX

nn

SnSn u

u

n

i

i

n

i

i

Poiché 2

~1

~21

2

222

122 21

−+⇒

−−+−

nnnS

nnnχ

σχ

σ

Essendo 1~ −

−nt

n

S

X µ allora

( ) ( )( ) ( )

2

2121

2

22

2

11

2121

21~

11

2

11−+

+

−+

−+−

−−−nnt

nnnn

SnSn

XX µµ

( ) ( ) ( )

( ) ( ) ( )

+

−+−+−

⋅+−<

<−<

+

−+

−+−⋅+−

−+

−+

2121

2

22

2

112/;221

21

2121

2

22

2

112/;221

11

2

11

11

2

11

1

1

nnnn

SnSntXX

nnnn

SnSntXX

nn

nn

α

α µµ

O in modo più compatto:

Page 46: Distribuzioni Campionarie e Stima Parametrica

46

( )

( )

+

−+⋅+−<

−<

+

−+⋅+−

=−+

=−+

2121

2

1

2/;221

21

2121

2

1

2/;221

11

2

)(

11

2

)(

1

1

nnnn

XDev

tXX

nnnn

XDev

tXX

u

u

nn

u

u

nn

α

α µµ

Page 47: Distribuzioni Campionarie e Stima Parametrica

47

Intervallo di confidenza per la probabilità del successo p (frequenza

relativa)

Dovendo stimare la probabilità di successo p di una popolazione con

distribuzione di tipo bernoulliano, e’ intuitivo ricorrere alla frequenza relativa

dei successi che si hanno nel campione:

n

X

p

n

i

i∑== 1ˆ

E’ possibile dimostrare (grazie al teorema del limite centrale) che, per campioni

abbastanza grandi:

( )1;0~ˆ

;~ˆ N

n

pq

pp

n

pqpNp

−⇒

L’intervallo di confidenza al livello (1-α) e’:

−+

−−

n

ppzp

n

ppzp

)ˆ1(ˆˆ;

)ˆ1(ˆˆ

22αα

Si noti che e’ indispensabile, affinché la formula sia valida, che si abbia un

campione ampio.

Page 48: Distribuzioni Campionarie e Stima Parametrica

48

Qualche esempio

Esempio 1 Campione di n=10 unità estratto in modo bernoulliano da popolazione normale

4.41 4.38 4.6 4.29 4.34 4.5 4.52 4.39 4.51 4.44

Si ha motivo di credere che 08,0=σ .

Determinare l’intervallo di confidenza della media con 05,0=α

∑=

=⇒=⇒=10

1

2/ 96,105,0438,4:38,44i

i zXX αα

95,048758,438842,4Pr

95,004958,0438,404958,0438,4Pr

95,010

08,096,1438,4

10

08,096,1438,4Pr

≥≤≤

≥+≤≤−

+≤≤−

µ

µ

µ

Esempio 2

Come precedente senza conoscere σ2

( )( ) 262,205,009402,000884,0

9

438,4438,4 025,0;9

2

=⇒===−

== ∑t

XSX

i α

95,050525,437075,4Pr

95,006725,0438,406725,0438,4Pr

95,010

09402,0262,2438,4

10

09402,0262,2438,4Pr

≥≤≤

=≥+≤≤−

+≤≤−

µµ

µ

Si noti che l’ampiezza dell’intervallo è maggiore se non conosco la varianza.

Esempio 3 Campione di n=11 unità estratto in modo bernoulliano da popolazione normale

2 5 4 1 2 3 1 4 2 1 6

Si ha motivo di credere che 6,2=µ .

Determinare l’intervallo di confidenza della varianza con 05,0=α

( ) ( )

( ) 82,3

9,21056,016,306,2

2

975,0;11

2

025,0;1111

1

2

=⇒

=⇒==−∑

= χ

χα

i

iX

95,08953,73772,1Pr

95,082,3

16,30

9,21

16,30Pr

2

2

≥≤≤

≤≤

σ

σ

Esempio 4

Come precedente senza conoscere µ

( ) ( )

( ) 25,3

5,2005,064,29818,2818,2

112

975,0;10

2

025,0;1011

1

2

11

1

=⇒

=⇒==−== ∑

=

=

χ

χα

i

i

i

i

X

X

X

Page 49: Distribuzioni Campionarie e Stima Parametrica

49

95,012,94459,1Pr

95,025,3

64,29

5,20

64,29Pr

2

2

≥≤≤

≤≤

σ

σ

Esempio 5 Si abbiano due campioni estratti da due normali in modo bernoulliano di n1=18

e n2=20 unità, con 3,31 =X e 1,42 =X

Si stimi la differenza tra 1µ e 2µ sapendo che 5,22

1 =σ e 62

2 =σ con

05,0=α

( ) ( ) 95,020

6

18

5,296,11,43,3

20

6

18

5,296,11,43,3Pr

96,1

21

2/

>

++−<−<+−−

=

µµ

αz

Ovvero

531,00651,2 21 <−<− µµ

Esempio 6 Verificare come si modifica l’intervallo non conoscendo le varianze ma

supponendo che siano uguali.

( ) ( )

( ) ( ) 719,0029,21,43,3719,0029,21,43,3

719,020

1

18

1

22018

59,61203118

59,63029,2

21

2

2

2

1025,0;36

⋅−−<−<⋅−−

=

+−+−+−

===

µµ

SSt

Ovvero

692,0225,2 21 <−<− µµ (l’intervallo presenta un’ampiezza maggiore)

Page 50: Distribuzioni Campionarie e Stima Parametrica
Page 51: Distribuzioni Campionarie e Stima Parametrica

ERROR: undefined

OFFENDING COMMAND:

STACK: