B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Teoria della stima
175
CAP. 3 – STIMA
Introduzione
Nel capitolo precedente sono state esaminate le distribuzioni di alcune funzioni
T(X1,X2,…,Xn) degli elementi campionari soffermando l’attenzione, in particolare, su
media e varianza facendo specifico riferimento al campionamento da popolazioni
normali. Come sottolineato, considerazioni analoghe possono essere svolte nei confronti
di funzioni T diverse da quelle analizzate; la logica del procedimento da seguire
resta sostanzialmente immutata anche se, ovviamente, lo svolgimento analitico
dipenderà dalle specificità considerate. Rimane altresì immutata anche la natura della
funzione T che, nella generalità dei casi, è quella di compattare l’informazione
campionaria in modo da consentire un’estensione delle conclusioni cui si perviene
attraverso l’elaborazione dei dati campionari all’intera popolazione dalla quale il
campione stesso è stato estratto.
Il nucleo centrale dell’inferenza statistica o statistica induttiva risiede, appunto,
nella fissazione di “criteri di ottimalità” e nell’individuazione di regole che consentano
il loro soddisfacimento affinché il processo di induzione (dal campione alla
popolazione) sia il “migliore possibile”.
I criteri di ottimalità dipendono, ovviamente, dai problemi di induzione che si
vogliono risolvere e che, come già sottolineato nella premessa, possono essere distinti e
raggruppati in problemi statistici di:
1. stima (puntuale e per intervallo)
2. verifica o test d’ipotesi.
Nel primo caso, i dati campionari vengono utilizzati per ottenere una misura (stima)
di un’entità incognita relativa alla popolazione (indici caratteristici e/o parametri
caratteristici e/o forma analitica del modello rappresentativo del fenomeno che s’intende
analizzare).
Nel secondo caso, i dati campionari vengono utilizzati per procedere al rifiuto o
all’accettazione di una particolare ipotesi (congettura) formulata in merito ad entità
incognite relative alla popolazione di origine del campione.
La stima e il test delle ipotesi possono riguardare sia la forma funzionale del modello
rappresentativo della popolazione di interesse sia i parametri che lo caratterizzano sia,
più semplicemente, gli indici caratteristici; in questo caso si parla, come già più volte
sottolineato, di inferenza statistica non parametrica o inferenza libera da distribuzione
(distribution free) in quanto non si presuppone nota la forma analitica del modello
rappresentativo della popolazione. Se invece la stima o il test delle ipotesi riguardano i
soli parametri caratteristici, in quanto si assume nota la forma analitica del modello, si
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
176
parla di inferenza statistica parametrica.
In questo capitolo si tratterà, in modo quasi esclusivo, di stima parametrica
limitatamente alla così detta impostazione classica dell’inferenza statistica, cioè,
dell’inferenza statistica che tratta di procedure di induzione basate sulla sola evidenza
campionaria (informazione oggettiva) a differenza dell’impostazione bayesiana che
prevede, invece, l’utilizzo simultaneo di informazioni campionarie e di informazioni a
priori che, nella generalità dei casi, hanno natura soggettiva.
3.1 - Stima puntuale
Se X è una variabile casuale discreta o continua, con funzione di massa o di densità di
probabilità f(x;dove Θ rappresenta il parametro caratteristico non noto e Θ lo
spazio parametrico, la stima puntuale di si risolve nella ricerca di una funzione degli
elementi campionari 1 2, ,..., nx x x in modo tale da ottenere un valore
1 2ˆ , ,..., nT x x x che sia ‘il più vicino possibile’ al vero valore dell’entità incognita
per qualunque valore di Θ
Come già sottolineato più volte, attraverso l’introduzione della statistica T si
effettua una compattazione delle informazioni passando, usualmente, dagli n valori
numerici x1,x2,…,xn ad un solo valore numerico, ad es. 1
1 n
i
i
x xn
. Risulta evidente
che tale operazione comporta una notevolissima perdita di informazioni; aspetto questo
che non deve assolutamente preoccupare, anzi, in molte situazioni risulta vantaggioso,
soprattutto quando le informazioni che si perdono sono del tutto irrilevanti ai fini degli
obiettivi che s’intendono perseguire.
L’ultima considerazione suggerisce una prima possibilità di qualificazione della
generica affermazione deve essere “il più vicino possibile” a od anche, deve
essere “la migliore stima” di . Ad esempio, se si ha ragione di ritenere che una certa
variabile casuale X sia distribuita normalmente, ma non si conosce il valore numerico
dei due parametri che la caratterizzano, µ e 2, si può decidere di estrarre un campione
di n elementi dalla distribuzione stessa e cercare poi di individuare due funzioni che
applicate ai valori campionari diano una misura, la “migliore”, dei due parametri
incogniti. Analogo ragionamento può essere fatto nei confronti del parametro che
caratterizza la distribuzione di Poisson, del parametro p che caratterizza la distribuzione
bernoulliana, ecc.
Più in generale, data una variabile casuale, discreta o continua, X con funzione di
massa o di densità di probabilità f(x;), la stima puntuale del un parametro incognito
si ottiene applicando una specifica funzione T ai valori campionari; essa varierà
quindi al variare del campione, secondo la legge di distribuzione della popolazione cui il
campione si riferisce, ed è necessario fare riferimento a tale distribuzione per riuscire a
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
177
giudicare la “bontà” di una qualunque stima = T(x1, x2,...,xn). Infatti, non è possibile
affermare se un singolo valore numerico, cioè se una particolare stima è “buona” o
“cattiva” poiché è tanto più “buona” quanto più si approssima al vero valore del
parametro , ma, essendo tale valore incognito, il confronto non è possibile; risulta,
cioè, impossibile valutare la “bontà” di una singola stima.
Pertanto, è improprio parlare di stima “buona” o “cattiva”, si deve parlare invece di
stimatore “buono” o “cattivo”, intendendo, con ciò, fare riferimento al metodo di stima
impiegato le cui proprietà non sono valutabili facendo riferimento ad un singolo
campione ma all’intero universo di tutti i campioni possibili. Il confronto fra stimatori
dovrà, quindi, essere basato sul confronto tra le corrispondenti distribuzioni
campionarie; cosa questa ovviamente poco pratica, si preferisce allora effettuare il
confronto facendo riferimento a particolari indici caratteristici delle variabili casuali
stima (stimatori).
3.1.1 Proprietà degli stimatori
Se con X si indica una variabile casuale, discreta o continua, con funzione di massa o
di densità di probabilità f(x;) , caratterizzata dal parametro incognito , il problema
della ricerca dello stimatore ”migliore” del parametro stesso si sostanzia nella
individuazione della “migliore” funzione 1 2 , ,...., nT X X X T X da applicare agli
elementi campionari di cui si dispone:
Definizione 1 (Stimatore). Se con X si indica una variabile casuale, discreta o
continua, con funzione di massa o di densità di probabilità f(x;),
caratterizzata dal parametro incognito , e si indica con
1 2 , ,...., nX X X un campione casuale semplice riferito alla variabile
stessa, si dice stimatore qualunque statistica 1 2 , ,...., nT X X X T X ,
cioè qualunque variabile casuale, funzione degli elementi campionari, le
cui determinazioni vengono utilizzate per ottenere una stima del parametro
incognito .
Le proprietà “ottimali” che verranno considerate in queste note sono la:
sufficienza;
concentrazione;
prossimità;
efficienza;
consistenza.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
178
3.1.2 Sufficienza
Relativamente alle “proprietà ottimali” di uno stimatore si deve, innanzi tutto, tenere
presente che la funzione T opera una compattazione delle informazioni; risulta,
pertanto, più che ragionevole richiedere ad uno stimatore 1 2ˆ , ,....., nT X X X di
contenere il massimo delle informazioni che il campione fornisce in merito al valore del
parametro incognito Θ dove Θ rappresenta lo spazio di variabilità di (spazio
parametrico).
Nel caso in cui si riesce ad individuare uno stimatore che contiene tutte le
informazioni su possedute dal campione di dati a disposizione, si dice che è uno
stimatore sufficiente di . Appare subito evidente che nei casi in cui esistono più
stimatori sufficienti, si dovrà restringere la ricerca del miglior stimatore entro tale classe
poiché, al di fuori di essa, ogni altro stimatore avrebbe come conseguenza una mancata
utilizzazione di informazioni utili contenute nel campione. Ovviamente, è sufficiente lo
stimatore basato su una statistica sufficiente (cfr. paragrafo 2.2).
3.1.3 Concentrazione e prossimità
Oltre alla sufficienza, risulta conveniente che le singole stime non si discostino troppo
dal valore incognito da stimare, che presentino, cioè, il minimo di variabilità intorno a
tale valore, variabilità che può essere misurata sia attraverso specifici indici sintetici,
come si avrà modo di verificare nelle righe successive, sia considerando direttamente la
distribuzione di probabilità.
Definizione 2 (Concentrazione). Lo stimatore * *
1 2ˆ , ,..., nΘ T X X X che soddisfa la
relazione:
*ˆ ˆ P Θ P Θ per qualsiasi valore di
0 e Θ è detto più concentrato dello stimatore
1 2ˆ , ,....., nΘ T X X X .
Quella specificata è una proprietà relativa, si effettua, cioè, il confronto
tra due particolari stimatori ˆ *Θ e Θ . Se la disuguaglianza vale per
qualunque stimatore Θ alternativo a ˆ *Θ si dirà che ˆ *Θ è lo stimatore
più concentrato in assoluto.
Definizione 3 (Prossimità). Lo stimatore * *
1 2ˆ , ,..., nΘ T X X X che soddisfa la
relazione:
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
179
*ˆ ˆ 0,5P Θ Θ per qualsiasi valore di Θ
è detto più prossimo (secondo Pitman) dello stimatore
1 2ˆ , ,....., nΘ T X X X .
Quella specificata è una proprietà relativa, si effettua, cioè, il confronto tra due
particolari stimatori ˆ *Θ e Θ . Se la disuguaglianza vale per qualunque stimatore Θ
alternativo a ˆ *Θ si dirà che ˆ *Θ è lo stimatore che presenta una migliore
approssimazione in assoluto.
3.1.4 Efficienza
Le proprietà di concentrazione e di prossimità sono certamente auspicabili purtroppo,
però, sono rare le situazioni nelle quali esistono stimatori che godono di tali proprietà
oltre alle difficoltà analitiche connesse alla loro derivazione. Si dovrà, pertanto, fare
riferimento non all’intera distribuzione di probabilità ma a specifici indici sintetici di
variabilità, procedendo, cioè, al computo di scostamenti appropriati tra i valori
assumibili dallo stimatore e il vero valore del parametro incognito (qualunque esso
sia) per poi addivenire ad una loro adeguata sintesi. L’entità aleatoria che si sta trattando
è la variabile casuale stimatore 1 2ˆ , ,....., nΘ T X X X e la costante di riferimento è il
parametro incognito . Gli scostamenti tra tutti i valori che la variabile casuale stima
Θ assume, nell’universo dei campioni, e il valore incognito , possono essere espressi
dalla differenza in valore assoluto ˆ| |Θ od anche al quadrato 2
Θ o qualunque
altra misura di scostamento ritenuta adeguata al caso in esame.
Definizione 4 (Efficienza nell’ESM). Lo stimatore * *
1 2ˆ , ,..., nΘ T X X X che
soddisfa la relazione: *ˆ ˆ| | | |E Θ E Θ per qualunque
Θ e per qualunque stimatore 1 2ˆ , ,..., nΘ T X X X alternativo allo
stimatore ˆ *Θ , dove, al solito, E sta ad indicare il valore atteso
(valore medio) dell’entità all’interno della parentesi, è detto il più
efficiente nell’errore semplice medio.
ESM(Θ ) = ˆ| |E Θ .
Definizione 5 (Efficienza nell’EQM). Lo stimatore * *
1 2ˆ , ,..., nΘ T X X X , che
soddisfa la relazione: * 2 2ˆ ˆ( ) ( )E Θ E Θ per qualunque
Θ e per qualunque stimatore 1 2ˆ , ,..., nΘ T X X X , alternativo allo
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
180
stimatore * , è detto il più efficiente nell’errore quadratico medio
EQM 2
ˆΘ E .
Quello sopra introdotto è un concetto assoluto di efficienza che risulta
operativamente poco utile in quanto sono molto infrequenti le situazioni di ricerca in cui
si riesce ad individuare per via analitica lo stimatore più efficiente (nell’errore semplice
medio o nell’errore quadratico medio), sempre nell’ipotesi di esistenza di tale stimatore.
Analogamente a quanto detto a proposito delle proprietà di concentrazione e di
prossimità, oltre a considerare la proprietà di efficienza in senso assoluto si può
introdurre il concetto di efficienza in senso relativo confrontando due diversi stimatori
1Θ e 2Θ di uno stesso parametro incognito .
Lo stimatore 1Θ si dice più efficiente dello stimatore
2Θ :
nell’errore semplice medio se ESM(1Θ ) < ESM(
2Θ ) , per qualunque Θ ;
nell’errore quadratico medio se EQM(1Θ ) < EQM(
2Θ ), per qualunque Θ .
L’efficienza relativa dello stimatore 1Θ rispetto allo stimatore
2Θ è definita dai
rapporti:
1
2
ˆ
ˆESM
ESM Θe
ESM Θ
1
2
ˆ
ˆEQM
EQM Θe
EQM Θ
Comunque, il problema più rilevante nella ricerca dello stimatore più efficiente non
risiede tanto nelle difficoltà analitiche di computo quanto nell’inesistenza di un tale
stimatore ottimale; infatti, non sono affatto rare le situazioni nelle quali non esiste uno
stimatore che minimizza l’ESM o l’EQM per qualunque valore di Θ . In tali
situazioni si dovrà abbandonare l’obiettivo della ricerca dell’ottimo assoluto, non
esistendo un tale ottimo, per procedere, eventualmente, alla ricerca di un sub-ottimo.
Si può, ad esempio, procedere alla ricerca di uno stimatore puntuale capace di
minimizzare l’ESM o l’EQM in una classe ristretta di stimatori (minimo vincolato)
essendo ragionevole ipotizzare l’esistenza di un ottimo in una classe ristretta; il vincolo
usualmente imposto è quello della correttezza o non distorsione dello stimatore.
Definizione 6 (Correttezza o non distorsione). Uno stimatore 1 2
ˆ ( , ,..., )n n nΘ T X X X
(di ) si dice corretto o non distorto se
E(Θ ) = .
per qualunque Θ .
Si consideri ora la relazione
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
181
22 22
22 2
ˆ
ˆˆ ˆ ˆ ˆ ˆ ˆ ˆ( ) ( ) ( ) ( ) - 0
ˆ ˆ ( ) -
EQM Θ E Θ E Θ E Θ E Θ E Θ E Θ E
Var Θ E Θ d
dove ˆd E Θ viene detta distorsione. Se 1 2
ˆ ( , ,..., )n n nΘ T X X X è uno
stimatore non distorto di si ha d 2 = 0 e quindi:
22
ˆˆ ˆ ˆ ˆ( ) ( )EQM Θ E Θ E Θ E Θ Var
cioè, se uno stimatore è corretto il suo errore quadratico medio e la sua varianza
coincidono. Pertanto, nella classe ristretta degli stimatori corretti si può affermare che lo
stimatore più efficiente nell’EQM è lo stimatore di minima varianza. Quest’ultima
conclusione provoca spesso confusione inducendo a concludere che lo stimatore più
efficiente è lo stimatore di minima varianza; si tratta, ovviamente, di una conclusione
errata perché l’affermazione vale solo nell’ambito degli stimatori corretti.
Il vincolo di correttezza in molti testi non viene introdotto con una tale connotazione,
cioè come restrizione della classe degli stimatori, ma come proprietà dello stimatore
stesso. Nella logica espositiva qui seguita, dove la “bontà” di uno stimatore è misurata
facendo riferimento alla sua variabilità campionaria, una tale interpretazione della
correttezza non può essere accolta; in altre parole la correttezza rappresenta un vincolo e
non una proprietà. Ovviamente, a parità di tutte le altre condizioni, uno stimatore
corretto è preferibile ad uno stimatore distorto.
È stato più volte sottolineata la possibilità di non esistenza dello stimatore più
efficiente, sia nell’EQM che nell’ESM, possibilità questa molto meno frequente invece
nella classe ristretta degli stimatori corretti; infatti, come si avrà modo di chiarire nelle
righe che seguono, per alcuni modelli è possibile dimostrare che, in una classe ristretta,
esiste lo stimatore più efficiente nell’EQM. In tale ottica un ruolo fondamentale è svolto
dalla disuguaglianza di Cramèr-Rao; si tratta di una disuguaglianza che individua il
valore minimo assumibile dalla varianza di uno stimatore corretto.
Teorema 3 (Limite di Cramèr-Rao); Sia X una v.c. con funzione di massa o di densità
f(x; ), dove Θ è un parametro incognito, e 1 2ˆ , ,..., nX X X è uno
stimatore corretto di , se sono soddisfatte le condizioni di regolarità:
log ; esiste per qualunque e per qualunqued
f x x d
Θ ;
1 1
; ; n n
i i i i
i i
d df x dx f x dx
d d
;
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
182
1 2
1
1 2
1
, , ;
, , ; ;
n
n i i
i
n
n i i
i
dt x x x f x dx
d
dt x x x f x dx
d
2
0 log ; per qualunque .d
E f x d
Θ
vale la relazione di disuguaglianza
2 2
1
1 1ˆ
loglogn
i
i
Var dd
nE f X;E f X ;θ dd
Dimostrazione
1 2
1
1 2
1 1
1 2
1
1 2
1 , , ;
, , ; ;
, , ;
, ,
n
n i i
i
n n
n i i i i
i i
n
n i i
i
n
d dt x x x f x dx
d d
d dt x x x f x dx f x dx
d d
dt x x x f x dx
d
t x x x
1 1
1 2
1
2
1 2
1
log ; ;
, , log ;
per la disuguaglianza Cauchy - Schwarz
, , log
n n
i i i
i i
n
n i
i
n
n i
i
d f x f x dx
d
dE t x x x f x
d
dE t x x x f x ;θ
dθ
E
22
1 2
1
2
1 2 2
1
, , log ;
da cui
1ˆ , ,
log
n
n i
i
nn
i
i
dt x x x E f x
d
E t x x x Vard
E f x ;θdθ
ma
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
183
2 2
11
2
1 ( ) 1 1
i
log ; log ;
log ; log ; log ;
per l'indipendenza delle v.c. X
n n
i i
ii
n n n
i j i
i j i i
d dE f x E f x
d d
d d dE f x f x E f x
d d d
2
1 ( ) 1
2
; ; log ;
log ;
n n
i j
i j i
d d dE f x E f x n E f x
d d d
dn E f x
d
La quantità
22
1
;log log
xfd
dEn;θXf
d
dEI
n
i
i
usualmente detta informazione di Fisher, si indica con I() e fornisce una misura
dell’informazione contenuta nel campione. Da sottolineare che l’informazione I() è la
varianza della variabile casuale che si ottiene derivando il logaritmo della funzione di
verosimiglianza; tale derivata è detta funzione score ed è espressa da:
' '
1 2
1 2
, ,..., ; ; log
, ,..., ; ;
n
n
L f x x x fdS L
d L f x x x f
'x
x
infatti
2
Var S θ E S θ I θ
poiché
1 2
1 2 1 2
1 2
1 2 1 2 ; 1 0
n
n n
n
n n
f x ,x ,...,x ;θE S θ f x ,x ,...,x ;θ dx dx dx
f x ,x ,...,x ;θ
d d df x ,x ,...,x ;θ dx dx dx f d
dθ dθ dθ
'
xx x
L’informazione di Fisher può essere quindi espressa dall’uguaglianza:
2 SEI
infatti
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
184
2
2
2
0 ; log , ,
log , , log , ,
da cui
d d d d dE S θ f d f f d
dθ dθ dθ d d
d d df f d f f d
d d d
dE S E S
d
dE S E S I
d
x x
x x
x x x x x
x x x x x x
Si noti che per definire la funzione score S() e l’informazione di Fisher I() si è
fatto riferimento all’universo dei campioni, cioè, nella funzione di verosimiglianza al
singolo punto campionario x1,x2,…,xn si è di nuovo sostituita la variabile casuale ad n
dimensioni X' = (X1,X2,…,Xn).
La conclusione cui si perviene è che la varianza di uno stimatore corretto non può
scendere sotto il reciproco dell’informazione di Fisher, quindi, se Var ( ) = 1/I() lo
stimatore è il “migliore”, cioè, il più efficiente nell’ambito degli stimatori corretti. Se
risulta, invece, Var ( ) > 1/I(), non è possibile pervenire ad alcuna conclusione nel
senso che potrebbe esistere o non esistere un altro stimatore corretto più efficiente.
Comunque, si dimostra che il limite minimo della disuguaglianza viene raggiunto, se
sono soddisfatte alcune condizioni di regolarità, se e solo se il modello probabilistico
(v.c. rappresentativa della popolazione di riferimento) dal quale il campione è stato
estratto appartiene alla famiglia esponenziale caratterizzata da un solo parametro.
L’inserimento del vincolo di correttezza riduce, in pratica, lo spazio in cui ricercare
l’ottimo la cui esistenza è garantita per le v.c. che appartengono alla famiglia
esponenziale. Lo stimatore che minimizza l’errore quadratico medio nell’ambito
ristretto delle stime corrette, rappresenta, pertanto, la strategia dominante nella classe
ristretta degli stimatori corretti.
In molte situazioni operative non esiste un’alternativa dominante, neppure nella
classe ristretta degli stimatori corretti, ed anche quando una tale possibilità sussiste a
livello teorico può risultare molto difficile o addirittura impossibile procedere alla sua
derivazione analitica. Una possibile via da seguire per la ricerca dell’ottimo è
rappresentata dall’inserimento di ulteriori vincoli: il più semplice ed immediato, che
risolve anche le difficoltà di ordine analitico, è il vincolo di linearità.
Sulle conseguenze dell’introduzione del vincolo di linearità si avrà modo di
soffermare l’attenzione nelle pagine successive
3.1.5 Proprietà asintotiche
Al crescere della dimensione del campione cresce anche l’ammontare del patrimonio
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
185
informativo a disposizione, è quindi ragionevole presumere che al crescere della
dimensione campionaria debba anche crescere la “bontà” dello stimatore.
Per ciò che concerne il comportamento di un qualunque stimatore puntuale al
crescere della dimensione del campione si riportano le due definizioni seguenti che
introducono un’ulteriore augurabile proprietà degli stimatori: la consistenza.
Definizione 7 (Consistenza in senso debole). Uno stimatore 1 2
ˆ ( , ,..., )n n nT X X X
(di ), dove n indica la dimensione campionaria, si dice consistente in
senso debole se
ˆ| | 1nn
Lim P
per qualunque Θ e per qualunque positivo piccolo a piacere.
Definizione 8 (Consistenza in senso forte). Uno stimatore 1 2
ˆ ( , ,..., )n n nT X X X (di
) si dice consistente in senso forte se
ˆlim 0
ˆlim 0
nn
nn
EQM
o anche
ESM
per qualunque Θ .
Ovviamente, la consistenza forte implica la consistenza debole; infatti, per la
disuguaglianza di Cebicev si ha
2
2
2
2
2
ˆ
ˆ | | 1
ˆma 0, quindi
ˆ
ˆ| | 1 1
n
n
nn
n
nn n
E
P
Lim E
E
Lim P Lim
3.2 - Metodi di stima puntuale
Una volta elencate le proprietà che si ritiene debbano essere soddisfatte da uno stimatore
puntuale, si dovranno valutare i metodi di stima proposti in letteratura verificando se, ed
in quali condizioni operative, producono stimatori che soddisfano tali proprietà.
In queste note verranno considerati, anche se in alcuni casi molto sommariamente, i
metodi di stima:
della minimizzazione dell'errore quadratico medio;
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
186
della massima verosimiglianza;
dei momenti;
del minimo chi-quadro (2);
della minima distanza.
3.2.1 Minimizzazione dell’errore quadratico medio
Un metodo di stima particolarmente rilevante e direttamente collegato alle proprietà
delle stime sopra elencate è quello basato sulla minimizzazione dell'errore quadratico
medio; si tratta, quindi, di un metodo che ha come obiettivo l’individuazione dello
stimatore più efficiente in assoluto.
Un inconveniente di questo metodo è rappresentato dal fatto che, come già
sottolineato più volte, per molte distribuzioni non esiste uno stimatore capace di
minimizzare l'errore quadratico medio rispetto a tutti i possibili valori di Θ , succede
cioè che per alcuni valori di l'errore quadratico medio risulta minimizzato dallo
stimatore 1 , mentre per altri valori di , al minimo si perviene attraverso una diverso
stimatore 2 . In tali situazioni, essendo una quantità incognita, il problema non
ammette soluzione, o meglio, è il metodo della minimizzazione dell'errore quadratico
medio che non fornisce la soluzione. Comunque, nelle situazioni in cui si riesce ad
individuare lo stimatore più efficiente in senso assoluto si parla di strategia dominante
ed uno degli acronimi di più largo impiego per caratterizzare tale stimatore è B(E) (Best
Estimator).
Poiché, come già sottolineato, le stime che minimizzano l'errore quadratico medio
non sempre esistono, si preferisce sovente restringere la classe delle funzioni di stima a
quelle che rispettano certe condizioni; ad es. si può, come già sottolineato, restringere la
classe alle sole stime non distorte e ricercare tra queste la stima che minimizza l'errore
quadratico medio. In questo caso, il metodo della minimizzazione dell'errore quadratico
medio si riduce al metodo della minimizzazione della varianza; ma, in tali condizioni si
deve tenere presente che l’ottimo cui si può, eventualmente, pervenire è un ottimo
vincolato (un ottimo relativo e non un ottimo assoluto).
Si consideri ora la Fig. 3.1 dove sono stati riportati i grafici relativi alle distribuzioni
campionarie di tre diversi stimatori di , due di questi, 1 e
2 , danno luogo a delle
stime di corrette, mentre il terzo, 3 , dà luogo ad una stima distorta di .
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
187
Fig. 3.1 - Grafico relativo alla distribuzione di tre diversi stimatori
Dei tre stimatori considerati 1 ,
2 e 3 il secondo
2 è senz'altro da scartare,
infatti tale stimatore pur essendo corretto presenta una variabilità nettamente superiore a
quella dell'altro stimatore corretto 1 . La scelta tra le funzioni che danno luogo agli
stimatori 1 e
3 , presenta invece qualche difficoltà; infatti, in questo caso si tratta di
confrontare due stimatori, dei quali, quello che possiede la “proprietà” della correttezza
1 mostra una maggiore variabilità rispetto a . Risulta ragionevole, nella situazione
prospettata, scegliere lo stimatore 3 ; infatti, come si può evincere dalla figura,
valendo la disuguaglianza 3 1ˆ ˆEQM EQM la probabilità di ottenere valori
prossimi a risulta più elevata per lo stimatore 3 rispetto allo stimatore
1 .
L’inserimento del vincolo di correttezza riduce, in pratica, lo spazio in cui ricercare
l’ottimo; se si riuscisse ad individuare tale ottimo, lo stimatore che minimizza l’errore
quadratico medio nell’ambito ristretto delle stime corrette, si sarebbe individuata la
strategia dominante nella classe ristretta degli stimatori corretti. Un tale stimatore viene
usualmente indicato con l’acronimo BU(E) (Best Unbiased Estimator). Nel situazione
prospettata nella Fig. 3.1 il miglior stimatore nella classe ristretta è 1 .
In molte situazioni operative non esiste un’alternativa dominante, cioè un minimo per
qualunque valore di Θ , neppure nella classe ristretta degli stimatori corretti, ed
anche quando una tale possibilità sussiste a livello teorico può risultare molto difficile o
addirittura impossibile procedere alla sua derivazione analitica, come già sottolineato, in
tali situazioni si può procedere all’inserimento di un ulteriore vincolo, il vincolo di
linearità
i
n
i
in XX,...,X,XT
1
021 .
f ( )3
f ( )1
f ( )2
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
188
Nella classe ristretta degli stimatori lineari e corretti si riesce ad individuare gli
stimatori ottimali (cioè gli stimatori più efficienti) in molte situazioni rilevanti di
ricerca, tra queste, la più significativa è quella che riguarda i modelli statistici lineari, in
particolare il così detto modello classico di regressione lineare. In tale contesto, come
si avrà modo di chiarire successivamente, il metodo di stima statistica puntuale che ne
risulta viene, usualmente, detto metodo di stima dei minimi quadrati. Per indicare lo
stimatore che minimizza l’EQM nell’ambito degli stimatori lineari e corretti si utilizza
usualmente l’acronimo BLU(E) (Best Linear Unbiased Estimator)
Il metodo di stima puntuale basato sulla minimizzazione dell’errore quadratico medio
può essere interpretato facilmente in termini decisionali. In un contesto decisionale
l’errore quadratico medio assume la veste di funzione di perdita e l’impossibilità di
individuazione dello stimatore più efficiente si risolve nella constatazione della non
esistenza di un’alternativa decisionale (azione) che risulti dominante rispetto a tutte le
altre: la migliore azione per qualunque stato di natura che, nella specifica circostanza, è
rappresentato dal valore assunto dal parametro incognito .
3.2.2 Massima verosimiglianza
Un secondo metodo di stima puntuale particolarmente rilevante è il metodo della
massima verosimiglianza.
Si ricorda che: data una variabile casuale, discreta o continua X, con funzione di
massa, o di densità di probabilità f(x;) e un campione casuale semplice di n
osservazioni su X , si è definita di verosimiglianza la funzione
1 2
1
( ) ( / ) ( ; , ,..., ) ( ; )n
n i
i
L L f x x x f x
x
Come già sottolineato, la funzione di verosimiglianza coincide, in termini formali,
con la funzione di massa o di densità di probabilità del campione: si tratta, infatti, di una
stessa espressione interpretata come funzione:
degli elementi campionari x1, x2,...,xn che variano nell'universo dei
campioni (funzione di densità o di massa di probabilità);
del parametro per un campione prefissato (funzione di verosimiglianza).
Nella prima interpretazione (a priori), si fa riferimento all’universo dei campioni e le
variabili che interessano sono, appunto, le variabili casuali campionarie X1,X2,…,Xn.
Nella seconda interpretazione (a posteriori), le variabili campionarie hanno assunto
particolari determinazioni x1,x2,…,xn e sono, pertanto, quantità costanti note; risulta,
allora, ragionevole interpretare l’espressione come funzione del parametro (o dei
parametri) che, pur essendo una costante, assume la veste di variabile essendo
incognito il suo (loro) valore.
Il metodo di stima della massima verosimiglianza consiste nello scegliere il valore
~
che massimizza la funzione L(). Se L() è una funzione differenziabile, condizione
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
189
necessaria affinché essa abbia un massimo è che dL()/d = 0 . Nella generalità dei
casi non occorre procedere ad ulteriori elaborazioni (computo delle derivate di ordine
superiore) essendo il punto di stazionarietà individuato un punto di massimo.
La derivazione della funzione di verosimiglianza L() comporta il computo del
prodotto
n
i 1
f(xi; ), operazione non immediata, per tale motivo, in genere si preferisce
massimizzare non la verosimiglianza L() ma il suo logaritmo naturale
l () = log L() =
n
i 1
log f (xi; )
detto log-verosimiglianza. Essendo il logaritmo naturale una funzione monotona, il
valore ~
che massimizza la log-verosimiglianza l() è identico a quello che massimizza
la verosimiglianza L().
Si ricorda che la derivata prima della log-verosimiglianza è stata definita come
funzione score; di conseguenza, se la log-verosimiglianza è differenziabile allora
condizione necessaria affinché la funzione abbia un massimo è che il suo score sia
nullo:
S() =
ld
d = 0.
Il valore ~
che massimizza la verosimiglianza o la log-verosimiglianza è detto stima
di massima verosimiglianza del parametro incognito . Se nella soluzione si
sostituiscono alle determinazioni (x1, ..., xn) le corrispondenti variabili casuali (X1, ...,
Xn) si ottengono gli stimatori di massima verosimiglianza.
Ovviamente se la distribuzione della variabile casuale X è caratterizzata da più
parametri 1, ..., k, per trovare il massimo occorrerà uguagliare a 0 ciascuna delle
derivate parziali rispetto ad ogni singolo parametro (lo score è quindi un vettore a k
componenti, una per ogni parametro incognito) e poi ricavare la stima dei parametri
risolvendo il sistema delle equazioni definito dalle derivate parziali uguagliate a zero.
Anche in questo caso, come per quello di un solo parametro, nella generalità dei casi al
punto di stazionarietà corrisponde il massimo della funzione.
Si riporta nelle righe seguenti la derivazione delle stime di massima verosimiglianza,
elencandone proprietà e legge di distribuzione, per campioni relativi ad alcune v.c. tra
quelle esaminate nel Cap. 1; si tratta sempre di distribuzioni che appartengono alla
famiglia esponenziale per le quali è, quindi sempre possibile individuare stimatori
sufficienti e, a ragione della disuguaglianza di Cramèr-Rao, ottimali nell’ambito degli
stimatori corretti.
V.C. di Bernoulli
La log-verosimiglianza della v.c. di Bernoulli è data da
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
190
l(p) =
n
i 1
log f(xi ; p) =
n
i 1
log ( ii xxqp1 ) = log p
n
i 1
xi + log (1-p) (n –
n
i 1
xi).
derivando l(p) rispetto a p per ottenere lo score ed uguagliando a 0 si ha
S(p) = p
1
n
i 1
xi – q
1 (n –
n
i 1
xi) = 0.
risolvendo l’equazione rispetto a p si ricava la stima di massima verosimiglianza di p
p~ = n
1
n
i 1
xi = x .
Lo stimatore di massima verosimiglianza di p è quindi la media campionaria
P = X = n
1
n
i 1
Xi,
Poiché ciascuna Xi è una v.c. di Bernoulli ne consegue che
n
i 1
Xi è la somma degli
1, nel campione (somma dei successi nelle n prove), e X =n
1
n
i 1
Xi è la proporzione
dei successi. L’immediata conclusione cui si perviene, ricordando quanto esposto nel
Cap.1, è che lo stimatore
n
i
iX1
ha distribuzione binomiale con parametri n e p, mentre
la media campionaria X è una binomiale relativa; questa distribuzione per n
sufficientemente grande può essere approssimata con la distribuzione Normale avente la
stessa media (p) e la stessa varianza (p q/n).
La statistica
n
i 1
Xi , e qualsiasi altra trasformazione biunivoca della stessa, è una
statistica sufficiente per p, quindi P = X è uno stimatore sufficiente, essendo funzione
di tale statistica sufficiente, e corretto di p, inoltre, il suo EQM coincide con la varianza
e raggiunge il limite di Cramér-Rao; infatti:
1 1
2 22 21 1
1
1 1
n n
i i
i i
n n
i i
i i
d d 1I p E S p E X n X
dp dp p 1- p
n 1 pnp nq np nE X n X
p p pq pq1 p 1 p
da cui
1 p q
I p n
che è pari alla varianza di X ; pertanto, lo stimatore di massima verosimiglianza P X
è in assoluto lo stimatore migliore di p nella classe degli stimatori corretti.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
191
Infine, P X è consistente in senso forte, dato che:
0n nn n n
p qLim EQM X Lim Var X Lim
n
Poiché la consistenza forte implica quella debole, X è anche consistente in senso
debole.
V.C. di Poisson
La log-verosimiglianza della v.c. di Poisson è data da
l() =
n
i 1
log f(xi; ) =
n
i 1
log ix
i
e
x !
= log
n
i 1
xi – n –
n
i 1
log xi!
derivando rispetto a per ottenere lo score ed uguagliando a 0 si ha
S() =
1
n
i 1
xi – n = 0 ~
= n
1
n
i 1
xi = x .
La distribuzione campionaria della v.c.
n
i
iX1
, per la proprietà additiva della v.c. di
Poisson, è ancora una v.c. di Poisson con parametro n che coincide con la media e la
varianza della v.c. stessa; mentre la distribuzione campionaria di = X1 è una v.c. di
Poisson relativa di media e varianza /n. Tale distribuzione per n sufficientemente
grande può essere approssimata con la distribuzione normale avente la stessa media ()
e la stessa varianza (/n) della Poisson relativa.
La statistica
n
i 1
Xi (e qualsiasi altra trasformazione biunivoca della stessa) è una
statistica sufficiente per , quindi = X è uno stimatore sufficiente, essendo funzione
di tale statistica sufficiente, e corretto di , quindi, il suo EQM coincide con la varianza
e raggiunge il limite di Cramér-Rao; infatti:
nXE
nXd
dES
d
dEI
n
i
i
n
i
i
1
2
1
/
1
da cui
1 Si segnala che l’utilizzo della simbologia che prevede le maiuscole per indicare le variabili casuali e le minuscole
per indicare le determinazioni assunte dalle stesse non viene sempre rispettato quando manca il corrispondente
simbolo maiuscolo per specifici caratteri minuscoli, ad esempio si utilizza lo stesso simbolo per indicare sia la
stima che lo stimatore di , per indicare sia la stima che lo stimatore di , 2 per indicare sia la stima che lo
stimatore di 2 .
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
192
npI
1
che è uguale alla varianza di X ; pertanto, lo stimatore di massima verosimiglianza
X è in assoluto lo stimatore migliore di nella classe degli stimatori corretti.
Inoltre, X è consistente in senso forte, dato che:
0n nn n nLim EQM X Lim Var X Lim
n
.
Poiché la consistenza forte implica quella debole, X è anche consistente in senso
debole per .
V.C. Normale
La log-verosimiglianza della v.c. Normale è data da:
n
i
i
xn
i
n
i
i
xnn
exfli
1
2
2
2
2
1
12
1
22
2
1 log
22log
2
2
1log,; log,
2
2
Poiché la log-verosimiglianza dipende da 2 parametri è possibile distinguere quattro
diverse situazioni di stima:
di ;
di notocon 2 ;
di incognitocon 2 ;
simultanea di 2 e .
Stima di
Per quanto concerne la stima di non è stata specificata l’eventuale conoscenza del
parametro 2 in quanto non influente; infatti, se si considera la funzione score, che si
ottiene come più volte specificato derivando ed eguagliando a 0 la log-verosimiglianza
rispetto al parametro d’interesse si ha:
S() = –22
1
n
i 1
2(xi – )(–1) = 2
1
(
n
i 1
xi – n) = 0 ~ = n
1
n
i 1
xi = x .
pertanto lo stimatore di massima verosimiglianza di è la media campionaria
= X = n
1
n
i 1
Xi.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
193
Come si è già avuto modo di verificare X , si distribuisce normalmente con
media e varianza 2/n. X , è uno stimatore sufficiente, perché basato sulla statistica
sufficiente
n
i
iX1
, corretto ed il più efficiente nella classe degli stimatori corretti di
infatti se si considera il limite della disuguaglianza di .Cramér-Rao
I() = –E
d
dS = –E(
2
1
(– n)) = n/2
,
si ha
1/I() = 2/n
che è uguale alla varianza di X .
Inoltre X è consistente in senso forte per ; poiché la consistenza forte implica
quella debole, X è anche consistente in senso debole per .
Stima di 2 con nota
La funzione score è data da
S(2) = –
22
n+
42
1
n
i 1
(xi – )2 = 0 2~ =
n
1
n
i 1
(xi – )2 = 2
**s .
Questo significa che lo stimatore di massima verosimiglianza di 2 è
2~ = 2**S =
n
1
n
i 1
(Xi – )2,
detta varianza campionaria con nota.
Come già visto nel Cap. 2 la distribuzione campionaria di
n
i
iXnSn
1
2
2
2
**
2
2~
è di tipo Chi-quadrato con n gradi di libertà 2
n la cui media e varianza sono
rispettivamente pari ad n e a 2n, cioè
E
2
2**
nS= n Var
2
2**
nS = 2n,
da cui deriva:
2~E =E( 2**S ) = 2
Var(2~ ) =Var( 2
**S ) = 24/n.
Pertanto la varianza campionaria 2~ = 2**S è uno stimatore corretto e sufficiente
di 2 perché basato sulla statistica sufficiente
n
i
iX1
2 ed il più efficiente
nell’ambito degli stimatori corretti come si verifica facilmente attraverso il computo
del limite fissato dalla disuguaglianza Cramér-Rao.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
194
I(2) = –E
2
2
d
dS = –E(
42
n–
62
1
n
i 1
(xi – )2) = –
42
n+
4
n =
42
n
da cui
1/I(2) = 24
/n
che è uguale alla varianza di 2~ .
Inoltre, 2~ = 2**S è consistente in senso forte per 2
, dato che
4
2 2 20n n
n n nLim EQM LimVar Lim
n
.
Poiché la consistenza forte implica quella debole, 2~ = 2**S è anche consistente in
senso debole per 2.
Stima congiunta di e2
Nel caso in cui si voglia stimare la varianza, ma non è noto il valore assunto da , non
si può procedere come indicato al punto precedente poiché nell’espressione 2~ = 2**S =
n
1
n
i 1
(Xi – )2 è presente che non è noto e che non interessa ai fini della stima di 2
.
Il parametro incognito , che non è di interesse ai fini della stima di 2, viene detto
parametro di disturbo; disturbo che può essere facilmente eliminato procedendo ad una
sua stima che pur non interessando direttamente è strumentale all’obiettivo che si vuol
perseguire che è, appunto, quello della stima di 2 . Piuttosto che trattare questo
problema, facilmente risolvibile se si considera quanto detto ai due punti precedenti, si
procede alla risoluzione del problema della stima congiunta di entrambi i parametri e
2 .
Se entrambi i parametri e 2 sono incogniti, le funzioni score eguagliate a zero per i
due parametri sono quelle considerate in precedenza:
s() = 2
1
(
n
i 1
xi – n) = 0,
s(2) = –
22
n+
42
1
n
i 1
(xi – )2 = 0.
risolvendo il sistema rispetto ai due parametri incogniti si ottengono le stime:
~ = x =n
1
n
i 1
xi 2~ =
n
1
n
i 1
(xi – x )2 = 2
*s .
Gli stimatori di massima verosimiglianza di è di 2 sono quindi
~ = X =n
1
n
i 1
Xi 2~ = 2
*S = n
1
n
i 1
(Xi – X )2,
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
195
cioè, la media campionaria e la varianza campionaria.
Le statistiche
n
i 1
Xi e
n
i 1
2iX (e qualsiasi altra trasformazione biunivoca di tale
coppia) sono congiuntamente sufficienti per e 2 (per verificare tale risultato basta
svolgere il quadrato nel termine
n
i 1
(xi – )2 e operare le relative somme). Di
conseguenza ~ = X e 2~ = 2*S sono stimatori congiuntamente sufficienti, essendo
funzione di statistiche congiuntamente sufficienti.
Per quanto detto nel Cap. 2, risulta che: a) le due v.c. X e 2*S sono fra loro
indipendenti; b) X è una stima corretta di mentre 2*S è una stima distorta di 2 ;
inoltre, la v.c.
2
2*
nS =
n
i 1
2
XX i
ha distribuzione del tipo chi-quadro con n-1 gradi di libertà 2
1n .
Per le proprietà della v.c. Chi-quadrato
E2
*
2
n S
= n – 1 Var 2
*
2
n S
= 2(n – 1)
da cui
E( 2*S ) =
21n
n
Var ( 2
*S ) = 2 4
2
1n
n
.
Essendo 2*S uno stimatore distorto di 2 , il teorema di Cramér-Rao non si applica
perché viene a cadere una delle ipotesi fondamentali dello stesso. Comunque, poiché
EQM( 2*S ) =
4 (2n – 1)/n2 tende a 0 per n → ∞, 2
*S è uno stimatore consistente in
senso forte. Dato poi che la consistenza forte implica quella debole, 2*S è anche
consistente in senso debole per 2. Inoltre, per quanto esposto nel capitolo precedente, è
invece stimatore corretto di 2 la varianza campionaria corretta
S2 =
1
1
n
n
i 1
(Xi – X ).
Poiché la v.c.
2
2
1 n S
=
2
2
*
Sn =
n
i 1
2
XX i
ha distribuzione di tipo chi-quadro con n-1 gradi di libertà con media e varianza
E
2
2 1
Sn= n – 1 Var
2
2 1
Sn = 2 (n – 1),
ne risulta
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
196
E(S2) = 2
Var (S2) = 24
/(n – 1).
Lo stimatore (non di massima verosimiglianza) S2 è, quindi, uno stimatore corretto e
sufficiente di 2 ma non raggiunge il limite di Cramér-Rao sopra individuato 1/I(2
) =
24/n che è inferiore alla varianza dello stimatore S
2 che è pari a 24
/(n-1). La
differenza rispetto al limite di Cramér-Rao è, comunque, esigua e diminuisce
rapidamente al crescere di n. Infine, risulta facile verificare che S2 è uno stimatore
consistente in senso forte, e, quindi, anche in senso debole, di 2.
V.C. Gamma
La log-verosimiglianza della v.c. Gamma con parametri e è data da
l(, ) =
n
i 1
log f(xi; , ) =
n
i 1
log
11ix
ix e
che, dopo alcune semplificazioni, diviene
1 1
1, log log 1 log
n n
i i
i i
l n n x x
Per ricavare le stime di massima verosimiglianza di e occorre derivare rispetto ad
entrambe le variabili, ottenendo le due componenti del vettore score, ed uguagliarle a 0.
s() = – n log – n
' +
n
i 1
log xi = 0,
s() = –
n+
2
1
n
i 1
xi = 0.
Dalla seconda relazione si ricava in funzione di , tuttavia, sostituendo tale
risultato nella prima equazione, la funzione gamma ivi coinvolta non consente la
derivazione analitica di , il che significa che non si possono derivare analiticamente le
stime di massima verosimiglianza ~ e ~
anche se, osservando la formula della log-
verosimiglianza si conclude che le statistiche
n
i 1
log xi e
n
i 1
xi (e qualsiasi altra
trasformazione biunivoca di tale coppia) sono congiuntamente sufficienti per e . Di
conseguenza, anche se non si riesce a ricavare l’espressione analitica di ~ e ~
, tali
stimatori esistono e sono stimatori congiuntamente sufficienti.
Questa situazione, apparentemente anomala, si incontra in realtà nella generalità dei
casi; infatti, solo pochi modelli statistici, fra i quali quelli visti in precedenza,
consentono di esplicitare analiticamente la formula degli stimatori, di ricavarne l’esatta
distribuzione campionaria e di derivare il valore degli indici caratteristici quali media,
varianza e EQM.
Quando non è possibile derivare l’espressione analitica degli stimatori di massima
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
197
verosimiglianza si procede, usualmente, alla massimizzazione della verosimiglianza
tramite algoritmi iterativi, implementati su calcolatore, che trovano valore in
corrispondenza del massimo per approssimazioni successive iniziando da un punto di
partenza (starting point).
3.2.3 Proprietà degli stimatori di massima verosimiglianza
Da quanto visto ai punti precedenti, gli stimatori di massima verosimiglianza cui si è
pervenuti godono di buone proprietà. Ci si deve ora domandare se in tutte le situazioni
(per tutti i modelli) è possibile pervenire agli stessi risultati, la risposta non è
affermativa: le proprietà degli stimatori di massima verosimiglianza, per campioni di
dimensione finita, vanno valutate caso per caso, anche se, generalmente, tali stimatori
godono di buone proprietà che vengono di seguito richiamate.
Invarianza - Si dimostra che se è lo stimatore di massima
verosimiglianza di allora g( ) è lo stimatore di massima
verosimiglianza di g(). In altri termini per stimare tramite massima
verosimiglianza una qualche trasformazione di un parametro già stimato
basta prendere la stima precedente e trasformare questa allo stesso modo.
Ad esempio: nel modello normale la stima di massima verosimiglianza di
è la radice quadrata di 2~ ; oppure nel modello di Poisson la stima di
massima verosimiglianza di 1/ è 1/~
.
Sufficienza - Se esistono delle statistiche sufficienti allora gli stimatori di
massima verosimiglianza sono funzione di questi e pertanto sono stimatori
sufficienti. Questa proprietà è una conseguenza del criterio di
fattorizzazione; infatti se esistono stimatori sufficienti allora la log-
verosimiglianza è la somma di due componenti, una dipende solo dal
parametro e dalle statistiche sufficienti, l’altra solo dal campione
Efficienza “per campioni finiti” - Si dimostra che se esiste uno stimatore
corretto la cui varianza è pari al limite di Cramér-Rao, allora il metodo
della massima verosimiglianza individua “automaticamente” tale
stimatore.
Efficienza asintotica - Si dimostra che sotto condizioni molto generali di
regolarità, lo stimatore di massima verosimiglianza è asintoticamente
(cioè per n → ∞) efficiente, cioè:
- è asintoticamente corretto n
lim E( n ) = ;
- la sua varianza tende al limite di Cramér-Rao che a sua volta tende a 0
nlim Var ( n ) = dove I ; indica l’informazione di Fisher;
- poiché di norma tende a 0 per n → ∞ ne deriva come conseguenza
la consistenza in senso forte e quindi anche in senso debole.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
198
Normalità asintotica - Si dimostra che
lim 0,1nn
n I N
pertanto, per n sufficientemente elevato n ha distribuzione
approssimativamente normale con media il vero valore di e varianza
pari al limite inferiore di Cramér-Rao, in simboli
n ≈ N[, 1/I()].
Per caratterizzare le ultime due proprietà asintotiche è stato introdotto l’acronimo
BAN(E) (Best Asymptotically Normal Estimator) o anche CAN(E) (Consistent
Asymptotically Normal Estimator).
3.2.4 Altri metodi di stima
Oltre al metodo di stima della minimizzazione dell’EQM e della massima
verosimiglianza, molti altri metodi di stima sono stati proposti in letteratura: il metodo
dei momenti, il metodo della minima distanza, il metodo del minimo 2 ecc. In seguito
si parlerà diffusamente del solo metodo dei minimi quadrati (minimizzazione
dell’EQM nella classe ristretta degli stimatori lineari e corretti), nei punti seguenti si
procederà, invece, ad una sintetica illustrazione degli altri metodi richiamati.
Metodo dei momenti
Se con ][ rr XE si indica il momento r-esimo di una v.c. X, la cui funzione di densità
o di massa di probabilità ;f x e 1 2, ,...., k , nella generalità dei casi
][ rr XE è funzione nota dei k parametri 1,...,r r k
. Dato che il
corrispondente momento campionario risulta essere rr X
nM
1, si impongono le k
relazioni di uguaglianza (momenti empirici = momenti teorici)
krrM ,...,1 con r = 1,…, k
ne risulta, quindi, un sistema di k equazioni in k incognite che risolto (quando
possibile) fornisce la stima dei momenti k ˆ,...,ˆ
1 dei k parametri incogniti
1 2, ,...., k '.
Esempio 3.1
Sia nXX ,...,1 un campione casuale da una distribuzione con media μ e varianza σ2. Siano
2
21 ,, . Stimando i parametri con il metodo dei momenti le equazioni cui si perviene
sono:
222
22
2
11
,
,
M
M
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
199
e la soluzione è:
2
2
1
ˆ
1ˆ
n
i
i
x
x xn
Esempio 3.2
Sia nXX ,...,1 un campione casuale da una distribuzione di Poisson con parametro λ. Poiché un
solo parametro caratterizza la distribuzione, allora il metodo dei momenti suggerisce
banalmente la seguente soluzione:
ˆ x
Il metodo dei momenti, seppur ragionevole, non è in generale un buon metodo per la
derivazione degli stimatori; infatti, nei casi in cui applicando il metodo dei momenti si
ottengono stimatori con buone proprietà, allo stesso risultato si può usualmente pervenire
attraverso l’impiego di un diverso metodo di stima. Al riguardo, si deve comunque segnalare
che, in talune situazioni, è l’unico metodo applicabile.
Metodo del minimo chi-quadro
Sia nXX ,...,1 un campione casuale estratto da una densità ( ; )f x , e sia
kSS ,...,1 una
partizione del campo di variazione di X. La probabilità )(jp che un’osservazione
appartenga all’intervallo jS della partizione è data da ( ) ( ; )
jj
Sp f x dx . Si indichino
con Nj il numero di Xi che cadono nell’intervallo jS (ovviamente con
1
k
j
j
n N
), e si
costruisca la sommatoria
k
j j
jj
pn
pnn
1
2
2
)(
)]([
dove nj è il valore osservato di Nj. Il numeratore dei termini della sommatoria altro non
è che il quadrato dello scarto tra il numero osservato e quello atteso di determinazioni
che cadono nell’intervallo Sj. La stima del minimo chi-quadro di θ è il valore che
minimizza 2 . È, cioè, quel valore di che, mediamente, rende il numero atteso di
osservazioni nell’intervallo jS “più vicino possibile ” al numero realmente osservato.
Il metodo risente, ovviamente, dell’arbitrarietà della partizione ,...,1 kS S adottata.
Esempio 3.3
Sia nXX ,...,1 un campione casuale da una distribuzione di Bernoulli di parametro p.
Poiché il campo di variazione di X consiste unicamente nei due valori 0 e 1 allora,
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
200
)1(
1] [] [
)1(
)]1([
][
)1(
)]1([][
2
1
2
1
2
1
2
1
2
01
0
2
2
ppn
pnn
np
pnn
pn
pnnn
np
npn
pn
pnn
ppn
ppnn
j j
jj
Dato che 02 , in questo caso si può individuare il minimo in modo diretto osservando che
02 se nnp 1ˆ . Si osservi che in questo esempio la partizione
kSS ,...,1 poteva essere scelta
in un unico modo, e che lo stimatore trovato è lo stesso di quello che si sarebbe ottenuto col
metodo dei momenti o con quello della massima verosimiglianza.
Poiché può risultare difficile individuare il punto di minimo di 2 , si preferisce talvolta
sostituire il denominatore jn p p direttamente con il valore osservato jn , ottenendo il
cosiddetto chi-quadro modificato. La stima del minimo chi-quadro modificato è allora
quel che minimizza il 2 modificato.
Metodo della minima distanza
Sia 1 2, ,..., nX X X un campione casuale estratto dalla distribuzione ( ; )F x , e sia d(F,G)
una funzione che misura la distanza che intercorre tra due funzioni di ripartizione
(distribuzione) F e G (ad esempio, ( , ) sup ( ) ( )x
d F G F x G x misura la massima distanza
verticale tra F e G).
La stima di minima distanza di θ è quel valore tra tutti i possibili in che minimizza
))(),(( xFxFd n dove )(xFn
è la funzione di ripartizione campionaria o empirica. Lo
stimatore di minima distanza è intuitivamente attraente ma è spesso di difficile
derivazione essendo problematico minimizzare ( , ) ( ) ( )n nx
d F F sup F x F x .
Esempio 3.4
Sia nXX ,...,1 un campione casuale da una distribuzione di Bernoulli di parametro p. Allora,
)()()1();( ),1[)1,0[ xIxIppxF
Sia nj = numero di osservazioni uguali a j (j = 0,1). Allora
)()();( ),1[)1,0[
0 xIxIn
npxFn
Se si usa la funzione di misura della distanza ( , ) ( ) ( )x
d F G sup F x G x
( ( ), ( ))nd F x F x risulta minimizzata per n
np 0ˆ1 , cioè
n
np 1ˆ .
3.3 – Stima di intervallo (intervalli di confidenza)
Nelle pagine precedenti è stato considerato il problema della scelta del “migliore”
stimatore puntuale di uno o più parametri incogniti , sulla scorta di un campione di
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
201
osservazioni. E' stato detto che se il metodo di stima adottato possiede, nell'universo dei
campioni, determinate proprietà, si può presumere che il valore effettivo ottenuto sia
“abbastanza prossimo” al valore incognito che si vuol stimare. Comunque un singolo
numero non dà nessuna indicazione sulle probabilità che la stima ottenuta assuma un
valore prossimo al vero valore del parametro incognito. Con il metodo di stima di
intervallo si supera questo inconveniente, infatti, la sua applicazione fornisce
informazioni sia sul valore numerico del parametro incognito che sul grado di
attendibilità (intesa in senso probabilistico) della stima stessa.
La procedura della stima mediante intervalli (di confidenza) consiste nella
determinazione, sulla scorta delle informazioni campionarie, di due statistiche 1L
(limite inferiore) e 2L (limite superiore) in modo da soddisfare la relazione
11 2P L L per 0 < < 1
dove L1 = T1(X1,X2,…,Xn) e L2 = T2(X1,X2,…,Xn) (L1 < L2) sono, nell'universo dei
campioni, variabili casuali in quanto funzioni degli n elementi campionari, e (1-)
(usualmente pari a 0,95, 0,99 e 0,999) è il così detto livello di confidenza. Un livello di
confidenza ad es. pari a 0,95 sta ad indicare che su 100 campioni 95 generano intervalli
che includono il vero valore del parametro incognito.
Evidentemente nelle situazioni reali si disporrà di un solo campione, e quindi di una
sola determinazione 21 l,l , dell'intervallo casuale di confidenza 21 L,L , che potrà
essere uno dei 95 sui 100 includenti o uno dei 5 su 100 che non lo includono.
Pertanto, relativamente all’intervallo 21 l,l non si potrà dire che lo stesso ha probabilità
1- di contenere al suo interno il vero valore del parametro incognito , o lo contiene,
allora la probabilità è pari ad 1, o non lo contiene, allora la probabilità è 0; da tale
constatazione deriva anche la dizione, per 1- , di livello di confidenza e non di livello
di probabilità.
Ogni intervallo di stima risulta, quindi, caratterizzato da due elementi essenziali:
1. l’affidabilità o attendibilità, misurata dal livello di confidenza;
2. l’informatività, misurata dall’ampiezza dell’intervallo.
Ovviamente, l’obiettivo da perseguire è quello dell’individuazione di intervalli molto
affidabili ma di ampiezza modesta. Purtroppo, livello di confidenza e ampiezza
dell'intervallo sono in relazione diretta; cioè, all'aumentare dell'attendibilità della stima
(di intervallo) aumenta anche la sua ampiezza e, quindi, diminuisce la sua capacità
informativa. Non sarà quindi possibile, nella determinazione di un intervallo di stima,
perseguire il duplice obiettivo di massimizzazione del livello di confidenza e di
minimizzazione dell’ampiezza dell’intervallo. Un modo per ridurre l'ampiezza degli
intervalli, a parità di livello di confidenza (o aumentare il livello di confidenza a parità
di ampiezza degli intervalli) è naturalmente quello di aumentare la dimensione del
campione.
L’ultima considerazione svolta suggerisce una possibile via operativa per il
perseguimento simultaneo del duplice obiettivo: si fissano a priori, sia il livello di
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
202
confidenza sia l’ampiezza massima dell’intervallo, per poi procedere alla
determinazione della dimensione campionaria necessaria e che consente il
perseguimento del duplice obiettivo. Comunque, la procedura usualmente seguita è
quella basata sulla fissazione del livello di confidenza 1- con la conseguente
individuazione dell’intervallo di ampiezza minima (intervallo ottimale).
Verranno considerati ora alcuni problemi specifici di determinazione degli intervalli
di confidenza. Si segnala in proposito che la procedura seguita è quella basata
sull’elemento pivotale, dove per elemento pivotale s’intende una qualunque funzione
degli elementi campionari e del parametro incognito di interesse la cui distribuzione
campionaria è completamente nota, ed essendo completamente nota non può dipendere
da il cui valore è incognito; in altre parole, l’elemento pivotale dipende da ma non
dipende da la sua distribuzione. Quanto affermato può essere espresso dalla
definizione che segue.
Definizione 9 (Elemento pivotale): Sia X una v.c. con funzione di massa o di densità
f(x; ), dove Θ , e sia X = (X1, …, Xn) un campione casuale semplice
bernoulliano estratto da X. Allora un pivot (o cardine) è una quantità
Q( X ; ) che possiede le seguenti caratteristiche:
1. è funzione del campione , ,...,1 2 nX X XX' =
2. è funzione di (il parametro di cui si vuol trovare l’intervallo di confidenza);
3. non contiene altri parametri incogniti oltre a ;
4. la sua distribuzione è completamente nota;
5. è invertibile rispetto a .
La procedura per la determinazione di un intervallo di confidenza attraverso il
metodo dell’elemento pivotale si articola nei passi sotto riportati:
1. si individua un pivot Q( X ; ) per il problema in analisi; nella generalità dei casi,
la via più facile per individuare l’elemento pivotale è quella che prende avvio da
uno stimatore puntuale , se possibile ottimale, del parametro incognito
rispetto al quale si vuol determinare l’intervallo di confidenza;
2. si fissa il livello di confidenza 1–;
3. si determina l’intervallo di ampiezza minima (il più informativo) [c1, c2]
all’interno del quale il pivot è compreso con probabilità pari al livello di
confidenza scelto, cioè P[c1 Q ( X ; ) c2] = 1–;
4. si inverte la relazione c1 Q( X ; ) c2 rispetto a in modo da ricavare
l’intervallo di confidenza cercato per , che quindi soddisferà
P[L1( X ) L2( X )] = 1–.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
203
3.3.1 Intervallo di confidenza per la media di una variabile casuale normale con
varianza nota.
Sia x1, x2,...,xn, una specifica determinazione di un campione casuale
1 2, , nX X ... , X'
X estratto da una popolazione distribuita normalmente con media
µ incognita e varianza 2σ nota; si voglia determinare un intervallo di confidenza per la
media µ.
La variabile media campionaria
n
1i
iXn
1X
ha, nell'universo dei campioni, distribuzione normale con media µ e varianza /nσ 2 . La
variabile standardizzata della X
-
~ 0,1 /
XZ N
n
è elemento pivotale in quanto funzione degli elementi campionari, del parametro
incognito ed ha una distribuzione normale , completamente nota, di media 0 e
varianza pari ad 1; si potranno, allora, sulla scorta delle tavole della distribuzione
normale standardizzata, determinare due valori c1 e c2 tali che
P (c1 Z c2) = 1-
si scelgono per c1 e c2 valori simmetrici, cioè c2 = - c1 = c = 2αz , comportando questi
valori l’individuazione dell’intervallo di ampiezza minima a ragione della simmetria e
dell’accentramento dei valori intorno alla media della distribuzione normale. Per tali
motivi, l’intervallo ottenuto è quello più informativo.
In tal caso, per quanto detto in precedenza, se si scegliesse ad esempio, = 0,05 si
avrebbe c1= - 2z = -1,96 e c2 = 2z = 1,96. L'uguaglianza sopra scritta è
perfettamente equivalente alla relazione
2 2- / / 1-P X z n X z n
Per = 0,05 si avrebbe quindi l'intervallo di confidenza
-1,96 / 1,96 / 0,95P X n X n
Esempio 3.5
Il peso medio alla nascita relativo ad un campione di 200 animali è risultato pari a 0,824
grammi. Sapendo che lo scostamento quadratico medio della variabile (approssimativamente
normale) peso alla nascita è gr. 0,042, si vogliono determinare gli intervalli di confidenza (ai
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
204
livelli del 95% e del 99%) per l'indice caratteristico µ (peso medio).
Applicando la formula sopra riportata si ha
1,96 0,042 / 200 1,96 0,042 / 200 0,95P X X
e quindi l'intervallo
0,8298 μ 0,8182
Per = 0,01 si ha
- 2,58 0,042 / 200 2,58 0,042 / 200 0,99P X X
e quindi l'intervallo
0,8153 µ 0,8317
Si noti come all'aumentare del livello di confidenza sia cresciuta, di conseguenza, l'ampiezza
dell'intervallo, e come questa diminuirebbe (a parità di livello di confidenza) se si aumentasse
la numerosità del campione.
3.3.2 Intervallo di confidenza per la media di una variabile casuale normale con
varianza incognita.
Se ci si trova nella situazione espressa nel punto precedente, supponendo però incognita
la varianza, l'intervallo di confidenza sopra individuato non potrà più essere utilizzato;
infatti, nei due limiti, inferiore e superiore, dell'intervallo compare lo scostamento
quadratico medio incognito della popolazione (parametro di disturbo). Il problema
della determinazione dell'intervallo di confidenza può essere risolto sostituendo, allo
scostamento quadratico medio incognito una sua stima campionaria.
Se si stima mediante la formula
2
1
1
1
n
i
i
S X Xn
la variabile casuale
1
- ~
/ n
X μV t
S n
ha una distribuzione del tipo t di Student con n - 1 gradi di libertà. Infatti, per quanto
detto nelle pagine precedenti, tale variabile resta definita dal rapporto tra la variabile
casuale normale standardizzata n / σ
μ - X Z e la radice della variabile casuale 2
divisa per i rispettivi gradi di libertà
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
205
n2
2 2i
i 1
2 2 2
X X1
Y / (n 1) / (n 1)σ σ σ
n S S
.
La variabile V sopra definita è elemento pivotale in quanto funzione degli elementi
campionari, del parametro incognito ed ha distribuzione campionaria completamente
nota.
Mediante l'uso delle tavole si potranno allora determinare due valori c1 e c2 tali che
P (c1 V c2) = 1 -
Se si sceglie un intervallo simmetrico, cioè c2 = - c1 = c = 2αt , comportando questi
valori l’individuazione dell’intervallo di ampiezza minima a ragione della simmetria e
dell’accentramento dei valori intorno alla media della distribuzione t di Student,
seguendo lo schema di ragionamento adottato sopra, si ha
2 2P - / μ / 1-X t S n X t S n
dove, naturalmente, il valore numerico di c dovrà essere individuato sulle tavole della
distribuzione t in corrispondenza del prefissato livello di confidenza 1- e degli n -1
gradi di libertà.
Esempio 3.6
Avendo somministrato ad un campione casuale di 12 cavie una particolare dieta, dalla nascita
fino all'età di tre mesi, ed avendo riscontrato i seguenti incrementi nel peso: 55, 62, 54, 57, 65,
64, 60, 63, 58, 67, 63 e 61 grammi; si vuol determinare un intervallo di confidenza, al livello
del 95%, relativamente all'incremento medio di peso.
Attribuendo al caso le differenze riscontrate negli aumenti di peso, si potrà presumere normale
la popolazione teorica di tutte le cavie sottoponibili a quella particolare dieta. In questo caso
l'intervallo simmetrico di confidenza può essere derivato dall'uguaglianza.
/2 /2P - / / 1-X t S n X t S n
dove, rispetto alla formula sopra definita, è stato sostituito al simbolo c il simbolo 2α/t per
indicare che si sta trattando di un intervallo simmetrico il cui livello di confidenza è pari a 1 -
e che la distribuzione campionaria di riferimento è la t di Student.
Sulle tavole della distribuzione t , in corrispondenza di 12 - 1 = 11 gradi di libertà e per =
0,05 si trova /2 0,025t t 2,20 ( dove 2,20 è il valore che soddisfa la relazione P(t 2,20) =
F (2,20) = 0,975) si avrà allora
/2 /2P - / 12 / 12 1-X t S X t S
Poiché la stima della media e della varianza corretta dell'incremento medio di peso riscontrato
nelle dodici cavie sono rispettivamente pari a 60,75 e 16,38 risulta l'intervallo di confidenza
60,75 - 2,20 16,38 12 60,75 2,20 16,38 12
cioè
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
206
58,17 µ 63,32.
3.3.3 Intervallo di confidenza per la varianza di una variabile casuale normale con
media incognita
Se si vuol procedere alla determinazione di un intervallo di confidenza per la varianza di
una variabile casuale normale con media incognita si consideri la variabile casuale
2
1
2
12
2
~1
n
n
i
i
σ
XX
σ
)S(nV
che ha nell’universo dei campioni distribuzione del tipo 2 con n-1 gradi di libertà. Si
tratta, quindi, di elemento pivotale essendo completamente nota la sua distribuzione e
dipendendo solo dai valori campionari e dal parametro incognito di interesse 2.
Pertanto, utilizzando i valori riportati nelle tavole della distribuzione 2 si potranno
determinare due valori c1 e c2 per i quali è soddisfatta la relazione
α1cV cP 21 .
Anche se l’intervallo che ne risulta non è di lunghezza minima, essendo la
distribuzione 2 non simmetrica, c1 e c2 vengono scelti usualmente in modo simmetrico
2
2/2
2
2/11 , cc
dove i simboli 2/2/1 e αα χχ stanno ad indicare i valori della variabile casuale 2
che hanno, rispettivamente, l’/2% dei casi a sinistra e l’/2% dei casi a destra.
L’intervallo sopra scritto diventa
22 2
1 α/2 α/22
(n 1)SP χ χ 1 α
σ
che è perfettamente equivalente all’intervallo
αχ
)S(n σ
χ
)S(nP
α/α/
111
2
21
22
2
2
2
3.3.4 Intervallo di confidenza per la media di una variabile casuale con legge di
distribuzione arbitraria.
I metodi per la derivazione degli intervalli di confidenza illustrati, si riferiscono a
campioni estratti da popolazioni aventi distribuzione normale; ragionamento analogo
può essere fatto nel caso della distribuzione bernoulliana, della distribuzione di Poisson,
ecc.
Sembra naturale però chiedersi come determinare gli intervalli di confidenza relativi
a parametri caratteristici di interesse quando non è nota la forma della distribuzione
della popolazione cui si riferisce il campione di osservazioni disponibile. Se esistono le
condizioni richieste dal teorema del limite centrale, nel caso in cui il parametro
d'interesse è la media, la risposta è immediata; infatti, in tale situazione, la media
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
207
campionaria avrà una distribuzione approssimativamente normale, potrà allora essere
applicata la metodologia esposta nelle pagine precedenti.
Ad esempio, se con X si indica il numero di successi osservabili in corrispondenza di
un esperimento casuale replicato n volte, la variabile casuale X ha distribuzione
binomiale, si potrebbe, pertanto, procedere alla determinazione degli intervalli di
confidenza facendo, eventualmente, ricorso alle tavole della distribuzione binomiale,
ma, come già segnalato nelle pagine precedenti, la variabile
)1,0Nnpq
npXZ
per n abbastanza grande, dove naturalmente p è la misura delle probabilità di
successo, ha una distribuzione approssimativamente normale con media 0 e varianza 1;
quindi, per n abbastanza grande, la variabile X ha distribuzione approssimativamente
normale con media n p e varianza n p q . Si ricorda in proposito che
l'approssimazione è tanto migliore quanto più p è prossimo al valore 0,5.
Per quanto sopra detto, utilizzando le tavole della distribuzione normale, risulta facile
determinare il valore che soddisfa la relazione
P ( - c Z c) = 1 -
dove è un prefissato livello di confidenza. Infatti:
P ( - c Z c) = P (Z2 c2) =
2
2P1
X npc
np p
2 2 2 2 ( ) 0 12( ) /n c p X c p X nP
Essendo positivo il coefficiente n + c2 della disuguaglianza
(n + c2) p2 - (2X + c2) p + X2/n < 0
ne deriva che essa risulterà soddisfatta per valori di p interni all'intervallo 1 2,p p ; dove
p1 e p
2 indicano le soluzioni dell'equazione di secondo grado
(n + c2) p2 - (2X + c2) p + X2/n = 0.
L’uguaglianza sopra scritta risulta pertanto equivalente alla relazione
P (p1 p p
2) = 1-
Se oltre ad n anche X ed (n - X) assumono valori sufficientemente elevati, le
quantità p1 e p
2 potranno essere derivate più semplicemente, ma in modo approssimato
dalle uguaglianze
1 2 2 2α α
X n n - X n X n n - X nX Xp z ; p z
n n n n
.
Esempio 3.7
In una certa stazione sperimentale sono stati osservati 550 germogli di pisello, 420 dei quali
presentavano colorazione verde (carattere dominante) mentre i rimanenti 130, colorazione
gialla (carattere recessivo). Si vuol determinare un intervallo di confidenza, al livello del 95%,
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
208
per la percentuale p di piselli verdi.
Essendo n = 550 piuttosto elevato si potrà ricorrere all'approssimazione normale; dalle tavole
di tale distribuzione risulta, come noto, che c = 1,96 è il valore che soddisfa l'uguaglianza
P ( - c Z c) = 0,95
per cui
0,726371,965502
550/4201,9655041,9642021,964202p
2
22222
1
0,797241,965502
550/4201,9655041,9642021,964202p
2
22222
2
pertanto l'intervallo di confidenza sarà
0,73 p 0,80
Qualora fossero state applicate le formule approssimate si sarebbe ottenuto
p1 = 0,7263 , p2 = 0,7976.
3.3.5 Intervalli simultanei di confidenza per la media e la varianza di una variabile
casuale normale
Sia x1, x2,...,xn, una specifica determinazione di un campione estratto da una popolazione
distribuita normalmente con media µ e varianza 2σ entrambe incognite; si vogliano
determinare intervalli simultanei (regione) di confidenza per la media µ e per la
varianza 2σ .
Una prima possibilità di soluzione del problema è quella di utilizzare gli intervalli già
determinati in precedenza: per la media µ in presenza del parametro di disturbo
incognito 2σ e per la varianza 2σ in presenza del parametro di disturbo incognito µ:
1 1
2 2
2 2 1
2 22
22 2
2 1 2
1
1 11
α α
α / α /
P X - t S / n μ X t S / n - α
(n )S (n )SP σ α
χ χ
Questa via deve essere esclusa per due ragioni fondamentali:
1. la regione (intervalli simultanei) di confidenza che si ottiene combinando i
due intervalli non è ottimale (non è di minima dimensione);
2. i due intervalli casuali non sono indipendenti (presenza in entrambi gli
intervalli della v.c. varianza campionaria), quindi, il livello di confidenza
congiunto non è uguale al prodotto dei due livelli 1 21 e 1 .
Se si tiene presente che, nella derivazione dell’intervallo di confidenza per la media,
alla mancata conoscenza del parametro di disturbo 2σ si è sopperito attraverso una sua
stima puntuale corretta
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
209
22
1
1XX
nS i
nella situazione in esame è forse più ragionevole pensare ad un diverso modo di
eliminazione del “disturbo”, ad esempio, facendo ricorso non alla stima puntuale di 2σ
ma ad una stima per intervallo. I due intervalli causali, che risultano anche indipendenti,
da prendere in considerazione sono:
1 1
2 2
2 2 1
2 22
22 2
2 1 2
1
1 11
α α
α / α /
P X - z σ / n μ X z σ / n - α
(n )S (n )SP σ α
χ χ
Se ora si considera che:
1 1 1 1
22 2
2 2 1 2 2
2 2
/ / /
1α α α α
2 2 2
2 2 2
X - μ X - μP z z α P z z
σ / n σ / n
X - μ X - μP z z z
σ / n σ / n
si ottiene la relazione funzionale (parabola):
2 21 1
2 22 2 2 2/α α
X - μ z σ / n σ n X - μ z
che consente di tracciare i confini della regione di confidenza per µ e 2σ .
Nella Fig. 3.2 sono riportati gli intervalli simultanei di confidenza per µ e 2σ : il
rettangolo in grassetto rappresenta la regione di confidenza ottenuta combinando i due
intervalli cui si è pervenuti attraverso elaborazioni separate e per la quale non si è in
grado di calcolare il livello 1 1 11 2 essendo i due intervalli casuali
non indipendenti, mentre la determinazione simultanea, non solo consente di calcolare il
livello di confidenza 1 1 11 2 ma individua anche una regione di
confidenza di minore dimensione (quella racchiusa tra i due rami della parabola e le due
linee che definiscono l’intervallo di confidenza per la varianza 2σ ) anche se non è
quella ottimale.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
210
Fig. 3.2 – Intervalli simultanei di confidenza per la media e la varianza di una distribuzione
normale
3.3.6 Intervallo di confidenza per la differenza fra medie e tra proporzioni
Partendo da considerazioni analoghe a quelle fatte nelle pagine precedenti, risulta facile
verificare che l’intervallo di confidenza simmetrico per la differenza fra le medie x e
y di due distribuzioni normali con varianze note 2
x e 2
y , risulta dall’uguaglianza
2 2 2 2/ / / / 1x y x y x yP X Y c m n X Y c m n
dove Y e X sono le medie campionarie, m e n le numerosità dei due campioni
casuali supposti indipendenti. La costante c dovrà essere determinata sulla scorta delle
tavole della distribuzione normale, in corrispondenza del prefissato livello di confidenza
1- .
L’elemento pivotale che ha consentito la derivazione dell’intervallo è:
22~X Y
yx
X YN 0,1
m n
Nel caso in cui i due campioni casuali si riferissero a popolazioni normali aventi la
stessa varianza incognita 2 , la formula per l’intervallo simmetrico di confidenza, per la
differenza fra le medie yx e è
2
2
21 α/χ)s(n
/nσ z-μXα
222
21
2
21
2
21 /αχ)s(n
n/ 21stx n/ 21
stx
2s
x
2
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
211
2 2
2 2
( 1) ( 1) 1 1
2
( 1) ( 1) 1 11
2
x y
x y
x y
m S n SP X Y c
m n m n
m S n SX Y c
m n m n
dove Y e X sono le due medie campionarie; 22
yx S e S le due varianze campionarie
(stime corrette di 2); m , n le numerosità dei due campioni. La costante c dovrà
essere determinata in corrispondenza di m + n - 2 gradi di libertà, sulla scorta delle
tavole della distribuzione t di Student, al prefissato livello di confidenza 1- .
L’elemento pivotale (rapporto tra due v.c. indipendenti: una v.c. normale
standardizzata e la radice quadrata di una v.c. divisa per i propri gradi di libertà) che ha
consentito la derivazione dell’intervallo è:
22
2 22 2
-2
2 2
1 1 2
~ 1 1
1 1 dove
2
yX Y x
X Y
m n
x y
n SX Y m Sm n
m n
X Yt
Sm n
m S n SS
m n
Analogamente a quanto detto sopra, l’intervallo di confidenza per la differenza fra
proporzioni, qualora i campioni siano numerosi e px , py siano vicini a 0,5, è espresso
dalla formula
ˆ ˆˆ ˆ (1 )(1 )ˆ ˆ
ˆ ˆˆ ˆ (1 )(1 )ˆ ˆ 1
y yx xx y x y
y yx xx y
P PP PP P P c p p
m n
P PP PP P c
m n
dove, al solito ˆ ˆx yP e P sono le due proporzioni campionarie; px e py le
proporzioni incognite delle popolazioni; m e n le numerosità dei due campioni. La
costante c dovrà essere determinata, sulla scorta della distribuzione normale, in
corrispondenza del prefissato livello di confidenza 1- .
Gli intervalli di confidenza per la somma di medie e di proporzioni, relativamente a
situazioni analoghe a quelle sopra esposte, saranno identici a quelli già considerati, a
meno del segno (x + y e px + py anziché x - y e px - py).
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
212
3.3.7 Intervallo di confidenza per la differenza fra medie per dati appaiati
Se X ~ N(x, 2
x ) e Y ~ N(y, 2
y ) sono due v.c. con varianze 2
x 2
y incognite e si
vuole costruire un intervallo di confidenza per xy sulla base dell’evidenza
campionaria, l’elemento definito nella sezione precedente non è più pivotale poiché le
due varianze 2
x e 2
y (parametri di disturbo) non sono note. Si può allora pensare di
sostituire alle quantità incognite una loro stima ed ottenere la v.c..
nSmS
YX
yx
yx
// 22
,
dove 2
xS e 2
yS sono, rispettivamente, le varianze campionarie corrette di X e di Y
utilizzate come stimatori di 2
x e 2
y . Purtroppo, questa v.c., pur non dipendendo da
parametri incogniti, non è elemento pivotale non essendo nota la sua distribuzione.
Infatti, la v.c. di cui si conosce la distribuzione (t di Student con n+m-2 gradi di
libertà) è quella definita dal rapporto tra la v.c. la normale standardizzata relativa alla
differenza tra medie e la radice di un 2 divisa per i propri gradi di liberta relativa alla
combinazione delle varianze:
22
2 22 2
11 2
/ /
x y yx
x yx y
X Y n Sm Sm n
m n
Ma in questa espressione le due varianze incognite 2
x e 2
y , che compaiono al
numeratore e al denominatore, non si semplificano.
Per campioni di dimensioni modeste il problema della determinazione dell’intervallo
di confidenza per yx in presenza di due varianze 2
x e 2
y diverse ed incognite
trova la sua soluzione ottimale nel caso in cui le due v.c. X e Y non sono
indipendenti, anzi, si presume che la rilevazione dei due caratteri sia stata effettuata
sulle stesse unità statistiche (dati appaiati). In tale situazione si avranno a disposizione
n coppie di osservazioni ii yx , e si può, pertanto considerare la v.c. V = X – Y che è
ancora una v.c. normale (essendo combinazione lineare di v.c. normali) con media
v x yE V E X E Y
e varianza
2 2 2,v x y xy Var V Var X Var Y 2 Cov X Y .
Per la determinazione dell’intervallo di interesse basterà applicare la procedura
illustrata in precedenza quando si è trattato della stima di intervallo per la media di una
v.c. normale con varianza incognita. Da rilevare che per risolvere il problema non
occorre procedere alla stima delle varianze 2
x e 2
y e della covarianza xy bastando la
stima della varianza della v.c. differenza V = X – Y. L’elemento pivotale è
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
213
1~
n
v
yxt
nS
YX dove
22
1 1
1 1
1 1
n n
v i i i ii i
S V X Yn n
.
Si segnala che trattare con dati appaiati riduce drasticamente il numero dei gradi di
libertà che sono pari a n-1 rispetto ai gradi di libertà che si sarebbero avuti (2n-2) nel
caso di campioni indipendenti.
3.3.8 Intervallo di confidenza per il rapporto tra varianze
Se si vuole determinare l’intervallo di confidenza per il rapporto di due varianze 22
yx e , di popolazioni normali indipendenti con medie x e y incognite, disponendo
di m informazioni campionarie su X ed n su Y, basterà fare riferimento all’elemento
pivotale rappresentato dalla variabile casuale
22
2 22 2
11, 12 2 2 2
2
21
( 1) /( 1) /( 1)
~( 1)
/( 1)/( 1)
mx
iy yx x i
m nn
y y x xi
iy
m Sm X X m
SW F
n S SY Y nn
che ha, nell’universo dei campioni, distribuzione del tipo F di Fisher-Snedecor con m-1
e n-1 gradi di libertà.
Si può, pertanto, determinare l’intervallo
1 2c c 1 αP W
Anche in questo caso se si scelgono valori di c1 e c2 simmetrici
α/22α/211 Fc,Fc
cioè valori della variabile casuale non simmetrica F che hanno, rispettivamente,
l’/2% dei casi a sinistra e l’/2 % dei casi a destra, si otterrà un intervallo non ottimale.
Sotto le ipotesi introdotte si ha l’intervallo
α1Fσ
σ
S
SFP 2α/2
x
2
y
2
y
2
x2α/1
che è perfettamente equivalente all’intervallo
α1FS
S
σ
σF
S
SP 2α/2
x
2
y
2
x
2
y
2α/12
x
2
y
ed anche
2 2 2
2 2 2
/2 1 /2
.x x x
y y y
S S1 1P 1
S F S F
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
214
3.4 - Determinazione della numerosità campionaria
La teoria degli intervalli di confidenza consente anche di affrontare in modo razionale la
problematica della scelta della dimensione campionaria.
Nelle pagine precedenti è stato sottolineato che un intervallo di confidenza è
caratterizzato da due elementi fondamentali: il livello di confidenza, che ne misura
l’affidabilità, e l’ampiezza, che ne misura l’informatività. L’obiettivo che si vuol
perseguire è quello della determinazione di un intervallo per il quale siano massime sia
l’affidabilità che l’informatività; purtroppo, come già detto, fra questi due elementi
esiste un legame diretto, nel senso che all’aumentare del livello di confidenza aumenta
anche l’ampiezza dell’intervallo, e che quindi non è possibile, contemporaneamente,
massimizzare il livello di confidenza e minimizzare l’ampiezza.
Pertanto, in presenza di una dimensione campionaria predeterminata, se si vuole
incrementare l’informatività si dovrà rinunciare a qualcosa in termini di affidabilità e
viceversa. Nelle situazioni in cui la dimensione non è prefissata si può, una volta fissato
il livello di confidenza, procedere alla determinazione della dimensione campionaria in
modo da ottenere un intervallo di confidenza per il parametro d’interesse di ampiezza
prefissata.
La procedura da seguire è quella illustrata nelle due esemplificazioni che seguono.
Sia X ~ N(, 2 ) e si supponga, in prima istanza, che 2 sia nota. Si vuol
determinare la dimensione del campione affinché l’ampiezza dell’intervallo di
confidenza per , al livello di confidenza (1 – ), sia pari ad A.
Si supponga di voler procedere alla determinazione di un intervallo di confidenza per
la media di una popolazione normale la cui varianza è nota prefissando sia il livello di
confidenza 1 sia l’ampiezza indicata con A.
L’espressione dell’intervallo di confidenza per il caso in esame è già stata individuata
ed è
2 2- / / 1-P X z n X z n
Avendo prefissato sia il livello di confidenza che l’ampiezza dell’intervallo deve
valere la relazione:
2 2
2 2 2 2 / / 2 / 4 /A X z n X z n z n n z A
si ricava n come incognita
n = (2 z/A)2,
che, dovendo sempre essere un intero, va arrotondato per eccesso.
La formula fornisce la dimensione campionaria cercata, nel rispetto dei vincoli
prefissati, ma è basata sull’assunto della conoscenza del parametro 2 , circostanza
questa che si riscontra molto raramente nei contesti operativi; nella generalità dei casi, la
varianza 2 è incognita. In tale contesto, per stabilire la dimensione del campione si
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
215
dovrà ricorrere ad una sua stima, che potrà derivare da conoscenze pregresse o da
un’indagine campionaria “pilota”, che sarà, ovviamente, di dimensione ridotta ed il cui
unico scopo è quello di pervenire ad una stima della varianza incognita.
Come seconda esemplificazione si ipotizzi di voler determinare la dimensione
campionaria per un intervallo di confidenza del parametro p relativo ad una v.c. di
Bernoulli, nel rispetto dei vincoli di confidenza ed informatività prefissati.
Come già visto, se risulta ragionevole l’approssimazione con la distribuzione
normale, l’intervallo di confidenza per il parametro p è:
2 2α α
p 1 p p 1 pX XP z p z 1
n n n n
dove X rappresenta il numero delle volte in cui l’evento d’interesse si è verificato in n
prove indipendenti.
Avendo prefissato il livello di confidenza ( 1 ) e l’ampiezza A dell’intervallo,
deve essere soddisfatta l’uguaglianza
2 2 22 α α α
p 1 p p 1 p p 1 pX XA z z z
n n n n n
da cui deriva
2
2
p 1 pn 4 z
n A
.
Relazione che non può essere utilizzata essendo p l’incognita del problema;
problema che può, comunque, essere risolto o seguendo le indicazioni fornite nella
esemplificazione precedente (informazioni pregresse o indagine pilota), oppure, ed è la
procedura usualmente impiegata, ponendo p = (1-p) = 0,5, valore questo che
massimizza l’espressione, cioè il valore di n. Si tratta di un atteggiamento prudenziale
che comporta, nella generalità dei casi un sovradimensionamento della numerosità
campionaria.
Esempio 3.8
Nell’esempio la numerosità del campione, anziché essere fissata a priori, viene determinata in
funzione del livello di confidenza e dell'ampiezza dell'intervallo (errore ammesso).
Uno sperimentatore, sapendo che lo scostamento quadratico medio del tempo di reazione delle
cavie ad un certo stimolo è pari a 0,05 secondi, vuole determinare il numero minimo di cavie
da sottoporre ad esperimento affinché, nella stima del tempo medio di reazione, l'eventuale
errore non superi 0,01 secondi ai livelli di confidenza del 95% e del 99%.
Al livello del 95% i limiti di confidenza sono
n
0,051,96XL1 ,
n
0,051,96XL2
dovendo essere soddisfatto il vincolo sull'errore
0,01 n / 0,05 1,96
si avrà
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 3 – Stima
216
n 96,04
Al livello di confidenza del 99% la disuguaglianza relativa all'errore risulta essere
0,01 n / 0,05 2,58
da cui
n 166,4
Si può quindi concludere che se lo sperimentatore vuole contenere l'errore, nella stima del
tempo medio di reazione, nel limite di 0,01 secondi, dovrà fissare la dimensione del campione a
97, nel caso in cui sia interessato ad un livello di confidenza del 95%; dovrà invece estendere
l'esperimento a 167 cavie nel caso in cui porti il livello di confidenza al 99%.
Top Related