Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto...

81
CORSO DI LAUREA IN ECONOMIA AZIENDALE Metodi Statistici per l’impresa (Note didattiche) Bruno Chiandotto – Fabrizio Cipollini 1 Capitolo 6 STIMA DEI PARAMETRI Come indicato nel cap. 2, il calcolo delle probabilità è presupposto essenziale della teoria della statistica. Proprio sulla base dei concetti del calcolo delle probabilità (cui faremo costante riferimento) affrontiamo ora l’inferenza statistica. Tuttavia per evitare l’errato fraintendimento che tale materia sia “pura tecnica”, nell’introduzione che segue presentiamo l’argomento senza formule: lo scopo è dare un senso al problema, un senso agli specifici argomenti trattati, un senso ai singoli concetti enunciati. Non tutto sarà perfettamente chiaro dopo la prima lettura. Per questo si invita lo studente rileggere l’introduzione dopo aver completato lo studio (perché solo allora ogni affermazione qui contenuta avrà un senso compiuto) e, soprattutto, ogni volta che avrà la sensazione di aver “perso il filo”. 1. Introduzione 1.1. Introduzione all’inferenza statistica In generale, per capire “come si affronta” un certo problema è assolutamente necessario comprendere prima “dove sta” il problema. Questo è valido a maggior ragione per una problematica tecnicamente tutt’altro che banale quale l’inferenza statistica. Per questo motivo si fa precedere la trattazione degli argomenti affrontati (stima puntuale, stima per intervallo, test delle ipotesi) da alcune considerazioni generali che danno un senso logico a quanto presentato nel seguito. Il problema è il seguente e lo schematizziamo per punti. Il punto di partenza è l’analisi di un certo fenomeno d’interesse il cui risultato non è prevedibile con certezza. Il calcolo delle probabilità indica che dal punto di vista statistico tale fenomeno può essere rappresentato mediante una variabile casuale, cioè un “oggetto” casuale le

Transcript of Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto...

Page 1: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

CORSO DI LAUREA IN ECONOMIA AZIENDALE

Metodi Statistici per l’impresa (Note didattiche)

Bruno Chiandotto – Fabrizio Cipollini

1

Capitolo 6

STIMA DEI PARAMETRI

Come indicato nel cap. 2, il calcolo delle probabilità è presupposto essenziale della

teoria della statistica. Proprio sulla base dei concetti del calcolo delle probabilità (cui

faremo costante riferimento) affrontiamo ora l’inferenza statistica. Tuttavia per evitare

l’errato fraintendimento che tale materia sia “pura tecnica”, nell’introduzione che segue

presentiamo l’argomento senza formule: lo scopo è dare un senso al problema, un senso

agli specifici argomenti trattati, un senso ai singoli concetti enunciati. Non tutto sarà

perfettamente chiaro dopo la prima lettura. Per questo si invita lo studente rileggere

l’introduzione dopo aver completato lo studio (perché solo allora ogni affermazione qui

contenuta avrà un senso compiuto) e, soprattutto, ogni volta che avrà la sensazione di

aver “perso il filo”.

1. Introduzione

1.1. Introduzione all’inferenza statistica

In generale, per capire “come si affronta” un certo problema è assolutamente necessario

comprendere prima “dove sta” il problema. Questo è valido a maggior ragione per una

problematica tecnicamente tutt’altro che banale quale l’inferenza statistica. Per questo

motivo si fa precedere la trattazione degli argomenti affrontati (stima puntuale, stima

per intervallo, test delle ipotesi) da alcune considerazioni generali che danno un senso

logico a quanto presentato nel seguito.

Il problema è il seguente e lo schematizziamo per punti.

• Il punto di partenza è l’analisi di un certo fenomeno d’interesse il cui risultato non

è prevedibile con certezza.

• Il calcolo delle probabilità indica che dal punto di vista statistico tale fenomeno può

essere rappresentato mediante una variabile casuale, cioè un “oggetto” casuale le

Page 2: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

2

cui manifestazioni non sono prevedibili in modo certo essendo, appunto, frutto del

caso. Il calcolo delle probabilità dice anche che per identificare una v.c. occorre

esplicitare i valori che questa può assumere e con quale probabilità. Se possiamo

fare questo abbiamo detto tutto della v.c. e quindi del fenomeno che interessa: di più

non è possibile fare.

• Nella pratica, la probabilità può essere distribuita sui valori che la v.c. può assumere

nei modi più vari. L’obiettivo è conoscere, in modo completo (cioè attraverso la

funzione di massa o la funzione di densità) o parziale (cioè solo attraverso

particolari indici caratteristici) la distribuzione della v.c. considerata. Per

raggiungere questo obiettivo la statistica può seguire diverse vie.

- Inferenza parametrica. La prima via sfrutta i modelli già preconfezionati e

pronti all’uso che la statistica (servendosi del calcolo delle probabilità) mette a

disposizione proprio per rappresentare certe situazioni tipiche dei fenomeni

reali: il modello di Bernoulli, il modello Binomiale, il modello Ipergeometrico,

il modello di Poisson, il modello Normale, il modello Gamma, ecc. (l’elenco

potrebbe continuare molto a lungo, con modelli anche assai complicati che

possono coinvolgere anche più variabili). Pertanto sulla base delle caratteristiche

del fenomeno in oggetto, di analisi simili, di considerazioni teoriche,

dell’esperienza passata, ecc. si sceglie fra i modelli statistici a disposizione

quello che sembra adattarsi meglio al fenomeno in analisi (oppure se ne inventa

uno nuovo, magari modificando quelli già disponibili). Tale via all’inferenza è

detta inferenza parametrica, nel senso che il modello statistico per l’analisi del

fenomeno è completamente specificato in tutte le sue parti (forma funzionale e

parametri caratteristici) e l’unica inferenza possibile è quella sui parametri

caratteristici del modello.

- Inferenza non-parametrica. Una via radicalmente opposta a quella indicata

(ma spesso utilizzata in combinazione con la precedente) è quella di non

formulare alcun modello (ad esempio non supporre alcuna forma funzionale per

la distribuzione della v.c.) ma di servirsi di particolari strumenti statistici

particolarmente “flessibili” per arrivare ad una caratterizzazione del problema

studiato esclusivamente sulla base dei dati. Tale via all’inferenza è detta

Page 3: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

3

inferenza non-parametrica, nel senso che il modello statistico per l’analisi del

fenomeno è completamente non specificato e non ci sono parametri caratteristici

su cui fare inferenza (dato che non c’è nessun modello): sono i dati a guidare in

modo determinante i risultati.

- Inferenza semi-parametrica. Infine una via intermedia a quelle indicate si ha

quando si specificano certe componenti del modello (ad esempio si suppone che

la v.c. abbia certi indici caratteristici, come media e varianza) ma si lasciano le

altre non specificate (di solito non si specifica la completa forma funzionale

della funzione di massa o di densità). Anche in questo caso esistono strumenti

statistici per poter ottenere dei risultati solo sulle grandezze che interessano

senza dover fare le altre ipotesi. Tale via all’inferenza è detta inferenza semi-

parametrica, nel senso che il modello statistico per l’analisi del fenomeno è

specificato solo in modo parziale. Come è facile intuire, tale approccio ha

caratteristiche intermedie fra gli altri due, anche se per molti aspetti è più vicino

al primo che al secondo.

Non facendo di norma assunzioni sulla forma funzionale della distribuzione,

l’inferenza non-parametrica e quella semi-parametrica sono spesso raggruppate sotto

la dizione distribution free.

Per quanto riguarda il presente corso ci occuperemo principalmente di inferenza

parametrica e in parte di inferenza semiparametrica. Tuttavia, per semplicità, in

questa introduzione faremo essenzialmente riferimento al caso parametrico.

• Scelto il modello opportuno per il fenomeno analizzato, tale modello dipende

tipicamente da uno o più parametri incogniti. Solo se si riesce a dare un valore a

tali parametri allora la distribuzione della v.c. considerata è completamente nota e si

è detto tutto del fenomeno analizzato. Tuttavia, in generale di tali parametri si sa

solo che assumono valori in un certo insieme, detto spazio parametrico, ma non di

più. Come fare allora per determinare i parametri? Anzi, più in generale, come

rispondere ai 3 problemi base dell’inferenza statistica sui parametri d’interesse,

ovvero:

1. (Stima puntuale) Come tentare di indovinare il valore dei parametri?

2. (Stima per intervallo) Come determinare, per ciascun parametro d’interesse, un

Page 4: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

4

intervallo che ne contiene il vero valore “con alta probabilità”?

3. (Test delle ipotesi) Come procedere all’accettazione o al rifiuto di una

particolare ipotesi formulata sui parametri?

• Per rispondere alle domande di cui sopra occorre sfruttare qualche informazione.

Come informazione di base l’inferenza statistica utilizza un certo insieme di

osservazioni del fenomeno oggetto di studio: tale insieme è detto campione. Quindi:

sulla base dell’informazione del campione si vuol fare inferenza sui parametri del

modello scelto e quindi sulla legge probabilistica alla base del fenomeno analizzato.

La branca dell’inferenza statistica che utilizza come unica informazione per

rispondere alle tre domande di cui sopra le sole osservazioni del campione è detta

statistica classica. In contrapposizione a questa si colloca la statistica bayesiana,

che invece prevede l’utilizzo, oltre all’informazione campionaria, anche di

informazioni a priori che, generalmente, hanno natura soggettiva. Il nome di

statistica bayesiana viene dal fatto di utilizzare il teorema di Bayes come strumento

fondamentale di inferenza.

Per quanto riguarda questo corso ci occuperemo esclusivamente di statistica

classica.

1.2. Introduzione alla stima puntuale

Fin qui la presentazione da un punto di vista generale dell’inferenza statistica, con

accenno ai vari problemi che si possono presentare e ai diversi approcci che si possono

seguire per la risoluzione di tali problemi.

Per rendere il quadro più concreto, occorre evidenziare tre punti fondamentali, che per

maggiore chiarezza interpretiamo principalmente in ottica di stima puntuale:

1. un campione è solo una realizzazione parziale del fenomeno oggetto di analisi;

2. poiché un campione è composto in genere da molte osservazioni del fenomeno, nel

passare dal campione ad una valutazione del o dei parametri occorre un processo di

sintesi delle osservazioni del campione;

3. la scelta del modello può essere sbagliata; in altri termini non è detto che il

modello scelto si adatti bene ai dati analizzati.

Il chiarimento di questi punti consente di evidenziare una serie di aspetti importanti che

Page 5: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

5

costituiranno oggetto di analisi nelle pagine che seguono.

1. Essendo solo una realizzazione parziale del fenomeno osservato, non è affatto detto

(e anzi è più unico che raro) che dal campione si riesca a determinare il valore esatto

dei parametri: in generale si può solo ricavarne una stima, cioè una valutazione sulla

base delle informazioni a disposizione. Inoltre al cambiare del campione si

ottengono in generale stime diverse.

2. In base alla considerazione precedente, è facile rendersi conto che ogni stima è un

processo di sintesi del campione affetto da errore. Caso per caso occorre scegliere la

sintesi migliore, cioè quella che, a parità di altre condizioni, consente di andare “più

vicino possibile” alla grandezza da stimare. Tuttavia dato che il vero valore di

ciascun parametro non è noto (se si conoscesse non ci sarebbe bisogno di stimarlo)

non è possibile determinare quanto la stima fornita sbaglia rispetto al valore vero del

parametro. Nonostante ciò la statistica ha messo a punto opportuni strumenti per

valutare la bontà delle stime effettuate. Tali strumenti, però, richiedono di far

riferimento non al solo campione estratto ma all’intero universo dei campioni, cioè a

tutti i campioni che sarebbero potuti venire fuori dal modello considerato.

3. Non è affatto detto che il modello scelto sia “ben scelto”; in altri termini può darsi

che quello considerato non sia il modello più adatto per il fenomeno analizzato. La

statistica fornisce allora gli strumenti per testare la bontà del modello scelto, cioè

per decidere, sulla base dei dati del campione, se il modello può essere accettato

oppure deve essere abbandonato in favore di un altro. Questo problema sarà

affrontato nell’ambito del test delle ipotesi di cui al relativo capitolo.

2. La scelta del modello statistico Il primo passo per l’analisi statistica di un certo fenomeno è, sempre, la scelta del

modello più opportuno per rappresentare il “comportamento probabilistico” del

fenomeno stesso. Detto infatti che questo può essere rappresentato da una v.c., diciamo

X, si tratta di scegliere fra i modelli statistici, quello più adatto per rappresentare la

distribuzione di X.

In realtà la scelta del modello, anche se determinante in funzione nei risultati

dell’analisi, non è prettamente materia statistica, anche se una certa conoscenza della

Page 6: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

6

materia è assolutamente necessaria. Infatti la scelta del modello è il risultato finale di

considerazioni di varia natura: le caratteristiche del fenomeno in oggetto, analisi simili

(magari con riferimento a quanto presente in letteratura), considerazioni puramente

teoriche, l’esperienza passata con problemi analoghi, ecc. Caso per caso ciascuno degli

aspetti indicati pesa in modo diverso.

Per quanti riguarda questo corso, in linea di massima la scelta del modello sarà

strettamente guidata dal docente, ma non bisogna dimenticare che nella pratica tale

decisione ricade su chi effettua l’analisi. Come aiuto, si forniscono di seguito alcuni

semplici esempi in cui si discute la scelta del modello.

Esempio

Supponiamo di voler analizzare, nell’ambito della popolazione italiana, il gradimento

nei confronti di un provvedimento legislativo di “completa liberalizzazione dell’orario

di apertura dei negozi”.

Se interessa distinguere fra FAVOREVOLI e NON FAVOREVOLI al provvedimento, il

più opportuno sembra essere il modello di Bernoulli. In altri termini se X è la v.c.

“FAVOREVOLE al provvedimento”, allora tale v.c. assumerà valore 1 se un individuo

è favorevole e 0 se non favorevole. In simboli X ~ Be(p) dove p ∈ [0, 1]. Dal punto di

vista statistico, il problema a questo punto è fare inferenza su p.

Esempio

Supponiamo che il “responsabile qualità” di una grossa impresa produttrice di filati di

lana voglia analizzare il numero di difetti presenti nella propria produzione prendendo

come base matasse da 10000 metri.

Fra quelli introdotti (ce ne potrebbero essere tuttavia altri adatti alla situazione indicata),

il modello più opportuno sembra essere la distribuzione di Poisson. Allora assumeremo

che la v.c. X = “numero di difetti in una matassa da 10000 m” ~ Po(λ) dove λ ≥ 0. Dal

punto di vista statistico, il problema a questo punto è fare inferenza su λ.

Page 7: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

7

Esempio

Supponiamo che un centro di analisi stia studiando la redditività delle piccole imprese

del settore “mobili e arredi” utilizzando l’indice ROE = utile/capitale netto.

Fra quelli introdotti (ma anche in questo caso ce ne potrebbero essere altri adatti), un

modello ragionevole è rappresentato dalla distribuzione Normale. Allora assumeremo

che la v.c. X = “ROE” ~ N(µ, σ2), dove µ ∈ R e σ2 ≥ 0. A questo punto il problema è

fare inferenza sui due parametri µ e σ2.

Esempio

Supponiamo che il responsabile alle vendite di un’impresa del settore moda stia

analizzando il tempo di permanenza in magazzino dei suoi giubbotti in pelle.

Fra quelli introdotti (ma anche in questo caso ce ne potrebbero essere altri adatti), un

modello ragionevole è rappresentato dalla distribuzione Gamma. Allora assumeremo

che la v.c. X = “Tempo di permanenza in magazzino” ~ Ga(α, β), dove α, β > 0. A

questo punto il problema è fare inferenza sui due parametri α e β.

Dagli esempi proposti possiamo trarre il seguente schema riassuntivo. Sia X la v.c.,

discreta o continua, che rappresenta il fenomeno oggetto di analisi. La scelta fra i diversi

modelli presenti in letteratura per rappresentare la distribuzione di X si basa, come detto,

su considerazioni di diversa natura. In ogni caso scegliere un modello significa scegliere

la funzione di massa o di densità di X. Sia quindi

f(x;θ)

la funzione di massa (se discreta) o la funzione di densità (se continua) della v.c. X,

dove θ indica i parametri caratteristici funzione scelta. Si ipotizza che θ ∈ Θ, cioè che i

parametri appartengano ad un certo insieme Θ detto spazio parametrico; lo spazio

parametrico è quindi l’insieme dei valori che i parametri possono assumere. Ad

esempio: nel modello di Bernoulli il parametro è p il cui spazio parametrico è [0, 1]; nel

modello di Poisson il parametro è λ il cui spazio parametrico è [0, +∞); nel modello

Normale i parametri sono µ e σ2 e lo spazio parametrico è il prodotto cartesiano dei

rispettivi spazi parametrici, cioè R × [0, +∞); nel modello Gamma i parametri sono α e

Page 8: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

8

β e lo spazio parametrico è il prodotto cartesiano dei rispettivi spazi parametrici, cioè (0,

+∞) × (0, +∞).

3. Concetti di base Con riferimento a quanto detto finora, sia allora X una v.c., discreta o continua, che

rappresenta il fenomeno oggetto di analisi e sia quindi

f(x;θ)

la funzione di massa o di densità della v.c. X, dove θ ∈ Θ indica i parametri caratteristici

funzione scelta.

Per semplicità, nella trattazione che segue ci limiteremo ad analizzare il processo di

inferenza per un parametro alla volta; in altre parole supporremo che θ sia uno scalare e

che lo spazio parametrico Θ sia un sottoinsieme di R (al limite R stesso). Solo quando

utile faremo espliciti richiami al caso multiparametrico.

In generale θ non è noto: l’unica cosa che si conosce è lo spazio parametrico Θ a cui

appartiene. Non essendo noto bisogna cercare di “indovinare” o, più correttamente, di

stimare θ. Per stimare θ si dispone dell’informazione contenuta in un campione di

osservazioni

x = (x1, …, xn)

della v.c. X che rappresenta il fenomeno studiato. La stima puntuale di θ si risolve allora

nella ricerca di una funzione del campione

θ̂ = T(x1, …, xn),

in modo da ottenere un valore θ̂ che sia “più vicino possibile” al parametro incognito θ.

Purtroppo, posto in questi termini il problema di stima puntuale non ha soluzione. Infatti

come è possibile giudicare quanto la stima

θ̂ = T(x1, …, xn)

è vicina al parametro incognito

θ

Page 9: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

9

se questo, appunto, è incognito? (Com’è possibile giudicare quanto un numero è vicino

ad un altro numero se quest’ultimo non si conosce?)

Per giudicare il processo di stima occorre allora correggere i termini del problema sulla

base di una considerazione fatta in precedenza. Il punto cruciale è il seguente: il

campione a disposizione, x = (x1, …, xn), è solo uno fra i tanti campioni che sarebbero

potuti capitare. Se fosse stato estratto un campione diverso, quasi sicuramente la stima

del parametro sarebbe risultata diversa. Per giudicare la bontà di un processo di stima,

allora, occorre valutarne il comportamento non sulla base del solo campione a

disposizione, ma sulla base di tutti i possibili campioni. In questo modo si ottengono

due vantaggi:

1. è possibile definire il concetto di bontà di un dato procedimento di stima puntuale;

2. è possibile interpretare i risultati ottenuti dal campione a disposizione alla luce del

comportamento di tutti i possibili campioni.

Tornando allora al nostro problema, fra l’assunzione che la v.c. X si distribuisce secondo

una certa funzione di massa o di densità f(x;θ) e il campione x = (x1, …, xn) occorre

inserire alcuni concetti intermedi.

Innanzitutto assumeremo da ora in poi che il campione a disposizione sia un campione

casuale semplice (spesso abbreviato in c.c.s.), cioè un campione le cui osservazioni

sono indipendenti ovvero:

1. o estratte con reimmissione;

2. oppure estratte senza reimmissione da una popolazione di numerosità talmente

elevata da rendere praticamente nulla la probabilità di estrarre la stessa unità

campionaria.

Su questa base, a ciascuna estrazione campionaria i-ma è associata una v.c. Xi che

rappresenta tutti i possibili valori che possono venire fuori da tale estrazione.

Essendo le estrazioni indipendenti, è ovvio che ciascuna Xi sarà distribuita esattamente

come la v.c. dalla quale è stata effettuata l’estrazione, cioè

Xi ∼ f(xi; θ),

con i = 1, …, n.

Page 10: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

10

Di conseguenza, l’universo dei possibili campioni (di dimensione prefissata n) che

possono essere estratti è rappresentato dalla v.c. multipla

X = (X1, …, Xn)

la cui funzione di massa o funzione di densità è espressa da

f(x1, …, xn; θ) = ∏=

n

i 1f(xi; θ),

dato che le estrazioni sono fra loro indipendenti (si veda cap. 2 sulle v.c. multiple).

In questo contesto il campione

x = (x1, …, xn)

sarà una particolare realizzazione della v.c. multipla

X = (X1, …, Xn).

Altra conseguenza è che con riferimento all’universo dei campioni, cioè alla v.c.

multipla X = (X1, …, Xn), la v.c. sintesi del campione ai fini della stima

T(X1, …, Xn)

sarà anch’essa una v.c., essendo a sua volta funzione di v.c. Per dare risalto a questo

aspetto diamo alcune definizioni.

Definizione 1: Definizione di statistica. Si dice statistica (dall’inglese statistic)

qualunque funzione

T(X1, …, Xn)

del c.c.s. X = (X1, …, Xn) (inteso come campione di v.c.) che non

contiene parametri incogniti. Il valore della statistica calcolato sui dati

campionari x = (x1, …, xn), cioè

T(x1, …, xn),

è detto valore campionario della statistica.

Definizione 2: Definizione di stimatore e di stima. Sia X è una v.c. con funzione di

massa o di densità f(x; θ), dove θ ∈ Θ è un parametro incognito, e sia X

= (X1, …, Xn) un c.c.s. estratto da X. Allora si dice stimatore qualunque

statistica

T(X1, …, Xn)

Page 11: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

11

utilizzata per stimare θ. Il valore dello stimatore calcolato sui dati

campionari x = (x1, …, xn) al fine di stimare θ, cioè

T(x1, …, xn),

è detto stima.

Definizione 3: Distribuzione campionaria. Sia X una v.c. con funzione di massa o di

densità f(x; θ), dove θ ∈ Θ è un parametro incognito e sia T(X1, …, Xn)

una statistica calcolata sul c.c.s. X = (X1, …, Xn). Allora la distribuzione

della statistica T(X1, …, Xn) (che abbiamo già detto essere una v.c.) è

detta distribuzione campionaria della statistica.

Un commento sulle definizioni introdotte. Una statistica è una qualsiasi funzione T(X1,

…, Xn) del campione, mentre uno stimatore è un caso particolare di statistica quando

quest’ultima è utilizzata per stimare un certo parametro. Essendo funzioni di v.c., sia la

statistica che lo stimatore sono a loro volta v.c. e quindi hanno una certa distribuzione,

detta distribuzione campionaria. La differenza fra stimatore e stima è infine la seguente:

lo stimatore, essendo una funzione delle v.c. X = (X1, …, Xn) è a sua volta una v.c.; la

stima essendo una funzione dei numeri x = (x1, …, xn) è a sua volta un numero.

Ovviamente essendo x = (x1, …, xn) una particolare realizzazione di X = (X1, …, Xn),

anche la stima T(x1, …, xn) sarà una particolare realizzazione dello stimatore T(X1, …,

Xn). La legge di probabilità con cui la v.c. stimatore origina le singole stime è data dalla

distribuzione campionaria dello stimatore.

4. Proprietà di uno stimatore Riassumiamo alcune considerazioni espresse finora. Data una v.c. X con funzione di

massa o di densità f(x; θ), la stima puntuale del un parametro incognito θ si ottiene

applicando una specifica funzione T(.) ai valori campionari. Tale stima, allora, varierà al

variare del campione secondo la legge di distribuzione f(x; θ) della popolazione cui il

campione si riferisce, ed è necessario fare riferimento a tale distribuzione per riuscire a

giudicare la “bontà” di una qualunque stima θ̂ = T(x1, ...,xn). Infatti, non è possibile

Page 12: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

12

affermare se un singolo valore numerico, cioè se una particolare stima θ̂ è “buona” o

“cattiva”. Se da una parte è ragionevole ritenere che θ̂ è tanto più “buona” quanto più si

approssima al vero valore del parametro θ, dall’altra parte essendo tale valore incognito,

il confronto non è possibile: risulta, cioè, impossibile valutare la “bontà” di una singola

stima. Pertanto, è improprio parlare di stima “buona” o “cattiva”, si deve parlare invece

di stimatore “buono” o “cattivo”, intendendo, con ciò, fare riferimento al metodo di

stima impiegato le cui proprietà non sono valutabili facendo riferimento ad un singolo

campione ma all’universo di tutti i campioni possibili. Il confronto fra stimatori dovrà,

quindi, essere basato sul confronto tra le corrispondenti distribuzioni campionarie e, più

in particolare, fra particolari indici caratteristici delle distribuzioni campionarie.

Torniamo allora alla problematica generale della stima statistica puntuale. Sia X una

variabile casuale, discreta o continua, con funzione di massa o di densità f(x; θ),

caratterizzata dal parametro incognito θ ∈ Θ. Il problema della ricerca del ”miglior”

stimatore di θ si sostanzia nella individuazione della “migliore” funzione T(.) da

applicare al campione di cui si dispone. Qui di seguito si descrivono le principali

proprietà di uno stimatore. Esempi dei concetti introdotti saranno discussi nella sez. 4.5

e nella sez. 6 relativa ai metodi di stima.

4.1. Sufficienza

Relativamente alle proprietà “ottimali” di uno stimatore si deve, innanzi tutto, tenere

presente che la funzione T(.) opera una compattazione delle informazioni. Risulta,

pertanto ragionevole richiedere ad uno stimatore θ̂ = T(X1, …,Xn) di contenere il

massimo delle informazioni che il campione fornisce in merito al valore del parametro

incognito θ. Questa proprietà è esplicitata dalla definizione di sufficienza.

Definizione 4: Definizione di statistica sufficiente. Sia X una v.c. con funzione di

massa o di densità f(x; θ), dove θ ∈ Θ è un parametro incognito e sia X

= (X1, …, Xn) un c.c.s. estratto da X. Allora una statistica T(X1, …, Xn) è

Page 13: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

13

sufficiente per θ sse la distribuzione del campione condizionata ad un

qualunque valore assunto dalla statistica T(.), cioè

f(x1, …, xn | T = t),

non dipende da θ.

Tale definizione risulta di interpretazione non immediata: cerchiamo di spiegarla. La

definizione dice che una statistica T è sufficiente per un certo parametro se nella

distribuzione del campione, una volta condizionati al valore della statistica, il parametro

scompare. In altri termini, ricordando l’interpretazione dell’evento condizionante come

“informazione”, T è sufficiente se, una volta calcolata e quindi conosciuta T, nel

campione stesso non rimane più alcuna informazione su θ che infatti scompare nella

distribuzione condizionata: tutto quello che c’era per risalire al parametro è stato

“spremuto” da T.

Il concetto di sufficienza può essere esteso da una statistica ad uno stimatore nel modo

seguente: è sufficiente lo stimatore basato su una statistica sufficiente. In questo caso

allora θ̂ contiene tutte le informazioni su θ contenute nel campione a disposizione.

Appare subito evidente che nei casi in cui esistono stimatori sufficienti, si dovrà

restringere la ricerca del miglior stimatore entro tale classe poiché, al di fuori di essa,

ogni altro stimatore avrebbe come conseguenza una mancata utilizzazione di

informazioni utili contenute nel campione.

Purtroppo la definizione di sufficienza è nella pratica di difficile utilizzazione per due

motivi:

1. la distribuzione condizionata di cui alla definizione spesso è tutt’altro che semplice

da ricavare;

2. la definizione richiede di avere già in testa una statistica T(.) e quindi di verificare se

questa è sufficiente o meno per il parametro; si presta invece poco alla ricerca di

statistiche sufficienti.

Questi due inconvenienti sono tuttavia superati da un importante risultato teorico noto

come criterio di fattorizzazione di Neyman-Fisher.

Page 14: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

14

Teorema 1: Criterio di fattorizzazione di Neyman-Fisher. Sia X una v.c. con

funzione di massa o di densità f(x; θ), dove θ ∈ Θ è un parametro

incognito e sia X = (X1, …, Xn) un c.c.s. estratto da X. Allora la statistica

T(X1, …, Xn) è sufficiente per θ sse vale la relazione:

f(x; θ) = g(T(x); θ) h(x)

dove: g(T(x); θ) è una funzione non negativa che dipende dal parametro e

dal campione solo attraverso la funzione T(.); h(x) è una funzione non

negativa degli elementi del campione.

Grazie a questo teorema, per trovare una statistica sufficiente basta riuscire a fattorizzare

la funzione di massa o di densità del campione nel modo indicato: uno dei fattori deve

dipendere solo dal parametro e da una certa statistica (che quindi sarà sufficiente per il

parametro); l’altro deve dipendere solo dal campione.

Tale teorema consente anche di fornire la seguente immagine del concetto di

sufficienza. Supponiamo che X sia effettivamente distribuito secondo la funzione di

massa o di densità f(x; θ) e che T(X) sia sufficiente per θ. In tale situazione supponiamo

poi di assegnare, come informazione per stimare θ, ad uno studente tutto il campione x =

(x1, …, xn) e all’altro (poverino!) la sola statistica T(x). Sembrerebbe questa una

discriminazione del secondo a favore del primo. Ciò è falso: infatti T(x) contiene tutta

l’informazione su θ che c’è nel campione, tanto che anche sapendo solo T(x) è possibile

scrivere la funzione di massa o di densità del campione. Il campione, quindi, non

contiene nient’altro su θ che, appunto, T(x) (paradossalmente è il secondo studente ad

essere avvantaggiato, dato che non deve neanche calcolarsi T(x)!).

Alcune precisazioni importanti.

1. La definizione di sufficienza e il criterio di fattorizzazione possono essere

banalmente estesi al caso in cui θ sia un vettore di parametri e/o T(X) un vettore di

statistiche (le dimensioni dei due vettori non necessariamente coincidono). In tal

caso le statistiche del vettore T(X), prese insieme, sono (congiuntamente) sufficienti

per θ.

Page 15: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

15

2. Sulla base di quanto detto al punto precedente, l’intero campione X = (X1, …, Xn) è,

chiaramente, sempre sufficiente per θ, qualunque sia il modello scelto. E’ ovvio però

che in tale situazione il concetto di sufficienza è poco interessante per l’assenza di

compattazione delle informazioni fornita da tale statistica. I casi interessanti sono

quelli in cui esistono delle statistiche sufficienti di dimensione minore rispetto

all’intero campione.

3. Il criterio di fattorizzazione evidenzia che la sufficienza è una proprietà intrinseca

del modello. Infatti la funzione di massa o di densità del campione f(x; θ), che è

quella che viene fattorizzata nel teorema, segue direttamente dalla specificazione

della distribuzione della v.c. X data da f(x; θ).

4. Se T(.) è una statistica sufficiente (o un vettore di statistiche sufficienti), si può

facilmente dimostrare che qualsiasi trasformazione biunivoca di tale statistica (o

vettore di statistiche) è anch’essa sufficiente.

5. Nel criterio di fattorizzazione, se in luogo di f(x; θ) si considera il suo logaritmo

naturale lnf(x; θ), la scomposizione di tale funzione in due componenti funziona in

modo analogo, con la differenza che invece di moltiplicarsi si sommano. Infatti

ln f(x; θ) = ln[g(T(x); θ) h(x)] = ln g(T(x); θ) + ln h(x) = g1(T(x); θ) + h1 (x).

Questo significa che T(x) è sufficiente per θ sse ln f(x; θ) può essere scomposto nella

somma di due funzioni g1(T(x); θ) e h1(x), di cui: la prima dipende dal parametro e

dal campione solo attraverso la funzione T(.); la seconda dipende solo dagli elementi

del campione. Questa osservazione sarà utile negli esempi illustrati nella sezione

relativa ai metodi di stima.

4.2. Misure di errore: MSE e MAE

Oltre alla sufficienza, è ragionevole richiedere che le singole stime siano “più vicine

possibile” al parametro incognito da stimare. D’altra parte abbiamo già detto che, per

una serie di ragioni, il confronto deve essere fatto fra la v.c. stimatore θ̂ = T(X1, …, Xn)

e il parametro θ. Gli scostamenti fra lo stimatore θ̂ e il parametro incognito θ, possono

essere espressi dalla differenza in valore assoluto |θ̂ – θ | o dalla differenza al quadrato

(θ̂ – θ)2. D’altra parte poiché θ̂ è una v.c., anche |θ̂ – θ | e (θ̂ – θ)2 lo sono, motivo per

Page 16: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

16

il quale tali differenze vengono di norma sintetizzate prendendone il valore atteso. Si

ricavano allora le seguenti misure di errore fra stimatore e parametro:

MAE(θ̂ ; θ) = E[|θ̂ – θ |];

MSE(θ̂ ; θ) = E[(θ̂ – θ)2].

L’acronimo MAE sta per Mean Absolute Error o errore assoluto medio; l’acronimo

MSE significa invece Mean Squared Error o errore quadratico medio. Come già

evidenziato, tali misure di errore non sono v.c., poiché è stato applicato l’operatore di

valore atteso; è opportuno tuttavia aggiungere che in generale dipendono da θ, dato che

il valore del parametro è incognito. Sulla base di tali misure di errore è ragionevole

definire uno stimatore migliore di un altro, rispetto ad una certa misura di errore, se la

misura di errore del primo è inferiore alla corrispondente misura di errore del secondo

qualunque sia il valore del parametro.

Definizione 5: Definizione di efficienza relativa. Lo stimatore 1̂θ è più efficiente nel

MAE rispetto a 2θ̂ se

MAE( 1̂θ ; θ) ≤ MAE( 2θ̂ ; θ) per qualunque Θθ ∈ ;

lo stimatore 1̂θ è più efficiente nel MSE rispetto a 2θ̂ se

MSE( 1̂θ ; θ) ≤ MSE( 2θ̂ ; θ) per qualunque Θθ ∈ .

Seppure importante per stabilire il migliore fra due stimatori dati, all’atto pratico è

auspicabile stimare θ col migliore stimatore possibile in assoluto. E’ allora opportuno

introdurre anche un concetto di efficienza in senso assoluto.

Definizione 6: Definizione di efficienza assoluta. Lo stimatore *θ̂ è il più efficiente

nel MAE se per ogni altro stimatore θ̂

MAE( *θ̂ ; θ) ≤ MAE(θ̂ ; θ) per qualunque Θθ ∈ ;

lo stimatore *θ̂ è il più efficiente nel MSE se per ogni altro stimatore

θ̂

MSE( *θ̂ ; θ) ≤ MSE(θ̂ ; θ) per qualunque Θθ ∈ .

Page 17: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

17

Per quanto ragionevole dal punto di vista logico, nella pratica la ricerca dello stimatore

in assoluto più efficiente (nel MAE o nel MSE) si scontra però con un problema non di

poco conto: in genere tale stimatore ottimale non esiste (eccetto in casi particolari un po’

artificiosi)! Questo perché (come è ragionevole fare) nella definizione si richiede che

l’indice di errore sia inferiore per qualunque Θθ ∈ , mentre la situazione comune è

quella nella quale non esiste uno stimatore che minimizza il MAE o il MSE per

qualunque valore di θ. E’ facile rendersi conto di ciò se si pensa al seguente stimatore di

θ:

T(X1, …, Xn) = 3.

E’ chiaro che un tale stimatore è assolutamente “stupido”: infatti stima il parametro

incognito sempre con 3, ignorando completamente l’informazione contenuta nel

campione. D’altra parte quando θ è effettivamente 3 (o comunque nei dintorni di 3) è

impossibile fare meglio dello stimatore “stupido” indicato (Fig. 1). In generale altri

stimatori avranno un MAE o un MSE più piccolo dello stimatore di cui sopra ma non per

i θ “vicini” a 3. Poiché di stimatori “stupidi” come quello indicato se ne possono

costruire infiniti (uno per ogni valore di θ), da questo ragionamento si evince che in

generale lo stimatore più efficiente in assoluto, nel senso del MAE o del MSE, non

esiste.

In tali situazioni, allora, si dovrà abbandonare l’obiettivo della ricerca dell’ottimo (non

esistendo un ottimo!) per procedere, eventualmente, alla ricerca di un sub-ottimo. Si

può, ad esempio, procedere alla ricerca di uno stimatore puntuale capace di minimizzare

il MAE o il MSE in un insieme ristretto di stimatori (minimo vincolato) essendo

ragionevole ipotizzare l’esistenza di un ottimo in una classe ristretta. Questo aspetto è

approfondito nella seguente sezione.

Page 18: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

18

-1

0

1

2

3

4

5

6

7

8

-1 0 1 2 3 4 5 6 7

Fig. 1 – Andamento del MSE per tre diversi stimatori di θ > 0: 1̂θ (tratto rosa), 2θ̂

(tratto verde), 3θ̂ (tratto blu). 1̂θ è più efficiente di 2θ̂ ma non di 3θ̂ , nonostante

quest’ultimo sia lo “stimatore stupido”.

4.3. Correttezza

Sviluppiamo il ragionamento conclusivo della sezione precedente con riferimento alla

misura di errore MSE. Il MSE, infatti, rispetto al MAE è più facile da trattare dal punto

di vista matematico. Più in particolare il MSE può essere scomposto nel modo seguente:

MSE(θ̂ ; θ) = V(θ̂ ) + bias(θ̂ ; θ)2,

dove V(θ̂ ) è la varianza dello stimatore θ̂ e bias(θ̂ ; θ) = E(θ̂ ) – θ è la distorsione

dello stimatore. La scomposizione si ricava facilmente sommando e sottraendo E(θ̂ )

nella definizione e poi applicando le proprietà dei valori attesi (si ricorda che θ ed E(θ̂ )

sono costanti!) :

MSE(θ̂ ; θ) = E[(θ̂ – θ)2] = E[(θ̂ – E(θ̂ ) + E(θ̂ ) – θ)2] = E[ (θ̂ – E(θ̂ ))2 + (E(θ̂ ) – θ)2

+ 2 (θ̂ – E(θ̂ ))(E(θ̂ ) – θ) ] = E[(θ̂ – E(θ̂ ))2] + E[(E(θ̂ ) – θ)2] + 2 [E(θ̂ ) – θ] E[θ̂ –

E(θ̂ )] = V(θ̂ ) + [E(θ̂ ) – θ)2] + 2 [E(θ̂ ) – θ] [E(θ̂ ) – E(θ̂ )] = V(θ̂ ) + bias(θ̂ ; θ)2 + 0

Tornando al risultato di cui sopra, il MSE di uno stimatore può essere quindi scomposto

Page 19: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

19

nella somma di due componenti: la varianza dello stimatore, V(θ̂ ) e il quadrato della

distorsione, bias(θ̂ ; θ)2 = [E(θ̂ ) – θ]2. Poiché, come detto, in generale non esiste lo

stimatore con il MSE più piccolo per ogni θ fra tutti gli stimatori, può valere la pena di

limitare la ricerca dello stimatore migliore ad un insieme ristretto di stimatori. In

particolare si può cercare nell’ambito degli stimatori con distorsione pari a 0, per i quali,

si vede facilmente, il MSE è uguale alla varianza dello stimatore.

Definizione 7: Definizione di correttezza. Uno stimatore θ̂ di θ si dice corretto o

non distorto se

E(θ̂ ) = θ per qualunque Θθ ∈ .

Da questa definizione segue allora immediatamente che se uno stimatore θ̂ è corretto

relativamente a θ allora:

1. la sua distorsione è 0, cioè bias(θ̂ ; θ) = 0 (da questo deriva l’espressione non

distorto);

2. il suo MSE e la sua varianza coincidono, cioè

MSE(θ̂ ; θ) = V(θ̂ );

pertanto nella classe ristretta degli stimatori corretti lo stimatore più efficiente nel

MSE è lo stimatore di minima varianza. Quest’ultima conclusione provoca spesso

confusione inducendo a concludere che lo stimatore più efficiente è lo stimatore di

minima varianza; si tratta, ovviamente, di una conclusione errata perché

l’affermazione vale solo nell’ambito degli stimatori corretti.

Torniamo ora al problema da cui si è partiti. Si è detto ripetutamente che lo stimatore

più efficiente in assoluto, sia nel senso del MAE che del MSE, di norma non esiste.

Ebbene, è possibile dimostrare che, per certi modelli, esiste invece lo stimatore più

efficiente nel MSE se si limita la ricerca alla classe degli stimatori corretti. Tuttavia

poiché la teoria sottostante è eccessivamente complessa per i fini di questo corso non la

vedremo. Ci limitiamo ad aggiungere tre considerazioni.

Page 20: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

20

1. La prima è che l’effetto pratico del vincolo di correttezza è, come è ovvio, quello di

eliminare tutti gli stimatori distorti, fra i quali sono compresi anche gli “stimatori

stupidi”.

2. La seconda è che, nell’ambito della teoria relativa alla ricerca del migliore stimatore

corretto, gioca un ruolo fondamentale il concetto di sufficienza visto in precedenza.

3. La terza, a fini pratici più importante, è legata ad un risultato teorico di importanza

fondamentale noto come limite di Cramèr-Rao.

Teorema 2: Limite di Cramèr-Rao. Sia X una v.c. con funzione di massa o di

densità f(x; θ), dove θ ∈ Θ è un parametro incognito, e supponiamo che

f(x; θ) soddisfi certe condizioni di regolarità. Sia poi X = (X1, …, Xn) un

c.c.s. estratto da X. Allora se θ̂ è uno stimatore corretto di θ, la varianza

di θ̂ non può essere minore di un certa soglia minima:

V(θ̂ ) ≥ 1/I(θ),

dove

I(θ) = E[s(θ)2] = –E ( )

θθ

dds

è detta informazione di Fisher.

In parole, questo teorema dice che la varianza di uno stimatore corretto non può

scendere sotto il reciproco dell’informazione di Fisher. L’utilità del teorema è la

seguente. Se si prende uno stimatore θ̂ e si verifica che è corretto, allora si calcola la

sua varianza V(θ̂ ) (che per la correttezza coincide col suo MSE), poi l’informazione di

Fisher I(θ) e quindi il suo reciproco 1/I(θ): se si nota che V(θ̂ ) = 1/I(θ) allora è

impossibile fare meglio (fra quelli corretti) dello stimatore considerato, perché sotto

1/I(θ) non si può scendere. E’ ovvio però che con questo criterio, se viene V(θ̂ ) > 1/I(θ),

allora non è possibile sapere se esiste un altro stimatore corretto con varianza più

piccola di quello trovato.

Purtroppo un limite di questa teoria è dato dal fatto che per molti modelli non esiste lo

Page 21: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

21

stimatore più efficiente nel MSE neppure nella classe degli stimatori corretti. Inoltre per

molti modelli risulta perfino impossibile determinare E(θ̂ ) e di conseguenza anche

V(θ̂ ) e MSE(θ̂ ; θ). E questo rende a sua volta impossibile la ricerca dello stimatore più

efficiente nel MSE di cui si è discusso finora.

4.4. Consistenza

Anche dal punto di vista intuitivo, è facile rendersi conto che al crescere della

dimensione del campione cresce anche la quantità di informazione a disposizione. E’

quindi ragionevole richiedere ad uno stimatore che al crescere della dimensione

campionaria n debba anche crescere la “precisione” dello stimatore nello stimare il

parametro. Questo concetto è precisato dalla proprietà di consistenza. Per esplicitare il

fatto che questa proprietà è legata alla dimensione del campione aggiungiamo l’indice n

allo stimatore, scrivendo nθ̂ al posto di θ̂ .

Definizione 8: Definizione di consistenza debole. Uno stimatore nθ̂ di θ è

consistente in senso debole se

∞→nlim P(| nθ̂ – θ | < ε) = 1

per qualunque θ ∈ Θ e per qualunque ε > 0 piccolo a piacere.

Definizione 9: Definizione di consistenza forte. Uno stimatore nθ̂ di θ è consistente

in senso forte se

∞→nlim MSE( nθ̂ ; θ) = 0

per qualunque θ ∈ Θ.

Relativamente alla consistenza forte, grazie alla scomposizione

MSE( nθ̂ ; θ) = V( nθ̂ ) + bias( nθ̂ ; θ)2

vista in precedenza, è possibile dedurre che, per n → ∞, MSE( nθ̂ ; θ) tende a 0 sse

tendono a 0 le sue due componenti (entrambe non negative) V( nθ̂ ) e bias( nθ̂ ; θ).

Page 22: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

22

Quindi se la varianza e la distorsione di uno stimatore tendono entrambi a 0 allora lo

stimatore è consistente in senso forte e, viceversa, se lo stimatore è consistente in senso

forte allora la sua varianza e la sua distorsione tendono a 0. Uno stimatore la cui

distorsione tende a 0 è detto asintoticamente corretto, e per esso vale

∞→nlim E( nθ̂ ) = θ

per qualunque θ ∈ Θ.

E’ possibile inoltre dimostrare che la consistenza forte implica la consistenza debole.

Questo fatto è una banale conseguenza del teorema di Markov (cap. 2): basta porre nel

teorema indicato, X = nθ̂ , g(X) = | nθ̂ – θ |, c = ε:

P(| nθ̂ – θ | ≥ ε) = P(( nθ̂ – θ ) 2 ≥ ε2) ≤ ( )[ ]

2

ˆ

εθθ −nE

=( )2

εθθ nMSE

→ 0,

da cui P(| nθ̂ – θ | < ε) = → 1.

Infine un’ultima nota. Per certi aspetti, la consistenza è la proprietà più importante fra

quelle viste. Possiamo argomentare questa affermazione in due sensi. Primo: se uno

stimatore è consistente non è detto che sia buono, ma sicuramente uno stimatore non

consistente è da buttare. Secondo: come affermato alla fine della sez. 4.3, per la maggior

parte dei modelli statistici (fanno eccezione quelli più semplici) è impossibile

determinare valore atteso, varianza e quindi anche MSE degli stimatori considerati. Le

proprietà asintotiche, e in particolare quelle relative alla consistenza, sono invece assai

più facili da ricavare e spesso sono anche le uniche disponibili (si veda al proposito

l’esempio in sez. 5.1.5).

4.5. Un esempio

Proviamo ad illustrare alcuni dei concetti presentati in questa sez. 4 mediante un

esempio. L’esempio è per la verità un po’ artificiale ma può comunque dare un senso a

quanto visto in questa sezione. Esempi più realistici saranno presentati nella sezione che

segue.

Page 23: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

23

Si considerino 6 palline identiche a meno dei numeri su di esse riportati: {1, 1, 1, 3,

3, 9}. La funzione di massa della v.c. X = “risultato dell’estrazione di una pallina” è

allora data da

f(x) =

===

altrimentixxx

096/133/112/1

Per tale v.c. è facile derivare i principali momenti (si veda cap. 2). Il seguente prospetto

riassume il calcolo di µ = E(X) = 3 e σ2 = V(X) = E(X2) – E(X)2 = 17 – 32 = 8.

x f(x) x f(x) x2 f(x) 1 1/2 1/2 1/2 3 1/3 1 3 9 1/6 3/2 27/2

1 3 17 Tabella 1 – Prospetto di calcolo di E(X) e V(X).

Si considerino ora tutti i possibili campioni x = (x1, x2) di dimensione n = 2 che possono

essere estratti con reimmissione dalla v.c. in oggetto. La “lista” di questi campioni

forma l’universo dei campioni che possono essere estratti dalla v.c. X. L’universo dei

campioni può a sua volta essere rappresentato dalla v.c. doppia X = (X1, X2), i cui valori

e la cui distriuzione sono riportati nella seguente tabella (la probabilità di ciascuna

coppia è semplicemente il prodotto delle probabilità dei singoli, dato che le estrazioni

sono indipendenti).

x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot

f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1

Tabella 2 – Funzione di massa della v.c. doppia X = (X1, X2).

A questo punto, ogni statistica calcolata su X = (X1, X2) è una v.c. e ha di conseguenza

una sua distribuzione campionaria. Consideriamo ora alcune statistiche e proviamo a

determinarne la distribuzione campionaria.

Page 24: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

24

• Media campionaria: X = (X1 + X2)/2 (per la formula generale si veda sez. 5.1)

La seguente tabella riporta, per ogni campione, la relativa media campionaria con la

sua probabilità

x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot

f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1

x 1 2 5 2 3 6 5 6 9

Tabella 3 – Prospetto per la costruzione della funzione di massa della media

campionaria.

Da tale tabella si ricava facilmente la funzione di massa della media campionaria,

nella quale si sommano le probabilità relative alle coppie di valori che danno luogo

alla stessa media.

x 1 2 3 5 6 9 tot

f( x ) 1/4 1/3 1/9 1/6 1/9 1/36 1

Tabella 4 – Funzione di massa della media campionaria X .

Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i

momenti di f(x), si può verificare che E( X ) = 3 e V( X ) = 4 [si invita lo studente a

farlo]. Questo significa che X è uno stimatore corretto di µ e che anche il suo MSE

è 4.

• Varianza campionaria corretta: S2 = [(X1 – X )2 + (X2 – X )2]/(2 – 1) (per la

formula generale si veda sez. 5.1)

La seguente tabella riporta, per ogni campione, la relativa varianza campionaria

corretta con la sua probabilità

x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot

f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1

s2 0 2 32 2 0 18 32 18 0

Tabella 5 – Prospetto per la costruzione della funzione di massa della varianza

campionaria corretta.

Page 25: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

25

Da tale tabella si ricava facilmente la funzione di massa della varianza campionaria

corretta, nella quale si sommano le probabilità relative alle coppie di valori che

danno luogo alla stessa varianza.

s2 0 2 18 32 tot

f(s2) 7/18 1/3 1/9 1/6 1

Tabella 6 – Funzione di massa della varianza campionaria corretta S2.

Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i

momenti di f(x), si può verificare che E(S2) = 8 e V(S2) = 144 [si invita lo studente a

farlo]. Questo significa che S2 è uno stimatore corretto di σ2 e che anche il suo MSE

è 144.

• Minimo campionario: x(1) = min{X1, X2}

La seguente tabella riporta, per ogni campione, il relativo minimo campionario con

la sua probabilità

x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot

f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1

x(1) 1 1 1 1 3 3 1 3 9

Tabella 7 – Prospetto per la costruzione della funzione di massa del minimo

campionario.

Da tale tabella si ricava facilmente la funzione di massa del minimo campionario,

nella quale si sommano le probabilità relative alle coppie di valori che danno luogo

allo stesso minimo.

x(1) 1 3 9 tot

f(x(1)) 3/4 2/9 1/36 1

Tabella 8 – Funzione di massa del minimo campionario x(1).

Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i

momenti di f(x), si può verificare che E(x(1)) = 1. 6 e V(x(1)) = 2. 2 [si invita lo

Page 26: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

26

studente a farlo]. Questo significa che x(1) è uno stimatore distorto del minimo della

v.c. X, che è 1, e che MSE(x(1), min) = 2. 2 + (1. 6 – 1)2 = 2. 6 .

• Massimo campionario: x(2) = max{X1, X2}

La seguente tabella riporta, per ogni campione, il relativo massimo campionario con

la sua probabilità

x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot

f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1

x(2) 1 3 9 3 3 9 9 9 9

Tabella 9 – Prospetto per la costruzione della funzione di massa del massimo

campionario.

Da tale tabella si ricava facilmente la funzione di massa del massimo campionario,

nella quale si sommano le probabilità relative alle coppie di valori che danno luogo

allo stesso massimo.

x(2) 1 3 9 tot

f(x(2)) 1/4 4/9 11/36 1

Tabella 10 – Funzione di massa del massimo campionario x(2).

Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i

momenti di f(x), si può verificare che E(x(2)) = 4. 3 e V(x(2)) = 10. 2 . [si invita lo

studente a farlo]. Questo significa che x(2) è uno stimatore distorto del massimo

della v.c. X, che è 9, e che MSE(x(2), min) = 10. 2 + (4. 3 – 10)2 = 42. 3 .

5. Metodi di stima puntuale Le proprietà di uno stimatore sono importanti perché specificano quali sono le

caratteristiche desiderabili: uno stimatore con proprietà migliori di un altro è

chiaramente preferibile. D’altra parte le proprietà indicate non dicono molto circa il

problema come fare a trovare uno stimatore (magari anche “buono”). Infatti,

riprendendo alcune considerazioni già fatte:

Page 27: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

27

• la ricerca di stimatori sufficienti, seppur importante dal punto di vista della sintesi

delle informazioni, non dice molto circa la capacità dello stimatore di “andare

vicino” al parametro incognito;

• la ricerca dello stimatore che minimizza il MAE o il MSE per ogni valore del

parametro non ha soluzione;

• la ricerca dello stimatore che minimizza il MSE nella classe dei soli stimatori

corretti ha soluzione solo in casi relativamente semplici (oltre al fatto di essere assai

complessa);

• infine le proprietà di correttezza non fanno alcun riferimento al “come fare” per

trovare degli stimatori.

Per questi motivi occorre allora trattare i metodi di stima puntuale proposti in letteratura

verificando se, ed in quali condizioni operative, producono stimatori che soddisfano le

proprietà indicate.

In letteratura sono stati proposti molti metodi di stima, ciascuno adatto in specifici

contesti. Ne ricordiamo i principali:

1. Metodo della massima verosimiglianza

2. Metodo della minima perdita (il caso più importante, ma non l’unico, è il metodo

dei minimi quadrati che vedremo in particolare nell’ambito del modello di

regressione)

3. Metodo dei momenti

4. Metodo degli stimatori analoghi

5. Metodo del minimo Chi-quadrato

6. Metodo della minima distanza

5.1. Massima verosimiglianza

Il metodo di gran lunga più rilevante fra quelli menzionati è metodo della massima

verosimiglianza. La sua importanza è dovuta:

1. alle particolari proprietà di cui godono gli stimatori ottenuti con tale metodo;

2. alla generalità e alla relativa semplicità del metodo dal punto di vista del calcolo (per

poterlo applicare basta che si riesca a calcolare la verosimiglianza);

Page 28: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

28

3. alla notevole diffusione del metodo, peraltro legata ai due punti precedenti:

possiamo stimare che circa l’85-90% dei modelli sono stimati con tale metodo.

In questa sezione si descrivono le principali caratteristiche del metodo della massima

verosimiglianza. Questa trattazione ci consentirà anche, attraverso gli esempi, di

illustrare concretamente quanto visto nella precedente sez. 4 circa le proprietà degli

stimatori.

5.1.1. Descrizione del metodo

Data una v.c. X, con funzione di massa o di densità, f(x; θ), e un c.c.s. X = (X1, …, Xn)

estratto da X, abbiamo già detto che la distribuzione del campione X = (X1, …, Xn) è data

dalla funzione di massa o di densità

f(x1, …, xn; θ) = ∏=

n

i 1f(xi; θ).

Ovviamente, in quanto funzione di massa o di densità f(x1, …, xn; θ) è una funzione

delle osservazioni del campione x = (x1, …, xn) per un certo θ fissato.

La verosimiglianza L(θ) è la funzione di massa o di densità del campione X = (X1, …,

Xn) vista però come funzione del parametro per fissato il campione, cioè

L(θ) = f(x1, …, xn; θ) = ∏=

n

i 1f(xi; θ).

Pertanto la verosimiglianza coincide in termini formali con la funzione di massa o di

densità del campione; si tratta infatti della stessa espressione interpretata:

1. come funzione degli elementi campionari x = (x1, …, xn) (funzione di massa o di

densità) che variano nell'universo dei campioni per θ fissato;

2. come funzione del parametro θ per un campione x = (x1, …, xn) prefissato.

Nella prima interpretazione (a priori), si fa riferimento all’universo dei campioni e le

variabili che interessano sono, appunto, le variabili casuali campionarie (X1, …, Xn).

Nella seconda interpretazione (a posteriori), le variabili campionarie hanno assunto

particolari determinazioni (x1, …, xn) (il campione) e sono, pertanto, costanti note;

risulta, allora, ragionevole interpretare l’espressione come funzione del parametro (o dei

parametri) θ che, pur essendo una costante, assume la veste di variabile essendo

Page 29: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

29

incognito il suo valore.

Il metodo di stima della massima verosimiglianza consiste nello scegliere il valore θ~

che massimizza la funzione L(θ). Se L(θ) è una funzione differenziabile, condizione

necessaria affinché essa abbia un massimo rispetto a θ è che

( )θθ

ddL = 0.

D’altra parte fare la derivata di L(θ) comporta, sulla base dell’espressione di cui sopra,

fare la derivata del prodotto ∏=

n

i 1f(xi; θ), cosa in generale abbastanza fastidiosa per le

note caratteristiche della derivazione di un prodotto. Per questo motivo, in genere si

preferisce massimizzare non la verosimiglianza L(θ) ma il logaritmo naturale della

verosimiglianza

l(θ) = ln L(θ) = ∑=

n

i 1ln f(xi; θ)

detto log-verosimiglianza. Essendo il logaritmo naturale una funzione monotona, è

garantito che il θ~ che massimizza la log-verosimiglianza l(θ) è identico a quello che

massimizza la verosimiglianza L(θ).

Di nuovo, se la log-verosimiglianza l(θ) è una funzione differenziabile allora condizione

necessaria affinché abbia un massimo è

s(θ) = ( )θθ

ddl = 0.

La derivata prima della log-verosimiglianza s(θ) è spesso indicata col termine score; di

conseguenza, se la log-verosimiglianza è differenziabile allora condizione necessaria

affinché abbia un massimo è che lo score sia 0.

Si nota come l’applicazione del logaritmo ha trasformato un prodotto in una somma,

decisamente più facile da derivare dato che in generale “la derivata di una somma è la

somma delle derivate”; il altre parole lo score è dato in generale da

s(θ) = ( )θθ

ddl = ∑

=

n

i 1 θdd ln f(xi; θ).

Page 30: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

30

Il valore θ~ che massimizza la verosimiglianza o la log-verosimiglianza è detto stima di

massima verosimiglianza del parametro incognito θ. Se nella soluzione si sostituiscono

alle determinazioni (x1, ..., xn) le corrispondenti variabili casuali (X1, ..., Xn) si ottengono

gli stimatori di massima verosimiglianza.

Ovviamente se la distribuzione della variabile casuale X, è caratterizzata da più

parametri θ1, ..., θk, per trovare il massimo occorrerà uguagliare a 0 ciascuna delle

derivate parziali rispetto ad ogni singolo parametro (lo score è quindi un vettore a k

componenti, una per ogni parametro incognito) e poi ricavare la stima dei parametri

facendo il sistema fra le equazioni ottenute.

Vediamo ora in alcuni esempi semplici come funziona il metodo della massima

verosimiglianza e le caratteristiche degli stimatori ottenuti con tale metodo. [Anche se

ad una prima lettura questo materiale sembra “vasto”, lo schema di ragionamento

seguito è sempre lo stesso e si basa su quanto esposto nelle sezioni precedenti. Si

consiglia lo studente di provare da solo, con carta e penna, a ricostruire il filo logico

degli argomenti presentati].

5.1.2. Esempio X ~ Be(p)

Se si ipotizza che la v.c. X ~ Be(p), allora la log-verosimiglianza è data da

l(p) = ∑=

n

i 1ln f(xi; p) = ∑

=

n

i 1ln ( ii xx qp −1 )

che dopo alcune semplificazioni diviene

l(p) = ln p∑=

n

i 1xi + ln q (n – ∑

=

n

i 1xi).

Derivando l(p) rispetto a p per ottenere lo score ed uguagliando a 0 si ottiene

s(p) = p1 ∑

=

n

i 1xi –

q1 (n – ∑

=

n

i 1xi) = 0.

Risolvendo tale equazione rispetto a p si ricava dopo alcuni passaggi che la stima di

massima verosimiglianza di p è

Page 31: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

31

p~ = n1 ∑

=

n

i 1xi = x .

Questo significa che lo stimatore di massima verosimiglianza di p è

p~ = X = n1 ∑

=

n

i 1Xi,

detta media campionaria. Poiché ciascuna Xi è una Be(p), allora essa risulterà 0

(INSUCCESSO) o 1 (SUCCESSO); ne consegue che ∑=

n

i 1Xi sarà semplicemente la

somma degli 1, cioè la somma dei successi nel campione, e X =n1 ∑

=

n

i 1Xi sarà

semplicemente la proporzione di successi nel campione.

Ma quali proprietà ha lo stimatore ottenuto?

• Da come è scritta la log-verosimiglianza si nota subito che ∑=

n

i 1Xi (e qualsiasi altra

trasformazione biunivoca della stessa) è una statistica sufficiente per p. Di

conseguenza p~ = X è uno stimatore sufficiente, essendo funzione di tale statistica

sufficiente.

• In secondo luogo la distribuzione campionaria di p~ = X può essere ricavata sulla

base di quanto detto nel cap. 2 sulla distribuzione Binomiale [rivedere!]. Infatti: Xi ~

Be(p) ⇒ ∑=

n

i 1Xi ~ Bi(n, p) ⇒ p~ = X =

n1 ∑

=

n

i 1Xi ~ BiRe(n, p). Dunque p~ = X si

distribuisce, esattamente, come una Binomiale con parametri n e p, relativizzata per

il numero di osservazioni del campione. Tale distribuzione per n sufficientemente

grande può essere approssimata con la distribuzione Normale avente la stessa media

(p) e la stessa varianza (pq/n) della Binomiale relativa. In simboli

p~ = X ~ BiRe(n, p) ≈ N(µ = p, σ2 = pq/n).

• Quanto detto permette di ottenere immediatamente i principali indici caratteristici

della distribuzione campionaria di p~ = X . Infatti, per le proprietà della Binomiale

relativa (menzionate sopra),

Page 32: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

32

E( X ) = p, V( X ) = pq/n.

Su questa base si vede subito che X è uno stimatore corretto di p e che, quindi, il

suo MSE( X ; p) coincide con la varianza dello stimatore.

• Calcoliamo ora il limite di Cramér-Rao. Ricordando la formula dello score, le

proprietà dei valori attesi e il fatto che, essendo ∑=

n

i 1Xi ~ Bi(n, p), E(∑

=

n

i 1Xi) = np,

allora

I(p) = –E ( )

dp

pds = –E(–p–2 ∑=

n

i 1Xi – q–2 (n – ∑

=

n

i 1Xi)) = p–2 n p + q–2 (n – np) =

n/pq,

da cui

1/I(p) = pq/n

che è identico a V( X ) (vedi sopra). Questo significa che X è in assoluto lo

stimatore migliore di p nella classe degli stimatori corretti.

• Da quanto detto sopra consegue che X è consistente in senso forte per p, dato che

MSE( X ; p) = pq/n tende a 0 per n → ∞. Poiché la consistenza forte implica quella

debole, X è anche consistente in senso debole per p.

5.1.3. Esempio X ~ Po(λλλλ)

Se si ipotizza che la v.c. X ~ Po(λ) allora la log-verosimiglianza è data da

l(λ) = ∑=

n

i 1ln f(xi; λ) = ∑

=

n

i 1ln

!i

x

xei λλ −

che dopo alcune semplificazioni diviene

l(λ) = ln λ∑=

n

i 1xi – nλ – ∑

=

n

i 1ln xi!

Derivando rispetto a λ per ottenere lo score ed uguagliando a 0 si ottiene

s(λ) = λ1 ∑

=

n

i 1xi – n = 0.

Risolvendo tale equazione rispetto a λ, si ricava che la stima di massima vero-

Page 33: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

33

simiglianza di λ è

λ~ = n1 ∑

=

n

i 1xi = x .

Questo significa che lo stimatore di massima verosimiglianza di λ è

λ~ = X = n1 ∑

=

n

i 1Xi,

di nuovo la media campionaria.

Ma quali proprietà ha lo stimatore ottenuto?

• Da come è scritta la log-verosimiglianza si nota subito che ∑=

n

i 1Xi (e qualsiasi altra

trasformazione biunivoca della stessa) è una statistica sufficiente per λ. Di

conseguenza λ~ = X è uno stimatore sufficiente, essendo funzione di tale statistica

sufficiente.

• In secondo luogo la distribuzione campionaria di λ~ = X può essere ricavata sulla

base di quanto detto nel cap. 2 sulla distribuzione Poisson [rivedere!]. Infatti: Xi ~

Po(λ) ⇒ (additività per v.c. Poisson indipendenti)∑=

n

i 1Xi ~ Po(nλ) ⇒ λ~ = X =

n1 ∑

=

n

i 1Xi ~ PoRe(nλ). Dunque λ~ = X si distribuisce, esattamente, come una

Poisson con parametro nλ, relativizzata per il numero di osservazioni del campione.

Tale distribuzione per n sufficientemente grande può comunque essere approssimata

con la distribuzione Normale avente la stessa media (λ) e la stessa varianza (λ/n)

della Poisson Relativa. In simboli

λ~ = X ~ PoRe(nλ) ≈ N(µ = λ, σ2 = λ/n).

• Quanto detto permette di ottenere immediatamente i principali indici caratteristici

della distribuzione campionaria di λ~ = X . Infatti per le proprietà della Poisson

relativa (menzionate sopra)

E( X ) = λ, V( X ) = λ/n.

Page 34: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

34

Su questa base si vede subito che X è uno stimatore corretto di λ e che, quindi, il

suo MSE( X ; λ) coincide con la varianza dello stimatore.

• Calcoliamo ora il limite di Cramér-Rao. Ricordando la formula dello score, le

proprietà dei valori attesi e il fatto che, essendo ∑=

n

i 1Xi ~ Po(nλ), E(∑

=

n

i 1Xi) = nλ,

allora

I(λ) = –E ( )

λλ

dds = –E(–λ–2 ∑

=

n

i 1Xi) = λ–2 n λ = n/λ,

da cui

1/I(λ) = λ/n

che è identico a V( X ) (vedi sopra). Questo significa che X è in assoluto lo

stimatore migliore di λ nella classe degli stimatori corretti.

• Da quanto detto sopra consegue che X è consistente in senso forte per λ, dato che

MSE( X ; λ) = λ/n tende a 0 per n → ∞. Poiché la consistenza forte implica quella

debole, X è anche consistente in senso debole per λ.

5.1.4. Esempio X ~ N(µµµµ, σσσσ2)

Se si ipotizza che la v.c. X ~ N(µ, σ2) allora la log-verosimiglianza è data da

l(µ, σ2) = ∑=

n

i 1ln f(xi; µ, σ2) = ∑

=

n

i 1ln

−2

2 21exp

2

µ

πσix

che dopo alcune semplificazioni diviene

l(µ, σ2) = –2n ln(2π) –

2n lnσ2 – 22

∑=

n

i 1(xi – µ)2.

In questo caso, ovviamente, la log-verosimiglianza dipende da 2 parametri e possiamo

distinguere i seguenti casi.

a) Stima di µµµµ con σσσσ2 nota

Se si vuole stimare µ e si conosce il valore di σ2, allora la log-verosimiglianza dipende

dal solo parametro µ. La formula è identica alla precedente ma conviene esplicitarla:

Page 35: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

35

l(µ) = –2n ln(2π) –

2n lnσ2 – 22

∑=

n

i 1(xi – µ)2.

Per ricavare la stima di massima verosimiglianza di µ, si deriva l(µ) rispetto µ per

ottenere lo score e si uguaglia a 0:

s(µ) = – 221σ

∑=

n

i 12(xi – µ)(–1) = 0,

che dopo alcune semplificazioni diviene

s(µ) = 21

σ(∑

=

n

i 1xi – nµ) = 0.

Risolvendo rispetto a µ si ricava che la stima di massima verosimiglianza di µ è

µ~ = n1 ∑

=

n

i 1xi = x .

Questo significa che lo stimatore di massima verosimiglianza di µ è

µ~ = X = n1 ∑

=

n

i 1Xi,

di nuovo la media campionaria.

Ma quali proprietà ha lo stimatore ottenuto?

• La distribuzione campionaria di µ~ = X può essere ricavata sulla base di quanto

detto nel cap. 2 sulla distribuzione Normale [rivedere!]. Infatti: Xi ~ N(µ, σ2) ⇒

(proprietà delle combinazioni lineari per v.c. Normali indipendenti con ci = 1/n per i

= 1, …, n) µ~ = X = n1 ∑

=

n

i 1Xi ~ N(µ, σ2/n). In breve, allora,

µ~ = X ~ N(µ, σ2/n).

• Quanto detto permette di ottenere immediatamente i principali indici caratteristici

della distribuzione campionaria di µ~ = X . Infatti per le proprietà della Normale

(menzionate sopra)

E( X ) = µ, V( X ) = σ2/n.

Page 36: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

36

Su questa base si vede subito che X è uno stimatore corretto di µ e che, quindi, il

suo MSE( X ; µ) coincide con la varianza dello stimatore.

• Calcoliamo ora il limite di Cramér-Rao. Ricordando la formula dello score e le

proprietà dei valori attesi allora

I(µ) = –E ( )

µµ

dds = –E( 2

(– n)) = n/σ2,

da cui

1/I(µ) = σ2/n

che è identico a V( X ) (vedi sopra). Questo significa che, se σ2 è noto, X è in

assoluto lo stimatore migliore di µ nella classe degli stimatori corretti.

• Da quanto detto sopra consegue che X è consistente in senso forte per µ, dato che

MSE( X ; µ) = σ2/n tende a 0 per n → +∞. Poiché la consistenza forte implica quella

debole, X è anche consistente in senso debole per µ.

b) Stima di σσσσ2 con µµµµ nota

Se si vuole stimare σ2 e si conosce il valore di µ, allora la log-verosimiglianza dipende

dal solo parametro σ2. La formula è identica alla precedente:

l(σ2) = –2n ln(2π) –

2n lnσ2 – 22

∑=

n

i 1(xi – µ)2.

Per ricavare la stima di massima verosimiglianza di σ2, si deriva rispetto σ2 per ottenere

lo score e si uguaglia a 0:

s(σ2) = – 22σn + 42

∑=

n

i 1(xi – µ)2 = 0.

Risolvendo rispetto a σ2, si ricava che la stima di massima verosimiglianza di σ2 è

2~σ = n1 ∑

=

n

i 1(xi – µ)2 = 2

**s .

Questo significa che lo stimatore di massima verosimiglianza di µ è

2~σ = 2**S =

n1 ∑

=

n

i 1(Xi – µ)2,

detta varianza campionaria con µµµµ nota.

Page 37: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

37

Ma quali proprietà ha lo stimatore ottenuto?

• La distribuzione campionaria di 2~σ = 2**S può essere ricavata sulla base di quanto

detto nel cap. 2 sulla distribuzione Chi-quadrato [rivedere!]. Infatti: Xi ~ N(µ, σ2)

⇒ σ

µ−iX ~ N(0, 1) ⇒

2

σµiX

~ χ2(1) ⇒ (additività per v.c. Chi-quadrato

indipendenti) ∑=

−n

i

iX

1

2

σµ

~ χ2(n). Ma ∑=

−n

i

iX

1

2

σµ

= 2

2**

σnS , per cui, in breve,

2

2**

σnS = ∑

=

−n

i

iX

1

2

σµ

~ χ2(n).

• Quanto detto permette anche di ottenere immediatamente i principali indici

caratteristici della distribuzione campionaria di 2~σ = 2**S . Infatti, per le proprietà

della Chi-quadrato,

E

2

2**

σnS = n V

2

2**

σnS = 2n,

da cui deriva, sfruttando le proprietà dei valori attesi,

E( 2**S ) = σ2 V( 2

**S ) = 2σ4/n.

Su questa base si vede subito che 2~σ = 2**S è uno stimatore corretto di σ2 e che,

quindi, il suo MSE( 2**S ; σ2) coincide con la varianza dello stimatore.

• Calcoliamo ora il limite di Cramér-Rao. Ricordando la formula dello score, le

proprietà dei valori attesi e il fatto che, essendo ∑=

−n

i

iX

1

2

σµ

~ χ2(n), E(∑=

−n

i

iX

1

2

σµ

)

= n, allora

I(σ2) = –E ( )

2

2

σσ

dds = –E( 42σ

n – 621σ

∑=

n

i 1(xi – µ)2) = – 42σ

n + 4σn = 42σ

n ,

da cui

1/I(σ2) = 2σ4/n

Page 38: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

38

che è identico a V( 2**S ) (vedi sopra). Questo significa che, se µ è noto, 2

**S è in

assoluto lo stimatore migliore di σ2 nella classe degli stimatori corretti.

• Da quanto detto sopra consegue che 2**S è consistente in senso forte per σ2, dato

che MSE( 2**S ; σ2) = 2σ4/n tende a 0 per n → ∞. Poiché la consistenza forte implica

quella debole, 2**S è anche consistente in senso debole per σ2.

c) Stima di µµµµ e σσσσ2 entrambi incogniti

Se si vuole stimare µ e σ2 entrambi incogniti (la cosa più comune nella pratica), allora la

log-verosimiglianza è quella vista all’inizio di questo esempio:

l(µ, σ2) = –2n ln(2π) –

2n lnσ2 – 22

∑=

n

i 1(xi – µ)2.

Per ricavare la stima di massima verosimiglianza di µ e σ2 occorre derivare rispetto ad

entrambe le variabili, ottenendo (i passaggi sono gli stessi visti in precedenza) le due

componenti del vettore score, ed uguagliarle a 0:

s(µ) = 21

σ(∑

=

n

i 1xi – nµ) = 0,

s(σ2) = – 22σn + 42

∑=

n

i 1(xi – µ)2 = 0.

Facendo il sistema e risolvendo rispetto ai parametri si ottengono le stime:

µ~ = x =n1 ∑

=

n

i 1xi 2~σ =

n1 ∑

=

n

i 1(xi – x )2 = 2

*s .

Questo significa che gli stimatori di massima verosimiglianza di µ è di σ2 sono

rispettivamente

µ~ = X =n1 ∑

=

n

i 1Xi 2~σ = 2

*S = n1 ∑

=

n

i 1(Xi – X )2,

ovvero, rispettivamente, la media campionaria e la varianza campionaria non

corretta.

Ma quali proprietà hanno gli stimatori ottenuti?

Page 39: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

39

• Da come è scritta la log-verosimiglianza si ricava subito che la coppia di statistiche

∑=

n

i 1Xi e ∑

=

n

i 1

2iX (e qualsiasi altra trasformazione biunivoca di tale coppia) è

sufficiente per µ e σ2 (per ottenere tale risultato basta svolgere il quadrato nel

termine ∑=

n

i 1(xi – µ)2 e operare le relative somme). Di conseguenza µ~ = X e 2~σ =

2*S sono insieme stimatori sufficienti, essendo funzione di tali statistiche

sufficienti.

• Analizziamo adesso la distribuzione campionaria di 2~σ = 2*S . Innanzitutto si può

dimostrare (si omette la dimostrazione perché piuttosto complessa) che le v.c. X e 2*S sono fra loro indipendenti. Inoltre sottraendo e sommando X all’interno di

∑=

n

i 1(Xi – µ)2 si ricava

∑=

n

i 1(Xi – µ)2 = ∑

=

n

i 1(Xi – X )2 + n( X –µ)2

che, dividendo per σ2, equivale a

∑=

n

i 1

2

σµiX

= ∑=

n

i 1

2

−σ

XX i + 2

/

−n

µ .

Ora, poiché il membro di sinistra si distribuisce secondo una χ2(n) e il secondo

addendo a destra si distribuisce secondo una χ2(1) ed è indipendente dal precedente

(per quanto detto sopra) per differenza

2

2*

σnS = ∑

=

n

i 1

2

−σ

XX i ~ χ2(n – 1).

• Quanto detto permette di ottenere immediatamente i principali indici caratteristici

della distribuzione campionaria di 2~σ = 2*S . Infatti per le proprietà della Chi-

quadrato

E

2

2*

σnS

= n – 1 V

2

2*

σnS

= 2(n – 1),

da cui deriva, sfruttando le proprietà dei valori attesi,

Page 40: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

40

E( 2*S ) =

nn 1− σ2 V( 2

*S ) = 2σ421

nn − .

Su questa base si vede subito che 2~σ = 2*S è uno stimatore distorto di σ2 con

bias( 2*S ; σ2) = E( 2

*S ) – σ2 = –σ2/n. Inoltre, facendo due conti, MSE( 2*S ; σ2) =

σ4(2n – 1)/n2.

• Essendo 2*S uno stimatore distorto di σ2, il teorema di Cramér-Rao non si applica

perché viene a cadere una delle ipotesi fondamentali dello stesso.

• Chiaramente poiché MSE( 2*S ; σ2) = σ4(2n – 1)/n2 tende a 0 per n → ∞, 2

*S è uno

stimatore consistente in senso forte per σ2. Dato poi che la consistenza forte

implica quella debole, 2*S è anche consistente in senso debole per σ2.

Dalla formula del valore atteso di 2*S si nota tuttavia che se ne può facilmente ricavare

uno non distorto. Infatti se nel valore atteso di 2*S si moltiplichiano ambo i membri per

n/(n – 1), quello di destra diviene σ2 e lo stimatore (portando il fattore all’interno della

parentesi) diviene

2*1

Sn

n−

= 1−n

nn1 ∑

=

n

i 1(Xi – X )2 =

11−n ∑

=

n

i 1(Xi – X )2

Questo nuovo stimatore di σ2

S2 = 1

1−n ∑

=

n

i 1(Xi – X ),

ha quindi la proprietà di essere corretto ed è per questo detto varianza campionaria

corretta. Ovviamente S2 non è stimatore di massima verosimiglianza di σ2.

• Per la distribuzione campionaria di S2 si considera la v.c.

( )2

21σ

Sn − = 2

2*

σnS = ∑

=

n

i 1

2

−σ

XX i ~ χ2(n – 1).

• Questo risultato permette di ottenere immediatamente i principali indici caratteristici

della distribuzione campionaria di S2. Infatti per le proprietà della Chi-quadrato

Page 41: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

41

E ( )

−2

21σ

Sn = n – 1 V ( )

−2

21σ

Sn = 2(n – 1),

da cui deriva, sfruttando le proprietà dei valori attesi,

E(S2) = σ2 V(S2) = 2σ4/(n – 1).

Su questa base si vede subito che S2 è uno stimatore corretto di σ2 (risultato ovvio

per come è stato costruito!) e che, quindi, il suo MSE(S2; σ2) coincide con la

varianza dello stimatore.

• Confrontiamo questo risultato con il limite di Cramér-Rao. Tale limite, lo abbiamo

trovato in precedenza, è:

1/I(σ2) = 2σ4/n

che come si nota è più piccolo di V(S2) (vedi sopra). Questo significa che S2 non è in

assoluto lo stimatore migliore di σ2 nella classe degli stimatori corretti, anche se la

differenza rispetto al limite di Cramér-Rao è esigua e diminuisce rapidamente al

crescere di n.

• A sua volta, da quanto detto sopra consegue che S2 è consistente in senso forte per

σ2, dato che MSE(S2; σ2) = 2σ4/(n – 1) tende a 0 per n → ∞. Dato poi che la

consistenza forte implica quella debole, S2 è anche consistente in senso debole per

σ2.

Veniamo ora alle caratteristiche dello stimatore µ~ = X .

• Apparentemente sembrerebbe che, essendo lo stimatore identico al caso in cui σ2 è

noto, non cambi niente rispetto a quanto detto nel caso a). In realtà la distribuzione

dello stimatore vista in precedenza, cioè µ~ = X ~ N(µ, σ2/n), non è più utilizzabile,

in quanto σ2 non è noto. Se, come sembra logico, si prova a sostituire σ2 con una

sua stima, ad esempio S2, la distribuzione non è più la stessa, perché si sostituisce

una costante con una v.c. Tuttavia utilizzando quanto detto nel cap. 2 sulla

distribuzione T [rivedere!] è possibile ricavare la distribuzione di X . Infatti X ~

N(µ, σ2/n) ⇒ n

X/σ

µ− ~ N(0, 1). Sostituendo al denominatore σ con la sua stima S si

ricava

Page 42: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

42

( ) ( )11/

///

/2

2−−

=

=−

nSnn

X

nnSn

X

nSX

σ

σµ

σ

σµ

µ ~ T(n – 1)

dato che il numeratore è una normale standard, il denominatore è la radice di una

Chi-quadrato con (n – 1) gradi di libertà divisa per i gradi di libertà e numeratore e

denominatore sono indipendenti (per la citata indipendenza di X e S2).

• In base al risultato precedente si può dimostrare (la dimostrazione però è complessa)

che

E( X ) = µ, V( X ) = n

n 2− σ2/n.

Su questa base si vede subito che X è uno stimatore corretto di µ e che, quindi, il

suo MSE( X ; µ) coincide con la varianza dello stimatore. Si nota anche che la

varianza di X è leggermente maggiore rispetto al caso in cui σ2 è nota: è il “prezzo”

da pagare per il fatto di doverla stimare.

• Confrontiamo questo risultato con il limite di Cramér-Rao. Tale limite, lo abbiamo

trovato in precedenza, è

1/I(µ) = σ2/n

che come si nota è più piccolo di V( X ) (vedi sopra). Questo significa che X non è

in assoluto lo stimatore migliore di µ nella classe degli stimatori corretti, anche se la

differenza rispetto al limite di Cramér-Rao è esigua e diminuisce rapidamente al

crescere di n.

• Da quanto detto sopra consegue che X è consistente in senso forte per µ, dato che

MSE( X ; µ) = n

n 2− σ2/n tende a 0 per n → ∞. Poiché la consistenza forte implica

quella debole, X è anche consistente in senso debole per µ.

5.1.5. Esempio X ~ Ga(αααα, ββββ)

Se si ipotizza che la v.c. X ~ Ga(α, β) allora la log-verosimiglianza è data da

Page 43: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

43

l(α, β) = ∑=

n

i 1ln f(xi; α, β) = ∑

=

n

i 1ln ( )

Γ

−− xex βαα

αβ 1

che dopo alcune semplificazioni diviene

l(α, β) = nα lnβ – n ln Γ(α) – (α – 1) ∑=

n

i 1lnxi – β∑

=

n

i 1xi.

In questo caso, ovviamente, la log-verosimiglianza dipende da 2 parametri. Supponiamo

che siano entrambi incogniti.

Per ricavare la stima di massima verosimiglianza di α e β occorre derivare rispetto ad

entrambe le variabili, ottenendo le due componenti del vettore score, ed uguagliarle a 0:

s(α) = n lnβ – n ( )( )αα

ΓΓ' – ∑

=

n

i 1lnxi = 0,

s(β) = βαn –∑

=

n

i 1xi = 0.

Dalla seconda delle due espressioni è semplice ricavare β in funzione di α. Tuttavia

sostituendo tale risultato nella prima equazione, la funzione gamma ivi coinvolta rende

impossibile la derivazione analitica della stima di α. E senza scrivere la stima di α non è

possibile esplicitare neppure quella di β. Questa situazione è interessante perché

consente alcune precisazioni importanti.

• Da come è scritta la log-verosimiglianza si ricava subito che la coppia di statistiche

∑=

n

i 1lnxi e∑

=

n

i 1xi (e qualsiasi altra trasformazione biunivoca di tale coppia) è

sufficiente per α e β. Di conseguenza anche se non si riesce a dare l’espressione

esplicita, α~ e β~ sono insieme stimatori sufficienti. Infatti essendo questi il

risultato della massimizzazione della log-verosimiglianza e dipendendo questa dal

campione solo tramite tali statistiche, ovviamente anche il punto di massimo della

log-verosimiglianza, cioè (α~ , β~ ), dipenderà dal campione solo via le statistiche

sufficienti. Non può dipendere che da quello che c’è!

Page 44: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

44

• Come detto, non è possibile esplicitare le formule degli stimatori di massima

verosimiglianza α~ e β~ . Questo non significa che tali stimatori non esistono, ma

solo, ripetiamo, che è impossibile scriverli in forma esplicita come funzione del

campione. In base al punto precedente sappiamo solo che dipendono dal campione

tramite le statistiche sufficienti ∑=

n

i 1lnxi e∑

=

n

i 1xi, ma la formula esplicita non si riesce

a scrivere.

Questa situazione, apparentemente strana e complicata, in realtà è (quasi) la regola.

Infatti solo pochi modelli statistici, fra i quali quelli visti in precedenza, consentono di

esplicitare la formula degli stimatori, di ricavarne l’esatta distribuzione campionaria, di

indicare l’esatto valore degli indici caratteristici quali valore atteso, varianza e MSE.

Quando questo non è possibile, come accade di norma, allora:

1. la massimizzazione della verosimiglianza può avvenire solo tramite algoritmi

iterativi, implementati su calcolatore, che trovano valore in corrispondenza del

massimo per approssimazioni successive iniziando da un punto di partenza (starting

point);

2. le proprietà degli stimatori di massima verosimiglianza che si possono utilizzare

sono essenzialmente quelle asintotiche (consistenza + efficienza asintotica +

distribuzione asintotica) di cui discuteremo nel seguito.

5.1.6. Proprietà degli stimatori di massima verosimiglianza

Finora abbiamo analizzato una serie di esempi, nei quali abbiamo visto (quando è stato

possibile) che gli stimatori trovati hanno particolari proprietà, in genere abbastanza

buone. C’è da chiedersi: fortuna? Oppure è il metodo della massima verosimiglianza

che ogni volta fornisce stimatori dalle buone caratteristiche? Inoltre: le proprietà degli

stimatori trovati vanno valutate caso per caso oppure è possibile trovare qualche

proprietà valida in generale, ogni volta che il metodo della massima verosimiglianza è

utilizzato?

Page 45: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

45

Ebbene, è possibile dimostrare che gli stimatori ottenuti col metodo della massima

verosimiglianza godono di alcuna proprietà importanti.

1. Invarianza: si può dimostrare che se θ~ è lo stimatore di massima verosimiglianza

di θ allora g(θ~ ) è lo stimatore di massima verosimiglianza di g(θ). In altri termini

per stimare tramite massima verosimiglianza una qualche trasformazione di un

parametro già stimato basta prendere la vecchia stima e trasformare questa allo

stesso modo. Ad esempio: nel modello normale la stima di massima verosimiglianza

di σ è la radice quadrata di 2~σ ; oppure nel modello di Poisson la stima di massima

verosimiglianza di 1/λ è direttamente 1/ λ~ . Quella di invarianza sembra una

proprietà ragionevole (e perfino banale). In realtà non sono molti i metodi di stima

che ne godono.

2. Stimatori sufficienti: Se esistono delle statistiche sufficienti allora gli stimatori di

massima verosimiglianza sono funzione di questi e pertanto sono stimatori

sufficienti. Come tali gli stimatori di massima verosimiglianza riassumono tutta

l’informazione sui parametri presente nel campione. Questa proprietà è una

conseguenza banale del criterio di fattorizzazione. Infatti se esistono stimatori

sufficienti allora (si veda sez. 4.1) la log-verosimiglianza è la somma di due

componenti: una dipende solo dal parametro e dalle statistiche sufficienti, l’altra

solo dal campione; in simboli

l(θ) = ln f(x; θ) = g1(T(x); θ) + h1(x).

Siccome quando si deriva per trovare il massimo, la parte che non dipende dal

parametro va via, allora lo score è

s(θ) = ( )θθ

ddl =

( )( )θ

θd

xTdg ;1 = 0.

E’ ovvio che, qualunque sia l’equazione che viene fuori dalla precedente

uguaglianza (anche ipercomplicata), il θ~ potrà dipendere solo da quello che c’è in

questa equazione, e dunque non da tutto il campione ma solo da T (se ovviamente

un T sufficiente esiste).

3. Efficienza “per campioni finiti”: Si può dimostrare che se esiste uno stimatore

corretto la cui varianza è pari al limite di Cramér-Rao, allora il metodo della

massima verosimiglianza individua “automaticamente” tale stimatore (cfr esempi

Page 46: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

46

visti in precedenza). Più in generale, gli stimatori di massima verosimiglianza hanno

buone proprietà per campioni finiti.

4. Efficienza “asintotica”: Si può dimostrare che sotto condizioni molto generali di

regolarità, lo stimatore di massima verosimiglianza θ~ è asintoticamente (cioè per n

→ ∞) efficiente, ovvero:

a. è asintoticamente corretto, cioè

∞→nlim E( nθ~ ) = θ;

questo significa che la distorsione bias( nθ~ ; θ) va a 0 per n → ∞;

b. la sua varianza tende al limite di Cramér-Rao il quale a sua volta tende a 0, cioè

∞→nlim V( nθ~ ) = 1/Ι(θ);

c. poiché di norma 1/Ι(θ) tende a 0 per n → ∞ è di conseguenza consistente in

senso forte e quindi anche in senso debole.

5. Normalità asintotica: Si può dimostrare che, per n → ∞, nθ~ ha distribuzione

Normale con media il vero valore di θ e varianza pari al limite inferiore di Cramér-

Rao. In simboli

nθ~ ≈ N[θ, 1/I(θ)].

Gli ultimi tre risultati, e in particolare gli ultimi due, sono di importanza fondamentale.

Richiamato il fatto che la proprietà 3 vale per campioni di qualsiasi dimensione, mentre

la 4 e la 5 solo per “grandi” campioni, in generale tali proprietà affermano che, se il

modello è correttamente specificato, il metodo della massima verosimiglianza fornisce

buoni stimatori. Talmente buoni che:

• per certi modelli raggiungono situazioni di ottimo anche per piccoli campioni,

fornendo ad esempio il miglior stimatore fra quelli corretti (proprietà 3);

• in generale sono praticamente imbattibili al crescere della dimensione campionaria

(proprietà 4).

Ma c’è di più. Infatti la proprietà 5 consente, se il campione è abbastanza grande, di

derivare la distribuzione campionaria di qualsiasi stimatore, anche in quei casi (che

come detto sono la maggioranza) nei quali lo stimatore non può essere scritto in forma

Page 47: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

47

esplicita e per il quale, di conseguenza, è impossibile determinare distribuzione

campionaria, valore atteso, varianza, ecc. Ad esempio per il modello Ga(α, β) di cui alla

sez. 5.1.5, facendo i calcoli di I(α) e I(β) si ricava che

nα~ ≈ N[α, 1/I(α)] = N ( )( ) ( ) ( )

Γ−ΓΓΓ

2

2

'''1,

ααααα

n

nβ~ ≈ N[β, 1/I(β)] = N

αββ

21,n

.

Per enfatizzarne l’importanza, le proprietà asintotiche 4 e 5 sono state identificate con le

sigle BAN, Best Asymptotically Normal ovvero “asintoticamente il migliore stimatore e

pure con distribuzione Normale”, oppure CANE, Consistent Asimptotically Normal

Efficient ovvero “consistente, asintoticamente efficiente e pure con distribuzione

Normale”.

5.2. Stimatori analoghi

Sia X la v.c. che rappresenta il fenomeno d’interesse e supponiamo che la distribuzione

di X sia caratterizzata da uno o più parametri θ ∈ Θ. Supponiamo poi di disporre di un

c.c.s. X = (X1, …, Xn) estratto da X.

Facendo riferimento ad un singolo parametro da stimare θ, il metodo degli stimatori

analoghi può essere utilizzato quando θ ha una particolare interpretazione in termini di

indici caratteristici della v.c. X. Infatti per stimatore analogo si intende uno stimatore

la cui formula è suggerita dall’analogia interpretativa con il parametro da stimare θ in

termini di indici caratteristici. Gli esempi che seguono chiariranno il senso di tale

analogia.

Si sottolinea di nuovo che, per la loro natura, è possibile trovare stimatori analoghi solo

nei casi in cui il parametro ha un’interpretazione semplice che permette di sfruttare

l’analogia. E’ chiaro anche che quando può essere utilizzato, tale approccio è di

semplice applicazione, dato che è l’interpretazione del parametro in termini di indici

caratteristici a suggerire in modo pressoché immediato uno stimatore.

Aggiungiamo infine che, viste le ottime proprietà degli stimatori di massima

verosimiglianza, gli stimatori analoghi in genere non sono in competizione con questi

Page 48: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

48

ma sono utilizzati soprattutto in contesti semiparametrici (si veda sez. 1.1), cioè quando

la distribuzione della v.c. non è completamente specificata ma se ne vogliono conoscere

ugualmente certi indici caratteristici.

5.2.1. Esempio X ~ (µµµµ, σσσσ2)

Supponiamo che la v.c. X abbia media µ e varianza σ2 ma non si vogliano fare ipotesi

sulla, distribuzione di X. Vogliamo stimare µ e σ2.

Siccome µ ha, appunto, una interpretazione in termini di media di X, lo stimatore

analogo più immediato è la media campionaria

µ̂ = X = n1 ∑

=

n

i 1Xi.

Ma quali proprietà ha tale stimatore?

• Non essendo nota la distribuzione della v.c. di partenza, l’esatta distribuzione

campionaria di X non può essere ricavata.

• Possono essere tuttavia ricavati alcuni momenti di X , e in particolare

E( X ) = µ V( X ) = σ2/n,

ricorrendo dalle proprietà delle combinazioni lineari di v.c. di cui alle v.c. multiple

nel cap. 2 [si invita lo studente a dimostrarle per conto proprio]. Questo implica che

X è uno stimatore di µ corretto, con MSE uguale alla varianza, consistente in

senso forte e quindi anche in senso debole.

• Per ricavare una distribuzione approssimata di X bisogna ricorrere al teorema del

limite centrale (cap. 2), sulla base del quale per n → ∞ X ha approssimativamente

una distribuzione Normale con media µ e varianza σ2/n; in simboli

X ≈ N(µ, σ2/n).

Purtroppo questa distribuzione contiene il parametro σ2. Nel caso in cui questo sia

noto non c’è nient’altro da aggiungere e quella indicata è la distribuzione che

conviene considerare (sempre se n è sufficientemente grande). Tuttavia anche nel

caso in cui σ2 non è noto, dato che la distribuzione di cui sopra è solo una

Page 49: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

49

distribuzione asintotica, è possibile dimostrare che essa rimane inalterata se al posto

di σ2 si mette una sua stima (di cui diremo tra breve) fatta con uno stimatore

consistente.

Giusto a proposito di σ2. Siccome tale parametro ha una interpretazione in termini di

varianza di X, lo stimatore analogo più immediato è la varianza campionaria, in una

delle diverse versioni già viste: se µ è noto conviene stimare σ2 con la varianza

campionaria con µµµµ nota, cioè

2σ̂ = 2**S =

n1 ∑

=

n

i 1(Xi – µ)2,

altrimenti se µ non è noto si può ricorrere alla varianza campionaria corretta, ovvero

2σ̂ = S2 = 1

1−n ∑

=

n

i 1(Xi – X )2.

Ma quali proprietà ha tale stimatore?

• Non essendo nota la distribuzione della v.c. di partenza, l’esatta distribuzione

campionaria di 2**S e di S2 non può essere ricavata.

• Possono essere tuttavia derivati alcuni momenti di 2**S e di S2, e in particolare:

E( 2**S ) = σ2 V( 2

**S ) = [ 4µ – σ4] /n,

che sono utili se µ è noto;

E(S2) = σ2 V(S2) = [ 4µ – (n–3)/(n–1)σ4] /n,

che sono utili se µ è incognito ( 4µ = E[(X – µ)2] è il momento 4° centrale della v.c.

X). Questo implica che entrambi gli stimatori sono corretti, consistenti in senso

forte e quindi anche in senso debole di σ2.

• Anche per 2**S e di S2 può essere ricavata una distribuzione asintotica che però non

esplicitiamo per lo scarso uso che ne faremo in questo corso.

Page 50: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

50

5.2.2. Esempi X ~ Be(p), X ~ Po(λλλλ)

Si invita lo studente a riflettere sul fatto che nei casi X ~ Be(p) e X ~ Po(λ), lo stimatore

analogo del parametro sarebbe stato in entrambi i casi X , dato che i parametri p e λ

sono anche le medie delle rispettive distribuzioni. In questi casi allora lo stimatore

analogo coincide con quello di massima verosimiglianza per cui sono identiche anche le

proprietà.

5.3. Altri metodi di stima puntuale

Oltre al metodo della massima verosimiglianza e a quello degli stimatori analogici,

molti altri metodi di stima sono stati proposti in letteratura. Un elenco, non esaustivo, è

stato fatto all’inizio della sez. 5, nel quale ai due metodi indicati abbiamo aggiunto il

metodo della minima perdita (all’interno del quale ha un’importanza particolare il

metodo dei minimi quadrati), il metodo dei momenti, il metodo della minima

distanza, il metodo del minimo χχχχ2.

In linea di massima, viste le eccellenti proprietà degli stimatori di massima

verosimiglianza, in un contesto di inferenza parametrica in cui il modello è ben

specificato tale metodo è pressoché imbattibile, come molti esperimenti di simulazione

al calcolatore hanno dimostrato in contesti assai diversi. Gli altri metodi sono utilizzati,

allora, soprattutto negli “spazi lasciati liberi” dal metodo della massima

verosimiglianza, e cioè:

1. o quando il modello non è completamente specificato, come accade nell’inferenza

semiparametrica (è il caso dei metodi della minima perdita, dei momenti e degli

stimatori analoghi);

2. o quando la verosimiglianza è troppo difficile da calcolare (è di nuovo il caso del

metodo dei momenti);

3. o quando la struttura dei dati rende utile il ricorso ad altri metodi (è il caso di metodi

della minima distanza, e del minimo χχχχ2).

Poiché una trattazione esauriente dei metodi di stima va oltre i propositi di questo corso

conviene fermarsi qui. In seguito si parlerà diffusamente del solo metodo dei minimi

quadrati quando discuteremo del modello di regressione lineare.

Page 51: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

51

Page 52: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

52

6. Stima per intervallo Nelle pagine precedenti è stato considerato il problema della scelta del modo migliore

per stimare uno o più parametri incogniti θ, sulla base di un campione di osservazioni.

In base di quanto detto, si può presumere che se lo stimatore utilizzato possiede “buone”

proprietà, la stima ottenuta θ̂ sia “abbastanza vicina” al parametro incognito da stimare

θ. Tuttavia un singolo numero non dà nessuna indicazione sulle probabilità che la stima

θ̂ assuma un valore prossimo a quello del parametro θ. Con il metodo di stima per

intervallo si supera questo inconveniente. Infatti, detto in parole semplici, la stima per

intervallo consiste nella ricerca di un intervallo che, con “alta probabilità”, contiene il

valore vero del parametro da stimare.

Definiamo ora il concetto con precisione. Sia X la solita v.c. che rappresenta il

fenomeno d’interesse e supponiamo che X si distribuisca secondo la funzione di massa o

di densità f(x; θ) dove θ ∈ Θ. Supponiamo poi che da X sia stato estratto un c.c.s. x =

(x1, …, xn) che costituisce l’informazione a disposizione; tale campione è solo una delle

possibili realizzazioni nell’universo dei campioni rappresentato dalla v.c. X = (X1, …,

Xn), del quale ogni singola variabile Xi ha la stessa distribuzione di X.

La procedura di stima per intervallo di θ consiste nella determinazione, sulla base delle

informazioni campionarie, di due estremi L1(X) (estremo inferiore) e L2(X) (estremo

superiore) in modo da soddisfare la relazione

P[L1(X) ≤ θ ≤ L2(X)] = 1 – α,

dove: α ∈ (0, 1), usualmente pari a 0.95, 0.99 o 0.999, è detto livello di confidenza;

l’intervallo [L1(X), L2(X)] è detto stimatore per intervallo o, più comunemente,

intervallo di confidenza, dove L1(X) e L2(X) sono v.c. in quanto funzioni del campione

di v.c. X. Sostituendo nelle formule di L1(X) e L2(X) il campione a disposizione x = (x1,

…, xn) al posto di X = (X1, …, Xn), si ottiene la stima per intervallo o intervallo di

confidenza numerico [L1(x), L2(x)] utilizzato nella pratica.

Si fa notare che fra l’intervallo casuale [L1(X), L2(X)] e quello numerico [L1(x), L2(x)]

c’è la stessa differenza che, nell’ambito della stima puntuale, esiste fra stimatore T(X) e

Page 53: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

53

stima T(x): proprio questo suggerisce di chiamare [L1(X), L2(X)] stimatore per intervallo

e [L1(x), L2(x)] stima per intervallo di θ. Evidentemente nelle situazioni reali si dispone

di un solo campione, e quindi di una sola determinazione [L1(x), L2(x)], dell'intervallo

casuale di confidenza [L1(X), L2(X)]: pertanto [L1(x), L2(x)] potrà essere o uno degli (1 –

α)% includenti θ o uno degli α% che non lo includono. Quindi non si può dire che

l’intervallo [L1(x), L2(x)] ha probabilità 1 – α di contenere il vero valore del parametro

incognito θ. Infatti, o lo contiene, e allora la probabilità è 1, o non lo contiene, e allora la

probabilità è 0: la probabilità è riferita allo stimatore [L1(X), L2(X)] e non alla stima

[L1(x), L2(x)]. Da tale constatazione deriva la dizione, per 1 – α , di livello di

confidenza e non di livello di probabilità.

Ogni intervallo di confidenza è caratterizzato da due elementi essenziali:

1. il livello di confidenza, che ne misura l’affidabilità o attendibilità;

2. l’ampiezza dell’intervallo, che ne misura l’informatività.

Ovviamente, l’obiettivo da perseguire è individuare intervalli contemporaneamente

molto affidabili e altamente informativi. Purtroppo, tra affidabilità e informatività c’è

sempre una relazione inversa: all’aumentare del livello di confidenza (affidabilità)

aumenta anche l’ampiezza dell’intervallo e, quindi, diminuisce la sua informatività. Non

è quindi possibile, nella determinazione di un intervallo di confidenza, perseguire

contemporaneamente il duplice obiettivo di massimizzare il livello di confidenza e

minimizzare l’ampiezza dell’intervallo. La procedura usualmente seguita è allora quella

di fissare il livello di confidenza 1 – α e individuare il conseguente intervallo di

ampiezza minima.

Ma come fare per determinare un intervallo di confidenza? Fra i molti metodi proposti

in letteratura si considera il solo metodo del pivot (o metodo del cardine). Prima di

illustrare il metodo occorre chiarire cos’è un pivot.

Definizione 10: Definizione di pivot. Sia X una v.c. con funzione di massa o di densità

f(x; θ), dove θ ∈ Θ, e sia X = (X1, …, Xn) un c.c.s. estratto da X. Allora

Page 54: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

54

un pivot (o cardine) è una quantità che possiede le seguenti

caratteristiche:

1. è funzione del campione X = (X1, …, Xn);

2. è funzione di θ (il parametro di cui si vuol trovare l’intervallo di

confidenza);

3. non contiene altri parametri incogniti (oltre a θ);

4. la sua distribuzione è completamente nota;

5. è invertibile rispetto a θ.

Sulla base di queste caratteristiche possiamo identificare il pivot con

Q(X; θ).

Il concetto di pivot e, soprattutto, la sua utilità saranno completamente chiari solo dopo

aver visto alcuni esempi. Come passo iniziale si invita tuttavia lo studente a confrontare

la definizione di pivot con quelle di statistica e di stimatore, appuntando analogie e

differenze.

Vediamo ora come avendo a disposizione un pivot è possibile trovare un intervallo di

confidenza per il parametro d’interesse. Il metodo del pivot si articola nei seguenti

passi:

1. si sceglie il livello di confidenza 1 – α;

2. si individua un pivot Q(X; θ) per il problema in analisi;

3. si determina l’intervallo più stretto (più informativo) [q1, q2] all’interno del quale il

pivot è compreso con probabilità pari al livello di confidenza scelto, cioè

P[q1 ≤ Q(X; θ) ≤ q2] = 1 – α;

4. si inverte la relazione q1 ≤ Q(X; θ) ≤ q2 rispetto a θ in modo da ricavare l’intervallo

di confidenza cercato per θ, che quindi soddisferà

P[L1(X) ≤ θ ≤ L2(X)] = 1 – α.

La descrizione del metodo, la cui applicazione sarà definitivamente chiara solo dopo

aver visto gli esempi, permette di argomentare perché un pivot deve avere le

caratteristiche richieste nella definizione. Infatti: 1. deve essere funzione del campione X

perché se questo non compare non è possibile sfruttarne l’informazione; 2. deve

Page 55: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

55

dipendere dal parametro θ perché altrimenti è impossibile ricavare un intervallo di

confidenza per θ se questo non c’è; 3. non deve dipendere da altri parametri incogniti

perché altrimenti la soluzione è funzione di qualcosa che non si conosce ed è del tutto

inutile; 4. la sua distribuzione deve essere completamente nota perché altrimenti non è

possibile calcolare l’intervallo per il pivot, [q1, q2], di cui al punto 3; 5. deve infine

essere invertibile rispetto al parametro perché altrimenti non è possibile ricavare

l’intervallo per θ, [L1(X), L2(X)], di cui al punto 4.

Rimane un ultimo punto da definire: come si trova un pivot? In linea di massima questo

aspetto deve essere affrontato caso per caso, come vedremo negli esempi. Tuttavia, la

via più facile per individuare un pivot è quella di partire da uno stimatore puntuale θ̂ ,

possibilmente ottimale, del parametro incognito θ e poi effettuare opportune

trasformazioni in modo da ricavare il pivot.

Gli esempi che seguono, che illustrano il metodo per alcuni modelli, dovrebbero chiarire

definitivamente come funziona il metodo del pivot. Nei primi esempi svolgeremo tutti i

passaggi logici con un certo dettaglio; successivamente, dato che molti passaggi si

ripetono analoghi, ci limiteremo ai soli punti principali; si consiglia tuttavia lo studente

di ripetere per tutti gli esempi l’intero ragionamento. Si evidenzia infine che nelle

applicazioni pratiche non è necessario ripetere tutti i passi del metodo: basta utilizzare il

pivot oppure le formule finali. Conoscere il metodo, però, serve per dare una base logica

a quanto fatto operativamente e per avere chiaro il perché di quello che si fa. [Poiché

faremo uso di molti concetti visti sia nel cap. 2 che nelle sezioni precedenti di questo

capitolo, si raccomanda lo studente di riguardare queste parti quando necessario. Di

nuovo, inoltre, si invita lo studente a ricostruire il filo logico degli argomenti presentati

carta e penna alla mano.]

6.1. X ~ N(µµµµ, σσσσ2): intervallo per µµµµ con σσσσ2 nota

Sia X ~ N(µ, σ2) con σ2 nota. Si vuole costruire un intervallo di confidenza per µ, sulla

base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α).

Page 56: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

56

• Il punto cruciale è l’individuazione del pivot (passo 2 del metodo).

- Si parte da uno stimatore puntuale “buono” di µ (si veda sez. 5.1.4):

X .

Questo non è un pivot perché dipende dal campione ma non da µ, il parametro

di cui si vuol trovare l’intervallo.

- Ricordando che X ~ N(µ, σ2/n) (sez. 5.1.4), possiamo allora considerare come

candidato a pivot

X – µ.

Questo è un pivot perché dipende dal campione, dipende da µ, non dipende da

altri parametri incogniti e la sua distribuzione è completamente nota, dato che

X – µ ~ N(0, σ2/n).

- Tuttavia, di norma si preferisce considerare come pivot

nX

/σµ−

dato che questo ha una distribuzione N(0, 1) per la quale sono immediatamente

disponibili le tavole.

• Una volta individuato il pivot si passa al passo 3 del metodo. Dalle tavole della N(0,

1), la distribuzione del pivot, si ricava l’intervallo più stretto [z1, z2] all’interno del

quale il pivot è compreso con probabilità (1 – α):

P[z1 ≤ n

X/σ

µ− ≤ z2] = 1 – α.

Per la simmetria della distribuzione Normale, si dimostra che l’intervallo più stretto

è quello per il quale z1 e z2 sono simmetrici rispetto a 0. Di conseguenza si ha [z1, z2]

= [–z, z] e quindi

P[–z ≤ n

X/σ

µ− ≤ z] = 1 – α,

dove z è il quantile 1 – α/2 della N(0, 1). Si fa notare che questo intervallo lascia

esattamente α/2 alla sua sinistra e ancora α/2 alla sua destra.

• A questo punto si effettua il passo 4 del metodo, che consiste nel ricavare dal

precedente [si invita lo studente a fare i passaggi!] l’intervallo di confidenza per µ:

Page 57: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

57

P( X – zσ/ n ≤ µ ≤ X + zσ/ n ) = 1 – α.

L’intervallo di confidenza cercato per µ è quindi

[ X – zσ/ n , X + zσ/ n ].

Importante: per quanto detto nella sez. 5.2.1, se la dimensione del campione n è

sufficientemente grande si arriva ad un risultato identico anche se non si fa nessuna

ipotesi sulla legge di distribuzione di X, cioè si suppone semplicemente X ~ (µ, σ2),

dove σ2 è nota oppure viene stimata con uno stimatore consistente, ad esempio S2.

Si evidenzia che questo risultato rappresenta il prototipo di tutti gli intervalli di

confidenza che si ottengono quando la distribuzione dello stimatore è Normale. Infatti

se θ̂ è uno stimatore di θ con distribuzione (anche approssimativamente) Normale,

diciamo

θ̂ ~ N[θ, σ2(θ̂ )],

allora gli intervalli che scaturiscono sono sempre del tipo

[θ̂ – zσ(θ̂ ), θ̂ + zσ(θ̂ )].

Questo risultato può essere sfruttato, appunto, tutte le volte che lo stimatore ha una

distribuzione Normale (come in molti degli esempi che seguiranno): basta sostituire a θ

il parametro considerato, a θ̂ lo specifico stimatore e a σ(θ̂ ) la deviazione standard

dello stimatore (o una sua stima se il campione è abbastanza grande). Ad esempio nell’

esempio discusso si ha θ = µ, θ̂ = X e σ(θ̂ ) = σ/ n .

6.2. X ~ N(µµµµ, σσσσ2): intervallo per µµµµ con σσσσ2 non nota

Sia X ~ N(µ, σ2) con σ2 incognita. Si vuole costruire un intervallo di confidenza per µ,

sulla base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α).

• Individuiamo il pivot (passo 2 del metodo).

- Si parte dal pivot dell’esempio precedente, cioè

nX

/σµ−

.

Page 58: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

58

Purtroppo questo non è più un pivot perché dipende dal campione e da µ, ma

dipende anche da σ che adesso è incognito.

- Per trasformare il precedente in un pivot possiamo sostituire σ con un suo

stimatore, ad esempio S. In questo modo si ottiene

nSX

/µ− .

Questo è un pivot perché dipende dal campione, dipende da µ, non dipende da

altri parametri incogniti e la sua distribuzione è nota, dato che nS

X/

µ− ~ T(n – 1)

(si veda sez. 5.1.4).

• Una volta individuato il pivot si passa al passo 3 del metodo. Dalle tavole della T(n

– 1), la distribuzione del pivot, si ricava l’intervallo più stretto [t1, t2] all’interno del

quale il pivot è compreso con probabilità (1 – α):

P[t1 ≤ nS

X/

µ− ≤ t2] = 1 – α.

Per la simmetria della distribuzione T, si dimostra che l’intervallo più stretto è

quello per il quale t1 e t2 sono simmetrici rispetto a 0. Di conseguenza [t1, t2] = [–t, t]

e quindi

P[–t ≤ nS

X/

µ− ≤ t] = 1 – α,

dove t è il quantile 1 – α/2 della T(n – 1). Di nuovo si fa notare che questo intervallo

lascia esattamente α/2 alla sua sinistra e ancora α/2 alla sua destra.

• A questo punto si effettua il passo 4 del metodo, che consiste nel ricavare dal

precedente l’intervallo di confidenza per µ [si invita lo studente a fare i passaggi!]:

P[ X – t S/ n ≤ µ ≤ X + t S/ n ] = 1 – α.

L’intervallo di confidenza cercato per µ è quindi

[ X – t S/ n , X + t S/ n ].

Di nuovo, si segnala che questo risultato rappresenta il prototipo di tutti gli intervalli di

confidenza che si ottengono quando la distribuzione dello stimatore è T. Infatti se θ̂ è

uno stimatore di θ che, una volta standardizzato, ha una distribuzione T, diciamo

Page 59: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

59

( )θσθθˆ

ˆ − ~ T (n),

allora gli intervalli che scaturiscono sono sempre del tipo

[θ̂ – tσ(θ̂ ), θ̂ + tσ(θ̂ )].

Questo risultato può essere sfruttato, appunto, tutte le volte che lo stimatore considerato

ha una distribuzione T (come in alcuni esempi che seguiranno): basta sostituire a θ il

parametro considerato, a θ̂ lo specifico stimatore e a σ(θ̂ ) la deviazione standard dello

stimatore o, più spesso, una sua stima. Ad esempio nel presente esempio si pone θ = µ,

θ̂ = X e σ(θ̂ ) = S/ n .

6.3. X ~ N(µµµµ, σσσσ2): intervallo per σσσσ2 con µµµµ nota

Sia X ~ N(µ, σ2) con µ nota. Si vuole costruire un intervallo di confidenza per σ2, sulla

base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α).

• Individuiamo il pivot (passo 2 del metodo).

- Si parte da uno stimatore puntuale “buono” di σ2 (si veda sez. 5.1.4):

2**S .

Questo non è un pivot perché dipende dal campione ma non da σ2, il parametro

di cui si vuol trovare l’intervallo.

- Possiamo allora considerare come candidato a pivot

2

2**

σnS .

Questo è un pivot perché dipende dal campione, dipende da σ2, non dipende da

altri parametri incogniti e la sua distribuzione è nota, dato che 2

2**

σnS ~ χ2(n) (si

veda sez. 5.1.4).

• Una volta individuato il pivot si passa al passo 3 del metodo. Dalle tavole della

χ2(n), la distribuzione del pivot, si ricava l’intervallo più stretto [c1, c2] all’interno

del quale il pivot è compreso con probabilità (1 – α):

Page 60: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

60

P[c1 ≤ 2

2**

σnS ≤ c2] = 1 – α.

Purtroppo la distribuzione Chi-quadrato non è simmetrica e l’individuazione

dell’intervallo più stretto per (1 – α) fissato può avvenire solo per via numerica.

Toppo complicato! Ci si accontenta allora dell’intervallo [c1, c2] che lascia a sinistra

α/2 e a destra ancora α/2: quindi c1 è il quantile α/2 e c2 il quantile 1 – α/2 della

χ2(n). In questo senso l’intervallo costruito ha una qualche analogia con quello visto

negli esempi precedenti in cui il pivot aveva una distribuzione N(0, 1) o T: di nuovo

l’intervallo lascia α/2 alla sua sinistra e ancora α/2 alla sua destra. • A questo punto si effettua il passo 4 del metodo, che consiste nel ricavare dal

precedente l’intervallo di confidenza per σ2 [si invita lo studente a fare i passaggi!]:

P[n 2**S /c2 ≤ σ2 ≤ n 2

**S /c1] = 1 – α.

L’intervallo di confidenza cercato per σ2 è quindi

[n 2**S /c2, n 2

**S /c1].

Chiaramente, se invece di un intervallo per la varianza σ2 interessa costruire un

intervallo per la deviazione standard σ, basta prendere la radice quadrata dei due

estremi dell’intervallo precedente. L’intervallo di confidenza per σ al livello (1 – α)

è quindi

[ 22** / cnS , 1

2** / cnS ].

6.4. X ~ N(µµµµ, σσσσ2): intervallo per σσσσ2 con µµµµ non nota

Sia X ~ N(µ, σ2) con µ incognita. Si vuole costruire un intervallo di confidenza per σ2,

sulla base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α),.

• Individuiamo il pivot (passo 2 del metodo).

- Si parte dal pivot dell’esempio precedente, cioè

2

2**

σnS .

Purtroppo questo non è più un pivot perché dipende dal campione e da σ2, ma

dipende anche dal parametro incognito µ che compare nella formula di 2**S .

Page 61: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

61

- Possiamo però utilizzare un come candidato a pivot una grandezza simile alla

precedente, cioè

( )2

21σ

Sn − .

Questo è un pivot perché dipende dal campione, dipende da σ2, non dipende da

altri parametri incogniti e la sua distribuzione è nota, dato che ( )2

21σ

Sn − ~ χ2(n –

1) (si veda sez. 5.1.4).

• Una volta individuato il pivot, tutto procede in modo esattamente analogo

all’esempio precedente, con la differenza che i valori c1 e c2 sono ricavati dalle

tavole della χ2(n – 1) in luogo della χ2(n). Quindi l’intervallo di confidenza per σ2

cercato è

[(n – 1) S2/c2, (n – 1) S2/c1],

mentre

[ ( ) 22 /1 cSn − , ( ) 1

2 /1 cSn − ]

è il corrispondente intervallo per la deviazione standard σ.

6.5. X ~ Be(p): intervallo per p

Sia X ~ Be(p). Si vuole costruire un intervallo di confidenza per p, sulla base del c.c.s. x

= (x1, …, xn), al livello di confidenza (1 – α).

• Vediamo l’individuazione del pivot (passo 2 del metodo).

- Si parte da uno stimatore puntuale “buono” di p (si veda sez. 5.1.2):

X .

Questo non è un pivot perché dipende dal campione ma non da p, il parametro di

cui si vuol trovare l’intervallo.

- La distribuzione esatta di X è BiRe(n, p) (si veda sez. 5.1.2), ma questa

distribuzione rende assai difficile l’individuazione del pivot. Possiamo

facilmente uscire da questo problema se il campione è “abbastanza grande”. In

questo caso, infatti, X ≈ N(p, pq/n) per cui

Page 62: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

62

npqpX/

ha approssimativamente una distribuzione N(0, 1) e possiede tutti i requisiti per

essere un pivot.

• Una volta che si è individuato il pivot, in linea di massima si può procedere nel

modo consueto. Prima, dalle tavole della N(0, 1) si ricava l’intervallo più stretto

all’interno del quale il pivot è compreso con probabilità (1 – α), che abbiamo detto

essere [–z, z] dove z è il quantile 1 – α/2 della N(0, 1)

P[–z ≤ npqpX/

− ≤ z] = 1 – α;

poi, si ricava il conseguente l’intervallo di confidenza per p. La derivazione

dell’intervallo di confidenza è però resa complessa dalla presenza di p, sotto radice,

anche al denominatore, presenza che in definitiva impone la risoluzione di una

disequazione di secondo grado in p [ ( )npqpX/

2− ≤ z2: lo studente provi a risolverla

per conto proprio]. Per evitare tale complicazione, di norma si preferisce sostituire

al denominatore npq / un suo stimatore consistente ( ) nXX /1− e considerare

come pivot

( ) nXXpX

/1−−

che ancora si distribuisce approssimativamente come una N(0, 1).

• A questo punto la derivazione dell’intervallo per p (passi 3 e 4 del metodo) procede

nel modo consueto per stimatori distribuiti in modo Normale (sez. 6.1), cosicché

l’intervallo di confidenza cercato per p è

[ X – z ( ) nXX /1− , X + z ( ) nXX /1− ].

6.6. X ~ Po(λλλλ): intervallo per λλλλ

Sia X ~ Po(λ). Si vuole costruire un intervallo di confidenza per λ, sulla base del c.c.s. x

= (x1, …, xn), al livello di confidenza (1 – α).

Page 63: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

63

Questo caso può essere risolto in maniera del tutto simile al precedente.

• Vediamo prima l’individuazione del pivot (passo 2 del metodo).

- Si parte da uno stimatore puntuale “buono” di λ (si veda sez. 5.1.3):

X .

Questo non è un pivot perché dipende dal campione ma non da λ, il parametro di

cui si vuol trovare l’intervallo.

- La distribuzione esatta di X è PoRe(n λ) (si veda sez. 5.1.3), ma questa

distribuzione rende assai difficile l’individuazione del pivot. Possiamo

facilmente uscire da questo problema se il campione è “abbastanza grande”. In

questo caso, infatti, X ≈ N(λ, λ/n) per cui

nX

/λλ−

ha approssimativamente una distribuzione N(0, 1) e possiede tutti i requisiti per

essere un pivot.

- Tuttavia, analogamente al caso Bernoulli, la derivazione dell’intervallo di

confidenza per λ è resa complessa dalla presenza di λ, sotto radice, anche al

denominatore, presenza che impone la risoluzione di una disequazione di

secondo grado in λ [lo studente provi a impostarla e risolverla per conto

proprio]. Per evitare tale complicazione, di norma si preferisce sostituire al

denominatore n/λ un suo stimatore consistente nX / e considerare come

pivot

nXX

/λ−

la cui distribuzione approssimata è N(0, 1).

• A questo punto la derivazione dell’intervallo per λ (passi 3 e 4 del metodo) procede

nel modo consueto per stimatori distribuiti in modo Normale (sez. 6.1), cosicché

l’intervallo di confidenza cercato per λ è

[ X – z nX / , X + z nX / ].

Page 64: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

64

6.7. X ~ f(x; θθθθ): intervallo per θθθθ

Sia X ~ f(x; θ), una generica funzione di massa o di densità caratterizzata dal parametro

θ. Si vuole costruire un intervallo di confidenza per θ, sulla base del c.c.s. x = (x1, …,

xn), al livello di confidenza (1 – α).

Ovviamente, nel caso in cui la funzione di massa o di densità f(x; θ) sia una di quelle

considerate negli esempi precedenti valgono le considerazioni già fatte. In realtà questo

esempio è interessante in tutti quei casi, come nel modello Gamma, in cui la stima non

può essere ottenuta analiticamente ma solo per via numerica.

• Sfruttando le proprietà degli stimatori di massima verosimiglianza, se il campione è

abbastanza grande allora θ~ ≈ N[θ, σ2(θ~ ) = 1/I(θ)]. Di conseguenza, sostituendo a

I(θ) una sua stima consistente I(θ~ ), possiamo considerare come candidato a pivot

(passo 2 del metodo)

(θ~ – θ) ( )θ~I .

Questa grandezza ha tutti i requisiti per essere un pivot, dato che ha una

distribuzione approssimata N(0, 1).

• A questo punto la derivazione dell’intervallo per θ (passi 3 e 4 del metodo) procede

nel modo consueto per stimatori distribuiti in modo Normale (sez. 6.1), cosicché

l’intervallo di confidenza cercato per θ è

[θ~ – z / ( )θ~I , θ~ + z / ( )θ~I ].

6.8. X ~ N(µµµµX, 2Xσ ), Y ~ N(µµµµY, 2

Yσ ) indipendenti: intervallo per µµµµX − µ − µ − µ − µY con 2

Xσ e 2Yσ note

Siano X ~ N(µX, 2Xσ ) e Y ~ N(µY, 2

Yσ ) due v.c. indipendenti con 2Xσ e 2

Yσ note.

Vogliamo costruire un intervallo di confidenza per µX − µY, sulla base dei c.c.s. x = (x1,

…, xm) e y = (y1, …, yn), al livello di confidenza (1 – α).

• Il pivot può essere costruito facilmente (passo 2 del metodo) sulla base dell’esempio

6.1. Infatti, poiché due buoni stimatori dei parametri incogniti sono forniti,

rispettivamente, da X e Y , un buon stimatore della differenza µX − µY sarà allora

Page 65: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

65

X – Y . Sulla base della distribuzione di X e Y e dell’assunzione di indipendenza

di X ed Y si ottiene allora

X – Y ~ N(µX − µY, 2Xσ /m + 2

Yσ /n)

da cui si ricava che

( )nm

YX

YX

YX

// 22 σσ

µµ

+

−−−

la cui distribuzione è N(0, 1), è un pivot.

• A questo punto la derivazione dell’intervallo per µX − µY (passi 3 e 4 del metodo)

procede nel modo consueto per v.c. Normali (sez. 6.1) e

[ X – Y – z nm YX // 22 σσ + , X – Y + z nm YX // 22 σσ + ]

è l’intervallo di confidenza per µX − µY cercato.

Importante: per quanto detto nella sez. 5.2.1, se le dimensioni dei campioni m ed n sono

sufficientemente grandi si arriva ad un risultato identico anche se non si fa nessuna

ipotesi sulle leggi di distribuzione di X ed Y, cioè si suppone semplicemente X ~ (µX,

2Xσ ) e Y ~ (µY, 2

Yσ ), dove 2Xσ e 2

Yσ sono note oppure vengono stimate con stimatori

consistenti, ad esempio 2XS ed 2

YS .

6.9. X ~ N(µµµµX, 2Xσ ), Y ~ N(µµµµY, 2

Yσ ) indipendenti: intervallo per µµµµX − µ − µ − µ − µY con 2

Xσ e 2Yσ non note

Siano X ~ N(µX, 2Xσ ) e Y ~ N(µY, 2

Yσ ) due v.c. indipendenti con 2Xσ e 2

Yσ incognite.

Vogliamo costruire un intervallo di confidenza per µX − µY, sulla base dei c.c.s. x = (x1,

…, xm) e y = (y1, …, yn), al livello di confidenza (1 – α),

• Nella situazione di cui al presente esempio, il pivot costruito nella sezione

precedente non è più un pivot in virtù del fatto che le due varianze 2Xσ e 2

Yσ sono

non note. Si può allora pensare di stimarle, come si è fatto altre volte, ma purtroppo

la v.c.

Page 66: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

66

( )nSmS

YX

YX

YX

// 22 +

−−− µµ,

dove 2XS e 2

YS sono rispettivamente le varianze campionarie corrette di X e di Y

utilizzate come stimatori di 2Xσ e 2

Yσ , non ha una distribuzione nota e quindi non è

un pivot pur avendone tutte le altre caratteristiche.

• Ci sono allora due modi di uscire da questa situazione.

- Il primo modo è supporre 2Xσ = 2

Yσ . Visto che le due varianze sono uguali

utilizziamo allora un unico simbolo: 2Xσ = 2

Yσ = σ2.

In questo caso σ2 può essere stimato sfruttando l’informazione di entrambi i

campioni (dato che tutti e due hanno σ2 come varianza) mediante lo stimatore

2PS = ( ) ( )

−+−

−+ ∑∑==

n

jj

m

ii YYXX

nm 1

2

1

2

21 =

( ) ( )2

11 22

−+−+−

nmnSmS YX .

Si fa notare che o stimatore 2PS costruito ha la stessa struttura di S2: media dei

quadrati degli scarti dalla media. Poiché 2XS e 2

YS sono entrambi stimatori

corretti di σ2 (che ricordiamo è lo stesso per X e Y sulla base dell’ipotesi

iniziale), anche 2PS è stimatore corretto di σ2. Inoltre poiché

( )2

22σ

PSnm −+ = ( ) ( )

2

2

2

2 11σσ

−+− nSmS YX

e i due addendi a destra, oltre ad essere indipendenti, hanno rispettivamente

distribuzione χ2(m – 1) e χ2(n – 1), allora, per la proprietà di additività del Chi-

quadrato,

( )2

22σ

PSnm −+ ~ χ2(m + n – 2).

Finalmente, sostituendo 2PS alla varianza comune σ2 nel pivot dell’esempio

precedente si ottiene

Page 67: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

67

( )nmS

YX

P

YX

/1/1 +−−− µµ

=

( )

nmnmS

nmYX

P

YX

/1/1/1/1

/1/1

++

+−−−

σ

σµµ

=

( )

( ) ( )22/1/1

2

2−+−+

+−−−

nmSnmnm

YX

P

YX

σ

σµµ

.

L’espressione a destra, più complicata, serve solo allo scopo di ricavare la

distribuzione della v.c. considerata: è il rapporto fra una Normale standard e la

radice quadrata di una chi-quadrato χ2(m + n – 2) divisa per i suoi gradi di

libertà e quindi ha una distribuzione T(m + n – 2). Insieme alle altre

caratteristiche, questo fa sì che

( )nmS

YX

P

YX

/1/1 +−−− µµ

sia un pivot.

A questo punto la derivazione dell’intervallo per µX − µY (passi 3 e 4 del

metodo) procede nel modo consueto per v.c. T (sez. 6.2) e

[ X – Y – z Sp nm /1/1 + , X – Y + z Sp nm /1/1 + ]

è l’intervallo di confidenza per µX − µY cercato.

- Il secondo modo è applicabile quando le dimensioni dei due campioni, m ed n,

sono “abbastanza grandi”. In tal caso, infatti, si può dimostrare che

( )nSmS

YX

YX

YX

// 22 +

−−− µµ,

ha una distribuzione approssimata N(0, 1) dato che abbiamo stimato la varianza

di X – Y , ovvero 2Xσ /m + 2

Yσ /n, con lo stimatore consistente 2XS /m + 2

YS /n.

A questo punto la derivazione dell’intervallo per µX − µY (passi 3 e 4 del

metodo) procede nel modo consueto per v.c. Normali (sez. 6.1) e

[ X – Y – z nSmS YX // 22 + , X – Y + z nSmS YX // 22 + ]

è l’intervallo di confidenza per µX − µY cercato.

Poiché il risultato precedente si basa sulle proprietà asintotiche degli stimatori

utilizzati, per quanto detto al termine della sez. 6.8 tale risultato rimane valido

anche se non si fanno ipotesi sulla forma delle distribuzioni di X e di Y, cioè si

Page 68: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

68

suppone semplicemente X ~ (µX, 2Xσ ) e Y ~ (µY, 2

Yσ ), purché, ripetiamo, i due

campioni abbiano dimensione sufficientemente elevata.

6.10. X ~ N(µµµµX, 2Xσ ), Y ~ N(µµµµY, 2

Yσ ) indipendenti: intervallo per 2Xσ / 2

Yσ con µµµµX e µµµµY note

Siano X ~ N(µX, 2Xσ ) e Y ~ N(µY, 2

Yσ ) due v.c. indipendenti con µX e µY note. Vogliamo

costruire un intervallo di confidenza per 2Xσ / 2

Yσ , sulla base dei c.c.s. x = (x1, …, xm) e y

= (y1, …, yn), al livello di confidenza (1 – α). Si evidenzia che il rapporto è il metodo

usuale di confrontare le varianze.

• Il pivot (passo 2 del metodo) può essere costruito facilmente sulla base dell’esempio

6.3.

- Poiché due buoni stimatori dei parametri incogniti sono costituiti,

rispettivamente, da 2** XS e 2

** YS (le varianze campionarie per le medie note di X

e di Y), un buon stimatore del rapporto 2Xσ / 2

Yσ è allora

2** XS / 2

** YS

che però non è un pivot perché il rapporto 2Xσ / 2

Yσ non vi compare.

- Si consideri allora, come candidato a pivot, la seguente grandezza:

2

2

2**

2**

X

Y

Y

X

SS

σσ =

nnS

mmS

Y

Y

X

X

2

2**

2

2**

σ

σ .

L’espressione a destra, più complicata, serve solo allo scopo di ricavare la

distribuzione della v.c. considerata: è il rapporto fra due chi-quadrato

indipendenti, χ2(m) a numeratore e χ2(n) a denominatore, divise per i rispettivi

gradi di libertà e quindi ha una distribuzione F(m, n). Insieme alle altre

caratteristiche, questo fa sì che

2

2

2**

2**

X

Y

Y

X

SS

σσ

Page 69: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

69

sia un pivot.

• Una volta individuato il pivot, si procede al passo 3 del metodo. Dalle tavole della

F(m, n), la distribuzione del pivot, si ricava l’intervallo più stretto [c1, c2] all’interno

del quale il pivot è compreso con probabilità (1 – α):

P[c1 ≤ 2

2

2**

2**

X

Y

Y

X

SS

σσ ≤ c2] = 1 – α.

Purtroppo la distribuzione F, come la Chi-quadrato, non è simmetrica e

l’individuazione dell’intervallo più stretto per (1 – α) fissato può avvenire solo per

via numerica. Toppo complicato! Ci si accontenta allora dell’intervallo [c1, c2] che

lascia a sinistra α/2 e a destra ancora α/2: quindi c1 è il quantile α/2 e c2 il quantile 1

– α/2 della F(m, n).

• A questo punto si effettua il passo 4 del metodo, che consiste nel ricavare dal

precedente l’intervallo di confidenza per 2Xσ / 2

Yσ [si invita lo studente a fare i

passaggi!]:

P( 2**

2**

Y

X

SS /c2 ≤ 2

2

Y

X

σσ ≤ 2

**

2**

Y

X

SS /c1) = 1 – α.

Di conseguenza l’intervallo per 2Xσ / 2

Yσ cercato è

[ 2**

2**

Y

X

SS /c2 , 2

**

2**

Y

X

SS /c1].

6.11. X ~ N(µµµµX, 2Xσ ), Y ~ N(µµµµY, 2

Yσ ) indipendenti: intervallo per 2Xσ / 2

Yσ con µµµµX e µµµµY non note

Siano X ~ N(µX, 2Xσ ) e Y ~ N(µY, 2

Yσ ) due v.c. indipendenti con µX e µY incognite.

Vogliamo costruire un intervallo di confidenza per 2Xσ / 2

Yσ , sulla base dei c.c.s. x = (x1,

…, xm) e y = (y1, …, yn), al livello di confidenza (1 – α).

• Individuiamo il pivot (passo 2 del metodo).

- Si parte dal pivot dell’esempio precedente, cioè

Page 70: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

70

2

2

2**

2**

X

Y

Y

X

SS

σσ .

Purtroppo questo non è più un pivot perché dipende dal campione e da 2Xσ / 2

Yσ ,

ma dipende anche dai parametri incogniti µX e µY che compaiono,

rispettivamente, nelle formule di 2** XS e 2

** YS .

- Possiamo però utilizzare un come candidato a pivot una grandezza simile alla

precedente, cioè

2

2

2

2

X

Y

Y

X

SS

σσ =

( ) ( )

( ) ( )11

11

2

2

2

2

−−

−−

nSn

mSm

Y

Y

X

X

σ

σ,

dove 2XS e 2

YS sono le varianze campionarie corrette rispettivamente di X e di

Y. L’espressione a destra, che serve solo allo scopo di ricavarne la distribuzione,

porta a concludere che tale v.c. è il rapporto fra due chi-quadrato indipendenti,

χ2(m – 1) a numeratore e χ2(n – 1) a denominatore, divise per i rispettivi gradi di

libertà e quindi ha una distribuzione F(m – 1, n – 1). Insieme alle altre

caratteristiche, questo fa sì che

2

2

2

2

X

Y

Y

X

SS

σσ

sia un pivot.

• Una volta individuato il pivot, tutto procede in modo esattamente analogo

all’esempio precedente, con la differenza che i valori c1 e c2 sono ricavati dalle

tavole della F(m – 1, n – 1) in luogo della F(m, n). Quindi l’intervallo di confidenza

per 2Xσ / 2

Yσ cercato è

[ 2

2

Y

X

SS /c2 , 2

2

Y

X

SS /c1].

6.12. X ~ Be(pX), Y ~ Be(pY) indipendenti: intervallo per pX – pY

Siano X ~ Be(pX), Y ~ Be(pY) due v.c. indipendenti. Si vuole costruire un intervallo di

Page 71: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

71

confidenza per pX – pY, sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …, yn), al livello di

confidenza (1 – α).

• Il pivot (passo 2 del metodo) può essere costruito facilmente sulla base degli esempi

6.5 e 6.11.

- Poiché due buoni stimatori dei parametri incogniti sono, rispettivamente, X e

Y , un buon stimatore della differenza pX − pY sarà allora X – Y che

ovviamente non è un pivot.

- Essendo X e Y distribuiti entrambi secondo una binomiale relativa, la

distribuzione campionaria esatta della differenza X – Y è assai difficile da

trovare. Se m ed n sono abbastanza grandi, però, si può sfruttare

l’approssimazione Normale della distribuzione dei due stimatori, cioè X ≈

N(pX, pXqX/m) e Y ≈ N(pY, pYqY/m), in base alla quale X – Y ≈ N(pX − pY,

pXqX /m + pYqY /n). Da questa si ricava il candidato a pivot

( )nqpmqp

ppYX

YYXX

YX

// +−−−

che avendo una distribuzione approssimata N(0, 1) avrebbe tutti i requisiti per

essere un pivot, tranne il fatto che non è invertibile rispetto alla grandezza di cui

si vuol trovare l’intervallo pX − pY.

- Al solito, se i due campioni hanno dimensione sufficientemente elevata si può

sostituire il denominatore nqpmqp YYXX // + con un suo stimatore

consistente ( ) ( ) nYYmXX /1/1 −+− , ottenendo come pivot

( )( ) ( ) nYYmXX

ppYX YX

/1/1 −+−

−−−

che di nuovo ha una distribuzione approssimata N(0, 1).

• A questo punto la derivazione dell’intervallo per pX − pY (passi 3 e 4 del metodo)

procede nel modo consueto per v.c. distribuite in modo Normale, cosicché

l’intervallo di confidenza cercato per pX − pY è

[ X – Y – z ( ) ( ) nYYmXX /1/1 −+− , X – Y + z ( ) ( ) nYYmXX /1/1 −+− ].

Page 72: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

72

6.13. X ~ Po(λλλλX), Y ~ Po(λλλλY) indipendenti: intervallo per λλλλX – λλλλY

Siano X ~ Po(λX), Y ~ Po(λX) due v.c. indipendenti. Vogliamo costruire un intervallo di

confidenza per λX – λY, sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …, yn), al livello di

confidenza (1 – α).

• Il pivot (passo 2 del metodo) può essere costruito in modo del tutto analogo a quanto

visto nell’esempio precedente.

- Infatti un ragionamento del tutto simile a quello fatto sopra porta ad individuare

come candidato a pivot

( )nm

YX

YX

YX

// λλλλ

+−−−

che avendo una distribuzione approssimata N(0, 1) avrebbe tutti i requisiti per

essere un pivot, tranne il fatto che non è invertibile rispetto alla grandezza di cui

si vuol trovare l’intervallo λX − λY.

- Al solito, se i due campioni hanno dimensione sufficientemente elevata si può

sostituire il denominatore nm YX // λλ + con un suo stimatore consistente

nYmX // + , ottenendo come pivot

( )nYmX

YX YX

// +

−−− λλ

che di nuovo ha una distribuzione approssimata N(0, 1).

• A questo punto la derivazione dell’intervallo per λX – λY (passi 3 e 4 del metodo)

procede nel modo consueto per v.c. distribuite in modo Normale, cosicché

l’intervallo di confidenza cercato per λX – λY è

[ X – Y – z nYmX // + , X – Y + z nYmX // + ].

6.14. X ~ N(µµµµX, 2Xσ ), Y ~ N(µµµµY, 2

Yσ ): intervallo per µµµµX − µ − µ − µ − µY con dati appaiati

Negli esempi precedenti, quando abbiamo considerato il confronto fra parametri di due

v.c. X e Y abbiamo sempre ipotizzato che tali v.c. fossero indipendenti. Ci sono però

Page 73: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

73

situazioni in cui dette v.c. non possono essere considerate indipendenti. Uno fra i casi

più importati si ha per i cosiddetti dati appaiati, ovvero quando i campioni x = (x1, …,

xn) e y = (y1, …, yn) sono relativi alle stesse unità (per questo la dimensione n dei due

campioni è la stessa). In tale caso l’indipendenza viene meno per il fatto che le unità

della popolazione sono le stesse in due situazioni diverse (X ed Y) ed è quindi lecito

attendersi, per ciascuna unità i del campione, una correlazione fra le risposte da essa

date nelle due situazioni.

Sulla base di quanto detto, allora, supponiamo X ~ N(µX, 2Xσ ), Y ~ N(µY, 2

Yσ ):

vogliamo costruire un intervallo di confidenza per µX − µY, sulla base dei dati appaiati

x = (x1, …, xn) e y = (y1, …, yn), al livello di confidenza (1 – α).

Questa situazione si risolve facilmente osservando che µX − µY è anche il valore atteso

di X – Y, cioè µX − µY = E(X – Y) (banale proprietà dei valori attesi!). Di conseguenza

una risposta circa la differenza µX − µY la si ottiene anche se al posto di X ed Y,

separatamente, si analizza direttamente la differenza D = X – Y, il cui valore atteso è,

come detto, proprio µX − µY, quello che interessa. Sulla base delle proprietà della

Normale (si veda cap. 2), D = X – Y è combinazione lineare di v.c. Normali ed è quindi

ancora Normale con media µD = µX − µY e con varianza incognita 2Dσ (esiste una

qualche relazione di 2Dσ con 2

Xσ e 2Yσ , ma dato che non ha nessuna importanza ai fini

del nostro esempio lasciamola perdere).

In base a questo ragionamento possiamo allora considerare, come nuova variabile di

analisi,

D ~ N(µD, 2Dσ ),

dove (ripetiamo): D = X – Y, µD = µX − µY (ed è quello che ci interessa), il campione

estratto da D è rappresentato dalle differenze d = (d1, …, dn), dove ciascuna di è la

differenza fra le osservazioni corrispondenti alla i-ma unità nei due campioni, ovvero di

= xi – yi.

A questo punto il problema in analisi è stato trasformato nella costruzione di un

intervallo di confidenza per la media (µD) di una v.c. Normale con varianza incognita

( 2Dσ ), per il quale vale esattamente quanto detto nella sez. 6.2. Il pivot è allora

Page 74: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

74

nSD

D

D

/µ−

,

la cui distribuzione è T(n – 1) e nel quale 2DS è la varianza campionaria corretta di D.

L’intervallo cercato per µD = µX − µY è invece

[ D – tSD, D + tSD]

dove t è il quantile (1 – α/2) della T(n – 1).

Per concludere, due osservazioni.

La prima riguarda il fatto che, per quanto detto nella sez. 5.2.1, se la dimensione del

campione n è sufficientemente grande si arriva ad un risultato identico anche se non si fa

nessuna ipotesi sulla legge di distribuzione di D, cioè si suppone semplicemente D ~

(µD, 2Dσ ), tranne il fatto che il quantile (1 – α/2) della distribuzione T deve essere

sostituito col corrispondente quantile della distribuzione N(0, 1).

La seconda riguarda il fatto che rispetto ad una situazione confrontabile in cui X e Y

sono indipendenti, diciamo varianze 2Xσ e 2

Yσ uguali e campioni x e y con la stessa

dimensione n (si veda sez. 6.9), la condizione di appaiamento fa praticamente dimezzare

i gradi di libertà del pivot, dato che da (2n – 2) si passa ad (n – 1).

6.15. Determinazione della dimensione del campione

La teoria degli intervalli di confidenza consente anche di affrontare in modo razionale la

problematica della scelta della dimensione del campione.

Nella sez. 6, abbiamo detto che un intervallo di confidenza è caratterizzato da due

elementi fondamentali: il livello di confidenza, che ne misura l’affidabilità, e

l’ampiezza, che ne misura l’informatività. Abbiamo anche detto che fra questi due

elementi esiste un legame diretto, nel senso che all’aumentare del livello di confidenza

aumenta anche l’ampiezza, e che quindi non è possibile, contemporaneamente,

massimizzare il livello di confidenza e minimizzare l’ampiezza. Questo, ovviamente,

vale se il campione è già stato estratto (e quindi n è ormai dato) e dobbiamo solo

determinare l’intervallo.

Se però il campione non è ancora stato estratto ma anzi occorre decidere di quante

osservazioni farlo, allora possiamo procedere determinando la dimensione del campione

Page 75: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

75

in modo da ottenere un intervallo di confidenza per il parametro d’interesse di

ampiezza prefissata. In altri termini si procede nel modo seguente:

1. anzitutto si stabilisce il parametro che interessa stimare;

2. successivamente, si fissano il livello di confidenza (1 – α) e l’informatività, in

termini di ampiezza A, dell’intervallo di confidenza per il parametro d’interesse;

3. infine, sulla base degli elementi precedenti si determina la dimensione n del

campione.

Per rendere più chiaro il procedimento vediamo adesso due esempi.

Sia X ~ N(µ, σ2) e supponiamo in prima istanza che σ2 sia nota. Si vuol determinare la

dimensione del campione affinché l’ampiezza dell’intervallo di confidenza per µ, al

livello di confidenza (1 – α), sia pari ad A.

Poiché l’intervallo di confidenza per µ nella situazione in oggetto (si veda sez. 6.1) è

pari a

[ X – zσ/ n , X + zσ/ n ],

dove z è il quantile (1 – α/2) della N(0, 1), l’ampiezza dell’intervallo per µ è data da

A = X + zσ/ n – ( X – zσ/ n ) = 2 zσ/ n .

Poiché σ è nota, z si determina dalle tavole in base al livello di confidenza (1 – α), A è

stabilito da chi effettua l’analisi, dalla precedente relazione

A = 2 zσ/ n

si ricava n come incognita

n = (2 zσ/A)2,

che, dovendo sempre essere un intero, si raccomanda di arrotondare per eccesso.

Questa formula fornisce la dimensione campionaria cercata. Si nota che tale

dimensione, come è logico, aumenta all’aumentare della variabilità σ , all’aumentare del

livello di confidenza (infatti all’aumentare di (1 – α) aumenta anche z) e al diminuire

dell’ampiezza dell’intervallo (chiaramente: richiedere una maggiore informatività

obbliga ad aumentare la dimensione del campione).

Si fa notare che, sulla base del teorema del limite centrale, l’intervallo di confidenza

utilizzato per ricavare la dimensione campionaria e, di conseguenza, la formula ottenuta

Page 76: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

76

per n, rimangono inalterate se si omette l’ipotesi iniziale di normalità purché l’n

conseguente risulti “abbastanza grande”.

Purtroppo un grosso limite applicativo della formula precedente è dato dal fatto che in

genere la varianza σ2 è incognita (se non è nota µ è ancora più improbabile che si

conosca σ2). In questo caso, tuttavia, la formula di riferimento è ancora la precedente:

l’unico possibile rimedio è sostituire a σ una sua stima (anche non eccellente) che in

genere può essere ricavata basandosi su dati provenienti da:

• precedenti rilevazioni simili;

• statistiche ufficiali o dati amministrativi attinenti al fenomeno studiato;

• indagine pilota, in cui l’indagine statistica in oggetto viene testata su un piccolo

numero di unità, con l’obiettivo di mettere a punto vari aspetti della rilevazione

complessiva, fra i quali il questionario della rilevazione e, appunto, la stima di σ2

per stabilire la dimensione del campione.

Come altro esempio vediamo il caso X ~ Be(p). Si vuol determinare la dimensione del

campione affinché l’ampiezza dell’intervallo di confidenza per p, al livello di

confidenza (1 – α), sia pari ad A.

Poiché l’intervallo di confidenza per p nella situazione in oggetto (si veda sez. 6.5) è

pari a

[ X – z ( ) nXX /1− , X + z ( ) nXX /1− ],

dove z è il quantile (1 – α/2) della N(0, 1), l’ampiezza dell’intervallo per µ è data da

A = X + z ( ) nXX /1− – ( X + z ( ) nXX /1− ) = 2 z ( ) nXX /1− .

D’altra parte, prima di effettuare la rilevazione X non si conosce, per cui la precedente

relazione

A = 2 z ( ) nXX /1− ,

da cui deriva

n = (2 z ( )XX −1 /A)2

in genere non può essere sfruttata. Ci sono allora due modi di uscire da questo

problema:

Page 77: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

77

• Il primo, banale, è sostituire a X il corrispondente valore calcolato sulla base di

rilevazioni precedenti o di dati amministrativi.

• Il secondo, assai più utilizzato nella pratica, deriva dall’osservazione che la

grandezza X (1 – X ) a numeratore è massima quando X = 0.5 (per rendersene

conto basta fare la derivata di X (1 – X ) rispetto a X , uguagliare a 0 e trovare il

punto di massimo cercato) e che il massimo vale allora 0.5 (1 – 0.5) = 0.25. Poiché

oltre questa soglia non si può andare, si può operare sostituendo prudenzialmente a

X (1 – X ) il suo massimo 0.25, ottenendo come formula finale

n = (z/A)2.

7. Alcuni esempi numerici Concludiamo il capitolo con alcuni esempi numerici.

Esempio

Dall’analisi dei bilanci relativi ad un campione di 200 imprese tessili, sono state

calcolate le seguenti statistiche relativamente alla variabile d’interesse X =

UTILE/FATTURATO:

n Media Varianza campionaria corretta

200 0.03 0.0256

Per analizzare tale indice di bilancio è ragionevole utilizzare il modello Normale,

ovvero X ~ N(µ, σ2).

La stima puntuale dei parametri è facilmente fatta. Infatti:

• un “buon” stimatore di µ è dato da X (si veda sez. 5.1.4), per cui possiamo stimare

µ con x = 0.03;

• un “buon” stimatore di σ2 è dato da S2 (si veda sez. 5.1.4), per cui possiamo stimare

σ2 con s2 = 0.0256.

E comunque sempre bene completare le stime puntuali fornendo una misura

Page 78: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

78

dell’”accuratezza” degli stimatori utilizzati, ad esempio fornendo la loro varianza o,

ancora meglio, loro deviazione standard. Poiché V( X ) = σ2/n, tale grandezza può essere

stimata tramite s2/n = 0.0256/200 = 0.000128; quindi una stima di σ( X ) è data da

0.000128 = 0.0113. Analogamente V(S2) = 2σ4/(n – 1), che può essere stimato con

2s4/(n – 1) = 2×0.02562/199 = 0.000006586; quindi una stima di σ(S2) è data da

60.00000658 = 0.00257. Notiamo anche che, essendo i due stimatori corretti, la stima

della loro varianza costituisce anche una stima del loro MSE.

Vediamo ora la stima per intervallo dei parametri considerando un livello di

confidenza 0.95.

• Come pivot per costruire l’intervallo di confidenza per µ si considera nS

X/

µ− , la cui

distribuzione è T(n – 1) (sez. 6.2) (facciamo comunque osservare che n – 1 = 199 e

quindi tale distribuzione potrebbe essere tranquillamente approssimata con la N(0,

1)). Il pivot di cui sopra porta al seguente intervallo per µ:

[ X – t S/ n , X + t S/ n ].

Sostituendo i valori x = 0.03, s = 0.0256 = 0.16, n = 200, t = 1.9719 (quantile

0.975 trovato dalle tavole della T(200) invece della T(199)) si ottiene che

l’intervallo di confidenza al 95% per µ è [0.0077,0.0523]. Tale intervallo viene così

ampio (ampiezza pari a 0.0446) per la forte variabilità presente nella popolazione

considerata, variabilità misurata dalla stima di σ2 fornita da s2.

• Come pivot per costruire l’intervallo di confidenza per σ2 si considera ( )2

21σ

Sn − , la

cui distribuzione è χ2(n – 1) (sez. 6.4). Tale pivot porta al seguente intervallo per σ2:

[(n – 1) S2/c2, (n – 1) S2/c1].

Sostituendo i valori s2 = 0.0256 = 0.16, n = 200, c1 = 162.73 c2 = 241.06 (dove c1

e c2 sono rispettivamente i quantili 0.025 e 0.975 della χ2(200) invece della

χ2(199)), si ottiene che l’intervallo di confidenza cercato al 95% per σ2 è

[0.0211,0.0313]. Il corrispondente intervallo per σ è invece [0.145,0.177] (per

ottenerlo basta fare la radice quadrata degli estremi dell’intervallo per σ2).

Page 79: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

79

Chiediamoci ora quante imprese avremmo dovuto includere nel campione per avere un

intervallo per la media µ di ampiezza 0.03, invece di 0.0446, sempre al livello di

confidenza 0.95. A tale scopo si può utilizzare il ragionamento descritto nella sez. 6.15,

che ha portato alla formula

n = (2 zσ/A)2.

Sostituendo i valori z = 1.96 (quantile 0.975 della N(0, 1)), A = 0.03, e ponendo σ pari

alla stima fatta s = 0.16 (tale valore rappresenta l’unica informazione che abbiamo di σ),

si ottiene n = 437.09 da arrotondare per eccesso a 438.

Per concludere, mantenendo l’ipotesi di normalità della distribuzione dell’indice

UTILE/FATTURATO e “facendo finta” che le stime puntuali fornite per µ e σ

corrispondano ai valori veri degli stessi parametri (cosa che, lo ripetiamo per l’ennesima

volta, nella realtà non è dato di sapere!), si invita lo studente a rispondere alle seguenti

domande di cui diamo solo i risultati:

1. Qual è la probabilità che un’impresa abbia un indice UTILE/FATTURATO negativo?

(0.4256)

2. Qual è invece la probabilità che tale indice sia superiore a 0.1? (0.3309)

3. Quanto valgono primo quartile, mediana, terzo quartile e scarto interquartile

dell’indice? (-0.0779, 0.03, 0.1379, 0.2158)

4. Entro quale intervallo, simmetrico rispetto alla media, è compreso l’indice del 90%

delle imprese? (-0.2332, 0.2932)

Esempio

Il ministero del lavoro ha commissionato ad una società uno studio per appurare in che

percentuale le piccole imprese manifatturiere senza dipendenti sarebbero disposte ad

assumere dipendenti, nei prossimi tre anni, in presenza di certi sgravi contributivi e

fiscali.

La prima difficoltà che la società incaricata si è trovata di fronte è il dimensionamento

del campione di imprese da intervistare. Tradotto in termini statistici, il ministero ha

richiesto un intervallo di confidenza al 99%, per la percentuale d’interesse, di ampiezza

Page 80: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

80

0.08.

Vediamo come si può operare in questa situazione.

Anzitutto occorre scegliere un modello per il fenomeno in analisi. Senza incertezze

possiamo scegliere il modello di Bernoulli, cioè X ~ Be(p), in cui 1 sta per “intenzione

di assumere” e 0 per “non intenzione di assumere”.

Relativamente al dimensionamento del campione, in una situazione di completa

ignoranza del valore assunto da p si può ricorrere alla formula

n = (z/A)2

illustrata in sez. 6.15. Sostituendo i valori z = 2.58 (quantile 0.995 della N(0, 1)) e A =

0.08 si ottiene n = 1040.06 da arrotondare per eccesso a 1041.

Supponiamo ora che delle 1041 imprese intervistate, 431 abbiano manifestato

l’intenzione di assumere personale in presenza degli sgravi indicati.

La stima puntuale del parametro p è facilmente fatta. Infatti un “buon” stimatore di p è

dato da X (si veda sez. 5.1.2), per cui possiamo stimare p con x = 431/1041 = 0.414,

che corrisponde a circa il 41%. Per completare la stima puntuale mediante misure di

”accuratezza”, possiamo stimare la varianza o, ancora meglio, la deviazione standard.

Poiché V( X ) = pq/n, tale grandezza può essere stimata tramite x (1 – x )/n = 0.414 (1 –

0.414)/1041 = 0.000233; quindi una stima di σ( X ) è data da 0.000233 = 0.0153.

Notiamo anche che, essendo X uno stimatore corretto di p, la stima della varianza

costituisce anche una stima del suo MSE.

Vediamo ora la stima per intervallo di p considerando (1 – α) = 0.99. La dimensione

campionaria è sufficientemente elevata per considerare come pivot

( ) nXXpX

/1−− ,

la cui distribuzione approssimata è N(0, 1) (sez. 6.5). Il pivot di cui sopra porta al

seguente intervallo per p:

[ X – z ( ) nXX /1− , X + z ( ) nXX /1− ].

Sostituendo i valori x = 0.414, n = 1041, z = 2.58 (il quantile 0.995 della N(0, 1)) si

Page 81: Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI … · 2009. 3. 25. · B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6

Metodi statistici per le decisioni d’impresa

81

ottiene che l’intervallo di confidenza al 99% per p è [0.375,0.453]. Si nota che

l’ampiezza dell’intervallo viene 0.078, leggermente inferiore a quella prevista 0.08 per

effetto del fatto che il campione è stato dimensionato sulla base di un valore x (1 – x ) =

0.5 (1 – 0.5) = 0.25, superiore a quello effettivo di 0.414 (1 – 0.414) = 0.2426 (si veda

sez. 6.5).

Per concludere, mantenendo l’ipotesi X ~ Be(p) e “facendo finta” che la stima puntuale

fornita per p coincida col valore vero del parametro (cosa che, ripetiamo, nella realtà

non è dato di sapere!), si invita lo studente a rispondere alle seguenti domande di cui

diamo solo i risultati. Supponendo che il numero di piccole imprese manifatturiere senza

dipendenti sia 6 milioni, si estraggano casualmente 100 imprese:

1. Come si distribuisce il numero di imprese che, fra queste 100, intendono assumere?

Che valore atteso e che varianza ha? (distribuzione esatta IG(N = 6000000, K = Np =

2484000, n = 100), ben approssimabile con una Bi(n = 100, p = 0.414); valore atteso

= np = 41.4; varianza = npq = 24.26).

2. Qual è la probabilità che, di queste 100, almeno 50 abbiano intenzione di assumere

dipendenti? (0.0404: usare l’approssimazione Normale della Binomiale).

3. Qual è invece la probabilità che, di queste 100, meno di 30 abbiano intenzione di

assumere? (0.0103: usare l’approssimazione Normale della Binomiale).

4. Quanto valgono, primo quartile, mediana, terzo quartile e scarto interquartile del

numero di imprese che intendono assumere fra le 100 estratte? (38.08, 41.4, 44.72,

6.64: usare l’approssimazione Normale della Binomiale)

5. Entro quale intervallo, simmetrico rispetto alla media, si colloca al 90% il numero

delle imprese che intendono assumere fra le 100 estratte? (33.3, 49.5)