Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di...

66
B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7 Metodi statistici per le decisioni d’impresa 1 Capitolo 7 TEST DELLE IPOTESI In questo capitolo si affronta il problema della verifica d’ipotesi statistiche limitando la trattazione alla cosiddetta teoria classica del test delle ipotesi parametriche. Argomentazioni diverse devono essere svolte sia nei riguardi della impostazione bayesiana della teoria del test delle ipotesi sia nei riguardi della teoria dei test non- parametrici (da non confondere con le ipotesi non-parametriche), aspetti questi che non vengono qui trattati. E’ stato sottolineato in precedenza che la teoria dell’inferenza statistica riguarda principalmente due specifici argomenti: la stima (puntuale e per intervallo) ed il test delle ipotesi. In entrambi i casi si tratta di valutare aspetti incogniti, concernenti una determinata v.c., in base alle informazioni di un campione. Il problema della stima e quello del test delle ipotesi, anche se simili, vanno comunque tenuti distinti in quanto coinvolgono problematiche diverse. Infatti: nel primo caso il campione viene utilizzato per stimare un’entità incognita relativa ad una certa v.c.; nel secondo caso il campione viene utilizzato per verificare statisticamente la validità di una certa affermazione (ipotesi) su un’entità incognita relativa a una certa v.c. 1. Concetti di base Per introdurre il test delle ipotesi conviene collegarsi a quanto illustrato nell'introduzione al capitolo 6. Facendo riferimento per semplicità all’approccio parametrico all’inferenza statistica, il punto di partenza di un problema di test delle ipotesi è identico a quello di un problema di stima dei parametri: c’è un certo fenomeno, il cui risultato non è prevedibile con certezza, di cui interessa studiare determinate caratteristiche; dal punto di vista probabilistico questo fenomeno è rappresentato da una v.c., diciamo X; per coglierne il comportamento casuale si sceglie fra quelli a disposizione (o si inventa ex-novo) un modello statistico, sotto forma di funzione di massa se X è discreta o di funzione di

Transcript of Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di...

Page 1: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

1

Capitolo 7

TEST DELLE IPOTESI

In questo capitolo si affronta il problema della verifica d’ipotesi statistiche limitando la

trattazione alla cosiddetta teoria classica del test delle ipotesi parametriche.

Argomentazioni diverse devono essere svolte sia nei riguardi della impostazione

bayesiana della teoria del test delle ipotesi sia nei riguardi della teoria dei test non-

parametrici (da non confondere con le ipotesi non-parametriche), aspetti questi che non

vengono qui trattati.

E’ stato sottolineato in precedenza che la teoria dell’inferenza statistica riguarda

principalmente due specifici argomenti: la stima (puntuale e per intervallo) ed il test

delle ipotesi. In entrambi i casi si tratta di valutare aspetti incogniti, concernenti una

determinata v.c., in base alle informazioni di un campione. Il problema della stima e

quello del test delle ipotesi, anche se simili, vanno comunque tenuti distinti in quanto

coinvolgono problematiche diverse. Infatti: nel primo caso il campione viene utilizzato

per stimare un’entità incognita relativa ad una certa v.c.; nel secondo caso il campione

viene utilizzato per verificare statisticamente la validità di una certa affermazione

(ipotesi) su un’entità incognita relativa a una certa v.c.

1. Concetti di base

Per introdurre il test delle ipotesi conviene collegarsi a quanto illustrato

nell'introduzione al capitolo 6.

Facendo riferimento per semplicità all’approccio parametrico all’inferenza statistica, il

punto di partenza di un problema di test delle ipotesi è identico a quello di un problema

di stima dei parametri: c’è un certo fenomeno, il cui risultato non è prevedibile con

certezza, di cui interessa studiare determinate caratteristiche; dal punto di vista

probabilistico questo fenomeno è rappresentato da una v.c., diciamo X; per coglierne il

comportamento casuale si sceglie fra quelli a disposizione (o si inventa ex-novo) un

modello statistico, sotto forma di funzione di massa se X è discreta o di funzione di

Page 2: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

2

densità se X è continua (oppure si formula un modello più complesso se, ad esempio,

interessa studiare la relazione fra più variabili).

Quello che cambia, appunto, è proprio il problema. Quando si effettua stima dei

parametri, puntuale o per intervallo, l’informazione campionaria (eventualmente

integrata da conoscenze a priori se si utilizza un approccio bayesiano) viene utilizzata

per stimare uno o più parametri incogniti del modello scelto per X. Quando invece si fa

test delle ipotesi sui parametri, l’informazione campionaria (eventualmente integrata da

conoscenze a priori se si utilizza un approccio bayesiano) viene utilizzata per decidere

se accettare o rifiutare una certa ipotesi concernente uno o più parametri incogniti del

modello scelto per X.

La rilevanza del problema di test delle ipotesi è facilmente intuibile se si pensa che

all’accettazione o al rifiuto di una certa ipotesi è spesso collegata la scelta di una

particolare linea di comportamento.

Definizione 1: Definizione di ipotesi statistica. Sia X una v.c. con funzione di massa o

di densità f(x; θ), dove θ ∈ Θ è un parametro incognito. Allora

un’ipotesi statistica è un’affermazione che specifica completamente o

parzialmente la distribuzione di X. Tale affermazione può riferirsi:

• a θ, cioè ai soli parametri caratteristici della distribuzione (e in tal

caso l’ipotesi è detta parametrica);

• a f(x; θ), cioè alla forma funzionale della distribuzione (e in tal caso

l’ipotesi è detta non-parametrica o distribution free).

L’ipotesi statistica in oggetto è usualmente detta ipotesi nulla o ipotesi

di lavoro ed è indicata con H0.

Con riferimento a quanto illustrato nell’introduzione al capitolo 6, è opportuno fare

chiarezza su un aspetto abbastanza sottile. Un’ipotesi parametrica, cioè un’ipotesi

riguardante soltanto certi parametri caratteristici, ha senso sia in un contesto

parametrico (in cui il modello è completamente specificato in tutte le sue parti) che

semi-parametrico (nel quale del modello sono formulate solo certe componenti

fondamentali). Al contrario un’ipotesi non-parametrica, cioè relativa la forma

funzionale della distribuzione ha senso soltanto in ambito non-parametrico: per

Page 3: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

3

rendersene conto basta pensare al fatto che un’eventuale assunzione sulla forma della

distribuzione di X configgerebbe con quella dell’ipotesi (se diversa) oppure sarebbe una

pura tautologia (se uguale).

In questo corso ci occuperemo prevalentemente di ipotesi statistiche parametriche,

relative cioè ai soli parametri caratteristici θ del modello scelto f(x; θ) (diremo

qualcosa sul test d'ipotesi non-parametriche nella sez. 18). In questo caso l’ipotesi nulla

si concretizza nell’affermazione che θ appartiene ad un certo sottoinsieme Θ0 dello

spazio parametrico Θ, in simboli

H0: θ ∈ Θ0.

D’altra parte, poiché Θ0 è un sottoinsieme di Θ, dall’ipotesi nulla precedente risulta

automaticamente definita anche un’ipotesi alternativa

H1: θ ∈ Θ1,

dove Θ1 è il complementare di Θ0 in Θ. Di conseguenza ipotesi nulla e ipotesi

alternativa formano una partizione di Θ in Θ0 e Θ1 (si veda Fig. 1).

Tornando alla definizione precedente, quando un’ipotesi statistica specifica

completamente la distribuzione di X allora è detta semplice, se invece la specifica solo

parzialmente allora è detta composta. E’ chiaro allora che affinché un’ipotesi sia

semplice, ovvero affinché la specificazione della distribuzione di X sotto tale ipotesi sia

completa, occorre che, contemporaneamente: 1) l’ipotesi sia di tipo puntuale, cioè

individui un solo punto dello spazio parametrico; 2) non vi siano altri parametri

incogniti. Per chiarire questo aspetto vediamo alcuni esempi.

• Sia X ~ Be(p). Allora:

- se H0: p = 0.3, H1: p = 0.4, entrambe le ipotesi sono semplici (in questo caso lo

spazio parametrico è {0.3, 0.4});

- se H0: p = 0.3, H1: p > 0.3, l’ipotesi nulla è semplice mentre l’alternativa è

composta unidirezionale (in questo caso lo spazio parametrico è [0.3, 1]);

- se H0: p = 0.3, H1: p ≠ 0.3, l’ipotesi nulla è semplice mentre l’alternativa è

composta bidirezionale (in questo caso lo spazio parametrico è [0, 1]);

- se H0: p ≤ 0.3, H1: p > 0.3, sia l’ipotesi nulla che l’alternativa sono composte

unidirezionali (in questo caso lo spazio parametrico è di nuovo [0, 1]).

Page 4: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

4

• Sia X ~ N(µ, σ2 = 10). Allora, essendo σ2 nota:

- se H0: µ = 15, H1: µ = 10, entrambe le ipotesi sono semplici (in questo caso lo

spazio parametrico per µ è {10, 15});

- se H0: µ = 15, H1: µ < 15, l’ipotesi nulla è semplice mentre l’alternativa è

composta unidirezionale (in questo caso lo spazio parametrico per µ è (–∞,

15]);

- se H0: µ = 15, H1: µ ≠ 15, l’ipotesi nulla è semplice mentre l’alternativa è

composta bidirezionale (in questo caso lo spazio parametrico per µ è (–∞,

+∞));

- se H0: µ ≥ 15, H1: µ < 15, sia l’ipotesi nulla che l’alternativa sono composte

unidirezionali (in questo caso lo spazio parametrico per µ è di nuovo (–∞, +∞)).

• Sia X ~ N(µ, σ2). Allora, essendo σ2 incognita, qualsiasi ipotesi su µ, sia di tipo

puntuale che non, è composta.

Tornando a quanto detto in precedenza, obiettivo del test delle ipotesi è decidere se

accettare o rifiutare l’ipotesi nulla H0 sulla base del campione.

Definizione 2: Definizione di test delle ipotesi. Un test di ipotesi è una regola at-

traverso la quale decidere se accettare o rifiutare l’ipotesi nulla H0

sulla base del campione x = (x1, …, xn).

Concretamente, tale regola è attuata nel modo seguente. Indicato con C

l’universo dei campioni (cioè l’insieme di tutti i possibili campioni x =

(x1, …, xn) di dimensione fissata n che si possono estrarre da X), un test

delle ipotesi consiste nel suddividere l’insieme C in due sottoinsiemi

disgiunti A e R (quindi A ∪ R = C e A ∩ R = ø) in modo tale che:

• se x cade in A → si accetta l’ipotesi H0;

• se x cade in R → si rifiuta l’ipotesi H0 (e quindi si accetta H1).

A è detto regione di accettazione, mentre R è detto regione di rifiuto o

regione critica.

Il processo decisionale di cui alla definizione precedente è schematizzato in Fig. 1.

Page 5: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

5

Fig. 1 – Rappresentazione grafica del processo decisionale del test delle ipotesi. L’unico

aspetto su cui la teoria può intervenire è sul “confine” (tratteggiato nella figura) fra

regione di accettazione A e regione di rifiuto R.

A questo punto, date due ipotesi statistiche H0 e H1 che formano una partizione di Θ e

data una regola di decisione basata su un campione x quale quella indicata sopra, è

banale osservare che, nell’accettare o rifiutare H0, si può agire correttamente ma si

possono anche commettere degli errori. Più in dettaglio, con riferimento all’ipotesi H0:

si ha una decisione corretta se si accetta l’ipotesi quando è vera o si rifiuta quando è

falsa, mentre si ha una decisione errata se si accetta l’ipotesi quando è falsa o si rifiuta

quando è vera. Queste quattro situazioni sono schematizzate nella Tabella 1.

Verità

Decisione H0: θ ∈ Θ0 H1: θ ∈ Θ1

x ∈ A ok errore di II tipo

x ∈ R errore di I tipo ok

Tabella 1 - Tavola di decisione in un test delle ipotesi.

Prima di commentarne il contenuto, si evidenzia che questa tabella “fotografa” l’essenza

del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la

seconda stabilisce quale delle due ipotesi è vera, mentre l’uomo può solo decidere,

basandosi sull’informazione del campione, se accettare o rifiutare H0. Detto in altre

parole la “natura” stabilisce la colonna della tabella, mentre l’uomo può solo decidere la

riga. Nella realtà, quindi, non sappiamo mai quale è vera fra H0 e H1 (e quindi qual è la

Θ0

Θ1 R

A

C Θ

Page 6: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

6

colonna giusta), ma possiamo stabilire solo quale decisione prendere (cioè quale riga

scegliere). E’ ovvio però che per prendere la decisione in oggetto occorre valutare cosa

succede a seconda delle “mosse dell’avversario”, cioè quali sono le conseguenze di

ciascuna decisione a seconda di cosa la “natura” ha stabilito: il contenuto della tabella

evidenzia proprio questo.

Nel processo decisionale indicato si possono allora commettere due tipi di errore:

a. errore di I tipo: è l’errore che si commette quando è vera H0 ma x ∈ R e quindi la

decisione è rifiutare H0;

b. errore di II tipo: è l’errore che si commette quando è vera H1 ma x ∈ A e quindi la

decisione è accettare H0.

Facciamo notare che l’errore di I tipo è l’unico errore che si può commettere quando è

vera H0, mentre l’errore di II tipo è l’unico errore che si può commettere quando è vera

H1.

La probabilità di commettere un errore di I tipo, cioè la probabilità di rifiutare H0

quando essa è vera, è indicata usualmente con α:

α = P(I) = P(X ∈ R | H0)

ed è detta livello di significatività del test.

La probabilità di commettere un errore di II tipo, e cioè la probabilità di accettare H0

quando essa è falsa, è indicata con β:

β = P(II) = P(X ∈ A | H1).

La probabilità di rifiutare H0 quando è vera H1, cioè

γ = P(X ∈ R | H1) = 1 – β,

è detta potenza del test (dall’inglese power) ed è pari a 1 – β in quanto l’evento

considerato è complementare all’errore di II tipo.

Chiaramente: quando l’ipotesi alternativa è puntuale allora sia β che γ sono dei valori;

se invece H1 non è di tipo puntuale, allora sia β che γ sono funzione della specificazione

di tale ipotesi (maggiori dettagli saranno forniti nella sez. 4).

La probabilità di accettare H0 quando è vera, è data da

P(X ∈ A | H0) = 1 – α

e non ha un nome particolare.

Page 7: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

7

2. Teoria del test delle ipotesi

A questo punto ci sono tutti gli elementi per sviluppare la teoria del test delle ipotesi.

Espressa per adesso in termini intuitivi, l’idea di base, visto che il processo decisionale

relativo al test delle ipotesi può essere affetto da errore (di I o di II tipo) è quella di

congegnare tale processo in modo da “sbagliare il meno possibile”. D’altra parte, per

quanto detto in precedenza questo equivale a curare la suddivisione di C nelle due

regioni A e R nel miglior modo possibile. Infatti: da una parte la formulazione

dell’ipotesi nulla è “suggerita” dal fenomeno in analisi e dall’interesse di chi lo

analizza; dall’altra la realizzazione campionaria x non può essere certo stabilita da chi

effettua le analisi; l’unica cosa su cui si può intervenire è la suddivisione di C in A e R

(e quindi, relativamente alla Fig. 1, solo sul “confine” fra le due regioni). Pertanto tutto

ciò che la teoria può fare è effettuare la partizione dell’universo dei campioni C in A ed

R in modo da “sbagliare il meno possibile” nel decidere se accettare o rifiutare H0:

quando nel seguito discuteremo della ricerca del test migliore, per test intenderemo

sempre una suddivisione di C in regione di accettazione A e regione di rifiuto R.

Così posto il problema, si vede chiaramente che il test ideale sarebbe quello che opera

una suddivisione di C in A ed R in modo da non incorrere mai in errore e quindi cadere

sempre nelle caselle ok della Tabella 1, cioè: se è vera H0 decidere di accettare H0,

mentre se è vera H1 rifiutare H0. D’altra parte se conoscessimo quale delle due ipotesi è

vera non ci sarebbe bisogno di decidere, e quindi è ovvio che questa situazione ideale è

nella pratica impossibile.

Si potrebbe allora cercare, come test ottimale, una suddivisione di C in A ed R capace di

minimizzare simultaneamente le probabilità, rispettivamente α e β, di commettere gli

errori di I e di II tipo. Purtroppo, in generale non possibile perseguire tale obiettivo, dato

che, come vedremo successivamente nella sez. 4, α e β sono collegati in maniera

inversa, cioè al diminuire di uno l’altro tende ad aumentare e viceversa.

La procedura seguita normalmente è quella di cercare il test migliore nel modo

seguente: fissato il livello di significatività α (la probabilità dell’errore di I tipo) ad un

livello “piccolo”, si cerca la suddivisione di C in A ed R che minimizza β (la probabilità

dell’errore di II tipo), ovvero, stante la relazione fra β e γ, che massimizza γ (la potenza

Page 8: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

8

del test). Un tale test è detto test più potente (o test MP dall’inglese Most Powerful)

per α prefissato. I valori comunemente utilizzati per α sono 0.1, 0.05, 0.01, 0.001.

Evidentemente, la scelta di fissare α e minimizzare β, è dovuta al ruolo “asimmetrico”

che hanno i due errori, di I e di II tipo. Fissare la probabilità dell’errore di I tipo ad un

livello “piccolo” e minimizzare la probabilità di quello di II tipo presuppone il ritenere il

primo errore “più grave” rispetto al secondo. Infatti fissare α ad un livello “piccolo”

implica tenere “sotto controllo” la probabilità di incorrere nell’errore corrispondente,

mentre β, una volta trovato il test più potente, sarà sì minimo a parità di α, ma sarà pur

sempre quello che sarà, senza poterlo limitare ad un valore prefissato (salvo, come

vedremo, il poter stabilire a priori la dimensione del campione). Questo significa che,

per operare nel modo più corretto, bisognerebbe sempre porre come ipotesi nulla quella

le cui conseguenze sono peggiori in caso di errata decisione.

Fatte queste considerazioni, la teoria del test delle ipotesi si regge su diversi risultati

teorici di cui diamo soltanto i principali, ovvero:

1. Il teorema di Neyman-Pearson;

2. Il test del rapporto di massima verosimiglianza.

Il teorema di Neyman-Pearson (che diamo senza dimostrazione) fornisce una risposta

esauriente al problema, sopra menzionato, di trovare il test più potente per un prefissato

livello di significatività quando entrambe le ipotesi, la nulla e l’alternativa, sono

semplici.

Teorema 1: Teorema di Neyman-Pearson. Siano: X una v.c. con funzione di massa

o di densità f(x; θ);

H0: θ = θ0 contro H1: θ = θ1

due ipotesi su θ entrambe semplici; α il prefissato livello di

significatività del test. Sia poi x = (x1, ..., xn) un campione estratto da X,

l’informazione da utilizzare per sottoporre a test le ipotesi indicate, e sia

L(θ) la verosimiglianza calcolata in θ sulla base di tale campione.

Allora il test più potente al livello di significatività α è individuato dalla

seguente partizione dell’universo dei campioni C:

Page 9: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

9

R = {x: L(θ0)/L(θ1) < K}

A = {x: L(θ0)/L(θ1) ≥ K},

dove il valore soglia K, detto valore critico, è scelto in modo tale da

soddisfare il livello di significatività α, cioè

α = P(X ∈ R | H0) = P(X: L(θ0)/L(θ1) < K | H0).

Questo teorema, ad una prima lettura di non semplice interpretazione, richiede qualche

commento.

1. La prima cosa da notare, peraltro già evidenziata più volte, è il fatto che tale teorema

vale solo se entrambe le ipotesi, nulla e alternativa, sono semplici.

2. In secondo luogo si evidenzia il particolare rilievo che la verosimiglianza ha anche

nell’ambito del test delle ipotesi, oltre che nella stima (si veda cap. 6).

3. In terzo luogo: il teorema resta valido qualunque sia il numero (purché finito) dei

parametri caratteristici della legge di distribuzione della v.c. X; il teorema non

richiede esplicitamente l’indipendenza delle n osservazioni costituenti il campione;

il teorema può essere applicato in modo del tutto equivalente considerando la

differenza delle log-verosimiglianze invece rapporto fra le verosimiglianze. Infatti

essendo il logaritmo una trasformazione monotona crescente si ha, facendo il

logaritmo naturale di ambo i membri,

L(θ0)/L(θ1) < K ⇔ l(θ0) – l(θ1) < k,

dove l(θ) = ln L(θ) e k = ln K [si invita lo studente a dimostrare l’equivalenza fra le

due relazioni]. Il vantaggio di considerare la log-verosimiglianza è che, di norma,

quest’ultima è più facile da trattare rispetto alla verosimiglianza.

4. Infine la considerazione più rilevante dal punto di vista pratico. Ricordando che la

verosimiglianza in θ è la probabilità o densità del campione osservato x per tale

valore del parametro, il teorema stabilisce regione di rifiuto e di accettazione in base

al confronto della verosimiglianza nelle due situazioni alternative H0, in cui θ vale

θ0, e H1, in cui θ è pari a θ1. Fissata una certa soglia K (o k se si considera la

differenza fra log-verosimiglianze), anche intuitivamente appare logico accettare

quando L(θ0)/L(θ1) è superiore alla soglia, e rifiutare quando invece il rapporto è

inferiore alla soglia. Riguardo a questo, il calcolo delle due verosimiglianze, per

quanto talvolta lungo, generalmente non è un grosso problema. Il punto “spinoso”,

Page 10: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

10

piuttosto, è come determinare la soglia K. Il teorema dice che K deve soddisfare la

condizione α = P(X: L(θ0)/L(θ1) < K | H0): tuttavia per poter utilizzare questa

condizione occorre che il rapporto fra le verosimiglianze L(θ0)/L(θ1) abbia una

distribuzione nota, in base alla quale sfruttare opportune tavole per ricavare K. In

generale, però, tale distribuzione non è di semplice derivazione.

Nella pratica, allora, come si può sfruttare questo teorema? Ebbene, quando, come nella

maggior parte dei casi considerati in questo corso, esistono statistiche sufficienti per il

parametro che si vuole sottoporre a test, si può dimostrare che la disuguaglianza

L(θ0)/L(θ1) < K può essere trasformata in una disuguaglianza perfettamente equivalente

del tipo T(X) < c oppure T(X) > c, cioè vale

α = P(X: L(θ0)/L(θ1) < K | H0) = P(X: T(X) < c | H0)

oppure

α = P(X: L(θ0)/L(θ1) < K | H0) = P(X: T(X) > c | H0)

a seconda di quale delle due è equivalente a quella originaria (questo aspetto è

affrontato sotto). Nelle relazioni precedenti T(X) è una statistica di cui si conosce la

distribuzione mentre c è una costante “soglia” di nuovo detta valore critico. Poiché di

T(X) si conosce la distribuzione, c può essere facilmente ricavato dalle tavole

corrispondenti sulla base delle relazioni precedenti che lo legano ad α. Per non

appesantire eccessivamente il corso, in generale non descriveremo i passaggi che da

L(θ0)/L(θ1) < K portano infine a T(X) < c oppure a T(X) > c. Ci limiteremo giusto ad un

paio di esempi, mentre nei casi successivi indicheremo soltanto la statistica test T(X) e

la corrispondente distribuzione.

Ma rispetto a questo si può dire anche di più.

• La prima cosa che si può aggiungere è una semplice sottolineatura, decisiva però ai

fini della comprensione della teoria del test delle ipotesi: il valore critico, sia questo

K (nella versione per il rapporto fra verosimiglianze L(θ0)/L(θ1)), k (nella versione

per la differenza fra log-verosimiglianze l(θ0) – l(θ1)) o c (per la versione relativa a

T(X)) si trova da una delle condizioni

α = P(X: L(θ0)/L(θ1) < K | H0)),

α = P(X: l(θ0) – l(θ1) < k | H0)),

Page 11: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

11

α = P(X: T(X) < c | H0),

α = P(X: T(X) > c | H0),

e dunque dipende dal comportamento della statistica test sotto H0. In altri termini

il confine fra regione di accettazione e regione di rifiuto si ricava, sempre,

ragionando sotto H0.

• La seconda cosa da aggiungere, fondamentale anch’essa, è che nel caso in cui si

utilizzi T(X) la regione di rifiuto va sempre messa dalla parte dell’ipotesi

alternativa H1, cioè se θ1 < θ0 allora

R = {x: T(x) < c}

mentre se θ1 > θ0 allora

R = {x: T(x) > c}.

Quindi, riassumendo:

il valore critico c va sempre trovato ragionando sotto H0, tenendo però presente

che la regione di rifiuto sta dalla parte di H1.

• Tutto ciò consente di evidenziare un altro aspetto importante. Le assunzioni del

teorema indicano che entrambe le ipotesi H0 e H1 devono essere semplici. In realtà

per quanto detto al termine del punto precedente, nel caso in cui si possa trasformare

α = P(X: L(θ0)/L(θ1) < K | H0)) in α = P(X: T(X) < c | H0) oppure α = P(X: T(X) > c

| H0), mantenendo l’ipotesi nulla a H0: θ = θ0 il teorema vale anche se l’ipotesi

alternativa è composta unidirezionale, cioè del tipo H1: θ > θ0 oppure H1: θ < θ0.

Infatti in questo caso non ha alcuna importanza al valore puntuale dell’ipotesi

alternativa al fine di stabilire regione di accettazione e regione di rifiuto: l’unica

cosa che conta è se H1 sta a destra oppure a sinistra di H0.

I seguenti due esempi chiariscono nella pratica quanto detto finora. [Avvertenza:

essendo i due esempi abbastanza tecnici, se ne consiglia la lettura, che deve essere

effettuata con attenzione e carta e penna alla mano, solo a chi ha una certa

dimestichezza con i passaggi algebrici.]

Esempio 1

Sia X ~ Be(p) e siano

Page 12: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

12

H0: p = p0 contro H1: p = p1

due ipotesi entrambe semplici su p (nella pratica p0 e p1 sono due numeri), cosicché lo

spazio parametrico è {p0, p1}.

Considerando la differenza fra log-verosimiglianze (punto 3 precedente), allora il test

più potente al livello di significatività α è individuato, in base al teorema di Neyman-

Pearson, dalla seguente regione di rifiuto

R = {x: l(p0) – l(p1) < k},

dove il valore critico k è determinato sulla base della distribuzione della statistica test

l(p0) – l(p1) sotto H0, dovendo soddisfare

α = P(X ∈ R | H0) = P(X: l(p0) – l(p1) < k | H0).

Allora (cap. 6, sez. 5.1.2)

l(p0) – l(p1) = ln p0∑=

n

i 1Xi + ln q0 (n – ∑

=

n

i 1Xi) – ln p1∑

=

n

i 1Xi – ln q1 (n – ∑

=

n

i 1Xi) < k,

che, mettendo in evidenza la statistica sufficiente ∑=

n

i 1Xi, equivale a

[ln (p0/q0) – ln (p1/q1)] ∑=

n

i 1Xi + n (ln q0 – ln q1) < k,

ovvero, ragionando sulla media campionaria invece che sulla somma dei successi, a

[ln (p0/q0) – ln (p1/q1)] n X + n (ln q0 – ln q1) < k.

A questo punto, il passaggio successivo dipende da quale è maggiore fra le due ipotesi,

se la nulla o l’alternativa. Infatti:

• se p1 < p0 allora ln (p0/q0) – ln (p1/q1) > 0 e quindi

X < [k/n – ln q0 + ln q1]/[ln (p0/q0) – ln (p1/q1)] = c;

• se p1 > p0 allora ln (p0/q0) – ln (p1/q1) < 0 e quindi

X > [k/n – ln q0 + ln q1]/[ln (p0/q0) – ln (p1/q1)] = c.

Possiamo notare che si verifica proprio quanto detto in precedenza: la disuguaglianza

sulle verosimiglianze (o sulle log-verosimiglianze) è stata trasformata in una

disuguaglianza equivalente relativa ad una particolare statistica di cui si conosce la

distribuzione, nel nostro caso X ~ BiRe(n, p); quale delle due disuguaglianze vale

Page 13: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

13

dipende da dove sta l’ipotesi alternativa rispetto alla nulla: se p1 < p0 allora vale quella

con < c, e quindi la regione di rifiuto è

R = {x: x < c};

se p1 > p0 allora vale quella con > c, e quindi la regione di rifiuto è

R = {x: x > c};

In ogni caso la regione di rifiuto sta sempre, rispetto a c, dalla parte dell’alternativa.

Il valore critico c può essere ricavato direttamente dalla condizione sul livello di

significatività, cioè:

• se p1 < p0, c è tale che

α = P(X ∈ R | H0) = P( X < c | H0);

• se p1 > p0, c è tale che

α = P(X ∈ R | H0) = P( X > c | H0);

senza quindi dover calcolare l’espressione c = [k/n – ln q0 + ln q1]/[ln (p0/q0) – ln

(p1/q1)] (la determinazione pratica di tale valore critico sarà affrontata successivamente).

Esempio 2

Sia X ~ N(µ, σ2) con σ2 nota, e siano

H0: µ = µ0 contro H1: µ = µ1

due ipotesi entrambe semplici su µ (nella pratica µ0 e µ1 sono numeri), cosicché lo

spazio parametrico è {µ0, µ1}.

Considerando la differenza fra log-verosimiglianze (punto 3 precedente), allora il test

più potente al livello di significatività α è individuato, in base al teorema di Neyman-

Pearson, dalla seguente regione di rifiuto

R = {x: l(µ0) – l(µ1) < k},

dove il valore critico k è determinato sulla base della distribuzione della statistica test

l(µ0) – l(µ1) sotto H0, dovendo soddisfare

α = P(X ∈ R | H0) = P(X: l(µ0) – l(µ1) < k | H0).

Allora (cap. 6, sez. 5.1.4)

l(µ0) – l(µ1) =

–2n ln(2π) –

2n lnσ2 – 22

∑=

n

i 1(Xi – µ0)2 +

2n ln(2π) +

2n lnσ2 + 22

∑=

n

i 1(Xi – µ1)2 < k,

Page 14: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

14

che dopo le opportune semplificazioni diviene

221σ

∑=

n

i 1[(Xi – µ1)2 – (Xi – µ0)2] < k.

Svolgendo il quadrato e facendo alcune semplificazioni si ottiene

221σ

[n( 21µ – 2

0µ ) + 2(µ0 – µ1) ∑=

n

i 1Xi] < k,

equivalente a

221σ

[n( 21µ – 2

0µ ) + 2(µ0 – µ1)n X ] < k.

A questo punto, il passaggio successivo dipende da quale è maggiore fra le due ipotesi,

se la nulla o l’alternativa. Infatti:

• se µ1 < µ0 allora µ0 – µ1 > 0 e quindi

X < [2σ2k/n – ( 21µ – 2

0µ )]/[2(µ0 – µ1)] = c;

• se µ1 < µ0 allora µ0 – µ1 < 0 e quindi

X > [2σ2k/n – ( 21µ – 2

0µ )]/[2(µ0 – µ1)] = c.

Anche in questo caso si verifica quanto detto in precedenza: la disuguaglianza sulle

verosimiglianze (o sulle log-verosimiglianze) è stata trasformata in una disuguaglianza

equivalente relativa ad una particolare statistica di cui si conosce la distribuzione, nel

nostro caso X ~ N(µ,σ2/n); quale delle due disuguaglianze vale dipende da dove sta

l’ipotesi alternativa rispetto alla nulla: se µ1 < µ0 allora vale quella con < c, e quindi la

regione di rifiuto è

R = {x: x < c};

se µ1 > µ0 allora vale quella con > c, e quindi la regione di rifiuto è

R = {x: x > c}.

In ogni caso la regione di rifiuto sta sempre, rispetto a c, dalla parte dell’alternativa.

Il valore critico c può essere ricavato direttamente dalla condizione sul livello di

significatività, cioè:

• se µ1 < µ0, c è tale che

α = P(X ∈ R | H0) = P( X < c | H0);

Page 15: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

15

• se µ1 < µ0, c è tale che

α = P(X ∈ R | H0) = P( X > c | H0);

senza quindi dover calcolare l’espressione c = [2σ2k/n – ( 21µ – 2

0µ )]/[2(µ0 – µ1)] (la

determinazione pratica di tale valore critico sarà affrontata successivamente).

Riassumendo quanto detto finora, il teorema di Neyman-Pearson consente di derivare la

migliore regione critica soltanto quando le ipotesi nulla e alternativa sono semplici

oppure, per certi particolari modelli, quando l’ipotesi nulla è semplice e l’ipotesi

alternativa è composta unilaterale.

Quando H0 o H1 o entrambe le ipotesi sono composte non esiste un teorema analogo. E’

stata comunque suggerita, sempre da Neyman e Pearson, una procedura generale per la

individuazione della regione critica che dà usualmente buoni risultati: il test del

rapporto di verosimiglianza (in inglese likelihood ratio test).

Definizione 3: Definizione di test del rapporto di verosimiglianza. Siano: X una v.c.

con funzione di massa o di densità f(x; θ);

H0: θ ∈ Θ0 contro H1: θ ∈ Θ1

due ipotesi su θ (una o entrambe composte); α il prefissato livello di

significatività del test. Sia poi x = (x1, ..., xn) un campione estratto da X,

l’informazione da utilizzare per sottoporre a test le ipotesi indicate, e sia

L(θ) la verosimiglianza calcolata in θ sulla base di tale campione.

Allora il test del rapporto di verosimiglianza si basa sul rapporto fra il

massimo della verosimiglianza sotto il vincolo di H0, L( 0θ̂ ) = ( )θL0

maxΘ∈θ

,

e il massimo della verosimiglianza libero, L(θ̂ ) = ( )θLΘ∈θ

max . In

particolare il test del rapporto di massima verosimiglianza al livello di

significatività α è individuato dalla seguente partizione dell’universo dei

campioni C:

R = {x: r = L( 0θ̂ )/L(θ̂ ) < K}

A = {x: r = L( 0θ̂ )/L(θ̂ ) ≥ K},

Page 16: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

16

dove il valore soglia K è scelto in modo tale da soddisfare il livello di

significatività α, cioè

α = P(X ∈ R | H0) = P(X: r = L( 0θ̂ )/L(θ̂ ) < K | H0).

Anche questa definizione richiede alcuni commenti.

1. Per prima cosa, si evidenzia di nuovo il ruolo fondamentale del concetto di

verosimiglianza.

2. In seconda battuta è opportuno chiarire la “ratio” di questa procedura di test. La

logica del test del rapporto di verosimiglianza è quella di rapportare come il

campione “è spiegato” dall’ipotesi H0 (il massimo vincolato L( 0θ̂ ) = ( )θL0

maxΘ∈θ

al

numeratore) rispetto a come “è spiegato” senza imporre alcun vincolo (il massimo

libero L(θ̂ ) = ( )θLΘ∈θ

max al denominatore). Notato che tale rapporto è

necessariamente compreso fra 0 e 1 (le verosimiglianze sono sempre non negative e

il massimo vincolato non può essere maggiore del massimo libero!), si intuisce che

se r è vicino ad 1 allora la spiegazione fornita sotto H0 si avvicina a quella libera e

l’ipotesi H0 sarà tendenzialmente da accettare; viceversa se r è piccolo allora la

spiegazione fornita sotto H0 è significativamente peggiore di quella libera e l’ipotesi

H0 sarà tendenzialmente da rifiutare.

3. Come terza cosa si fa notare che, analogamente al teorema di Neyman-Pearson, il

test del rapporto di verosimiglianza può essere anche applicato con riferimento alle

log-verosimiglianze, che come detto altre volte sono spesso un po’ più semplici da

calcolare. Infatti, essendo il logaritmo naturale una trasformazione monotona

crescente, il logaritmo del massimo (della verosimiglianza, sia questa libera che

vincolata) è uguale al massimo del logaritmo (e quindi al massimo della log-

verosimiglianza). Di conseguenza, considerando la disuguaglianza che definisce la

regione di rifiuto R abbiamo

r = L( 0θ̂ )/L(θ̂ ) < K ⇔ ln r = l( 0θ̂ ) – l(θ̂ ) < k,

dove l( 0θ̂ ) = ( )θl0

maxΘ∈θ

e l(θ̂ ) = ( )θlΘ∈θ

max sono rispettivamente il massimo vincolato

(sotto H0) e il massimo libero della log-verosimiglianza e k = ln K [di nuovo si invita

lo studente a dimostrare l’equivalenza delle due relazioni precedenti]. Si fa notare

Page 17: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

17

che, poiché il rapporto fra i massimi delle verosimiglianze r è sempre compreso in

[0, 1], la differenza fra i massimi delle log-verosimiglianze è sempre ≤ 0.

4. La costante che discrimina se l’ipotesi nulla è da accettare o da rifiutare è il valore

critico, K per il rapporto delle verosimiglianze, k per la differenza delle log-

verosimiglianze. Ovviamente poiché r è compreso fra 0 ed 1 anche K sarà sempre

inferiore a 1, così come essendo ln r ≤ 0 anche k sarà sempre negativo. Il valore di K

deve essere ricavato in modo da rispettare il livello di significatività fissato, cioè

α = P(X ∈ R | H0) = P(X: r = L( 0θ̂ )/L(θ̂ ) < K | H0)

e un discorso analogo vale per k

α = P(X ∈ R | H0) = P(X: ln r = l( 0θ̂ ) – l(θ̂ ) < k | H0).

D’altra parte per ricavare K o k occorre conoscere la distribuzione campionaria di r

= L( 0θ̂ )/L(θ̂ ) o di ln r = l( 0θ̂ ) – l(θ̂ ) in modo da sfruttare opportune tavole per

ricavare K o k. In generale, però, tale distribuzione non è di semplice derivazione. E

allora si aprono due situazioni alternative:

- Se, dopo una serie di passaggi, si riesce a semplificare la disuguaglianza

L( 0θ̂ )/L(θ̂ ) < K o l’equivalente l( 0θ̂ ) – l(θ̂ ) < k in modo da ricondurla ad una

disuguaglianza perfettamente equivalente relativa ad una statistica la cui

distribuzione è nota (operazione analoga a quanto visto in precedenza

relativamente al teorema di Neyman-Pearson e che richiede la presenza di

statistiche sufficienti), allora conviene procedere per questa strada e la

distribuzione della statistica test che si trova consente l’esatta derivazione del

valore critico;

- Se invece non è possibile ricondursi ad una disuguaglianza equivalente per una

grandezza la cui distribuzione è nota (e questo è il caso più frequente nella

pratica, anche se “raro” in questo corso) allora non rimane che affidarsi alla

distribuzione asintotica del rapporto di massima verosimiglianza r. Sotto

condizioni di regolarità abbastanza generali si può infatti dimostrare che per n

abbastanza grande, la variabile casuale –2 lnr, ha approssimativamente una

distribuzione del tipo χ2(v), dove ν rappresenta il numero di vincoli di

uguaglianza puntuali sui parametri specificati da H0. In simboli

(–2 lnr = –2 [l( 0θ̂ ) – l(θ̂ )] | H0) ≈ χ2(v).

Page 18: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

18

In tal caso, poiché la regione di rifiuto è definita da r < K o da ln r < ln K, allora

r < K ⇔ ln r < ln K ⇔ –2 ln r > –2 ln K,

per cui in base alla distribuzione asintotica di –2 lnr dovremo sempre rifiutare a

destra del valore critico trovato in base alle tavole della χ2(v). Il fatto che la

distribuzione asintotica si riferisca alla v.c. lnr è un’altra ragione per cui spesso

si utilizza la log-verosimiglianza in luogo della verosimiglianza.

Il test del rapporto di verosimiglianza gode anche di particolari proprietà.

Infatti si dimostra che nei casi in cui esiste la migliore regione critica, cioè quella che a

parità di livello di significatività α massimizza la potenza γ, il test del rapporto di

verosimiglianza riesce a individuarla. Ad esempio, nelle condizioni del teorema di

Neyman-Pearson il test del rapporto di verosimiglianza riesce ad individuare la

medesima regione di rifiuto del teorema.

Si dimostra inoltre che se esiste un test uniformemente più potente (test UMP

dall’inglese Uniformly Most Powerful), cioè un test che, relativamente ad una data

ipotesi nulla semplice H0 e per un prefissato livello di significatività α, minimizza la

probabilità β dell’errore di II tipo qualunque sia la specificazione della ipotesi

alternativa composta H1, esso è un test del rapporto di verosimiglianza.

3. Esempio X ~ N(µ, σ2): test su µ con σ2 nota

In questa sezione si illustra come sottoporre a test alcune ipotesi sul parametro media µ

relativamente al modello Normale con varianza nota. Come detto altre volte, questo

modello non è di grande interesse da un punto di vista operativo in quanto la varianza è

generalmente una quantità incognita. Tuttavia è utile descriverlo e apprenderlo con cura,

sia perché costituisce il prototipo degli esempi che seguiranno (se si capisce questo gli

altri diventano “banali”) sia perché consente di precisare i concetti già esposti e di

illustrarne di nuovi.

Sia allora X ~ N(µ, σ2) con σ2 nota. Si vuole sottoporre a test un’ipotesi su µ, al livello

di significatività α sulla base del c.c.s. x = (x1, …, xn).

Page 19: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

19

a) Caso H0: µ = µ0 contro H1: µ = µ1 > µ0

Questo caso, in cui µ0 e µ1 sono due numeri di cui il secondo maggiore del primo, è

stato trattato nell’Esempio 2 discutendo del teorema di Neyman-Pearson. Essendo le

due ipotesi entrambe semplici, il test migliore è individuato dal teorema, la cui

applicazione porta:

• all’utilizzo della statistica test X ;

• a porre la regione di rifiuto dalla parte dell’ipotesi alternativa, cioè R = {x: x > c};

• a scegliere il valore critico c in base, contemporaneamente, al livello di

significatività α prefissato e alla distribuzione della statistica test sotto H0, cioè α =

P(X ∈ R | H0) = P( X > c | H0).

Nell’Esempio 2 Avevamo rimandato la ricerca del valore critico c ed ora è il momento

di affrontarla.

Poiché in base alle assunzioni dell’esempio si ha che

X ~ N(µ, σ2/n),

quando è vera H0 si ha che µ = µ0 per cui

( X | H0) ~ N(µ0, σ2/n).

Di conseguenza per trovare c si sfruttano i seguenti passaggi

α = P(X ∈ R | H0) = P( X > c | H0) = P(n

X/

0

σµ−

> n

c/

0

σµ−

| H0) = P(Z > z | H0),

si trova z come valore che nelle tavole della N(0, 1) lascia a destra una probabilità α, e

quindi a sinistra (1 – α), e infine si calcola il valore critico c = µ0 + z σ/ n .

La regione critica è allora

R = {x: x > c = µ0 + z σ/ n },

dove z è il quantile (1 – α) della N(0, 1).

A questo punto se la media x calcolata sul campione è inferiore a c si accetta, se è

maggiore si rifiuta.

Si sottolinea che una decisione identica si poteva prendere, invece che confrontando x

col c trovato, confrontando la sua versione standardizzata n

x/

0

σµ−

con lo z (che

Page 20: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

20

possiamo chiamare z-critico) trovato dalle tavole. Infatti, in base ai passaggi visti sopra,

X > c è del tutto equivalente a n

X/

0

σµ−

> z.

b) Caso H0: µ = µ0 contro H1: µ = µ1 < µ0

Questo caso, in cui µ0 e µ1 sono di nuovo due numeri di cui il secondo è stavolta minore

del primo, può essere risolto, sfruttando il teorema di Neyman-Pearson, in maniera del

tutto analoga al caso precedente. L’unica differenza sta nel fatto che, dovendo la regione

di rifiuto stare dalla parte dell’alternativa, abbiamo R = {x: x < c}.

Poiché di nuovo

( X | H0) ~ N(µ0, σ2/n),

per trovare c possiamo fare

α = P(X ∈ R | H0) = P( X < c | H0) = P(n

X/

0

σµ−

< n

c/

0

σµ−

| H0) = P(Z < z | H0),

trovare z come quantile α della N(0, 1) e calcolare il valore critico c = µ0 + z σ/ n .

La regione critica è allora

R = {x: x < c = µ0 + z σ/ n },

dove z è il quantile α della N(0, 1).

A questo punto se la media x calcolata sul campione è inferiore a c si rifiuta, se è

maggiore si accetta.

Di nuovo una decisione identica si poteva prendere, invece che confrontando x col c

trovato, confrontando la sua versione standardizzata n

x/

0

σµ−

con lo z-critico trovato

dalle tavole. Infatti X < c è del tutto equivalente a n

X/

0

σµ−

< z.

c) Caso H0: µ = µ0 contro H1: µ > µ0

In questo caso, l’ipotesi alternativa è composta unilaterale. Tuttavia, se si osserva il caso

a) trattato precedentemente, in cui l’alternativa era H1: µ = µ1 > µ0, si nota che nella

formulazione della regione di rifiuto R il valore dell’ipotesi alternativa non compare:

Page 21: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

21

l’alternativa serve solo a stabilire in quale coda della distribuzione di ( X | H0) piazzare

la regione di rifiuto. Di conseguenza la regione critica è la stessa, cioè

R = {x: x > c = µ0 + z σ/ n },

oppure, se si decide di utilizzare la versione standardizzata,

R = {x: n

x/

0

σµ−

> z}

dove z è il quantile (1 – α) della N(0,1).

d) Caso H0: µ = µ0 contro H1: µ < µ0

Anche in questo caso l’ipotesi alternativa è composta unilaterale e si può ripetere il

ragionamento fatto al punto precedente. Infatti, se si osserva il caso b) in cui

l’alternativa era H1: µ = µ1 < µ0, si vede che nella formulazione della regione di rifiuto

R il valore dell’ipotesi alternativa non compare: l’alternativa, lo ripetiamo, serve solo a

stabilire in quale coda della distribuzione di ( X | H0) piazzare la regione di rifiuto. Di

conseguenza la regione critica è la stessa, cioè

R = {x: x < c = µ0 + z σ/ n },

oppure, se si decide di utilizzare la versione standardizzata,

R = {x: n

x/

0

σµ−

< z}

dove z è il quantile α della N(0,1).

e) Caso H0: µ = µ0 contro H1: µ ≠ µ0

Mentre nei due casi precedenti l’ipotesi alternativa era composta unidirezionale, adesso

è composta bidirezionale. Questo caso allora non può essere risolto ricorrendo al

teorema di Neyman-Pearson, né nella versione “base” (due ipotesi semplici) né in quella

“generalizzata” (ipotesi nulla semplice, ipotesi alternativa unidirezionale); si può però

arrivare ad una soluzione ricorrendo al test del rapporto di verosimiglianza.

Infatti, sottraendo al massimo vincolato della log-verosimiglianza sotto H0: µ = µ0 il

massimo libero della stessa log-verosimiglianza in base alle espressioni riportate nella

Page 22: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

22

sez. 5.1.4 del cap. 6, si ottiene, dopo alcuni passaggi e semplificazioni, che la regione di

rifiuto è definita dalla disuguaglianza

ln r = –2

0

/21

nxσ

µ< k,

e la regione di accettazione da

ln r = –2

0

/21

nxσ

µ≥ k.

Quest’ultima ovviamente equivale ad accettare se

– k2− ≤ n

x/

0

σµ−

≤ k2− .

(si ricorda che k < 0). Di nuovo, allora, ricompare la media campionaria X come

statistica test sulla base della quale prendere la decisione e, di nuovo, sotto H0 abbiamo

(n

X/

0

σµ−

| H0) ~ N(0, 1).

I valori critici – k2− e k2− , che come si può notare sono simmetrici rispetto a 0,

vanno trovati in base al livello di significatività del test:

1 – α = P(X ∈ A | H0) = P(– k2− ≤ n

X/

0

σµ−

≤ k2− | H0) = P(–z ≤ n

X/

0

σµ−

≤ z | H0)

dove z è il quantile (1 – α/2) della N(0, 1). Allora la regione di accettazione è definita da

A = {x: –z ≤ n

x/

0

σµ−

≤ z },

oppure, nella versione non standardizzata ma perfettamente equivalente, da

A = {x: c1 = µ0 – z σ/ n ≤ x ≤ c2 = µ0 + z σ/ n }

dove come detto z è il quantile (1 – α/2) della N(0,1).

f) Caso H0: µ ≤ µ0 contro H1: µ > µ0

Questo caso differisce dai precedenti in quanto l’ipotesi nulla non è di tipo puntuale.

Tuttavia può essere ricondotto al caso c) semplicemente trasformando l’ipotesi nulla in

H0: µ = µ0. La ragione è che se si sostituisce l’ipotesi nulla originaria con quella indicata

si ottiene la situazione peggiore, dal punto di vista della potenza del test, rispetto a

Page 23: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

23

qualsiasi altra situazione in cui, sotto H0, µ sia inferiore a µ0. Maggiori dettagli su

questo saranno forniti nella sez. 4 quando, appunto, parleremo più diffusamente della

potenza di un test.

g) Caso H0: µ ≥ µ0 contro H1: µ < µ0

Questo caso può essere trattato con un ragionamento esattamente analogo a quello

precedente. [Si consiglia allo studente di ricostruirne i dettagli per conto proprio].

Per mettere in pratica quanto illustrato consideriamo i seguenti esempi numerici.

Esempio 3

Una fabbrica di lampadine afferma che i propri prodotti hanno una durata media di

almeno 1000 ore e come acquirenti si vuole verificare l'affermazione. Sottoponendo a

prova un campione casuale di 100 lampadine si riscontra una durata media di 970 ore.

Sapendo che la varianza della durata risulta essere σ2 = 6400 ore2, cosa si può

concludere riguardo all'affermazione ad un livello di significatività del 5%?

Il problema di verifica l'ipotesi da risolvere è

H0: µ ≥ 1000 contro H1 : µ < 1000.

D'altra parte, per effettuare in pratica questo test è opportuno correggere l'ipotesi nulla

secondo quanto indicato nel precedente caso g), ovvero

H0: µ = 1000 contro H1 : µ < 1000.

Ipotizzando la Normalità della durata delle lampadine, basandoci sulla teoria possiamo

utilizzare come v.c. test X , la cui distribuzione, essendo nota la varianza, è data da

nσ /X µ− ∼ N(0, 1).

La regione di rifiuto R va determinata, in base al livello di significatività, considerando

la distribuzione della v.c. test sotto H0 mettendo α ed R dalla parte di H1:

0.05 = P(X ∈ R | H0) = P(nσ /

X 0µ− < z | H0).

Page 24: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

24

Dalle tavole si trova z = –1.645 come quantile 0.05 della N(0, 1), per cui la regione di

rifiuto per la statistica Z è R = {x: nσ /

x 0µ− < –1.645}. Lo z-empirico risulta invece

nσ /x 0µ−

= 1006400

1000970 /

− = –3.75, che confrontato con la regione di rifiuto porta a

rifiutare H0 al livello di significatività del 5% e a concludere quindi che la durata media

delle lampadine è significativamente inferiore a quella indicata.

Esempio 4

Un'impresa afferma che le batterie da essa prodotte hanno una durata media di 22 ore e

che la loro variabilità, misurata attraverso lo scostamento quadratico medio, è pari a 3

ore. Un campione di 9 batterie viene sottoposto a prova; tale prova fornisce una durata

media di 20 ore. Ipotizzando per la popolazione una variabilità pari a quella dichiarata

dalla casa produttrice e la Normalità della distribuzione, si vuol verificare la validità

dell'affermazione fatta dall'impresa.

Dobbiamo allora sottoporre a test

H0: µ = 22 contro H1: µ ≠ 22. Grazie all'ipotesi di Normalità, di nuovo, basandoci sulla teoria possiamo utilizzare

come v.c. test X , la cui distribuzione, essendo nota la varianza, è data da

nσ /X µ− ∼ N(0, 1).

La regione di rifiuto R va determinata, in base al livello di significatività del 5%,

considerando la distribuzione della v.c. test sotto H0 e mettendo R su entrambe le code

(α/2 a sinistra, α /2 a destra):

1 – 0.05 = P(X ∈ A | H0) = P(–z ≤ nσ /

X 0µ− ≤ z | H0).

Dalle tavole si trova z = 1.96 come quantile 0.975 della N(0, 1), per cui la regione di

accettazione per la statistica Z è A = {x: –1.96 ≤ nσ /

x 0µ− ≤ 1.96}. Lo z-empirico risulta

invece nσ /

x 0µ− =

932220

/− = –2, che confrontato con la regione di accettazione porta a

Page 25: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

25

rifiutare H0 al livello di significatività del 5% e a concludere quindi che la durata media

delle lampadine è significativamente diversa da quella indicata.

4. La potenza del test

Finora abbiamo focalizzato l’attenzione sulla costruzione del test, cioè sulla divisione

dello spazio campionario in regione di accettazione e di rifiuto, in modo da sfruttare al

meglio le informazioni campionarie a disposizione. Questo significa, parafrasando il

significato del teorema di Neyman-Pearson e le proprietà del test del rapporto di

verosimiglianza, che a parità di livello di significatività la potenza ottenuta è la più alta

possibile (nelle condizioni del teorema) o comunque buona. Adesso però è venuto il

momento di analizzare in dettaglio come determinare la potenza di un test e

approfondire gli elementi che ne determinano il valore.

Per determinare la potenza di un test occorre anzitutto ricordarne la definizione. La

potenza di un test è la probabilità, quando è vera H1, di fare la cosa giusta, cioè di

rifiutare:

γ = P(X ∈ R | H1).

Se l’ipotesi alternativa è semplice, il calcolo della potenza è banale: basta seguire quanto

prescritto dalla definizione.

Prendiamo come riferimento il modello illustrato nella sezione precedente.

Nel caso a) H0: µ = µ0 contro H1: µ = µ1 > µ0 allora, ricordando che la regione di rifiuto

è data in questa situazione da

R = {x: x > c = µ0 + z σ/ n } = {x: nσ /

x 0µ− > z},

dove z è il quantile (1 – α) della N(0, 1), e che sotto H1

( X | H1) ~ N(µ1, σ2/n),

abbiamo

γ = P(X ∈ R | H1) = P( X > c | H1) = P(n

X/

1

σµ− >

nc

/1

σµ−

| H1) = P(Z > n

c/

1

σµ−

| H1).

Page 26: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

26

Si evidenzia anche che se si fosse calcolata la potenza a partire dall’altro modo di

esprimere la regione critica, cioè

γ = P(X ∈ R | H1) = P(n

X/

0

σµ−

> z | H1),

per procedere al calcolo occorre prima togliere la standardizzazione rispetto alla

distribuzione sotto H0 (che risulta “sbagliata” sotto H1) e poi standardizzare di nuovo in

base alla distribuzione sotto H1, riportandosi di fatto al calcolo fatto sopra [si invita lo

studente a fare i passaggi].

Analogamente, nel caso b) H0: µ = µ0 contro H1: µ = µ1 < µ0 , ricordando che la regione

di rifiuto è data in questa situazione da

R = {x: x < c = µ0 + z σ/ n } = {x: nσ /

x 0µ− < z}

dove z è il quantile α della N(0, 1) e che, di nuovo,

( X | H1) ~ N(µ1, σ2/n),

abbiamo, sempre per come è distribuito X sotto H1,

γ = P(X ∈ R | H1) = P( X < c | H1) = P(n

X/

1

σµ− <

nc

/1

σµ−

| H1) = P(Z < n

c/

1

σµ−

| H1).

Di nuovo, si evidenzia anche che se si fosse calcolata la potenza a partire dall’altro

modo di esprimere la regione critica, cioè

γ = P(X ∈ R | H1) = P(n

X/

0

σµ−

< z | H1),

per procedere al calcolo occorre prima togliere la standardizzazione rispetto alla

distribuzione sotto H0 (che risulta “sbagliata” sotto H1) e poi standardizzare di nuovo in

base alla distribuzione sotto H1, riportandosi di fatto al calcolo fatto sopra [si invita lo

studente a fare i passaggi].

Sostituendo i valori di c = µ0 + zσ/ n , µ1, σ, n e calcolando la probabilità in oggetto

mediante le tavole si ottiene la potenza del test.

Si nota immediatamente che, se da una parte il valore di µ1 non ha alcuna importanza

nello stabilire regione di accettazione e regione di rifiuto (se non per il fatto di stare a

Page 27: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

27

destra o a sinistra di H0), la specificazione dell’ipotesi è invece determinate per la

potenza del test, come si può intuire dalla definizione.

Si nota anche che nel determinare la potenza del test non ha alcuna importanza il valore

campionario della statistica test. Detto in altre parole la potenza di un test può essere

calcolata “a tavolino”, dato che allo scopo il campione non serve assolutamente.

Sostituendo l’espressione di c = µ0 + zσ/ n e facendo qualche semplificazione, la

potenza del test nei due casi precedenti può essere espressa: in a), in cui H1: µ = µ1 > µ0,

da

γ = P(Z > n/

10

σµµ −

+ z1 – α | H1),

e in b), in cui H1: µ = µ1 < µ0, da

γ = P(Z < n/

10

σµµ −

+ z α | H1).

Anche se riferite all'esempio in oggetto, le formule di cui sopra consentono alcune

precisazioni che hanno portata generale. In particolare l’espressione della potenza mette

in evidenza le determinati fondamentali del suo valore (per semplicità commentiamo la

formula relativa al caso b, con l’avvertenza che considerazioni del tutto speculari

possono essere ripetute per a):

1. Il livello di significatività, nel senso che all’aumentare di α aumenta anche la

potenza γ. Infatti, a parità di altre condizioni, l’aumento di α fa aumentare zα che a

sua volta fa aumentare γ = P(Z < n/

10

σµµ −

+ zα | H1). Questo si può vedere anche

graficamente dalla Fig. 2: l’incremento di α (probabilità dell’errore di I tipo),

comporta un allargamento della regione di rifiuto che a sua volta determina un

aumento della potenza del test e una riduzione di β.

2. La specificazione dell’ipotesi alternativa, nel senso che all’aumentare della

distanza di H1 da H0 aumenta anche la potenza γ. Infatti, a parità di altre

condizioni, l’aumento della distanza fra le due ipotesi fa aumentare µ0 – µ1

(ricordiamo che, nel caso b, µ1 < µ0), quindi fa aumentare n/

10

σµµ −

e questo infine

Page 28: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

28

fa accrescere γ = P(Z < n/

10

σµµ −

+ zα | H1). Questo si può vedere anche graficamente

dalla Fig. 3: la diminuzione di µ1 provoca un corrispondente spostamento a sinistra

della distribuzione di X sotto H1, comportando un aumento, sempre sotto H1, della

probabilità di stare nella regione di rifiuto e una riduzione di β.

3. La dimensione del campione, nel senso che all’aumentare di n aumenta anche la

potenza γ. Infatti, a parità di altre condizioni, l’aumento di n fa aumentare la

quantità n/

10

σµµ −

, (ricordiamo che, nel caso b, µ1 < µ0) che quindi a sua volta fa

aumentare γ = P(Z < n/

10

σµµ −

+ zα | H1). Questo si può vedere anche graficamente

dalla Fig. 4: l’aumento di n provoca una minor variabilità delle distribuzioni della

statistica test, sia sotto l’ipotesi nulla che sotto l’alternativa, che ha per effetto finale

un aumento della potenza ed una diminuzione di β.

4. La variabilità intrinseca della v.c. X, nel senso che all’aumentare di σ

diminuisce la potenza γ. Infatti, a parità di altre condizioni, l’aumento di σ fa

diminuire la quantità n/

10

σµµ −

, (ricordiamo che, nel caso b, µ1 < µ0) che a sua volta

fa diminuire γ = P(Z < n/

10

σµµ −

+ zα | H1). Questo si può vedere anche graficamente

dalla Fig. 5: l’aumento della variabilità della distribuzione di X, variabilità espressa

ad esempio dalla deviazione standard σ, determina una maggiore variabilità anche

delle distribuzioni della statistica test, sia sotto l’ipotesi nulla che sotto l’alternativa,

che ha per effetto finale una diminuzione della potenza ed un aumento di β.

L’effetto è praticamente opposto a quello provocato da un aumento della

dimensione del campione.

La determinante della potenza del test discussa al precedente punto 2 consente anche di

argomentare la soluzione adottata nei casi f) e g) dell'esempio di cui alla sez. 3 (e anche

nei casi analoghi degli esempi che seguiranno). Infatti, supponendo fissato il valore del

parametro µ sotto l'ipotesi alternativa ad un certo valore µ1, è chiaro che spostando la

nulla da µ0 verso l'interno della propria porzione di spazio campionario si ottiene

Page 29: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

29

l'effetto di allontanare le due ipotesi H0 ed H1, con un conseguente aumento della

potenza rispetto al caso in cui H0: µ = µ0. Quindi, sempre tenendo presente che il livello

di significatività rimane fissato al valore α, il porre H0: µ = µ0 rappresenta la situazione

peggiore, dal punto di vista della potenza del test, rispetto ad ogni altra scelta di H0

all'interno della sua porzione di spazio parametrico. Una situazione potremmo dire

prudenziale, di cautela.

Queste quattro determinanti della potenza di un test, che abbiamo commentato con

riferimento all’esempio illustrato, hanno come già detto una validità generale, che

prescinde dall’esempio considerato. Inoltre, relativamente alle ultime tre possiamo

anche individuare una filosofia di fondo: più le distribuzioni della statistica test sotto H0

e sotto H1 sono sovrapposte, più è difficile capire se il campione (l’informazione a

disposizione per decidere) proviene da H0 o da H1. Pertanto, tutti i fattori che tendono a

far sovrapporre le distribuzioni della statistica test sotto la nulla e l’alternativa fanno

diminuire la potenza (e aumentare β), mentre vale l’opposto per tutti quei fattori che

tendono a separare tali distribuzioni.

Fig. 2 - Relazione tra livello di significatività e potenza del test: la potenza del test (in

verde) tende ad aumentare all’aumentare di α (in rosa).

Page 30: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

30

Fig. 3 - Relazione tra specificazione dell’ipotesi alternativa e potenza del test: la potenza

del test (in verde) tende ad aumentare all’allontanarsi dell’ipotesi alternativa dalla nulla.

Fig. 4 - Relazione tra dimensione del campione e potenza del test: la potenza del test (in

verde) tende ad aumentare all’aumentare della dimensione del campione.

Fig. 5 - Relazione tra variabilità e potenza del test: la potenza del test (in verde) tende a

diminuire all’aumentare della variabilità di X.

Tornando ora al calcolo della potenza di un test, è chiaro che γ è un valore, una costante,

solo se l’ipotesi alternativa è di tipo puntuale. Quando invece H1 è composta, la potenza

può essere calcolata in corrispondenza di ogni singolo valore del parametro all’interno

Page 31: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

31

della porzione di spazio parametrico relativa ad H1: in pratica, allora, occorre

trasformare H1 in tante ipotesi puntuali e calcolare la potenza in corrispondenza di

ciascuna di queste. In tal modo si ottiene una funzione, detta funzione di potenza del

test, che appunto esprime come cambia la potenza al variare dell’ipotesi alternativa. Più

in dettaglio, per costruire la funzione di potenza, allora, occorre:

1. fissare il valore del parametro sotto H1, diciamo θ;

2. effettuare il calcolo della potenza γ(θ) in corrispondenza del θ fissato;

3. riportare sul grafico il punto di coordinate (θ, γ(θ)) ottenuto;

4. continuare in questo modo per tutti i θ desiderati all'interno di Θ1 (la parte di spazio

parametrico definita da H1).

E' banale osservare che, essendo una probabilità, la potenza del test (e quindi anche la

funzione di potenza) è sempre compresa fra 0 ed 1.

I seguenti esempi proseguono l'Esempio 3 e l'Esempio 4 visti in precedenza illustrando

il calcolo della potenza del test ed alcuni concetti illustrati sopra.

Esempio 3 (continua)

Prendiamo di nuovo in esame l'esempio relativo alla durata delle lampadine, nel quale

abbiamo assunto X = "durata" ∼ N(µ,σ2 = 6400), analizzando l'ipotesi

H0: µ = 1000 contro H1: µ < 1000.

In corrispondenza di un livello di significatività del 5% abbiamo ricavato la regione di

rifiuto per la statistica Z

R = {x: nσ /

x 0µ− < z = –1.645},

che con riferimento alla statistica X può essere invece espressa come

R = {x: x < c = µ0 + zσ / n = 986.84}.

Determiniamo ora la potenza del test. Essendo l'ipotesi alternativa composta, per

calcolare la potenza del test occorre formulare un valore puntuale per il parametro µ

sotto H1. Fissiamo ad esempio µ1 = 990. In tal caso

γ = P(X ∈ R | H1) =

Page 32: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

32

P( X < c | H1) = P(n

X/

1

σµ− <

nc

/1

σµ−

| H1) = P(Z < –0.395 | H1) = 0.3464

Ovviamente, in corrispondenza di ogni valore µ inferiore a 1000 (non dimentichiamo

che il valore dell'alternativa deve essere fissato all'interno della sua porzione di spazio

parametrico) possiamo ricavare un valore per la potenza del test esattamente col

procedimento seguito sopra. In questo modo si ottiene la funzione di potenza del test,

alcuni valori della quale sono riportati nella Tabella 2 e nella Fig. 6. Se il livello di

significatività è fissato al 1% invece che al 5% il valore critico cambia (z diviene 2.326

e c diviene 981.39 [si invita lo studente a fare i conti]) e con esso cambia anche la

potenza del test, come evidenziato nella stessa tabella. Come affermato nelle pagine

precedenti, la tabella mostra che la potenza del test, a parità di altre condizioni, aumenta

all'aumentare di α ed aumenta con l'allontanarsi dell'ipotesi alternativa dalla nulla. Si

nota anche che la potenza di questo test non scende mai sotto il livello di significatività

prefissato.

La Tabella 3 e la Fig. 7 mostrano invece l’andamento della funzione di potenza del test

per due diverse dimensioni campionarie: n = 100 (la dimensione originaria) ed n = 150

(in corrispondenza del quale c diviene 989.26 [si invita lo studente a fare i conti]).

Come affermato nelle pagine precedenti, la tabella mostra che la potenza del test, a

parità di altre condizioni, aumenta all'aumentare della dimensione del campione per

effetto di una maggiore separazione delle distribuzioni della statistica test sotto la nulla

e l’alternativa. Un effetto analogo a quello che consegue da un aumento della

dimensione del campione si ha anche come conseguenza di una minor variabilità della

v.c. X. [Lo studente verifichi il comportamento della funzione di potenza nel caso in cui

σ2 sia 3600 invece dei 6400 originari mantenendo α = 0.05, n = 100 e i valori di µ

sotto H1 della tabella].

Si invita infine lo studente a verificare che per ogni altra scelta dell'ipotesi nulla, nella

versione "originaria", all'interno della propria porzione di spazio parametrico (µ ≥

1000), la potenza del test sarebbe stata, a parità di altre condizioni, più elevata di quella

ottenuta.

Valore di µ Potenza del test Potenza del test

Page 33: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

33

sotto H1 per α = 0.05 per α = 0.01 1000 0.0500 0.0100 995 0.1539 0.0444 990 0.3465 0.1409 985 0.5910 0.3259 980 0.8038 0.5689 975 0.9306 0.7878 970 0.9824 0.9227 965 0.9968 0.9798 960 0.9996 0.9962 955 1.0000 0.9995

Tabella 2 - Andamento della potenza del test nell’Esempio 3 in corrispondenza di

diverse formulazioni dell'ipotesi alternativa per α = 0.05 e α = 0.01.

Valore di µ sotto H1

Potenza del test per n = 100

Potenza del test per n = 150

1000 0.0500 0.0500 995 0.1539 0.1896 990 0.3465 0.4546 985 0.5910 0.7427 980 0.8038 0.9218 975 0.9306 0.9855 970 0.9824 0.9984 965 0.9968 0.9999 960 0.9996 1.0000 955 1.0000 1.0000

Tabella 3 - Andamento della potenza del test nell’Esempio 3 in corrispondenza di

diverse dimensioni del campione per n = 100 e n = 150.

0

0.2

0.4

0.6

0.8

1

1.2

950 960 970 980 990 1000 10100.0

0.2

0.4

0.6

0.8

1.0

1.2

950 960 970 980 990 1000 1010 Fig. 6 – Andamento della funzione di potenza. A sinistra: funzioni di potenza per α =

0.01 (curva in basso) e α = 0.05 (curva in alto) (valori riportati in Tabella 2). A destra:

funzioni di potenza per n = 100 (curva in basso) e n = 150 (curva in alto) (valori

riportati in Tabella 3).

Page 34: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

34

Esempio 4 (continua)

Prendiamo adesso in esame l'esempio relativo alla durata delle batterie, nel quale

abbiamo assunto X = "durata" ∼ N(µ,σ = 3), analizzando le ipotesi

H0: µ = 22 contro H1: µ ≠ 22.

In corrispondenza di un livello di significatività del 5% abbiamo ricavato la regione di

accettazione per la statistica Z

A = {x: –1.96 ≤ nσ /

x 0µ− ≤ 1.96},

che con riferimento alla statistica X può essere espressa come

A = {x: c1 = µ0 – zσ / n = 20.04 ≤ x ≤ c2 = µ0 + zσ / n = 23.96}.

Calcoliamo la potenza del test. Essendo l'ipotesi alternativa composta, per calcolare la

potenza del test occorre fissare un valore puntuale per il parametro µ sotto H1. Fissiamo

ad esempio µ1 = 22.5. In tal caso

γ = P(X ∈ R | H1) = 1 – P(X ∈ A | H1) = 1 – P(c1 ≤ X ≤ c2 | H1)

= 1 – P(n

c/

11

σµ−

≤ n

X/

1

σµ−

≤ n

c/

12

σµ−

| H1) = 1 – P(–2.46 ≤ Z ≤ 1.46 | H1) = 0.0791.

Ovviamente, in corrispondenza di ogni valore µ dell’ipotesi alternativa diverso da 22

possiamo ricavare un valore per la potenza del test esattamente col procedimento

seguito sopra. In questo modo è possibile di nuovo costruire la funzione di potenza del

test, alcuni valori della quale sono riportati nella Tabella 4 e in Fig. 7. Se invece di

collocare α (e quindi la regione di rifiuto) su entrambe le code avessimo posto α su una

sola delle code della distribuzione della statistica test sotto H0 (come si fa in caso di

ipotesi alternativa unilaterale – ad esempio mettendo α = 5% tutto nella coda di destra si

ottiene c = 23.64), avremmo ottenuto una potenza maggiore sulla coda dalla parte di α

(valori di µ superiori a 22) a discapito però di una potenza bassissima sull'altra coda

(valori di µ inferiori a 22), come si evince dal confronto fra la seconda e la terza

colonna della tabella. Questo aspetto è illustrato graficamente nella Fig. 8.

Si nota anche che la potenza del test utilizzato normalmente in caso di ipotesi alternativa

bilaterale (a sua volta derivante dal test del rapporto di verosimiglianza) non scende mai

sotto il livello di significatività, al contrario di quello con α su una sola coda.

Page 35: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

35

Valore di µ Sotto H1

Potenza del test bilaterale(α/2 su entrambe le code)

Potenza del test con α tutto sulla coda di destra

19.0 0.8508 0.0000 19.5 0.7054 0.0000 20.0 0.5160 0.0001 20.5 0.3230 0.0008 21.0 0.1701 0.0041 21.5 0.0791 0.0160 22.0 0.0500 0.0500 22.5 0.0791 0.1261 23.0 0.1701 0.2595 23.5 0.3230 0.4424 24.0 0.5160 0.6388 24.5 0.7054 0.8038 25.0 0.8508 0.9123

Tabella 4 - Confronto fra la potenza del test in corrispondenza di diversi modi di

collocare la regione di rifiuto per α = 0.05.

-0.2

0

0.2

0.4

0.6

0.8

1

18 19 20 21 22 23 24 25 26

Fig. 7 – Andamento della funzione di potenza del test: confronto fra la funzione di

potenza del test a 2 code (curva ad U) e ad una coda (curva ad S).

Page 36: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

36

Fig. 8 – Confronto fra valori della potenza del test in caso di ipotesi alternativa

bilaterale. Blu: distribuzione statistica test sotto H0; Rosa: distribuzione statistica test

sotto H1. Per l’alternativa bidirezionale, la potenza del test è data dall’area scura; per

l’alternativa unidirezionale, la potenza del test si ottiene aggiungendo l’area chiara a

quella scura contigua. La figura a sinistra mostra una potenza del test bidirezionale

leggermente inferiore a quella del test unidirezionale; la situazione è però invertita nella

figura a destra, in cui la potenza del test unidirezionale è praticamente prossima a 0.

Con riferimento a quanto detto nei due esempi precedenti diamo la seguente definizione

di correttezza di un test.

Definizione 4 Definizione di test corretto. Un test si dice corretto se la potenza non

scende mai sotto il livello di significatività, ovvero, in simboli, se

γ ≥ α.

A questo proposito i test utilizzati nell'Esempio 3 e nell'Esempio 4 sono test corretti,

dato che la potenza non scende mai sotto α. Nell'Esempio 4 non è invece un test

corretto quello che si ottiene mettendo α tutto su una sola delle code: infatti la potenza

sulla coda opposta a quella dove è stato sistemato α scende sotto il livello di

significatività e addirittura tende a 0. Senza dimostrarlo, si evidenzia che il test di

utilizzato nell'Esempio 4, che ricordiamo è il test del rapporto di verosimiglianza, pur

non risultando il test uniformemente più potente (cioè il più potente per qualsiasi

specificazione dell’alternativa, dato che sulle singole code è “battuto” da quello con α

da una sola parte) è comunque quello uniformemente più potente nella classe dei test

corretti (test UMPU dall’inglese Uniformly Most Powerful Unbiased).

5. Il p-value

A questo punto è opportuno illustrare un concetto, peraltro criticato da alcuni, che con la

diffusione dei programmi di calcolo statistico ha avuto, nonostante le critiche, una

diffusione enorme: il p-value.

Page 37: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

37

Definizione 5: Definizione di p-value. Sia T(X) la v.c. test utilizzata per sottoporre a

test un certa ipotesi nulla H0. Sia poi T(x) il valore di tale statistica

calcolato sul campione a disposizione x = (x1, …, xn).

Il p-value è la probabilità, sotto H0, di ottenere un valore di T(X) ancora

più spostato verso H1 rispetto a quello effettivamente ottenuto T(x). In

simboli

p-value = P(X: T(X) più spostato verso H1 rispetto a T(x) | H0).

Anche se non del tutto rigorosa, questa è una definizione sufficientemente generale di p-

value. Chiaramente per renderla concreta occorre applicarla a degli esempi. In generale

possiamo tuttavia formalizzare i seguenti casi:

• Se H0: θ = θ0 contro H1: θ = θ1 > θ0 oppure contro H1: θ > θ0 allora

p-value = P(X: T(X) > T(x) | H0).

• Se H0: θ = θ0 contro H1: θ = θ1 < θ0 oppure contro H1: θ < θ0 allora

p-value = P(X: T(X) < T(x) | H0).

• Se H0: θ = θ0 contro H1: θ ≠ θ0 e la distribuzione della statistica test T(X) è

simmetrica rispetto a 0 allora

p-value = 2 P(X: T(X) > |T(x)| | H0).

Da questa caratterizzazione del p-value, si evince immediatamente quanto segue:

• se il valore campionario della statistica test, T(x), coincide esattamente col valore

critico c allora il p-value coincide esattamente col livello di significatività α;

• se il valore campionario della statistica test, T(x), sta nella regione di rifiuto, ovvero

è più spostato verso H1 rispetto a c, allora il p-value è minore del livello di

significatività α;

• se il valore campionario della statistica test, T(x), sta nella regione di accettazione,

ovvero è meno spostato verso H1 rispetto a c, allora il p-value è maggiore del livello

di significatività α.

Tutto questo comporta che si può decidere se accettare o rifiutare l'ipotesi nulla H0 in

due modi diversi ma perfettamente equivalenti:

Page 38: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

38

• o nel modo considerato finora, cioè costruendo regione di accettazione e regione di

rifiuto e poi controllando in quale delle due regioni si trova il valore campionario

della statistica test T(x);

• o guardando al p-value, cioè calcolando il p-value in corrispondenza del valore T(x)

della statistica test nel campione e poi confrontandolo con α: se minore si rifiuta

altrimenti si accetta.

Rispetto al modo usuale di decidere per l'accettazione o il rifiuto di H0, il calcolo del p-

value presenta un piccolo vantaggio: mediante il p-value si vede subito a quale livello di

significatività si sarebbe rifiutato. Infatti se il p-value risulta ad esempio 0.0088, si nota

immediatamente che si sarebbe rifiutato sia per α = 0.05 che per α = 0.01, mentre si

sarebbe accettato per α = 0.001. In altri termini, il p-value può essere interpretato, in

modo perfettamente speculare, o come il massimo α per il quale si sarebbe accettato o

come il minimo α per il quale si sarebbe rifiutato.

Come rovescio della medaglia si fa notare che il calcolo del p-value non è ben definito

in caso di ipotesi alternativa di tipo bilaterale quando la distribuzione della statistica test

non è simmetrica rispetto allo 0 (come invece accade per la Normale e la T-student):

questo è l'aspetto del p-value che è stato maggiormente soggetto a critica.

In ultimo occorre fare notare le differenze principali che ci sono fra il p-value e la

potenza del test. Tali differenze riguardano il fatto che mentre la potenza del test è

definita sotto H1, il p-value è definito sotto H0; in secondo luogo mentre la potenza del

test può essere calcolata "a tavolino" senza alcun riferimento al campione estratto x, il

p-value richiede come ingrediente fondamentale per il calcolo il valore campionario

della statistica test e quindi x.

Esempio 3 (continua)

Prendiamo di nuovo in esame l'esempio relativo alla durata delle lampadine, nel quale

abbiamo assunto X = "durata" ∼ N(µ,σ2 = 6400), analizzando l'ipotesi

H0: µ = 1000 contro H1: µ < 1000.

Determiniamo il p-value. In questo esempio abbiamo utilizzato la v.c. test

nX

/σµ− ∼ N(0, 1),

Page 39: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

39

che sotto H0 (condizione nella quale occorre mettersi per trovare il p-value) diviene

(n

X/

0

σµ−

|H0 ) ∼ N(0, 1).

Lo z-empirico è risultato nσ /

x 0µ− = –3.75, e poiché la regione di rifiuto, essendo H1: µ <

1000, sta nella coda di sinistra della distribuzione sotto H0 abbiamo:

p-value = P(n

X/

0

σµ−

< –3.75 | H0) = P(Z < –3.75 | H0) = 0.00009.

Il valore ottenuto mostra che si sarebbe rifiutato H0 per α = 0.05, per α = 0.01 e anche

per α = 0.001.

Esempio 4 (continua)

Prendiamo adesso in esame l'esempio relativo alla durata delle batterie, nel quale

abbiamo assunto X = "durata" ∼ N(µ,σ = 3), analizzando le ipotesi

H0: µ = 22 contro H1: µ ≠ 22.

Determiniamo il p-value. Anche in questo esempio abbiamo utilizzato la v.c. test

nX

/σµ− ∼ N(0, 1),

che sotto H0 (condizione nella quale occorre mettersi per trovare il p-value) diviene

(n

X/

0

σµ−

|H0 ) ∼ N(0, 1).

Lo z-empirico è risultato nσ /

x 0µ− = –2, e poiché la regione di rifiuto, essendo H1: µ ≠

22, sta in entrambe le code della distribuzione sotto H0 abbiamo:

p-value = 2 P(n

X/

0

σµ−

> |–2| | H0) = 2 P(Z > 2 | H0) = 0.04550.

Il valore ottenuto mostra che si sarebbe rifiutato H0 per α = 0.05, mentre si sarebbe

accettato per α = 0.01 e per α = 0.001.

Page 40: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

40

6. Esempio X ~ N(µ, σ2): test su µ con σ2 incognita

In questa e nelle sezioni che seguono riprendiamo l’analisi del test delle ipotesi di alcuni

modelli. Per i primi riporteremo i concetti e i passaggi in un certo dettaglio;

successivamente descriveremo solo i punti fondamentali, lasciando allo studente il

compito di completare l’analisi. [Si avverte che, analogamente al quanto fatto per la

stima per intervallo, la descrizione dei diversi esempi e casi richiede un consistente

numero di pagine. Tuttavia lo schema di ragionamento si ripete praticamente identico e

una volta assimilati i concetti fondamentali il resto diviene perfettamente logico e…

perfino banale.]

Sia allora X ~ N(µ, σ2) e supponiamo che σ2 sia incognita. Si vuole sottoporre a test

un’ipotesi su µ, al livello di significatività α sulla base del c.c.s. x = (x1, …, xn).

Lo schema di ragionamento è analogo a quello visto per l’esempio in cui abbiamo

considerato σ2 nota (sez. 3): la differenza principale consiste nel fatto che essendo σ2

incognita, anche quando le ipotesi sono puntuali esse sono necessariamente composte,

in quanto non riescono a specificare completamente la distribuzione della v.c. X.

Tuttavia, effettuando il test del rapporto di massima verosimiglianza si perviene di

nuovo alla statistica test X , che essendo σ2 incognita ha la seguente distribuzione:

nSX

/µ− ~ T(n – 1),

dove S2 è la varianza campionaria corretta utilizzata per stimare σ2 (si veda cap. 6, sez.

5.1.4). Su questa base possiamo rapidamente affrontare i diversi casi.

a) Caso H0: µ = µ0 contro H1: µ = µ1 > µ0

In base alle assunzioni dell’esempio, si ha che quando è vera H0: µ = µ0,

(nS

X/

0µ−| H0) ~ T(n – 1).

Page 41: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

41

Di conseguenza, dovendo rifiutare dalla parte dell’ipotesi alternativa, possiamo trovare

il valore critico c per la statistica X in base al livello di significatività sfruttando i ben

noti passaggi

α = P(X ∈ R | H0) = P( X > c | H0) = P(nS

X/

0µ− >

nSc

/0µ−

| H0) = P(T > t | H0),

dove, per come è distribuita nS

X/

0µ−, t è il valore che nelle tavole della T(n – 1) lascia a

destra una probabilità α e quindi a sinistra (1 – α). Il valore critico è allora dato da c =

µ0 + t S/ n .

La regione critica può essere allora equivalentemente espressa nei due modi seguenti:

R = {x: x > c = µ0 + t s/ n } = {x: ns

x/

0µ− > t},

dove t è il quantile (1 – α) della T(n – 1).

Anche il calcolo della potenza procede in modo analogo a quanto illustrato nell’esempio

con σ2 nota. Infatti sulla base del valore critico c trovato in precedenza e tenuto conto

che sotto H1

(nS

X/

1µ− | H1) ~ T(n – 1),

abbiamo

γ = P(X ∈ R | H1) = P( X > c | H1) = P(nS

X/

1µ− > nS

c/

1µ− | H1) = P(T >

nSc

/1µ−

| H1).

Questa probabilità può essere calcolata dalle tavole della T-student dopo aver

determinato nS

c/

1µ−. Si fa notare tuttavia che, per come è costruita la tavola della

distribuzione T, il calcolo della potenza non potrà in generale avvenire in modo

accurato, dato che i quantili sono piuttosto “radi”. Un calcolo preciso può essere fatto

via calcolatore (ad esempio con Excel).

Si evidenzia anche che se si calcolata la potenza a partire dall’altro modo di esprimere

la regione critica, cioè

γ = P(X ∈ R | H1) = P(nS

X/

0µ− > t | H1),

Page 42: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

42

per procedere al calcolo occorre prima togliere la standardizzazione rispetto alla

distribuzione sotto H0 (che risulta “sbagliata” sotto H1) e poi standardizzare di nuovo in

base alla distribuzione sotto H1, riportandosi di fatto al calcolo fatto sopra [si invita lo

studente a fare i passaggi].

b) Caso H0: µ = µ0 contro H1: µ = µ1 < µ0

Poiché di nuovo

(nS

X/

0µ−| H0) ~ T(n – 1),

l’unica differenza rispetto al caso precedente sta nel fatto che, dovendo la regione di

rifiuto stare dalla parte dell’alternativa, si ha

α = P(X ∈ R | H0) = P( X < c | H0) = P(nS

X/

0µ− <

nSc

/0µ−

| H0) = P(T < t | H0),

dove, per la distribuzione di tale statistica, t è il valore che nelle tavole della T(n – 1)

lascia a sinistra una probabilità α.

La regione critica può essere allora equivalentemente espressa nei due modi seguenti:

R = {x: x < c = µ0 + t s/ n } = {x: ns

x/

0µ− < t},

dove t è il quantile α della T(n – 1).

Il calcolo della potenza procede in maniera simile a quanto detto in precedenza [si invita

tuttavia lo studente ad effettuarlo].

c) Caso H0: µ = µ0 contro H1: µ > µ0

In questo caso, l’ipotesi alternativa è composta unilaterale. Tuttavia, se si osserva il caso

a) trattato precedentemente, in cui l’alternativa era H1: µ = µ1 > µ0, si nota che nella

formulazione della regione di rifiuto R il valore dell’ipotesi alternativa non compare.

L’alternativa serve solo a stabilire in quale coda della distribuzione di ( X | H0) piazzare

la regione di rifiuto. Di conseguenza la regione critica è la stessa, cioè

R = {x: x > c = µ0 + t s/ n } = {x: ns

x/

0µ− > t}

dove t è il quantile (1 – α) della T(n – 1).

Page 43: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

43

d) Caso H0: µ = µ0 contro H1: µ < µ0

Anche in questo caso l’ipotesi alternativa è composta unilaterale e si può ripetere il

ragionamento fatto al punto precedente. Infatti, se si osserva il caso b) in cui

l’alternativa era H1: µ = µ1 < µ0, si vede che nella formulazione della regione di rifiuto

R il valore dell’ipotesi alternativa non compare: l’alternativa, lo ripetiamo, serve solo a

stabilire in quale coda della distribuzione di ( X | H0) piazzare la regione di rifiuto. Di

conseguenza la regione critica è la stessa, cioè

R = {x: x < c = µ0 + t s/ n } = {x: ns

x/

0µ− < t}

dove t è il quantile α della T(n – 1).

e) Caso H0: µ = µ0 contro H1: µ ≠ µ0

Mentre nei due casi precedenti l’ipotesi alternativa era composta unidirezionale, adesso

è composta bidirezionale. Non si può ricorrere al teorema di Neyman-Pearson ma

occorre applicare il test del rapporto di verosimiglianza. Anche in questo caso, si può

dimostrare che tale test può essere effettuato mediante la statistica test X , la cui

distribuzione sotto H0 è di nuovo data da

(nS

X/

0µ−| H0) ~ T(n – 1),

e che la regione di accettazione conseguente è simmetrica rispetto a 0:

1 – α = P(X ∈ A | H0) = P(–t ≤ nS

X/

0µ−≤ t | H0)

dove t è il quantile (1 – α/2) della T(n – 1). La regione di accettazione è allora espressa

in modo equivalente da

A = {x: –t ≤ ns

x/

0µ−≤ t } ={x: c1 = µ0 – t s/ n ≤ x ≤ c2 = µ0 + t s/ n }

dove, come detto, t è il quantile (1 – α/2) della T(n – 1).

Page 44: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

44

f) Casi H0: µ ≤ µ0 contro H1: µ > µ0 e H0: µ ≥ µ0 contro H1: µ < µ0

Valgono le argomentazioni illustrate negli analoghi casi discussi nella sez. 3: occorre

trasformare l’ipotesi nulla nella corrispondente ipotesi puntuale H0: µ = µ0 ed agire di

conseguenza.

7. Esempio X ~ N(µ, σ2): test su σ2 con µ nota

Sia di nuovo X ~ N(µ, σ2) e supponiamo che µ sia nota. Si vuole sottoporre a test

un’ipotesi su σ2, al livello di significatività α sulla base del c.c.s. x = (x1, …, xn).

Lo schema di ragionamento è simile a quello riportato negli agli esempi precedenti, con

alcune varianti. L’aspetto principale da segnalare è che il test in oggetto può essere

effettuato sulla base della statistica test 2**S , la varianza campionaria per µ nota (cap. 6,

sez. 5.1.4), la cui distribuzione campionaria è data da

n 2**S /σ2 ~ χ2(n).

Su questa base possiamo affrontare i diversi casi.

a) Caso H0: σ2 = 20σ contro H1: σ2 = 2

1σ > 20σ

Questo caso, in cui 20σ e 2

1σ sono due numeri di cui il secondo maggiore del primo,

può essere trattato sulla base del teorema di Neyman-Pearson, dato che essendo µ nota

le due ipotesi sono semplici. Svolgendo il calcolo della differenza fra le log-

verosimiglianze si può dimostrare che il test in oggetto può essere effettuato sulla base

della statistica 2**S , la cui distribuzione campionaria è stata ricordata sopra. Sotto H0

avremo allora che

(n 2**S / 2

0σ | H0) ~ χ2(n).

Dovendo rifiutare dalla parte dell’ipotesi alternativa, possiamo trovare il valore critico c

per la statistica 2**S in base al livello di significatività sfruttando i passaggi

α = P(X ∈ R | H0) = P( 2**S > c | H0) = P(n 2

**S / 20σ > nc/ 2

0σ | H0) = P(χ2 > t | H0),

Page 45: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

45

dove, per come è distribuito n 2**S / 2

0σ , t è il valore che nelle tavole della χ2(n) lascia a

destra una probabilità α e quindi a sinistra una probabilità (1 – α). Il valore critico è

allora dato da c = t 20σ /n.

La regione critica può essere allora equivalentemente espressa nei due modi seguenti:

R = {x: 2**s > c = t 2

0σ /n} = {x: n 2**s / 2

0σ > t},

dove t è il quantile (1 – α) della χ2(n).

Anche il calcolo della potenza procede in modo analogo a quanto illustrato negli esempi

precedenti. Infatti sulla base del valore critico c trovato sopra e tenuto conto che sotto

H1

(n 2**S / 2

1σ | H1) ~ χ2(n),

abbiamo

γ = P(X ∈ R | H1) = P( 2**S > c | H1) = P(n 2

**S / 21σ > nc/ 2

1σ | H1) = P(χ2 > nc/ 21σ | H1).

Questa probabilità può essere calcolata dalle tavole della Chi-quadrato dopo aver

determinato nc/ 21σ . Si fa notare tuttavia che, per come è costruita la tavola della

distribuzione Chi-quadrato, il calcolo della potenza non potrà in generale avvenire in

modo accurato, dato che i quantili sono piuttosto “radi”. Un calcolo preciso può essere

fatto via calcolatore (ad esempio con Excel).

Si evidenzia anche che se si calcola la potenza a partire dall’altro modo di esprimere la

regione critica, cioè

γ = P(X ∈ R | H1) = P(n 2**S / 2

0σ > t | H1),

per procedere al calcolo occorre prima togliere il denominatore 20σ (che risulta

“sbagliato” sotto H1) e poi dividere di nuovo per 21σ in base alla distribuzione sotto H1,

riportandosi di fatto al calcolo fatto sopra [si invita lo studente a fare i passaggi].

b) Caso H0: σ2 = 20σ contro H1: σ2 = 2

1σ < 20σ

Poiché di nuovo

(n 2**S / 2

0σ | H0) ~ χ2(n),

Page 46: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

46

l’unica differenza rispetto al caso precedente sta nel fatto che, dovendo la regione di

rifiuto stare dalla parte dell’alternativa, si ha

α = P(X ∈ R | H0) = P( 2**S < c | H0) = P(n 2

**S / 20σ < nc/ 2

0σ | H0) = P(χ2 < t | H0),

dove, per come è distribuito n 2**S / 2

0σ , t è il valore che nelle tavole della χ2(n) lascia a

sinistra una probabilità α.

La regione critica può essere allora equivalentemente espressa nei due modi seguenti:

R = {x: 2**s < c = t 2

0σ /n} = {x: n 2**s / 2

0σ < t},

dove t è il quantile α della χ2(n).

Il calcolo della potenza procede in maniera simile a quanto detto in precedenza [si invita

lo studente ad effettuarlo].

c) Caso H0: σ2 = 20σ contro H1: σ2 > 2

In questo caso, l’ipotesi alternativa è composta unilaterale. Tuttavia, se si osserva il caso

a) trattato precedentemente, in cui l’alternativa era H1: σ2 = 21σ > 2

0σ , si nota che nella

formulazione della regione di rifiuto R il valore dell’ipotesi alternativa non compare.

L’alternativa serve solo a stabilire in quale coda della distribuzione di ( 2**S | H0)

piazzare la regione di rifiuto. Di conseguenza la regione critica è la stessa, cioè

R = {x: 2**s > c = t 2

0σ /n} = {x: n 2**s / 2

0σ > t},

dove t è il quantile (1 – α) della χ2(n).

d) Caso H0: σ2 = 20σ contro H1: σ2 < 2

Anche in questo caso l’ipotesi alternativa è composta unilaterale e si può ripetere il

ragionamento fatto al punto precedente. Infatti, se si osserva il caso b) in cui

l’alternativa era H1: σ2 = 21σ > 2

0σ , si vede che nella formulazione della regione di

rifiuto R il valore dell’ipotesi alternativa non compare: l’alternativa, lo ripetiamo, serve

solo a stabilire in quale coda della distribuzione di ( 2**S | H0) piazzare la regione di

rifiuto. Di conseguenza la regione critica è la stessa, cioè

Page 47: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

47

R = {x: 2**s < c = t 2

0σ /n} = {x: n 2**s / 2

0σ < t},

dove t è il quantile α della χ2(n).

e) Caso H0: σ2 = 20σ contro H1: σ2 ≠ 2

Mentre nei due casi precedenti l’ipotesi alternativa era composta unidirezionale, adesso

è composta bidirezionale. Non si può ricorrere al teorema di Neyman-Pearson ma

occorre applicare il test del rapporto di verosimiglianza. Facendo i conti del rapporto di

verosimiglianza per il caso in oggetto, si trova che la disuguaglianza che esprime la

regione di rifiuto

l( 20σ ) – l(σ2) < k,

dopo alcuni passaggi diviene

ln( 2**S / 2

0σ ) – 2**S / 2

0σ < 2k/n – 1.

Questo significa che il rapporto di verosimiglianza dipende solo dalla statistica 2**S e

che, omettendo i passaggi algebrici, tale disuguaglianza equivale a rifiutare se 2**S ≤ c1 oppure 2

**S ≥ c2

e ad accettare se

c1 ≤ 2**S ≤ c2,

dove c1 e c2 sono dei valori critici che delimitano regione di accettazione e regione di

rifiuto.

Al solito per trovare c1 e c2 occorre ragionare in base alla distribuzione della statistica

test sotto l’ipotesi nulla, cioè

(n 2**S / 2

0σ | H0) ~ χ2(n).

In base a questo, ragionando per semplicità sulla regione di accettazione avremo

1 − α = P(X ∈ A | H0) = P(c1 ≤ 2**S ≤ c2 | H0) = P(nc1/ 2

0σ ≤ n 2**S / 2

0σ ≤ nc2/ 20σ | H0) =

P(t1 ≤ χ2 ≤ t2 | H0),

dove, per come è distribuito n 2**S / 2

0σ , con riferimento alle tavole della χ2(n) t1 è il

valore che lascia a sinistra una probabilità α/2 e t2 è il valore che lascia a destra una

Page 48: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

48

probabilità α/2 e quindi a sinistra una probabilità (1 – α/2). La regione di accettazione è

allora espressa in modo equivalente da

A = {x: t1 ≤ n 2**s / 2

0σ ≤ t2 } ={x: c1 = t120σ /n ≤ 2

**s ≤ c2 = t220σ /n }

dove, come detto, t1 è il quantile α/2 e t2 è il quantile (1 – α/2) della χ2(n).

f) Casi H0: σ2 ≤ 20σ contro H1: σ2 > 2

0σ e H0: σ2 ≥ 20σ contro H1: σ2 < 2

Valgono le argomentazioni illustrate negli analoghi casi degli esempi precedenti, per cui

questo esempio si risolve trasformando l’ipotesi nulla nella corrispondente ipotesi

puntuale H0: σ2 = 20σ ed agendo di conseguenza.

8. Esempio X ~ N(µ, σ2): test su σ2 con µ incognita

Sia di nuovo X ~ N(µ, σ2) e supponiamo ora che µ non sia nota. Si vuole sottoporre a

test un’ipotesi su σ2, al livello di significatività α sulla base del c.c.s. x = (x1, …, xn).

Lo schema di ragionamento è simile a quello visto nell’esempio precedente in cui

abbiamo considerato µ nota. La differenza principale consiste nel fatto che essendo µ

incognita, anche quando le ipotesi sono puntuali esse sono necessariamente composte,

in quanto non riescono a specificare completamente la distribuzione della v.c. X.

Effettuando il test del rapporto di massima verosimiglianza si perviene in tutti i casi che

seguono alla statistica test S2, la varianza campionaria corretta (si fa notare che, con

formule leggermente diverse ma in modo perfettamente equivalente nella sostanza, si

potrebbe utilizzare la statistica test 2*S in luogo di S2; tuttavia poiché nelle pratica è

usuale utilizzare S2 anche noi faremo riferimento a questa grandezza). Poiché, nelle

ipotesi dell’esempio, S2 ha la seguente distribuzione

(n – 1) S2/σ2 ~ χ2(n – 1),

(si veda cap. 6, sez. 5.1.4) possiamo ripetere le considerazioni e i passaggi dell’esempio

precedente in modo quasi automatico, trattando rapidamente i diversi casi.

Page 49: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

49

a) Caso H0: σ2 = 20σ contro H1: σ2 = 2

1σ > 20σ

Poiché sotto H0 abbiamo

((n – 1) S2/ 20σ | H0) ~ χ2(n – 1),

con passaggi del tutto simili a quelli effettuati nel caso corrispondente dell’esempio

precedente si ottiene che la regione critica può essere equivalentemente espressa nei due

modi seguenti:

R = {x: s2 > c = t 20σ /(n – 1)} = {x: (n – 1) s2/ 2

0σ > t},

dove t è il quantile (1 – α) della χ2(n – 1).

Anche il calcolo della potenza procede in modo analogo. [Anche se, per non

appesantire l’esposizione, ne omettiamo i dettagli si invita lo studente a trovare per

conto proprio la formula che esprime la potenza del test].

b) Caso H0: σ2 = 20σ contro H1: σ2 = 2

1σ < 20σ

Poiché di nuovo

((n – 1) S2/ 20σ | H0) ~ χ2(n – 1),

l’unica differenza rispetto al caso precedente sta nel fatto che, dovendo la regione di

rifiuto stare dalla parte dell’alternativa, si ha

R = {x: s2 < c = t 20σ /(n – 1)} = {x: (n – 1) s2/ 2

0σ < t},

dove t è il quantile α della χ2(n – 1).

c) Caso H0: σ2 = 20σ contro H1: σ2 > 2

L’ipotesi alternativa è composta unilaterale. Se si osserva il caso a) trattato

precedentemente, in cui l’alternativa era H1: σ2 = 21σ > 2

0σ , si nota che nella

formulazione della regione di rifiuto R il valore dell’ipotesi alternativa non compare. Di

conseguenza la regione critica è la stessa, cioè

R = {x: s2 > c = t 20σ /(n – 1)} = {x: (n – 1) s2/ 2

0σ > t},

Page 50: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

50

dove t è il quantile (1 – α) della χ2(n – 1).

d) Caso H0: σ2 = 20σ contro H1: σ2 < 2

Anche in questo caso l’ipotesi alternativa è composta unilaterale e si può ripetere il

ragionamento fatto al punto precedente. Infatti, se si osserva il caso b) in cui

l’alternativa era H1: σ2 = 21σ < 2

0σ , si vede che nella formulazione della regione di

rifiuto R il valore dell’ipotesi alternativa non compare e di conseguenza la regione

critica è la stessa, cioè

R = {x: s2 < c = t 20σ /(n – 1)} = {x: (n – 1) s2/ 2

0σ < t},

dove t è il quantile α della χ2(n – 1).

e) Caso H0: σ2 = 20σ contro H1: σ2 ≠ 2

Anche quando l’ipotesi alternativa è bidirezionale si può ripetere il ragionamento fatto

nel caso analogo dell’esempio con µ nota. La regione di accettazione è allora data da

A = {x: t1 ≤ (n – 1) s2/ 20σ ≤ t2 } = {x: c1 = t1

20σ /(n – 1) ≤ s2 ≤ c2 = t2

20σ /(n – 1)}

dove t1 è il quantile α/2 e t2 è il quantile (1 – α/2) della χ2(n – 1).

f) Casi H0: σ2 ≤ 20σ contro H1: σ2 > 2

0σ e H0: σ2 ≥ 20σ contro H1: σ2 < 2

Valgono le argomentazioni illustrate negli analoghi casi degli esempi precedenti, per cui

questo esempio si risolve trasformando l’ipotesi nulla nella corrispondente ipotesi

puntuale H0: σ2 = 20σ ed agendo di conseguenza.

9. Esempio X ~ Be(p): test su p

Sia X ~ Be(p). Si vuole sottoporre a test un’ipotesi su p, al livello di significatività α

sulla base del c.c.s. x = (x1, …, xn).

Page 51: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

51

Questo esempio è stato discusso nell’Esempio 1 relativo all’utilizzo pratico del teorema

di Neyman-Pearson. In tale esempio abbiamo mostrato che se entrambe le ipotesi sono

semplici allora il test può essere effettuato in base alla statistica test X , la media

campionaria. Questo vale anche quando almeno una ipotesi è composta: infatti

l’applicazione del test del rapporto di verosimiglianza conduce di nuovo alla statistica

test X . In generale tale v.c. ha la seguente distribuzione campionaria (cap. 6 sez. 5.1.2)

X ~ BiRe(n, p) ≈ N(p, pq/n),

dove la distribuzione a sinistra è esatta mentre quella a destra vale solo se la dimensione

campionaria n è “abbastanza grande”. Nei casi che seguono, per semplicità ci

metteremo sempre in questa seconda situazione, cioè assumeremo sempre che n sia

sufficientemente grande da poter utilizzare l’approssimazione Normale.

a) Caso H0: p = p0 contro H1: p = p1 > p0

Questo caso, in cui p0 e p1 sono due numeri di cui il secondo maggiore del primo, è

stato trattato nell'Esempio 1 discutendo del teorema di Neyman-Pearson.

Quando è vera H0 si ha che p = p0, per cui

( X | H0) ≈ N(p0, p0q0/n).

Di conseguenza, ponendo al solito il valore critico c dalla parte dell’alternativa, per

trovare c si sfruttano i passaggi

α = P(X ∈ R | H0) = P( X > c | H0) = P(nqp

pX/00

0− >

nqppc

/00

0− | H0) = P(Z > z | H0),

dove z nelle tavole della N(0, 1) lascia a destra una probabilità α e quindi a sinistra (1 –

α). La regione critica è allora data, equivalentemente, da

R = {x: x > c = p0 + z nqp /00 } = {x: nqp

px/00

0− > z},

dove z è il quantile (1 – α) della N(0, 1).

Il calcolo della potenza procede in modo analogo a quanto illustrato nell’esempio del

test su µ con σ2 nota. Sulla base del valore critico c trovato in precedenza e tenuto conto

che sotto H1

( X | H1) ≈ N(p1, p1q1/n),

Page 52: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

52

abbiamo

γ = P(X ∈ R | H1) = P( X > c | H1) = P(nqp

pX/11

1− > nqp

pc/11

1− | H1)

= P(Z > nqp

pc/11

1− | H1).

Questa probabilità può essere calcolata dalle tavole della Normale dopo aver

determinato nqp

pc/11

1−. Se si fosse calcolata la potenza a partire dall’altro modo di

esprimere la regione critica, cioè

γ = P(X ∈ R | H1) = P(nqp

pX/00

0− > z | H1),

per procedere al calcolo occorre prima togliere la standardizzazione rispetto alla

distribuzione sotto H0 (che risulta “sbagliata” sotto H1) e poi standardizzare di nuovo in

base alla distribuzione sotto H1, riportandosi di fatto al calcolo fatto sopra [si invita lo

studente a fare i passaggi].

b) Caso H0: p = p0 contro H1: p = p1 < p0

Ripetendo passo per passo il ragionamento fatto al caso precedente con l’unica variante

di prendere il valore critico c sull’altra coda della distribuzione sotto H0, si ottiene che la

regione critica è data da

R = {x: x < c = p0 + z nqp /00 } = {x: nqp

px/00

0− < z},

dove z è il quantile α della N(0, 1).

Anche il calcolo della potenza [di cui si lasciano allo studente i dettagli] procede in

modo analogo al caso precedente.

c) Caso H0: p = p0 contro H1: p > p0

In questo caso l’ipotesi alternativa è composta unilaterale, ma di nuovo la soluzione è la

stessa del caso a) precedente, in cui l’alternativa era H1: p = p1 > p0, dato che nella

formulazione della regione di rifiuto R il valore dell’ipotesi alternativa non compare ma

Page 53: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

53

serve solo a stabilire in quale coda della distribuzione di ( X | H0) sistemarla. Di

conseguenza la regione critica è la stessa, cioè

R = {x: x > c = p0 + z nqp /00 } = {x: nqp

px/00

0− > z},

dove z è il quantile (1 – α) della N(0,1).

d) Caso H0: p = p0 contro H1: p < p0

Anche in questo caso l’ipotesi alternativa è composta unilaterale e si può ripetere il

ragionamento fatto al punto precedente. Infatti, se si osserva il caso b) in cui

l’alternativa era H1: p = p1 < p0, si vede che nella formulazione della regione di rifiuto R

il valore dell’ipotesi alternativa non compare. Di conseguenza la regione critica è la

stessa, cioè

R = {x: x < c = p0 + z nqp /00 } = {x: nqp

px/00

0− < z},

dove z è il quantile α della N(0, 1).

e) Caso H0: µ = µ0 contro H1: µ ≠ µ0

Mentre nei due casi precedenti l’ipotesi alternativa era composta unidirezionale, adesso

è composta bidirezionale. Non si può ricorrere al teorema di Neyman-Pearson ma

occorre applicare il test del rapporto di verosimiglianza. Facendo i conti del rapporto di

verosimiglianza per il caso in oggetto, si trova che la disuguaglianza che esprime la

regione di rifiuto

l(p0) – l(p) < k,

dopo alcuni passaggi diviene

n X ln(p0/ X ) + (n – n X ) ln [q0/(1 – X )] < k.

Questo significa che il rapporto di verosimiglianza dipende solo dalla statistica X e

che, omettendo i passaggi algebrici, tale disuguaglianza equivale a rifiutare se

X ≤ c1 oppure X ≥ c2

e ad accettare se

c1 ≤ X ≤ c2,

Page 54: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

54

dove c1 e c2 sono dei valori critici che delimitano regione di accettazione e regione di

rifiuto. Al solito per trovare c1 e c2 occorre ragionare in base alla distribuzione della

statistica test sotto l’ipotesi nulla, cioè

( X | H0) ≈ N(p0, p0q0/n),

e, anche se non proprio ottimali, di norma si prendono c1 e c2 simmetrici rispetto a p0,

ottenendo la regione di accettazione

A = {x: –z ≤ nqp

px/00

0− ≤ z } ={x: c1 = p0 – z nqp /00 ≤ x ≤ c2 = p0 + z nqp /00 }

dove z è il quantile (1 – α/2) della N(0, 1).

10. Esempio X ~ Po(λ): test su λ

Sia X ~ Po(λ). Si vuole sottoporre a test un’ipotesi su λ, al livello di significatività α

sulla base del c.c.s. x = (x1, …, xn).

L’analisi di questo esempio procede parallela a quella dell’esempio precedente. Di

nuovo infatti, sia che si ricorra al teorema di Neyman-Pearson che al test del rapporto di

verosimiglianza di dimostra che il test può essere effettuato mediante la v.c. test X , la

media campionaria. In generale tale v.c. ha la seguente distribuzione campionaria (cap.

6 sez. 5.1.3)

X ~ PoRe(nλ) ≈ N(λ, λ/n),

dove la distribuzione a sinistra è esatta mentre quella a destra vale solo se la dimensione

campionaria n è “abbastanza grande”. Nei casi che seguono, per semplicità ci

metteremo sempre in questa seconda situazione, cioè assumeremo sempre che n sia

sufficientemente grande da poter utilizzare l’approssimazione Normale.

a) Caso H0: λ = λ0 contro H1: λ = λ1 > λ0

Questo caso, in cui λ0 e λ1 sono due numeri di cui il secondo maggiore del primo, si

risolve ricorrendo al teorema di Neyman-Pearson.

Quando è vera H0 si ha che λ = λ0, per cui

( X | H0) ≈ N(λ0, λ0/n).

Page 55: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

55

Di conseguenza, ponendo al solito il valore critico c dalla parte dell’alternativa, per

trovare c si sfruttano i passaggi

α = P(X ∈ R | H0) = P( X > c | H0) = P(n

X/0

0

λλ−

> n

c/0

0

λλ−

| H0) = P(Z > z | H0),

dove z nelle tavole della N(0, 1) lascia a destra una probabilità α e quindi a sinistra (1 –

α). La regione critica è allora data, equivalentemente, da

R = {x: x > c = λ0 + z n/0λ } = {x: n

x/0

0

λλ−

> z},

dove z è il quantile (1 – α) della N(0, 1).

Il calcolo della potenza procede in modo analogo a quanto illustrato nell’esempio

precedente. Sulla base del valore critico c trovato in precedenza e tenuto conto che sotto

H1

( X | H1) ≈ N(λ1, λ1/n),

abbiamo

γ = P(X ∈ R | H1) = P( X > c | H1) = P(n

X/1

1

λλ− >

nc

/1

1

λλ−

| H1) = P(Z > n

c/1

1

λλ−

| H1).

Questa probabilità può essere calcolata dalle tavole della Normale dopo aver

determinato n

c/1

1

λλ−

. Se si fosse calcolata la potenza a partire dall’altro modo di

esprimere la regione critica, cioè

γ = P(X ∈ R | H1) = P(n

X/0

0

λλ−

> z | H1),

per procedere al calcolo occorre prima togliere la standardizzazione rispetto alla

distribuzione sotto H0 (che risulta “sbagliata” sotto H1) e poi standardizzare di nuovo in

base alla distribuzione sotto H1, riportandosi di fatto al calcolo fatto sopra [si invita lo

studente a fare i passaggi].

Page 56: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

56

b) Caso H0: λ = λ0 contro H1: λ = λ1 < λ0

Ripetendo passo per passo il ragionamento fatto al caso precedente con l’unica variante

di prendere il valore critico c sull’altra coda della distribuzione sotto H0, si ottiene che la

regione critica è data da

R = {x: x < c = λ0 + z n/0λ } = {x: n

x/0

0

λλ−

< z},

dove z è il quantile α della N(0, 1).

Anche il calcolo della potenza [di cui si lasciano allo studente i dettagli] procede

analogo a quello del caso precedente.

c) Caso H0: λ = λ0 contro H1: λ > λ0

In questo caso l’ipotesi alternativa è composta unilaterale, ma di nuovo la soluzione è la

stessa del caso a) precedente, in cui l’alternativa era H1: λ = λ1 > λ0, dato che nella

formulazione della regione di rifiuto R il valore dell’ipotesi alternativa non compare ma

serve solo a stabilire in quale coda della distribuzione di ( X | H0) sistemarla. Di

conseguenza la regione critica è la stessa, cioè

R = {x: x > c = λ0 + z n/0λ } = {x: n

x/0

0

λλ−

> z},

dove z è il quantile (1 – α) della N(0,1).

d) Caso H0: λ = λ0 contro H1: λ < λ0

Anche in questo caso l’ipotesi alternativa è composta unilaterale e si può ripetere il

ragionamento fatto al punto precedente. Infatti, se si osserva il caso b) in cui

l’alternativa era H1: λ = λ1 < λ0, si vede che nella formulazione della regione di rifiuto R

il valore dell’ipotesi alternativa non compare. Di conseguenza la regione critica è la

stessa, cioè

R = {x: x < c = λ0 + z n/0λ } = {x: n

x/0

0

λλ−

< z},

dove z è il quantile α della N(0, 1).

Page 57: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

57

e) Caso H0: λ = λ0 contro H1: λ ≠ λ0

Mentre nei due casi precedenti l’ipotesi alternativa era composta unidirezionale, adesso

è composta bidirezionale. Non si può ricorrere al teorema di Neyman-Pearson ma

occorre applicare il test del rapporto di verosimiglianza. Facendo i conti del rapporto di

verosimiglianza per il caso in oggetto, si trova che la disuguaglianza che esprime la

regione di rifiuto

l(λ0) – l(λ) < k,

dopo alcuni passaggi diviene

n X ln(λ0/ X ) – n(λ0 – X ) < k.

Questo significa che il rapporto di verosimiglianza dipende solo dalla statistica X e

che, omettendo i passaggi algebrici, tale disuguaglianza equivale a rifiutare se

X ≤ c1 oppure X ≥ c2

e ad accettare se

c1 ≤ X ≤ c2,

dove c1 e c2 sono dei valori critici che delimitano regione di accettazione e regione di

rifiuto. Al solito per trovare c1 e c2 occorre ragionare in base alla distribuzione della

statistica test sotto l’ipotesi nulla, cioè

( X | H0) ≈ N(λ0, λ0/n),

e, anche se non proprio ottimali, di norma si prendono c1 e c2 simmetrici rispetto a λ0,

ottenendo la regione di accettazione

A = {x: –z ≤ n

x/0

0

λλ−

≤ z } = {x: c1 = λ0 – z n/0λ ≤ x ≤ c2 = λ0 + z n/0λ }

dove z è il quantile (1 – α/2) della N(0, 1).

11. Esempio X ~ N(µX, 2Xσ ), Y ~ N(µY, 2

Yσ ) indipendenti:

test per µX − µY con 2Xσ e 2

Yσ note

Siano X ~ N(µX, 2Xσ ) e Y ~ N(µY, 2

Yσ ) due v.c. indipendenti con 2Xσ e 2

Yσ note. Si

vuole sottoporre a test un’ipotesi su µX − µY, al livello di significatività α sulla base dei

c.c.s. x = (x1, …, xm) e y = (y1, …, yn).

Page 58: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

58

Risparmiando per brevità i dettagli tecnici, un’ipotesi su µX − µY può essere testata

utilizzando come v.c. test X – Y , che nelle assunzioni dell’esempio è distribuita nel

modo seguente:

X – Y ~ N(µX − µY, 2Xσ /m + 2

Yσ /n).

Poiché l’ipotesi nulla di norma considerata in questo esempio è

H0: µX − µY = 0,

faremo riferimento a questa situazione, avvertendo però che se al posto dello 0 c’è una

qualsiasi altra costante, il test può essere effettuato in modo del tutto analogo

sostituendo a 0 la costante corrispondente.

Allora sotto H0, l’ipotesi sotto la quale occorre mettersi per trovare la regione di rifiuto

sulla base del livello di significatività α, abbiamo

( X – Y | H0) ~ N(0, 2Xσ /m + 2

Yσ /n).

A questo punto l’analisi procede in modo esattamente analogo alla situazione di cui alla

sez. 3, in cui si vuole sottopone a test un’ipotesi sulla media in corrispondenza di una

varianza nota: basta considerare X – Y in blocco come v.c. test ed operare in modo

analogo a quanto fatto nell’esempio indicato per i vari casi.

12. Esempio X ~ N(µX, 2Xσ ), Y ~ N(µY, 2

Yσ ) indipendenti:

test per µX − µY con 2Xσ e 2

Yσ incognite

Siano X ~ N(µX, 2Xσ ) e Y ~ N(µY, 2

Yσ ) due v.c. indipendenti con 2Xσ e 2

Yσ non note. Si

vuole sottoporre a test un’ipotesi su µX − µY, al livello di significatività α sulla base dei

c.c.s. x = (x1, …, xm) e y = (y1, …, yn). Di nuovo consideriamo che l’ipotesi nulla sia

H0: µX − µY = 0,

avvertendo che se al posto dello 0 c’è una qualsiasi altra costante, il test può essere

effettuato in modo del tutto analogo sostituendo a 0 la costante corrispondente.

Page 59: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

59

Risparmiando di nuovo i dettagli tecnici, anche in questo caso un’ipotesi su µX − µY può

essere testata utilizzando come v.c. test X – Y . Poiché le varianze non sono note,

verrebbe naturale stimarle ma, come detto nella sez. 6.9 del cap. 6, la v.c.

( )nSmS

YX

YX

YX

// 22 +

−−− µµ

non ha in generale una distribuzione nota. Allora si aprono due alternative.

• La prima è assumere che 2Xσ = 2

Yσ = σ2. In tale caso la distribuzione esatta della

statistica test è

( )nmS

YX

p

YX

/1/1 +

−−− µµ ~ T(m + n – 2 )

dove 2PS =

( ) ( )2

11 22

−+−+−

nmnSmS YX è la varianza pooled utilizzata per stimare σ2

sfruttando l’informazione di entrambi i campioni x e y. Ovviamente sotto H0

abbiamo

(( )

nmSYX

p

YX

/1/1 +

−−− µµ | H0) ~ T(m + n – 2 ).

• La seconda alternativa si può utilizzare quando la dimensione di entrambi i

campioni, m ed n, è abbastanza grande per poter approssimare la distribuzione di

( )nSmS

YX

YX

YX

// 22 +

−−− µµ con la Normale, cioè

( )nSmS

YX

YX

YX

// 22 +

−−− µµ ≈ N(0, 1).

In questo caso sotto l’ipotesi nulla abbiamo

(( )

nSmS

YX

YX

YX

// 22 +

−−− µµ | H0) ≈ N(0, 1).

A questo punto l’analisi procede in modo esattamente analogo a quanto illustrato negli

altri esempi.

Page 60: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

60

13. Esempio X ~ N(µX, 2Xσ ), Y ~ N(µY, 2

Yσ ) indipendenti:

test per con 2Xσ / 2

Yσ con µX e µY note

Siano X ~ N(µX, 2Xσ ) e Y ~ N(µY, 2

Yσ ) due v.c. indipendenti con µX e µY note. Si vuole

sottoporre a test un’ipotesi su 2Xσ / 2

Yσ , al livello di significatività α sulla base dei c.c.s.

x = (x1, …, xm) e y = (y1, …, yn).

Risparmiando per brevità i dettagli tecnici, un’ipotesi su 2Xσ / 2

Yσ quando le medie sono

note può essere testata utilizzando come v.c. test 2** XS / 2

** YS , che nelle assunzioni

dell’esempio è distribuita nel modo seguente (cap. 6, sez. 6.10):

2**

2**

Y

X

SS

2

2

X

Y

σσ

~ F(m, n).

Poiché l’ipotesi nulla di norma considerata nelle ipotesi di questo esempio è

H0: 2Xσ / 2

Yσ = 1,

in questa descrizione faremo riferimento a questa situazione, avvertendo però che se al

posto dello 1 c’è una qualsiasi altra costante, il test può essere effettuato in modo del

tutto analogo sostituendo a 1 la costante corrispondente.

Allora sotto H0, l’ipotesi sotto la quale occorre mettersi per trovare la regione di rifiuto

sulla base del livello di significatività α, abbiamo

( 2**

2**

Y

X

SS

| H0 ) ~ F(m, n).

A questo punto l’analisi procede in modo esattamente analogo a quanto visto negli

esempi precedenti.

Page 61: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

61

14. Esempio X ~ N(µX, 2Xσ ), Y ~ N(µY, 2

Yσ ) indipendenti:

test per con 2Xσ / 2

Yσ con µX e µY incognite

Siano X ~ N(µX, 2Xσ ) e Y ~ N(µY, 2

Yσ ) due v.c. indipendenti con µX e µY non note. Si

vuole sottoporre a test un’ipotesi su 2Xσ / 2

Yσ , al livello di significatività α sulla base dei

c.c.s. x = (x1, …, xm) e y = (y1, …, yn). Di nuovo consideriamo che l’ipotesi nulla sia

H0: 2Xσ / 2

Yσ = 1,

avvertendo che se al posto dello 1 c’è una qualsiasi altra costante, il test può essere

effettuato in modo del tutto analogo sostituendo a 1 la costante corrispondente.

Risparmiando di nuovo i dettagli tecnici, un’ipotesi su 2Xσ / 2

Yσ quando le medie sono

incognite può essere testata utilizzando come v.c. test 2XS / 2

YS , che nelle assunzioni

dell’esempio è distribuita nel modo seguente (cap. 6, sez. 6.11):

2

2

Y

X

SS

2

2

X

Y

σσ

~ F(m – 1 , n – 1).

Allora sotto H0, l’ipotesi sotto la quale occorre mettersi per trovare la regione di rifiuto

sulla base del livello di significatività α, abbiamo

( 2

2

Y

X

SS

| H0) ~ F(m – 1 , n – 1).

A questo punto l’analisi procede in modo esattamente analogo a quanto visto negli

esempi precedenti.

15. Esempio X ~ N(µX, 2Xσ ), Y ~ N(µY, 2

Yσ ): test per

µX − µY con dati appaiati

Nella sez. 6.14 del cap. 6 (cui rimandiamo per maggiori dettagli) abbiamo discusso la

condizione di appaiamento dei dati, evidenziando che in tale situazione il confronto fra

Page 62: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

62

le medie delle due v.c. può essere effettuato analizzando direttamente la v.c. differenza

D = X – Y. A questo riguardo si assume che

D ~ N(µD, 2Dσ )

e si utilizza come campione estratto da D le differenze d = (d1, …, dn), dove ciascuna di

è lo scarto fra le osservazioni corrispondenti della i-ma unità nei due campioni, ovvero

di = xi – yi.

In questo modo il problema in analisi è stato trasformato nella costruzione di un test per

la media (µD) di una v.c. Normale con varianza incognita ( 2Dσ ), per il quale vale

esattamente quanto detto nella sez. 0. La v.c. test da utilizzare è allora D , la cui

distribuzione è data da

nSD

D

D

/µ− ~ T(n – 1),

e nel quale 2DS è la varianza campionaria corretta di D. Ipotizzando che l’ipotesi nulla

sia H0: µX − µY = 0 ovvero H0: µD = 0 (se al posto dello 0 c'è un altro valore basta

sostituire lo 0 con il valore corrispondente) sotto H0 abbiamo

(nS

D

D / | H0) ~ T(n – 1).

A questo punto l’analisi procede in modo esattamente analogo a quanto illustrato in sez.

0.

16. Esempio X ~ Be(pX), Y ~ Be(pY) indipendenti: test

per pX − pY

Siano X ~ Be(pX), Y ~ Be(pY) due v.c. indipendenti. Si vuole sottoporre a test un’ipotesi

su pX – pY, al livello di significatività α, sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …,

yn).

Risparmiando i dettagli tecnici, un’ipotesi su pX – pY può essere testata utilizzando come

v.c. test X – Y . In generale la distribuzione esatta di tale v.c. non è semplice da

trattare. Tuttavia se le dimensioni dei campioni m ed n sono sufficientemente elevate, la

Page 63: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

63

distribuzione di ciascuna delle due v.c. può essere approssimata con una Normale e così

per la differenza:

X – Y ≈ N(pX – pY , pX qX/m + pY qY/n).

Supponiamo che, come di norma accade, l’ipotesi nulla sia

H0: pX – pY = 0,

(se al posto dello 0 c’è una qualsiasi altra costante, il test può comunque essere

effettuato in modo del tutto analogo sostituendo a 0 la costante corrispondente). Allora

la distribuzione della v.c. test sotto H0 diviene

( X – Y | H0) ≈ N(0, p̂ q̂ (1/m + 1/n))

dove, essendo pX – pY = 0 sotto l’ipotesi nulla, abbiamo supposto pX = pY = p e stimato il

valore p sfruttando l’informazione di entrambi i campioni, cioè

p̂ = nm

YXn

jj

m

ii

+

+∑∑== 11 =

nmYnXm

++ .

p̂ è la stima pooled del p comune alle due v.c. X e Y sotto H0 ed è una media pesata di

X e Y .

A questo punto la procedura di test procede in modo del tutto analogo al test della

media di una v.c. Normale con varianza nota.

17. Esempio X ~ Po(λX), Y ~ Po(λY) indipendenti:

intervallo per λX – λY

Siano X ~ Po(λX), Y ~ Po(λX) due v.c. indipendenti. Si vuole sottoporre a test un’ipotesi

λX – λY, al livello di significatività α, sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …,

yn).

L’analisi di questo esempio procede in modo assai simile a quella dell’esempio

precedente. Risparmiando di nuovo i dettagli tecnici, un’ipotesi su λX – λY può essere

testata utilizzando come v.c. test X – Y . In generale la distribuzione esatta di tale v.c.

non è semplice da trattare. Tuttavia se le dimensioni dei campioni m ed n sono

Page 64: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

64

sufficientemente elevate, la distribuzione di ciascuna delle due v.c. può essere

approssimata con una Normale e così la differenza:

X – Y ≈ N(λX – λY, λX /m + λY /n).

Supponiamo che, come di norma accade, l’ipotesi nulla sia

H0: λX – λY = 0,

(se al posto dello 0 c’è una qualsiasi altra costante, il test può comunque essere

effettuato in modo del tutto analogo sostituendo a 0 la costante corrispondente). Allora

la distribuzione della v.c. test sotto H0 diviene

( X – Y | H0) ≈ N(0 , λ̂ (1/m + 1/n))

dove, essendo λX – λY = 0 sotto l’ipotesi nulla, abbiamo supposto λX = λY = λ e stimato

il valore λ sfruttando l’informazione di entrambi i campioni, cioè

λ̂ = nm

YXn

jj

m

ii

+

+∑∑== 11 =

nmYnXm

++ .

λ̂ è la stima pooled del λ comune alle due v.c. X e Y sotto H0 ed è una media pesata di

X e Y .

A questo punto la procedura di test procede in modo del tutto analogo al test della

media di una v.c. Normale con varianza nota.

18. Test di ipotesi non parametriche

Sia X la v.c oggetto di analisi. Negli esempi precedenti si è discusso delle procedure per

sottoporre a test ipotesi sui parametri caratterizzanti la distribuzione di X (per questo

dette ipotesi parametriche), della quale abbiamo sempre assunto che la forma della sua

funzione di massa o di densità fosse nota a meno del valore di tali parametri. Può però

capitare di essere interessati a verificare se il modello scelto per rappresentare la

distribuzione di X è effettivamente ben scelto, cioè se i dati sono effettivamente ben

rappresentati dalla distribuzione assunta.

In queste circostanze occorre sottoporre a verifica ipotesi relative alla forma della

distribuzione della v.c. X. E’ chiaro che in tale caso l’ipotesi riguarda non più i

parametri che caratterizzano la distribuzione, ma direttamente la distribuzione stessa. In

Page 65: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

65

queste situazioni il test del rapporto di verosimiglianza non è sempre applicabile in

quanto può risultare impossibile la derivazione della funzione di verosimiglianza sotto

l’ipotesi alternativa: ciò accade tutte le volte in cui l’ipotesi alternativa viene riferita ad

una vasta classe di funzioni. Il fatto che la classe delle alternative possibili sia

generalmente molto ampia rende difficile anche ogni possibile confronto tra procedure

di test diverse in termini di probabilità d’errore di II tipo. In questi casi si preferisce

usualmente rinunciare ad ogni valutazione della probabilità di tale errore.

Esistono molti metodi per sottoporre a test ipotesi sulla forma della distribuzione: in

questo corso consideriamo soltanto il test χ2.

Sia dunque X la v.c considerata e individuiamo la distribuzione di X tramite la sua

funzione di ripartizione F(x) (si ricorda che data la funzione di massa o di densità di X è

sempre possibile ricavare la sua funzione di ripartizione e viceversa). Supponiamo

quindi di voler sottoporre a test l’ipotesi che F(x) sia riconducibile a una certa funzione

di ripartizione nota F0(x), ovvero

H0: F(x) = F0(x) contro H1: F(x) ≠ F0(x).

In base al campione si otterrà una misura F̂ (x) della “vera” F(x): se F̂ (x) è ben

approssimata da F0(x) l’ipotesi verrà accettata altrimenti verrà rifiutata.

La procedura del χ2 per sottoporre a test l’ipotesi sulla forma funzionale della

distribuzione della v.c. X sulla base di un c.c.s. di osservazioni può essere schematizzata

nei seguenti passi:

1. Si suddivide il campo di definizione della v.c. X in k intervalli disgiunti I1, ..., Ik in

modo tale che in ciascun intervallo cadano almeno 5 valori campionari, sia in base

alla distribuzione teorica che a quella riscontrata del campione.

2. Si determina il numero ni dei valori campionari che cadono in ciascun intervallo Ii.

3. Usando F0(x), si calcola la probabilità 0ip che, sotto H0, X assuma un valore

all’interno dell’intervallo Ii. Da questi 0ip si calcolano poi i valori 0

in = n 0ip ,

ciascuno dei quali rappresenta il numero teorico di valori campionari che, se H0

fosse vera, dovrebbero cadere in Ii.

4. Si calcola poi la quantità

χ2 = ( )∑

=

−k

i i

ii

nnn

10

20.

Page 66: Capitolo 7 TEST DELLE IPOTESI - UniFI - DiSIA rivisto... · del test delle ipotesi: si tratta di una partita dell’uomo contro la “natura”, nella quale la seconda stabilisce

B. Chiandotto – F. Cipollini Versione 2003 – Cap. 7

Metodi statistici per le decisioni d’impresa

66

Si può dimostrare che, sotto H0, la quantità indicata ha approssimativamente una

distribuzione Chi-quadrato con k – 1 – r, dove k è il numero degli intervalli ed r è il

numero dei parametri incogniti che occorre stimare per ottenere i valori teorici 0in

(ad esempio, r = 1 nella Poisson ed r = 2 nella Normale); in simboli

(χ2 = ( )∑

=

−k

i i

ii

nnn

10

20 | H0) ∼ χ2(k – 1 – r).

5. In base al livello di significatività α prefissato si determina il valore critico del test c

dalla relazione P(χ2 > c | H0) = α utilizzando le tavole della χ2(k – 1 – r).

6. Infine il confronto del χ2 calcolato sul campione col valore critico c trovato dalle

tavole suggerisce se accettare o rifiutare H0.