CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4...

58
B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 217 CAP. 4 TEST delle IPOTESI Introduzione In questo capitolo si affronta il problema della verifica d’ipotesi statistiche limitando sostanzialmente la trattazione alla cosiddetta teoria classica del test delle ipotesi parametriche e facendo, soprattutto, riferimento a campioni estratti da popolazioni normali; comunque, la portata generale dei principi enunciati e la logica delle argomentazioni svolte rimangono immutate anche se si fa riferimento a campioni estratti da popolazioni non normali. Argomentazioni diverse devono essere svolte sia nei riguardi dell’impostazione bayesiana della teoria del test delle ipotesi sia nei riguardi della teoria dei test non parametrici. È stato sottolineato in precedenza che la teoria dell'inferenza statistica riguarda principalmente due specifici argomenti: la stima ed il test delle ipotesi. In entrambi i casi si tratta di valutare aspetti incogniti, concernenti una determinata popolazione, sulla scorta delle risultanze campionarie. Il problema della stima e quello del test delle ipotesi, anche se simili, vanno comunque tenuti distinti in quanto coinvolgono problematiche diverse. Infatti, come già sottolineato, nel primo caso l'evidenza campionaria, eventualmente integrata da conoscenze a priori, viene utilizzata per stimare un'entità incognita relativa ad una certa popolazione; nel secondo caso, l'evidenza campionaria, eventualmente integrata da conoscenze a priori, viene utilizzata per verificare statisticamente la validità di una certa assunzione (ipotesi) concernente una specifica entità incognita. 4.1 - Verifica di ipotesi statistiche La rilevanza del problema della verifica di ipotesi statistiche è facilmente intuibile se si pensa che dall'operazione di verifica scaturisce, nella generalità dei casi, l'accettazione o il rifiuto dell'ipotesi formulata. A conferma di un tale fatto, vanno considerati soprattutto i problemi di decisione nei quali all'accettazione o al rifiuto di una certa ipotesi è collegata la scelta di una particolare linea di comportamento. Definizione 1 (Ipotesi statistica). Un'ipotesi statistica è un'affermazione che specifica parzialmente o completamente la legge di distribuzione di una variabile casuale. L'affermazione può riferirsi, sia alla forma funzionale della legge di distribuzione sia ai parametri caratteristici, o ai soli parametri caratteristici quando si assuma nota la forma analitica della distribuzione stessa.

Transcript of CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4...

Page 1: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

217

CAP. 4 – TEST delle IPOTESI

Introduzione

In questo capitolo si affronta il problema della verifica d’ipotesi statistiche limitando

sostanzialmente la trattazione alla cosiddetta teoria classica del test delle ipotesi

parametriche e facendo, soprattutto, riferimento a campioni estratti da popolazioni

normali; comunque, la portata generale dei principi enunciati e la logica delle

argomentazioni svolte rimangono immutate anche se si fa riferimento a campioni

estratti da popolazioni non normali.

Argomentazioni diverse devono essere svolte sia nei riguardi dell’impostazione

bayesiana della teoria del test delle ipotesi sia nei riguardi della teoria dei test non

parametrici.

È stato sottolineato in precedenza che la teoria dell'inferenza statistica riguarda

principalmente due specifici argomenti: la stima ed il test delle ipotesi. In entrambi i

casi si tratta di valutare aspetti incogniti, concernenti una determinata popolazione, sulla

scorta delle risultanze campionarie.

Il problema della stima e quello del test delle ipotesi, anche se simili, vanno

comunque tenuti distinti in quanto coinvolgono problematiche diverse. Infatti, come già

sottolineato, nel primo caso l'evidenza campionaria, eventualmente integrata da

conoscenze a priori, viene utilizzata per stimare un'entità incognita relativa ad una certa

popolazione; nel secondo caso, l'evidenza campionaria, eventualmente integrata da

conoscenze a priori, viene utilizzata per verificare statisticamente la validità di una certa

assunzione (ipotesi) concernente una specifica entità incognita.

4.1 - Verifica di ipotesi statistiche

La rilevanza del problema della verifica di ipotesi statistiche è facilmente intuibile se si

pensa che dall'operazione di verifica scaturisce, nella generalità dei casi, l'accettazione o

il rifiuto dell'ipotesi formulata. A conferma di un tale fatto, vanno considerati

soprattutto i problemi di decisione nei quali all'accettazione o al rifiuto di una certa

ipotesi è collegata la scelta di una particolare linea di comportamento.

Definizione 1 (Ipotesi statistica). Un'ipotesi statistica è un'affermazione che specifica

parzialmente o completamente la legge di distribuzione di una variabile

casuale. L'affermazione può riferirsi, sia alla forma funzionale della

legge di distribuzione sia ai parametri caratteristici, o ai soli parametri

caratteristici quando si assuma nota la forma analitica della

distribuzione stessa.

Page 2: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

218

Se l'ipotesi, usualmente indicata con il simbolo H0 e detta ipotesi nulla o ipotesi di

lavoro, specifica completamente la legge di distribuzione della variabile casuale, si dice

semplice, nel caso opposto l’ipotesi viene detta composita o composta. Inoltre, se

l'ipotesi riguarda i parametri caratteristici di una particolare distribuzione di cui si

conosce la forma analitica si parla di ipotesi parametrica; si dice invece non

parametrica (o più correttamente distribution free), l'ipotesi statistica che non

presuppone nota tale forma. Ovviamente l'ipotesi non parametrica, come generalmente

accade, può riguardare sia la forma analitica della distribuzione sia i parametri che la

caratterizzano.

Ad esempio, se si ipotizza che l'altezza degli italiani adulti di sesso maschile si

distribuisce in modo normale con media pari a 1,70 metri e scostamento quadratico

medio pari a 0,28 metri, si sta trattando di un’ipotesi statistica semplice (specifica

completamente la legge di distribuzione del fenomeno) non parametrica (l'ipotesi

riguarda anche la forma della distribuzione). Se invece si dà per acquisito il fatto che

l'altezza degli italiani adulti di sesso maschile si distribuisce normalmente, l'ipotesi

statistica potrà riguardare i soli parametri caratteristici media e varianza. L'ipotesi

sarà semplice, se specifica un preciso valore numerico per i due parametri, ad esempio:

l'altezza media è pari a 1,70 metri; sarà invece composita se specifica un insieme di

valori, ad esempio: l'altezza media degli italiani adulti di sesso maschile è compresa

nell'intervallo (1,68 , 1,72) metri.

Definizione 2 (Test di ipotesi). Un test di ipotesi (statistica) è una regola attraverso la

quale si decide se accettare o meno l'ipotesi formulata sulla base delle

risultanze campionarie. I dati si riferiscono naturalmente alla variabile

casuale sulla cui legge di distribuzione è stata formulata l'ipotesi.

Se si indica con C l'universo dei campioni o spazio dei campioni, cioè l'insieme di

tutti i possibili risultati campionari, un test delle ipotesi consiste nel bipartire l'insieme

C in due sottoinsiemi disgiunti C0 e C1 = C – C0 in modo tale che si decide di rifiutare

l'ipotesi H0 se il punto campionario cade in C1, di accettare l'ipotesi se il punto

campionario cade in C0.

Page 3: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

219

Lo spazio C1 di rifiuto di un'ipotesi viene usualmente detto regione critica, mentre si

dice regione di accettazione lo spazio C0.

Fig. 4.1 - Bipartizione dell'universo dei campioni

È stata introdotta la definizione di un test statistico e non del test statistico, in quanto

si intuisce facilmente come la bipartizione dell'universo dei campioni, e cioè la

definizione della regione critica, possa essere effettuata secondo criteri o regole

differenti che non conducono necessariamente agli stessi risultati. Due differenti test, e

cioè due modi diversi di bipartizione dell'universo dei campioni, possono essere posti a

confronto attraverso un'analisi del processo logico seguito nella loro formulazione, o più

semplicemente, sempre che sia possibile, confrontando le probabilità di commettere

degli errori adottando l'una o l'altra procedura per sottoporre a test una stessa ipotesi.

Nell'accettare o rifiutare, sulla scorta dell'evidenza campionaria, una determinata

ipotesi nulla, si può agire correttamente, e cioè accettare un'ipotesi vera o rifiutare

un'ipotesi falsa, oppure si possono commettere errori aventi diversa natura:

a) rifiutare un'ipotesi nulla quando essa è vera. Si parla in questo caso di errore di I

specie o di I tipo;

b) accettare un'ipotesi nulla quando essa è falsa. Si parla in questo caso di errore di

II specie o di II tipo.

Il processo decisionale sopra illustrato può essere schematicamente riassunto nella

tavola che segue.

C1 = Regione o spazio di rifiuto di H0

( Regione critica )

C0 = Regione o spazio di

. accettazione dell’ipotesi H0

C = Spazio o universo dei campioni

Page 4: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

220

Stato di

natura

Azioni

H0 è vera H0 è falsa

Si accetta H0 Decisione corretta Si commette un

errore di II tipo

Si rifiuta H0 Si commette un

errore di I tipo Decisione corretta

Tab. 4.1 - Tavola di decisione

Quando H0 è un’ipotesi semplice, la probabilità di commettere un errore di primo

tipo, e cioè la probabilità di rifiutare un’ipotesi quando essa è vera, è indicata

usualmente con .

1 0α P C / H X

dove viene detto livello di significatività del test e 1 2 X , ,...., nX XX'

rappresenta il punto campionario.

La probabilità di commettere un errore di II tipo, e cioè la probabilità di accettare

un'ipotesi quando essa è falsa, è indicata con

1 /1 0β H P C H X

dove 0H H 1 , che rappresenta la negazione dell’ipotesi Ho , viene detta ipotesi

alternativa e, nell’ambito della teoria classica o frequentista del test delle ipotesi,

completa il contesto decisionale nel senso che, nella specifica situazione sotto esame, o

è vera l’ipotesi nulla H0 o è vera l’ipotesi alternativa H1; indica, pertanto, la

probabilità dell’errore di II tipo che dipende, ovviamente, dalla specificazione

dell’ipotesi alternativa H1.

La quantità ( H1 ) = 1 – ß (H1), e cioè la probabilità di rifiutare un'ipotesi quando

essa è falsa, viene detta forza o potenza del test relativamente all'ipotesi alternativa H1.

Al variare di H1 la ( H1 ) assumerà il carattere di funzione, e viene detta funzione

forza del test. Da rilevare che i termini forza e potenza vengono usati come sinonimi e

traducono il termine inglese power.

Quanto sopra affermato si riferisce al caso d'ipotesi H0 semplice. Nel caso di ipotesi

nulla composita, si può definire il livello di significatività come

0

/1 0H H

α Sup P C H

X

Così posto il problema, si vede chiaramente come la migliore soluzione sia

rappresentata da un test capace di minimizzare simultaneamente le probabilità di

commettere gli errori di I e di II tipo. Purtroppo, non è generalmente possibile

perseguire un tale obiettivo, e cioè, non è sempre possibile individuare un test capace di

Page 5: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

221

minimizzare contemporaneamente le due probabilità di commettere errore quando la

dimensione del campione sia stata fissata. Si dovrà quindi operare in modo diverso;

infatti, come già sottolineato, la procedura che si segue generalmente è quella di fissare

il livello della probabilità di commettere un errore di primo tipo (si stabilisce cioè il

livello di significatività ) e nell'individuare poi il test che minimizza la probabilità di

commettere un errore di II tipo.

Si potrebbe, più semplicemente, dire che fissato il livello di significatività si

cerca il test più potente (test MP dall’inglese Most Powerful), cioè, quello che ha il

valore di ( H1 ) più elevato.

4.1.1 Ipotesi semplici

Si è distinto in precedenza le ipotesi sulla forma funzionale della legge di distribuzione

della variabile casuale oggetto d'analisi dalle ipotesi sui parametri caratteristici di tale

legge (supposta nota). Le ipotesi statistiche sono state ulteriormente distinte in semplici

e composite a seconda che le ipotesi stesse specifichino completamente o parzialmente

la legge di distribuzione del fenomeno.

Nel caso in cui l'ipotesi nulla H0 e l'ipotesi alternativa H1 siano entrambe semplici, lo

spazio parametrico Θ , a una o più dimensioni, di definizione dei parametri risulta

formato da due soli punti

Θ = (, )

Le ipotesi sono

H0 : =

0

H1 : =

La costruzione di un test si riduce, in effetti, alla bipartizione dello spazio dei

campioni C in due sottospazi C0 e C1. Per quanto sopra detto, si vede quindi

chiaramente come il miglior test per sottoporre a verifica un'ipotesi H0 sia quello che

individua la migliore regione critica C1, dove per miglior regione critica s’intende,

appunto, quella che, a parità di livello di significatività, presenta la probabilità di

commettere un errore di II tipo più bassa; la regione di accettazione risulterà

determinata di conseguenza. In termini formali si può dire che la migliore regione critica

C1 (il miglior test) di grandezza ( a livello di significatività) per sottoporre al test

l'ipotesi semplice H0 : = contro l'ipotesi alternativa H1 : = è quella che

soddisfa le due relazioni

P ( X C1 /H0 ) =

P ( X C1 /H1 ) P ( X Ci /H1 )

dove: 1 2 X , ,...., nX X'

X rappresenta il punto campionario, e Ci (i = 2, 3,...)

rappresenta ogni possibile regione critica alternativa a C1 tale che P ( X Ci /H0 ) =

Page 6: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

222

Un famoso teorema (teorema o lemma fondamentale di Neyman-Pearson) attesta

che esiste, ed è sempre possibile individuare, la migliore regione critica nel caso in cui

si voglia sottoporre a test un'ipotesi statistica semplice contro un'ipotesi alternativa

anch'essa semplice.

Teorema 1 (Neyman-Pearson): Sia X una variabile casuale con funzione di massa o

di densità di probabilità f (x;) e sia 'x = (x1, x2,...,xn) un campione

casuale di osservazioni su X. Allora la funzione di verosimiglianza del

campione sarà espressa da

1 2 ; ; , , , nL L x x x x .

Siano 0 e 1 due valori distinti di , K una costante reale positiva e si

voglia sottoporre a test l'ipotesi H0 : = 0 contro l'ipotesi alternativa

H1 : = 1. Se C1 (regione critica) è un sottospazio dello spazio dei

campioni C tale che

1

1

0

L θ ; K C

L θ ;

xx

x

e di conseguenza C0 = C – C1 (regione di accettazione) consiste

nell'insieme di punti campionari tali che

1

0

0

L θ ; K C

L θ ;

xx

x

dove K viene scelto in modo che la probabilità di commettere un errore di I

specie sia pari a 1 0 / P C H X , allora la regione critica C1

presenta la più bassa probabilità d'errore di II specie, tra le regioni critiche

che hanno livello di significatività pari ad .

Dimostrazione

Siano *

1 1 e CC due regioni di rifiuto dell’ipotesi nulla H0 per le quali valgono le

relazioni

*

1 0 1 0/ /P C H P C H X X

si vuol dimostrare che se 1C risulta definito dalle disuguaglianze sopra riportate allora:

*

1 1 1 1/ /P C H P C H X X

si vuole dimostrare, cioè, che il test definito dalla regione 1C è più potente di quello

definito da una qualunque altre regione critica *

1C che abbia lo stesso livello di

significatività .

Si consideri la differenza tra le probabilità di non commettere un errore di II tipo

(potenza) relative alle due regioni critiche:

Page 7: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

223

1 1

* * *1 0 1 1 1 0

*

1 1 1 1 1 1

* * * *

1 1 1 0 1 1 0 1 1

* * * * *

1 1 1 0 1 1 0 1 1

* *

1 1 0 1 1

* * *

1 1 0 1 1

1 1

/ / , ,

ma

quindi

da cui

, ,

C C

C C C C C C

P C H P C H L L

C C C C C C C C C C

C C C C C C C C C C

P C P C C P C C

P C P C C P C C

L L L

X X x x

x x

*1 1

* *1 0 1 0

1 1

1 1

1 1 0

1 0

, ,

, ,

per le due disuguaglianze riportate nell'enunciato del teorema si ha:

in , ,

in , ,

C C

C C C C

o

L

L L

C L K L

C L K L

x x

x x

x x

x x

pertanto

* * * *1 0 1 0 1 0 1 0

* * * *1 0 1 1 1 1 1 0

*1 1

1 1 0 0

0 0 0 0

0 0

*

1 1 1 1

, , , ,

, , , ,

, , 0

/ / 0.

C C C C C C C C

C C C C C C C C

C C

L L K L K L

K L K L K L K L

K L K L K

P C H P C H

x x x x

x x x x

x x

X X

Bisogna tener presente che, dal punto di vista operativo, quando si procede nella

formulazione di un test, lo spazio dei campioni C di riferimento non è lo spazio di

variabilità della n-upla 1 2 n = X ,X ,…,XX' che costituisce il campione casuale, ma lo

spazio di variabilità di una funzione T ( ) di tali valori che assume, pertanto, la natura

di variabile casuale test; ad esempio, se = µ , la funzione di compattazione è data da

n

1 2 n i

i=1

1X = T X ,X ,…,X = X

n .

Pertanto lo spazio di riferimento della media campionaria X è lo spazio dei

campioni relativo a tale variabile, cioè l'intero asse reale e la sua suddivisione potrà

essere del tipo riportato nella figura che segue:

Page 8: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

224

Fig. 4.2 - Regione critica e regione di accettazione dell'ipotesi H

0

Tre considerazioni vanno fatte in merito al teorema di Neyman-Pearson:

il teorema resta valido qualunque sia il numero dei parametri (purché finito)

caratteristici della legge di distribuzione delle probabilità della variabile casuale

X;

il teorema non richiede esplicitamente l'indipendenza stocastica delle n

osservazioni costituenti il campione;

nel teorema sono fissate le condizioni necessarie affinché un test sia il più

potente ma vengono anche indicate le regole per la derivazione della regione

critica.

Esempio 4.1

Sia

21

21

;2

x

f x e

la funzione di densità di probabilità di una variabile casuale X normale di media e

varianza 1 2 .

Relativamente alle seguenti ipotesi (entrambe semplici)

00 θ θ : H

11 θ θ : H 0θ

si assuma la disponibilità di un campione casuale 1 2, , ...., n x x x'x . In queste condizioni

si può pervenire all’individuazione della migliore regione critica C1, cioè alla individuazione

del test più potente, facendo ricorso al teorema di Neyman-Pearson.

Le funzioni di verosimiglianza sotto le ipotesi H0 e H

1 sono

2

1

1

1 ( ) 22

1 1

1

; ( ; ) (2 )

n

i

i

nn x

i

i

L f x e

x

Page 9: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

225

2

0

1

1 ( ) 22

0 0

1

; ( ; ) (2 )

n

i

i

nn x

i

i

L f x e

x

La migliore regione critica, cioè quella che minimizza la probabilità 1Hβ dell'errore di II

tipo una volta fissata la probabilità α dell'errore di I tipo, resta individuata dalla

disuguaglianza

2 20 1

1 1

11 ( ) ( )

21 1

00

1

( ; ) ;

; ( ; )

n n

i i

i i

n

i x x

in

i

i

f xL

e KL

f x

x

x

dove K è una costante da determinare in funzione di α.

Prendendo il logaritmo degli ultimi due termini della disuguaglianza si ottiene

K log )θ(x)θ(x2

1 n

1i

n

1i

2

1i

2

0i

moltiplicando per 2 i due termini della disuguaglianza si ha

K log2 )θ(x)θ(xn

1i

n

1i

2

1i

2

0i

essendo

2

0

n

1i

0

2

i

n

1i

2

0i

n

1i

n

1i

0

2

i

2

0i θnxnθ2xnθxθ2x)θ(x

2

1

n

1i

1

2

i

n

1i

2

1i

n

1i

n

1i

1

2

i

2

1i θnxnθ2xnθxθ2x)θ(x

dove

n

i

i

n

i

i xxn

nxn11

1

la relazione di disuguaglianza può essere scritta

2 2

1 0 0 12 n x θ - θ + n θ - θ 2 log K

ed anche, dividendo per la quantità negativa 1 0n che inverte il segno di

disuguaglianza (si ricordi l'ipotesi 1 < 0)

*

01

2

1

2

0 K θθ n2

θθ nK- log2 x

Poiché X ha, sotto l'ipotesi nulla 00 θ θ : H , distribuzione normale con media 0 e

varianza 2 = 1/n , sarà facile determinare il valore di K che soddisfa la relazione

2 2

0 1

0

1 0

2 log K - n θ -θP X /H = α

2 n θ -θ

In pratica l'operazione si semplifica tenendo presente che il membro di destra della

disuguaglianza è una funzione costante di K , basterà allora individuare il valore K* che

soddisfa la relazione

Page 10: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

226

α /HK X P 0

*

od anche

0 00

* /

1 / 1/

X K P H

n n

il che equivale alla relazione

α c Z P

dove Z è una variabile casuale normale standardizzata e n/1

θK c 0

* è il punto critico che

ha alla sua sinistra (regione critica) l' α dei valori della distribuzione.

4.1.2 Ipotesi composite

Il teorema di Neyman-Pearson consente di derivare la migliore regione critica soltanto

nei casi in cui sia l'ipotesi nulla che quella alternativa sono semplici. Quando H0 o H1,

o entrambe le ipotesi sono composite non esiste un analogo teorema. E' stata comunque

suggerita, sempre dagli stessi autori, una procedura generale per l’individuazione della

regione critica che dà usualmente buoni risultati: il test del rapporto di verosimiglianza.

Si dimostra, infatti, che nei casi in cui esiste la migliore regione critica essa viene

individuata dal test del rapporto di verosimiglianza.

Si dimostra inoltre che se esiste un test uniformemente più potente (test UMP

dall’inglese Uniformly Most Powerful), cioè un test che relativamente ad una data

ipotesi nulla semplice H0 e per un prefissato livello di probabilità dell'errore di I tipo

minimizza la probabilità dell'errore di II tipo, qualunque sia la specificazione della

ipotesi alternativa composita H1 , esso è un test del rapporto di verosimiglianza.

Il test del rapporto di verosimiglianza può essere definito nei seguenti termini:

Definizione 3 (Test del rapporto di verosimiglianza). Si supponga che

, ,...,1 2 nx x xx' = costituisca un campione casuale di una variabile X

la cui distribuzione di probabilità sia caratterizzata dal parametro

incognito , e si voglia sottoporre a test una ipotesi nulla contro

un'ipotesi alternativa (una o entrambe composite). Si indichi con

0ˆ L Θ il valore massimo della funzione di verosimiglianza del

campione rispetto al parametro il cui campo di variabilità è circoscritto

dall'ipotesi H0, e si indichi con ˆ L Θ il valore massimo della

funzione di verosimiglianza rispetto a , il cui campo di variabilità

riguarda ogni valore specificato dall'ipotesi H0 o H1. Allora la regione

critica del test (generalizzato) del rapporto di verosimiglianza è formata

da tutti i punti campionari che soddisfano la relazione

Page 11: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

227

ˆ ˆ

ˆ ˆ

0 0θ

θ

L max L θ / θR = =

L max L θ / θ

Θ Θ

Θ Θ K per 10 K

dove K è scelto in modo che la probabilità di commettere un errore di I specie sia

uguale ad . Da rilevare che il rapporto sopra indicato non potrà mai superare l'unità; la

costante K sarà quindi sempre inferiore o uguale a 1 e potrà essere determinata sulla

base della distribuzione probabilistica del rapporto stesso in corrispondenza del livello

di significatività prefissato.

La distribuzione di R non è sempre facilmente derivabile, in ogni caso si dimostra

che, per n abbastanza grande, e se sono soddisfatte alcune condizioni generali di

regolarità, la variabile casuale W = - 2 log R, ha una legge di distribuzione

approssimata del tipo 2 con gradi di libertà, dove rappresenta il numero di

vincoli di uguaglianza puntuali sui parametri specificati dall’ipotesi nulla.

Nelle pagine successive verranno discusse alcune procedure per sottoporre a test

ipotesi sui parametri della distribuzione normale. Tutti i test considerati sono test del

rapporto di verosimiglianza, da sottolineare che l'applicazione di tale test al problema

della verifica di ipotesi semplici contro alternative semplici dà luogo a risultati identici a

quelli che si otterrebbero utilizzando il teorema di Neyman-Pearson.

4.2 - Test sulla media

Per poter verificare delle ipotesi statistiche si deve avere a disposizione un campione di

osservazioni che consenta di poter concludere sulla ragionevolezza dell'ipotesi (nulla)

formulata; se ciò accade si accetta l'ipotesi stessa (ritenendola ragionevole), altrimenti si

procede al suo rifiuto in favore dell'ipotesi alternativa.

Molti autori ritengono che piuttosto che concludere per l’accettazione dell’ipotesi

nulla si debba parlare più correttamente di non rifiuto dell’ipotesi stessa, la motivazione

di un tale atteggiamento risiede nell’impossibilità di derivare, in molte situazioni di

ricerca, una misura significatività della probabilità di commettere l’errore di II specie.

Si ammetta di poter disporre di un campione di osservazioni 1 2, , ..., n = x x x '

x

estratto da una popolazione normale di media µ e varianza 2 incognite, e di voler

risolvere i seguenti problemi di test d'ipotesi:

a) H0 : µ = µ0

H1 : µ = µ1 > µ0

b) H0 : µ = µ0

H1 : µ > µ0

c) H0 : µ = µ0

H1 : µ < µ0

d) H0 : µ = µ0

H1 : µ µ0

Page 12: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

228

Si fissi ora il livello di significatività , cioè la misura della probabilità d'errore di I

specie che si è disposti a sopportare. L'ipotesi riguarda la media di una distribuzione

normale, si sceglie quindi come funzione degli elementi del campione (variabile casuale

test) la media campionaria:

n

1i

in21 Xn

1 X,....,X ,X T X

Lo spazio di variabilità della variabile casuale campionaria X è l'intero asse reale.

La procedura di test consisterà quindi nella suddivisione dell'asse reale in due regioni in

modo tale che la probabilità d'errore di I specie sia pari a , cioè in modo che

α H / C X P 01

dove C1 rappresenta la regione critica.

Si è visto in precedenza che la variabile casuale campionaria

n / S

μ-X T

ha una legge di distribuzione del tipo t di Student con n-1 gradi di libertà. Avrà quindi la

distribuzione t, con n-1 gradi di libertà anche la variabile casuale

n / S

μ-X T 0

Caso a) H0 : µ = µ0

H1 : µ = µ1 > µ0

L'asse reale viene diviso nei due intervalli (- , c) , (c ,+). Il primo degli intervalli

specifica la zona di accettazione, il secondo la zona critica. Il valore numerico di c ,

valore critico del test, si ottiene dalla relazione

P ( T > c / µ = µ0 ) =

caso b) H0 : µ = µ0

H1 : µ > µ0

In questo caso l'ipotesi alternativa è composita, la procedura di test uniformemente

più potente (cioè quella che minimizza la probabilità d'errore di II specie contro ogni

specificazione delle ipotesi alternative H1) è esattamente identica a quella indicata nel

caso precedente.

caso c) H0 : µ = µ0

H1 : µ < µ0

L'ipotesi alternativa anche in questo caso è composita ma con segno di

disuguaglianza, relativamente all'ipotesi alternativa, invertito rispetto al caso

precedente. L'asse reale si suddivide nei due intervalli (- , - c) ,(- c , +) e la regione

critica è data dall'intervallo (- , - c). Il valore critico si ottiene dalla relazione

Page 13: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

229

P ( T < - c / µ = 0 ) =

Da sottolineare che nelle due situazioni sopra descritte si applica il test del rapporto

di verosimiglianza che individua la migliore regione critica; individua cioè, il test

uniformemente più potente; a sostegno di una tale affermazione è sufficiente ipotizzare

un’applicazione reiterata del teorema di Neyman-Pearson in corrispondenza a

ciascuna specifica dell’ipotesi alternativa: la regione critica individuata è sempre la

stessa, ed è quella che minimizza la probabilità dell’errore di II tipo, ovviamente, tale

probabilità varierà al variare della specifica dell’ipotesi alternativa.

caso d) H0 : µ = µ0

H1 : µ µ0

Nei due casi precedenti sono state considerate ipotesi alternative composite

unidirezionali, in questo caso l’ipotesi alternativa composita è bidirezionale. In tale

contesto l'asse reale viene suddiviso in tre parti (- , c1) , (c1 , c2) , (c2 , +) ,

l'intervallo (c1 , c2) costituirà la zona di accettazione, mentre i due intervalli (- , c1) e

(c2 , +) costituiscono insieme la zona di rifiuto. Poiché la distribuzione t è

simmetrica, si scelgono usualmente i valori di c1, c2 equidistanti dallo 0, cioè c2 = c e

c1 =- c . Il valore critico c > 0 si otterrà allora dalla relazione

P ( T < -c / µ = µ0 ) = P ( T c / µ = µ0 ) =/2.

Evidentemente la procedura indicata non fornisce un test uniformemente più potente;

infatti, se il vero valore di µ fosse superiore a µ0, il test più potente sarebbe quello

indicato nel caso a); se invece il vero valore di µ fosse inferiore a µ0 il test più potente

sarebbe quello indicato nel caso c). Non avendo maggiori informazioni sulle alternative,

relativamente all'ipotesi H1: µ µ0, si preferisce attribuire alle due possibilità µ > µ0 e

µ < µ0 uguale peso. Da rilevare che il test così ottenuto risulta quello uniformemente

più potente nella classe ristretta dei cosiddetti test corretti o non distorti (test UMPU

dall’inglese Uniformly Most Powerful Unbiased).

Definizione 4 (Correttezza di un test). Un test si dice corretto o non distorto se

soddisfa il vincolo , cioè, se la probabilità di non commettere

un errore di II tipo è sempre maggiore od uguale alla probabilità di

commettere un errore di I tipo.

Nei quattro casi sopra esaminati si rifiuta l'ipotesi H0 se la specifica determinazione

della variabile casuale T cade nella zona critica (zona di rifiuto), si accetta altrimenti.

Esempio 4.2

Si supponga di voler risolvere il seguente problema di test d'ipotesi

H0 : = 30

H1 : < 30

Page 14: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

230

al livello di significatività = 0,01, disponendo delle informazioni sulla media campionaria

x = 26 e sulla varianza campionaria corretta s2 = 36 relative ad un campione di 25

elementi estratti da una popolazione normale.

Non essendo nota la varianza della popolazione, la regione critica o regione di rifiuto

dell'ipotesi nulla H0 : = 30 si individua facendo riferimento alla variabile casuale t di

Student con 25-1 gradi di libertà

x

Xt

S

dove n / S Sx . Tenendo presente l'ipotesi alternativa H1 : < 30 la regione critica resta

quindi individuata dal punto critico - 2,492- t - t- c 0,01 che rappresenta la specifica

determinazione della variabile casuale t di Student che ha alla sua sinistra l'1% dei casi.

Poiché il valore campionario è

- - 26 - 30 - 3,33

/ 6 / 25x

x xt

s s n

si rifiuta l'ipotesi nulla H0 : = 30, al livello di significatività dell'1%.

Esempio 4.3

Dati i seguenti otto valori campionari 31, 29, 26, 33, 40, 28, 30 e 25 estratti da una

popolazione normale si vuole sottoporre a test l'ipotesi che la media sia pari a 35 contro

l'ipotesi alternativa che non lo sia, al livello di significatività = 0,01.

Il problema di test d'ipotesi da risolvere è

35 μ : H0

35 μ : H0

Essendo la varianza della popolazione una incognita del problema (parametro di disturbo) si

dovrà procedere ad una sua stima utilizzando i dati campionari

n

1i

2

i

2 )x(x1n

1S

essendo

30,25x8

1x

n

1x

8

1i

i

n

1i

i

8

1i

2

i

2 22,2130,25)(x7

1s

4,71 s s 2

La determinazione della variabile casuale test che in questo caso, essendo incognita la

varianza, è la t di Student, è pari a

2,85- 8 / 4,71

35-30,25

n / s

μ-x

s

μxt

x

Essendo = 0,01 i valori critici della variabile t, con (8-1) =7 gradi di libertà che

Page 15: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

231

definiscono la regione critica sono 3,499- t- c 2α/1 e 3,499 t c 2α/2 . Il valore

campionario -2,85 è contenuto nell'intervallo (-3,499 , 3,499), pertanto si accetta l'ipotesi

nulla = 35 attribuendo la differenza riscontrata rispetto al valore campionario 30,25 x

a fattori di carattere accidentale.

Esempio 4.4

Per giustificare la loro richiesta di aumento di stipendio, gli impiegati di una ditta di vendita

per corrispondenza affermano di riuscire ad evadere, mediamente, un ordine di acquisto ogni

13 minuti. Il direttore generale della ditta ha effettuato una verifica casuale sui tempi di

evasione di 400 ordini registrando un tempo medio di evasione di 14 minuti e una variabilità,

misurata in termini di varianza corretta, di 100 minuti. Cosa si può concludere riguardo alle

richieste degli impiegati se si fissa una probabilità di errore di I tipo (livello di significatività)

del 5%?

Si deve sostanzialmente verificare se la media rilevata nel campione è più elevata, al livello di

significatività del 5%, di quella dichiarata dagli impiegati. Ovviamente, dato che in questo

particolare problema è auspicabile che il tempo di evasione di un ordine sia basso, il direttore

acconsentirà all’aumento di stipendio solo se il tempo di evasione riscontrato nell’azienda non

sia più alto rispetto a quello dichiarato dagli impiegati.

Il problema di verifica d'ipotesi è quindi formalizzato nei termini seguenti

13μ:H0

:H1 13

La variabile casuale test di riferimento

n / S

μ-X

S

μXt

x

ha, nell'universo dei campioni, distribuzione del tipo t di Student con n-1 gradi di libertà.

Conviene sottolineare che, in questo specifico esempio, essendo la dimensione campionaria

elevata (n = 400) si può fare riferimento alla distribuzione normale quale approssimazione

della distribuzione t di Student che fornisce un valore critico (test unidirezionale ), per =

0,05, pari a 1,65. La regola di decisione è quella di rifiutare l'ipotesi H0 se il valore assunto

(valore empirico) dalla v.c. test nello specifico campione è 1,65, di accettare se il valore

empirico è < 1,65.

Poiché 14 x e 400 / 10 n / s sx si ha

2 400/ 10

13-14

s

μx

x

1,65

si rifiuta l'ipotesi H0

concludendo che tempo medio richiesto per evadere un ordine è

superiore ai 13 minuti dichiarati dagli impiegati.

Esempio 4.5

Si supponga di disporre di un campione di 10 elementi rispetto al quale siano stati ottenuti i

valori x = 50,

10

1i

2

i 99)x(x e di dover risolvere il seguente problema di test d'ipotesi

Page 16: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

232

H0 : µ = 47

H1 : µ 47

ipotizzando la normalità della distribuzione della variabile di interesse.

Non essendo nota la varianza della popolazione e relativamente ridotta la dimensione del

campione non si può fare ricorso all'approssimazione normale, la variabile casuale test da

utilizzare è, pertanto, la variabile casuale t di Student.

n / S

μ-X T

dove

1n

)x(x

S

n

11

2

i

quindi 10

2

i22 i=1x

(x - x)S 99

S = = = = 1,1n 9×10 90

La determinazione assunta dalla variabile casuale t di Student sotto l'ipotesi nulla

Ho : = 47 risulta essere

50 47

1,0488x

xt

S

= 2,8604

Per (n – 1) = 9 gradi di libertà ed = 0,01 i valori critici che delimitano la regione di

accettazione sono 3,25- t 2α/ e. 3,25 t 2/ α . Essendo 2,8604 < 3,25 si accetta l'ipotesi

nulla Ho : = 47.

Se si sceglie il livello di significatività = 0,05, i valori critici sono -t/2 = - 2,262 e t/2

=2,262; essendo 2,8604 > 2,262 l 'ipotesi nulla Ho : = 47 dovrà essere rifiutata.

Esempio 4.6

Si supponga di aver somministrato ad un gruppo di 12 cavie una particolare dieta dalla

nascita fino all'età di 3 mesi e di aver riscontrato i seguenti incrementi di peso: 55, 62, 54, 57,

65, 64, 60, 63, 58, 67, 63 e 61 grammi. Sapendo che le cavie del tipo considerato, quando non

sono sottoposte a diete speciali, mostrano un incremento medio di peso (nei primi tre mesi di

vita) pari a 65 grammi, ci si domanda se le risultanze campionarie siano tali da poter

attribuire alla dieta la differenza riscontrata nell'incremento medio di peso pari a 60,75; si

vuole sapere cioè se la differenza d = (60,75 – 65) debba essere attribuita alla dieta o se non

debba invece essere attribuita a fattori aventi carattere puramente accidentale. Una possibile

risposta al quesito si può ottenere applicando la procedura di test sopra illustrata; la

procedura può essere riassunta come segue:

1. si fissa il livello di significatività, ad esempio = 0,05;

2. si specificano le due ipotesi

H0 : µ = 65

Page 17: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

233

H1 : µ 65

L'ipotesi alternativa è di tipo bidirezionale in quanto si può ritenere, almeno per il momento,

che un qualsiasi incremento medio di peso maggiore o minore di 65 grammi possa essere

attribuito all'effetto della dieta;

3. si individua la variabile casuale test

12 / S

65-X T

che, per quanto detto, è del tipo t di Student con 12 - 1 = 11 gradi di libertà. Tale variabile

descrive l'andamento dei risultati campionari (sintetizzati nella formula sopra scritta) sotto

l'ipotesi nulla H0; cioè a condizione che la dieta non abbia effetto e che quindi le differenze tra

X e 65 siano da attribuire esclusivamente a fattori accidentali;

4. si determina il valore critico c che soddisfa la relazione

P ( -c T c) = 0,95

Dalle tavole della distribuzione t di Student, in corrispondenza di 11 gradi di libertà, risulta c

= 2,20;

5. si pone a confronto il valore t (la specifica determinazione della variabile casuale T)

calcolato sui dati campionari

60,75 -65t = = -3.64

16,38 / 12

con il valore critico determinato al punto precedente.

Essendo

t = -3,64 < -2,20 = -c

si rifiuta l'ipotesi nulla H0 : µ = 65, al livello di significatività = 0,05, si rifiuta cioè

l'ipotesi che la differenza d = 60,75 - 65 sia da attribuire al caso.

Qualora si ritenga, a priori, che la dieta debba provocare un incremento medio di peso

inferiore a 65 grammi, la procedura di test da adottare sarà quella di tipo unidirezionale. In

tal caso si dovrà porre

H0 : µ = 65

H1 : µ < 65

si determina poi, in funzione della variabile test

12 / S

65-X T

il valore critico c che soddisfa la relazione

P (T -c) = 0,05

Dalle tavole della distribuzione t di Student risulta c = 1,80. Essendo

t = -3,64 < -1,80 = -c

si rifiuta l'ipotesi H0 : µ = 65.

Le due procedure di test adottate, bidirezionale e unidirezionale, portano entrambe alla stessa

conclusione: rifiuto dell'ipotesi nulla. A tale proposito va però sottolineato che se la t

campionaria avesse assunto un valore compreso nell'intervallo (-2,20 , -1,80) l'applicazione

della procedura di test bidirezionale, a livello = 0,05 di significatività, avrebbe comportato

un'accettazione dell'ipotesi nulla mentre, allo stesso livello di significatività, l'applicazione

della procedura di test unidirezionale avrebbe comportato un suo rifiuto.

Page 18: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

234

I test sopra illustrati sono, per l’ipotesi alternativa unidirezionale e per l’ipotesi bidirezionale,

rispettivamente, il test uniformemente più potente e il test uniformemente più potente nella

classe dei test corretti (non distorti).

4.2.1 p-value

Dalle considerazioni svolte, risulta evidente il ruolo fondamentale giocato dal livello di

significatività del test. Stante l'arbitrarietà nella fissazione del livello , cioè della

probabilità massima di errore di I specie che si è disposti a sopportare, spesso il

ricercatore preferisce discutere di livello di significatività soltanto a posteriori. Nel caso

specifico dell'esempio 4.6 del test unidirezionale, si sarebbe detto che il risultato

campionario t = - 3,64 è significativo al livello dello 0,04%; volendo esprimere con tale

affermazione il fatto che l'area sottesa alla curva descritta dalla funzione di densità di

probabilità della distribuzione t di Student corrispondente alla regione critica, definita

dal’intervallo (- , -3,64) è pari a 0,0004. Tale valore viene usualmente detto P-value.

Definizione 5 (P-value). In corrispondenza di una particolare determinazione t0

assunta da una qualunque variabile casuale test 1 2 , , ..., nT X X X si

dice P-value la probabilità dei valori che superano, in valore assoluto e

nella direzione estrema, il valore osservato.

Questa definizione viene usualmente accettata quando T è una statistica usata

per sottoporre a test l’ipotesi nulla 0 0 : H contro un’ipotesi alternativa

unidirezionale quando i valori estremi da considerare si collocano o nella coda di destra

della distribuzione ( θ : H1 0θ ) o nella coda sinistra della distribuzione :1 0H .

Molto più problematica è la situazione nel caso di ipotesi bidirezionale θ : H1 0θ , in

questo caso i valori estremi da considerare sono sia quelli della coda di destra sia quelli

della coda di sinistra, a ragione di ciò, alcuni autori sostengono che in tali circostanze il

valore del P-value debba essere raddoppiato; nell’esempio sopra considerato, se

l’ipotesi alternativa fosse stata H1 : µ 65 , il P-value sarebbe stato pari a 0,0008.

Nel caso in cui la variabile casuale test abbia distribuzione discreta si pone il

problema di includere o meno nel P-value la probabilità corrispondente al valore

osservato. Usualmente tale probabilità viene inclusa per intero, così da ottenere un test

conservativo, cioè con un livello di significatività effettivo non superiore a quello

nominale.

Si richiama l’attenzione sul fatto che il ricorso al P-value è criticato da molti autori

a ragione, sia del fatto sopra considerato relativo all’attribuzione di un valore numerico

al P-value , essendo il valore stesso interpretabile come evidenza empirica contro

l’ipotesi nulla ( P = 0,08 è sicuramente un’evidenza empirica contro l’ipotesi nulla

Page 19: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

235

:0H 65 più forte di quanto non lo sia P = 0,16 ), sia perché può accadere che ad

uno stesso valore di P possono corrispondere realtà molto diverse.

Se si presuppone, ad esempio, di voler risolvere il problema di test H0 : µ = 65

contro l’ipotesi alternativa H0 : µ 65 avendo a disposizione un campione di

dimensione n estratto da una popolazione normale con varianza nota 1 σ 2 , sotto

l’ipotesi nulla la variabile casuale test n/1

65X Z x

si distribuisce come una normale

standardizzata. In tale situazione, per n = 4 , x = 66 la determinazione della variabile

casuale test è z = 2, cui corrisponde un P-value pari a 0,0228, allo stesso valore di P

si perviene per n = 400 e x = 65,1. Ovviamente, le due situazioni sono decisamente

diverse anche se la misura dell’evidenza empirica, in termini di P-value, è la stessa; ma

questo è un problema che riguarda tutta l’impostazione classica della teoria del test

dell’ipotesi e che trova una sua soddisfacente soluzione solo nell’ambito

dell’impostazione bayesiana dell’inferenza statistica.

I problemi di test delle ipotesi fino ad ora considerati facevano riferimento ad una

variabile casuale normale con varianza incognita. Qualora la varianza fosse nota, per

risolvere i quattro problemi di test indicati, si dovrebbe operare in modo analogo

facendo però riferimento alla distribuzione normale anziché alla distribuzione t di

Student.

Esempio 4.7

Una fabbrica di lampadine afferma che i propri prodotti hanno una durata media di 1.000 ore;

come acquirente si vuole verificare tale affermazione. Sottoponendo a prova un campione

casuale di 100 lampadine si riscontra una durata media di 970 ore.

Poiché è nota la variabilità (misurata dalla varianza) nella durata che risulta essere =

1.600, cosa si può concludere riguardo all'affermazione ad un livello di significatività del 5%?

Il problema di verifica d'ipotesi da risolvere è

H0 : = 1.000

H1 : 1.000

Essendo nota la varianza ed ipotizzando la normalità della distribuzione d’origine, la variabile

casuale test di riferimento è

n/ σ

μ-X Z x

che, nell'universo dei campioni ha distribuzione normale standardizzata. I valori critici per

una probabilità di errore di I tipo, prefissata al livello = 0,05, sono

1,96- z 2α/ e 1,96 z 2/ α

che individuano le zone di accettazione di H0 nell'intervallo (-1,96 , 1,96) mentre la regione

di rifiuto è rappresentata dai semintervalli (- , -1,96) e (1,96 , +).

Poiché la determinazione della variabile casuale test (valore empirico), pari a

Page 20: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

236

970 1.000

40 / 100 -7,5

, ricade nell'intervallo ( - , -1,96) (regione critica) si rifiuta l'ipotesi

H0 concludendo che la durata media delle lampadine è inferiore a 1.000 ore.

Esempio 4.8

Un'impresa afferma che le batterie prodotte hanno una durata media di 22 ore e che la loro

variabilità, misurata attraverso lo scostamento quadratico medio, è pari a 3 ore. Nove batterie

vengono sottoposte a prova e si accerta una durata media di 20 ore.

Ipotizzando per la popolazione una variabilità pari a quella dichiarata dalla casa produttrice e

la normalità della distribuzione, si vuol verificare la validità dell'affermazione fatta

dall'impresa.

Poiché la durata delle batterie si distribuisce normalmente e la varianza è nota (2

= 9), la

media campionaria X si distribuirà, nell'universo dei campioni, normalmente con varianza

1 9

9

n

σ σ

22

x

La formulazione delle due ipotesi (nulla e alternativa) è

H0: µ = µ0 = 22

H1 : µ µ0 pertanto, fissato il livello di significatività = 0,05, la regione di accettazione dell'ipotesi

nulla risulta individuata dall'intervallo (-z

, z cioè dall'intervallo

(-1,96 , 1,96). Essendo

2- 1

22-20

n / σ

μ-x z 0

pari ad un valore inferiore al valore –1,96 che delimita la regione di accettazione, l'ipotesi

nulla H0 : µ = 22 viene rifiutata, concludendo che la durata media delle batterie in questione

è inferiore alle 22 ore.

Se la varianza della popolazione non fosse nota e il valore 9 corrispondesse alla stima

campionaria corretta di tale entità incognita, la variabile casuale test di riferimento sarebbe la

t di Student con 8 (= 9-1) gradi di libertà. In questo caso, al livello di significatività

i punti critici risulterebbero pari a -2,306 e 2,306, ed essendo il valore campionario assunto

dalla variabile casuale t (= -2) contenuto nell'intervallo ( -2,306 , 2,306) si dovrebbe

accettare l'ipotesi nulla attribuendo alla differenza riscontrata (tra valore ipotizzato e valore

registrato per il campione) natura accidentale. Da sottolineare che nella situazione prospettata

la mancanza di informazioni (varianza della popolazione incognita) porta a concludere in

maniera opposta pur avendo la stessa evidenza campionaria: rifiuto di H0 nel caso di varianza

nota, accettazione di H0 nel caso di varianza incognita; la maggiore variabilità dei risultati

campionari fa “perdere” di “significatività statistica” all’evidenza empirica.

4.2.2 Potenza di un test

Si esaminerà ora in modo dettagliato il problema di test di ipotesi relative alla media di

Page 21: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

237

una popolazione normale di varianza nota. Questo caso, pure se meno interessante del

precedente da un punto di vista operativo in quanto la varianza è generalmente una

quantità incognita, consente, da un lato di meglio precisare i concetti già esposti in

merito alla procedura di test da utilizzare, dall'altro un maggiore approfondimento degli

aspetti connessi alla determinazione della probabilità di commettere un errore di II

tipo o anche alla probabilità di non commettere un errore di II tipo (potenza di un test).

Si ammetta dunque di poter disporre di un campione di osservazioni

1 2 nx ,x ,....,nx' relative ad una popolazione normale di media incognita µ e

varianza nota 2σ , e di voler sottoporre a test le seguenti ipotesi:

a) H0 : µ = µ0

H1 : µ = 0 > µ0

b) H0 : µ = µ0

H1 : µ > µ0

c) H0 : µ = µ0

H1 : µ < µ0

d) H0 : µ = µ0

H1 : µ µ0

Se l'ipotesi nulla H0 è vera, la media campionaria

n

1i

iXn

1X

si distribuisce, nell'universo dei campioni, normalmente con media 0 e varianza 2

/n.

Per l'individuazione della migliore regione critica (quando esiste) si può procedere alla

standardizzazione della variabile casuale X

n / σ

μ-X Z 0

x

e riferirsi alle tavole della distribuzione normale standardizzata utilizzando una

procedura del tutto analoga a quella illustrata a proposito della distribuzione t di

Student. Ad esempio per = 0,05, i valori critici di riferimento per le quattro possibili

ipotesi alternative considerate sono:

a) c = 1,64, si rifiuta l'ipotesi nulla H0 se xZ > 1,64;

b) c = 1,64, si rifiuta l'ipotesi nulla H0 se xZ > 1,64;

c) c = -1,64, si rifiuta l'ipotesi nulla H0 se xZ < -1,64;

d) c1 = -1,96 e c

2 = 1,96, si rifiuta l'ipotesi H0 se xZ < -1,96 oppure xZ > 1,96.

Nei quattro casi sopra considerati, sono stati individuati i valori critici facendo

riferimento alla distribuzione normale standardizzata. Risulta subito evidente come sia

possibile riferirsi direttamente alla variabile casuale X anziché alla sua standardizzata.

Infatti, dall'uguaglianza

Page 22: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

238

0,05 nσ/1,64 μ X P1,64 n / σ

μ-X P1,64 Z P 0

0

x

risulta immediatamente il valore critico del test per il primo (e secondo) caso

considerato, in riferimento alla variabile casuale test X anziché xZ . Nella Fig. 4.3 si

evidenziano graficamente, per tutti e quattro i casi di ipotesi alternativa considerati, la

regione critica e quella di accettazione in riferimento alla variabile casuale test X ed al

livello di significatività = 0,05:

Nel primo grafico della Fig. 4.3 (quello relativo al caso a) dove entrambe le

ipotesi formulate sono semplici) è stata evidenziata graficamente oltre alla

regione di rifiuto dell'ipotesi H0 anche l'area corrispondente alla probabilità

= 0,05 dell'errore di I tipo e l'area corrispondente alla probabilità 1H di

commettere un errore di II tipo. La potenza o forza del test = 1 – ß ( H1 ),

cioè la probabilità di non commettere un errore di II tipo, risulta graficamente

espressa dall'area sottesa alla curva di destra relativa all'intervallo (c ,+).

Dalla Fig. 4.3 e da quanto detto a proposito degli intervalli di confidenza si desume

che la potenza di un test resta influenzata:

a) dal livello di significatività prescelto;

b) dalla specificazione dell'ipotesi alternativa;

c) dalla numerosità del campione.

L'immediata considerazione da fare in merito alla relazione che lega la forza di un

test al livello di significatività è che un test è tanto più potente quanto più è elevata la

probabilità dell'errore di I tipo. Infatti, se si osserva la Fig. 4.4 si vede chiaramente come

l'incremento del livello (probabilità dell'errore di I tipo), comportando un

allargamento dell'intervallo di rifiuto (regione critica), determini una riduzione della

probabilità dell'errore di II tipo e di conseguenza un aumento della potenza del test.

Page 23: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

239

Fig. 4.3 - Distribuzione campionaria e regione critica relative a quattro diverse specificazioni

dell'ipotesi alternativa H1 rispetto all'ipotesi nulla H0 : µ = µ0

Page 24: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

240

Fig. 4,4 - Relazione tra potenza di un test e livello di significatività

Si consideri ora il caso in cui si voglia sottoporre a test l'ipotesi nulla H0 : µ = µ0,

contro l'ipotesi alternativa:

a) 1 0 0: H

b) 1 0 0: H

c) 1 0 0: H

al livello di significatività.

I tre problemi di test sono illustrati graficamente nella Fig. 4.5. Osservando le curve

tracciate si vede chiaramente come la potenza del test cresca all'aumentare dello scarto

tra il valore di µ specificato dall'ipotesi nulla ed il valore di µ specificato nell'ipotesi

alternativa. Nella Fig. 4.6 si riporta il grafico della funzione forza del test in relazione a

tutte le possibili specificazioni delle ipotesi alternative composite unidirezionali

H1 : µ < µ

0 e H

1 : µ > µ

0 e l'ipotesi alternativa composita bidirezionale H1 : µ µ0

Page 25: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

241

Fig. 4.5 - Relazione tra potenza del test e specificazione dell'ipotesi alternativa

Page 26: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

242

Fig. 4.6 - Grafico della funzione forza del test relativo all'ipotesi nulla H0 : contro tre

diverse specificazioni dell'ipotesi alternativa composita H1

L'espressione analitica che consente di determinare il valore numerico assunto dal

punto critico relativo alla variabile casuale test X , quando si vuole sottoporre a test

un'ipotesi nulla del tipo H0: µ = µ0 contro un'ipotesi alternativa del tipo H1: µ > µ0 è

data dall'uguaglianza

c = µ0 + z /n

dove z è la determinazione numerica della variabile casuale normale standardizzata

che soddisfa la relazione P (Z > z) = . Evidentemente la relazione sopra scritta si

riferisce ad un campione di osservazioni di dimensione n estratto da una popolazione

normale di varianza nota .

Osservando la relazione si rileva come l'entità c (valore critico) sia una funzione

decrescente di n. Ciò sta a significare che ad un aumento della dimensione campionaria

corrisponde una diminuzione nel valore numerico di c, il che comporta un ampliamento

dell'intervallo che delimita la regione critica con un conseguente aumento della forza del

test.

A titolo esemplificativo si riporta il grafico della funzione forza del test in

riferimento a due diverse dimensioni campionarie n ed m (n > m)

Page 27: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

243

Fig. 4.7 - Grafico della funzione forza del test relativo a due diverse dimensioni campionarie

Un'ultima considerazione da fare in merito alla potenza o forza di un test statistico

riguarda la varianza campionaria 2

cσ della variabile casuale test . Dalle formule sopra

scritte risulta che il valore critico c è legato funzionalmente ed in senso positivo a 2 2 2 2( / )c x n , ciò sta a significare che a più bassi valori di 2 , corrispondono più

bassi valori di c e quindi più ampie regioni critiche. Sarà pertanto possibile, operando

su 2

cσ ottenere un incremento nella potenza di un test senza dover necessariamente

procedere ad un aumento della dimensione campionaria o della probabilità dell'errore di

I tipo.

Questa affermazione ha naturalmente significato soltanto nei casi in cui sia

effettivamente possibile operare su 2

cσ , ad esempio, attraverso un’opportuna

pianificazione della rilevazione campionaria o del disegno degli esperimenti. Il caso più

semplice e più significativo è quello relativo alle modalità di estrazione delle unità

campionarie quando si considera la media campionaria X quale variabile casuale test;

infatti, come già sottolineato, se si procede all’estrazione da una popolazione finita

rimettendo ogni volta l’unità estratta nella popolazione (campionamento con

ripetizione) si ha n

σσ

22

x , se invece si effettua l’estrazione in modo esaustivo

(estrazione senza ripetizione) si ha 2 2

2 1

x

N n

n N n

, dove N è la dimensione

della popolazione e n è la dimensione del campione. Ovviamente, questa osservazione

non riguarda l’esempio sopra riportato che fa riferimento alla distribuzione normale

dove la dimensione N è infinita.

Relativamente alla varianza 2

cσ della variabile casuale test, si deve sottolineare che

nella generalità dei casi tale varianza dipende dalla variabilità del fenomeno oggetto di

studio, cioè, dalla varianza 2σ della popolazione che, come più volte sottolineato, è

un’entità usualmente incognita (parametro di disturbo). Si dovrà, pertanto, procedere ad

Page 28: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

244

una stima di tale entità il che porta alla determinazione di una stima ˆ 2

cσ di 2

cσ ; la

radice positiva di tale quantità cσ̂ , come già sottolineato, viene usualmente detta errore

standard.

Esempio 4.9

Si consideri la variabile casuale continua X definita nel semiasse reale positivo esteso

(X : 0 x + ) con funzione di densità di probabilità (distribuzione esponenziale negativa)

1

; x

f x e

e si supponga di voler risolvere il seguente problema di test d'ipotesi

H0 : = 2

H1 : > 2

Supponendo, inoltre, la disponibilità di un campione di due elementi (n = 2) e definendo la

regione critica attraverso la disuguaglianza X1 + X2 9,5 si può derivare l'espressione

analitica della funzione forza del test (H1) determinandone il valore per H1: = 4.

Come più volte sottolineato, la funzione forza del test rappresenta la probabilità di non

commettere un errore di II tipo, cioè la probabilità di rifiutare l'ipotesi H0 quando l'ipotesi

stessa è falsa.

1 1 1 0 1 / 1- / H P C H P C H X X

Se si esplicita l'ipotesi alternativa nel modo seguente

11 θ θ : H 4

e si tiene conto della regola di decisione prescelta (accettare l'ipotesi H0 quando

X1 + X2 ≤ 9,5), e del fatto che le due variabili casuali campionarie X1 e 2X sono

indipendenti, si avrà:

1

1 2 1 21 1

1 1 1 1

1

1

9,5 9,5 - x

1 1 2 1 1 1 2 1 1 2 0 0

x x x x 9,5 9,5 - x 9,5 9,5 - xθ θ θ θ

1 2 2 1 0 0 0 01 1 1 1

x

θ

1

β(θ ) P ( X + X < 9,5 / H )= f ( x ;θ ) f ( x ;θ ) dx dx

1 1 1 1 e e dx dx e e dx dx

θ θ θ θ

1 eθ

0

2 1 1

1 1 1

1

9,5 xx x 9,5-x 9,5 9,5θ θ θ

1 1 0 01 1

9,5

θ1

1

1 1e dx e e 1 dx

θ θ

9,5+θ1 e

θ

1 1

9,5 9,5

θ θ1 11 1

1 1

9,5+θ 9,5+θ(θ )= 1- β(θ )= 1- 1- e e

θ θ

Per 1 = 4 si ha

9,5

-4

9,5+4γ(4)= e = 0,31

4.

Page 29: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

245

Si è più volte affermato che la variabile casuale

n / S

μ-X T

ha una legge di distribuzione t di Student quando la popolazione che genera il

campione è di tipo normale. Non sempre però, nella ricerca applicata, risulta soddisfatta

la condizione di normalità; ci si deve allora chiedere che cosa succede alla legge di

distribuzione della variabile T definita dalla formula quando una tale condizione non

sussiste. L'osservazione da fare è che la variabile T si dimostra particolarmente

sensibile alle variazioni nella legge di distribuzione della popolazione che genera il

campione.

Le considerazioni sopra svolte impongono una certa cautela nell’utilizzazione della

distribuzione t di Student, nel senso che si può fare ricorso ad una tale distribuzione

solo quando si è sufficientemente convinti della normalità, o approssimativa normalità,

della popolazione che genera il campione. Tale affermazione vale naturalmente nei casi

in cui la dimensione del campione non supera le 30 unità, oltre tale dimensione, come

già sottolineato, la distribuzione t di Student e la distribuzione normale praticamente

coincidono, basterà allora riferirsi alla distribuzione normale purché questa costituisca

una buona approssimazione della distribuzione della media campionaria.

Per quanto concerne i casi in cui si abbia a che fare con campioni di dimensione

superiore a 30, si rimanda a quanto sommariamente detto a proposito degli intervalli di

confidenza per campioni estratti da popolazioni di cui non è nota la legge di

distribuzione. Infatti, si rileva immediatamente come le procedure proposte per

sottoporre a test delle ipotesi statistiche, e quelle utilizzate per la determinazione degli

intervalli di confidenza, presentino punti di contatto tali da consentire un passaggio

immediato dall'intervallo di confidenza alla regione di accettazione.

A sostegno di quanto sopra affermato si può, ad esempio, considerare il problema di

test, sulla media µ di una popolazione normale con varianza nota pari a 2

, definito

dalle ipotesi

00 μ μ : H

1 0 : H

La regione di accettazione dell'ipotesi 00 μ μ : H al livello = 0,05 di

significatività, risulta essere

1,96 n /

-X , 0

961

che può anche essere scritta

n/1,96X n/1,96X 0 σμσ

e tale espressione rappresenta l'analogo dell'intervallo di confidenza (al livello del 95%)

per la media di una popolazione normale

Page 30: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

246

nσ/1,96X μ nσ/1,96X

già visto in precedenza. L'implicazione è dunque che un intervallo per la media, al

livello di confidenza del 95%, costituisce l'intervallo che include tutte quelle ipotesi,

sulla media stessa, che verrebbero accettate in una procedura di test bidirezionale,

qualora fosse stato fissato un livello di significatività pari a 0,05.

***

La somiglianza tra le procedure di test e quelle di determinazione degli intervalli di

confidenza, non deve naturalmente indurre a confondere i problemi di test con quelli

di stima; essi sono logicamente e sostanzialmente diversi.

***

4.3 - Test sulla varianza

Nel caso in cui si voglia sottoporre a test un'ipotesi sulla varianza di una popolazione

normale con media incognita, disponendo di un campione di n elementi e per un certo

, si deve operare in modo analogo a quanto fatto relativamente alla media. La variabile

casuale campionaria di riferimento (variabile casuale test) diventa

2

2

-1

n SW

che ha una legge di distribuzione del tipo 2 con n-1 gradi di libertà ed è definita

nell'intervallo (0 ,+).

Caso a) 2 2: 0 0H

22

1 *:H 2

0 (od anche 2

1H : σ 2

0 )

Il valore critico c si ottiene dalla relazione

P ( W 2

0

2 /c ) =

Caso b) 2

0

2

0 :H

2

1 :H 2

0 (od anche 2

1H : σ < 2

0 )

Il valore critico c si ottiene dalla relazione

P ( W 2

0

2 /c ) =

Caso c) 2

0

2

0 :H

2

1 :H 2

0

I valori critici c1 e c2 (si noti che la distribuzione 2 non è simmetrica) si

ottengono dalle relazioni

P ( W 2

0

2

2 /c ) = /2

Page 31: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

247

P ( W 2

0

2

1 /c )= 1-/2

Esempio 4.10

Sulla scorta di una lunga esperienza è stato calcolato lo scostamento quadratico medio

sulla variabile descritta dal tempo di anestesia relativamente a soggetti di sesso maschile

sottoposti ad uno specifico trattamento; tale scostamento è risultato pari a 0,25 ore. Lo stesso

trattamento viene applicato ad un campione di 20 donne, e riscontrando uno scostamento

quadratico medio, nel tempo di anestesia, pari a 0,32 ore.

Sapendo che i venti soggetti femminili sottoposti a trattamento presentano, nei confronti

dell'anestetico, le stesse condizioni dei soggetti maschili, si vuole spiegare l'incremento

riscontrato nella variabilità. In altri termini, ci si chiede se l'incremento riscontrato sia da

attribuire al genere oppure a fattori aventi natura accidentale.

Il problema può essere formalizzato specificando l'ipotesi nulla e l'ipotesi alternativa nei

termini che seguono

0,25σσ:H 2

m

2

f0

2 2:1 f mH 0,25

dove f sta ad indicare lo scostamento quadratico medio relativo alla popolazione di donne,

m

(valore noto) lo scostamento quadratico medio relativo alla popolazione di uomini.

Sotto l'ipotesi nulla, e cioè a condizione che l'ipotesi nulla sia vera, la variabile casuale test

2

m

2

σ

S19w

dove

20

1i

2

i

2 )X(X19

1S

rappresenta la varianza calcolata sul campione di venti soggetti femminili, avrà una

distribuzione del tipo con 19 gradi di libertà. Relativamente allo specifico campione si ha

2

2

19 0,32w= = 31,1

0,25

Se si fissa un livello di significatività nell'ordine del 5%, si può determinare, sulla scorta delle

tavole della distribuzione , il valore critico c per il quale risulta soddisfatta la relazione

P (W c) = 0,95

Poiché risulta essere c = 30,1, la zona di accettazione sarà data dall'intervallo

(0 , 30,1), mentre la regione critica risulterà espressa dall'intervallo (30,1 ,+ ). Stante tale

situazione si rifiuta l'ipotesi nulla; si rifiuta, cioè, l'ipotesi che la differenza riscontrata nella

variabilità sia da attribuire al caso.

Se il livello di significatività viene fissato nell'ordine dell'1%, si deduce un valore critico c =

36,2. In tal caso, e cioè al livello di significatività dell'1%, il valore campionario ricadrebbe

nella zona di accettazione della ipotesi nulla; verrebbe pertanto attribuita al caso la differenza

riscontrata.

Page 32: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

248

Esempio 4.11

Una fabbrica di batterie di automobili dichiara che il proprio prodotto presenta una

variabilità nella durata (misurata dalla varianza) pari a 0,8 (2

= 0,8). Un campione casuale

di 16 batterie viene sottoposto a prova evidenziando una varianza corretta pari a 1. Si vuole

verificare, al livello di significatività del 5% ( = 0,05) se la varianza nella durata del

prodotto è superiore a 0,8.

La formulazione delle ipotesi per il problema in esame è

0,8 : H 2 0

: 2

1 H 0,8

mentre la v.c. test di riferimento è

2

2

n-12

n -1 SW = ~ χ

σ

che, nell'universo dei campioni, ha una distribuzione del tipo con n - 1 gradi di libertà.

Per = 0,05 e (n – 1) = 15 gradi di libertà il valore critico risulta essere 24,996 , 2

050 ,

pertanto la regola di decisione sarà (test unidirezionale): si accetta H0 se il empirico è

24,996, si rifiuta H0 se il empirico è > 24,996.

Essendo 2

2

2

n - 1 S 15 - 1χ = = = 17,5 24,996

σ 0,8 si accetta l'ipotesi H0.

4.4 - Test sulla probabilità

Volendo utilizzare la teoria del test delle ipotesi per risolvere un problema di verifica

d'ipotesi sulla probabilità di un particolare evento (la distribuzione di riferimento è la

v.c. di Bernoulli), si può procedere come illustrato nelle pagine precedenti; si fissa cioè

un livello di significatività (probabilità dell'errore di I tipo) e si individua poi la

regione critica (di rifiuto dell'ipotesi nulla formulata) che massimizza la potenza del test

(probabilità di non commettere un errore di II tipo).

Se la dimensione del campione è sufficientemente elevata per sottoporre a test

un'ipotesi su una probabilità si può fare ricorso alla distribuzione normale essendo

questa un’approssimazione abbastanza buona della distribuzione binomiale per n

sufficientemente elevato e n p > 5, n q > 5, dove n rappresenta la dimensione

campionaria, p la probabilità dell'evento che interessa e q = 1- p la probabilità

contraria.

In particolare se X rappresenta il numero di successi in n prove bernoulliane (prove

indipendenti), la proporzione campionaria

ˆ X

Pn

Page 33: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

249

ha una distribuzione approssimativamente normale con media p e varianza n

q p.

Se si vuole quindi sottoporre a test una specifica ipotesi, al livello di significatività

del tipo 00 pp:H contro l'ipotesi alternativa 1 :H p 0p si può fare ricorso alla

variabile casuale normale standardizzata

0

0 0

ˆ~ 0,1

P - pZ N

p q / n

dove q0 = 1-p0 . Si rifiuterà l'ipotesi se / nqp

-pp

00

Z cioè se

p̂ n

qpZp 00

0

dove Z è il valore (punto critico) della distribuzione normale

standardizzata che ha alla sua destra l' % dei casi.

Si noti che l'ipotesi nulla 00 pp H non specifica solo la media p0 della

distribuzione bernoulliana ma anche la varianza 00 q p .

Esempio 4.12

Si supponga di voler sottoporre a test l'ipotesi 0

2H : p

3 contro l'ipotesi alternativa

1

2:

3H p disponendo di un campione di 200 osservazioni indipendenti che evidenzia una

frequenza relativa 0,75 200

150 p̂ . Poiché sotto l'ipotesi nulla H0, la proporzione

campionaria p̂ ha una distribuzione approssimativamente normale con media 2/3 p e

varianza 1/900 n / qp , se si sceglie il livello di significatività = 0,05, il punto critico

che delimita la regione critica sarà 1,645 z . Pertanto l'ipotesi nulla 2/3 p : H 0 dovrà essere rifiutata quando

p̂ - 2/3 1,645

1 / 30

Cioè quando

0,722 30

11,645

3

2 p̂

Essendo 0,75p 0,722, l'ipotesi nulla 320 p:H viene rifiutata al livello di

significatività del 5%. Ad analoga conclusione si perviene se si fissa il livello di significatività

= 0,01, infatti si ha ˆ2 1

p + 2,34× = 0,7443 30

.

Se si specifica l'ipotesi alternativa in termini di un preciso valore numerico risulta possibile,

come chiarito in precedenza, calcolare la potenza del test.

Page 34: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

250

Nella tabella che segue, per = 0,01 e = 0,05, sono riportati i valori assunti dalla funzione

forza del test in corrispondenza di alcune particolari specifiche dell'ipotesi alternativa.

1 :H p

200 / qp

= 5%

= 1%

200/qp

p0,722

Potenza

200/qp

p0,744

Potenza

0,60 0,0346 3,517 0,000 4,170 0,000

0,65 0,0337 2,128 0,017 2,798 0,003

0,67 0,0332 1,557 0,059 2,238 0,012

0,69 0,0327 0,969 0,166 1,661 0,048

0,71 0,0321 0,364 0,358 1,069 0,142

0,73 0,0314 -0,264 0,604 0,455 0,325

0,75 0,0306 -0,914 0,822 -0,186 0,574

0,77 0,0297 -1,626 0,948 -0,865 0,806

0,79 0,0288 -2,372 0,991 -1,587 0,944

0,81 0,0277 -3,188 0,999 -2,373 0,991

0,83 0,0266 -4,071 1,000 -3,222 1,000

Tab. 4.2- Potenza del test relativa a specifiche dell’ipotesi alternativa 1

2:

3H p .

Ovviamente anche in riferimento alle proporzioni (probabilità) si possono presentare casi di

test d'ipotesi del tipo 00 p p : H contro l'alternativa bidirezionale 01 p p : H od anche

100 p p p : H contro l'alternativa 1 0 1 : H p p p p .

Esempio 4.13

Si supponga di avere a che fare con una distribuzione bernoulliana e di voler sottoporre a test

l'ipotesi nulla 0,5p : H0 al livello di significatività = 0,05.

Si ammetta, inoltre, di poter disporre di un campione di n = 100 osservazioni indipendenti e

di volere calcolare la potenza del test in riferimento a ciascuna delle seguenti specifiche

dell'ipotesi alternativa

0,55p : H a) 1

0,60p : H b) 1

650,p : H )c 1

0,70p : H )d 1

0,75p : H e) 1

Essendo sufficientemente elevata la dimensione campionaria e risultando, inoltre, n p e n q

superiori a 5, si può approssimare la distribuzione binomiale con la distribuzione normale che,

quando l’ipotesi nulla 0,5p : H0 è vera, ha media 500,50100pnμ e varianza

25 0,50,5100 qpn σ 2 .

Poiché = 0,05 si rifiuta l'ipotesi nulla 0,5p : H0 quando la determinazione

campionaria della variabile casuale normale standardizzata

Page 35: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

251

qpn

pnX- Z

assume un valore superiore al punto critico c = 1,65 che è il valore che soddisfa la relazione

(quando l'ipotesi nulla è vera)

0,05 1,65 5

50X- P

e in modo equivalente

0,05 1,65550 X P

cioè

0,05 58 X P

La potenza di un test è misurata dalla probabilità di rifiutare un'ipotesi H0 quando questa è

falsa, si dovrà allora calcolare la probabilità X > 58 per ciascuna specifica dell'ipotesi

alternativa cioè

0,05 H / 58 X P 1

I valori della potenza del test per i vari casi richiesti sono riportati nella tabella che segue

H1: p = µ = n p qpn σ Zσ

μX

Potenza

p = 0,55 55 4,97 0,60 0,274

p = 0,60 60 4,90 -0,11 0,659

p = 0,65 65 4,77 -1,48 0,929

p = 0,70 70 4,58 -2,62 0,996

p = 0,75 75 4,33 -3,93 1,000

Tab. 4.3 - Valori della potenza del test

Esempio 4.14

Relativamente ad una distribuzione bernoulliana si vuole risolvere il problema di test d'ipotesi

0,5 p : H0

3/2 p : H1

al livello di significatività = 0,01 e presupponendo la disponibilità di 36 osservazioni

campionarie indipendenti. Si vuole evidenziare, inoltre, la crescita della potenza del test al

crescere della dimensione campionaria considerando in particolare i valori n = 36, 64, 100,

144 e 196.

La distribuzione binomiale può essere approssimata dalla distribuzione normale essendo, in

tutti i casi considerati, la dimensione campionaria sufficientemente elevata e np, nq maggiore

di 5.

Per ciascuna specifica del valore n si calcola la media = n p e lo scostamento quadratico

medio qpn σ in corrispondenza del valore p = 0,5

Page 36: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

252

n = n p qpn

36 18 3

64 32 4

100 50 5

144 72 6

196 98 7

Poiché il valore p specificato dall'ipotesi alternativa H1, è più elevato di quello specificato

dall'ipotesi nulla, al livello di significatività = 0,01, si rifiuta l'ipotesi H0 quando la

determinazione campionaria della variabile casuale normale standardizzata assume un valore

superiore al valore critico c = z = 2,3 essendo questo il valore che soddisfa la relazione

0,01 2,33 3

18X- P

ed anche

0,01 18 2,333 X P

da cui

0,01 24,99 X P

I valori critici in corrispondenza degli altri valori di n sono

41,32 32 2,334 64 n

61,65 50 2,335 100 n

85,98 72 2,336 144 n

114,31 982 2,337 196 n

Per n = 36 la potenza del test deriva dalla relazione

0,36 0,3498 Z P 2,83

24-24,99

2,83

24X- P H / 24,99 X P 1

Analogamente per gli altri valori di n.

0,64 0,3581- Z P 3,77

42,67-41,32 Z P 64 n

0,86 1,0658- Z P 4,71

66,67-61,65 Z P 100 n

85,98 - 96

n = 144 P Z = P Z -1,7703 = 0,965,66

0,99 2,4788- Z P 6,60

,67130'-114,31 Z P 196 n

.

Page 37: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

253

4.5 - Determinazione della dimensione campionaria

Nella trattazione fino ad ora svolta è stata considerata fissa la dimensione campionaria,

si presentano però spesso situazioni in cui non ci si limita alla fissazione del solo livello

di significatività avendo anche interesse ad una potenza del test non inferiore ad una

certa soglia. Per poter conseguire un tale obiettivo si potrà intervenire convenientemente

sulla dimensione campionaria.

Si consideri, il caso in cui, in riferimento a una distribuzione normale, si voglia

sottoporre a test l'ipotesi nulla

0 0 : H

contro l'ipotesi alternativa 1 1:H 0 al livello di significatività e in modo tale

che la potenza del test non sia inferiore a . Si ricorda che, H β -1 H γ 11 ,

cioè, la potenza di un test rappresenta la probabilità di non commettere un errore di II

tipo.

Si rifiuta l'ipotesi nulla quando per la media campionaria vale la disuguaglianza

0 x zn

se si indica con z il valore Z della variabile casuale normale standardizzata che ha

alla sua destra il % dei casi, il vincolo sulla potenza impone il rispetto della relazione

0 / P X z n

od anche1

0 11 / /

XP z

n n

deve, quindi, essere soddisfatta l'uguaglianza

0 1 /

z zn

da cui

2

2

1 0

z + z n =

μ - μ / σ

Allo stesso risultato si perviene nel caso in cui l’ipotesi alternativa unidirezionale è

1 Da rilevare che attraverso questo passaggio si sta considerando la distribuzione della media campionaria X sotto

l’ipotesi alternativa 1 1 : H , cioè 2

1, /X N n e non la distribuzione della media campionaria

sotto l’ipotesi nulla 2

0 , /X N n ; da notare l’uguaglianza della varianza campionaria di X che, in

entrambi i casi, è pari a 2 2 /x n .

Page 38: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

254

1 1 0 : H anche se per correttezza formale a denominatore dell’espressione a

secondo membro si dovrebbe porre 0 1μ - μ ma il risultato non cambia in quanto lo

scarto deve essere elevato al quadrato.

Se n non è intero si opera una approssimazione per eccesso.

Esempio 4.15

Se si scelgono i valori α=0.05, γ=0,90, 400 σ e 110 μ ,100 μ 2

10 si avrà

2

2

1,645+1,282 n = = 34,268

100 -110 / 20

si dovrà, pertanto, fissare la dimensione campionaria n = 35.

Se con 0 1 si indica lo scarto tra la specificazione dell’ipotesi nulla e

l’ipotesi alternativa la relazione che consente la derivazione della dimensione

campionaria nel rispetto del vincolo sulla potenza diventa:

2

2

z + z n =

/ σ

.

pertanto, la dimensione campionaria potrà essere ottenuta soltanto quando tutti gli

elementi presenti nella formula sono noti:

livello di significatività ;

potenza del test 1H ;

specifica dello scarto tra le due ipotesi 0 1 e varianza della popolazione

2 .

Sulla scorta dell’ultima osservazione ne consegue che le formule per la

determinazione della dimensione campionaria, spesso riportate nei testi didattici, che

fanno riferimento ad ipotesi alternative composite hanno solo carattere indicativo in

quanto per poter procedere a tale determinazione se deve comunque specificare in modo

puntuale l’ipotesi alternativa; in particolare deve essere noto lo scarto 0 1 .

La formula da impiegare è quella sopra riportata nel caso di ipotesi alternativa

unidirezionale; mentre, nel caso di ipotesi bidirezionale la formula diventa2

2

/2 /2

2

2 2

2

z + z z + z n = =

/ σ

.

Come già sottolineato a proposito del problema della mancata conoscenza della

varianza della popolazione nel caso della determinazione di una dimensione

campionaria in grado di soddisfare un prefissato livello di informatività (cfr. paragrafo

2 Al riguardo si tenga presente l’osservazione sopra riportata nel paragrafo 4.2.1 riguardo al valore da assegnare al p-value nel caso di ipotesi alternative bidirezionali.

Page 39: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

255

3.4) di un intervallo di stima, anche in questo caso, per stabilire la dimensione del

campione si dovrà ricorrere ad una sua stima, che potrà derivare da conoscenze

pregresse o da un’indagine campionaria “pilota”, che sarà, ovviamente, di

dimensione ridotta ed il cui unico scopo è quello di pervenire ad una stima

della varianza incognita 2 .

Il problema della mancata conoscenza della varianza della popolazione non sussiste,

invece, quando si vuol procedere alla determinazione della dimensione campionaria, in

funzione di una prefissata potenza, quando si desidera sottoporre a test ipotesi su una

proporzione (parametro p di una v.c. di Bernoulli) 0 0 : H p p contro l’ipotesi

alternativa 1 1 0 : H p p p ; infatti, in questo caso, la varianza 2 1p p risulta

specificata dalle due ipotesi, per cui, sotto 0 0 : H p p , 0

2

0 0 1H p p , mentre

sotto 1 1 : H p p , 1

2

1 1 1H p p , infatti in questo caso, ricorrendo

all’approssimazione normale, si rifiuta l’ipotesi nulla quando

0 0 0 1 /x

z p p nn

Poiché il vincolo sulla potenza impone il rispetto della relazione

0 0 0 1 / X

P p z p p nn

od anche

1 1 1 0 0 0 1 1 1 / 1 / 1 / / 1 / X

P p p p n p z p p n p p p nn

deve, quindi, essere soddisfatta l’uguaglianza

0 0 0 1 1 1 1 / / 1 / p z p p n p p p n z

da cui

2

0 0 1 1

0 1

1 1.

z p p z p pn

p p

Allo stesso risultato si perviene nel caso in cui l’ipotesi alternativa unidirezionale è

1 1 0 : H p p p ponendo a denominatore del secondo membro dell’uguaglianza la

differenza 1 0p p

4.6 - Confronto tra campioni

Nelle pagine precedenti è stato analizzato il problema della verifica di ipotesi statistiche

sulla scorta di dati concernenti singoli campioni. Più specificamente, si è discusso della

possibilità di utilizzazione dei dati campionari per la determinazione della struttura

Page 40: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

256

generale di una particolare popolazione rappresentata mediante un modello

probabilistico, di forma nota ma caratterizzato da parametri incogniti.

Si procede ora all’esame del problema del confronto tra due campioni, avendo come

fine l'accertamento delle possibilità di una loro attribuzione alla stessa popolazione o a

popolazioni aventi uno o più parametri caratteristici di uguale valore.

Relativamente a due gruppi di osservazioni campionarie, anche se generati da una

stessa popolazione, in cui si riscontra generalmente una qualche differenza, il problema

da risolvere sarà quindi quello di accertare l'eventuale significatività statistica di una

tale differenza. Evidentemente, ogni conclusione favorevole alla significatività di una

differenza comporterà l'attribuzione dei due campioni, cui la differenza si riferisce, a

popolazioni distinte.

Nei punti seguenti le considerazioni saranno limitate in modo quasi esclusivo al

problema del confronto di medie e varianze relative a campioni estratti da popolazioni

normali.

4.6.1 Confronto tra medie

Si supponga di avere a disposizione un gruppo di m osservazioni campionarie casuali

1 2, ,....., mx x x'x relative ad una popolazione normale X di media incognita µx

e

varianza nota 2

xσ ed un secondo gruppo di n osservazioni campionarie casuali

1 2, ,....., ny y y'y relative ad una popolazione normale Y di media incognita µy e

varianza nota 2

yσ . Si supponga, inoltre, che le due v.c. siano indipendenti e di voler

verificare se la differenza eventualmente riscontrata tra le due medie campionarie

y e x sia da attribuire al caso o al fatto che le due medie µx e µ

y, delle popolazioni

che hanno generato i due campioni, sono diverse; si vuole in altri termini decidere per

l'eventuale significatività statistica della differenza riscontrata.

Il problema di cui sopra può essere formalizzato attraverso una specificazione

dell'ipotesi nulla e dell'ipotesi alternativa seguendo la linea di ragionamento descritta

nelle pagine precedenti. Le possibili formulazioni, strettamente legate alla problematica

dell'analisi che si sta conducendo, portano alla considerazione dei tre casi seguenti:

Caso a) H0 : µ

x = µ

y

H1 : µ

x > µ

y

Caso b) H0 : µ

x = µ

y

H1 : µ

x < µ

y

Caso c) H0 : µ

x = µ

y

H1 : µ

x µ

y

Page 41: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

257

La variabile casuale

x - y2 2

x y

X -YZ =

σ / m + σ / n

ha, quando l'ipotesi nulla è vera, legge di distribuzione normale standardizzata. Avendo

individuato la legge di distribuzione di una funzione (quella che interessa) degli

elementi campionari, sarà facile definire la regione critica e quella di accettazione per la

risoluzione dei problemi indicati. Infatti, poiché nell'espressione sopra riportata compare

la differenza tra le due medie campionarie, sarà facile l'estensione di quanto detto a

proposito di una singola media al caso qui considerato.

I valori critici nei tre casi proposti si derivano facilmente dalle relazioni:

Caso a) P ( Z > c / µx = µy ) =

si accetta l'ipotesi H0 se z < c, si rifiuta altrimenti:

Caso b) P ( Z <- c / µx = µy ) =

si accetta l'ipotesi H0 se z > - c, si rifiuta altrimenti;

Caso c) P ( Z < - c / µx = µy ) = /2

si accetta l'ipotesi H0 se - c z c, si rifiuta altrimenti.

Nei tre casi considerati z rappresenta la specifica determinazione della variabile

casuale normale standardizzata Z.

Nelle indagini sperimentali ove i test statistici vengono applicati regolarmente per

lunghi periodi di tempo, non risulta difficile una misura precisa della variabilità dei

risultati; in tali situazioni potrà essere applicata la teoria sopra esposta, ogni qual volta si

voglia procedere ad un confronto fra medie, attraverso un semplice ricorso alle tavole

della distribuzione normale standardizzata. Va rilevato però che sono molto più

frequenti i casi in cui la variabilità risulta essere anch'essa, oltre i valori medi, una

incognita del problema. In tali circostanze si potrà, comunque, ricorrere

all’approssimazione con la distribuzione normale quando la dimensione dei due

campioni è sufficientemente elevata.

Esempio 4.16

Per un campione casuale di 120 studenti dell'università di Firenze si rileva un'età media di

20,2 anni ed una varianza (campionaria corretta) pari a 1,44. Per un campione casuale di 100

studenti dell'università di Roma i valori riscontrati sono invece 21 anni e 2,25. Prefissando una

probabilità di errore di I tipo a livello = 0,05, si vuole verificare statisticamente

l'uguaglianza nell'età media tra gli studenti dei due Atenei.

Se con x si indica l'età media degli studenti dell'Università di Firenze e con y l'età media

degli studenti dell'Università di Roma il problema di test da risolvere è:

H0 :

x =

y

Page 42: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

258

H1 :

x

y

Essendo le dimensioni campionarie sufficientemente elevate si può ritenere accettabile la

congettura che la variabile casuale campionaria

y-x

yx

S

μ - μ - Y-X

dove Y e X sono le due medie campionarie e

2 2

x- y x yS = S / m + S / n

( 2

xS e 2

yS le due varianze campionarie corrette) ha, nell'universo dei campioni, una

distribuzione approssimativamente normale e può pertanto essere utilizzata quale v.c. test.

La regione di accettazione di H0 resta definita dall'intervallo -1,96 – 1,96 mentre la regione

di rifiuto è data dai due intervalli (- , -1,96) e (1,96 , +).

Essendo la determinazione della variabile casuale test sotto l'ipotesi H0 pari a

4,30- 100 / 1,5 120 / 1,2

21-20,2

s

yx

22yx

e quindi non compresa nell'intervallo (-1,96 , 1,96) si rifiuta l'ipotesi formulata di

uguaglianza nell'età media degli studenti dei due Atenei al livello di significatività del 5%.

Esempio 4.17

Un recente rapporto dell'Istituto Italiano di Ricerche sulla Popolazione afferma che l'età

media al matrimonio delle persone che non conseguono il titolo di studio di scuola media

superiore è inferiore a quello di coloro che conseguono tale titolo. Si vuole verificare, al

livello di significatività del 5% ( = 0,05), tale affermazione avendo a disposizione due

campioni casuali di 100 individui delle due categorie ed avendo riscontrato: per coloro che

non posseggono un titolo di scuola media superiore un'età media al matrimonio pari a 22,5

anni e una varianza (campionaria corretta) pari a 1,96, mentre quelli che posseggono il titolo

hanno evidenziato un'età al matrimonio di 23 anni e una varianza (campionaria corretta) pari

a 3,24.

Se con x e y si indica l'età media al matrimonio, rispettivamente, di coloro che non

posseggono il titolo di scuola media superiore e di coloro che lo posseggono, il problema di

test (unidirezionale) da risolvere è

yx1

yx0

μ μ:H

μ μ:H

Essendo la dimensione campionaria sufficientemente elevata, la v.c. campionaria

-

- - - x y

x y

X Y

S

dove X e Y sono le medie campionarie, n / S m / S S 2

y

2

xYX

,

2

xS e 2

yS sono le

due varianze campionarie corrette, ha, nell'universo dei campioni, distribuzione

approssimativamente normale. Pertanto il valore critico - Z = - 1,64 individua la regione

Page 43: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

259

critica nell'intervallo (-1,64 , +), mentre la regione di accettazione è definita da (- , -1,64).

La determinazione empirica della variabile casuale test, quando :0 x yH è vera, è

2 2x - y

x - y -0 22,5 - 23 -0,5z = = = = - 2,18

s 0,2291,4 / 100 + 1,8 / 100

che risulta inferiore a -1,64. Si accetta pertanto l'ipotesi H0 : x y, concludendo che l'età

media al matrimonio di coloro che non hanno conseguito il diploma di scuola media superiore

è più bassa dell'età media al matrimonio di coloro che hanno conseguito il titolo.

Si indichino con X e Y due variabili casuali normali di medie incognite µx e µy

e di varianze pure incognite 2 2 2

x y . Supponendo di disporre di due gruppi di

osservazioni casuali indipendenti sulle variabili X e Y, si possono risolvere i problemi

a), b) e c) trattati al punto precedente facendo ricorso alla variabile casuale t di Student

anziché alla normale standardizzata. Infatti, essendo la varianza comune alle due

popolazioni incognita, si deve sostituire, nella formula precedente, a 2 una sua stima.

Così operando si ottiene la variabile casuale

m+n-2

X -YT = ~ t

S m+n / m n

dove 2S rappresenta la stima di 2 ottenuta combinando opportunamente (media

aritmetica ponderata delle varianze campionarie) le informazioni disponibili. In

particolare si ha

2-nm

S1-n S1-m S

2

y

2

x2

per m e n dimensioni dei due campioni e

2 2 2 2

1 1

1 1( ) ; ( )

-1 -1

m n

x i y i

i i

S x x S y ym n

.

Si controlla facilmente quanto si già avuto modo di sottolineare a proposito degli

intervalli di confidenza, cioè che la variabile casuale T, definita nella relazione sopra

scritta, deriva dal rapporto fra una variabile casuale normale standardizzata e la radice di

una variabile casuale 2χ divisa per i propri gradi di libertà. Tale variabile ha legge di

distribuzione del tipo t di Student con m+n-2 gradi di libertà, poiché le due variabili

poste a rapporto sono indipendenti.

I valori critici c per i tre casi a), b) e c), considerati al punto precedente, derivano

dalle relazioni

Caso a) P (T > c / µx = µy) =

si accetta l'ipotesi H0 se t < c, si rifiuta altrimenti;

Caso b) P (T < - c / µx = µy) =

Page 44: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

260

si accetta l'ipotesi H0 se t - c, si rifiuta altrimenti;

Caso c) P (T < - c / µx µy) = /2

si accetta l'ipotesi H0 se - c t < c, si rifiuta altrimenti.

Dopo aver individuato il valore critico c, mediante l'uso delle tavole della

distribuzione t, relativamente al caso che interessa (uno dei tre sopra considerati), si

porrà a confronto tale valore critico con la determinazione campionaria specifica t

della variabile casuale T.

Esempio 4.18

Si consideri la seguente tabella dove vengono riportati i risultati relativi a campioni di

osservazioni su due diverse famiglie di mycelio fungino della stessa specie.

Famiglia A Famiglia B

246,3 246,2

239,2 247,1

257,3 244,9

Tab. 4.4 - Peso secco in mg. di mycelio fungino relativo a due famiglie appartenenti alla

stessa specie

Relativamente al fenomeno che si sta analizzando si può ipotizzare ragionevolmente la

normalità delle distribuzioni del peso e, trattandosi di funghi della stessa specie, anche

un'uguale variabilità dei risultati in corrispondenza delle due famiglie; in tal caso ci si trova

ad operare su due campioni di dimensione m = n = 3 estratti da popolazioni normali di uguale

varianza (incognita).

Si supponga di voler verificare statisticamente l'ipotesi (di uguaglianza) fra il peso medio, µx,

dei funghi appartenenti alla famiglia A ed il peso medio µy, dei funghi appartenenti alla

famiglia B) Ho : µx = µy contro l'ipotesi alternativa H1 : µx µy al livello di significatività

= 0,05. La procedura di test da applicare dovrà essere quindi di tipo bidirezionale.

Per quanto detto sopra, il valore critico c (c > 0), suddividerà lo spazio campionario (- —

+) relativo alla variabile casuale test T di riferimento, in una zona di accettazione costituita

dall'intervallo (- c , c) e in una zona di rifiuto costituita dagli intervalli (( - ,- c) , (c ,+)).

Sulle tavole della distribuzione t di Student, in corrispondenza a 4 gradi di libertà, si

individua il valore c che soddisfa la relazione

P (T < - c/µx = µy) = 0,025

che risulta essere 2,78. Tale valore critico c = 2,78 dovrà essere posto a confronto con la

determinazione specifica della variabile casuale T.

Dalle informazioni campionarie derivano i seguenti valori

x = 247,6 , y = 246,1, 1,22s , 83,17s 2

y

2

x

Page 45: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

261

e quindi S2 = 42,195 . La derivazione specifica della variabile casuale T sarà pertanto

0,28285,3038

1,5

3/242,195

246,1247,6t

poiché

t = 0,28 < c = 2,78

l'ipotesi nulla H0 : µx = µy non viene rifiutata al livello di significatività del 5% ricadendo la

determinazione t di T nell'intervallo (- c , c). Tale fatto, comporta sostanzialmente

l'accettazione dell'ipotesi che i due campioni provengano da una stessa popolazione, ed una

attribuzione delle differenze campionarie riscontrate a fattori aventi carattere puramente

accidentale.

Nell'esempio specifico, potrebbe interessare una diversa ipotesi alternativa; ad esempio

l'ipotesi che il peso medio dei funghi appartenenti alla famiglia A sia più elevato del peso

medio dei funghi appartenenti alla famiglia B (H1: µx > µy). In tale eventualità, allo stesso

livello = 0,05 di significatività, risulta un valore critico c = 2,13 che comporta come nel

caso di ipotesi alternativa bidirezionale, una accettazione dell'ipotesi nulla H0 : µx = µy..

Esempio 4.19

Si supponga di dover decidere sulla durata di due diverse marche di lampadine di ugual prezzo

avendo verificato la durata di 100 lampadine di ciascuna marca e riscontrato i seguenti valori

campionari: medie campionarie x = 1.180, y = 1.160, varianze campionarie corrette 2

xs =

14.400, 2s y = 1.600. La decisione deve essere presa al livello di significatività = 0,05.

Il problema decisionale può essere impostato nei seguenti termini

yx0 μ μ : H

yx1 μ μ : H

o, in modo equivalente

0 μ μ : H yx0

0 μ μ : H yx1

dove xμ e yμ rappresentano la durata media delle lampadine, rispettivamente, della prima

e della seconda marca.

Per risolvere il problema di test d'ipotesi si può fare riferimento alla distribuzione normale

essendo sufficientemente elevata la dimensione campionaria. La differenza tra le due medie

campionarie YX avrà, pertanto, nell'universo dei campioni, una distribuzione

approssimativamente normale con media x y e varianza

n / σ m / σ σ 2

y

2

x

2

yx

Al livello di significatività = 0,05 , i valori critici che individuano la regione di accettazione

sono 1,96- z- c 2α/1 e 1,96 z c 2α/2 . Inoltre, sotto l'ipotesi nulla H0 il valore

campionario assunto dalla variabile casuale test è pari a

Page 46: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

262

1,58

100/160014400

11601180z

Essendo il valore 1,58 incluso nell'intervallo (- 1,96 , 1,96) si accetta l'ipotesi di uguale durata

delle due diverse marche di lampadine, attribuendo a fattori accidentali la differenza di durata

riscontrata nei due campioni.

4.6.2 Confronto tra proporzioni (probabilità)

Capita spesso di dover affrontare situazioni in cui interessa accertare se la proporzione

di individui o oggetti in due popolazioni distinte siano uguali o diverse. La percentuale

degli elettori che voterà per il PD alla prossima consultazione elettorale sarà la stessa in

Toscana e in Emilia Romagna? la percentuale dei bambini vaccinati che contrae la

poliomielite è inferiore a quella dei bambini non vaccinati? ecc.. Per poter rispondere a

tali quesiti si effettua una rilevazione campionaria in ciascuna delle popolazioni di

interesse (elettori emiliani ed elettori toscani, bambini vaccinati e bambini non

vaccinati, ecc.) e le proporzioni riscontrate nei campioni vengono poste a confronto.

Le osservazioni campionarie sono variabili di tipo bernoulliano potendo assumere

soltanto i valori 0 (non vota per il PD) ed 1 (vota per il PD). Nella prima popolazione

gli indici caratteristici sono xx p μ e xx

2

x qp σ , mentre nella seconda popolazione

si ha yy p μ e yy

2

y qp σ , dove, naturalmente, px è la probabilità di successo

(voterà per il PD, non contrarrà la poliomielite, ecc.) nella prima popolazione e py la

probabilità di successo nella seconda popolazione.

L'ipotesi nulla può assumere la forma

yx0 p p : H

contro l'ipotesi alternativa

yx1 p p : H (ipotesi bidirezionale)

od anche

p : H x1 yp

(ipotesi unidirezionali)

p : H x1 yp

Se si suppone di disporre, rispettivamente, di m rilevazioni campionarie dalla prima

popolazione e n dalla seconda popolazione, la variabile casuale campionaria yx p̂p̂ ,

cioè la differenza tra le proporzioni riscontrate nei due campioni indipendenti avrà

nell'universo dei campioni distribuzione di tipo binomiale con media yx pp e

varianza n / qp m / qp n / m / yyxxyx 22 .

Sotto l'ipotesi nulla p p p : H yx 0 , cioè se l'ipotesi nulla è vera, la variabile

casuale differenza tra proporzioni campionarie avrà media nulla e varianza

Page 47: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

263

/n1 /m1 qp σ 2

p̂p̂ yx .

Se la dimensione di due campioni è sufficientemente elevata la distribuzione

binomiale può essere approssimata dalla distribuzione normale. Pertanto, sotto l'ipotesi

nulla p p p : H yx 0 , la variabile casuale campionaria

ˆ ˆ

ˆ ˆ

ˆˆ 1 / 1 / x y

x y

p p

P PZ

P Q m n

dove, ˆ / P a b m n , ˆ ˆQ 1-P ed a e b rappresentano il numero di

successi, rispettivamente, nel primo e nel secondo campione, ha una distribuzione

normale standardizzata.

La procedura di test da adottare è quella illustrata in precedenza, quando si è fatto

riferimento al problema del confronto tra medie per popolazioni normali con identica

varianza incognita. Da sottolineare che in questo caso non si utilizza la distribuzione t

di Student essendo, per assunzione, elevate le dimensioni campionarie.

Esempio 4.20

Effettuata un'indagine di mercato riguardo al gradimento di un nuovo prodotto, due differenti

gruppi sociali si sono espressi, rispettivamente, a favore nel 45% e nel 55% dei casi.

Avendo inoltre accertato una variabilità nelle risposte (misurata attraverso lo scostamento

quadratico medio corretto) pari, rispettivamente 0,04 e 0,03 e sapendo che i due gruppi

costituenti il campione degli intervistati sono molto numerosi, si vuole verificare

statisticamente, al livello di significatività del 10%, l'ipotesi che la percentuale di soggetti

favorevole al nuovo prodotto è più elevata nel secondo gruppo rispetto a quelle del primo

gruppo.

Se con xp e yp si indicano le due percentuali di soggetti favorevoli al nuovo prodotto nel

primo e nel secondo gruppo, il problema di test d'ipotesi è

yx0 p p : H

p : H x1 yp

od anche

0 p p : H xy0

: 1 y xH p p 0

Indicando con xp̂ e yp̂ le percentuali che hanno espresso il loro gradimento del nuovo

prodotto, nel primo e nel secondo gruppo sociale, con 2

2

2

p̂p̂ yxxy S S σ̂ la varianza

stimata della v.c. differenza, e con 2

p̂xS ,

2

p̂yS le varianze campionarie corrette riscontrate nei

due campioni, tenendo inoltre presente le elevate dimensioni campionarie, la variabile casuale

ˆ ˆ

ˆ ˆ -

ˆy x

y x y x

P P

P P p p

Page 48: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

264

ha, nell'universo dei campioni, distribuzione approssimativamente normale (standardizzata) e

può essere, pertanto, assunta quale v.c. test di riferimento.

Al livello di significatività = 0,1 il valore critico del test (unidirezionale) è

z = 1,28, pertanto la regione critica resta individuata dall'intervallo (1,28 , +) mentre la

regione di accettazione è data dall'intervallo ( - , 1,28).

Poiché, sotto l'ipotesi nulla H0 , la determinazione campionaria delle v.c. test è

2 0,03 0,04

0,45-0,55

σ̂

p̂p̂

22p̂p̂

xy

xy

1,28

si rifiuta l'ipotesi formulata concludendo che la percentuale di coloro che esprimono

gradimento del nuovo prodotto è superiore nel secondo gruppo sociale rispetto al primo

gruppo.

Esempio 4.21

Ad un campione di 325 studenti di sesso maschile e di 200 di sesso femminile è stato chiesto di

esprimersi riguardo all'efficacia di un nuovo ausilio didattico. Tra i maschi 221 si sono

espressi favorevolmente mentre sono state 120 le femmine che hanno espresso parere

favorevole. I risultati campionari evidenziano una differenza significativa tra maschi e

femmine riguardo al loro atteggiamento nei confronti della efficacia del nuovo ausilio

didattico?

Si vuole risolvere il problema per = 0,05. Il problema di test delle ipotesi assume la forma

yx0 p p : H

p : H x1 yp

o, in modo equivalente

0 p p : H yx0

p p : H xy1 0

dove xp e yp rappresentano, rispettivamente, la proporzione di maschi e di femmine

favorevoli al nuovo ausilio didattico; ovviamente i valori si riferiscono all'intera popolazione.

La variabile casuale campionaria

ˆ ˆ

ˆ ˆ -

ˆy x

y x y x

P P

P P p p

dove ˆxP , e

ˆyP sono le proporzioni di soggetti favorevoli, riscontrabili nei due campioni, ha,

nell'universo dei campioni, una distribuzione approssimativamente normale con media 0 e

varianza 1 (normale standardizzata).

Al livello di significatività del 5% i valori che definiscono la regione critica sono;

1,96- z- c 2α/1 e 1,96 z c 2α/2 . Poiché 0,68 325 / 221 p̂x e

0,60 200 / 120 p̂ y si ha 0,043 200 / 0,400,60 325 / 0,320,68 ˆyx p̂p̂

e quindi sotto l'ipotesi nulla yx0 p p : H , 1,86 0,043 / 0 0,60 - 0,68 z .

Page 49: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

265

Essendo il valore campionario 1,86 contenuto nell'intervallo (-1,96 , 1,96) si accetta l'ipotesi

nulla di uguaglianza tra le due proporzioni nelle popolazioni attribuendo alla differenza

riscontrata nei campioni natura accidentale.

4.6.3 Confronto tra varianze

Una logica estensione di quanto sopra detto è l'analisi del problema relativo al confronto

tra varianze di popolazioni normali con medie incognite.

Si ammetta di poter disporre di due campioni di osservazioni indipendenti, il primo

1 2, ,...., mx x xx' , relativo alla variabile casuale normale X di media xμ incognita e

varianza 2

xσ ; il secondo, 1 2, ,...., ny y yy' relativo alla variabile casuale normale Y

di media incognita yμ e varianza 2

y .

La variabile casuale espressa dal rapporto tra due variabili casuali indipendenti del

tipo divise per i rispettivi gradi di libertà

2

2

1, 1 2

2

1 / -1

1

/ -1

x

xm n

y

y

m Sm

Fn S

n

dove 22

1

1 m

x i

i

S X Xm -1

e 22

1

1

1

n

y i

i

S Y Yn

, ha nell'universo dei campioni

legge di distribuzione del tipo F con (m - 1) e (n - 1) gradi di libertà. Inoltre, se

l'ipotesi 2

y

2

x0 σ σ : H è vera si ha

2

2 2

1, 12 2

2

-1 / -1

-1 / -1

x

x xm n

y y

y

m S m

SF

n S n S

.

Se si vuole quindi risolvere il problema espresso dalle ipotesi 2 2

0 : x yH

2

x1 σ : H 2

basterà fissare il livello di significatività , e determinare poi il valore critico c che

bipartisce l'intervallo (0 ,+ ) (si ricordi che la variabile casuale F è definita in tale

intervallo) in modo che sia

σ σ / c F P 2

y

2

x

Si accetta l'ipotesi nulla 2 2

0 : x yH se la determinazione 2

x

2

y

s

fs

della variabile

Page 50: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

266

casuale 2

2 x

y

SF

S , relativa al campione specifico, risulta inferiore al valore critico, si

rifiuta altrimenti.

Esempio 4.22

Un campione di 20 ragazzi e di 15 ragazze è stato sottoposto a una prova d'esame. La

votazione media dei ragazzi è stata 78/100, mentre quella delle ragazze è stata 84/100; la

variabilità dei risultati, misurata dallo scostamento quadratico medio corretto, è stata,

rispettivamente, pari a 6/100 per i ragazzi e 8/100 per le ragazze. Si vuol sottoporre a test

l'ipotesi di uguaglianza delle varianze 2

xσ e 2

yσ nelle due popolazioni contro l'ipotesi

alternativa 2

xσ < 2

yσ , al livello di significatività = 0,05, presupponendo la normalità delle

due distribuzioni.

Il problema di test d'ipotesi può essere formulato nei seguenti termini 22

0 yx:H

2

1 xH 2

Poiché le variabili casuali

2

x

2

x

S (m -1)

σ e

2

y

2

y

S (n -1)

σ

dove m ed n rappresentano le dimensioni campionarie, 2

xS e 2

yS le varianze campionarie

corrette, hanno nell'universo dei campioni distribuzione del tipo 2 con, rispettivamente,(m - 1)

ed (n - 1) gradi di libertà ed essendo i due campioni indipendenti, la variabile casuale

22

1, 1 2 2

2

x

2yxx

m n 2

y y x

2

y

m - 1 S / m - 1

SσF

n - 1 S S/ n - 1

σ

è distribuita secondo una F di Fisher-Snedecor con (m-1) e (n-1) gradi di libertà. Sotto

l'ipotesi nulla 22

0 yx:H , cioè quando l'ipotesi nulla è vera, la variabile casuale diventa

2

y

2

x

S

S F

Il valore critico che definisce la zona di accettazione al livello = 0,05 di significatività è

1, 1;

, ;

1 1m n

n m

c F = F 2,26

, che rappresenta la particolare determinazione della

variabile casuale F, con 15-1 = 14 e 20-1 = 19 gradi di libertà e che ha alla sua destra il

5% dei casi.

Essendo il valore campionario

1,78 6

8 F

2

2

Page 51: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

267

inferiore al valore critico 2,26 si accetta l'ipotesi di uguale varianza attribuendo a fattori

accidentali la differenza riscontrata nel campione.

Esempio 4.23

Lo scostamento quadratico medio dello spessore di una particolare lamina metallica già in

commercio è sufficientemente ridotto, il che consente un suo facile utilizzo nella fase di

assemblaggio della componente stessa. Un nuovo produttore di lamine metalliche afferma che

il suo prodotto, offerto ad un prezzo inferiore, presenta una variabilità dimensionale non

superiore a quello già presente nel mercato.

Due campioni casuali di 100 lamine dei due prodotti vengono sottoposti a misurazione

evidenziando i seguenti risultati

0,041 99 /xx S100

1i

2

i

2

x

per il prodotto X già presente sul mercato,

580,0 99 /yy S100

1i

2

i

2

y

per il nuovo prodotto Y.

Si chiede se risulta conveniente procedere all'acquisto del nuovo prodotto al livello di

significatività del 5%.

Le ipotesi per il problema sono 2

y

2

x0 :H σσ

2

x1 σ :H 2

La variabile casuale test di riferimento

22

2 2

2

x

2yx x

2

y y x

2

y

m -1 S / m -1

σ S

n -1 S S/ n -1

σ

ha, nell'universo dei campioni una distribuzione del tipo F di Fisher-Snedecor con

(m - 1) e (n - 1) gradi di libertà.

Nel caso specifico, e sotto l'ipotesi H0 (cioè quando l'ipotesi nulla all’estremo dell’intervallo di

definizione 2

y

2

x0 :H σσ è vera), si ha il valore critico c = 1,39.

La regola di decisione è quella di rifiutare l'ipotesi H0 se l'F empirico è superiore a 1,39

mentre di accettare l'ipotesi se l'F empirico è inferiore a 1,39.

Essendo 0,7069 0,058

0,041 F 1,39 si accetta l'ipotesi H

0 concludendo che, avendo una

probabilità di sbagliare del 5%, la variabilità nello spessore delle nuove lamine non è

inferiore o uguale a quello delle vecchie lamine e non si procede al cambiamento del fornitore.

Page 52: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

268

4.6.4 Confronto per dati appaiati

Nelle pagine precedenti è stato considerato il problema del confronto fra due campioni

nell'ipotesi di indipendenza assoluta tra gli elementi che li compongono; nel lavoro di

ricerca può accadere però di dover analizzare situazioni nelle quali una tale condizione

non risulta completamente soddisfatta. Può accadere cioè che tra le osservazioni,

relative ai due campioni che devono essere sottoposti a confronto, esista una qualche

relazione in modo tale da rendere possibile un confronto diretto fra ogni osservazione di

un campione con la controparte del secondo campione. Un esempio classico è

rappresentato dal caso in cui le coppie di osservazioni siano relative ad una stessa unità

statistica (la stessa unità sperimentale prima della cura e dopo la cura, il fatturato di una

stessa azienda prima e dopo una specifica campagna pubblicitaria, ecc.), anche se vanno

naturalmente riferite, almeno a priori, a due differenti popolazioni.

Si indichi con ( Xi ,Yi ) l'i-esimo elemento di un insieme costituito da n coppie di

osservazioni, e si assuma che la differenza Vi = Xi - Yi (i = 1, 2,...,n) rappresenti

un'unità campionaria casuale relativa ad una popolazione normale di media v e

varianza 2

v . Allora la variabile casuale

1 ~ /

n

v

v tnS

VT

2 2

1 1

1: ( ) /( 1)

n n

i v i

i i

dove V V X Y e S V V nn

ha, nell'universo dei campioni, una distribuzione del tipo t di Student con n-1 gradi di

libertà.

Utilizzando la variabile casuale test T espressa nella formula sopra scritta sarà

possibile sottoporre a test l'ipotesi 0 μ : H v 0 , contro un'ipotesi alternativa

bidirezionale o unidirezionale, seguendo di pari passo la procedura esposta al punto

precedente.

Esempio 4.24

Si supponga di voler confrontare due diversi metodi di misura della percentuale di amido

presente in un particolare tipo di patate. Si fissa a tal fine un livello di significatività = 0,05

e si effettuano le due misurazioni su sedici patate. I risultati dell’operazione di misura, e le

differenze riscontrate in ciascuna patata, sono riportati nella tabella che segue

Page 53: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

269

n.progressivo

Percentuale di amido

Differenze Metodo di mis A

(x)

Metodo di mis B

(y)

1 21,7 21,5 0,2

2 18,7 18,7 0,0

3 18,3 18,3 0,0

4 17,5 17,4 0,1

5 18,5 18,3 0,2

6 15,6 15,4 0,2

7 17,0 16,7 0,3

8 16,6 16,9 -0,3

9 14,0 13,9 0,1

10 17,2 17,0 0,2

11 21,7 21,4 0,3

12 18,6 18,6 0,0

13 17,9 18,0 -0,1

14 17,7 17,0 0,1

15 18,3 18,5 -0,2

16 15,6 15,5 0,1

Tab. 4.5 - Percentuale di amido presente in 16 patate

Dai dati della tabella si ottiene

0,17 s; 0,075v v

ne risulterà pertanto una determinazione campionaria della variabile casuale T pari a

0,075×4t = = 1,7

0,17

Se interessa sottoporre a test l'ipotesi nulla 0 μ : H v 0 contro l'ipotesi alternativa

0 μ : H v1 (che sono equivalenti a H0 : µx = µy e H

1 : µx µy), si deve ricercare il

valore critico c che soddisfa la relazione

P ( -c T c) = 0,95

Dalle tavole della distribuzione t di Student, in corrispondenza a 15 gradi di libertà e per=

0,05, risulta

c = 2,131

Essendo t = 1,7 < c = 2,131, si deve accettare la ipotesi di uguaglianza tra i due metodi di

misura della percentuale di amido nelle patate.

Esempio 4.25

I corsi per la lettura veloce dei testi sono ormai abbastanza popolari e diffusi. Si supponga che

una particolare azienda di fornitura di servizi abbia fatto partecipare dieci suoi dipendenti,

scelti casualmente, ai suddetti corsi e che abbia registrato i seguenti risultati

Page 54: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

270

Impiegato Valutazione capacità di lettura dopo

il corso

Valutazione capacità di lettura

prima del corso

1 221 211

2 231 216

3 203 191

4 216 224

5 207 201

6 203 178

7 201 188

8 179 159

9 179 177

10 211 197

La valutazione della capacità di lettura risulta da una combinazione della velocità e della

comprensione del testo letto. Cosa si può concludere riguardo all'efficacia del corso?

La valutazione delle capacità di lettura è stata effettuata sugli stessi individui prima e dopo la

partecipazione al corso, si tratta perciò di dati appaiati del tipo (xi , y

i ), dove y

i rappresenta

la valutazione dopo la partecipazione al corso mentre xi la valutazione prima della

partecipazione. Se si indicano con x e y le valutazioni medie teoriche relative alle due

situazioni (prima e dopo il corso) configurate, il problema di verifica d'ipotesi ha la seguente

formulazione

yx0 μ μ : H

x1 μ : H yμ

o anche, ponendo v x y= μ - μ nella formulazione

0 x y vH : μ - μ = = 0

1 x y vH : μ - μ = > 0

la variabile casuale test da utilizzare è

1 ~ /

n

v

v tnS

VT

dove n

i i

i=1

1V = (Y - X )

n

n

2

v i i

i=1

1S = Y - X -V

n -1

che, nell'universo dei campioni, ha distribuzione t di Student con n-1 gradi di libertà.

Sotto l'ipotesi H0, per 10-1 = 9 gradi di libertà e al livello di significatività

= 0,01, il punto critico (test unidirezionale) è t = 2,82. La regola di decisione è quello di

rifiutare l'ipotesi H0

se il t empirico è 2,82 accettare l'ipotesi se il t empirico è inferiore a

Page 55: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

271

2,82. Poiché vv = 10,9;s = 9,28 il t empirico

v

v 10,9t = = = 3,715

s / 10 9,28/ 10

è maggiore di 2,82 ,si rifiuta, pertanto, l'ipotesi d'uguaglianza con una probabilità d'errore

dell’1%. Si rifiuta cioè l'ipotesi che la partecipazione al corso non abbia influenza sulla

capacità di lettura degli individui che ne fruiscono.

Si deve sottolineare che per la risoluzione dei problemi di confronto considerati nei

due esempi precedenti si poteva fare riferimento, presupponendo l'indipendenza dei due

campioni, alla variabile casuale test T; in tal caso la stima della varianza incognita 2

22

y

2

x σ σ σ si poteva ottenere, come abbiamo visto, attraverso una combinazione

delle stime calcolate sui singoli campioni. Si deve, però, osservare che il test t applicato

alle coppie di osservazioni, presenta il vantaggio d'eliminare l'influenza di fattori

estranei in quanto essi, avendo lo stesso effetto su ciascuna unità campionaria,

verrebbero a compensarsi nelle differenze vi. Va inoltre detto che la procedura di test

basata sulla singola osservazione (dati non appaiati), parte dall'assunto che i dati

campionari derivino da popolazioni indipendenti con identica varianza mentre la

procedura di test sopra esposta non richiede il soddisfacimento della condizione di

uguaglianza delle varianze delle due popolazioni e non richiede l’indipendenza.

Nel caso in cui sia soddisfatta la condizione 2 2 2 x y e si abbia ragione di

ritenere che i risultati sperimentali non siano influenzati da fattori estranei (campioni

indipendenti), è da preferire la procedura di test esposta al punto precedente. Infatti, con

una tale procedura si opera disponendo di (2n-2) gradi di libertà, il che implica una

potenza del test, rispetto alla potenza del test per dati appaiati, che è basato su

(n-1) gradi di libertà, tanto più elevata quanto più piccola è la dimensione del campione.

4.6.5 Determinazione della dimensione campionaria

Così come per il caso di campioni estratti da una sola popolazione, anche quando si

affronta il problema del confronto tra campioni estratti da due diverse popolazioni, si

può aver interesse nell'introdurre un vincolo sul livello 1H della potenza del test

per un prefissato livello di significatività.

Si supponga, ad esempio, che in riferimento a popolazioni normali una differenza

10 μμ yx sia rilevante e che si vuole essere relativamente sicuri nell'individuare

una tale differenza. In termini tecnici tale obiettivo si traduce nell’individuazione di un

test con potenza sufficientemente elevata.

Se si fissano i livelli = 0,05 e = 0,70, il problema sopra posto può essere risolto

formulando l'ipotesi nulla

Page 56: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

272

0 : H yx0

contro l'ipotesi alternativa

μ μ : H yx1 10

La variabile casuale test

n / σ m / σ

μμ - YX

σ

μμ - YX

2

y

2

x

yx

y-x

yx

dove 2

xσ e 2

yσ sono le varianze delle due popolazioni m e n le dimensioni

campionarie sotto l'ipotesi nulla 0 : H yx0 ed al livello di significatività

= 0,05 deve soddisfare la relazione

0,05 1,645 Y-X

Py-x

ed anche

0,05 1,645 Y-X P y-x

Il vincolo sulla potenza si traduce nella relazione

0,70 10 - 1,645

10 - Y-X

Py-x

y-x

y-x

Sapendo che il valore della variabile casuale normale standardizzata Z che ha alla

sua destra il 70% dei casi è pari a - 0,524 si avrà

x-y1,645 - 10 / -0,524

ed anche

222

y

2

x

2

yx 0,524 1,645 / 10 n / σ m / σ

dal quale si possono ricavare i valori di m fissando n o, alternativamente, i valori di n

fissando m od anche, se si ipotizza pari dimensione r = m = n i valori di r che

soddisfano il vincolo sulla potenza.

Se, ad esempio, si suppone che 12 σ σ 2

y

2

x e che la dimensione campionaria

relativa alla prima popolazione sia m = 7, la dimensione n del secondo campione, al

livello = 0,05 di significatività e con potenza = 0,70 è data dalla relazione

2144 / 7 + 144 / n 100 / 1,645 + 0,524 ≤

che fornisce

n 210.≥ Per = 0,05 e = 0,70 e 12 σ σ 2

y

2

x , la dimensione campionaria r per ciascun

campione si ottiene dalla relazione

2144 / v + 144 / r 100 / 1,645 + 0,524 ≤

che da

Page 57: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 4 –Test delle ipotesi

273

r = m= n 13,549.≥ Si sottolinea che la parità nella dimensione dei due campioni, non solo non richiede

la specifica preliminare della dimensione di uno dei due campioni, che può anche

risultare più che ragionevole in certe situazioni di ricerca (dimensione campionaria

necessariamente ridotta per ragioni di costo o altra natura) la dimensione campionaria

complessiva pari m+n=28 che soddisfa il vincolo sulla potenza è nettamente inferiore a

quella necessaria quando si fissa la dimensione di uno dei due campioni a livello molto

contenuto come nel caso sopra considerato (m = 7). Per contro, se ad es. si fissa m=12,

a parità delle altre condizioni, il valore di n che deriva dalla relazione

2144 / 12 + 144 / n 100 / 1,645 + 0,524 ≤

deve soddisfare la disuguaglianza

n 15,558.≥

Esempio 4.26

Per effettuare una verifica dell'effetto di un vaccino contro la poliomielite si deve pianificare la

rilevazione (dimensionare il campione) in modo da ottenere risultati significativi sia in termini

di probabilità dell'errore di I tipo sia, per le ovvie e rilevanti conseguenze, in termini di

probabilità dell'errore di II tipo.

Vista la scarsa diffusione della malattia, ci si deve aspettare una dimensione campionaria

molto elevata sia nei confronti dei soggetti vaccinati che di quelli non vaccinati.

Supponendo che la proporzione di bambini colpiti da poliomielite sia di 30 su 100.000 (cioè

0,0003), e che il vaccino sia effettivo al 50%, il che implica una riduzione del tasso al valore

0,00015, appare ragionevole imporre la condizione di aver un'elevata probabilità, ad es. pari a

0,90 (= = 1-), di evidenziare una tale differenza.

Imponendo l'uguaglianza delle due dimensioni campionarie m = n si ottiene la seguente

particolarizzazione della formula sopra introdotta

2

2

x x y y

x y

p q p q z zm n

p p

dove z e z sono le convenienti determinazioni della variabile casuale normale

standardizzata ottenuta in funzione dei prefissati livelli delle probabilità di errore e .

Se si assume, quindi, xp = 0,00015, yp = 0,0003, = 0,05 e = 0,10, si avrà

2

2

0,00015× 1 - 0,00015 + 0,003× 1- 0,0003 1,6450 + 1,282 n = 171,400.

0,00015 - 0,0003

Page 58: CAP. 4 TEST delle IPOTESI · 2017-09-11 · B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 4 –Test delle ipotesi 218 Se l'ipotesi, usualmente indicata con il simbolo H 0

274