CORSO DI LAUREA IN ECONOMIA AZIENDALEionina.altervista.org/pdf/cap7_2000.pdf · CORSO DI LAUREA IN...

64

Transcript of CORSO DI LAUREA IN ECONOMIA AZIENDALEionina.altervista.org/pdf/cap7_2000.pdf · CORSO DI LAUREA IN...

CORSO DI LAUREA IN ECONOMIA AZIENDALEMetodi Statistici per le decisioni d’impresa (Note didattiche)

Bruno Chiandotto

1

7. Teoria del test delle ipotesi

In questo capitolo si affronta il problema della verifica d’ipotesi statistiche

limitando sostanzialmente la trattazione alla cosiddetta teoria classica del test delle

ipotesi parametriche e facendo, soprattutto, riferimento a campioni estratti da

popolazioni normali; comunque, la portata generale dei principi enunciati e la logica

delle argomentazioni svolte rimangono immutate anche se si fa riferimento a campioni

estratti da popolazioni non normali.

Argomentazioni diverse devono essere svolte sia nei riguardi della impostazione

bayesiana della teoria del test delle ipotesi sia nei riguardi della teoria dei test non

parametrici; aspetti questi che non vengono qui trattati.

E' stato sottolineato in precedenza che la teoria dell'inferenza statistica riguarda

principalmente due specifici argomenti: la stima ed il test delle ipotesi. In entrambi i

casi si tratta di valutare aspetti incogniti, concernenti una determinata popolazione, sulla

scorta delle risultanze campionarie.

Il problema della stima e quello del test delle ipotesi, anche se simili, vanno

comunque tenuti distinti in quanto coinvolgono problematiche diverse. Infatti, come già

detto, nel primo caso l'evidenza campionaria, eventualmente integrata da conoscenze a

priori, viene utilizzata per stimare un'entità incognita relativa ad una certa popolazione;

nel secondo caso, l'evidenza campionaria, eventualmente integrata da conoscenze a

priori, viene utilizzata per verificare statisticamente la validità di una certa assunzione

(ipotesi) concernente una specifica entità incognita.

La rilevanza del problema della verifica di ipotesi statistiche è facilmente

intuibile se si pensa che dall'operazione di verifica scaturisce, nella generalità dei casi,

l'accettazione o il rifiuto dell'ipotesi formulata. A conferma di un tale fatto, vanno consi-

derati soprattutto i problemi di decisione nei quali all'accettazione o al rifiuto di una

certa ipotesi è collegata la scelta di una particolare linea di comportamento.

Definizione 1: Un'ipotesi statistica è un'affermazione che specifica parzialmente o

completamente la legge di distribuzione della probabilità di una

variabile casuale. L'affermazione può riferirsi sia alla forma funzionale

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

2

della legge di distribuzione che ai parametri caratteristici o ai soli

parametri caratteristici quando si assuma nota la forma analitica della

distribuzione stessa.

Se l'ipotesi, usualmente indicata con il simbolo H0 e detta ipotesi nulla o ipotesi

zero (ipotesi di lavoro), specifica completamente la legge di distribuzione della

variabile casuale, si dice semplice, nel caso opposto l’ipotesi viene detta composita o

composta. Inoltre, se l'ipotesi riguarda i parametri caratteristici di una particolare

distribuzione di cui si conosce la forma analitica si parla di ipotesi parametrica; si dice

invece non parametrica (o più correttamente distribution free), l'ipotesi statistica che

non presuppone nota tale forma. Ovviamente l'ipotesi non parametrica, come

generalmente accade, può riguardare sia la forma analitica della distribuzione sia i

parametri che la caratterizzano.

Ad esempio se si ipotizza che l'altezza degli italiani adulti di sesso maschile si

distribuisce in modo (approssimativamente) normale con media pari a 1,70 metri e

scostamento quadratico medio pari a 0,28 metri. Si sta trattando di una ipotesi statistica

semplice (specifica completamente la legge di distribuzione del fenomeno) non

parametrica (l'ipotesi riguarda anche la forma della distribuzione). Se invece si dà per

acquisito il fatto che l'altezza degli italiani adulti di sesso maschile si distribuisce in

modo (approssimativamente) normale, l'ipotesi statistica potrà riguardare i soli

parametri caratteristici media µ e varianza σ2 (o lo scostamento quadratico medio

σ ). L'ipotesi sarà semplice, se specifica un preciso valore numerico per i due parametri,

ad esempio: l'altezza media è pari a 1,70 metri; sarà invece composita se specifica un

insieme di valori, ad esempio: l'altezza media degli italiani adulti di sesso maschile è

compresa nell'intervallo 1,68 – 1,72 metri.

Definizione 2: Un test di ipotesi (statistica) è una regola attraverso la quale si decide

se accettare o meno l'ipotesi formulata sulla base delle risultanze

campionarie. Tali dati si riferiscono naturalmente alla variabile casuale

sulla cui legge di distribuzione è stata formulata l'ipotesi.

Se si indica con C l'universo dei campioni o spazio dei campioni, cioè

l'insieme di tutti i possibili risultati campionari, un test delle ipotesi consiste nel

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

3

bipartire l'insieme C in due sottoinsiemi disgiunti C0 e C1 = C – C1 in modo tale che si

decide di rifiutare l'ipotesi H0 se il punto campionario cade in C1, di accettare l'ipotesi se

il punto campionario cade in C0.

Lo spazio C1 di rifiuto di un'ipotesi viene usualmente detto regione critica,

mentre si dice regione di accettazione lo spazio C0.

Fig. 1 - Bipartizione dell'universo dei campioni

Si è parlato di un test statistico e non del test statistico, in quanto si intuisce

facilmente come la bipartizione dell'universo dei campioni, e cioè la definizione della

regione critica, possa essere effettuata secondo criteri o regole differenti che non

conducono necessariamente agli stessi risultati. Due differenti test, e cioè due modi

diversi di bipartizione dell'universo dei campioni, possono essere posti a confronto

attraverso un'analisi del processo logico seguito nella loro formulazione, o più

semplicemente, sempre che sia possibile, confrontando le probabilità che si hanno di

commettere degli errori adottando l'una o l'altra procedura per sottoporre a test una

stessa ipotesi.

Nell'accettare o rifiutare, sulla scorta dell'evidenza campionaria, una determinata

ipotesi nulla, si può agire correttamente, e cioè accettare un'ipotesi vera o rifiutare

un'ipotesi falsa, oppure si possono commettere errori aventi diversa natura:

C1 = Regione o spazio di rifiuto di H0

( Regione critica )

C0 = Regione o spazio di

. accettazione dell’ipotesi H0

C = Spazio o universo dei campioni

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

4

a) rifiutare un'ipotesi quando essa è vera. Si parla in questo caso di errore di I

specie o di I tipo;

b) accettare un'ipotesi quando essa è falsa. Si parla in questo caso di errore di II

specie o di II tipo.

Il processo decisionale sopra illustrato può essere schematicamente riassunto nella

tavola che segue.

Stato di natura

AzioniH0 è vera H0 è falsa

Si accetta H0 Decisione corretta Si commette un erroredi II tipo

Si rifiuta H0 Si commette un erroredi I tipo

Decisione corretta

Tab. 1 - Tavola di decisione

La probabilità di commettere un errore di primo tipo, e cioè la probabilità di

rifiutare una ipotesi quando essa è vera, è indicata usualmente con α.

( )01 /HCX P� ∈=

dove α viene detto livello di significatività del test e ( )n1 X,....,X,X X 2= rappresenta

il punto campionario.

La probabilità di commettere un errore di II tipo, e cioè la probabilità di

accettare un'ipotesi quando essa è falsa, è indicata con β ( Η1 )

( ) ( )101 /HCX PH� ∈=

Dove 0H H =1 , che rappresenta la negazione dell’ipotesi Ho , viene detta ipotesi

alternativa e, nell’ambito della teoria classica o frequentista del test delle ipotesi,

completa il contesto decisionale nel senso che, nella specifica situazione sotto esame, o

è vera l’ipotesi nulla H0 o è vera l’ipotesi alternativa H1; β ( Η1 ) indica, pertanto, la

probabilità dell’errore di II tipo che dipende, ovviamente, dalla specificazione

dell’ipotesi alternativa H1.

La quantità γ ( H1 ) = 1 – ß ( H1 ) e cioè la probabilità di rifiutare un'ipotesi

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

5

quando essa è falsa viene detta forza o potenza del test

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

6

H1 : θ = θ1

Si è già detto come la costruzione di un test si riduce in effetti alla bipartizione

dello spazio dei campioni C in due sottospazi C0 e C1 . Si vede quindi chiaramente

come il miglior test per sottoporre a verifica un'ipotesi H0 sia quello che individua la

migliore regione critica C1; l'altra, la regione di accettazione, risulterà determinata di

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

7

( )( ) K

x ;� L

x ;� L

0

1 ≥

e di conseguenza C0 = C – C1 (regione di accettazione) consisterà

nell'insieme di punti campionari tali che

( )( ) x ;� L

x ;� L

0

1 < K

dove K viene scelto in modo che la probabilità di commettere un errore di

prima specie sia pari a α, allora la regione critica C1 presenta la più

bassa probabilità d'errore di II specie, tra le regioni critiche che hanno

livello di significatività α (probabilità d'errore di I specie).

In particolare va osservato che, dal punto di vista operativo, lo spazio dei

campioni C di riferimento non è lo spazio di variabilità della n-upla che costituisce il

campione casuale, ma lo spazio di variabilità di una funzione T ( ⋅ ) di tali valori. Ad

es. se θ = µ , la funzione di compattazione è data dà

( ) ∑=

==n

iin X

nX,,X,X TX

121

1�

si considerà, cioè, la media campionaria X e lo spazio dei campioni relativo a tale

variabile sarà l'intero asse reale e la sua suddivisione potrà essere del tipo riportato nella

figura che segue:

Fig. 2 - Regione critica e regione di accettazione dell'ipotesi H0

Tre considerazioni vanno fatte in merito al teorema di Neyman-Pearson:

a) il teorema resta valido qualunque sia il numero dei parametri (purché finito)

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

8

caratteristici della legge di distribuzione delle probabilità della variabile

casuale X;

b) il teorema non richiede esplicitamente l'indipendenza stocastica delle n

osservazioni costituenti il campione;

c) nel teorema sono fissate le condizioni necessarie affinché un test sia il più

potente ma vengono anche indicate le regole per la derivazione della regione

critica.

Esempio 1

Sia

( ) ( )2¨x

2

1

e �2

1 � x, f

−−=

la funzione di densità di probabilità di una variabile casuale X definita sull'intero asse

reale esteso (X: -∞ ≤ x ≤ +∞). Si può osservare che si sta trattando una variabile casuale

normale di media µ = θ e varianza σ2 = 1.

Relativamente alle seguenti ipotesi (entrambe semplici)

00 � � : H =

11 � � : H = < 0�

si assuma la disponibilità di un campione casuale x = (x1, x

2, ...., x

n). In queste

condizioni si può pervenire alla individuazione della migliore regione critica C1, cioè

alla individuazione del test più potente, facendo ricorso al teorema di Neyman-Pearson.

Le funzioni di verosimiglianza sotto le ipotesi H0 e H

1 sono

( ) ∑== =

−−−

=∏

n

1i

21i )¨x (

2

1

2

n

1

n

1ii1 e�� (2 )� ;x ( f x ;� L

( ) ∑== =

−−−

=∏

n

1i

20i )¨x (

2

1

2

n

0

n

1ii0 e�� (2 )� ;x ( f x ;� L

La migliore regione critica, cioè quella che minimizza la probabilità ( )1H�

dell'errore di II tipo una volta fissata la probabilità α dell'errore di I tipo, resta

individuata dalla disuguaglianza

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

9

( )( ) Ke

);f(x

);f(x

x ; L

x ; Ln

1i

n

1i

21i

20i )(x)(x

2

1

n

1i0i

n

1i1i

01

1 ≥∑ ∑

==

−−−

=

= = =

∏ ¨¨

dove K è una costante da determinare in funzione di α.

Prendendo il logaritmo degli ultimi due termini della disuguaglianza si ottiene

K log )�(x)�(x2

1 n

1i

n

1i

21i

20i ≥

−−−∑ ∑

= =

moltiplicando per 2 i due termini della disuguaglianza si ha

K log2 )�(x)�(xn

1i

n

1i

21i

20i ≥−−−∑ ∑

= =

essendo

20

n

1i0

2i

n

1i

20i

n

1i

n

1i0

2i

20i �nxn�2xn�x�2x)�(x ∑∑∑ ∑

=== =

+−=+−=−

21

n

1i1

2i

n

1i

21i

n

1i

n

1i1

2i

21i �nxn�2xn�x�2x)�(x ∑∑∑ ∑

=== =

+−=+−=−

dove

∑∑==

=⋅=⋅n

ii

n

ii xx

nnxn

11

1

la relazione di disuguaglianza può essere scritta

( ) ( ) K log2 ��n �� xn2 121

2001 ⋅≥−⋅+−⋅⋅

ed anche, dividendo per la quantità negativa ( )21

20 �� n −⋅ che inverte il segno di

disuguaglianza (si ricordi l'ipotesi θ1 < θ0):

( )( )

*

01

21

20 K �� n2

�� nK- log2 x =

−⋅−⋅⋅≤

Poiché X ha, sotto l'ipotesi nulla 00 � � : H = , distribuzione normale con

media µ = θ0 e varianza σ2 = 1/n , sarà facile determinare il valore di K che soddisfa

la relazione

( ( )( ) ) � /H

�� n2

�� nK- log2 X P 0

01

21

20 =

−⋅−⋅⋅≤

In pratica l'operazione si semplifica tenendo presente che il membro di destra

della disuguaglianza è una funzione costante di K , basterà allora individuare il valore

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

10

K* che soddisfa la relazione

( ) � /HK X P 0* =≤

od anche

� /Hn/1

�K*

n/1

�X P 0

00 =

−≤−

il che equivale alla relazione

( ) � c Z P =≤

dove Z è una variabile casuale normale standardizzata e n/1

�K c 0

* −= è il punto critico

che ha alla sua sinistra (regione critica) l'α% dei valori della distribuzione.

Il teorema di Neyman-Pearson consente di derivare la migliore regione critica soltanto

nei casi in cui sia l'ipotesi nulla che quella alternativa sono semplici. Quando H0 o H1,

o entrambe le ipotesi sono composite non esiste un analogo teorema. E' stata comunque

suggerita, sempre dagli stessi autori, una procedura generale per la individuazione della

regione critica che dà usualmente buoni risultati: il test del rapporto di

verosimiglianza. Si dimostra infatti che nei casi in cui esiste la migliore regione critica

essa viene individuata dal test del rapporto di verosimiglianza.

Si dimostra inoltre che se esiste un test uniformemente più potente (test UMP

dall’inglese Uniformly Most Powerful), cioè un test che relativamente ad una data

ipotesi nulla semplice H0 e per un prefissato livello di probabilità dell'errore di I tipo

minimizza la probabilità dell'errore di II tipo, qualunque sia la specificazione della

ipotesi alternativa composita H1 , esso è un test del rapporto di verosimiglianza.

Il test del rapporto di verosimiglianza può essere definito nei seguenti termini:

Definizione 3 Si supponga che x1,x2,….,xn costituisca un campione casuale di una

variabile X la cui distribuzione di probabilità sia caratterizzata dal

parametro incognito θ, e si voglia sottoporre a test una ipotesi nulla

contro un'ipotesi alternativa (una o entrambe composite). Si indichi con

( )0�̂ L il valore massimo della funzione di verosimiglianza del

campione rispetto al parametro il cui campo di variabilità è circoscritto

dall'ipotesi H0 , e si indichi con ( )�̂ L il valore massimo della

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

11

funzione di verosimiglianza rispetto a θ, il cui campo di variabilità

riguarda ogni valore specificato dall'ipotesi H0 o H1. Allora la regione

critica del test del rapporto di verosimiglianza è formata da tutti i punti

campionari che soddisfano la relazione

( )( )

( )( )

�� / � L max

�� / � L max

�̂ L

�̂ L R 00

∈∈== < K

dove K è scelto in modo che la probabilità di commettere un errore di I

specie sia uguale ad α.

Da rilevare che il rapporto sopra indicato non potrà mai superare l'unità; la

costante K sarà quindi sempre inferiore a 1 e potrà essere determinata sulla base della

distribuzione probabilistica del rapporto stesso in corrispondenza del livello α di

significatività fissato. La distribuzione di R non è sempre facilmente derivabile, in ogni

caso si dimostra che, per n abbastanza grande, e se sono soddisfatte certe condizioni

generali di regolarità, la variabile casuale W = - 2 log R, ha una legge di distribuzione

approssimata del tipo χ2 con ν gradi di libertà, dove ν rappresenta il numero di

vincoli di uguaglianza puntuali sui parametri specificati dall’ipotesi nulla.

Nelle pagine successive verranno discusse alcune procedure per sottoporre a test

ipotesi sui parametri della distribuzione normale. Tutti i test considerati sono test del

rapporto di verosimiglianza. Si noti che l'applicazione di tale test al problema della

verifica di ipotesi semplici contro alternative semplici dà luogo a risultati identici a

quelli che si otterrebbero utilizzando il teorema di Neyman-Pearson.

- Test sulla media

Per poter verificare delle ipotesi statistiche si deve avere a disposizione un

campione di osservazioni che consenta di poter concludere sulla ragionevolezza

dell'ipotesi (nulla) formulata; se ciò accade si accetta l'ipotesi stessa (ritenendola

ragionevole), altrimenti si procede al suo rifiuto in favore dell'ipotesi alternativa.

Si ammetta di poter disporre di un campione di osservazioni x1,x2,….,xn su una

popolazione normale di media µ e varianza σ2 incognite, e di voler risolvere seguenti

problemi di test d'ipotesi

a) H0 : µ = µ0

H1 : µ = µ1 > µ0

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

12

b) H0 : µ = µ0

H1 : µ > µ1

c) H0 : µ = µ0

H1 : µ < µ0

d) H0 : µ = µ0

H1 : µ ≠ µ0

Si fissi ora un certo livello di significatività α, cioè la misura della probabilità

d'errore di I specie che si è disposti a sopportare. L'ipotesi riguarda la media di una

distribuzione normale, si sceglie quindi come funzione degli elementi del campione

(variabile casuale test) la media campionaria:

( ) ∑=

==n

1iin21 X

n

1 X,....,X ,X T X

Lo spazio di variabilità della variabile casuale campionaria X è l'intero asse

reale. La procedura di test consisterà quindi nella suddivisione dell'asse reale in due

regioni in modo tale che la probabilità d'errore di I specie sia pari a α, cioè in modo che

( ) � H / C X P 01 =⊂

dove C1 rappresenta naturalmente la regione critica.

Si è visto in precedenza che la variabile campionaria casuale

n / S

�-X T =

ha una legge di distribuzione del tipo t di Student con n-1 gradi di libertà. Avrà quindi la

distribuzione t, con n-1 gradi di libertà anche la variabile casuale

n / S

�-X T 0=

Caso a) H0 : µ = µ0

H1 : µ = µ1 > µ0

L'asse reale viene diviso in due intervalli. Il primo degli intervalli specifica la

zona di accettazione, il secondo la zona critica. Il valore numerico di c , detto valore

critico del test, si ottiene dalla relazione

P ( T > c / µ = µ0 ) = α

caso b) H0 : µ = µ0

H1 : µ > µ0

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

13

In questo caso l'ipotesi alternativa è composita, la procedura di test

uniformemente più potente (cioè quella che minimizza la probabilità d'errore di II

specie contro ogni specificazione delle ipotesi alternative H1) è esattamente identica a

quella indicata nel caso precedente.

caso c) H0 : µ = µ0

H1 : µ < µ0

L'ipotesi alternativa anche in questo caso è composita ma con segno di

disuguaglianza, relativamente all'ipotesi alternativa, invertito rispetto al caso

precedente. Si dovrà sempre suddividere l'asse reale nei due intervalli -∞ — |c , c |—+∞

ma in questo caso la regione critica è data dall'intervallo -∞ —| c.

Il valore critico si ottiene dalla relazione

P ( T < c / µ = µ0 ) = α

Da sottolineare che nelle due situazioni sopra descritte si applica il test del

rapporto di verosimiglianza che individua la migliore regione critica, individua cioè, il

test uniformemente più potente; a sostegno di una tale affermazione è sufficiente

ipotizzare una applicazione reiterata del teorema di Neyman-Pearson in corrispondenza

a ciascuna specifica dell’ipotesi alternativa: la regione critica individuata è sempre la

stessa, ed è quella che minimizza la probabilità dell’errore di II tipo, ovviamente, tale

probabilità varierà al variare della specifica dell’ipotesi alternativa.

caso d) H0 : µ = µ0

H1 : µ ≠ µ0

Mentre nei due casi precedenti si parla di ipotesi alternative composite

unidirezionali, quì si parla di ipotesi alternativa bidirezionale. In questo contesto l'asse

reale viene suddiviso in tre parti -∞—| c1 , c1|— |c2 , c2 |— +∞ , l'intervallo c1|—| c2

costituirà la zona di accettazione, mentre i due intervalli -∞—| c1 e c2 |—+∞

costituiscono insieme la zona di rifiuto. Poiché la distribuzione t è simmetrica, si

scelgono i valori di c1, c2 equidistanti dallo 0, cioè c2 = - c1 = c . Il valore critico c si

otterrà allora dalla relazione

P ( T < -c / µ = µ0 ) = P ( T > c / µ = µ0 ) = /2 α

Evidentemente la procedura indicata non fornisce un test uniformemente più

potente; infatti, se il vero valore di µ fosse superiore a µ0, il test più potente sarebbe

quello indicato nel caso a); se invece il vero valore di µ fosse inferiore a µ0 il test più

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

14

potente sarebbe quello indicato nel caso c). Non avendo maggiori informazioni sulle

alternative, relativamente all'ipotesi H1: µ ≠ µ0, si preferisce attribuire alle due

possibilità µ > µ0 e µ < µ0 uguale peso. Da rilevare che il test così ottenuto risulta

quello uniformemente più potente nella classe ristretta dei cosiddetti test corretti o

non distorti (test UMPU dall’inglese Uniformly Most Powerful Unbiased).

Definizione 4 - Un test si dice corretto o non distorto se soddisfa il vincolo

γ (Η1) ≥ α , cioè, se la probabilità di non commettere un errore di II tipo è sempre

maggiore od uguale alla probabilità di commettere un errore di I tipo).

Nei quattro casi sopra esaminati si rifiuta l'ipotesi H0 se la specifica

determinazione della variabile casuale T cade nella zona critica (zona di rifiuto), si

accetta altrimenti.

Esempio 2

Si supponga di voler risolvere il seguente problema di test d'ipotesi

H0 : µ = 30

H1 : µ < 30

al livello di significatività α = 0,01, disponendo delle informazioni media campionaria

x = 26 e della varianza campionaria corretta s2 = 36 relative ad un campione di 25

elementi estratti da una popolazione normale.

Non essendo nota la varianza della popolazione, la regione critica o regione di

rifiuto dell'ipotesi nulla H0

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

15

2,4923,3325��

3026t −<−=−=

rifiutiamo l'ipotesi nulla H0 : µ = 30, al livello di significatività dell'1%.

Esempio 3

Dati i seguenti otto valori campionari 31, 29, 26, 33, 40, 28, 30 e 25 estratti da una

popolazione normale si vuole sottoporre a test l'ipotesi che la media sia pari a 35 contro

l'ipotesi alternativa che non lo sia, al livello di significatività α = 0,01.

Il problema di test d'ipotesi da risolvere è

35 � : H0 =

35 � : H0 ≠

Essendo la varianza della popolazione una incognita del problema si dovrà

procedere ad una sua stima utilizzando i dati campionari

∑=

−−

=n

1i

2i

2 )x(x1n

1S

essendo

30,25x8

1x

n

1x

8

1ii

n

1ii === ∑∑

==

∑=

=−=8

1i

2i

2 22,2130,25)(x7

1s

4,71 s s 2 ==

La determinazione della variabile casuale test che in questo caso, essendo

incognita la varianza, è la t di Student, è pari a

2,85- 8 / 4,71

35-30,25

n / s

�-x

s

�xt

x

===−=

Essendo α = 0,01 i valori critici della variabile t, con (8-1) =7 gradi di

libertà; che definiscono la regione critica sono 3,499- t- c 2¡�1 == e

3,499 t c 2¡�2 == . Il valore campionario -2,85 è contenuto nell'intervallo

-3,499 |—| 3,499, pertanto si accetta l'ipotesi nulla µ = 35 attribuendo la differenza

riscontrata rispetto al valore campionario 30,25 x = a fattori di carattere accidentale.

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

16

Esempio 4

Per giustificare la loro richiesta di aumento di stipendio, gli impiegati di una ditta

di vendita per corrispondenza affermano di riuscire ad evadere, mediamente un ordine

di acquisto ogni 13 minuti. Il direttore generale della ditta ha effettuato una verifica

casuale sui tempi di evasione di 400 ordini registrando un tempo medio di evasione di

14 minuti e una variabilità, misurata in termini di varianza corretta, di 100 minuti. Cosa

si può concludere riguardo alle richieste degli impiegati se si fissa una probabilità di

errore di I tipo (livello di significatività) del 5%?

Si deve sostanzialmente verificare se la media rilevata nel campione differisce, al

livello di significatività del 5%, da quella dichiarata dagli impiegati.

Il problema di verifica d'ipotesi è formalizzato nei termini seguenti

13�:H 0 =

µ:H1 > 13

La variabile casuale test di riferimento

n / S

�-X

S

�Xt

x

=−=

ha, nell'universo dei campioni, distribuzione del tipo t di Student con n-1 gradi di

libertà.

Conviene sottolineare che, in questo specifico esempio, essendo la dimensione

campionaria elevata (n = 400) si può fare riferimento alla distribuzione normale quale

approssimazione della distribuzione t di student che fornisce un valore critico (test

unidirezionale ), per α = 0,05, pari a 1,65. La regola di decisione è quella di rifiutare

l'ipotesi H0 se il valore assunto (valore empirico) dalla v.c. test nello specifico

campione è ≥ 1,65, di accettare se il valore empirico è < 1,65.

Poiché 14 x = e 400 / 10 n / s sx == si ha

2 400/ 10

13-14

s

�x

x

==− > 1,65

si rifiuta l'ipotesi H0 concludendo che tempo medio richiesto per evadere un ordine è

superiore ai 13 minuti dichiarati dagli impiegati.

Esempio 5

Si supponga di disporre di un campione di 10 elementi rispetto al quale

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

17

siano stati ottenuti i valori x = 50, ∑=

=−10

1i

2i 99)x(x e di dover risolvere il

seguente problema di test d'ipotesi

H0 : µ = 47

H1 : µ ≠ 47

ipotizzando la normalità della distribuzione della variabile di interesse.

Non essendo nota la varianza della popolazione e relativamente ridotta la

dimensione del campione non si può fare ricorso all'approssimazione normale, la

variabile casuale test da utilizzare è, pertanto, la variabile casuale t di Student.

n / S

�-X T =

dove

1n

)x(xS

n

11

2i

−=

∑=

quindi

1,190

99

109

)x(x

n

SS

10

1i

2i2

2

x==

−==

∑=

La determinazione assunta dalla variabile casuale t di student sotto l'ipotesi nulla

Ho : µ = 47 risulta essere

1,0488

4750

S

�xt

x

−=−= = 2,8604

Per (n – 1) = 9 gradi di libertà ed α = 0,01 i valori critici che delimitano la

regione di accettazione sono 3,25- t 2¡�=− e. 3,25 t 2/ =

¡. Essendo 2,8604 < 3,25 si

accetta l'ipotesi nulla H0 : µ = 47.

Se si sceglie il livello di significatività α = 0,05, i valori critici sono -tα/2 e tα/2;

essendo 2,8604 > 2,262 l 'ipotesi nulla H0 : µ = 47 dovrà essere rifiutata.

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

18

Esempio 6

Si supponga di aver somministrato ad un gruppo di 12 cavie una particolare dieta

dalla nascita fino all'età di 3 mesi e di aver riscontrato i seguenti incrementi di peso: 55,

62, 54, 57, 65, 64, 60, 63, 58, 67, 63 e 61 grammi. Sapendo che le cavie del tipo

considerato, quando non sono sottoposte a diete speciali, mostrano un incremento medio

di peso (nei primi tre mesi di vita) pari a 65 grammi, ci si domanda se le risultanze

campionarie siano tali da poter attribuire alla dieta la differenza riscontrata

nell'incremento medio di peso; si vuole sapere cioè se la differenza d = 60,75 - 65

debba essere attribuita alla dieta o se non debba invece essere attribuita a fattori aventi

carattere puramente accidentale. Una possibile risposta al quesito si può ottenere

applicando la procedura di test sopra illustrata; la procedura può essere riassunta come

segue:

1. si fissa il livello di significatività, ad esempio α = 0,05;

2. si specificano le due ipotesi

H0 : µ = 65

H1 : µ ≠ 65

L'ipotesi alternativa è di tipo bidirezionale in quanto si può ritenere, almeno per il

momento, che un qualsiasi incremento medio di peso maggiore o minore di 65 grammi

possa essere attribuito all'effetto della dieta;

3. si individua la variabile casuale al test

12 / S

65-X T =

che, per quanto detto, è del tipo t di Student con 12 - 1 = 11 gradi di libertà. Tale

variabile descrive l'andamento dei risultati campionari (sintetizzati nella formula sopra

scritta) sotto l'ipotesi nulla H0; cioè a condizione che la dieta non abbia effetto e che

quindi le differenze tra X e 65 siano da attribuire esclusivamente a fattori accidentali;

4. si determina il valore critico c che soddisfa la relazione

P ( -c ≤ T ≤ c) = 0,95

Dalle tavole della distribuzione t di Student, in corrispondenza di 11 gradi di

libertà, risulta c = 2,20;

5. si pone a confronto il valore t (la specifica determinazione della variabile casuale

T) calcolato sui dati campionari

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

19

12 / 16,38

65-60,75 t =

con il valore critico determinato al punto precedente.

Essendo

t = -3,63 < -2,20 = -c

si rifiuta l'ipotesi nulla H0 : µ = 65, al livello di significatività α = 0,05, si rifiuta cioè

l'ipotesi che la differenza d = 60,75 - 65 sia da attribuire al caso.

Qualora si ritenga, a priori, che la dieta debba provocare un incremento medio di

peso inferiore a 65 grammi, la procedura di test da adottare sarà quella di tipo

unidirezionale. In tal caso si dovrà porre

H0 : µ = 65

H1 : µ < 65

si determina poi, in funzione della variabile test

12 / S

65-X T =

il valore critico c che soddisfa la relazione

P (T ≤ -c) = 0,05

Dalle tavole della distribuzione t di Student risulta c = 1,80. Essendo

t = -3,63 < -1,80 = -c

si rifiuta l'ipotesi H0 : µ = 65.

Le due procedure di test adottate, bidirezionale e unidirezionale, portano entrambe

alla stessa conclusione: rifiuto dell'ipotesi nulla. A tale proposito va però sottolineato

che se la t campionaria avesse assunto un valore compreso nell'intervallo -2,20 |—| -

1,80 l'applicazione della procedura di test bidirezionale, a livello α = 0,05 di

significatività, avrebbe comportato un'accettazione dell'ipotesi nulla mentre, allo stesso

livello di significatività, l'applicazione della procedura di test unidirezionale avrebbe

comportato un suo rifiuto.

I test sopra illustrati sono, per l’ipotesi alternativa unidirezionale e per l’ipotesi

bidirezionale, rispettivamente, il test uniformemente più potente ed il test

uniformemente più potente nella classe dei test corretti.

Dalle considerazioni svolte, risulta evidente il ruolo fondamentale giocato dal

livello di significatività del test. Stante l'arbitrarietà nella fissazione del livello α, cioè

della probabilità massima di errore di I specie che si è disposti a sopportare, spesso il

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

20

ricercatore preferisce discutere di livello di significatività soltanto a posteriori. Nel caso

specifico dell'esempio considerato, si sarebbe detto che il risultato campionario

t = -3,63 è significativo, nel caso di test bidirezionale, al livello dello 0,8%; volendo

esprimere con tale affermazione il fatto che l'area sottesa alla curva descritta dalla

funzione di densità di probabilità della distribuzione t di Student corrispondente alla

regione critica, definita dagli intervalli -∞ |—| -3,63, 3,63 |—| + ∞ è pari a 0,008. Tale

valore viene usualmente detto P-value.

Definizione 5 – In corrispondenza di una particolare determinazione t0 , assunta

da una qualunque variabile casuale test ( ) T ⋅ , si dice P-value la probabilità dei valori

che superano, in valore assoluto e nella direzione estrema, il valore osservato.

Questa definizione viene usualmente accettata quando ( ) T ⋅ è una stima di θ

usata per sottoporre a test l’ipotesi nulla 00 � � : H = contro un’ipotesi altrernativa

unidirezionale � : H1 > 0� , ed i valori estremi da considerare si collocano nella coda

di destra della distribuzione, oppure � : H1 < 0� , ed i valori estremi da considerare si

collocano nella coda sinistra della distribuzione. Molto più problematica è la situazione

nel caso di ipotesi bidirezionale � : H1 ≠ 0� , in questa circostanza i valori estremi

da considerare sono sia quelli della coda di destra sia quelli della coda di sinistra, a

ragione di ciò, alcuni autori sostengono che in tali circostanze il valore del P-value

debba essere raddoppiato; nell’esempio sopra considerato, se l’ipotesi alternativa fosse

stata H1 : µ ≠ 65 , il P-value sarebbe stato pari a 0,16 = 0,08 + 0,08.

Si richiama l’attenzione sul fatto che il ricorso al P-value è criticato da molti

autori a ragione, sia dell’aspetto sopra considerato dell’attribuzione di un valore

numerico a P-value , essendo il valore stesso interpretabile come evidenza empirica

contro l’ipotesi nulla ( P = 0,08 è sicuramente un’evidenza empirica contro l’ipotesi

nulla H0 : µ = 65 più forte di quanto non lo sia P = 0,16 ), sia perché può accadere che

ad uno stesso valore di P possono corrispondere realtà molto diverse.

Se si presuppone, ad esempio, di voler risolvere il problema di test H0 : µ = 65

contro l’ipotesi alternativa H0 : µ > 65 avendo a disposizione un campione di

dimensione n estratto da una popolazione normale con varianza nota 1 �2 = , sotto

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

21

l’ipotesi nulla la variabile casuale test n/1

65X Z x

−= si distribuisce come una normale

stardardizzata. In tale situazione, per n = 4 , x = 66 la determinazione della variabile

casuale test è z = 2, cui corrisponde un P-value pari a 0,0228, allo stesso valore di P

si perviene per n = 400 e x = 65,1. Ovviamente, le due situazioni sono decisamente

diverse anche se la misura dell’evidenza empirica contro H0 : µ = 65 è la stessa; ma

questo è un problema che che riguarda tutta l’impostazione classica della teoria del test

dell’ipotesi e che trova una sua soddisfacente soluzione solo nell’ambito

dell’impostazione bayesiana dell’inferenza statistica.

Sui problemi che si possono incontrare nell’ambito dell’inferenza statistica

classica ulteriori elementi informativi si ritrovano nell’esempio che segue.

Esempio 7

Un'impresa afferma che le batterie prodotte hanno una durata media di 22 ore e

che la loro variabilità, misurata attraverso lo scostamento quadratico medio, è pari a 3

ore. Nove batterie vengono sottoposte a prova e si accerta una durata media di 20 ore.

Ipotizzando per la popolazione una variabilità pari a quella dichiarata dalla casa

produttrice e la normalità della distribuzione, si vuol verificare la validità

dell'affermazione fatta dall'impresa.

Poiché la durata delle batterie si distribuisce in modo (approssimativamente)

normale e la varianza è nota (σ2

= 9), la media campionaria X si distribuirà,

nell'universo dei campioni normalmente con varianza

1 9

9

n

� �

22x ===

La formulazione delle due ipotesi (nulla e alternativa) è

H0: µ = µ0 = 22

H1 : µ ≠ µ0

pertanto, fissato il livello di significatività α = 0,05, la regione di accettazione

dell'ipotesi nulla risulta individuata dall'intervallo -zα/2 |—| zα/2, cioè dall'intervallo

-1,96 |—|1,96. Essendo

2- 1

22-20

n / �

�-x z 0 ===

pari ad un valore inferiore al valore –1,96 che delimita la regione di accettazione,

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

22

l'ipotesi nulla H0 : µ = 22 viene rifiutata, concludendo che la durata media delle

batterie in questione è inferiore alle 22 ore.

Se la varianza della popolazione non fosse nota ed il valore 9 corrispondesse alla

stima campionaria corretta di tale entità incognita, la variabile casuale test di riferimento

sarebbe la t di student con 8 (= 9-1) gradi di libertà. In questo caso, al livello

α = 0,05

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

23

Se l'ipotesi nulla H0 è vera, la media campionaria

∑=

=n

1iiX

n

1X

si distribuisce, nell'universo dei campioni, normalmente con media µ0 e varianza σ2

/n.

Per l'individuazione della migliore regione critica (quando esiste) si può procedere alla

standardizzazione della variabile casuale X

n / �

�-X Z 0

x =

e riferirsi alle tavole della distribuzione normale standardizzata utilizzando una

procedura del tutto analoga a quella illustrata a proposito della distribuzione t di

Student. Ad esempio per α = 0,05, i valori critici di riferimento per le quattro possibili

ipotesi alternative considerate sono:

a) c = 1,64, si rifiuta l'ipotesi nulla H0 se xZ > 1,64;

b) c = 1,64, si rifiuta l'ipotesi nulla H0 se xZ > 1,64;

c) c = -1,64, si rifiuta l'ipotesi nulla H0 se xZ < -1,64;

d) c1 = -1,96 e c

2 = 1,96, si rifiuta l'ipotesi H0 se xZ < -1,96 oppure xZ > 1,96.

Nei quattro casi sopra considerati, sono stati individuati i valori critici facendo

riferimento alla distribuzione normale standardizzata. Risulta subito evidente come sia

possibile riferirsi direttamente alla variabile casuale X anziché alla sua standardizzata.

Infatti dall'uguaglianza

( ) ( ) 0,05 n��1,64 � X P1,64 n / �

�-X P1,64 Z P 0

0

x=⋅+≥=

≥=≥

risulta immediatamente il valore critico del test per il primo (e secondo) caso

considerato, in riferimento alla variabile casuale test X anziché xZ . Nella Fig. 3 si

evidenziano graficamente, per tutti e quattro i casi di ipotesi alternativa considerati, la

regione critica e quella di accettazione in riferimento alla variabile casuale test X ed al

livello di significatività α = 0,05:

Esempio 8

Una fabbrica di lampadine afferma che i propri prodotti hanno una durata media

di 1.000 ore, come acquirente si vuole verificare l'affermazione. Sottoponendo a prova

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

24

un campione casuale di 100 lampadine si riscontra una durata media di 970 ore.

Poiché è nota la variabilità (misurata dalla varianza) nella durata che risulta essere

σ2 = 1.600, cosa si può concludere riguardo all'affermazione ad un livello di

significatività del 5%?

Il problema di verifica l'ipotesi da risolvere è

H0 : µ = 1.000

H1 : µ ≠ 1.000

Essendo nota la varianza ed ipotizzando la normalità della distribuzione d’origine,

la variabile casuale test di riferimento è

n/ �

�-X Z x =

che, nell'universo dei campioni ha distribuzione normale standardizzata. I valori critici

per una probabilità di errore di I tipo, prefissata al livello α = 0,05, sono

1,96- z 2¡� =− e 1,96 z 2/ =¡

che individuano le zone di accettazione di H0 nell'intervallo -1,96 |–| 1,96 mentre la

regione di rifiuto è rappresentata dai semintervalli -∞ |–| -1,96 e 1,96 |–| +∞.

Poiché la determinazione della variabile casuale test (valore empirico), pari a

3,75- 100 / 80

1.000970=−

, ricade nell'intervallo -∞ |–| -1,96 (regione critica) si rifiuta

l'ipotesi H0 concludendo che la durata media delle lampadine è inferiore a 1.000 ore.

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

25

Fig. 3 - Distribuzione campionaria e regione critica relative a quattro diverse

specificazioni dell'ipotesi alternativa H1 rispetto all'ipotesi nulla H0 : µ = µ0

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

26

- Potenza di un test

Nel primo grafico della Fig. 3 (quello relativo al caso a) dove entrambe le ipotesi

formulate sono semplici) è stata evidenziata graficamente oltre alla regione di rifiuto

dell'ipotesi H0

anche l'area corrispondente alla probabilità α = 0,05 dell'errore di I

tipo e l'area corrispondente alla probabilità ( )1H β di commettere un errore di II tipo.

La potenza o forza del test γ ( Η1 ) = 1 – ß ( H1 ) , cioè la probabilità di non commettere

un errore di II tipo, risulta graficamente espressa dall'area sottesa alla curva di destra

relativa all'intervallo c|—+∞

Dalla Fig. 3 e da quanto detto a proposito degli intervalli di confidenza si desume

che la potenza di un test resta influenzata:

i. - dal livello di significatività α prescelto;

ii. - dalla specificazione dell'ipotesi alternativa;

iii. -dalla numerosità del campione.

L'immediata considerazione da fare in merito alla relazione che lega la forza di un

test al livello di significatività è che un test è tanto più potente quanto più è elevata la

probabilità dell'errore di I tipo. Infatti, se si osserva la Fig. 4 si vede chiaramente come

l'incremento del livello α (probabilità dell'errore di I tipo), comportando un

allargamento dell'intervallo di rifiuto (regione critica), determini una riduzione della

probabilità dell'errore di II tipo e di conseguenza un aumento della potenza del test.

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

27

Fig. 4 - Relazione tra potenza di un test e livello di significatività

Si consideri ora il caso in cui si voglia sottoporre a test l'ipotesi nulla H0 : µ = µ0,

contro l'ipotesi alternativa:

a) 01 � � � :H >=

b) � � � :H1 >=

c) � � � :H1 >=

al livello α di significatività.

I tre problemi di test sono illustrati graficamente nella Fig. 5. Osservando le curve

tracciate si vede chiaramente come la potenza del test cresca all'aumentare dello scarto

tra il valore di µ specificato dall'ipotesi nulla ed il valore di µ specificato nell'ipotesi

alternativa. Nella Fig. 6 si riporta il grafico della funzione forza del test in relazione a

tutte le possibili specificazioni delle ipotesi alternative composite unidirezionali

H1 : µ < µ

0 e H

1 : µ > µ

0 e l'ipotesi alternativa composita bidirezionale H1 : µ ≠ µ0

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

28

Fig. 5 - Relazione tra potenza del test e specificazione dell'ipotesi alternativa

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

29

Fig. 6 - Grafico della funzione forza del test relativo all'ipotesi nulla H0 : µ = µ0 contro

tre diverse specificazioni dell'ipotesi alternativa composita H1

L'espressione analitica che consente di determinare il valore numerico assunto

dal punto critico relativo alla variabile casuale test X , quando si vuole sottoporre a test

un'ipotesi nulla del tipo H0 : µ = µ0 contro un'ipotesi alternativa del tipo H1 : µ > µ0 è

data dall'uguaglianza

c = µ0 + zα σ/√n

dove zα è la determinazione numerica della variabile casuale normale standardizzata

che soddisfa la relazione P ( Z > zα ) = α. Evidentemente la relazione sopra scritta si

riferisce ad un campione di osservazioni di dimensione n estratto da una popolazione

normale di varianza nota σ2. Inoltre, la relazione stessa evidenzia come l'entità c

(valore critico) sia una funzione decrescente di n. Ciò sta a significare che ad un

aumento della dimensione campionaria corrisponde una diminuzione nel valore

numerico di c, il che comporta un ampliamento dell'intervallo che delimita la regione

critica con un conseguente aumento della forza del test.

A titolo esemplificativo si riporta il grafico della funzione forza del test in

riferimento a due diverse dimensioni campionarie n ed m (n > m)

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

30

Fig. 7 - Grafico della funzione forza del test relativo a due diverse dimensionicampionarie

Un'ultima considerazione da fare in merito alla potenza o forza di un test statistico

riguarda la varianza campionaria della variabile casuale test 2c� . Dalla formula sopra

scritta risulta che il valore critico c è legato funzionalmente ed in senso positivo a 2c� ,

ciò sta a significare che a più bassi valori di 2c� corrispondono più bassi valori di c e

quindi più ampie regioni critiche. Sarà pertanto possibile, operando su 2c� ottenere un

incremento nella potenza di un test senza dover necessariamente procedere ad un

aumento della dimensione campionaria o della probabilità dell'errore di I tipo.

Questa affermazione ha naturalmente significato soltanto nei casi in cui sia

effettivamente possibile operare su 2c� , ad esempio, attraverso un’opportuna

pianificazione della rilevazione campionaria o del disegno degli esperimenti. Il caso più

semplice e più significativo è quello relativo alle modalità di estrazione delle unità

campionarie e si considera la media campionaria X quale variabile casuale test;

infatti, come già sottolineato, se si procede all’estrazione da una popolazione finita

rimettendo ogni volta l’unità estratta nella popolazione (campionamento con

ripetizione) si ha n

��

22x = , se invece si effettua l’estrazione in modo esaustivo

(estrazione senza ripetizione) si ha 1N

nN

n

� �

22x −

−= , dove N è la dimensione della

popolazione e n è la dimensione del campione.

Relativamente alla varianza 2c� della variabile casuale test, si deve sottolineare

che nella generalità dei casi tale varianza dipende dalla variabilità del fenomeno oggetto

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

31

di studio, cioè, dalla varianza 2� della popolazione che è un’entità usualmente

incognita (parametro di disturbo). Si dovrà, pertanto, procedere ad una stima

di tale entità il che porta alla determinazione di una stima 2c�̂ di

2c� ; la radice

positiva di tale quantità c�̂ viene usualmente detto errore standard.

Esempio 9

Si consideri la variabile casuale continua X definita nel semiasse reale positivo

esteso (X : 0 ≤ x ≤ + ∞) con funzione di densità di probabilità

( ) ¨

x

e �

1 � x; f

−=

e si supponga di voler risolvere il seguente problema di test d'ipotesi

H0 : θ = 2

H1 : θ > 2

Supponendo, inoltre, la disponibilità di un campione di due elementi (n = 2) e

definendo la regione critica attraverso la disuguaglianza X1 + X2 ≥ 9,5 si può derivare

l'espressione analitica della funzione forza del test γ (H1) determinandone il valore per

H1: θ = 4.

Come più volte sottolineato, la funzione forza del test rappresenta la probabilità di

non commettere un errore di II tipo, cioè la probabilità di rifiutare l'ipotesi H0 quando

l'ipotesi stessa è falsa.

( ) ( ) ( )10111 H / C X P -1 H / C X P H � ∈=∈=

Se si esplicita l'ipotesi alternativa nel modo seguente

11 � � : H = > 4

e si tiene conto della regola di decisione prescelta (accettare l'ipotesi H0 quando

X1 + X2 < 9,5), e del fatto che le due variabili casuali campionarie X1 e 2X sono

indipendenti, si avrà:

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

32

21¨

xx9,5

0

x9,5

0 21

2112

21

9,5

0

x9,5

0 11121

dxdxe�

11dxdx)�;x ( f

dx dx )�;x ( f)/H9,5XX ( P

1

212

2

+−⋅

−⋅

∫ ∫

∫ ∫

−=

=<+

e quindi

11

21

2 ¨

9,5

1

121

¨

xx9,5

0

x9,5

0 21

11 e�

9,5�dxdxe

11)���1)���

+−⋅ +=−=−= ∫ ∫

Per θ1 = 4 si ha

0,31e4

9,54���� 4

9,5

=+=−

Si è più volte affermato che la variabile casuale

n / S

�-X T =

ha una legge di distribuzione t di Student quando la popolazione che genera il

campione è di tipo normale.

Non sempre però, nella ricerca applicata, risulta soddisfatta la condizione di

normalità; ci si deve allora chiedere che cosa succede alla legge di distribuzione della

variabile T, definita dalla formula quando una tale condizione non sussiste.

L'osservazione da fare è che la variabile T si dimostra particolarmente sensibile alle

variazioni nella legge di distribuzione della popolazione che genera il campione.

Le considerazioni sopra svolte impongono una certa cautela nell’utilizzazione

della distribuzione t di Student, nel senso che si può fare ricorso ad una tale

distribuzione solo quando si è sufficientemente convinti della normalità, o

approssimativa normalità, della popolazione che genera il campione. Tale affermazione

vale naturalmente nei casi in cui la dimensione del campione non supera le 30 unità,

oltre tale dimensione, come già sottolineato, la distribuzione t di Student e la

distribuzione normale praticamente coincidono, basterà allora riferirsi alla distribuzione

normale purchè questa costituisca una buona approssimazione della distribuzione della

media campionaria.

Per quanto concerne i casi in cui si abbia a che fare con campioni di dimensione

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

33

superiore a 30, si rimanda a quanto sommariamente detto a proposito degli intervalli di

confidenza per campioni estratti da popolazioni di cui non è nota la legge di

distribuzione. Infatti, si rileva immediatamente come le procedure proposte per

sottoporre a test delle ipotesi statistiche, e quelle utilizzate per la determinazione degli

intervalli di confidenza, presentino punti di contatto tali da consentire un passaggio

immediato dall'intervallo di confidenza alla regione di accettazione.

A sostegno di quanto sopra affermato si può, ad esempio, considerare il problema

di test, sulla media µ di una popolazione normale con varianza nota pari a σ2

, definito

dalle ipotesi

00 � � : H =

00 � � : H ≠

La regione di accettazione dell'ipotesi 00 � � : H = al livello α = 0,05 di

significatività, risulta essere

1,96 n /

-X , 0 ≤≤−σ

µ961

che può anche essere scritta

n/1,96X n/1,96X 0 ��� ⋅+≤≤⋅−

e tale espressione rappresenta l'analogo dell'intervallo di confidenza (al livello del 95%)

per la media di una popolazione normale

n��1,96X � n��1,96X ⋅+≤≤⋅−

come già visto in precedenza. L'implicazione è dunque che un intervallo per la media, al

livello di confidenza del 95%, costituisce l'intervallo che include tutte quelle ipotesi,

sulla media stessa, che verrebbero accettate in una procedura di test bidirezionale,

qualora fosse stato fissato un livello di significatività pari a 0,05.

La somiglianza tra le procedure di test e quelle di determinazione degli intervalli

di confidenza, non deve naturalmente indurre a confondere i problemi di test con quelli

di stima; essi sono logicamente e sostanzialmente diversi.

- Test sulla varianza

Nel caso in cui si voglia sottoporre a test un'ipotesi sulla varianza di una

popolazione normale, disponendo di un campione di n elementi e per un certo α, si

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

34

deve operare in modo analogo a quanto fatto relativamente alla media. La variabile

casuale campionaria di riferimento (variabile casuale test) diventa

( )2

2

S1n- W

⋅=

che ha una legge di distribuzione del tipo χ2 con n-1 gradi di libertà ed è definita

nell'intervallo 0 ___ + ∞.

Caso a) b) 20

20 ��:H =

221 *:H σσ = > 2

0σ (od anche 21 σ:H > 2

0σ )

Il valore critico c si ottiene dalla relazione

P ( W > 20

2 σσ =/c ) = α

Caso c) 20

20 σσ = :H

20 σ :H < 2

Il valore critico c si ottiene dalla relazione

P ( W < 20

2 σσ =/c ) = α

Caso d) 20

20 σσ = :H

20 σ :H ≠ 2

I valori critici c1 e c2 (si noti che la distribuzione χ2 non è simmetrica) si

ottengono dalle relazioni

P ( W > 20

22 σσ =/c ) = α/2

P ( W < 20

21 σσ =/c )= 1-α/2

Esempio 10

Sulla scorta di una lunga esperienza è stato calcolato lo scostamento quadratico

medio σ sulla variabile descritta dal tempo di anestesia relativamente a soggetti di

sesso maschile sottoposti ad uno specifico trattamento; tale scostamento è risultato pari

a 0,25 ore. Lo stesso trattamento viene applicato ad un campione di 20 soggetti di

sesso femminile, riscontrando uno scostamento quadratico medio, nel tempo di

anestesia, pari a 0,32 ore.

Sapendo che i venti soggetti femminili sottoposti a trattamento presentano, nei

confronti dell'anestetico, le stesse condizioni dei soggetti maschili, si vuole spiegare

l'incremento riscontrato nella variabilità. In altri termini, ci si chiede se l'incremento

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

35

riscontrato sia da attribuire al sesso oppure a fattori aventi natura accidentale.

Il problema può essere formalizzato specificando l'ipotesi nulla e l'ipotesi

alternativa nei termini che seguono

0,25��:H 2m

2f0 ==

20 f:H σ > 2502 ,m =σ

dove σf sta ad indicare lo scostamento quadratico medio relativo alla popolazione di

sesso femminile, σm lo scostamento quadratico medio relativo alla popolazione di sesso

maschile.

Sotto l'ipotesi nulla, e cioè a condizione che l'ipotesi nulla sia vera, la variabile

casuale test

2m

2

S19w

⋅=

dove

∑=

−=20

1i

2i

2 )X(X19

1S

rappresenta la varianza calcolata sul campione di venti soggetti femminili, avrà una

distribuzione del tipo χ2 con 19 gradi di libertà. Relativamente allo specifico

campione si ha

2

2

0,25

0,3220w

⋅=

Se si fissa un livello di significatività nell'ordine del 5%, si può determinare, sulla

scorta delle tavole della distribuzione χ2, il valore critico c per il quale risulta

soddisfatta la relazione

P (W ≤ c) = 0,95

Poiché risulta essere c = 30,1, la zona di accettazione sarà data dall'intervallo

0 ___ 30,1, mentre la regione critica risulterà espressa dall'intervallo 30,1 ___ + ∞.

Stante tale situazione si rifiuta l'ipotesi nulla; si rifiuta, cioè, l'ipotesi che la differenza

riscontrata nella variabilità sia da attribuire al caso.

Se il livello di significatività viene fissato nell'ordine dell'1%, si deduce un valore

critico c = 36,2. In tal caso, e cioè al livello di significatività dell'1%, il valore

campionario ricadrebbe nella zona di accettazione della ipotesi nulla; verrebbe pertanto

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

36

attribuita al caso la differenza riscontrata.

Esempio 11

Una fabbrica di batterie di automobili dichiara che il proprio prodotto presenta

una variabilità nella durata (misurata dalla varianza) pari a 0,8 (σ2

= 0,8). Un campione

casuale di 16 batterie viene sottoposto a prova evidenziando una varianza corretta pari a

1. Si vuole verificare, al livello di significatività del 5% (α = 0,05) se la varianza nella

durata del prodotto è superiore a 0,8.

La formulazione delle ipotesi per il problema in esame è

0,8 : H 2 =σ0

: H 2σ0 > 0,8

mentre la v.c. test di riferimento è

( )2

2SnW

1 ⋅−=

che, nell'universo dei campioni, ha una distribuzione del tipo χ2 con n - 1 gradi di

libertà.

Per α = 0,05 e (n – 1) = 15 gradi di libertà il valore critico risulta essere

24,996 , =2050χ , pertanto la regola di decisione sarà (test unidirezionale): si accetta H0

se il χ2 empirico è ≤ 24,996, si rifiuta H0 se il χ2 empirico è > 24,996.

Essendo ( )

24,996 18,7 0,8

115

S1n

2

2

22 ≤=−=−= si accetta l'ipotesi H0.

- Test sulle frequenze

Volendo utilizzare la teoria del test delle ipotesi per risolvere un problema di

verifica d'ipotesi sulle frequenze relative (probabilità) di un particolare evento, si può

procedere come illustrato nelle pagine precedenti; si fissa cioè un livello α di

significatività (probabilità dell'errore di I tipo) e si individua poi la regione critica (di

rifiuto dell'ipotesi nulla formulata) che massimizza la potenza del test (probabilità di

non commettere un errore di II tipo).

Se la dimensione del campione è sufficientemente elevata per sottoporre a test

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

37

un'ipotesi su una probabilità si può fare ricorso alla distribuzione normale essendo

questa una approssimazione abbastanza buona della distribuzione binomiale per n

sufficientemente elevato e n p > 5, n q > 5, dove n rappresenta la dimensione

campionaria, p la probabilità dell'evento che interessa e q = 1-p la probabilità

contraria.

In particolare se X rappresenta il numero di successi in n prove bernoulliane

(prove indipendenti), la proporzione campionaria

n

X p̂ =

ha una distribuzione approssimativamente normale con media p e varianza n

q p⋅.

Se si vuole quindi sottoporre a test una specifica ipotesi, al livello di significatività

α, del tipo 00 pp:H = contro l'ipotesi alternativa p:H 0 > 0p si può fare ricorso alla

variabile casuale normale standardizzata

n / qp

p-p̂ Z 0

⋅=

0

dove q0 = 1-p0 . Si rifiuterà l'ipotesi se n / qp

p-p̂ 0

⋅0

> αZ cioè se

p̂ >n

qpZp 00

0

⋅+ α dove αZ è il valore (punto critico) della distribuzione normale

standardizzata che ha alla sua destra l'α% dei casi.

Si noti che l'ipotesi nulla 00 pp H == non specifica solo la media p0 della

distribuzione bernoulliana ma anche la varianza 00 q p ⋅ .

Esempio 12

Si supponga di voler sottoporre a test l'ipotesi 2/3 H0 ≤ contro l'ipotesi

alternativa 0H > 32 / disponendo di un campione di 200 osservazioni indipendenti

che evidenzia una frequenza relativa 0,75 200 / 150 p̂ == . Poiché sotto l'ipotesi

nulla H0, la proporzione campionaria �p ha una distribuzione approssimativamente

normale con media 2/3 p = e varianza 1/900 n / qp =⋅ , se si sceglie il livello di

significatività α = 0,05, il punto critico che delimita la regione critica sarà 1,645 z =α .

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

38

Pertanto l'ipotesi nulla 2/3 p : H =0 dovrà essere rifiutata quando

1,645 30 / 1

2/3 - p≥

Cioè quando

0,722 30 / 1,645 3 / 2 p̂ =⋅+≥ 1

Essendo 0,75 P̂ = > 0,722, l'ipotesi nulla 320 =p:H viene rifiutata al livello

di significatività del 5%.

Come illustrato nelle pagine precedenti essendo l'ipotesi alternativa composita

non sarà possibile determinare la potenza del test e il valore α = 0,05 il valore

massimo della probabilità dell'errore di I tipo. Se si specificasse l'ipotesi alternativa in

termini di un preciso valore numerico risulterebbe possibile, come chiarito in

precedenza, calcolare la potenza del test.

Nella tabella che segue, per α= 0,01 e α = 0,05, sono riportati i valori assunti

dalla funzione forza del test in corrispondenza di alcune particolari specifiche

dell'ipotesi alternativa.

α = 5% α = 1%P

200 / qp ⋅200/qp

p0,722

⋅− potenza

200/qp

p0,744

⋅− potenza

0,60 0,0346 3,517 0,000 4,170 0,000

0,65 0,0337 2,128 0,017 2,798 0,003

0,67 0,0332 1,557 0,059 2,238 0,012

0,69 0,0327 0,969 0,166 1,661 0,048

0,71 0,0321 0,364 0,358 1,069 0,142

0,73 0,0314 -0,264 0,604 0,455 0,325

0,75 0,0306 -0,625 0,822 -0,186 0,574

0,77 0,0297 -1,626 0,948 -0,865 0,806

0,79 0,0288 -2,372 0,991 -1,587 0,944

0,81 0,0277 -3,188 0,999 -2,373 0,991

0,83 0,0266 -4,071 1,000 -3,222 1,000

Tab. 3 - Potenza del test relativo all'ipotesi dell'esempio 13.

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

39

Ovviamente anche in riferimento alle proporzioni (probabilità) si possono

presentare casi di test d'ipotesi del tipo 00 p p : H = contro l'alternativa bidirezionale

01 p p : H ≠ od anche 100 p p p : H ≤≤ contro l'alternativa H1: ( p < p0 ) ∪ ( p > p1 ).

Esempio 13

Si supponga di avere a che fare con una distribuzione bernoulliana e di voler

sottoporre a test l'ipotesi nulla 0,5p : H0 = al livello di significatività α = 0,05

Si ammetta, inoltre, di poter disporre di un campione di n = 100 osservazioni

indipendenti e di volere calcolare la potenza del test in riferimento a ciascuna delle

seguenti specifiche dell'ipotesi alternativa

0,55p : H a) 1 =

0,60p : H b) 1 =

650,p : H )c 1 =

0,70p : H )d 1 =

0,75p : H e) 1 =

Essendo sufficientemente elevata la dimensione campionaria e risultando,

inoltre, n p e n q superiori a 5, si può approssimare la distribuzione binomiale con la

distribuzione normale che, quando l’ipotesi nulla 0,5p : H0 = è vera, ha media

500,50100pn� =⋅=⋅= e varianza 25 0,50,5100 qpn �2 =⋅⋅=⋅⋅= .

Poiché α = 0,05 si rifiuta l'ipotesi nulla 0,5p : H0 = quando la determinazione

campionaria della variabile casuale normale standardizzata

qpn

pnX- Z

⋅⋅⋅=

assume un valore superiore al punto critico c = 1,65 che è il valore che soddisfa la

relazione (quando l'ipotesi nulla è vera)

0,05 1,65 5

50X- P =

e in modo equivalente

( ) 0,05 1,65550 X P =⋅+≥

cioè

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

40

( ) 0,05 58 X P =≥

La potenza di un test è misurata dalla probabilità di rifiutare un'ipotesi H0 quando

questa è falsa, si dovrà allora calcolare la probabilità X > 58 per ciascuna specifica

dell'ipotesi alternativa cioè

( ) 0,05 H / 58 X P 1 =≥

I valori della potenza del test per i vari casi richiesti sono riportati nella tabella che

segue

H1 m = n p qpn � ⋅⋅= Z³

¬X=

−Potenza

p = 0,55 55 4,97 0,50 0,308

p = 0,60 60 4,90 -0,51 0,695

p = 0,65 65 4,77 -1,57 0,942

p = 0,70 70 4,58 -2,73 0,997

p = 0,75 75 4,33 -4,04 1,000

Tab. 4 - Valori della potenza del test

Esempio 15

Relativamente ad una distribuzione bernoulliana si vuole risolvere il problema di

test d'ipotesi

0,5 p : H0 =

3/2 p : H1 =

al livello di significatività α= 0,01 e presupponendo la disponibilità di 36 osservazioni

campionarie indipendenti. Si vuole evidenziare, inoltre, la crescita della potenza del test

al crescere della dimensione campionaria considerando in particolare i valori n = 36,

64, 100, 144 e 196.

La distribuzione binomiale può essere approssimata dalla distribuzione normale

essendo, in tutti i casi considerati, la dimensione campionaria sufficientemente elevata e

np, nq maggiore di 5.

Per ciascuna specifica del valore n si calcola la media µ = n p e lo scostamento

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

41

quadratico medio qpn � ⋅⋅= in corrispondenza del valore p = 0,5

n µ = n p qpn ⋅⋅=σ

36 18 3

64 32 4

100 50 5

144 72 6

196 98 7

Poiché il valore p specificato dall'ipotesi alternativa H1, è più elevato di quello

specificato dall'ipotesi nulla, al livello di significatività α = 0,01, rifiutiamo l'ipotesi H0

quando la determinazione campionaria della variabile casuale normale standardizzata

assume un valore superiore al valore critico c = zα = 2,3 essendo questo il valore che

soddisfa la relazione

0,01 2,33 3

18X- P =

ed anche

( ) 0,01 18 2,333 X P =+⋅≥

da cui

( ) 0,01 24,99 X P =≥

I valori critici in corrispondenza degli altri valori di n sono

41,32 32 2,334 64 n =+⋅⇒=

61,65 50 2,335 100 n =+⋅⇒=

85,98 72 2,336 144 n =+⋅⇒=

114,31

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

42

( ) 0,86 1,0658- Z P 4,71

66,67-61,65 Z P 100 n =≥=

≥⇒=

( ) 0,95 1,7703- Z P 5,66

96-85,98 Z P 144 n =≥=

≥⇒=

( ) 0,99 2,4788- Z P 6,60

,67130'-114,31 Z P 196 n =≥=

≥⇒=

- Determinazione della dimensione del campione

Nella trattazione fino ad ora svolta è stata considerata fissa la dimensione

campionaria, si presentano però spesso situazioni in cui non ci si limita alla fissazione

del solo livello di significatività avendo anche interesse a che la potenza del test non sia

inferiore ad una certa soglia. Per poter conseguire un tale obiettivo si potrà intervenire

convenientemente sulla dimensione campionaria.

Esempio 16

Si consideri, il caso in cui, in riferimento a una distribuzione normale, si voglia

sottoporre a test l'ipotesi nulla

00 � � : H =

contro l'ipotesi alternativa 11 � � : H = > µ0 al livello di significatività α= 0,05 e in

modo tale che la potenza del test ( ) H � 1 non sia inferiore a 0,90. Si ricorda che,

( ) ( ) H � -1 H � 11 = , cioè, che la potenza di un test rappresenta la probabilità di non

commettere un errore di II tipo.

Si rifiuta l'ipotesi nulla quando per la media campionaria vale la disuguaglianza

n

�1,645 � x 0 ⋅+≥

Poiché il vincolo sulla potenza impone il rispetto della relazione

( ) 0,90 n / �1,645 � X P 0 ≥⋅+≥

od anche

0,90 1,645 n / �

��

n / �

�X P 101 ≥

+−≥−

e tenendo presente che il valore Z della variabile casuale normale standardizzata che ha

alla sua destra il 90% dei casi è pari a - 1,282, dovrà essere soddisfatta l'uguaglianza

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

43

1,282- 1,645 n / �

�� 10 =+−

da cui

( )( )[ ] ( )[ ] 2

012

01

2

n / ��

8,567

n / ��

1,282 1,645 n

−=

−+=

se n non è intero si opera una approssimazione per eccesso.

Per 400 � e 110 � ,100 �2

10 === si avrà n = 34, 268, si fissa pertanto la

dimensione campionaria n = 35.

- Confronto tra campioniNelle pagine precedenti è stato analizzato il problema della verifica di ipotesi

statistiche sulla scorta di dati concernenti singoli campioni. Più specificamente, si è

discusso della possibilità di utilizzazione dei dati campionari per la determinazione della

struttura generale di una particolare popolazione rappresentata mediante un modello

probabilistico, di forma nota ma caratterizzato da parametri incogniti.

Verrà analizzato ora il problema del confronto tra due campioni, avendo come

fine l'accertamento delle possibilità di una loro attribuzione alla stessa popolazione o a

popolazioni aventi un parametro caratteristico di uguale valore.

Relativamente a due gruppi di osservazioni campionarie, anche se generati da una

stessa popolazione, si riscontra generalmente una qualche differenza, il problema da

risolvere sarà quindi quello di accertare l'eventuale significatività statistica di una tale

differenza. Evidentemente, ogni conclusione favorevole alla significatività di una

differenza, comporterà l'attribuzione dei due campioni, cui la differenza si riferisce, a

popolazioni distinte.

Nei punti seguenti le considerazioni saranno limitate in modo quasi esclusivo al

problema del confronto di medie relative a campioni estratti da popolazioni normali.

Si supponga di avere a disposizione un gruppo di m osservazioni campionarie

casuali relative ad una popolazione normale X di media incognita µx e varianza nota

2x�

ed un secondo gruppo di n osservazioni campionarie casuali relative ad una popolazione

normale Y di media incognita µy e varianza nota

2y� . Si supponga, inoltre, di volere

stabilire se la differenza eventualmente riscontrata tra le due medie campionarie y e x

sia da attribuire al caso o al fatto che le due medie µx e µ

y, delle popolazioni che hanno

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

44

generato i due campioni, sono diverse; si vuole in altri termini decidere per l'eventuale

significatività statistica della differenza.

Il problema di cui sopra può essere formalizzato attraverso una specificazione

dell'ipotesi nulla e dell'ipotesi alternativa seguendo la linea di ragionamento descritta

nelle pagine precedenti. Le possibili formulazioni, strettamente legate alla problematica

dell'analisi che si sta conducendo, portano alla considerazione dei tre casi seguenti:

Caso a) H0 : µ

x = µ

y

H1 : µ

x > µ

y

Caso b) H0 : µ

x = µ

y

H1 : µ

x < µ

y

Caso c) H0 : µ

x = µ

y

H1 : µ

x ≠ µ

y

La variabile casuale

n / � m / �

Y-X Z

2y

2x

yx+

=−

ha, quando l'ipotesi nulla è vera, legge di distribuzione normale standardizzata. Avendo

individuato la legge di distribuzione di una funzione (quella che interessa) degli

elementi campionari, sarà facile definire la regione critica e quella di accettazione per la

risoluzione dei problemi indicati. Infatti, poiché nell'espressione sopra riportata compare

la differenza tra le due medie campionarie, sarà facile l'estensione di quanto detto a

proposito di una singola media al caso presente.

I valori critici nei tre casi proposti si derivano facilmente dalle relazioni:

Caso a) P ( Z > c / µx = µy ) = α

si accetta l'ipotesi H0 se z < c, si rifiuta altrimenti:

Caso b) P ( Z <- c / µx = µy ) = α

si accetta l'ipotesi H0 se z > - c, si rifiuta altrimenti;

Caso c) P ( Z < - c / µx = µy ) = α/2

si accetta l'ipotesi H0 se - c < z < c, si rifiuta altrimenti.

Nei tre casi considerati z rappresenta la specifica determinazione della variabile

casuale normale standardizzata Z.

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

45

Nelle indagini sperimentali ove i test statistici vengono applicati regolarmente per

lunghi periodi di tempo, non risulta difficile una misura precisa della variabilità dei

risultati; in tali casi potrà essere applicata la teoria sopra esposta, ogni qual volta si

voglia procedere ad un confronto fra medie, attraverso un semplice ricorso alle tavole

della distribuzione normale standardizzata. Va rilevato però che sono molto più

frequenti i casi in cui la variabilità risulta essere anch'essa, oltre i valori medi, una

incognita del problema.

Esempio 17

Per un campione casuale di 120 studenti dell'università di Firenze si rileva un'età

media di 20,2 anni ed una varianza (campionaria corretta) pari a 1,44. Per un campione

casuale di studenti dell'università di Roma i valori riscontrati sono invece 21 anni e

2,25. Prefissando una probabilità di errore di I tipo a livello α = 0,05, si vuole

verificare statisticamente l'uguaglianza nell'età media tra gli studenti dei due Atenei.

Se con µx si indica l'età media degli studenti dell'Università di Firenze e con µy

l'età media degli studenti dell'Università di Roma il problema di test da risolvere è:

H0 : µ

x = µ

y

H1 : µ

x ≠ µ

y

Essendo le dimensioni campionarie sufficientemente elevate si può ritenere

accettabile la congettura che la variabile casuale campionaria

( ) ( )y-x

yx

S

� - � - Y-X

dove Y e X sono le due medie campionarie e

n / S m / S S 2y

2xyx +=−

( 2xS e 2

yS le due varianze campionarie corrette) ha, nell'universo dei campioni, una

distribuzione approssimativamente normale e può pertanto essere utilizzata quale v.c.

test.

La regione di accettazione di H0 resta definita dall'intervallo -1,96 |–| 1,96

mentre la regione di rifiuto è data dai due intervalli -∞ |–| -1,96 e 1,96 |–| +∞.

Essendo la determinazione della variabile casuale test sotto l'ipotesi H0 pari a

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

46

4,30- 100 / 1,5 120 / 1,2

21-20,2

s

yx22

yx

=+

=−

e quindi non compresa nell'intervallo -1,96 |–| 1,96 si rifiuta l'ipotesi formulata di

uguaglianza nell'età media degli studenti dei due Atenei al livello di significatività del

5%.

Esempio 18

Un recente rapporto dell'Istituto Italiano di Ricerche sulla Popolazione afferma

che l'età media al matrimonio delle persone che non conseguono il titolo di studio di

scuola media superiore è inferiore a quello di coloro che conseguono tale titolo. Si

vuole verificare, al livello di significatività del 5% (α = 0,05), tale affermazione avendo

a disposizione due campioni casuali di 100 individui delle due categorie ed avendo

riscontrato: per coloro che non posseggono un titolo di scuola media superiore un'età

media al matrimonio pari a 22,5 anni e una varianza (campionaria corretta) pari a 1,96,

mentre quelli che posseggono il titolo hanno evidenziato un'età al matrimonio di 23

anni e una varianza (campionaria corretta) pari a 3,24.

Se con µx e µy si indica l'età media al matrimonio, rispettivamente, di coloro

che non posseggono il titolo di scuola media superiore e di coloro che lo posseggono, il

problema di test (unidirezionale) da risolvere è

yx1

yx0

� �:H

� �:H

<

Essendo la dimensione campionaria sufficientemente elevata, la v.c. campionaria

( ) ( )y-x

yx

S

� - � - Y-X

dove X e Y sono le medie campionarie, n / S m / S S 2y

2xYX

+=− , 2xS e 2

yS sono

le due varianze campionarie corrette, ha, nell'universo dei campioni, distribuzione

approssimativamente normale. Pertanto il valore critico -Zα = -1,64 individua la

regione critica nell'intervallo –1,64 —| +∞, mentre la regione di accettazione è definita

da -∞ |— -1,64.

La determinazione empirica della variabile casuale test sotto l'ipotesi nulla H0 è

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

47

2,18- 0,229

0,5-

100 / 1,8 100 / 1,4

23-22,5

s

0-y-x z

22y-x

==+

==

che risulta inferiore a -1,64. Si rifiuta pertanto l'ipotesi H0 : µx ≥ µy, concludendo che

l'età media al matrimonio di coloro che non hanno conseguito il diploma di scuola

media superiore è più bassa dell'età media al matrimonio di coloro che hanno

conseguito il titolo.

Si indichino con X e due variabili casuali normali di medie incognite µx e µy

e di varianze pure incognite σx2 = σy

2 = σ2. Supponendo di disporre di due gruppi di

osservazioni casuali indipendenti sulle variabili X e Y, si possono risolvere i problemi

a), b) e c) trattati al punto precedente facendo ricorso alla variabile casuale t di Student

anziché alla normale standardizzata. Infatti, essendo la varianza comune alle due

popolazioni incognita, si deve sostituire, nella formula precedente, a σ2 una sua stima.

Così operando si ottiene la variabile casuale

/n1/m1S

YXT

+−=

dove S2 rappresenta la stima di σ2 ottenuta combinando opportunamente (media

aritmetica ponderata delle varianze campionarie) le informazioni disponibili. In

particolare si ha

( ) ( )2-nm

S1-n S1-m S

2y

2x2

++

=

per m e n dimensioni dei due campioni e

∑∑−=

−−

=−−

=n

1n

2i

2y

m

1i

2i

2x )y(y

1n

1S ; )x(x

1m

1S

Si controlla facilmente come la variabile casuale T, definita nella relazione sopra

scritta, deriva dal rapporto fra una variabile casuale normale standardizzata e la radice di

una variabile casuale 2 divisa per i propri gradi di libertà. Tale variabile avrà legge di

distribuzione del tipo t di Student con m+n-2 gradi di libertà, poiché le due variabili

poste a rapporto sono indipendenti.

I valori critici c per i tre casi a), b) e c), considerati al punto precedente, derivano

dalle relazioni

Caso a) P (T > c / µx = µy) = α

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

48

si accetta l'ipotesi H0 se t < c, si rifiuta altrimenti:

Caso b) P (T < - c / µx = µy) = α

si accetta l'ipotesi H0 se t > - c, si rifiuta altrimenti:

Caso c) P (T < - c / µx ≠ µy) = α/2

si accetta l'ipotesi H0 se - c < t < c, si rifiuta altrimenti.

Dopo aver individuato il valore critico c, mediante l'uso delle tavole della

distribuzione t, relativamente al caso che interessa (uno dei tre sopra considerati), si

porrà a confronto tale valore critico con la determinazione campionaria specifica t della

variabile casuale T.

Esempio 19

Si consideri la seguente tabella dove vengono riportati i risultati relativi a

campioni di osservazioni su due diverse famiglie di mycelio fungino della stessa specie.

Famiglia A Famiglia B

246,3 246,2239,2 247,1257,3 244,9

Tab. 5 - Peso secco in mg. di mycelio fungino relativo a due famiglie appartenenti alla

stessa specie

Relativamente al fenomeno che si sta analizzando, si può ritenere sufficientemente

buona l'approssimazione normale e ipotizzare, trattandosi di funghi della stessa specie,

un'uguale variabilità dei risultati in corrispondenza delle due famiglie; in tal caso ci si

trova ad operare su due campioni estratti da popolazioni normali di uguale varianza

(incognita).

Si supponga di voler verificare statisticamente l'ipotesi (di uguaglianza fra il peso

medio, µx, dei funghi appartenenti alla famiglia A ed il peso medio µy, dei funghi

appartenenti alla famiglia B) Ho : µx = µy contro l'ipotesi alternativa H1 : µx ≠ µy al

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

49

livello di significatività α = 0,05. La procedura di test da applicare dovrà essere quindi

di tipo bidirezionale.

Per quanto detto sopra, il valore critico c (c > 0), suddividerà lo spazio

campionario (-∞ |—| +∞) relativo alla variabile casuale test T di riferimento, in una

zona di accettazione costituita dall'intervallo -c |—| c e in una zona di rifiuto costituita

dagli intervalli -∞ |—| -c , c |—| +∞.

Sulle tavole della distribuzione t di Student, in corrispondenza a 4 gradi di

libertà, si individua il valore c che soddisfa la relazione

P (T < - c/µx = µy) = 0,025

che risulta essere 2,78. Tale valore critico c = 2,78 dovrà essere posto a confronto con

la determinazione specifica della variabile casuale T.

Dalle informazioni campionarie derivano i seguenti valori

x = 247,6 , y = 246,1, 1,22s , 83,17s 2y

2x ==

e quindi S2 = 42,195 . La derivazione specifica della variabile casuale T sarà pertanto

0,28285,3038

1,5

3/242,195

246,1247,6t ==

⋅−=

Poiché

t = 0,28 < c = 2,78

l'ipotesi nulla H0 : µx = µy non viene rifiutata al livello di significatività del 5%

ricadendo la determinazione t di T nell'intervallo -c |—| c. Tale fatto, comporta

sostanzialmente l'accettazione dell'ipotesi che i due campioni provengano da una stessa

popolazione, ed una attribuzione delle differenze campionarie riscontrate a fattori aventi

carattere puramente accidentale.

Nell'esempio specifico, potrebbe interessare una diversa ipotesi alternativa; ad

esempio l'ipotesi che il peso medio dei funghi appartenenti alla famiglia A sia più

elevato del peso medio dei funghi appartenenti alla famiglia B (H1 : µx > µy). In tale

eventualità, allo stesso livello α = 0,05 di significatività, risulta un valore critico

c = 2,13 che comporta come nel caso di ipotesi alternativa bidirezionale, una

accettazione dell'ipotesi nulla H0 : µx = µy.

Esempio 20

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

50

Si supponga di dover decidere sulla durata di due diverse marche di lampadine di

ugual prezzo avendo verificato la durata di 100 lampadine di ciascuna marca e

riscontrato i seguenti valori campionari: medie campionarie x = 1.180, y = 1.160,

varianze campionarie corrette 2xs = 14.400, 2

xs = 1.600. La decisione deve essere presa

al livello di significatività α = 0,05.

Il problema decisionale può essere impostato nei seguenti termini

yx0 � � : H =

yx1 � � : H ≠

o, in modo equivalente

0 � � : H yx0 =−

0 � � : H yx1 ≠−

dove x� e y� rappresentano la durata media delle lampadine, rispettivamente, della

prima e della seconda marca.

Per risolvere il problema di test d'ipotesi si può fare riferimento alla distribuzione

normale essendo sufficientemente elevata la dimensione campionaria. La differenza tra

le due medie campionarie YX − avrà, pertanto, nell'universo dei campioni, una

distribuzione approssimativamente normale con media yx �� − e varianza

n / � m / � �2y

2x

2yx +=−

Al livello di significatività α = 0,05 , i valori critici che individuano la regione di

accettazione sono 1,96- z- c 2¡�1 == e 1,96 z c 2¡�2 == . Inoltre, sotto l'ipotesi

nulla H0 il valore campionario assunto dalla variabile casuale test è pari a

( )1,58

100/160014400

11601180z =

+−=

Essendo il valore 1,58 incluso nell'intervallo - 1,96 |—| 1,96 si accetta l'ipotesi di

uguale durata delle due diverse marche di lampadine, attribuendo a fattori accidentali la

differenza di durata riscontrata nei due campioni.

- Dati appaiati

Nelle pagine precedenti è stato considerato il problema del confronto fra due

campioni nell'ipotesi di indipendenza assoluta tra gli elementi che li compongono; nel

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

51

lavoro di ricerca può accadere però di dover analizzare situazioni nelle quali una tale

condizione non risulta completamente soddisfatta. Può accadere cioè che tra le

osservazioni, relative ai due campioni che devono essere sottoposti a confronto, esista

una qualche relazione in modo tale da rendere possibile un confronto diretto fra ogni

osservazione di un campione con la controparte dell'altro campione. Un esempio

classico è rappresentato dal caso in cui le coppie di osservazioni siano relative ad una

stessa unità statistica (la stessa unità sperimentale prima delle cura e dopo la cura, il

fatturato di una stessa azienda prima e dopo una specifica campagna pubblicitaria, ecc.)

anche se vanno naturalmente riferite, almeno a priori, a due differenti popolazioni.

Si indichi con ( Xi , Yi ) l'i-esimo elemento di un insieme costituito da n coppie

di osservazioni, e si assuma che la differenza Vi = Xi

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

52

n.progressivo Percentuale di amido Differenzedelle patate metodo di mis A.metodo di mis. B.

(x) (y)

1 21,7 21,5 0,22 18,7 18,7 0,03 18,3 18,3 0,04 17,5 17,4 0,15 18,5 18,3 0,26 15,6 15,4 0,27 17,0 16,7 0,38 16,6 16,9 -0,39 14,0 13,9 0,1

10 17,2 17,0 0,211 21,7 21,4 0,312 18,6 18,6 0,013 17,9 18,0 -0,114 17,7 17,0 0,115 18,3 18,5 -0,216 15,6 15,5 0,1

Tab. 6 - Percentuale di amido presente in 16 patate

Dai dati della tabella si ottiene

0,17 s; 0,075v v ==

ne risulterà pertanto una determinazione campionaria della variabile casuale T pari a

17 0,17

40,075 t =⋅=

Se interessa sottoporre a test l'ipotesi nulla 0 � : H v 0 = contro l'ipotesi alternativa

0 � : H v1 ≠ (che sono equivalenti a H0 : µx = µy e H

1 : µx ≠ µy), dobbiamo ricercare

il valore critico c che soddisfa la relazione

P ( -c ≤ T ≤ c) = 0,95

Dalle tavole della distribuzione t di Student, in corrispondenza a 15 gradi di

libertà, risulta

c = 2,131

Essendo t = 1,7 < c = 2,131, si deve accettare la ipotesi di uguaglianza tra i due

metodi di misura della percentuale di amido nelle patate.

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

53

Esempio 22

I corsi per la lettura veloce dei testi sono ormai abbastanza popolari e diffusi. Si

supponga che una particolare azienda di fornitura di servizi abbia fatto partecipare dieci

suoi dipendenti, scelti casualmente, ai suddetti corsi e che abbia registrato i seguenti

risultati

Impiegato Valutazione capacità Valutazione capacitàdi lettura dopo il corso di lettura prima del corso

1 221 2112 231 2163 203 1914 216 2245 207 2016 203 1787 201 1888 179 1599 179 177

10 211 197

La valutazione della capacità di lettura risulta da una combinazione della velocità

e della comprensione del testo letto.

Cosa si può concludere riguardo all'efficacia del corso?

La valutazione delle capacità di lettura è stata effettuata sugli stessi individui

prima e dopo la partecipazione al corso, si tratta perciò di dati appaiati del tipo (xi, y

i),

dove yi rappresenta la valutazione dopo la partecipazione al corso mentre x

i la

valutazione prima della partecipazione. Se si indicano con µy e µx le valutazioni

medie teoriche relative alle due situazioni (prima e dopo il corso) configurate, il

problema di verifica d'ipotesi ha la seguente formulazione

yx0 � � : H =

x1 � : H > y�

e può essere risolto facendo riferimento alla variabile casuale test

n/S

VT

v

vµ−=

dove

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

54

yx

n

ivii );XY(

nV µµµ −=−= ∑

=1

1

( )[ ]∑=

−−−

=n

iiiv VXY

nS

1

2

1

1

che, nell'universo dei campioni, ha distribuzione t di student con n-1 gradi di libertà.

Sotto l'ipotesi H0, per 10-1 = 9 gradi di libertà e al livello di significatività

α = 0,01, il punto critico (test unidirezionale) è t = 2,82. La regola di decisione è quello

di rifiutare l'ipotesi H0 se il t empirico è ≥ 2,82 accettare l'ipotesi se il t empirico è

inferiore a 2,82. Poiché 289910 ,s;,v v == il t empirico

715310289

910

10,

/,

,

/s

vt

v

===

è maggiore di 2,82 ,si rifiuta, pertanto, l'ipotesi d'uguaglianza con una probabilità

d'errore del 5%. Si rifiuta cioè l'ipotesi che la partecipazione al corso non abbia

influenza sulla capacità di lettura degli individui che ne fruiscono.

Va rilevato che per la risoluzione dei problemi di confronto considerati nei due

esempi precedenti si poteva fare riferimento, presupponendo l'indipendenza dai due

campioni, alla variabile casuale test T; in tal caso la stima della varianza incognita σ2

( )22y

2x � � � == si poteva ottenere, come abbiamo visto, attraverso una combinazione

delle stime calcolate sui singoli campioni. Va però osservato che il test t applicato alle

coppie di osservazioni, presenta il vantaggio d'eliminare l'influenza di fattori estranei in

quanto essi, avendo lo stesso effetto su ciascuna unità campionaria, verrebbero a

compensarsi nelle differenze vi. Va inoltre detto che la procedura di test basata sulla

singola osservazione, almeno così come è stata esposta, parte dall'assunto che i dati

campionari derivino da popolazioni con identica varianza mentre la procedura di test

esposta in questo punto non richiede necessariamente il soddisfacimento della

condizione di uguaglianza delle varianze.

Nel caso in cui sia soddisfatta la condizione ( )22y

2x ��� == e si abbia ragione di

ritenere che i risultati sperimentali non siano influenzati da fattori estranei (campioni

indipendenti), è da preferire la procedura di test esposta al punto precedente. Infatti, con

una tale procedura si opera disponendo di (2n-2) gradi di libertà, il che implica una

potenza del test, rispetto alla potenza del test svolto in questo punto che è basato su

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

55

(n-1) gradi di libertà, tanto più elevata quanto più piccola è la dimensione del campione.

Una logica estensione di quanto sopra detto risulta essere l'analisi del problema

relativo al confronto tra varianze di popolazioni normali.

Si ammetta di poter disporre di due campioni di osservazioni indipendenti, il

primo n21 X,....,X,X , relativo alla variabile casuale normale X di media x� e

varianza 2x� ; il secondo, n21 Y,....,Y,Y relativo alla variabile casuale normale Y di

media y� e varianza 2y� .

La variabile casuale espressa dal rapporto tra le due varianze campionarie

2y

2x

S

S F =

avrà nell'universo dei campioni, quando 2x� =

2y� , legge di distribuzione del tipo F

con (m - 1) e (n - 1) gradi di libertà. Infatti se l'ipotesi 2y

2x0 � � : H = è vera si ha

( ) ( )

( ) ( ) 2y

2x

2y

2y

2x

2x

S

S

1n- / S1n

1m- / S1m

=−

ma nel primo membro dell'uguaglianza si è istituito un rapporto tra i due variabili

casuali indipendenti del tipo χ2 divise per i rispettivi gradi di libertà; come già detto

tale rapporto dà luogo a una variabile casuale F.

Se si vuole quindi risolvere il problema espresso dalle ipotesi

2y

2x0 : H �� =

2x1 � : H > 2

y�

basterà fissare il livello di significatività α , e determinare poi il valore critico c che

bipartisce l'intervallo 0 + ∞ (ricorda che la variabile casuale F è definita in

tale intervallo) in modo che sia

( ) α � � / c F P 2y

2x ==≥

Si accetta l'ipotesi nulla 2y

2x0 � � : H = se la determinazione f della variabile casuale F,

relativa al campione specifico, risulta inferiore al valore critico, si rifiuta altrimenti.

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

56

Esempio 23

Un campione di 20 ragazzi e di 15 ragazze è stato sottoposto a una prova d'esame.

La votazione media dei ragazzi è stata 78/100, mentre quella delle ragazze è stata

84/100; la variabilità dei risultati, misurata dallo scostamento quadratico medio

corretto, è stata, rispettivamente, pari a 6/100 per i ragazzi e 8/100 per le ragazze. Si

vuol sottoporre a test l'ipotesi di uguaglianza delle varianze 2x� e 2

y� nelle due

popolazioni contro l'ipotesi alternativa 2x� < 2

y� , al livello di significatività α = 0,05,

presupponendo la normalità delle due distribuzioni.

Il problema di test d'ipotesi può essere formulato nei seguenti termini

220 yx:H σσ =

2x1 �H = < 2

y�

Poiché le variabili casuali

2

2 1

x

x )m(S

σ−

e 2

2 1

y

y )n(S

σ−

dove m ed n rappresentano le dimensioni campionarie, 2xS e 2

yS le varianze

campionarie corrette, hanno nell'universo dei campioni distribuzione del tipo χ2 con,

rispettivamente, (m - 1) ed (n - 1) gradi di libertà ed essendo i due campioni

indipendenti, la variabile casuale

( ) ( )

( ) ( ) 2x

2y

2y

2x

2y

2y

2x

2x

S

S

1n- / S1n

1m- / S1m

⋅=−

è distribuita secondo una F di Fisher-Snedecor con (m-1) e (n-1) gradi di libertà.

Sotto l'ipotesi nulla 220 yx:H σσ = , cioè quando l'ipotesi nulla è vera, la variabile

casuale diventa

2y

2x

S

S F =

Il valore critico che definisce la zona di accettazione al livello α = 0,05 di

significatività è 2,26 F c == α , che rappresenta la particolare determinazione della

variabile casuale F, con 15-1 = 14 e 20-1 = 19 gradi di libertà e che ha alla sua

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

57

destra il 5% dei casi.

Essendo il valore campionario

1,78 6

8 F

2

2

==

inferiore al valore critico 2,26 si accetta l'ipotesi di uguale varianza attribuendo a

fattori accidentali la differenza riscontrata nel campione.

Esempio 24

Lo scostamento quadratico medio dello spessore di una particolare lamina

metallica già in commercio è sufficientemente ridotto il che consente un suo facile

utilizzo nella fase di assemblaggio della componente stessa. Un nuovo produttore di

lamine metalliche afferma che il suo prodotto, offerto ad un prezzo inferiore, presenta

una variabilità dimensionale non superiore a quello già presente nel mercato.

Due campioni casuali di 100 lamine dei due prodotti vengono sottoposti a

misurazione evidenziando i seguenti risultati

( ) 0,041 99 /xx S100

1i

2i

2x =−= ∑

=

per il prodotto X già presente sul mercato,

( ) 580,0 99 /yy S

100

1i

2i

2y =−= ∑

=

per il nuovo prodotto Y.

Si chiede se risulta conveniente procedere all'acquisto del nuovo prodotto al

livello di significatività del 5%.

Le ipotesi per il problema sono

2y

2x0 :H �� ≤

2x1 � :H > 2

y�

La variabile casuale test di di riferimento

( ) ( )

( ) ( ) 2x

2y

2y

2x

2y

2y

2x

2x

S

S

1n- / S1n

1m- / S1m

⋅=−

ha, nell'universo dei campioni una distribuzione del tipo F di Fisher-Snedecor con

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

58

(m - 1) e (n - 1) gradi di libertà.

Nel caso specifico, e sotto l'ipotesi H0 (cioè quando l'ipotesi nulla all’estremo

dell’intervallo di definizione 2y

2x0 :H �� = è vera), si ha il valore critico c = 1,39.

La regola di decisione è quella di rifiutare l'ipotesi H0 se l'F empirico è

superiore a 1,39 mentre di accettare l'ipotesi se l'F empirico è inferiore a 1,39.

Essendo 0,7069 0,0058

0,0041 F == < 1,39 si accetta l'ipotesi H

0 concludendo che,

avendo una probabilità di sbagliare del 5%, la variabilità nello spessore delle nuove

lamine non è inferiore o uguale a quello delle vecchie lamine e non si procede al

cambiamento del fornitore.

- Confronto tra proporzioni

Capita spesso di dover affrontare situazioni in cui interessa accertare se la

proporzione di individui o oggetti in due popolazioni distinte siano uguali o diverse. La

percentuale degli elettori che voterà per il PDS alla prossima consultazione elettorale

sarà la stessa in Toscana e in Emilia Romagna? la percentuale dei bambini vaccinati che

contrae la poliomielite è inferiore a quella dei bambini non vaccinati? ecc. Per poter

rispondere a tali quesiti si effettua una rilevazione campionaria in ciascuna delle

popolazioni di interesse (elettori emiliani ed elettori toscani, bambini vaccinati e

bambini non vaccinati, ecc) e le proporzioni riscontrate nei campioni vengono poste a

confronto.

Le osservazioni campionarie sono variabili di tipo bernoulliano potendo assumere

soltanto i valori 0 (non vota per il PDS) ed 1 (vota per il PDS). Nella prima popolazione

gli indici caratteristici sono xx p � = e xx2x qp � ⋅= , mentre nella seconda popolazione

si ha yy p � = e yy2y qp ⋅=� , dove, naturalmente, px è la probabilità di successo

(voterà per il PDS, non contrarrà la poliomielite, ecc.) nella prima e nella seconda

popolazione.

L'ipotesi nulla può assumere la forma

yx0 p p : H =

contro l'ipotesi alternativa

yx1 p p : H ≠ (ipotesi bidirezionale)

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

59

od anche

p : H x1 < yp

(ipotesi unidirezionali)

p : H x1 > yp

Se si suppone di disporre, rispettivamente, di m rilevazioni campionarie dalla

prima popolazione e n dalla seconda popolazione, la variabile casuale campionaria

yx p̂p̂ − , cioè la differenza tra le proporzioni riscontrate nei due campioni indipendenti

avrà nell'universo dei campioni distribuzione di tipo binomiale con media yx pp − e

varianza n / qp m / qp n / m / yyxxyx ⋅+⋅=+ 22 σσ .

Sotto l'ipotesi nulla p p p : H yx ==0 , cioè se l'ipotesi nulla è vera, la variabile

casuale differenza tra proporzioni campionarie avrà media nulla e varianza

( )/n1 /m1 qp �2

p̂p̂ yx+⋅=− .

Se la dimensione di due campioni è sufficientemente elevata la distribuzione

binomiale può essere approssimata dalla distribuzione normale. Pertanto, sotto l'ipotesi

nulla p p p : H yx ==0 , la variabile casuale campionaria

( ) /n1 /m1 q̂p̂

p̂p̂ Z yx

p̂p̂ yx +⋅

−=−

dove, ( ) ( ) nm / ba p̂ ++= , p̂-1 q̂ = ed a e b rappresentano il numero di successi

riscontrati, rispettivamente, nel primo e nel secondo campione, ha una distribuzione

normale standardizzata.

La procedura di test da adottare è quella illustrata in precedenza, quando si è fatto

riferimento al problema del confronto tra medie per popolazioni normali con identica

varianza incognita. Da sottolineare che in questo caso non si utilizza la distribuzione t

di Student essendo, per assunzione, elevate le dimensioni campionarie.

Esempio 25

Effettuata un'indagine di mercato riguardo al gradimento di un nuovo prodotto,

due differenti gruppi sociali si sono espressi, rispettivamente, a favore nel 45% e nel

55% dei casi.

Avendo inoltre accertato una variabilità nelle risposte (misurata attraverso lo

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

60

scostamento quadratico medio corretto) pari, rispettivamente 0,04 e 0,03 e sapendo che i

due gruppi costituenti il campione degli intervistati sono molto numerosi, si vuole

verificare statisticamente, al livello di significatività del 10%, l'ipotesi che la

percentuale di soggetti favorevole al nuovo prodotto è più elevata nel secondo gruppo

rispetto a quelle del primo gruppo.

Se con xp e yp si indicano le due percentuali di soggetti favorevoli al nuovo

prodotto nel primo e nel secondo gruppo, il problema di test d'ipotesi è

yx0 p p : H =

p : H x1 < yp

od anche

0 p p : H xy0 =−

p p : H xy1 − > 0

Indicando con xp̂ e yp̂ le percentuali che hanno espresso il loro gradimento

del nuovo prodotto, nel primo e nel secondo gruppo sociale, con 2p̂

2p̂

2p̂p̂ yxxy

S S �̂ +=− la

varianza stimata della v.c. differenza, e con 2p̂x

S , 2p̂y

S le varianze campionarie corrette

riscontrate nei due campioni, tenendo inoltre presente le elevate dimensioni

campionarie, la variabile casuale

( ) ( )xy p̂p̂

xyxy

ˆ pp - p̂p̂

−−�

ha, nell'universo dei campioni, distribuzione approssimativamente normale

(standardizzata) e può essere, pertanto, assunta quale v.c. test di riferimento.

Al livello di significatività α = 0,1 il valore critico del test (unidirezionale) è

z = 1,28, pertanto la regione critica resta individuata dall'intervallo 1,28 |—| +∞ mentre

la regione di accettazione è data dall'intervallo - ∞ |—| 1,28.

Poiché, sotto l'ipotesi nulla H0 , la determinazione campionaria delle v.c. test è

2 0,03 0,04

0,45-0,55

�̂

p̂p̂22

p̂p̂

xy

xy

=+

=−

> 1,28

si rifiuta l'ipotesi formulata concludendo che la percentuale di coloro che esprimono

gradimento del nuovo prodotto è superiore nel secondo gruppo sociale rispetto al primo

gruppo.

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

61

Esempio 26

Ad un campione di 325 studenti di sesso maschile e di 200 di sesso femminile è

stato chiesto di esprimersi riguardo all'efficacia di un nuovo ausilio didattico. Tra i

maschi 221 si sono espressi favorevolmente mentre sono state 120 le femmine che

hanno espresso parere favorevole. I risultati campionari sono indice di una differenza

significativa tra maschi e femmine riguardo al loro atteggiamento nei confronti della

efficacia del nuovo ausilio didattico?

Si vuole risolvere il problema per α = 0,05.

Il problema di test delle ipotesi assume la forma

yx0 p p : H =

p : H x1 ≠ yp

o, in modo equivalente

0 p p : H yx0 =−

p p : H xy1 − ≠ 0

dove xp e yp rappresentano, rispettivamente, la proporzione di maschi e di femmine

favorevoli al nuovo ausilio didattico; ovviamente i valori si riferiscono all'intera

popolazione.

La variabile casuale campionaria

( ) ( )yx p̂p̂

yxyx

ˆ pp - p̂p̂

−−�

dove xp̂ , e yp̂ sono le proporzioni di soggetti favorevoli, riscontrate nei due

campioni, ha, nell'universo dei campioni, una distribuzione approssimativamente

normale con media 0 e varianza 1 (normale standardizzata).

Al livello α di significatività del 5% i valori che definiscono la regione critica

sono; 1,96- z- c 2¡�1 == e 1,96 z c 2¡�2 == . Poiché 0,68 325 / 221 p̂x == e

0,60 200 / 120 p̂ y == si ha 0,043 200 / 0,400,60 325 / 0,320,68 ˆyx p̂p̂ =⋅+⋅=−σ

e quindi sotto l'ipotesi nulla yx0 p p : H = , [ ( ) ] 1,86 0,043 / 0 0,60 - 0,68 z =−= .

Essendo il valore campionario 1,86 contenuto nell'intervallo -1,96 |—| 1,96 si

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

62

accetta l'ipotesi nulla di uguaglianza tra le due proporzioni nelle popolazioni attribuendo

alla differenza riscontrata nei campioni natura accidentale.

- Dimensione campionria

Così come per il caso di campioni estratti da una sola popolazione, anche quando

si affronta il problema del confronto tra campioni estratti da due diverse popolazioni, si

può aver interesse nell'introdurre un vincolo sul livello γ della potenza del test per un

prefissato livello α di significatività.

Si supponga, ad esempio, che in riferimento a popolazioni normali una differenza

10 �� yx =− sia rilevante e che si vuole, essere relativamente sicuri nell'individuare

una tale differenza. In termini tecnici tale obiettivo si traduce nell’individuazione di un

test con potenza sufficientemente elevata.

Se si fissano i livelli α = 0,05 e γ = 0,70, il problema sopra posto può essere

risolto formulando l'ipotesi nulla

0 : H yx0 =− µµ

contro l'ipotesi alternativa

� � : H yx1 − > 10

La variabile casuale test

( ) ( ) ( ) ( )n / � m / �

�� - YX

�� - YX2y

2x

yx

y-x

yx

+

−−=

−−

dove 2x� e

2y� sono le varianze delle due popolazioni m e n le dimensioni

campionarie sotto l'ipotesi nulla 0 : H yx0 =− µµ ed al livello di significatività

α = 0,05 deve soddisfare la relazione

0,05 1,645 Y-X

Py-x

=

σ

ed anche

[ ]( ) 0,05 1,645 Y-X P y-x =⋅≥ σ

Il vincolo sulla potenza si traduce nella relazione

0,70 10 - 1,645

10 - Y-X

Py-x

y-x

y-x

=

⋅≥

σσ

σ

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

63

Sapendo che il valore della variabile casuale normale standardizzata Z che ha alla

sua destra il 70% dei casi è pari a -0,524 si avrà

0,524- / 10 - , y-x =σ6451

ed anche

( )222y

2x

2yx 0,524 1,645 / 10 n / � m / � +≤+=−σ

dal quale si possono ricavare i valori di m ed n necessari.

Se, ad esempio, si suppone che 12 � �2y

2x == e che la dimensione campionaria

relativa alla prima popolazione sia m = 7, la dimensione n del secondo campione, al

livello α = 0,05 di significatività e con potenza γ = 0,70 è data dalla relazione

( )2 0,524 1,645 / 100 n / 144 7 / 44 +≤+1

che fornisce

210 n ≥

Esempio 27

Per effettuare una verifica dell'effetto di un vaccino contro la poliomielite si deve

pianificare la rilevazione (dimensionare il campione) in modo da ottenere risultati

significativi sia in termini di probabilità dell'errore di I tipo sia, per le ovvie e rilevanti

conseguenze, in termini di probabilità dell'errore di II tipo.

Vista la scarsa diffusione della malattia, ci si deve aspettare una dimensione

campionaria molto elevata sia nei confronti dei soggetti vaccinati che di quelli non

vaccinati.

Supponendo che la proporzione di bambini colpiti da poliomielite sia di 30 su

100.000 (cioè 0,0003), e che il vaccino sia effettivo al 50%, il che implica una riduzione

del tasso al valore 0,00015, appare ragionevole imporre la condizione di aver un'elevata

probabilità, ad es. pari a 0,90 (=γ = 1-β), di evidenziare una tale differenza.

Imponendo l'uguaglianza delle due dimensioni campionarie m = n si ottiene la

seguente particolarizzazione della formula sopra introdotta

( ) ( )( ) 2

yx

2¢¡yyxx

pp

z z qp qp n m

++⋅+⋅

≥=

dove αz e βz sono le convenienti determinazioni della variabile casuale normale

standardizzata ottenuta in funzione dei prefissati livelli delle probabilità di errore α e β

B.Chiandotto Versione 2000 – Cap.7

Metodi statistici per le decisioni d’impresa

64

Se si assume, quindi, xp = 0,00015, yp = 0,0003, α = 0,05 e β = 0,10, si avrà

( ) ( )[ ] ( )( ) 171.400

0,0003 - 0,00015

1,282 1,6450 0,000310,003 0,00015 - 10,00015 n

2

2

≅+−⋅+⋅≥