Slide Set #5 Tests delle Ipotesi - decg.it · Distribuzione di U sotto le due ipotesi H 0 =0.05 P....

34
Slide Set #5 Tests delle Ipotesi Pietro Coretto [email protected] Universit` a degli Studi di Salerno Corso di Statistica (0212700010) CDL in Economia e Management Curriculum in Management e Informatica a.a. 2018/2019 Versione: 19 novembre 2018 (h16:38) P. Coretto // Statistica Tests delle Ipotesi 1 / 68 Esempio: scritture contabili La GGK ` e un colosso della distribuzione. Ogni giorno si effettuano numerose scritture contabili soggette ad arrotondamenti. Le procedure contabili prevedono che il volume medio giornaliero degli arrotondamenti non pu` o superare 0.5e. Allo scopo di tenere sotto controllo l’effetto cumulato giornaliero, ogni trimestre si estraggono 15 giorni a caso sui quali si rileva l’arrotondamento complessivo. La media campionaria nell’ultimo trimestre ` e 0.49e. Il sistema contabile funziona se la media degli arrotondamenti giornalieri μ 0.5. Purtroppo μ non ` e noto. ¯ x =0.49 non pu` o essere l’elemento decisivo. Perch´ e? Per prendere decisioni ` e necessario: una regola di decisione che tenga conto dell’incertezza circa ( X - μ) una valutazione oggettiva del rischio di commettere errori P. Coretto // Statistica Tests delle Ipotesi 2 / 68 Notes Notes

Transcript of Slide Set #5 Tests delle Ipotesi - decg.it · Distribuzione di U sotto le due ipotesi H 0 =0.05 P....

Slide Set #5Tests delle Ipotesi

Pietro [email protected]

Universita degli Studi di Salerno

Corso di Statistica (0212700010)CDL in Economia e Management

Curriculum in Management e Informaticaa.a. 2018/2019

Versione: 19 novembre 2018 (h16:38)

P. Coretto // Statistica Tests delle Ipotesi 1 / 68

Esempio: scritture contabili

La GGK e un colosso della distribuzione. Ogni giorno si effettuanonumerose scritture contabili soggette ad arrotondamenti. Le procedurecontabili prevedono che il volume medio giornaliero degli arrotondamentinon puo superare 0.5e. Allo scopo di tenere sotto controllo l’effettocumulato giornaliero, ogni trimestre si estraggono 15 giorni a caso sui qualisi rileva l’arrotondamento complessivo. La media campionaria nell’ultimotrimestre e 0.49e.

Il sistema contabile funziona se la media degli arrotondamentigiornalieri µ ≤ 0.5. Purtroppo µ non e noto.

x = 0.49 non puo essere l’elemento decisivo. Perche?

Per prendere decisioni e necessario:

una regola di decisione che tenga conto dell’incertezza circa (X − µ)una valutazione oggettiva del rischio di commettere errori

P. Coretto // Statistica Tests delle Ipotesi 2 / 68

Notes

Notes

Test delle ipotesi (parametrici)

Abbiamo un fenomeno X ∼ f (θ), θ e un parametro (non noto) di f .

θ ∈ Θ, e consideriamo la partizione Θ = Θ0 ∪Θ1, con Θ0 ∩Θ1 = ∅

Ipotesi nulla H0 : θ ∈ Θ0

Ipotesi alternativa H1 : θ ∈ Θ1

Esempio: scritture contabili X =arrotondamento giornaliero ∼ f , e E[X ] = µ

Ipotesi nulla H0 : µ ≤ 0.5

Ipotesi alternativa H1 : µ > 0.5

θ = µ, Θ = R, Θ0 = (−∞, 0.5], Θ1 = (0.5,+∞)

Perche l’ipotesi nulla e µ ≤ 0.5?... dopo.P. Coretto // Statistica Tests delle Ipotesi 3 / 68

Regione critica e regola di decisione

Sia C l’insieme di tutti i possibili campioni di dimensione n.Consideriamo la partizione C = C1 ∪ C0, con C0 ∩ C1 = ∅.

C0 = insieme di tutti i campioni coerenti con H0.Sono i campioni generati da f quando θ ∈ Θ0

C1 = insieme di tutti i campioni coerenti con H1.Sono i campioni generati da f quando θ ∈ Θ1

P. Coretto // Statistica Tests delle Ipotesi 4 / 68

Notes

Notes

Il test consiste nell’applicare una regola di decisione che stabilisce laprovenienza del campione osservato

campione osservato assegnato a C1 =⇒ RIFIUTO H0

Per questo motivo C1=regione critica di rifiuto.

campione osservato assegnato a C0 =⇒ NON RIFIUTO H0

Vogliamo regole di decisione ottimali. Per definire l’ottimo dobbiamofissare i riferimenti:

definizione del ruolo di H0 vs H1

definizione del rischio di decisioni sbagliate

P. Coretto // Statistica Tests delle Ipotesi 5 / 68

Tests Neyman-Pearson ottimali

Jerzy Neyman(1894–1981)

Egon S. Pearson(1895–1980)

P. Coretto // Statistica Tests delle Ipotesi 6 / 68

Notes

Notes

Ruolo di H0 vs H1 nel test a la Neyman-Pearson

H0 e l’ipotesi che non vogliamo assolutamente rifiutare a favore di H1

fino a quando e empiricamente sostenibile. H0 e lo status quo,ovvero, l’ipotesi considerata vera fino a prova contraria (asimmetria)

H1 concettualizza la violazione di H0 che l’osservatore si aspetta neidati

Esempio: scritture contabili

H0: arrotondamenti correttiH1: arrotondamenti superiori al massimo consentito

Processo penaleH0: l’imputato non e colpevoleH1: l’imputato e colpevole

Test diagnostico medicoH0: funzioni biologiche normali (esito negativo)H1: alterazioni delle funzioni biologiche (esito positivo)

P. Coretto // Statistica Tests delle Ipotesi 7 / 68

Rischio di decisioni sbagliate

TUNATURA

H0 e vera H1 e vera

Rifiuto H0 E1 OK

Non rifiuto H0 OK E2

E1: errore del primo tipo (falso positivo)

Pr{E1} = Pr{Rifiuto H0 |H0 e vera}= Pr{Campione assegnato aC1 | θ ∈ Θ0}= α

E2: errore del secondo tipo (falso negativo)

Pr{E2} = Pr{Non rifiuto H0 |H1 e vera}= Pr{Campione assegnato aC0 | θ ∈ Θ1}= β

P. Coretto // Statistica Tests delle Ipotesi 8 / 68

Notes

Notes

H0: l’imputato non e colpevoleH1: l’imputato e colpevole

E1

Giudice: “Andy Dufresne e un marito

assassino”

E2

Giudice: “Aaron Stampler e assolto

perche affetto da disturbo dissociativo

dell’identita”

P. Coretto // Statistica Tests delle Ipotesi 9 / 68

Relazione tra α e β, e regione critica ottimale

Il sogno: α = β = 0

Brutte notizie (1): non e possibile azzerare il rischio di commettereerrori

Brutte notizie (2): α aumenta =⇒ β diminuisce, e viceversa. Allimite: α→ 0 =⇒ β → 1, e viceversa.

Soluzione ottimale di Neyman-Pearson:

1 in considerazione del ruolo svolto da H0 vs H1, fisso α al livellomassimo sopportabile. Pr{E1} = α e detto livello di significativita deltest. Solitamente α = {10%, 5%, 2%,%1}.

2 tra tutte le regioni critiche che danno α = Pr{E1}, prendo quella checomporta il minimo β = Pr{E2}

P. Coretto // Statistica Tests delle Ipotesi 10 / 68

Notes

Notes

Potenza del test

TUNATURA

H0 e vera H1 e vera

Rifiuto H0 α π = (1− β)

Non rifiuto H0 (1− α) β

Pr{Corretto rifiuto} = Pr{Rifiuto H0 |H1e vera}= (1− β) = π = potenza del test

α si controlla direttamente (viene fissato)

π, in generale, non e direttamente controllabile. Per i testNeyman-Pearson ottimali sappiamo solo che π e massimo (β eminimo) per il fissato livello α

TUTTI i test che vedremo in questo corso sono Neyman-Pearsonottimali

P. Coretto // Statistica Tests delle Ipotesi 11 / 68

ATTENZIONE:

Spesso si e ossessivi nel proteggersi rispetto ai falsi positivi (αpiccolo), ma questo crea il rischio di falsi negativi (β grande).

Se aumento α =⇒ β diminuisce =⇒ π aumenta.

Quale e un valore ragionevole per α? La pratica “standard” diconsiderare α = 1%, 5% in alcuni casi potrebbe essere devastante.

α dovrebbe essere fissato dopo un’attenta valutazione delle implicazioni(pratiche) dei due errori. Si, ma quali sono le implicazioni pratiche?

nella maggior parte dei casi, estraggo un campione ed effettuo la miadecisione.

α, β, π sono probabilita

come per gli intervalli di confidenza, e bene pensare a queste quantitanell’ottica del campionamento ripetuto

P. Coretto // Statistica Tests delle Ipotesi 12 / 68

Notes

Notes

Interpretazione “pratica” di α

Supponiamo di poter estrarre K campioni indipendenti di dimensione ndalla popolazione X ∼ f (θ). K e “sufficientemente” grande

Campione 1 −→ decisione 1Campione 2 −→ decisione 2

. . .Campione K −→ decisione K

Ogni volta che θ ∈ Θ0 e quindi θ /∈ Θ1 (H0 vera, H1 falsa):

(1− α)% decisioni saranno corrette

α% decisioni saranno sbagliate

P. Coretto // Statistica Tests delle Ipotesi 13 / 68

Cercare di interpretare β (e quindi π) dal punto di vista pratico non hamolto senso. Infatti, tranne che in casi didattici, non li possiamoquantificare. Sappiamo solo che β e al minimo possibile.

Per un singolo campione? Quale e l’interpretazione di α per la decisionepresa sul nostro singolo campione osservato?

α e una misura di rischio. Possiamo interpretare α come il livello diinaffidabilita del test che siamo disposti a sopportare nel caso in cui H0

fosse vera

P. Coretto // Statistica Tests delle Ipotesi 14 / 68

Notes

Notes

Costruzione di un test

Esempio: media di una popolazione normale a varianza nota

Supponiamo X ∼ Normale(µ, 64), consideriamo il test:

H0 : µ = 100

H1 : µ > 100

In un campione di n = 16 osservazioni risulta x = 103. Trovare una regoladi decisione al livello α = 5%

Potrei rifiutare H0 perche x > 100. Tuttavia, se H0 e vera, allora

XH0∼ Normale

(100,

64

n

)Quindi X “varia casualmente” intorno a 100. Consideriamo

U =√nX − 100

8

H0∼ Normale(0, 1)

P. Coretto // Statistica Tests delle Ipotesi 15 / 68

Valori osservati di U positivi ci fanno pensare che H0 e falsa. Si, maquanto dovrebbe essere piu grande di zero?

Pr{E1} = α (e fissato)

= Pr{Rifiuto H0 |H0 e vera}= Pr{U > u |µ = 100}

Quando H0 e vera U ha distribuzione Normale Standard, quindi u = zα,ovvero z0.05 = 1.64

Ho trovato una regione critica ed una regola di decisione con il livello disignificativita fissato:

Regione critica C1: sono i campioni tali che U > zα = 1.64

Regola di decisione: rifiuto H0 se√n(x − 100)/8 > 1.64

Il valore osservato di U e√

16(103− 100)/8 = 1.5 < 1.64 =⇒ nonrifiuto H0 al livello del 5%.

P. Coretto // Statistica Tests delle Ipotesi 16 / 68

Notes

Notes

Quanto vale π = 1− β? Il calcolo di β richiede H1 vera. H1 e vera per unnumero infinito di possibili valori di µ

Questa regola e Neyman-Pearson ottimale: per qualunque valore di µ,ceteris paribus, ottengo il miglior π possibile. Questo basterebbe, mavoglio capire in quale ordine di grandezza ci muoviamo.

Supponiamo che H1 e vera perche µ = 104.

β = Pr{Non rifiuto H0 |H1 e vera}= Pr{U < 1.64 | µ = 104}

U =√nX − 100

8=

−100√n

8+

√n

8X

E[U |H1 vera] =−100

√n

8+

√n

8104 =

√n

2Var[U |H1 vera] = 1

P. Coretto // Statistica Tests delle Ipotesi 17 / 68

U =√nX − 100

8

H1∼ Normale

(√n

2, 1

)Quindi

β = Pr{U < 1.64 | µ = 104} = Pr

{Z < 1.64−

√16

2

}= Pr{Z < −0.36} = Φ(−0.36) = 1− Φ(0.36) = 0.36

Da cui π = 1− β = 0.64

Interpretazione: se potessi ripetere il test un gran numero di volte,π = 64% =⇒ 64/100 decisioni corrette quando µ = 104.

Vediamo cosa succede alla distribuzione di U sotto le due ipotesi

P. Coretto // Statistica Tests delle Ipotesi 18 / 68

Notes

Notes

Distribuzione di U sotto le due ipotesi

H0

α=0.05

P. Coretto // Statistica Tests delle Ipotesi 19 / 68

Distribuzione di U sotto le due ipotesi

H0 H1

α=0.05

P. Coretto // Statistica Tests delle Ipotesi 20 / 68

Notes

Notes

Distribuzione di U sotto le due ipotesi

H0 H1

β

α=0.05

P. Coretto // Statistica Tests delle Ipotesi 21 / 68

Distribuzione di U sotto le due ipotesi

H0 H1

β

α=0.05

π

P. Coretto // Statistica Tests delle Ipotesi 22 / 68

Notes

Notes

al variare di µ > 100 avro diversi valori di β e π

se cambio α,n, σ avro diversi valori di β e π

Sebbene β e π non sono direttamente controllabili, spesso sarebbe utilefare un’analisi di “sensitivita” rispetto alle quantita controllabili. Unostatistico puo controllare:

α, a livello di procedura di test

n, a livello di disegno di campionamento (non sempre)

Nell’ Esempio: media di normale vediamo come variano β e π in funzione di µ sottoH1

P. Coretto // Statistica Tests delle Ipotesi 23 / 68

100 102 104 106 108 110

0.2

0.4

0.6

0.8

1.0

Potenza del test con α = 5%

µ

π=

(1−β)

n = 16n = 50n = 250

100 102 104 106 108 110

0.0

0.2

0.4

0.6

0.8

1.0

Potenza del test con α = 0.5%

µ

π=

(1−β)

n = 16n = 50n = 250

P. Coretto // Statistica Tests delle Ipotesi 24 / 68

Notes

Notes

100 102 104 106 108 110

0.0

0.2

0.4

0.6

0.8

Errore del II tipo con α = 5%

µ

β

n = 16n = 50n = 250

100 102 104 106 108 110

0.0

0.2

0.4

0.6

0.8

1.0

Errore del II tipo con α = 0.5%

µ

β

n = 16n = 50n = 250

P. Coretto // Statistica Tests delle Ipotesi 25 / 68

Procedura di testing: routine

Definizione: (Funzione test/statistica test)

Sia {X1,X2, . . . ,Xn} un campione. Una funzione test, anche dettastatistica test, e una funzione T (X1,X2, . . . ,Xn , θ0) che misuracontemporaneamente la coerenza del campione all’ipotesi nulla, e la noncoerenza rispetto all’ipotesi alternativa. La statistica test non dipende daaltri parametri incogniti.

Si noti che

T dipende da H0, ma non da H1

T e una variabile casuale: popolazione + effetto del campionamento

EsempiEsempio: media di normale : U e una statistica testEsempio: errori contabili : T1 = (X − 0.5) potrebbe essere una funzione test.

Tuttavia, non sarebbe molto utile.Esempio: errori contabili : T2 = (X − 0.5)2 non e una buona funzione test,

perche?P. Coretto // Statistica Tests delle Ipotesi 26 / 68

Notes

Notes

Steps :

1 Parto dalla distribuzione della funzione test sotto H0Esempio: media di normale :

U =√nX − 100

8

H0∼ Normale(0, 1)

2 dato α, calcolo qualche valore di coda della distribuzione dellafunzione test sotto H0

Esempio: media di normale : α = 5%, zα = 1.64

3 determino la regione di rifiutoEsempio: media di normale : tutti i campioni per cui U > zα = 1.64

4 calcolo il valore osservato della funzione testEsempio: media di normale :

√16(103− 100)/8 = 1.5

5 decisione: rifiuto H0 se il valore osservato delle funzione test eassegnato alla regione critica di rifiuto

Esempio: media di normale : 1.5 < z0.05 = 1.64 =⇒ “non rifiuto H0”

P. Coretto // Statistica Tests delle Ipotesi 27 / 68

Media di una popolazione Normale con varianza nota

Assumo:{X1,X2, . . . ,Xn} e un CCS da una popolazione X ∼ Normale(µ, σ2),dove σ2 e noto

Ipotesi nulla: H0 : µ = µ0

Funzione test

Z =√nX − µ0σ

H0∼ Normale(0, 1)

Valore osservato della funzione test

z =√nx − µ0σ

Coda zα: Pr{Z ≥ zα} = α

P. Coretto // Statistica Tests delle Ipotesi 28 / 68

Notes

Notes

Ipotesi alternativa unilaterale a destra{H0 : µ = µ0

H1 : µ > µ0≡

{H0 : µ ≤ µ0H1 : µ > µ0

Regione critica di rifiuto{campioni : Z > zα}

Regola di decisionerifiuto H0 se z > zα

Distribuzione della funzione test sotto H0

Non rifiuto H0 Rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 29 / 68

Ipotesi alternativa unilaterale a sinistra{H0 : µ = µ0

H1 : µ < µ0≡

{H0 : µ ≥ µ0H1 : µ < µ0

Regione critica di rifiuto{campioni : Z < −zα}

Regola di decisionerifiuto H0 se z < −zα

Distribuzione della funzione test sotto H0

−zα

Rifiuto H0 Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 30 / 68

Notes

Notes

Ipotesi alternativa bilaterale{H0 : µ = µ0

H1 : µ 6= µ0

Regione critica di rifiuto{campioni: Z < −zα

2oppure Z > zα

2

}

Regola di decisionerifiuto H0 se z < −zα

2oppure z > zα

2

Distribuzione della funzione test sotto H0

−zα2

zα2

Rifiuto H0 Rifiuto H0Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 31 / 68

Media di una popolazione Normale con varianza non nota

Assumo:{X1,X2, . . . ,Xn} e un CCS da una popolazione X ∼ Normale(µ, σ2),dove σ2 non e noto

Ipotesi nulla: H0 : µ = µ0

Funzione test

T =√nX − µ0

S

H0∼ tn−1

Valore osservato della funzione test

t =√nx − µ0

s

Coda tn−1, α: Pr{T ≥ tn−1, α} = α

P. Coretto // Statistica Tests delle Ipotesi 32 / 68

Notes

Notes

Ipotesi alternativa unilaterale a destra{H0 : µ = µ0

H1 : µ > µ0≡

{H0 : µ ≤ µ0H1 : µ > µ0

Regione critica di rifiuto{campioni : T > tn−1, α}

Regola di decisionerifiuto H0 se t > tn−1, α

Distribuzione della funzione test sotto H0

tn−1, α

Non rifiuto H0 Rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 33 / 68

Ipotesi alternativa unilaterale a sinistra{H0 : µ = µ0

H1 : µ < µ0≡

{H0 : µ ≥ µ0H1 : µ < µ0

Regione critica di rifiuto{campioni : T < −tn−1, α}

Regola di decisionerifiuto H0 se t < −tn−1, α

Distribuzione della funzione test sotto H0

−tn−1, α

Rifiuto H0 Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 34 / 68

Notes

Notes

Ipotesi alternativa bilaterale{H0 : µ = µ0

H1 : µ 6= µ0

Regione critica di rifiuto{campioni: T < −tn−1, α

2oppure T > tn−1, α

2

}

Regola di decisionerifiuto H0 se t < −tn−1, α

2oppure t > tn−1, α

2

Distribuzione della funzione test sotto H0

−tn−1, α2

tn−1, α2

Rifiuto H0 Rifiuto H0Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 35 / 68

Esercizio: 10.17

P. Coretto // Statistica Tests delle Ipotesi 36 / 68

Notes

Notes

Proporzione di una popolazione (grandi campioni)

Assumo:{X1,X2, . . . ,Xn} e un CCS da una popolazione X ∼ Bernoulli(p), inoltren e sufficientemente grande e np(1− p) > 9

Ipotesi nulla: H0 : p = p0

Funzione test

Z =P − p0√p0(1−p0)

n

H0∼ Normale(0, 1)

Valore osservato della funzione test

z =p − p0√p0(1−p0)

n

Coda zα: Pr{Z ≥ zα} = αP. Coretto // Statistica Tests delle Ipotesi 37 / 68

Ipotesi alternativa unilaterale a destra{H0 : p = p0

H1 : p > p0≡

{H0 : p ≤ p0

H1 : p > p0

Regione critica di rifiuto{campioni : Z > zα}

Regola di decisionerifiuto H0 se z > zα

Distribuzione della funzione test sotto H0

Non rifiuto H0 Rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 38 / 68

Notes

Notes

Ipotesi alternativa unilaterale a sinistra{H0 : p = p0

H1 : p < p0≡

{H0 : p ≥ p0

H1 : p < p0

Regione critica di rifiuto{campioni : Z < −zα}

Regola di decisionerifiuto H0 se z < −zα

Distribuzione della funzione test sotto H0

−zα

Rifiuto H0 Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 39 / 68

Ipotesi alternativa bilaterale{H0 : p = p0

H1 : p 6= p0

Regione critica di rifiuto{campioni: Z < −zα

2oppure Z > zα

2

}

Regola di decisionerifiuto H0 se z < −zα

2oppure z > zα

2

Distribuzione della funzione test sotto H0

−zα2

zα2

Rifiuto H0 Rifiuto H0Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 40 / 68

Notes

Notes

Esercizio: 10.31

P. Coretto // Statistica Tests delle Ipotesi 41 / 68

Differenza tra medie di popolazioni normali dipendenti

Assumo:{(X1,Y1), (X2,Y2), . . . , (Xn ,Yn)} e un CCS da una popolazionecongiuntamente normale dove X e Y sono dipendenti (correlate)

Sia di = xi − yi , siano D e S 2d media e varianza campionaria di d

Ipotesi nulla: H0 : µX − µY = d0

Funzione test

T =√n

(X −Y )− d0Sd

H0∼ tn−1

Valore osservato della funzione test

t =√nd − d0sd

Coda tn−1, α: Pr{T ≥ tn−1, α} = αP. Coretto // Statistica Tests delle Ipotesi 42 / 68

Notes

Notes

Ipotesi alternativa unilaterale a destra{H0 : µX − µY = d0

H1 : µX − µY > d0≡

{H0 : µX − µY ≤ d0

H1 : µX − µY > d0

Regione critica di rifiuto{campioni : T > tn−1, α}

Regola di decisionerifiuto H0 se t > tn−1, α

Distribuzione della funzione test sotto H0

tn−1, α

Non rifiuto H0 Rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 43 / 68

Ipotesi alternativa unilaterale a sinistra{H0 : µX − µY = d0

H1 : µX − µY < d0≡

{H0 : µX − µY ≥ d0

H1 : µX − µY < d0

Regione critica di rifiuto{campioni : T < −tn−1, α}

Regola di decisionerifiuto H0 se t < −tn−1, α

Distribuzione della funzione test sotto H0

−tn−1, α

Rifiuto H0 Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 44 / 68

Notes

Notes

Ipotesi alternativa bilaterale{H0 : µX − µY = d0

H1 : µX − µY 6= d0

Regione critica di rifiuto{campioni: T < −tn−1, α

2oppure T > tn−1, α

2

}

Regola di decisionerifiuto H0 se t < −tn−1, α

2oppure t > tn−1, α

2

Distribuzione della funzione test sotto H0

−tn−1, α2

tn−1, α2

Rifiuto H0 Rifiuto H0Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 45 / 68

Esercizio: 11.3

P. Coretto // Statistica Tests delle Ipotesi 46 / 68

Notes

Notes

Pooling della devianza

Siano X ∼ f e Y ∼ g due popolazioni. Siano {X1,X2, . . . ,XnX} e

{Y1,Y2, . . . ,YnY} due CCS indipendenti.

Omoschedasticita: assumiamo Var[X ] = Var[Y ] = σ2

X e Y hanno la stessa varianza, ma non necessariamente la stessamedia. Quale statistica di varianza userebbe tutta l’informazionecampionaria?

Varianza campionaria pooled

S 2p =

∑nXi=1(Xi −X )2 +

∑nYi=1(Yi −Y )2

nX + nY − 2

=(nX − 1)S 2

X + (nY − 1)S 2Y

nX + nY − 2

P. Coretto // Statistica Tests delle Ipotesi 47 / 68

Differenza tra medie di popolazioni normali indipendenti

Assumo:{X1,X2, . . . ,XnX

} e {Y1,Y2, . . . ,YnY} sono due CCS indipendenti da

popolazioni normali omoschedastiche, ovvero X ∼ Normale(µX , σ2) e

Y ∼ Normale(µY , σ2), dove σ2 non e noto.

Ipotesi nulla: H0 : µX − µY = d0

Funzione test

T =(X −Y )− d0√

S2p

nX+

S2p

nY

H0∼ tnX+nY−2

Valore osservato della funzione test

t =(x − y)− d0√

s2pnX

+s2pnY

Coda tnX+nY−2, α: Pr{T ≥ tnX+nY−2, α} = αP. Coretto // Statistica Tests delle Ipotesi 48 / 68

Notes

Notes

Ipotesi alternativa unilaterale a destra{H0 : µX − µY = d0

H1 : µX − µY > d0≡

{H0 : µX − µY ≤ d0

H1 : µX − µY > d0

Regione critica di rifiuto{campioni : T > tnX+nY−2, α}

Regola di decisionerifiuto H0 se t > tnX+nY−2, α

Distribuzione della funzione test sotto H0

tnX+nY −2, α

Non rifiuto H0 Rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 49 / 68

Ipotesi alternativa unilaterale a sinistra{H0 : µX − µY = d0

H1 : µX − µY < d0≡

{H0 : µX − µY ≥ d0

H1 : µX − µY < d0

Regione critica di rifiuto{campioni : T < −tnX+nY−2, α}

Regola di decisionerifiuto H0 se t <−tnX+nY−2, α

Distribuzione della funzione test sotto H0

−tnX+nY −2, α

Rifiuto H0 Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 50 / 68

Notes

Notes

Ipotesi alternativa bilaterale{H0 : µX − µY = d0

H1 : µX − µY 6= d0

Regione critica di rifiuto{campioni: T < −tnX+nY−2, α

2oppure T > tnX+nY−2, α

2

}

Regola di decisionerifiuto H0 se t < −tnX+nY−2, α

2oppure t > tnX+nY−2, α

2

Distribuzione della funzione test sotto H0

−tnX+nY −2, α2

tnX+nY −2, α2

Rifiuto H0 Rifiuto H0Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 51 / 68

Esercizio: 11.5

P. Coretto // Statistica Tests delle Ipotesi 52 / 68

Notes

Notes

Pooling di popolazioni Bernoulliane indipendenti

Siano X ∼ Bernoulli(pX ) e Y ∼ Bernoulli(pY ) due popolazioniBernoulliane. Siano {X1,X2, . . . ,XnX

}, e {Y1,Y2, . . . ,YnY} due

campioni indipendenti. Le proporzioni campionarie saranno

PX =1

nX

nX∑i=1

Xi e PY =1

nY

nY∑i=1

Yi

Assumiamo H0 : pX = pY . Quale statistica userebbe tutta l’informazionecampionaria?

Proporzione campionaria pooled

P0 =

∑nXi=1Xi +

∑nYi=1Yi

nX + nY

=nX PX + nY PY

nX + nY

P. Coretto // Statistica Tests delle Ipotesi 53 / 68

Differenza tra proporzioni (grandi campioni)

Assumo:{X1,X2, . . . ,XnX

} e {Y1,Y2, . . . ,YnY} sono due CCS indipendenti da

X ∼ Bernoulli(pX ), e Y ∼ Bernoulli(pY ). n e sufficientemente grande.

Ipotesi nulla: H0 : pX − pY = 0

Funzione test

Z =PX − PY√

P0(1−P0)nX

+ P0(1−P0)nY

H0∼ Normale(0, 1)

Valore osservato della funzione test

z =pX − pY√

p0(1−p0)nX

+ p0(1−p0)nY

Coda zα: Pr{Z ≥ zα} = αP. Coretto // Statistica Tests delle Ipotesi 54 / 68

Notes

Notes

Ipotesi alternativa unilaterale a destra{H0 : pX − pY = 0

H1 : pX − pY > 0≡

{H0 : pX − pY ≤ 0

H1 : pX − pY > 0

Regione critica di rifiuto{campioni : Z > zα}

Regola di decisionerifiuto H0 se z > zα

Distribuzione della funzione test sotto H0

Non rifiuto H0 Rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 55 / 68

Ipotesi alternativa unilaterale a sinistra{H0 : pX − pY = 0

H1 : pX − pY < 0≡

{H0 : pX − pY ≥ 0

H1 : pX − pY < 0

Regione critica di rifiuto{campioni : Z < −zα}

Regola di decisionerifiuto H0 se z < −zα

Distribuzione della funzione test sotto H0

−zα

Rifiuto H0 Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 56 / 68

Notes

Notes

Ipotesi alternativa bilaterale{H0 : pX − pY = 0

H1 : pX − pY 6= 0

Regione critica di rifiuto{campioni: Z < −zα

2oppure Z > zα

2

}

Regola di decisionerifiuto H0 se z < −zα

2oppure z > zα

2

Distribuzione della funzione test sotto H0

−zα2

zα2

Rifiuto H0 Rifiuto H0Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 57 / 68

Esercizio: 11.15

P. Coretto // Statistica Tests delle Ipotesi 58 / 68

Notes

Notes

Varianza di una popolazione normale

Assumo:{X1,X2, . . . ,Xn} e un CCS da una popolazione X ∼ Normale(µ, σ2)

Ipotesi nulla: H0 : σ2 = σ20

Funzione test

χ =(n − 1)S 2

σ20

H0∼ χ2n−1

Valore osservato della funzione test

c =(n − 1)s2

σ20

Coda χ2n−1, α: Pr

{χ ≥ χ2

n−1, α

}= α

P. Coretto // Statistica Tests delle Ipotesi 59 / 68

Ipotesi alternativa unilaterale a destra{H0 : σ2 = σ20H1 : σ2 > σ20

≡{

H0 : σ2 ≤ σ20H1 : σ2 > σ20

Regione critica di rifiuto{campioni : χ > χ2

n−1, α

}

Regola di decisionerifiuto H0 se c > χ2

n−1, α

Distribuzione della funzione test sotto H0

χ2n−1, α

Non rifiuto H0 Rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 60 / 68

Notes

Notes

Ipotesi alternativa unilaterale a sinistra{H0 : σ2 = σ20H1 : σ2 < σ20

≡{

H0 : σ2 ≥ σ20H1 : σ2 < σ20

Regione critica di rifiuto{campioni : χ < χ2

n−1, 1−α}

Regola di decisionerifiuto H0 se c < χ2

n−1, 1−α

Distribuzione della funzione test sotto H0

χ2n−1, 1−α

Rifiuto H0 Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 61 / 68

Ipotesi alternativa bilaterale{H0 : σ2 = σ20H1 : σ2 6= σ20

Regione critica di rifiuto{campioni: χ < χ2

n−1, 1−α2

oppure χ > χ2n−1, α

2

}

Regola di decisionerifiuto H0 se c < χ2

n−1, 1−α2

oppure c > χ2n−1, α

2

Distribuzione della funzione test sotto H0

χ2n−1, 1− α

2χ2n−1, α

2

Rifiuto H0 Rifiuto H0Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Tests delle Ipotesi 62 / 68

Notes

Notes

Esercizio: 11.21

P. Coretto // Statistica Tests delle Ipotesi 63 / 68

p-value

Sia U la funzione test, e u il suo valore osservato. Il p-value si calcola:

p-value = Pr{U e uguale o piu estrema di u |H0 e vera}

Si noti che il p-value ∈ [0, 1].

Questo e il calcolo. La sua interpretazione? Il p-value e una misura dellaplausibilita di H0 per il campione osservato:

p-value grande: il campione osservato mostra forte evidenza empiricaa favore di H0.

p-value piccolo: il campione osservato mostra debole/nessunaevidenza empirica a favore di H0.

in questo senso il p-value e anche definito come “livello disignificativita osservato”.

P. Coretto // Statistica Tests delle Ipotesi 64 / 68

Notes

Notes

L’interpretazione non puo prescindere da α e H1. Nell’otticaNeyman-Pearson l’uso del p-value deve dipendere dalla nozione diottimalita sottostante.

Definizione: (p-value nei tests Neyman-Pearson)

Il p-value calcolato coincide il livello minimo di α al quale si rifiuta H0

sulla base del campione osservato.

Da questo punto di vista il p-value e uno strumento operativo per definirela regione critica senza usare alla funzione test:

Rifiuto H0 se p-value < α

P. Coretto // Statistica Tests delle Ipotesi 65 / 68

0 1α

Rifiuto H0 Non rifiuto H0

Regione critica di rifiuto in termini di p-value

P. Coretto // Statistica Tests delle Ipotesi 66 / 68

Notes

Notes

Uso del p-value

Esempio: (Spray per insetti)

Si usano sei diversi sprays (A,B ,C ,D ,E ,F ) in 12 diverse posizioni, e sirileva il numero di insetti presenti nel raggio di azione in ogni posizione. Leprove sono indipendenti. Ecco i dati campionari

A B C D E F

05

1015

2025

Spray

NumerodiInsetti

P. Coretto // Statistica Tests delle Ipotesi 67 / 68

Con riferimento ai dati dell’ Esempio 67 vogliamo testare{H0 : i sei gruppi sono omoschedastici

H1 : almeno un gruppo differisce per varianza

Si tratta di effettuare un test di confronto delle varianze. Una possibilita eil test di confronto delle varianze per popolazioni Normali.

Tuttavia, sostenere la normalita e assai dubbio. Una scelta appropriata inquesto caso e il test di Bartlett. Fissiamo α = 5%

p-value = 9.085×10−5 = 0.00009085 < α =⇒ Rifiuto H0

P. Coretto // Statistica Tests delle Ipotesi 68 / 68

Notes

Notes