Test d'ipotesi - continuazione · PDF fileTest d’ipotesi su una proporzione: test z Se...

26
Test d’ipotesi - continuazione Monica Marabelli 11 Dicembre 2015

Transcript of Test d'ipotesi - continuazione · PDF fileTest d’ipotesi su una proporzione: test z Se...

Test d’ipotesi - continuazione

Monica Marabelli

11 Dicembre 2015

Test d’ipotesi sulle proporzioni per un campione

L’ipotesi nulla di un test d’ipotesi a due code (bidirezionale) é

H0: p = p0

mentre l’ipotesi alternativa é

H1: p 6= p0

dovep é il valore della proporzione nella popolazionep0 é il valore ipotizzato della proporzione nella popolazione

Test d’ipotesi su una proporzione: test z

Se la distribuzione della proporzione é approssimativamentenormale*, é possibile utilizzare la statistica z:

z =p̄ − p0√p0(1−p0)

n

dovep̄ é la proporzione nel campionep0 é il valore ipotizzato della proporzione nella popolazionen é la numerositá campionaria

*La distribuzione é normale se np0 ≥ 5 e n(1− p0) ≥ 5

Esercizio 1Supponiamo di lanciare una moneta 20 volte e di ottenere 12volte testa. Possiamo ipotizzare che la moneta sia truccata?

H0: p = p0 = 0.5

H1: p 6= 0.5

α = 0.05

Devo verificare se np0 ≥ 5 e n(1− p0) ≥ 5

np0 ≥ 5 n ≥ 50.5 quindi n ≥ 10

n(1− p0) ≥ 5 n ≥ 50.5 quindi n ≥ 10

In questo caso n > 10, quindi la distribuzione campionaria dellaproporzione é normale. Possiamo svolgere un test zbidirezionale.

Risoluzione con il test z

Inseriamo i dati e calcoliamo z

pbar = 12/20p0 = 0.5n = 20z = (pbar - p0) / sqrt(p0*(1-p0)/n)z

[1] 0.8944272

Calcoliamo lo z critico (α = 0.05)

z_cr = qnorm(1-0.05/2)z_cr

[1] 1.959964

Risoluzione con il test z

x = seq(-5, 5, by=0.1)plot(x, dnorm(x), xlab="z distribution", ylab="" , type="l")abline(v=z, lty=2, col="blue")abline(v=c(-z_cr, z_cr), col="red")

Siamo nella regione di accettazione: non rifiutiamo l’ipotesinulla. La moneta non é truccata.

Soluzione alternativa

La statistica test z non é implementata in R, ma é sostituitadalla statistica chi-quadro.

Mentre la statistica z puó essere usata soltanto se i datiseguono una distribuzione normale, la statistica chi-quadro puóessere utilizzata anche quando la distribuzione non é normale.

Quando la distribuzione é normale, posso quindi usare sia lastatistica z sia la statistica chi-quadro.

Risoluzione usando la statistica chi-quadro

prop.test(12, 20, p=0.5, correct=FALSE)

1-sample proportions test without continuity correction

data: 12 out of 20, null probability 0.5X-squared = 0.8, df = 1, p-value = 0.3711alternative hypothesis: true p is not equal to 0.595 percent confidence interval:

0.3865815 0.7811935sample estimates:

p0.6

Pvalue ≥ 0.05: non rifiuto l’ipotesi nulla e concludo che lamoneta non é truccata.

Nel caso di campioni piccoli, si deve specificare correct = TRUE(default): si ottiene una variante del test che usa unacorrezione detta correzione di Yates.

I due metodi in questo caso si equivalgono.Infatti z2 che si ottiene dal primo test z é esattamente pari a X 2

calcolato dalla funzione prop.test senza la correzione di Yates

z^2

[1] 0.8

Inoltre anche il Pvalue é lo stesso

pval = 2*pnorm(z, lower.tail=FALSE) # calcola l’area a destrapval

[1] 0.3710934

Esercizio 2

In un esperimento di percezione extrasensoriale un soggettoviene posto in una stanza e gli viene chiesto di dire il colore(rosso o blu) di una carta scelta da un mazzo di carte da unsoggetto posto in un’ altra stanza (il mazzo ha 25 carte blu e 25rosse). Ogni carta estratta viene poi reimmessa nel mazzo. Ilsoggetto indovina il colore di 32 carte su 50; determinare se ilrisultato é significativo a livello dello 0.05 e dello 0.01.

Test per il confronto fra proporzioni

Consideriamo due campioni di ampiezza n1 e n2 su cuiabbiamo rilevato una proporzione p1 = x1/n1 e p2 = x2/n2. Cichiediamo se l’eventuale differenza riscontrata tra p1 e p2 siadovuta al caso oppure no.Nel caso di un test bidirezionale, l’ipotesi nulla e l’ipotesialternativa saranno:

H0: p1 = p2 ovvero p1 − p2 = 0

H1: p1 6= p2 ovvero p1 − p2 6= 0

Esercizio 3

E’ stato condotto uno studio prospettico per valutare l’efficaciadell’aspirina nella prevenzione dell’infarto. Un gruppo di 200volontari é stato seguito per 5 anni. Alcuni di loro hannoquotidianamente assunto l’aspirina, altri invece un placebo.Allo scadere dei 5 anni sono stati contati i decessi per infartomiocardico.

Verificare l’ipotesi nulla che la proporzione dei colpiti da infartosia uguale nei due gruppi contro l’alternativa che sia maggiorenel gruppo di controllo (porre α = 0.05).

Esercizio 3

Formuliamo le ipotesi statistiche

H0: pp ≤ pa

H1: pp > pa

dovepp é la proporzione di infartuati con placebo

pa é la proporzione di infartuati con aspirina

Importiamo in R i dati presenti nel file aspirina.xls, dopo averloconvertito in .csv

setwd("X:/")aspirina = read.table("aspirina.csv",

header=TRUE,sep=",",dec=".")

str(aspirina)

’data.frame’: 200 obs. of 2 variables:$ Farmaco : Factor w/ 2 levels "Aspirina","Placebo": 1 2 2 1 2 2 1 1 ...$ Malattia: Factor w/ 2 levels "Infarto","Sano": 1 2 1 2 1 2 1 2 1 1 ...

Dobbiamo svolgere un test unidirezionale. Ordiniamo lavariabile Farmaco in modo tale da avere prima Placebo e poiAspirina.

aspirina$Farmaco = factor(aspirina$Farmaco,levels=c("Placebo","Aspirina"))

str(aspirina$Farmaco)

Factor w/ 2 levels "Placebo","Aspirina": 2 1 1 2 1 1 2 2 2 2 ...

table(aspirina$Farmaco, aspirina$Malattia)

Infarto SanoPlacebo 56 47Aspirina 39 58

Funzione prop.test

prop.test(table(aspirina$Farmaco, aspirina$Malattia),correct=FALSE,alternative="greater") # infatti H1: pp > pa

2-sample test for equality of proportions without continuitycorrection

data: table(aspirina$Farmaco, aspirina$Malattia)X-squared = 4.0181, df = 1, p-value = 0.02251alternative hypothesis: greater95 percent confidence interval:

0.02663952 1.00000000sample estimates:

prop 1 prop 20.5436893 0.4020619

Pvalue < 0.05: rifiuto l’ipotesi nulla. L’aspirina é efficace nelprevenire l’infarto.

Verifica d’ipotesi di indipendenza

Test del chi-quadro

Il test chi-quadro di indipendenza si utilizza quando si hannodue variabili qualitative, ciascuna con due o piú valori.Spesso i dataset come questo sono riassunti in tabelle dicontingenza righe x colonne.

H0: le proporzioni di due variabili sono indipendenti

H1: le proporzioni non sono indipendenti.

Esercizio 4

(Modificato da McDonald, 2008)

Gardemann e collaboratori hanno studiato un polimorfismo diinserzione/delezione nel gene che codifica l’apolipoproteina Bin 2259 uomini con/senza malattia coronarica. I ricercatorihanno ottenuto i seguenti risultati:

I soggetti sani: 268 ins/ins - 199 ins/del - 42 del/delI soggetti malati: 807 ins/ins - 759 ins/del - 184 del/del

L’ipotesi nulla é che la proporzione di uomini con la malattia siala stessa per ciascuno dei tre genotipi.

Test del chi-quadro

Inseriamo i dati in R

sani = c(268, 199, 42)malati = c(807, 759, 184)dati = data.frame(sani, malati,

row.names = c("ii","id","dd"))dati

sani malatiii 268 807

id 199 759dd 42 184

Test del chi-quadro

Effettuiamo il test del chi-quadro usando la funzione chisq.test

chisq.test(dati, correct =F)

Pearson’s Chi-squared testdata: datiX-squared = 7.2594, df = 2, p-value = 0.02652

Il Pvalue < 0.05. Rifiutiamo l’ipotesi nulla. I tre genotipi hannoproporzioni significativamente diverse di malati. Quindi questopolimorfismo influenza il rischio di malattia cardiovascolare.

Esercizio 5

(Modificato da McDonald, 2008)

Young e Winn (2003) hanno studiato la distribuzione dellespecie di murena G. moringa e G. vicinus lungo la scogliera delBelize. Hanno classificato la localizzazione in: erba, sabbia,prossimitá del bordo. I ricercatori hanno ottenuto i seguentirisultati:

G. moringa: erba(127), sabbia(99), bordo(264)G. vicinus: erba(116), sabbia(67), bordo(161)

C’é una differenza significativa nell’habitat delle due specie?

Test non parametrici

Test U di Mann-Whitney

Quando i dati non sono distribuiti normalmente non si puóricorrere al test t per confrontare due gruppi, ma si puóutilizzare il test U di Mann-Whitney.Nel caso di un test bidirezionale, le ipotesi statistiche sono:

H0: le due popolazioni da cui sono estratti i campioni hannomediana uguale.

H1: le due popolazioni da cui sono estratti i campioni hannomediana diversa.

Esercizio 6E’ stata misurata l’altezza in cm di due gruppi di piante.Valutare se i due gruppi hanno altezze simili.

I dati sono presenti nel file piante.txt

setwd("Y:/STATISTICA")piante = read.table("piante.txt", header=TRUE,

sep=" ", dec=".")head(piante)

altezza tipo1 630.1312 p12 181.0193 p13 185.2785 p14 245.4308 p15 379.3123 p16 301.8692 p1

Valutiamo graficamente la normalitá dei dati

par(mfrow=(c(1,2))) # piu’ grafici nella stessa finestrahist(piante$altezza[piante$tipo=="p1"],

main="p1", xlab="altezza")hist(piante$altezza[piante$tipo=="p2"],

main="p2", xlab="altezza")

p1

altezza

Fre

quen

cy

0 2000 4000 6000 8000

020

4060

8010

012

0

p2

altezza

Fre

quen

cy

0 1000 2000 3000 4000

020

4060

80

Test di normalitáIl test di Shapiro-Wilk serve per verificare che una variabileabbia una distribuzione normale.

shapiro.test(piante$altezza[piante$tipo=="p1"])

Shapiro-Wilk normality testdata: piante$altezza[piante$tipo == "p1"]W = 0.4931, p-value < 2.2e-16

shapiro.test(piante$altezza[piante$tipo=="p2"])

Shapiro-Wilk normality testdata: piante$altezza[piante$tipo == "p2"]W = 0.6666, p-value < 2.2e-16

In entrambi i casi, Pvalue < 0.05. Rifiuto l’ipotesi nulla che ivalori campionari siano distribuiti normalmente.

Test U di Mann-Whitney

Effettuiamo il test U di Mann-Whitney

wilcox.test(piante$altezza~piante$tipo)

Wilcoxon rank sum test with continuity correction

data: piante$altezza by piante$tipoW = 6592.5, p-value = 1.014e-06alternative hypothesis: true location shift is not equal to 0

Pvalue < 0.05. Rifiuto l’ipotesi nulla e concludo che lepopolazioni da cui sono stati estratti i due campioni hannodiversa mediana.