Test d'ipotesi - continuazione · PDF fileTest d’ipotesi su una proporzione: test z Se...

Click here to load reader

  • date post

    06-Mar-2018
  • Category

    Documents

  • view

    213
  • download

    1

Embed Size (px)

Transcript of Test d'ipotesi - continuazione · PDF fileTest d’ipotesi su una proporzione: test z Se...

  • Test dipotesi - continuazione

    Monica Marabelli

    11 Dicembre 2015

  • Test dipotesi sulle proporzioni per un campione

    Lipotesi nulla di un test dipotesi a due code (bidirezionale)

    H0: p = p0

    mentre lipotesi alternativa

    H1: p 6= p0

    dovep il valore della proporzione nella popolazionep0 il valore ipotizzato della proporzione nella popolazione

  • Test dipotesi su una proporzione: test z

    Se la distribuzione della proporzione approssimativamentenormale*, possibile utilizzare la statistica z:

    z =p p0p0(1p0)

    n

    dovep la proporzione nel campionep0 il valore ipotizzato della proporzione nella popolazionen la numerosit campionaria

    *La distribuzione normale se np0 5 e n(1 p0) 5

  • Esercizio 1Supponiamo di lanciare una moneta 20 volte e di ottenere 12volte testa. Possiamo ipotizzare che la moneta sia truccata?

    H0: p = p0 = 0.5

    H1: p 6= 0.5

    = 0.05

    Devo verificare se np0 5 e n(1 p0) 5

    np0 5 n 50.5 quindi n 10

    n(1 p0) 5 n 50.5 quindi n 10

    In questo caso n > 10, quindi la distribuzione campionaria dellaproporzione normale. Possiamo svolgere un test zbidirezionale.

  • Risoluzione con il test z

    Inseriamo i dati e calcoliamo z

    pbar = 12/20p0 = 0.5n = 20z = (pbar - p0) / sqrt(p0*(1-p0)/n)z

    [1] 0.8944272

    Calcoliamo lo z critico ( = 0.05)

    z_cr = qnorm(1-0.05/2)z_cr

    [1] 1.959964

  • Risoluzione con il test z

    x = seq(-5, 5, by=0.1)plot(x, dnorm(x), xlab="z distribution", ylab="" , type="l")abline(v=z, lty=2, col="blue")abline(v=c(-z_cr, z_cr), col="red")

    Siamo nella regione di accettazione: non rifiutiamo lipotesinulla. La moneta non truccata.

  • Soluzione alternativa

    La statistica test z non implementata in R, ma sostituitadalla statistica chi-quadro.

    Mentre la statistica z pu essere usata soltanto se i datiseguono una distribuzione normale, la statistica chi-quadro puessere utilizzata anche quando la distribuzione non normale.

    Quando la distribuzione normale, posso quindi usare sia lastatistica z sia la statistica chi-quadro.

  • Risoluzione usando la statistica chi-quadro

    prop.test(12, 20, p=0.5, correct=FALSE)

    1-sample proportions test without continuity correction

    data: 12 out of 20, null probability 0.5X-squared = 0.8, df = 1, p-value = 0.3711alternative hypothesis: true p is not equal to 0.595 percent confidence interval:

    0.3865815 0.7811935sample estimates:

    p0.6

    Pvalue 0.05: non rifiuto lipotesi nulla e concludo che lamoneta non truccata.

  • Nel caso di campioni piccoli, si deve specificare correct = TRUE(default): si ottiene una variante del test che usa unacorrezione detta correzione di Yates.

    I due metodi in questo caso si equivalgono.Infatti z2 che si ottiene dal primo test z esattamente pari a X 2

    calcolato dalla funzione prop.test senza la correzione di Yates

    z^2

    [1] 0.8

    Inoltre anche il Pvalue lo stesso

    pval = 2*pnorm(z, lower.tail=FALSE) # calcola larea a destrapval

    [1] 0.3710934

  • Esercizio 2

    In un esperimento di percezione extrasensoriale un soggettoviene posto in una stanza e gli viene chiesto di dire il colore(rosso o blu) di una carta scelta da un mazzo di carte da unsoggetto posto in un altra stanza (il mazzo ha 25 carte blu e 25rosse). Ogni carta estratta viene poi reimmessa nel mazzo. Ilsoggetto indovina il colore di 32 carte su 50; determinare se ilrisultato significativo a livello dello 0.05 e dello 0.01.

  • Test per il confronto fra proporzioni

    Consideriamo due campioni di ampiezza n1 e n2 su cuiabbiamo rilevato una proporzione p1 = x1/n1 e p2 = x2/n2. Cichiediamo se leventuale differenza riscontrata tra p1 e p2 siadovuta al caso oppure no.Nel caso di un test bidirezionale, lipotesi nulla e lipotesialternativa saranno:

    H0: p1 = p2 ovvero p1 p2 = 0

    H1: p1 6= p2 ovvero p1 p2 6= 0

  • Esercizio 3

    E stato condotto uno studio prospettico per valutare lefficaciadellaspirina nella prevenzione dellinfarto. Un gruppo di 200volontari stato seguito per 5 anni. Alcuni di loro hannoquotidianamente assunto laspirina, altri invece un placebo.Allo scadere dei 5 anni sono stati contati i decessi per infartomiocardico.

    Verificare lipotesi nulla che la proporzione dei colpiti da infartosia uguale nei due gruppi contro lalternativa che sia maggiorenel gruppo di controllo (porre = 0.05).

  • Esercizio 3

    Formuliamo le ipotesi statistiche

    H0: pp paH1: pp > pa

    dovepp la proporzione di infartuati con placebo

    pa la proporzione di infartuati con aspirina

  • Importiamo in R i dati presenti nel file aspirina.xls, dopo averloconvertito in .csv

    setwd("X:/")aspirina = read.table("aspirina.csv",

    header=TRUE,sep=",",dec=".")

    str(aspirina)

    data.frame: 200 obs. of 2 variables:$ Farmaco : Factor w/ 2 levels "Aspirina","Placebo": 1 2 2 1 2 2 1 1 ...$ Malattia: Factor w/ 2 levels "Infarto","Sano": 1 2 1 2 1 2 1 2 1 1 ...

  • Dobbiamo svolgere un test unidirezionale. Ordiniamo lavariabile Farmaco in modo tale da avere prima Placebo e poiAspirina.

    aspirina$Farmaco = factor(aspirina$Farmaco,levels=c("Placebo","Aspirina"))

    str(aspirina$Farmaco)

    Factor w/ 2 levels "Placebo","Aspirina": 2 1 1 2 1 1 2 2 2 2 ...

    table(aspirina$Farmaco, aspirina$Malattia)

    Infarto SanoPlacebo 56 47Aspirina 39 58

  • Funzione prop.test

    prop.test(table(aspirina$Farmaco, aspirina$Malattia),correct=FALSE,alternative="greater") # infatti H1: pp > pa

    2-sample test for equality of proportions without continuitycorrection

    data: table(aspirina$Farmaco, aspirina$Malattia)X-squared = 4.0181, df = 1, p-value = 0.02251alternative hypothesis: greater95 percent confidence interval:

    0.02663952 1.00000000sample estimates:

    prop 1 prop 20.5436893 0.4020619

    Pvalue < 0.05: rifiuto lipotesi nulla. Laspirina efficace nelprevenire linfarto.

  • Verifica dipotesi di indipendenza

    Test del chi-quadro

    Il test chi-quadro di indipendenza si utilizza quando si hannodue variabili qualitative, ciascuna con due o pi valori.Spesso i dataset come questo sono riassunti in tabelle dicontingenza righe x colonne.

    H0: le proporzioni di due variabili sono indipendenti

    H1: le proporzioni non sono indipendenti.

  • Esercizio 4

    (Modificato da McDonald, 2008)

    Gardemann e collaboratori hanno studiato un polimorfismo diinserzione/delezione nel gene che codifica lapolipoproteina Bin 2259 uomini con/senza malattia coronarica. I ricercatorihanno ottenuto i seguenti risultati:

    I soggetti sani: 268 ins/ins - 199 ins/del - 42 del/delI soggetti malati: 807 ins/ins - 759 ins/del - 184 del/del

    Lipotesi nulla che la proporzione di uomini con la malattia siala stessa per ciascuno dei tre genotipi.

  • Test del chi-quadro

    Inseriamo i dati in R

    sani = c(268, 199, 42)malati = c(807, 759, 184)dati = data.frame(sani, malati,

    row.names = c("ii","id","dd"))dati

    sani malatiii 268 807

    id 199 759dd 42 184

  • Test del chi-quadro

    Effettuiamo il test del chi-quadro usando la funzione chisq.test

    chisq.test(dati, correct =F)

    Pearsons Chi-squared testdata: datiX-squared = 7.2594, df = 2, p-value = 0.02652

    Il Pvalue < 0.05. Rifiutiamo lipotesi nulla. I tre genotipi hannoproporzioni significativamente diverse di malati. Quindi questopolimorfismo influenza il rischio di malattia cardiovascolare.

  • Esercizio 5

    (Modificato da McDonald, 2008)

    Young e Winn (2003) hanno studiato la distribuzione dellespecie di murena G. moringa e G. vicinus lungo la scogliera delBelize. Hanno classificato la localizzazione in: erba, sabbia,prossimit del bordo. I ricercatori hanno ottenuto i seguentirisultati:

    G. moringa: erba(127), sabbia(99), bordo(264)G. vicinus: erba(116), sabbia(67), bordo(161)

    C una differenza significativa nellhabitat delle due specie?

  • Test non parametrici

    Test U di Mann-Whitney

    Quando i dati non sono distribuiti normalmente non si puricorrere al test t per confrontare due gruppi, ma si puutilizzare il test U di Mann-Whitney.Nel caso di un test bidirezionale, le ipotesi statistiche sono:

    H0: le due popolazioni da cui sono estratti i campioni hannomediana uguale.

    H1: le due popolazioni da cui sono estratti i campioni hannomediana diversa.

  • Esercizio 6E stata misurata laltezza in cm di due gruppi di piante.Valutare se i due gruppi hanno altezze simili.

    I dati sono presenti nel file piante.txt

    setwd("Y:/STATISTICA")piante = read.table("piante.txt", header=TRUE,

    sep=" ", dec=".")head(piante)

    altezza tipo1 630.1312 p12 181.0193 p13 185.2785 p14 245.4308 p15 379.3123 p16 301.8692 p1

  • Valutiamo graficamente la normalit dei dati

    par(mfrow=(c(1,2))) # piu grafici nella stessa finestrahist(piante$altezza[piante$tipo=="p1"],

    main="p1", xlab="altezza")hist(piante$altezza[piante$tipo=="p2"],

    main="p2", xlab="altezza")

    p1

    altezza

    Fre

    quen

    cy

    0 2000 4000 6000 8000

    020

    4060

    8010

    012

    0

    p2

    altezza

    Fre

    quen

    cy

    0 1000 2000 3000 4000

    020

    4060

    80

  • Test di normalitIl test di Shapiro-Wilk serve per verificare che una variabileabbia una distribuzione normale.

    shapiro.test(piante$altezza[piante$tipo=="p1"])

    Shapiro-Wilk normality testdata: piante$altezza[piante$tipo == "p1"]W = 0.4931, p-value < 2.2e-16

    shapiro.test(piante$altezza[piante$tipo=="p2"])

    Shapiro-Wilk normality testdata: piante$alt