t test per dati appaiati e per dati indipendenti - uniroma2.italenardi/sonniferiNardi0313.pdf ·...

download t test per dati appaiati e per dati indipendenti - uniroma2.italenardi/sonniferiNardi0313.pdf · t-test per dati appaiati Dati indipendenti t test per dati indipendenti ... dove t

If you can't read please download the document

Transcript of t test per dati appaiati e per dati indipendenti - uniroma2.italenardi/sonniferiNardi0313.pdf ·...

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    t test per dati appaiati e per dati indipendenti

    Alessandra Nardi

    13 gennaio 2013

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Indice

    1 Introduzione

    2 Disegno cross-over

    3 t-test per dati appaiati

    4 Dati indipendenti

    5 t test per dati indipendenti

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Student

    Quello che e generalmente noto come t-test, e che piu correttamentecorrisponde ad una famiglia di test dipotesi, nasce nel 1908 quandoWilliam Sealy Gosset pubblica, sotto lo pseudonimo di Student unarticolo dal titolo The probable error of a mean. Ve ne raccontiamobrevemente la storia (ma solo per chi conosce linglese)

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Gosset

    Schooled in mathematics and chemistry, Gosset was hired by ArthurGuinness, Son & Co., Ltd. to apply recent innovations in the field ofstatistics to the business of brewing beer. As a brewer, Gossetanalyzed how agricultural and brewing parameters (e.g., the type ofbarley used) affected crop yields and, in his words, the behavior ofbeer. Because of the cost and time associated with growing cropsand brewing beer, Gosset and his fellow experimental brewers couldnot afford to gather the large amounts of data typically gathered bystatisticians of their era. Statisticians, however, had not yetdeveloped accurate inferential methods for working with smallsamples of data, requiring Gosset to develop methods of his own.With the approval of his employer, Gosset spent a year (1906-1907)in the biometric laboratory of Karl Pearson, developing The probableerror of a mean.

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Student

    The most immediately striking aspect of The Probable Error of aMean is its pseudonymous author: Student. Why would a statisticianrequire anonymity? The answer to this question came publicly in1930, when fellow statistician Harold Hotelling revealed that Studentwas Gosset, and that his anonymity came at the request of hisemployer, a large Dublin Brewery. At the time, Guinness consideredits use of statistics a trade secret and forbade its employees frompublishing their work. Only after negotiations with his supervisorswas Gosset able to publish his work, agreeing to neither use his realname nor publish proprietary data.

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Studio crossover

    Esperimento

    Sono stati provati due diversi sonniferi (A e B) su un campione dipiccole dimensioni di pazienti affetti da insonnia. Ogni paziente haassunto entrambi i sonniferi, lordine di assunzione e stato deciso inmodo casuale e per ogni periodo di trattamento e stato registrato ilnumero medio di ore di sonno guadagnate. Tra i due trattamenti estato inserito un periodo di wash out al fine di eliminare gli effettidel primo farmaco riportando il paziente nelle condizioni iniziali.

    Risultati

    I risultati sono presentati nella seguenta tabella:

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Ore di sonno guadagnate

    Pazienti A B B-A1 +0.7 +1.9 +1.22 -1.6 +0.8 +2.43 -0.2 +1.1 +1.34 -1.2 +0.1 +1.35 -0.1 -0.1 +0.06 +3.4 +4.4 +1.07 +3.7 +5.5 +1.88 +0.8 +1.6 +0.89 0.0 +4.6 +4.6

    10 +2.0 +3.4 +1.4Media: yA = 0.75 yB = 2.33 yBA = 1.58

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Caratteristiche del disegno sperimentale

    Provando i farmaci sullo stesso paziente tutti i fattori diconfondimento legati alle caratteristiche dei soggetti vengonoeliminate garantendo una elevata potenza del test che andremoad eseguire e consentendo di raggiungere spesso risultaticonclusivi anche in presenza di campioni di piccola dimensione.

    Il disegno puo essere utilizzato solo per patologie croniche percui e ipotizzabile sospendere il trattamento e ricondurre ilpaziente in condizioni simili a quelle iniziali.

    Esiste il rischio che nonostante il periodo di wash out leffetto delprimo farmaco si trascini sul secondo. La scelta casuale del primofarmaco consente di verificare la presenza di questo effetto ditrascimento che e tuttavia praticamente impossibile correggere.

    Obiettivo dello studio

    Verificare quale farmaco garantisce la risposta attesa migliore

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Assumiamo che la nostra variabile risposta, di natura continua, segua(almeno approssimativamente) una distribuzione normale.

    YiA N(A, 2A)

    YiB N(B , 2B)

    Trattandosi di campioni di piccola dimensione questa assunzione ecruciale e deve essere valutata con attenzione.

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Nuova variabile D

    Trattandosi di risposte osservate sullo stesso paziente e naturale (enecessario) passare a considerare la loro differenza Di = YiB YiADallipotesi di normalita su YiA ed YiB segue che

    Di N(, 2CO)

    dove 2CO = V AR(YiB YiA).

    Sistema di ipotesi

    Il sistema di ipotesi da portare alla verifica dei dati sara{H0 : = 0

    H1 : 6= 0

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Statistica test

    Costruiamo la nostra statistica test a partire dallo stimatore naturaledel valore atteso in un modello normale, cioe la media campionaria

    = D =

    Din

    con

    D N(, 2CO

    n).

    Standardizzando otteniamo la statistica Z

    Z =D COn

    distribuita secondo una normale con valore atteso nullo e varianzaunitaria.

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Statistica test T

    Tuttavia la variabilita della risposta 2CO non e generalmente nota ede necessario stimarla attraverso la varianza campionaria

    S2CO =

    (Di D)2

    n 1.

    Student intu per primo che la sostituzione di 2CO con S2CO

    nellespressione di Z non e indolore. Infatti la statistica

    T =D SCOn

    contiene adesso due elementi aleatori, D e SCO, che varierannocongiuntamente in ipotetiche ripetizioni dellesperimento.Ne segue che T non seguira piu una distribuzione normale.

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    La t di Student

    Student dimostra che, sotto H0 ( = 0), abbiamo

    T t(n1)

    dove t indica la famiglia di distribuzioni nota proprio come t diStudent. Tale famiglia dipende da un solo parametro, i gradi diliberta utilizzati per la stima di 2, nel nostro caso n 1.Osserviamo che al crescere di n (e quindi dei gradi di liberta) S2COdiventera uno stimatore sempre piu preciso di 2CO e al tendere di nad infinito la t di Student convergera alla densita normale rimettendole cose a posto.Ma Gosset aveva piccoli campioni . . .

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Nel nostro esempio:

    d = 1.58 (1)

    sCO = 1.23 (2)

    toss =(1.58 0)

    10

    1.23= 4.062 (3)

    Intervallo di confidenza: (0.70 , 2.46).

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Regione di rifiuto

    Per = 0.05 troviamo nelle tavole t2 ,9

    = 2.262

    La regione di rifiuto eR = {t : |t| > 2.262} = (,2.262] [2.262,+)

    Il valore osservato di T appartiene evidentemente alla regione dirifiuto del test conducendo quindi a rifiutare H0 con unaprobablita di errore di prima specie pari a 0.05.Il p-value e = 0.0028 : quale informazione aggiuntiva ci fornisce?

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Dati indipendenti

    Immaginiamo ora che i due sonniferi siano stati assegnaticasualmente ai pazienti arruolati nello studio generando due gruppidistinti di soggetti, il gruppo A e il gruppo B.

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Il modello

    Assumiamo che la variabile risposta ad entrambi i sonniferi segua unadistribuzione normale:

    YiA N(A, A), i = 1, . . . , nAYjB N(B , B), j = 1, . . . , nB

    Segue che

    Y A N(A,AnA

    )

    Y B N(B ,BnB

    )

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Le ipotesi

    Formalizziamo il problema attraverso il seguente sistema di ipotesi:{H0 : A = B

    H1 : A 6= B

    o in modo equivalente: {H0 : A B = 0H1 : A B 6= 0

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Assunzione supplementare

    Ipotizziamo che2A =

    2B =

    2.

    Si tratta di unipotesi particolarmente importante dal punto di vistalogico poiche implica una identica variabilita nella risposta ai duefarmaci che non e affatto scontata e andrebbe semprepreliminarmente verificataa

    aUsiamo il test F di Fisher per verificare se le varianze sono uguali nelle duepopolazioni, con le seguenti ipotesi:{

    H0 : 2A = 2B

    H1 : 2A 6= 2B

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    t test per dati indipendenti

    Statistica test

    Costruiamo la nostra statistica test a partire da un opportunostimatore per la quantita di interesse che e adesso A B :

    Stimatore della differenza dei valori attesi

    A B = Y A Y Bdove Y A Y B N(A B , 2( 1nA +

    1nB

    )).

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Stima della varianza

    Stimiamo la varianza 2 come media ponderata di S2A e S2B :

    S2 =(nA 1)S2A + (nB 1)S2B

    nA + nB 2.

    Sarebbe stato possibile utilizzare la varianza campionaria relativa adun singolo gruppo?

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Statistica test

    Definiamo la statistica test

    T =Y A Y B (A B)

    S

    1nA

    + 1nB

    .

    Sotto lipotesi H0 (B = B)

    T =Y A Y B

    S

    1nA

    + 1nB

    t(nA+nB2)

    dove t(nA+nB2) e la distribuzione t con nA +nB 2 gradi di liberta.

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Esempio

    Nel nostro esempio (fitizio):

    yA = 0.75

    yB = 2.33

    s = 1.898

    Sotto l ipotesi nulla A B = 0:

    toss =2.33 0.75

    1.898

    110 +

    110

    = 1.861.

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Fissato = 0.05, avremo t18,0.975 = 2.101 e la regione di rifiuto:

    R = {t : |t| 2.101} = (,2.101] [2.101,+).

    Adesso non possimo rifiutare H0 (il p-value e 0.079): cosa eaccaduto?

    Alessandra Nardi Sonniferi

  • Sonniferi

    Alessandra Nardi

    Introduzione

    Disegnocross-over

    t-test per datiappaiati

    Dati indipendenti

    t test per datiindipendenti

    Utilizzando un statistica T per campioni indipendenti quando invece inostri dati erano appaiati abbiamo sovrastimato la varianza adenominatore (i numeratori delle due statistiche sono identici,perche?) e quindi sottostimato il valore di T .Infatti

    V ar(Y A Y B) = V ar(Y A) + V ar(Y B) 2Cov(Y A, Y B)

    Lultimo addendo, nel caso di dati appaiati, e generalmente positivoriducendo la varianza rispetto al caso di dati indipendenti quando lacovarianza e nulla.

    Bibliografia

    Student (William Sealy Gosset) The probable error of a mean.Biometrika 6 (1): 125. March 1908.

    Alessandra Nardi Sonniferi

    IntroduzioneDisegno cross-overt-test per dati appaiatiDati indipendentit test per dati indipendenti