1 I TEST: LA VERIFICA DELLE IPOTESI La scelta del modello statistico.

1

I TEST: I TEST: LA VERIFICA DELLE LA VERIFICA DELLE

IPOTESIIPOTESI

La scelta del modello statistico

2

La verifica d’ipotesiLa verifica d’ipotesi

Spesso è necessario decidere, sulla base dei dati osservati, della veridicità di ipotesi sul processo che ha portato a generare i dati, ipotesi che si assume siano formulate precedentemente all’esperimento stesso

3

Un esperimento di Un esperimento di DarwinDarwin

Mi è spesso capitato di pensare che sarebbe stato consigliabile appurare se pianticelle ottenute da semi provenienti da impollinazione incrociata dei fiori fossero in qualche modo superiori a quelle derivanti da auto-impollinazione.

4

Charles Darwin (1809-1882), author of The Origin of Species (1859) later investigated the effect of cross-fertilization on the size of plants. Pairs of plants, one cross- and one self-fertilized at the same time and whose parents were grown from the same seed, were planted and grown in the same pot. The numbers of pairs of plants were not large because the time and care needed to carry out the experiments were sub-stantial. Darwin's experiments had taken 11 years. Darwin had sent the data for several species to his cousin, Francis Galton. Galton (1822-1911), an eminent statis- tician, was unaware of any rigorous method for making an inference about the mean of a population when its standard deviation was unknown. Certainly that was the case for Darwin's differences in sizes of pairs of plants.

W.S. Gosset (1876-1937) was employed by the Guniess Brewing Company of Dublin. Sample sizes available for experimentation in brewing were necessarily small, and Gosset knew that a correct way of dealing with small samples was needed. He consulted Karl Pearson (1857-1936) of Universiy College in London about the problem. Pearson told him the current state of knowledge was unsatisfactory. The following year Gosset undertook a course of study under Pearson. An outcome of his study was the publication in 1908 of Gosset's paper on "The Probable Error of a Mean," which introduced a form of what later became known as Student's t-distribution. Gosset's paper was published under the pseudonym "Student." The modern form of Student's t-distribution was derived by R.A. Fisher and first published in 1925.

5

L’ipotesi nulla L’ipotesi nulla

L’ipotesi nulla è in genere un’ipotesi di casualità, quella che vorremmo rifiutare.

H0: le differenze di altezza osservate nei due insiemi di piante sono dovuti a variazioni casuali.

6

L’ipotesi alternativaL’ipotesi alternativa

L’ipotesi alternativa è quella che si vorrebbe “dimostrare” vera.

H1: le differenze di altezza osservate nei due insiemi di piante sono dovuti a alla “superiorità” dei semi ottenuti da impollinazione incrociata.

7

I test d’ipotesiI test d’ipotesi

Lo statistico, valuta se l’evidenza sperimentale è tale da condurre a rifiutare l’ipotesi nulla, accettando di conseguenza quella alternativa

Il ruolo delle due ipotesi non è simmetrico: consideriamo vera H0 finchè non siamo (quasi) certi sia falsa (presunzione di innocenza)

Accade che non siamo nelle condizioni di rifiutare H0 anche soltanto perché l’informazione sperimentale è povera

8

I test d’ipotesiI test d’ipotesi

Di solito disponiamo di conoscenze “a priori” sul fenomeno che possiamo utilizzare per formulare un modello statistico ed esprimere le ipotesi di interesse sotto forma di parametri del modello

Aumentando l’informazione complessiva, riusciamo a ridurre il margine di incertezza sulle conclusioni a cui giungeremo

I risultati finali dipenderanno pero’ adesso dalla validita’ del modello che abbiamo formulato.

9

Nel nostro caso e’ ragionevole assumere che l’altezza delle piantine, indipendentemente dal tipo di impollinazione, segua un modello normale

10

In altre parole ipotizziamo un valore atteso (che non conosciamo) per l’altezza intorno al quale tende a concentrarsi la maggior parte delle piantine. Solo alcune di loro saranno molto piu basse o molto piu’ alte del valore atteso. Tanto piu’ se ne discostano tante meno saranno. Inoltre se attribuiamo la variabilita’ della loro altezza a fattori casuali, la probabilita’ di osservare altezze piu’ basse o piu’ alte della media sara’ la stessa a parita’ di distanza dal valore atteso, cioe’ la loro distribuzione sara’ simmetrica.

11

Misuriamo l’evidenzaMisuriamo l’evidenzaIl primo passo nella costruzione di

un test e’ quello di passare dai dati osservati ad una loro sintesi che prende il nome di statistica test.

La scelta di tale statistica dipende dalle caratteristiche del problema

12

Dati appaiati: torniamo Dati appaiati: torniamo al Zea Maisal Zea Mais

“Student” osservo’ che i dati di Darwin sono “appaiati” poiche’ si tratta di coppie di piantine figlie ottenute dalla stessa pianta madre attraverso due diverse forme di impollinazione. Propose allora di calcolare la differenza in altezza separatamente per ogni coppia di piantine, definendo cosi’ una nuova variabile statistica Di. Ora le coppie di piantine figlie tenderanno ad avere caratteristiche simili e la differenza nell’altezza raggiunta potrà già essere considerata una misura,seppure imprecisa, dell’effetto del diverso tipo di impollinazione.

13

La matrice dei datiLa matrice dei dati

unita' diff (inches)

1 49

2 -67

3 8

4 16

5 6

6 23

7 28

8 41

9 14

10 29

11 56

12 24

13 75

14 60

15 -48

diff. media stimata 20.93stima della varianza 1424.64

gradi di liberta' 14

14

Zea MaisZea Mais

Otteniamo 15 differenze osservate ciascuna delle quali “misura” l’effetto della diversa impollinazione anche se contaminato da possibili fluttuazioni casuali

Proprio per ridurre la componente d’errore sintetizziamo le osservazioni attraverso la loro media aritmetica

La nostra statistica test sara’ allora basata sulla media delle singole differenze n

DD

n

ii

1

15

La statistica testLa statistica testPossiamo interpretare intuitivamente D come

una misura della distanza delle nostre osservazioni dall’ipotesi nulla. Se le differenze sono dovute al caso la loro media tenderà ad essere nulla. Se l’impollinazione incrociata è superiore a quella diretta ci attendiamo valori positivi per D, tanto maggiori tanto maggiore è la sua superiorità. In altre parole D è stata costruita in modo che valori elevati costituiscano un’evidenza contro H0, mentre valori piccoli costituiscano un’indicazione a favore di H0.

16

Statistica testStatistica test

Possiamo adesso riscrivere il nostro sistema d’ipotesi in termini della statistica test D

H0 :E[D]=0

H1 :E[D]>0Quando il valore di D diventa

sufficientemente alto da potere essere considerato una “evidenza” contro l’ipotesi nulla?

17

Per poter rispondere dobbiamo valutare l’impatto della variabilità casuale assumendo vera l’ipotesi nulla.

Con che probabilità osserviamo una differenza media uguale o maggiore di 10 per il solo effetto del caso?

Immaginiamo di ripetere numerose volte l’esperimento, nelle medesime condizioni, ipotizzando che non esista alcuna reale differenza tra i due tipi di impollinazione

Otterremo diversi valori di D al variare del campione osservato. Sulla base di questi valori potremo costruire la distribuzione campionaria di D.

18

Distribuzione Distribuzione campionariacampionaria

Se la nostra ipotesi di normalita’ e’ vera, anche i valori di D provenienti da diversi campioni tenderanno a seguire la stessa legge.

Il valor medio sara’ nullo La variabilita’ casuale sara’ pari

alla variabilita’ delle differenze divisa per la numerosita’ del campione

n2

19

Possiamo adesso standardizzare la nostra statistica D ottenendo

Raramente conosciamo la variabilita’ del fenomeno che stiamo studiando. Piu’ spesso dobbiamo stimarla sulla base dei dati che abbiamo osservato.

n

DD

2

0~

20

Questo stima aggiunge un ulteriore elemento di incertezza

Tradotto in termini di probablita’, passiamo da una distribuzione normale standardizzata ad una t di Student (con n-1 gradi di liberta’)

n

DT

2ˆ0

21

Torniamo al nostro quesito: con che probabilità osserviamo una differenza media uguale o maggiore di 10 per il solo effetto del caso?

La varianza delle differenze di altezza stimata sui nostri dati e’ 1424.64. Calcoliamo il corrispondente valore di T

Dalle tavole della distribuzione T di Student scopriamo che la probabilita’ di avere valori maggiori di 1.026 e’ 0.16

026.1

1564.1424010

10t

22

Se decidessimo di rifiutare l’ipotesi nulla (ammettendo la superiorita’ dell’impollinazione incrociata) quando osserviamo valori uguali o maggiori di 10, sapremmo di sbagliare (oerrore di primo tipo) con una probabilita’ pari a 0.16.

E’ un margine di errore accettabile?Tendiamo normalmente ad essere piu’

conservativi, ammettendo una probabilita’ di errore uguale o inferiore a 0.05.

Fissato possiamo ricavare dalle tavole il percentile corrispondente (t=1.76) e definire la nostra “regione di rifiuto” (t > 1.76, D>17.15)

23

La differenza media stimata nel nostro caso e’ 20.93 che conduce ad un valore osservato di t pari a 2.148 chiaramente in regione di rifiuto

Rifiutiamo l’ipotesi nulla ed accettiamo l’ipotesi alternative di superiorita’ nell’altezza attesa delle piantine ottenute da impollinazione incrociata

24

Notate come la regione di rifiuto e’ definita ancor prima di ossservare il nostro campione. Ancora una volta valutiamo l’errore sulla base di cosa accadrebbe sull’insieme dei risultati sperimentali ossevabili. Ancora una volta e’ una valutazione sul metodo e non sul nostro particolare risultato

Anche un valore molto piu’ elevato di t, ad esempio t=20, condurrebbe a rifiutare l’ipotesi nulla con lo stesso margine di errore pari a 0.05. Tuttavia l’evidenza dei due risultati sembra diversa…

25

Proviamo a chiederci qual’e’ la probabilita’ di osservare, sempre per il solo effetto del caso, differenze medie di altezza maggiori o uguali alla quella osservata pari a 20.93 (il famoso p-value!!)

Da

otteniamo il valore di 0.0248 cioe’ un probabilita’ decisamente bassa che la differenza media osservata sia dovuta a fluttuazioni casuali.

148.2

1564.1424093.20

osst

26

Livello di significatività Livello di significatività osservatoosservato

Quindi il valore p è la probabilità che la statistica D assuma, nel caso in cui l’ipotesi H0 sia vera, un valore elevato almeno quanto quello osservato d; in altri termini è la probabilità che D sia distante dall’ipotesi nulla almeno d. Si capisce come il livello di significatività osservato possa essere interpretato come una misura di evidenza sperimentale a favore di H0.

27

Livello di significatività Livello di significatività osservatoosservato

Infatti se p(d) è molto piccola allora vuol dire che, se H0 fosse vera, sarebbe ben difficile ottenere un valore di DM maggiore o uguale a quello osservato, e quindi una distanza tra l’ipotesi e i dati campionari maggiore o uguale di quella fornita da d; ciò porta ad affermare che H0 è falsa e quindi a rifiutarla. Viceversa un valore p(d) elevato, può essere un’indicazione a favore di H0, anche se non dà luogo a valutazioni di tipo conclusivo, in quanto rivela soltanto una mancanza di evidenza contro H0.

1 I TEST: LA VERIFICA DELLE IPOTESI La scelta del modello statistico.

Documents

Transcript of 1 I TEST: LA VERIFICA DELLE IPOTESI La scelta del modello statistico.