La logica statistica della verifica (test) delle...

La logica statistica della verifica (test) delle ip otesi

� Come posso confrontare diverse ipotesi? � Nella statistica inferenziale classica vengono sempre confrontate due ipotesi: l’ipotesi nulla e

l’ipotesi alternativa � In realtà, questo confronto non è diretto. Quello che si confronta realmente sono i dati con

l’ipotesi nulla

� In altre parole:

1. Si cerca di prevedere come potrebbero essere i dati se fosse vera l’ipotesi nulla 2. Se i dati osservati sono molto distanti da quelli si potrebbero ottenere se fosse vera l’ipotesi nulla, allora l’ipotesi nulla VIENE RIFIUTATA (e di conseguenza, si accetta l’ipotesi alternativa) 3. Se invece i dati osservati non sono troppo distanti da quelli si potrebbero ottenere se fosse vera l’ipotesi nulla, allora l’ipotesi nulla NON VIENE RIFIUTATA (ovvero, si dice che i dati osservati sono compatibili con l’ipotesi nulla) L’ipotesi nulla non viene mai accettata!

Ipotesi nulla e ipotesi alternativa

� Ipotesi nulla, o H 0

o E’ un enunciato specifico che riguarda un parametro nella popolazione (o nelle popolazioni)

o E’ l'ipotesi che tutto sommato, se verificata, farebbe concludere allo sperimentatore di aver

perso tempo o comunque renderebbe tutta la faccenda meno interessante o E’ l’ipotesi sulla base della quale si elabora la distribuzione nulla della statistica utilizzata

per il test

� Ipotesi alternativa, o H a o H1

o Rappresenta tutte le altre ipotesi riguardo al parametro non specificate dall’ipotesi nulla

o E’ l’ipotesi che generalmente viene formulata prima di fare un test, l'idea cioè che ha avuto il ricercatore e che lo ha indotto a fare un esperimento o a raccogliere dei dati sul campo (e che quindi sarebbe interessante in genere poter verificare)

Esempi di H0

� La densità di delfini è la stessa nelle zone aree in cui la pesca viene effettuata con le e senza pesca con reti a deriva è uguale alla densità di delfini nelle aree in cui la pesca viene effettuata senza queste reti � Gli effetti antidepressivi della sertralina non differiscono da quelli dell'amitriptilina � Genitori con occhi marroni, ciascuno dei quali ha avuto un genitore con occhi azzurri, hanno figli con occhi marroni e figli con occhi azzurri in un rapporto 3:1 � La temperatura corporea media degli esseri umani sani è 37 °C

Esempi di H1

� La densità di delfini differisce tra zone con e senza pesca con reti a deriva � Gli effetti andidepressivi della sertralina differiscono da quelli dell'amitriptilina � I genitori con gli occhi marroni, ciascuno dei quali ha avuto un genitore con occhi azzurri, hanno figli con occhi marroni e figli con occhi azzurri in un rapporto diverso da 3:1 � La temperatura corporea media degli esseri umani sani non è 37 °C.

Formalizzazione del test di ipotesi con un esempio molto semplice

� Vediamo con un esempio semplice: test sulla media per un campione con varianza nota

o Supponiamo che la crescita media tra il terzo mese e il quarto mese di un bambino allattato con latte materno, in Italia, sia di 0.54 kg (µ = µ0= 0.54)

o Supponiamo anche di sapere che la deviazione standard in questa variabile sia nota e pari

a 0.12 kg (σ = 0.12) o Un campione di 35 bambini alimentati solo con latte artificiale viene analizzato per questa

variabile, e si ottiene una media campionaria x = 0.47 o Si vuole determinare se l’accrescimento medio dei bambini allattati con latte artificiale è

diverso da quello dei bambini allattati con latte materno.

� Si vuole verificare se la media µ nella popolazione dei bambini allattati con latte artificiale (della quale abbiamo un campione) è diversa dalla media µ0 della popolazione dei bambini allattati con latte materno (della quale conosciamo la media). La varianza si suppone nota.

� Formalmente, possiamo indicare le due ipotesi come

� Ipotesi nulla � H0 : µ = µ0 (l’ipotesi nulla è molto specifica)

� Ipotesi alternativa � H1 : µ ≠ µ0 (l’ipotesi alternativa è “tutto quello che non è l’ipotesi nulla”)

� Assumiamo inizialmente che sia vera l’ipotesi nulla per prevedere i risultati che dovremmo attenderci in un campione con n = 35 o il campione di 35 bambini proviene da una popolazione con media µ = µ0= 0.54, con una

deviazione standard σ = 0.12, e quindi il fatto che x = 0.47 è un semplice effetto del campionamento casuale

� Come sarebbe distribuita la media campionaria standardizzata in tanti campioni con n = 35 se

fosse vera l’ipotesi nulla? o (la media campionaria standardizzata, quando ho a disposizione σ, è lo scarto dalla

media della popolazione diviso per xσ )

� Ovvero, quale sarebbe la distribuzione di x

x

σ

µ0− se fosse vera H0? Come una variabile z!

0

α/2 of total area

α/2 oftotal area

-z α/2 z

α/20

α/2 of total area

α/2 oftotal area

-z α/2 z

α/2

� Questa è la distribuzione nulla in questo test di ipotesi

0

α/2 of total area

α/2 oftotal area

-z α/2 z

α/20

α/2 of total area

α/2 oftotal area

-z α/2 z

α/2

� Scelto un certo valore di α (livello di significatività), nella distribuzione nulla si possono

identificare due tipologie di valori di z:

o valori di z compatibili con l’ipotesi nulla, perché sufficientemente vicini a quello che ci aspetta generalmente se fosse vera l’ipotesi nulla

o valori di z così distanti da quello che ci aspetta se fosse vera l’ipotesi nulla da rendere tale

ipotesi molto improbabile

� Per esempio: o α= 0.05 (in un certo senso, questo valore specifica cosa intendo per “compatibilità con

l’ipotesi nulla”) o zα/2 =1.96 o valori di z compatibili con l’ipotesi nulla: valori compresi tra -1.96 e +1.96 o valori di z incompatibili con l’ipotesi nulla: valori maggiori di +1.96 o minori di -1.96

Ragionando sull’esempio della crescita di neonati:

o Il 95% dei campioni con n=35 estratti da una popolazione con media pari a 0.54 kg e σ =

0.12 kg avranno una 35/12.0

54.0−x non superiore a 1.96 e non inferiore a -1.96

o Se nel mio singolo campione questo valore è inferiore a -1.96 o superiore a 1.96, lo

considero così improbabile se fosse vera l’ipotesi nulla, da portarmi al rifiuto di questa ipotesi

o Se nel mio singolo campione questo valore è compreso tra -1.96 e 1.96, lo considero un

valore non così improbabile se fosse vera l’ipotesi nulla, ovvero compatibile con l’ipotesi nulla. Quest’ultima non viene rifiutata.

Questa è la logica inferenziale classica, basata sul rifiuto o il non-rifiuto dell’ipotesi nulla, dell’ipotesi cioè dalla quale partiamo e della quale siamo in grado di definire le caratteristiche in termini di probabilità.

Quindi, in questo caso, il test dell’ipotesi si realizza calcolando la statistica test z

xcalc

xz

σ

µ0−=

e confrontando il valore ottenuto con due regioni della distribuzione z

o regione di accettazione: - zα/2 ÷ zα/2

o regione di rifiuto: per valori di z minori di - zα/2 e maggiori di zα/2

� Il valore di α (livello di significatività) viene di solito fissato a 0.05, ma può anche essere pari a

0.01 o 0.001 se vogliamo essere più sicuri che il rischio di commettere un errore rifiutando un’ipotesi nulla vera (errore di primo tipo) sia inferiore

QUINDI

� Se zcalc cade nella regione di rifiuto, ci sono evidenze forti che sia vera l’ipotesi alternativa, con una probabilità α di sbagliarsi (ovvero di compiere un errore di primo tipo)

� Se zcalc cade nella regione di accettazione, non possiamo respingere l’ipotesi nulla (che non

viene accettata: i dati disponibili sono compatibili con l’ipotesi nulla, ma altri dati, per esempio più numerosi, potrebbero portare al rifiuto)

Nel caso numerico dell’esempio, per α = 0.05

0

2.5% of total area

2.5% of total area

-1.96 1.960

2.5% of total area

2.5% of total area

-1.96 1.96

5.302.0

54.047.0−=

−=calcz

Questo valore cade nella regione di rifiuto e quindi giungiamo alla conclusione che l’ipotesi alternativa è corretta, sapendo però che esiste un rischio pari al 5% che questa conclusione sia errata.

ESEMPIO DEL CONSUMO DI HAMBURGER

L’approccio del P-value (o p-value) nella verifica dell’ipotesi

� E’ un approccio alternativo a quello delle regioni di accettazione e rifiuto appena visto � Importante perché fornisce un’informazione più precisa e anche perché è l’approccio utilizzato

nelle analisi statistiche al calcolatore.

� Torniamo al nostro esempio di test sui bambini allattati con latte artificiale e materno

� x

calc

xz

σ

µ−=

� E’ possibile determinare (da tabella o mediante computer) la probabilità di osservare valori

uguali o più estremi di quello osservato (più estremi significa meno probabili).

� Questa probabilità prende il nome di P-value (o valore p)

� Ovviamente, minore è il P-value o maggiore è l’evidenza che il campione provenga da una popolazione con media diversa

da quella ipotizzata dall’ipotesi nulla o maggiore è quindi l’evidenza in favore dell’ipotesi alternativa

� Con l’approccio del P-value, la logica procede come segue

� Se il P-value è minore di α, ho forti motivi per ritenere che la popolazione da cui proviene il

campione di bambini allattati con latte in polvere abbia una crescita media diversa da µ0 (quella ipotizzata dall’ipotesi nulla) o Si conclude che è vera l’ipotesi alternativa H1 (ossia, il tipo di latte ha un effetto), perché

la probabilità di avere una media così deviante o anche più deviante risulta molto bassa se fosse vera l’ipotesi nulla

o Il P-value è anche pari alla probabilità di sbagliare giungendo a questa conclusione, ossia la probabilità di commettere un errore di primo tipo

� Se invece il P-value è maggiore di α, non ci sono forti evidenze che la popolazione da cui il

campione proviene abbia una media diversa da µ0. o Si conclude che i dati sono compatibili con l’ipotesi nulla, sono cioè spiegabili con il solo

effetto del campionamento. L’ipotesi che la crescita non è influenzata dal tipo di latte non può essere scartata, visto che una certa probabilità non troppo piccola, data dal P-value, risultati simili o più estremi di quelli osservati si possono ottenere per caso se è vera l’ipotesi nulla.

� L'approccio basato sui P-value non è altro che l'altra faccia dell'approccio basato sulle regioni di

accettazione e rifiuto o fissato α, se un valore della statistica test cade nella regione di rifiuto, il suo P-value è

sempre minore di α

� Utilizzando i dati nel nostro esempio, otteniamo come prima che

5.302.0

54.047.0−=

−=calcz

� Cercando in tabella, o usando per esempio un applet in Internet, possiamo calcolare il P-value,

( ) 0005.05.35.3 =≤≤−=− zPvalueP

Alcuni punti molto importanti 1. Inferenza statistica e cautela verso le “novità”

� La verifica di ipotesi è forse lo strumento statistico più importante per il processo conoscitivo scientifico

� Considerando che H0 tendenzialmente definisce la situazione sperimentale "conservatrice" e H1

quella che porta ad una scoperta nella ricerca, si capisce come la logica dell’inferenza statistica abbia un carattere di cautela verso l'innovazione: consente di rifiutare l’ipotesi nulla solo se i dati sono veramente incompatibili con essa (α è in genere fissato al 5%)

� Possiamo pensare alla verifica di ipotesi come ad un processo

o L'imputato è il parametro sotto test o L'assoluzione corrisponde a non rifiutare H0 o La sentenza di colpevolezza è in analogia all'ipotesi alternativa

� Il sistema legislativo consente di condannare solo nel caso di forti evidenze di colpevolezza, nel

caso cioè in cui la probabilità che l'imputato (il parametro) sia innocente (assumo H0), sia molto bassa (minore di α). In questo caso ci garantiamo di non condannare quasi mai un innocente (che come abbiamo visto in statistica di chiama errore di primo tipo), errore ben più grave di assolvere un colpevole (che come vedremo si chiama errore di secondo tipo).

2. L’ipotesi nulla non viene mai accettata

� Un risultato non significativo indica solo che non si è in grado di rifiutare l’ipotesi nulla

� Potrei per esempio avere una media della popolazione campionata (quella dei bambini allattati con latte in polvere nell’esempio presentato) leggermente diversa dalla media di riferimento (quella dei bambini allattati con latte materno), ma i dati risultano ancora compatibili con l’ipotesi nulla.

� L’evidenza in favore dell’ipotesi alternativa non è sufficientemente forte per escludere l’ipotesi

nulla.

� Niente esclude che in un successivo esperimento questa differenza diventi evidente.

� Volendo continuare con l'analogia del processo, questo corrisponde al fatto che l'imputato non viene mai assolto in modo definitivo, ma all'eventuale presenza di nuove prove di colpevolezza, il processo verrebbe riaperto (si eseguirebbe di nuovo il test con i nuovi dati raccolti).

3. Il livello di significatività non corrisponde al la dimensione dell’effetto

� Lo stesso effetto diventa più o meno significativo semplicemente in funzione del numero di dati disponibili: avere più dati, significa avere maggiori informazioni, per cui anche l'effetto più piccolo diventa significativo con un adeguato numero di osservazioni.

� Un risultato significativo non significa un risultato importante ci indica solo quanto poco

probabile è che un certo effetto sia dovuto al caso

� Interpretare la "dimensione", e quindi l'importanza del risultato, è compito dello studioso.

� Per esempio, potrebbe risultare, sulla base di un campione di 10000 persone che fanno jogging regolarmente, che il loro rischio di infarto è statisticamente maggiore rispetto a chi non lo pratica (favorendo cioè l’ipotesi alternativa). Se però questo rischio aumenta, pur se in maniera statisticamente significativa, solo dello 0.01% , questo risultato potrebbe non avere una grande importanza sociale o comunque biologica.

Test sulla media di un campione quando la varianza è ignota � Le ipotesi nulla e alternativa sono ancora: H0 : µ = µ0 La media µ della popolazione dalla quale ho estratto il campione è uguale ad un certo

valore prefissato, µ0. In altre parole, il campione proviene da una popolazione con media µ0.

H1: µ ≠ µ0 La media µ è diversa dal valore prefissato µ0. � La statistica test è il t di Student, calcolato come segue

ns

x

s

xt

xcalc

/00 µµ −

=−

=

� Se la variabile in esame ha una distribuzione gaussiana, questa statistica test si distribuisce secondo la distribuzione t di Student con (n-1) gradi di libertà se è vera l’ipotesi nulla � Posso seguire lo stesso approccio (regioni di accettazione/rifiuto o P-value) per testare l’ipotesi nulla, ovviamente usando la distribuzione t come distribuzione nulla: è un test t di Student

� Il test t è relativamente robusto a piccole deviazioni dall’assunzione di normalità o Ovvero, anche se la variabile ha una distribuzione che si discosta dalla gaussiana, il test t

funziona ugualmente se tale scostamento è piccolo e/o il campione è molto numeroso Esempio

Test sulla proporzione in un campione (utilizzando il test z)

� Un certo numero di individui n, viene assegnato a diverse categorie di una variabile qualitativa � Si calcola la proporzione p di individui che possiedono una specifica caratteristica � Si vuole determinare il valore π nella popolazione da cui il campione è stato prelevato differisce

da un certo valore prefissato π0.

� Se nπ e n(1-π) sono maggiori o uguali a 5 o la variabile p ha una distribuzione binomiale

� Approssimabile con una distribuzione normale • La variabile p standardizzata ha una distribuzione approssimativamente normale

standardizzata. Applico il test z H0 : π= π0 H1 : π ≠ π0

( )n

ppz

pcalc

00

00

1 ππ

π

σ

π

−

−=

−=

� Verifico le ipotesi come di norma

Esempio

� Un campione di 100 cardiopatici viene suddiviso in fumatori e non fumatori � I fumatori risultano essere 21 (p = 0.21) � La proporzione di fumatori nella popolazione generale è pari a 0.15 (π0) � Confrontare l’ipotesi “tra i cardiopatici, i fumatori sono tanto numerosi quanto nella popolazione

generale” (ipotesi nulla) con l’ipotesi “la numerosità di fumatori non differisce nella popolazione di cardiopatici rispetto alla popolazione generale” (ipotesi alternativa)

( ) ( )68.1

100

85.015.0

15.021.0

1 00

0 =−

=−

−=

n

pzcalc

ππ

π

� Il valore calcolato cade nella regione di accettazione o non esistono evidenze statisticamente significative, utilizzando un valore di α = 0.05, che

la frazione di fumatori nei cardiopatici sia diversa dal valore riscontrato nella popolazione generale

� Il p-value è pari a 0.09.

La logica statistica della verifica (test) delle...

Documents

Transcript of La logica statistica della verifica (test) delle...