, y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… ·...

14
COME FUNZIONA L'ANOVA A UN FATTORE: SI CONFRONTANO TANTE MEDIE SCOMPONENDO LA VARIABILITA' TOTALE Per testare l'ipotesi nulla che la media di una variabile in k popolazioni sia la stessa, si suddivide la variabilità totale della variabile (ecco perchè si chiama ANOVA...) La variabilità totale viene suddivisa in due componenti: 1. La variabilità all'interno dei gruppi 2. La variabilità tra i gruppi Per vedere questa scomposizione, definiamo prima le medie dei k gruppi con i simboli k y y y ,..... , 2 1 . Sono semplicemente le medie calcolate in ogni gruppo. Definiamo anche la media generale con y . E' semplicemente la media calcolata mettendo insieme tutti i dati di tutti i gruppi o Attenzione! y non è la media delle k medie calcolate nei singoli gruppi.

Transcript of , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… ·...

Page 1: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi

COME FUNZIONA L'ANOVA A UN FATTORE: SI CONFRONTANO TANTE MEDIE SCOMPONENDO LA VARIABILI TA' TOTALE

� Per testare l'ipotesi nulla che la media di una variabile in k popolazioni sia la stessa, si suddivide

la variabilità totale della variabile (ecco perchè si chiama ANOVA...)

� La variabilità totale viene suddivisa in due componenti:

1. La variabilità all'interno dei gruppi

2. La variabilità tra i gruppi

� Per vedere questa scomposizione, definiamo prima le medie dei k gruppi con i simboli

kyyy ,....., 21 . Sono semplicemente le medie calcolate in ogni gruppo.

� Definiamo anche la media generale con y . E' semplicemente la media calcolata mettendo insieme tutti i dati di tutti i gruppi

o Attenzione! y non è la media delle k medie calcolate nei singoli gruppi.

Page 2: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi

� Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi (4 in figura), sull'asse delle Y c'e' la variabile quantitativa (logico quindi chiamarla Y nell'ANOVA e non X come abbiamo fatto finora per indicare una generica variabile), possiamo facilmente vedere che la variabilità complessiva può essere divisa in due componenti

1. La variabilità entro gruppi, cioè quanto mediamente i singoli valori sono distanti dalla media del loro gruppo di appartenenza.

2. La variabilità tra gruppi, cioè quanto mediamente sono distanti le medie dei diversi gruppi dalla media generale

Page 3: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi

� E' piuttosto intuitivo capire che più ci allontana dall'ipotesi nulla (H0: tutte le medie sono uguali) e più la componente tra gruppi della variabilità totale diventerà grande, e rappresenterà una importante frazione della variabilità totale

� E' anche logico capire che la componente entro gruppi della variabilità totale non dipende dalla differenza tra i gruppi. E' una componente che considera semplicemente il fatto che non tutte le osservazioni, anche se appartenenti allo stesso gruppo o sottoposte allo stesso trattamento, sono uguali. E' anche definita come variabilità dell'errore (ha a che fare l'errore insito nel campionamento)

� Provate a disegnare dove cadrebbero approssimativamente le medie dei gruppi e la media

generale nel caso qui sotto (l'ipotesi nulla è vera). La variabilità tra gruppi è bassa!

Page 4: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi

� La componente della variabilità entro gruppi viene definita nell'ANOVA come media dei quadrati

degli errori (MSE: Mean Square Error). E' semplicemente la media pesata delle varianze calcolate all'interno dei gruppi, ovvero un'estensione a k gruppi della varianza comune già vista nel test (dove k=2). E' quindi una varianza, chiamata anche varianza dell'errore. Noi la chiameremo con l'acronimo inglese MSE.

( )

( )

( )

kn

sn

n

snMSE

T

i

k

ii

k

ii

i

k

ii

=

=∑

∑=

=

=

2

1

1

2

1

1

1

1

� ni è la numerosità dell'i-esimo gruppo, nT è la numerosità totale (somma di tutti gli ni)

� Il numeratore di MSE viene chiamato SSE, o somma dei quadrati dell'errore, o anche devianza dell'errore

� Il denominatore di MSE rappresenta i gradi di libertà di questa componente della variabilità totale

Page 5: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi

� La componente della variabilità tra gruppi viene definita nell'ANOVA come media dei quadrati tra

gruppi (MSB: Mean Square Between groups). Dipende da quanto sono distanti le medie dei gruppi dalla media generale, ma considera anche le numerosità dei singoli gruppi. E' anche questa una varianza, chiamata anche varianza tra gruppi. La chiameremo con l'acronimo inglese MSB

( )1

2

1

=∑=

k

yynMSB

k

iii

� Il numeratore di MSB viene chiamato SSB, o somma dei quadrati tra gruppi, o anche devianza tra gruppi

� Il denominatore di MSB rappresenta i gradi di libertà di questa componente della variabilità totale (ci sono k gruppi, e quindi k-1 gradi di libertà)

Page 6: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi

� Come già detto, più ci si allontana dall'ipotesi nulla e più tende a crescere la componente della variabilità tra gruppi. Quindi, più ci si allontana dall'ipotesi nulla e più MSB tende a crescere.

� E' possibile dimostrare che quando è vera l'ipotesti nulla MSB tende ad essere uguale MSE (si veda approfondimento alla fine di questo file pdf)

� Ovviamente, se è vera l'ipotesi alternativa (almeno una media è diversa dalla altre), MSB sarà maggior di MSE (mai minore)

� Poichè sia MSB che MSE sono due varianze, e il valore di MSB/MSE atteso quando è vera l'ipotesi nulla è 1, è chiaro che l'F di Fisher è la statistica test adatta all'ANOVA

� In altre parole, dopo aver calcolato MSB e MSE, posso calcolare

MSE

MSBFcalc =

e utilizzare la distribuzione di Fisher per verificare l'ipotesi nulla µ1 = µ2 = µ3 = µ4 = ....µk Attenzione! Come abbiamo detto più volte, l'ipotesi alternativa (almeno una media è diversa) prevede la deviazione di F solo verso valori >1 (cioè MSB>MSE). Quindi, anche se l'ipotesi alternativa nell' l'ANOVA non è unidirezionale, prevede deviazioni solo in una direzione della distribuzione nulla di Fisher.

Page 7: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi

La tabella dell'ANOVA

� Una tabella utile per riassumere i risultati dell'ANOVA è la seguente

Origine della variazione

Gradi di libertà

SS MS F P-value

Tra gruppi k-1 SSB MSB = SSB/(k-1) Fcalc =

MSB/MSE P(F>Fcalc)

Entro gruppi nT-k SSE MSE = SSE/ (nT-k)

Totale nT-1 SSTO

� I gradi di libertà e la somma dei quadrati (SS) godono della proprietà additiva, ma non le medie

dei quadrati (MS) o Questa proprietà può essere utile

� Nell’ultima colonna, se non dispongo di un calcolatore che mi permette di determinare il P-

value, posso riportare il valore critico di F per l'α scelto e quindi se il valore calcolato supera quello critico, indicare P< α, altrimenti P> α.

Page 8: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi

ESEMPIO DI ANOVA CON k = 3

Page 9: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi
Page 10: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi
Page 11: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi

APPROFONDIMENTO: PERCHE' MSE E MSB DOVREBBERO ESSERE UGUALI QUANDO

E' VERA L'IPOTESI NULLA NELL'ANOVA? � Quando è vera l'ipotesi nulla nell'ANOVA, ovvero quando le medie in tutte le popolazioni da cui ho estratto campioni, o le medie in tutti i trattamenti analizzati con un certo numero di campioni, sono uguali, allora MSE e MSB stimano la stessa cosa, e F tende quindi a 1. Ma cosa stimano MSE e MSB?

Page 12: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi

( )

kn

snMSE

T

i

k

ii

==∑=

2

1

1

Page 13: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi
Page 14: , y - Unifem.docente.unife.it/.../didattica_insegnamenti/biostatistica-1/Slide16.p… · Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi