Spiegazione Anova

22
LE ASSUNZIONI DELL'ANOVA Sono le assunzioni del test t, ma estese a tutti i gruppi: o La variabile deve avere una distribuzione normale in tutte le popolazioni corrispondenti ai gruppi campionati o Le varianze in tutte le popolazioni corrispondenti ai gruppi campionati deve essere uguale Ovviamente, come sempre, per ciascun gruppo il campione deve rappresentare un insieme di misure estratte a caso dalla corrispondente popolazione E' necessario verificare che queste assunzioni vengano soddisfatte Fortunatamente però, l'ANOVA è un'analisi piuttosto robusta a violazioni di queste assunzioni, soprattutto se i campioni hanno circa le stesse numerosità

description

dispense anova

Transcript of Spiegazione Anova

LE ASSUNZIONI DELL'ANOVA � Sono le assunzioni del test t, ma estese a tutti i gruppi:

o La variabile deve avere una distribuzione normale in tutte le popolazioni corrispondenti ai gruppi campionati

o Le varianze in tutte le popolazioni corrispondenti ai gruppi campionati deve essere uguale

� Ovviamente, come sempre, per ciascun gruppo il campione deve rappresentare un insieme di misure estratte a caso dalla corrispondente popolazione � E' necessario verificare che queste assunzioni vengano soddisfatte � Fortunatamente però, l'ANOVA è un'analisi piuttosto robusta a violazioni di queste assunzioni, soprattutto se i campioni hanno circa le stesse numerosità

COSA FARE QUANDO F E' SIGNIFICATIVO (P< αααα) IN UNA ANOVA? � E' necessario verificare quali gruppi siano diversi da quali altri � Confronti a coppie ma con specifiche accortezze per fare in modo che l'errore complessivo di primo tipo non superi il livello α prestabilito (in genere 0.05) � I confronti a coppie possono essere pianificati o non pianificati � Confronti pianificati : bisogna decidere prima dell'esperimento un numero limitato di confronti a coppie a cui si è particolarmente interessati

o Per esempio, nel caso dello studio sul jet lag, prima dell'esperimento si era soprattutto interessati al confronto tra controlli e il gruppo sottoposto a luce al ginocchio

o In questi casi, i pochi confronti a coppie da svolgere sono praticamente dei test t (la differenza sta nel fatto che si usa MSE al posto della varianza comune e i gradi di libertà di MSE)

� Confronti non pianificati : l'interesse non ricade su specifici confronti, ma si è interessati a svolgerli tutti [il numero totale di confronti a coppie è pari a k(k-1)/2]

o Qui il problema dell'errore complessivo di primo tipo è più serio o Ci sono metodi, come quello di Tukey-Kramer, per calcolare se ogni confronto è

significativo (senza incrementare l'errore complessivo di primo tipo) e per visualizzare i risultati

Esempio di visualizzazione dei risultati nel caso d i confronti non pianificati � Ci sono 5 gruppi (per esempio, 5 località diverse), e in ogni località viene misurato un indicatore

di biodiversità (la variabile alla quale si è interessati) in 20 campioni casuali (per esempio, 20 aree di 1 metro quadro, 20 prelievi d’acqua, oppure 20 volumi uguali di sedimento)

o In totale, sono disponibili quindi 20 misurazioni della variabile � La tabella riporta le medie dei gruppi (in ordine crescente) e una lettera che permette di capire

quale gruppo è diverso da quale altro. Lo stesso si può rappresentate con linee al di sotto un istogramma

� I gruppi con la almeno un lettera in comune non hanno una biodiversità media

significativamente diversa

ACCENNI DI ANOVA MULTIFATTORIALE � La tecnica dell’ANOVA può essere estesa all’analisi di un numero maggiore di fattori � La variabile analizzata è sempre una sola (si tratta comunque di una ANOVA univariata), ma il

numero di fattori che distinguono i diversi campioni è maggiore di 1 � Si parla in questi casi di ANOVA univariata multifattoriale Esempio � Partiamo da un esempio di ANOVA univariata unifattoriale

o Si vuole studiare se diversi terreni di coltura determinano una diversa produzione di una proteina da parte di colture cellulari

� La tipologia del terreno è quindi il primo fattore, che chiamiamo fattore A, che può assumere per esempio quattro livelli (1, 2, 3 e 4), corrispondenti a quattro diversi terreni

� Per ogni terreno vengono analizzate per esempio 12 colture cellulari, e per ognuna di queste viene misurata la quantità di proteina prodotta (la variabile analizzata) alla fine dell’esperimento

o Fino a qui, questo è un classico esempio di ANOVA con 1 fattore (ANOVA unifattoriale), 4

gruppi, e 48 osservazioni in tutto della variabile

� Supponiamo ora di voler considerare anche un secondo fattore che riteniamo abbia una certa influenza sulla produzione della proteina analizzata, per esempio il fattore temperatura

o A questo punto, ciascuno dei gruppi costituito da 12 colture viene suddiviso in tre gruppi di 4

colture, ognuno dei quali verrà lasciato crescere a una temperatura diversa � Per esempio, supponiamo che i tre raggruppamenti del secondo fattore siano

temperatura bassa, temperatura media, e temperatura alta � Questo è un esempio di ANOVA con due fattori, e possiamo pensare ai dati di questa analisi

come ad un tabella dove

o le righe identificano il primo fattore (Fattore A, per esempio il terreno di coltura) � il fattore A ha 4 livelli

o le colonne identificano il secondo fattore (Fattore B, per esempio la temperatura) � il fattore B ha 3 livelli

� In questa tabella 4x3, ogni casella rappresenta un singolo gruppo di 4 osservazioni. Ognuno dei 12 gruppi ha subito un trattamento diverso (casella in alto a sinistra: terreno 1 + temperatura bassa; casella in alto in centro: terreno 1 + temperatura media; casella in alto a destra: terreno 1 + temperatura alta; casella nella seconda linea a sinistra: terreno 2 + temperatura bassa; ................; casella in basso a destra: terreno 4 + temperatura alta)

Fattore B (temperatura)

1 2 3

1

y111

y112

y113

y114

y121

y122

y123

y124

y131

y132

y133

y134

2

y211

y212

y213

y214

y221

y222

y223

y224

y231

y232

y233

y234

3

y311

y312

y313

y314

y321

y322

y323

y324

y331

y332

y333

y334

Fattore A (terreno di

cultura)

4

y411

y412

y413

y414

y421

y422

y423

y424

y431

y432

y433

y434

[ogni valore deve necessariamente avere tre indici: il primo indica la riga, il secondo la colonna, il terzo la singola osservazione]

� Le osservazioni totali sono 4x3x4= 48. Per ciascuno dei 12 gruppi posso calcolare una media

� Posso sintetizzare le 12 medie nella tabella

Fattore B (temperatura) 1 2 3

1 y 11 y 12 y 13

2 y 21 y 22 y 23 3 y 31 y 32 y 33

Fattore A (terreno di

coltura)

4 y 41 y 42 y 43

[ogni media deve necessariamente avere due indici: il primo indica la riga e il secondo la colonna]

� L'ANOVA a due fattori ci permette di capire:

o se esiste un effetto principale del tipo di terreno di coltura sulla produzione proteica o se esiste un effetto principale della temperatura sulla produzione proteica o se esiste un’interazione tra i due fattori, ovvero se gli effetti dei due fattori non sono

indipendenti (c’e’ interazione) oppure sono indipendenti (non c’e’ interazione)

� L'ANOVA a due fattori porterà quindi al calcolo di tre statistiche F, ognuna delle quali utile a testare un'ipotesi nulla diversa: sul fattore A, sul fattore B, e sull'interazione

Le tre ipotesi nulle che vengono testate nell’ANOVA a due fattori � Le prime due ipotesi nulle sono:

o Prima ipotesi nulla: le 4 medie della variabile in 4 popolazioni con 4 terreni diversi (senza

considerare la temperatura, e quindi mettendo assieme, per ogni riga, le tre colonne) sono uguali

o Seconda ipotesi nulla: le 3 medie della variabile in 3 popolazioni caratterizzate da 3 temperature diverse (senza considerare il tipo di terreno, e quindi mettendo assieme, per ogni colonna, le quattro righe) sono uguali

� Ma l'ANOVA multifattoriale permette di capire e testare statisticamente una cosa molto

importante: l'interazione tra fattori o La terza ipotesi nulla che viene testata nell’ANOVA a due fattori è quella di assenza di

interazione o Si ha interazione tra i fattori quando l’effetto di un fattore sulla variabile dipende dagli altri

fattori; molto spesso in biologia i fattori interagiscono nel determinare una risposta

o Se per esempio la temperatura alta favorisce la crescita delle colture nel terreno A, ma la sfavorisce (o non la favorisce) nelle colture con terreno B, significa che c'e' interazione tra i fattori: l'effetto di un fattore non è indipendente da quale gruppo viene considerato per l'altro fattore

Esempio numerico di ANOVA a due fattori senza inter azione � Supponiamo che la tabelle delle medie per ciascuno dei 12 gruppi sia la seguente:

Fattore B (temperatura) 1 2 3

1 5.2 6.5 8.3 2 5.8 6.8 8.6 3 7 8.5 10.2

Fattore A (terreno di

coltura) 4 11.5 14.1 16.8

� Visualizziamo graficamente queste medie in un sistema di assi cartesiani dove i valori che

assumono le medie sono riportati, logicamente, sull’asse delle Y

Attenzione! Le considerazioni che seguono sono puramente basate sull’osservazione e la descrizione delle medie. Solo dopo il calcolo dei valori di F, dell’identificazione di valori critici in

tabella, e della definizione delle regioni di accettazione/rifiuto o del P-value, queste considerazioni assumerebbero un valore statistico inferenziale

� Nel grafico che segue, l’asse delle X identifica un fattore, il fattore A � Riportiamo inizialmente le medie per il livello 1 del fattore B, ossia le diverse medie osservate al

livello 1 del fattore temperatura (bassa temperatura) per i 4 tipi di terreno di coltura

0

2

4

6

8

10

12

14

1 2 3 4

Fattore A

� Questo grafico indica che a basse temperature la produzione proteica tende ad aumentare

passando dal terreno 1 al terreno 4 � Cosa succede a temperature medie? E a temperature alte? E come possiamo rappresentare

graficamente anche le medie a queste temperature?

o Utilizziamo un simbolo diverso per ogni livello del fattore B

0

2

46

8

10

12

14

1618

1 2 3 4

Fattore A

Val

ori m

edi d

i pro

d. p

rote

ica Temperatura 1 (bassa)

Temperatura 2 (media)

Temperatura 3(alta)

� Cosa indica questo grafico delle medie?

1. la produzione proteica media aumenta passando dal terreno 1 al terreno 4 in maniera molto simile a tutte e tre le temperature analizzate (le tre spezzate hanno andamenti simili)

2. la produzione proteica aumenta passando dalla temperatura bassa a quella alta in maniera

molto simile con tutti e 4 i terreni di coltura considerati (i tre simboli sono a distanze simili e nello stesso ordine in tutti e 4 i terreni)

� Il grafico quindi suggerisce anche un’altra cosa molto importante: o la produzione proteica varia tra terreni diversi e a temperature diverse ma il modo in cui

varia la produzione proteica tra terreni non dipende dalla temperatura; questo equivale anche a dire che il modo in cui varia la produzione proteica con la temperatura non dipende dal terreno

� Questo è un esempio tipico di ANOVA a due fattori in cui i fattori hanno un effetto principale ma non interagiscono tra loro: non esiste interazione tre i due fattori

� Nella rappresentazione grafica delle medie, l’assenza di interazione si traduce con una serie di

spezzate parallele o quasi parallele � L’assenza di interazione porta anche a poter esprimere i risultati ottenuti in maniera semplice

o Nel nostro caso, la conclusione potrebbe essere espressa (per ora, ripetiamo, solo in forma descrittiva visto che non abbiamo fatto nessuna analisi statistica inferenziale) come:

� La produzione proteica aumenta passando dal terreno 1 al terreno 4, e anche all’aumentare della temperatura

Se molte delle medie calcolate nei 12 gruppi avessero errori standard molto alti, è evidente che dovrei essere molto prudente nelle conclusioni basate solo sull’analisi del grafico delle medie.

Altro esempio di ANOVA a due fattori senza interazi one

0123456789

10

1 2 3 4

Fattore A

Val

ori m

edi d

i pro

d. p

rote

ica

Temperatura 1 (bassa)

Temperatura 2 (media)

Temperatura 3(alta)

� Le spezzate sono circa parallele (quindi, assenza di interazione), ma in questo caso solo il fattore

B sembra avere un effetto principale � I risultati potrebbero essere espressi semplicemente come

o la produzione proteica è costante con i diversi terreni, ma aumenta all’aumentare della temperatura

Esempio di ANOVA a due fattori con interazione fort e � Nella rappresentazione grafica delle medie, la presenza di interazione porta ad avere spezzate

che non sono parallele, o addirittura si intersecano

0

2

4

6

8

10

12

14

16

18

1 2 3 4

Fattore A

Val

ori m

edi d

i pro

d. p

rote

ica

Temperatura 1 (bassa)

Temperatura 2 (media)

Temperatura 3(alta)

� E’ evidente cosa si intenda per interazione in questo caso

o L’effetto sulla produzione proteica dei diversi terreni é diverso a temperature diverse � Ad alte temperature i diversi terreni non sembrano avere un grosso effetto � A basse temperature sembra invece che i terreni 3 e 4 siano più produttivi � A temperature intermedie sembra che ci sia un decremento nella produzione proteica

passando dal terreno 1 al terreno 4

� Nell’esempio precedente, i fattori hanno una forte interazione: l’effetto di un fattore sulla variabile

analizzata sembra dipendere dall’altro fattore � Il fatto che ci sia interazione può rendere meno chiaro un risultato nel quale viene trovata

l’assenza di effetti principali (quelli dovuti ad ogni fattore senza considerare l’altro); si vedano le figure alla fine di questo file

� Anche le conclusioni che possiamo trarre richiedono maggiore attenzione in presenza di

interazione: non é infatti possibile dire come nei casi precedenti in maniera semplice qual’é l’effetto di un fattore, visto che tale effetto può non essere vero per tutti i livelli dell’altro fattore

� Nel grafico alla pagina precedente, se le impressioni fossero confermate dall’analisi statistica,

potremmo dire qualcosa del genere:

� i terreni 3 e 4 sono più produttivi, e quindi da preferire, solamente alle basse temperature, mentre gli stessi terreni sono i meno produttivi a temperature intermedie; inoltre, avendo a disposizione solo il terreno 1 o il terreno 2, le alte temperature sembrano le piú efficaci

� In altre parole, i risultati sono molto più complessi da capire e anche da descrivere in presenza di

interazione

Esempio di ANOVA a due fattori con interazione debo le

� Attenzione, l'interazione può esistere anche in forma più sottile e meno evidente

0

5

10

15

20

25

30

35

1 2 3 4

Fattore A

Val

ori m

edi d

i pro

d. p

rote

ica

Temperatura 1 (bassa)

Temperatura 2 (media)

Temperatura 3(alta)

� In questo caso, i due effetti principali (dei due fattori) sono evidenti (produzione proteica aumenta

passando dal terreno 1 al 4, e con la temperatura), ma c'é comunque un certo grado di interazione

ANOVA a due fattori porta al calcolo di tre statis tiche F

� Fino ad ora abbiamo visto come le medie per ciascuna combinazione possono essere utilizzate graficamente per capire qualcosa sull’effetto dei fattori e sulla loro interazione o Questa era però solo statistica descrittiva!

� Come già accennato, L'ANOVA a due vie viene svolta attraverso il calcolo di tre statistiche F:

o FA-calc : serve per testare l'ipotesi nulla che il fattore A (per esempio, terreno di coltura) non

abbia un effetto principale sulla variabile analizzata (per esempio, la produzione proteica) o FB-calc : serve per testare l'ipotesi nulla che il fattore B (per esempio, la temperatura) non

abbia un effetto principale sulla variabile analizzata (per esempio, la produzione proteica)

o FAB-calc : serve per testare l'ipotesi nulla che i fattori A e B non interagiscano (ovvero, l'ipotesi nulla di assenza di interazione, o, nella rappresentazione grafica, l’ipotesi nulla che le spezzate siano parallele).

� Ognuna delle tre statistiche andrà confrontata con il suo corrispondente valore critico (che

dipenderà dai gradi libertà di ciascuna statistica)

� ATTENZIONE! Se c'e' interazione, FA-calc e/o FB-calc possono risultare non significativi (P<α) anche se i fattori determinano un effetto (non omogeneo) sulla variabile analizzata

� Vediamo alcuni risultati ipotetici che si potrebbero ottenere studiando come varia la velocità ad imparare un certo tipo di esercizio (variabile) in un gruppo di scoiattoli classificati per l'ambiente da cui provengono (fattore A, foresta o parco pubblico) e per la specie a cui appartengono (fattore B, Sciurus carolinensis o Sciurus vulgaris). Assumiamo che ci siano solo due ambienti e due specie (4 gruppi)

� Nelle figure che seguono, quindi, il fattore A è Environment, il fattore B è Species (colore rosso e rombo per Sciurus carolinensis e colore blu e pallino per Sciurus vulgaris), e la variabile “velocità ad imparare un certo esercizio” è indicata come Trait Measure

� Dai grafici possiamo ipotizzare che, se il numero di individui in ciascun gruppo non è troppo basso, i valori di F significativi risulterebbero:

A) Nessuno B) FB C) FA D) FA-B (nessun effetto principale) E) FB e FA-B F) FA e FA-B G) FA, FB e FA-B

ESEMPIO: l’impatto degli organismi erbivori e dell’ altezza nell’area intertidale sulla copertura algale

Per ogni gruppo, sono stati analizzati 16 plot [64 osservazioni in tutto, 63 gdl totali, 15x4=60 gdl dell’MSE, qui indicato come Residuo]