Statistica chemiometrica Corso di Laurea: Biologia della Salute A.A. 2011-2012 ANOVA

Post on 14-Jan-2016

51 views 0 download

description

Statistica chemiometrica Corso di Laurea: Biologia della Salute A.A. 2011-2012 ANOVA Analysis Of VAriance Introduzione all’Analisi della Varianza. Bologna: Ist . Anatomia Umana (Via Irnerio ) Aula B 24-11-2011 ore 14-16. Dr. Antonio Gnes. - PowerPoint PPT Presentation

Transcript of Statistica chemiometrica Corso di Laurea: Biologia della Salute A.A. 2011-2012 ANOVA

Statistica chemiometricaCorso di Laurea: Biologia della Salute

A.A. 2011-2012

ANOVAAnalysis Of VAriance

Introduzione all’Analisi della Varianza

Dr. Antonio Gnes

Bologna: Ist. Anatomia Umana (Via Irnerio) Aula B24-11-2011 ore 14-16

IL CONFRONTO TRA LE MEDIE DI DUE O PIU' GRUPPI

Nella ricerca sperimentale, il caso più frequente è il confronto simultaneo tra le medie di due o più gruppi formati da soggetti sottoposti a k trattamenti differenti o con dati raccolti in k condizioni diverse.Al fine di verificare la diversità fra medie (almeno due differiscano tra di loro) è stata sviluppata una metodologia chiamata analisi della varianza e indicata con ANOVA dall’acronimo dell'inglese ANalysis Of Variance. Per tale metodica si usa la distribuzione F.L’ANOVA, che costituisce la base della statistica moderna, permette anche di scomporre e misurare l'incidenza delle diverse fonti di variazione sui valori osservati di due o piùgruppi.Da essa sono derivate le analisi più complesse, con le quali si considerano contemporaneamente molti fattori sia indipendenti che correlati.La grande rivoluzione concettuale introdotta dall’analisi della varianza rispetto al test tconsiste nel differente approccio alla programmazione dell’esperimento. Tale approccio consente una grande combinazione delle condizioni sperimentali.

Misure effettuate dagli studenti del corso di Chimica Analitica in aula B dell’Istituto di Anatomia Umana di Bologna il 15-11-2011.È stato misurato il lato di un parallelepipedo di plastica con calibro digitale avente accuracy di +/-0.02 mm e ripetibilità di 0.01 mm

Misure effettuate dagli studenti del corso di Chimica Analitica in aula B dell’Istituto di Anatomia Umana di Bologna il 15-11-2011.È stato misurato il lato di un parallelepipedo di plastica con calibro digitale avente accuracy di +/-0.02 mm e ripetibilità di 0.01 mm

13,81f -0,03785714 0,001433

13,99m 0,142142857 0,020205

13,81f -0,03785714 0,001433

13,77m -0,07785714 0,006062

13,79f -0,05785714 0,003347

13,79m -0,05785714 0,003347

13,81f -0,03785714 0,001433

14,33f 0,482142857 0,232462

13,84m -0,00785714 6,17E-05

13,65f -0,19785714 0,039147

13,84m -0,00785714 6,17E-05

13,75m -0,09785714 0,009576

13,87f 0,022142857 0,00049

13,82f -0,02785714 0,000776

13,85 3E-14 0,024603

13.85 range

0,68

varianza 0,024603

13,6513,7513,7713,7913,7913,8113,8113,8113,8213,8413,8413,8713,9914,33

SnapStat: One Sample Analysis

Data variable: Col_1Count = 14Average = 13,8479Standard deviation = 0,156853Coeff. of variation = 1,13269%Minimum = 13,65Maximum = 14,33Range = 0,68Stnd. skewness = 3,73833Stnd. kurtosis = 5,73494

Histogram

13,6 13,8 14 14,2 14,4Col_1

0

2

4

6

8

10

fre

qu

en

cy

Box-and-Whisker Plot

13,6 13,8 14 14,2 14,4Col_1

95% confidence intervalsMean: 13,8479 +/- 0,0905642 [13,7573; 13,9384]Sigma: [0,113711; 0,252696]

DiagnosticsShapiro-Wilks P-value = 0,0003Lag 1 autocorrelation = -0,0585265 +/- 0,523823

0 3 6 9 12 15Row

13,6

13,8

14

14,2

14,4

Co

l_1

Time Sequence Plot Normal Probability Plot

13,6 13,8 14 14,2 14,4Col_1

0,1

1

5

20

50

80

95

99

99,9

pe

rce

nta

ge

SnapStat: One Sample Analysis

Data variable: Col_1Count = 11Average = 13,8091Standard deviation = 0,0338982Coeff. of variation = 0,245478%Minimum = 13,75Maximum = 13,87Range = 0,12Stnd. skewness = 0,0269659Stnd. kurtosis = 0,0363567

Histogram

13,7 13,7313,7613,7913,8213,8513,88Col_1

0

1

2

3

4

5

6

fre

qu

en

cy

Box-and-Whisker Plot

13,7 13,7313,7613,7913,8213,8513,88Col_1

95% confidence intervalsMean: 13,8091 +/- 0,0227732 [13,7863; 13,8319]Sigma: [0,0236853; 0,0594891]

DiagnosticsShapiro-Wilks P-value = 0,9425Lag 1 autocorrelation = 0,573504 +/- 0,590953

0 2 4 6 8 10 12Row

13,7

13,73

13,76

13,79

13,82

13,85

13,88

Co

l_1

Time Sequence Plot Normal Probability Plot

13,7 13,7313,7613,7913,8213,8513,88Col_1

0,1

1

5

20

50

80

95

99

99,9

pe

rce

nta

ge

13,7513,7713,7913,7913,8113,8113,8113,8213,8413,8413,87

Test Q di Dixon per outlier (vedi Miller. Statistics for Analytical Chemistry 3° Edition pagg. 63-64)

Q = ABS (valore sospetto – valore più prossimo )/ (valore maggiore – valore minore)

Q = ABS (14.33-13.99)/(14.33-13.65) = 0.5 (per N=10 Qcrit=0.464 )

La distribuzione non è normale in quanto Q calcolato (0.5) è superiore al tabulato (0.464 Tab. A4 pag. 224 del Miller)

Ad analogo risultato si è arrivati con il test di Shapiro-Wilks

Esempio pag 46 di Skoog & West (Editore Piccin, 1970)È stata determinata la percentuale di ossido di calcio in un campione di calcite mediante 6 repliche in % : 55.95-56.00-56.04-56.08-56.23-56.06Si sospetta che il valore 56.23 sia un outlierQ = ABS (56.23-56.08)/(56.23-55.95)= 0.536 (Per N=6 Q crit = 0.621Il valore 56.23 non è un outlier

SnapStat: One Sample Analysis

Data variable: Col_1Count = 6Average = 56,06Standard deviation = 0,095289Coeff. of variation = 0,169977%Minimum = 55,95Maximum = 56,23Range = 0,28Stnd. skewness = 1,1671Stnd. kurtosis = 1,09853

Histogram

55,9 56 56,1 56,2 56,3Col_1

0

0,5

1

1,5

2

2,5

3

fre

qu

en

cy

Box-and-Whisker Plot

55,9 56 56,1 56,2 56,3Col_1

95% confidence intervalsMean: 56,06 +/- 0,1 [55,96; 56,16]Sigma: [0,0594802; 0,233707]

DiagnosticsShapiro-Wilks P-value = 0,4891Lag 1 autocorrelation = 0,237885 +/- 0,800153

0 1 2 3 4 5 6Row

55,9

56

56,1

56,2

56,3C

ol_

1

Time Sequence Plot Normal Probability Plot

55,9 56 56,1 56,2 56,3Col_1

0,1

1

5

20

50

80

95

99

99,9

pe

rce

nta

ge

55,9556,0056,0456,0856,2356,06

One Way ANOVAANalysis Ov VAriance

Questo è lo schema tabulare dell’ ANOVA one way

Per i calcoli vedi Excel a parte e Miller pag. 66-69

SnapStat: One Sample Analysis

Data variable: SkoogCount = 6Average = 4,29Standard deviation = 0,052915Coeff. of variation = 1,23345%Minimum = 4,21Maximum = 4,36Range = 0,15Stnd. skewness = -0,267275Stnd. kurtosis = -0,0732143

Histogram

4,2 4,24 4,28 4,32 4,36 4,4Skoog

0

0,4

0,8

1,2

1,6

2

fre

qu

en

cy

Box-and-Whisker Plot

4,2 4,24 4,28 4,32 4,36Skoog

95% confidence intervalsMean: 4,29 +/- 0,0555311 [4,23447; 4,34553]Sigma: [0,03303; 0,12978]

DiagnosticsShapiro-Wilks P-value = 0,9928Lag 1 autocorrelation = -0,185714 +/- 0,800153

0 1 2 3 4 5 6Row

4,2

4,24

4,28

4,32

4,36

Sko

og

Time Sequence Plot Normal Probability Plot

4,2 4,24 4,28 4,32 4,36Skoog

0,1

1

5

20

50

80

95

99

99,9

pe

rce

nta

ge

4,284,214,304,364,264,33

Femm Masch13,81 13,9913,81 13,7713,79 13,7913,81 13,8414,33 13,8413,65 13,7513,8713,82

ANOVA sui due gruppi di studenti che hanno effettuato le misure

CONDIZIONI DI VALIDITA’ DELL’ANOVAPrima dell’applicazione di questo test parametrico, occorre verificare se esistono le seguenti condizioni.Gli errori devono:a) essere tra loro indipendenti,b) essere distribuiti normalmente;c) avere varianze dei diversi gruppi tra loro omogenee.

CALCOLO DELLE DEVIANZE E DEI GRADI DI LIBERTA’Dopo aver verificato le condizioni di cui sopra si calcolano:

- la devianza totale, con i suoi gdl;- la devianza tra trattamenti o between, con i suoi gdl e la varianza relativa;- la devianza entro trattamenti o within od errore, con i suoi gdl e la varianza relativa.Si noti che:1 - la devianza tra trattamenti più quella entro trattamenti è uguale alla devianza totale;2 - identica proprietà additiva hanno i rispettivi gradi di libertà.

Le formule per il calcolo deiparametri di cui sopra sono:Devianza totale = (vedi oltre)Gradi di libertà totali gdl = n – 1 (n = num. Dati) Nel caso di cui sopra: (4+3+3)-1=9Devianza tra trattamenti = (vedi oltre)Gradi di libertà tra trattamenti gdl = p – 1 (p = num. gruppi) in questo caso 3-1=2

Dividendo la devianza tra e la devianza entro per i rispettivi gradi di libertà, si ottengono- la varianza tra e la varianza entro.Dividendo la varianza tra per la varianza entro, si calcola il rapporto F,che deve essere riportato con i rispettivi gradi di libertà F(2,12)

F = 0,251468/0,0990753 = 2,538Il valore critico di F- con gdl 2 per il numeratore e 12 per il denominatoredalla tabella per la probabilità a = 0.05 è F = 3,89.Il valore calcolato (2,538) è inferiore a quello tabulato (3,89):- la probabilità che l'ipotesi nulla sia vera è superiore al 5%.Di conseguenza, si accetta l'ipotesi nulla: i tre campioni sono stati estratti dalla stessa popolazione;non esiste una differenza significativa tra le 3 medie campionarie.

ESEMPIO DI ANOVA AD UN CRITERIO, CON DISCUSSIONE SULLE CONDIZIONI DI VALIDITA’

Si valuti l’effetto di quattro diete sul tempo di coagulazione del sangue, mediante assegnazione casuale (analisi totalmente randomizzata). 24 cavie sono state sottoposte a 4 tipi di dieta differenti. Successivamente a ognuna delle 24 cavie, prelevate in ordine casuale, è stato misurato il tempo di coagulazione (in secondi) su un campione di sangue.

Diete (Trattamenti)A B C D62 63 68 5660 67 66 6263 71 71 6059 65 68 64

66 68 6359

Media di trattamento

61 66 68 61

Media di tutti i dati

63 68 56med generale

56-8,0

67 66 6264,0

59-5,0

71 71 60numero dati

59-5,0

64 67 6124

60-4,0

65 68 63 60-4,0

66 68 64 61-3,0

63 62

-2,0

59 62

-2,0

66 68 61

medie per trattam

63

-1,063

-1,063 66 56 63

-1,064 67 59 63

-1,065 68 60 64

0,066 68 61 64

0,067 68 62 65

1,071 71 63 66

2,0

63 66

2,0

64 67

3,067

3,0-3 -2 -5 68

4,0-2 -1 -2 68

4,0-1 0 -1 68

4,00 0 0 71

7,01 0 1 71

7,05 3 2

2

3

La devianza totale SQTOT (in inglese chiamata Total Sum of Squares, meno frequentementeCrude Sum of Squares)

Con i dati dell’esempio,Sqtot = (62-64)2 + (60-64)2 ... (62-64)2 = 340

Per comprendere come si stimano i gradi di libertà della devianza totale, è utile riprendere la formula euristica

Essa chiarisce che, per il calcolo della devianza totale, la somma deve essere fatta-per tutti gli n dati (xi ), ma che prima è necessario ricavare da essi la media generale.-ad essi occorre sottrarre l’informazione della media.

Pertanto, i gradi di libertà (degree of freedom df) della devianza totale sono n -1Con i dati dell’esempio, df = 24 -1 = 23

2 - La devianza tra trattamenti SQTRA (between treatment sum of squares) e i suoi gradi di libertà.Per stimare quanto della variabilità complessiva è dovuto alla differenza tra le medie dei gruppi, si ipotizza che i dati di ogni gruppo siano tutti uguali alla loro media (media di gruppo).Con k gruppi e con t n dati entro gruppo,la formula è (vedi oltre)

E’ una devianza pesata, nella quale forniscono un contributo maggiore i gruppi- con una media di gruppoche dista maggiormente dalla media generale- e che hanno un numero maggiore di dati per gruppo.

Con i dati dell’esempio(61 64) 4 (66 64) 6 (68 64) 6 (61 64) 8 228 = - 2 × + - 2 × + - 2 × + - 2 × = TRA SQAnche in questo caso, esiste il problema delle medie con più decimali e dell’elevamento al quadratodelle loro differenze.

Per stimare quanto della variabilità complessiva è dovuto alle differenze presenti entro ogni gruppo,si utilizza la formulaCon i dati dell’esempio(62 61) (60 61) (63 61) (59 61) 10 = - 2 + - 2 + - 2 + - 2 = A SQ(63 66) (67 66) (71 66) (64 66) (65 66) (66 66) 40 = - 2 + - 2 + - 2 + - 2 + - 2 + - 2 = B SQ(68 68) (66 68) (71 68) (67 68) (68 68) (68 68) 14 = - 2 + - 2 + - 2 + - 2 + - 2 + - 2 = C SQ(56 61) (62 61) ... (63 61) (59 61) 48 = - 2 + - 2 + + - 2 + - 2 = D SQda cui= 10 + 40 +14 + 48 = 112 E SQPoiché tra le tre devianze esiste la proprietà additiva

= 340 - 228 = 112 E SQ

In altri termini, servono le n informazioni complessive, dalle quali occorre sottrarre le kinformazioni rappresentate dalla media di ogni gruppo.Pertanto, i gradi di libertà (degree of freedom) della devianza totale sono n - kCon i dati dell’esempio, df = 24 - 4 = 20La proprietà additiva delle tre devianze esiste anche tra i rispettivi gradi di libertà:n - k = (n -1)- (k -1)Con i dati dell’esempio20 = 23 - 3Per una visione complessiva dei calcoli effettuati e per meglio comprendere i passaggi successivi, èsempre utile riportare i risultati in una tabella

-2

-1

1

2

-3

-2

-1

0

1

5

-2

-1

0

0

0

3

-5

-2

-1

0

1

2

2

3

Analisi dei residui

Vedi grafico Excel a parte

Per evidenziare la presenza di anomalie nei dati campionari, è preferibile il grafico (il dot plot) :- sull’asse delle ascisse sono riportate le medie dei campioni-sull’asse delle ordinate sono riportati i valori delle singole osservazioni.

Dalla osservazione, che dovrebbe essere poi confermata con test, emerge con chiarezza che- all’aumentare dei valori medi aumenta la variabilità dei gruppi.Ne deriva anche una diversa interpretazione della presenza dell’outlier:- nell’ultimo gruppo, l’outlier forse non è reale ma forse solo apparente, poiché appartiene a un gruppo che tende ad avere una varianza maggiorePer decidere in modo corretto, se si tratta di un outlier oppure di un gruppo con varianza maggiore, bisogna fare il test ( Q di Dixon o Shapiro Wilks)

Bartlett 19 17 16 11

17 17 18 13

20 15 19 16

16 20 16 11

19 19 14 11

Gdl 4 4 4 4 16

Devianza 10,8 15,2 15,2 19,2 60,4

Varianza 2,7 3,8 3,8 4,8 76,4

log10s2i 0,431364 0,579784 0,579784 0,681241

nilog10s2i 1,725455 2,319134 2,319134 2,724965 9,088689

s2 3,775

log10s2 0,576917

A= 2.3026nilogs2 -i(ni-1)log10s2i 0,326929 0,442099

B= 1+(1-1/16)/3*(4-1) 1,104167

X23= A/B 0,296

ANOVA a due criteri di classificazione senza repliche ocon repliche

1- la devianza totale, con 19 gdl, ottenuta come scarto al quadrato di ogni valore dalla media generale(28- 28,5)2 + (34 - 28,5)2 + (22 - 28,5)2 + ...+ (29 - 28,5)2 = 683,02 - la devianza tra trattamenti o tra zone, con 4 gdl, ottenuta come scarto quadratico di ognunadelle 5 medie di colonna dalla media generale, moltiplicato per il numero di dati di colonna(30,00 - 28,5)2 + 4 ×(27,25- 28,5)2 +...+ 4×(26,00 - 28,5)2 = 128,53 - la devianza tra blocchi o tra ore, con 3 gdl, ottenuta come scarto quadratico di ognuna delle 4medie di riga dalla media generale, moltiplicato per il numero di dati su cui è calcolata la media5×(26,2 - 28,5)2 + 5×(32,8- 28,5)2 +...+ 5×(33,8- 28,5)2 = 525,84 - la devianza d'errore e i suoi gdl possono essere calcolati in modo rapido per differenza:683,0 - 128,5 - 525,8 = 28,7 I gdl della devianza d'errore sono pure calcolati per differenza 19 - 4 - 3 = 12

La significatività della differenza tra zone è verificata con F4,12 =32,125/2,39= 13, 44La significatività delle differenze tra ore è verificata con F3,12 =175,266/2,39= 73,33I valori critici corrispondenti- alla probabilità = 0.05 per Gdl=4-12 è uguale a 3,26 e per Gdl=3-12 è 3,49- alla probabilità = 0.01 per Gdl=4-12 è uguale 5,41 e per Gdl=3-12 è 5,95.Con probabilità inferiore a 0.01 si rifiuta l’ipotesi nulla, sia per le medie delle zone che per le medie delleore. La differenza tra ore risulta maggiore di quella tra zone.

Per una presentazione sintetica dei dati raccolti al fine di verificare rapidamente i calcoli e per la successiva stima delle tre varianze necessarie ai due test F, con gli 8 valori stimati (4 devianze e relativi gdl) è utile costruire la tabella:

La devianza d'errore è stata calcolata per differenza, sottraendo alla devianza totale quella tratrattamenti e quella tra blocchi. Per comprenderne più esattamente il significato, è necessario vedere quanto del valore di ogni osservazione è imputabile agli effetti congiunti della media generale, del fattore A e del fattore B (considerati nelle devianze relative) e quanto ai rimanenti fattori raggruppati nel residuo o devianza d’errore.Con i primi 3 fattori, per ogni valore Xpk osservato è possibile calcolare un valore X pk atteso, definitocomeX pk = X + ( X p - X ) + ( X k - X )Dopo semplificazione, risulta che può essere stimato medianteX pk = X p + X k – X

Con i dati dell’esercizio, dopo aver calcolato le medie marginali e quella totale, è possibile stimare in ogni casella, all’intersezione tra ogni riga e ogni colonna, quale è il valore atteso qualora agissero solamente i tre effetti considerati.La tabella sottostante riporta questi valori attesi X pk:

Esplicitiamo il calcolo solo per il primo valore: 30.00+26.20-28.50=27.70

Bibliografia:“Statistics for Analytical Chemistry” J.C. Miller and J.N. Miller,

Second Edition, 1992, Ellis Horwood Limited

“Fundamentals of Analytical Chemistry”Skoog, West and Holler, 7th Ed., 1996

(Saunders College Publishing)

Chimica Analitica, Harris (Zanichelli)

Soliani, Fondamenti di Statistica Applicata, (UNIPR)