X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf ·...

21
1 CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica Corso di Calcolo delle Probabilità Corso di Calcolo delle Probabilità e e Statistica Statistica II Parte - STATISTICA II Parte - STATISTICA X Lezione Analisi della varianza Esempi e esercizi

Transcript of X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf ·...

Page 1: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

1CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Corso di Calcolo delle ProbabilitàCorso di Calcolo delle Probabilitàe e StatisticaStatistica

II Parte - STATISTICAII Parte - STATISTICA

X LezioneAnalisi della varianza

Esempi e esercizi

Page 2: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

2CPS - Corso di studi in Informatica 2001-2002 - II parte: StatisticaCPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Argomenti della X LezioneArgomenti della X Lezione

•Tests per il confronto di più medie: ANOVA

Utilità e impiego dei tests

Caso dell’analisi della varianza a una via

•Esempi

Page 3: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

3

Confronto tra medie

test per l’uguaglianza tra medie di due popolazioni

(distribuzione normale; varianza nota o sconosciuta, mauguale/varianza sconosciuta)

test per l’uguaglianza tra medie in campioni accoppiati(X1,…,Xn), (Y1,…,Yn)

si procede come per un test relativo al valore di una sola media, mautilizzando la media e la varianza delle differenze campionariecorrispondenti Xi - Yi, i=1,…,n

Si effettua p.es. nei casi in cui i dati campionari sono relativi acondizioni precedenti e successive a un certo trattamento oevento.

CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Page 4: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

4CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Per estendere questo tipo di analisi a più di due popolazioninormali di cui si vogliano confrontare le medie

ANALISI DELLA VARIANZA (ANOVA)

Metodo: la variazione totale nella risposta che viene misurata (a una certa

sollecitazione o trattamento) è suddivisa in componenti che vengono

attribuite a specifiche cause di variabilità

È inserito nel ramo della Statistica che si occupa di disegno degliesperimenti (DOE)

Page 5: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

5CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Tests per confrontare p medie

Ci sono 10 coppie possibili su cuieffettuare un test caratterizzato ognivolta da probabilità di errore di primaspecie 0.05

Vogliamo verificare l’ipotesi nulla che non ci sia differenza tra diverse popolazioni (p. es. 5 popolazioni)

Si potrebbe effettuare il test tra due popolazioni per tutte le coppie possibili

Se i test sono tutti indipendenti la probabilità di trovare almeno untest che porti al rifiuto è 1-0.9510=0.4013 e quindi la probabilità dierrore di I specie è 0.4013

Troppo grande!

Page 6: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

6CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

E’ necessario introdurreuna nuova metodologiaper studiare questi casi:L’ANALISI DELLAVARIANZA

L’analisi della varianza può essere a una o più vie.Nel caso a una via si riconoscono solo ledifferenze tra diversi “trattamenti”, nel caso apiù vie si studiano più fattori che possono crearedelle differenze tra le medie

Considereremo questo caso

Page 7: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

7CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Analisi della varianza

• Analisi della varianza a una via: si considera una sola causa divariazione nell’esito di ciascun esperimento

• Fattore: causa di variazione considerata.

Metodologia per verificare se due o più popolazioni sono caratterizzate dallastessa media (o più medie sono estratte dalla stessa popolazione)

Se si indaga sull’effetto di 5 tipi dideframmentatori sulla velocità di prestazioni diun certo PC si devono raccogliere 5 campioni,ciascuno relativo all’applicazione di un diversodeframmentatore. Il fattore in questo caso èil deframmentatore.

Page 8: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

8CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

TERMINOLOGIA Disegno completamente casuale:

ciascun trattamento viene

assegnato in modo TOTALMENTE

casuale ai soggetti su cui si

effettuano le misure per determinare

l’effetto dei singoli trattamenti

Se voglio confrontare l’effetto di 4 antiviruse ho 100 terminali con uguali caratteristiche,divido casualmente i 100 terminali in gruppi di25 e su ciascun gruppo installo un diversoantivirus.

Page 9: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

9CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Analisi della varianza:esperimenti completamente casualizzati

Quantità coinvolte:

Si definiscono:

n22

Per il trattamentoj-simo

Page 10: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

10CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Trovare un metodo che ci permetta didistinguere se le differenze che osserviamo

tra le medie dei diversi campioni sonodovute a reali differenze tra i

trattamenti o alla naturale differenza chesi osserva campionando ripetutamente dalla

stessa popolazione

Se le medie sono tutte uguali ho:

0.00

0.15

0.30

0.45

0.60

-3.50 -1.75 0.00 1.75 3.50

Problema:

E

S

E

M

P

I

O

Page 11: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

11CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

10

8

6

4

2

..

Qua

ntità

di i

nsul

ina

prod

otta

1 2 3 4 5

Se invece non vale l’ipotesinulla le 5 popolazionihanno medie diverse

0.00

0.15

0.30

0.45

0.60

-3.50 -1.75 0.00 1.75 3.50 5.25

Page 12: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

12CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Errore commesso nella misura i-ma relativa al j-mo trattamento,ovvero deviazione casuale dalla media dell’i-simapopolazione

Media relativa al j-mo trattamento

Media del campione totale, costituitodall’unione di tutti i campioni

Scarto tra la media relativa a untrattamento e quella del campionetotale dovuto al fatto che l’elementoha ricevuto il trattamento j

Page 13: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

13CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Somma degli scarti al quadrato per ogni gruppo di trattamenti

Page 14: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

14CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Statistica del test

2

Page 15: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

15CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Se i campioni possono venir considerati estratti dalla stessapopolazione VR dev’essere circa uguale a 1

VR ~ F (k-1, N-k)

Statistica del test

N-k

Distribuzione della statistica:

F di Fisher

Page 16: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

16CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Riassumendo:Riassumendo:

Se si vuole eseguire un test sull’uguaglianza di più medie

estratte da popolazioni normali, si considera la statistica

e si esprime la regola di decisione del test, in dipendenza

dall’ipotesi nulla e dal livello di significatività scelto, come:

(N – k)

Page 17: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

17CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Esempio: nello studio dell’effetto del glucosio nella produzione diinsulina, si considerano campioni di tessuto pancreatico prelevati da cavietrattate con 5 differenti stimolanti. I ricercatori vogliono scoprire se c’è unadifferenza tra i 5 trattamenti. (campionamento completamente casuale)

: i-mo dato relativo a cavie soggette al primo trattamento

: effetto medio del primo trattamento

Page 18: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

18CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Dall’esempio:

SST = 162.54282 SSW = 41.35739 SSA = 121.18543

MSW =SSW/(N-k)= 1.5317552 MSA = SSA/(k-1)=30.296358

Rifiuto l’ipotesi nulla: i diversi trattamenti hanno effetti

diversi

Valore critico di F=2.73 < 19.78

Page 19: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

19CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Tabella ANOVA

/(k-1)

Page 20: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

20CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

Attenzione: per usare il disegnocompletamente casuale occorreessere certi che gli individui che

ricevono il trattamento sianoomogenei.

Esempio: se si devono confrontare gli effetti di 4 farmaciantiinfluenzali, si devono selezionare un gruppo di individui conetà, stato salute, … omogenei. Poi occorre selezionare il gruppoin 4 sottogruppi cui si distribuiranno i 4 farmaci.

Si potrebbe agire nello stesso modo se ci fossero, per esempio,individui di diverse età. Tuttavia in questo caso si dovrebberoattribuire gli individui tenendo conto di queste differenze, peresempio attribuendo un individuo anziano a caso a ciascunsottogruppo (disegno completamente casuale a blocchi).

!

Page 21: X Lezione Analisi della varianza Esempi e esercizigiovanni.gigante/Materiale_didattico/Anova.pdf · analisi della varianza (anova) Metodo: la variazione totale nella risposta che

21CPS - Corso di studi in Informatica 2002-2003 - II parte: Statistica

ESEMPIO

Si domanda se le medie dei punteggi ottenuti in un certo test dastudenti provenienti da 3 diverse scuole superiori siano diversetra loro. Dato il seguente campione di 5 studenti per ogni scuola,al 5% di significatività si rifiuta o si accetta l’ipotesi che le trescuole siano equivalenti?

Scuola 1 220 251 226 246 260

Scuola 2 244 235 232 242 225

Scuola 3 252 272 250 238 256

MSW = SSW/(N-k) = 165.9667

MSA = SSA / (K-1) = 431.6667

Valore della statistica di test : 2.6009

p-value : 0.1124 Non si può rifiutare l’ipotesi nullaai livelli < 0.1124