6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una...

17
6. La distribuzione F e l’analisi della varianza 6. 1. La distribuzione F 6. 1. 1. Una definizione della statistica F Per definire la statistica F occorre ritornare al concetto di distribuzione campionaria presentato nel Cap. 3. Consideriamo una popolazione normalmente distribuita con parametri e . Scegliamo due numeri interi n 1 e n 2 . Estraiamo ora due campioni indipendenti di dimensione n 1 e n 2 (successivamente, e con reimmissione dopo la formazione del primo), e calcoliamo le corrispondenti varianze 1 2 s e 2 2 s . A causa dell’indipendenza dei due campioni si dice che le due stime 1 2 s e 2 2 s della varianza parametrica 2 sono indipendenti. Di queste due varianze calcoliamo il rapporto: 2 2 1 2 s s F (6.1) Trattandosi di due stime di una medesima varianza è ragionevole pensare che questo rapporto sia vicino ad 1. Dopo aver reintrodotto gli elementi estratti nella popolazione, procediamo all’estrazione di due nuovi campioni, sempre di dimensione n 1 e n 2 , e calcoliamone ancora le varianze 1 2 s e 2 2 s . Ancora una volta calcoliamo il rapporto F delle due varianze. Ripetiamo ancora indefinitamente questa operazione. Otterremo per questa via una distribuzione di valori della statistica F. L’equazione di questa distribuzione è nota ed è alla base di tutte le tecniche statistiche che presenteremo in questo capitolo. Prima di parlare di questa distribuzione è tuttavia importante fare una piccola generalizzazione della definizione data sopra. Si è fin qui parlato di una popolazione normalmente distribuita con parametri e ; in realtà questa condizione è un po’ più restrittiva del necessario: in realtà il campionamento può avvenire anche da due differenti po polazioni, sempre distribuite normalmente, con medie 1 e 2 differenti ma con la stessa varianza . La condizione di omogeneità delle varianze è nota col termine di omoschedasticità. In sintesi, la statistica F è il rapporto di due stime indipendenti della comune varianza di due popolazioni normalmente distribuite e omoschedastiche. Sulle tre assunzioni di indipendenza, normalità e omoschedasticità dovremo tornare a discutere a lungo in § 7. 5., perché in difetto di una o più di esse tutte le tecniche che descriveremo perdono (o rischiano di perdere) il loro valore. 6. 1. 2. La distribuzione della statistica F La statistica F è calcolata sulla base di due varianze campionarie 1 2 s e 2 2 s ; i corrispondenti campioni hanno nella generalità dei casi dimensione n 1 e n 2 differenti; quindi i gradi di libertà delle due varianze, definiti in § 3. 2. 3. dalla (3.11), sono in genere due numeri 1 e 2 differenti. Questi due numeri determinano l’equazione della distribuzione F, che dunque, come la distribuzione t, non ha una sola curva di distribuzione ma infinite. Anzi, nel caso della distribuzione t avevamo solo un numero ad esprimere i gradi di libertà della statistica, mentre in questo caso abbiamo sia i gradi di libertà 1 del numeratore che i gradi di libertà 2 del denominatore. L’equazione della curva di distribuzione della statistica F è ancora più complicata di quella del t; anche in questo caso ne diamo una versione semplificata, al solo scopo di rendersi conto della dipendenza dai valori di 1 e 2 : 2 ) 2 1 ( 2 ) 2 ( 2 1 1 0 1 F F Y f (6.2) dove 0 Y rappresenta una costante che dipende anch’essa da 1 e 2 . Come per la distribuzione t i gradi di libertà della statistica F sono posti a pedice fra parentesi quadre: ] , [ 2 1 F . Il primo numero rappresenta per convenzione i gradi di libertà della varianza a numeratore mentre il secondo i gradi di libertà della varianza a denominatore. Fig. 6.1 rappresenta diverse curve di distribuzione della variabile F : ] 1 , 1 [ F , ] 2 , 1 [ F , ] 3 , 1 [ F , ] 4 , 1 [ F e ] 5 , 1 [ F . Come si vede bene dalla figura, a differenza della distribuzione normale e della distribuzione del t, la curva di distribuzione della statistica F è asimmetrica: nella sua forma più tipica presenta una gobba posta asimmetricamente a sinistra. A destra presenta un andamento asintotico (si abbassa indefinitamente sull’asse delle ascisse) mentre a destra no. Questo non è strano se si pensa che la statistica F è un rapporto di due varianze, e quindi è comunque una quantità positiva: non esistono valori negativi della statistica F.

Transcript of 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una...

Page 1: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

6. La distribuzione F e l’analisi della varianza

6. 1. La distribuzione F

6. 1. 1. Una definizione della statistica F

Per definire la statistica F occorre ritornare al concetto di distribuzione campionaria presentato nel Cap. 3.

Consideriamo una popolazione normalmente distribuita con parametri e . Scegliamo due numeri interi n1 e n2.

Estraiamo ora due campioni indipendenti di dimensione n1 e n2 (successivamente, e con reimmissione dopo la

formazione del primo), e calcoliamo le corrispondenti varianze 12s e 2

2s . A causa dell’indipendenza dei due campioni

si dice che le due stime 12s e 2

2s della varianza parametrica 2 sono indipendenti. Di queste due varianze

calcoliamo il rapporto:

22

12

s

sF (6.1)

Trattandosi di due stime di una medesima varianza è ragionevole pensare che questo rapporto sia vicino ad 1.

Dopo aver reintrodotto gli elementi estratti nella popolazione, procediamo all’estrazione di due nuovi campioni, sempre

di dimensione n1 e n2, e calcoliamone ancora le varianze 12s e 2

2s . Ancora una volta calcoliamo il rapporto F delle

due varianze. Ripetiamo ancora indefinitamente questa operazione.

Otterremo per questa via una distribuzione di valori della statistica F. L’equazione di questa distribuzione è nota ed è

alla base di tutte le tecniche statistiche che presenteremo in questo capitolo.

Prima di parlare di questa distribuzione è tuttavia importante fare una piccola generalizzazione della definizione data

sopra. Si è fin qui parlato di una popolazione normalmente distribuita con parametri e ; in realtà questa condizione è

un po’ più restrittiva del necessario: in realtà il campionamento può avvenire anche da due differenti popolazioni,

sempre distribuite normalmente, con medie 1 e 2 differenti ma con la stessa varianza .

La condizione di omogeneità delle varianze è nota col termine di omoschedasticità.

In sintesi, la statistica F è il rapporto di due stime indipendenti della comune varianza di due popolazioni normalmente

distribuite e omoschedastiche.

Sulle tre assunzioni di indipendenza, normalità e omoschedasticità dovremo tornare a discutere a lungo in § 7. 5.,

perché in difetto di una o più di esse tutte le tecniche che descriveremo perdono (o rischiano di perdere) il loro valore.

6. 1. 2. La distribuzione della statistica F

La statistica F è calcolata sulla base di due varianze campionarie 12s e 2

2s ; i corrispondenti campioni hanno nella

generalità dei casi dimensione n1 e n2 differenti; quindi i gradi di libertà delle due varianze, definiti in § 3. 2. 3. dalla

(3.11), sono in genere due numeri 1 e 2 differenti.

Questi due numeri determinano l’equazione della distribuzione F, che dunque, come la distribuzione t, non ha una sola

curva di distribuzione ma infinite. Anzi, nel caso della distribuzione t avevamo solo un numero ad esprimere i gradi di

libertà della statistica, mentre in questo caso abbiamo sia i gradi di libertà 1 del numeratore che i gradi di libertà 2 del

denominatore.

L’equazione della curva di distribuzione della statistica F è ancora più complicata di quella del t; anche in questo caso

ne diamo una versione semplificata, al solo scopo di rendersi conto della dipendenza dai valori di 1 e 2:

2)21(

2)2(

2

1

1

0

1

F

FYf (6.2)

dove 0Y rappresenta una costante che dipende anch’essa da 1 e 2.

Come per la distribuzione t i gradi di libertà della statistica F sono posti a pedice fra parentesi quadre: ],[ 21 F . Il

primo numero rappresenta per convenzione i gradi di libertà della varianza a numeratore mentre il secondo i gradi di

libertà della varianza a denominatore.

Fig. 6.1 rappresenta diverse curve di distribuzione della variabile F : ]1,1[F , ]2,1[F , ]3,1[F , ]4,1[F e ]5,1[F . Come si

vede bene dalla figura, a differenza della distribuzione normale e della distribuzione del t, la curva di distribuzione della

statistica F è asimmetrica: nella sua forma più tipica presenta una gobba posta asimmetricamente a sinistra. A destra

presenta un andamento asintotico (si abbassa indefinitamente sull’asse delle ascisse) mentre a destra no.

Questo non è strano se si pensa che la statistica F è un rapporto di due varianze, e quindi è comunque una quantità

positiva: non esistono valori negativi della statistica F.

Page 2: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

Fig. 6.1

Come per tutte le curve di distribuzione le aree sotto la curva di distribuzione della statistica F rappresentano delle

probabilità; precisamente: l’area sotto la curva di distribuzione compresa fra due valori a e b rappresenta la probabilità

di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra

a e b.

6. 1. 3. Le tavole della distribuzione F a una coda

Anche per la statistica F l’Appendice fornisce l’opportuna tavola dei valori critici. Essendo più frequente l’uso di test a

una coda (per motivi chiariti in § 6. 3. 3.) è più comodo avere tabulati i valori critici appunto ad una coda.

Il fatto di avere due numeri 1 e 2 per i gradi di libertà della statistica, impone di organizzarne i valori critici di F in

righe e colonne. Le colonne sono intestate con i differenti valori dei gradi di libertà 1 del numeratore. Le righe sono

invece intestate con il valore 2 dei gradi di libertà del denominatore.

Ogni colonna è sdoppiata, per raccogliere i valori critici corrispondenti ai gradi di libertà 1 e 2 a livello 0.05 e 0.01.

Non sono riportati i valori critici a livello 0.001.

I valori critici sono quelli che delimitano in ascissa la coda di destra con area pari al livello di significatività scelto.

Fig. 6.2

Fig. 6.2 aiuterà a comprendere come funziona la Tavola 4. Si tratta della curva di distribuzione F con 6 e 28 gradi di

libertà. Il livello di significatività scelto è 0.05, corrispondente ad una area sotto la coda di destra pari al 5% dell’area

totale, che come in tutte le curve di distribuzione vale 1. Il valore critico che delimita questa coda si scrive ]28,6[05.0F ,

e vale 2.44. Questo valore si trova in colonna 6, riga 28, prima sottocolonna, corrispondente ad =0.05.

Analogamente ]40,1[01.0F vale 7.31, ed equivale al valore di ascissa che delimita la coda di destra con area 0.01 (1%

dell’area totale).

Anche per la statistica F valgono le convenzioni simboliche per la significatività fissate per la statistica t: sono

rappresentate visivamente in Fig. 6.3 (ancora con la distribuzione a 6 e 28 gradi di libertà).

Fig. 6.3

Page 3: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

Anche il simbolismo per la significatività della statistica F è conforme a quanto stabilito in generale in § 4. 2. 4.

Rimangono due problemi aperti.

Come comportarsi nel caso di valori di 1 e 2 mancanti sulla Tavola 4? Diciamo che per quanto riguarda 1 la Tavola

4 riporta tutti i valori da 1 fino a 6; questo significa, come vedremo in § 6. 3. 3. formula (6.7), essere coperti per

statistiche che riguardino fino a 7 gruppi diversi di dati trattati contemporaneamente; ce n’è in abbondanza per

qualunque sperimentazione scolastica. Ma, se proprio non dovesse bastare, ci si può comportare analogamente a quanto

suggerito appresso per valori mancanti di 2: se il calcolo è fatto al computer con apposito software il problema non si

pone; in un calcolo manuale occorrerebbe una procedura denominata interpolazione armonica che calcola in modo

approssimato il valore di 2 mancante sulla base dei due valori presenti sulla tavola subito sopra e subito sotto il valore

mancante. C’è tuttavia un modo più sbrigativo, anche se non sempre soddisfacente: quello di riferirsi al valore di 2

presente sulla tavola immediatamente precedente a quello mancante. Se F risulterà significativa rispetto a quel valore

critico lo sarà a maggior ragione rispetto al valore mancante incognito (che è inferiore); analogamente, se F risulterà

non significativa rispetto al valore critico immediatamente successivo a quello mancante, a maggior ragione sarà non

significativa rispetto al valore mancante incognito (che è superiore). Questa semplice tecnica di usare i valori più vicini

disponibili sulla tavola è riferita come uso di valori critici conservativi.

Un ultimo problema. Come comportarsi nel caso (non frequente) di test a due code? Questo è l’esatto rovescio del

problema descritto al termine di § 5. 1. 3.: là avevamo il problema di avere tavole a due code per test a una coda,

mentre qui abbiamo tavole a una coda per un test a due. La soluzione è l’esatto rovescio di quella suggerita in § 5. 1. 3.:

per i valori critici a livello 0.05, 0.01 e 0.001 in un test a due code occorre dimezzare , cercando rispettivamente i

valori critici a livello 0.025, 0.005 e 0.0005 delle tavole a due code. Questo in linea teorica; di fatto purtroppo la Tavola

4 non riporta i valori critici ai livelli 0.025, 0.005 e 0.0005. In pratica dunque noi utilizzeremo, quando sarà necessario,

la tecnica dei valori critici conservativi.

6. 2. Test per l’omogeneità di due varianze

6. 2. 1. Inquadramento del problema

Cominciamo con un esempio.

Un gruppo di docenti di una determinata disciplina affronta il problema dell’omogeneità delle valutazioni scritte. Si

suppone che il ricorso ad una griglia di valutazione comune possa migliorare l’omogeneità delle valutazioni. Per

verificare l’ipotesi sperimentalmente un elaborato viene corretto in modo indipendente da tutti i docenti, ciascuno

secondo una propria griglia di valutazione. Il punteggio grezzo assegnato da ciascun docente viene registrato. Dopo una

discussione si elabora una griglia di valutazione comune, ed un nuovo elaborato viene corretto ancora in modo

indipendente da tutti i docenti, ma questa volta secondo la griglia comune. E’ ingenuo pensare che basti una griglia

comune per arrivare ad un perfetto allineamento delle valutazioni; tuttavia potrebbe essere un passo avanti. Anche i

nuovi punteggi grezzi vengono registrati e confrontati con i primi.

Cosa interessa confrontare? Non certo le medie dei due gruppi di valutazioni: la differenza di medie certificherebbe

eventualmente un differente livello di adeguatezza agli obiettivi da parte dei due elaborati coretti; in questo caso non ci

interessa sapere quale dei due studenti è stato più bravo. Siamo invece interessati al grado di omogeneità delle

valutazioni espresse in termini di punteggio grezzo. Il grado di omogeneità dei punteggi di uno stesso gruppo si misura

con un indice di dispersione, cioè con la varianza (o con la deviazione standard). Ciò che dovremo sottoporre a test è

dunque una differenza di varianze, e non una differenza di medie. Trattandosi di due varianze viene spontaneo ricorrere

alla statistica F.

6. 2. 2. Il test Fmax

Parlando in generale il test Fmax sottopone a test la differenza fra due varianze. Il test presuppone come tutti i test basati

sulla statistica F che le due popolazioni da cui sono tratti i campioni siano normalmente distribuite.

L’ipotesi nulla H0 è quella di omogeneità delle varianze parametriche: 2

2

2

1 .

A seconda che l’ipotesi alternativa H1 sia 2

2

2

1 oppure 2

2

2

1 abbiamo un test a due code oppure ad una

coda.

Nelle linee generali il test consiste nel calcolare il valore di F secondo la (6.1), e verificare se il valore ottenuto è

significativo oppure no al livello prescelto; come si vede è semplicissimo, ma occorre una precisazione:

è del tutto arbitrario scegliere fra le due varianze disponibili quale mettere a numeratore e quale a denominatore;

tuttavia occorre ricordare che la Tavola 4 si riferisce alle code di destra della distribuzione, corrispondenti ai valori di F

maggiori di 1; se noi ponessimo a numeratore la varianza più piccola, otterremmo un valore di F minore di 1 e quindi

cadremmo nella coda di sinistra della distribuzione per la quale non disponiamo dei valori critici; per questo motivo è

necessario porre a numeratore della (6.1) sempre la varianza più grande, in modo da cadere eventualmente sotto la coda

di destra della distribuzione. Questo spiega il nome assegnato al test.

Si noti che con le statistiche z e t questo problema non sussisteva, a causa della simmetria delle loro distribuzioni.

Invece, come abbiamo già più volte notato, la distribuzione F è asimmetrica.

Page 4: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

I dettagli di calcolo sono sviluppati nel Box 6.1. che esemplifica il problema prospettato in § 6. 2. 1. I calcoli sono

semplici e lineari.

L’ipotesi alternativa scelta è H1: 2

2

2

1 ; ciò implica fortunatamente l’uso di un test ad una coda. Il motivo della

scelta sta nel fatto che abbiamo un ragionevole motivo di credere che la variabilità delle votazioni con una griglia

comune sia ridotta rispetto a quella delle valutazioni con griglie differenti; quindi adottando la griglia comune ci

aspettiamo una varianza non semplicemente differente, ma più precisamente minore.

Si osservi un secondo aspetto interessante. Come si vede dai dati del Box 6.1, i due elaborati esprimono prestazioni

abbastanza differenti: la prima è sicuramente peggiore della seconda; tuttavia il test non tiene in considerazione questa

circostanza, ma solo delle differenti variabilità delle votazioni.

6. 3. Introduzione all’analisi della varianza o ANOVA

6. 3. 1. Un nuovo approccio alla valutazione della differenza fra gruppi

Il test t per il confronto fra due gruppi indipendenti presentato in § 5. 4. costituisce un buon punto di partenza.

In esso si trattava di valutare se i due gruppi di dati confrontati provengono da popolazioni statistiche con la stessa

media parametrica oppure no.

In questo capitolo il problema è generalizzato ad un numero imprecisato di gruppi, quindi non necessariamente solo

due. Il riferimento alla Parte metodologica è quindi al § 4.2.1. e al § 4.2.2..

Nel t – test il calcolo punta direttamente ad un confronto delle due medie campionarie, come evidenzia immediatamente

la differenza a numeratore della (5.10).

Il nuovo approccio è indiretto ma più sottile. Ecco il ragionamento ridotto all’essenziale.

Abbiamo diversi gruppi di dati, per fissare le idee sia a il numero dei gruppi; per semplificare almeno inizialmente le

cose supponiamo che tutti gli a gruppi abbiano n elementi; vogliamo sapere se le loro a medie parametriche sono

significativamente differenti una dall’altra. In altre parole ci interessa sapere se i differenti a gruppi provengono da

popolazioni con medie parametriche differenti oppure no.

Si ipotizza che gli a gruppi di n dati a confronto provengano tutti da una stessa popolazione statistica normalmente

distribuita di media e varianza 2 (ipotesi nulla H0). Questa ipotesi implica che le medie parametriche di ciascun

gruppo siano uguali a , cioè che non vi siano differenze significative fra le a medie.

Della varianza 2 della popolazione unica ipotizzata si calcolano, sulla base dei dati contenuti negli a gruppi, due stime

indipendenti, basate su due metodi differenti.

La prima stima: calcoliamo la varianza campionaria s2 all’interno di ciascuno degli a gruppi. Delle a varianze così

ottenute calcoliamo la media. Dunque, in sintesi, la prima stima di 2 è la media delle varianze campionarie s

2

all’interno di ogni singolo gruppo. Questa stima è chiamata varianza all’interno dei gruppi e indicata col simbolo 2

ws

(dall’inglese within, all’interno) In formula:

a

ssw

2

2 (6.3)

(si ricordi che abbiamo adottato l’ipotesi semplificatoria che tutti gli a gruppi abbiano n elementi; nel caso generale

che i gruppi abbiano un differente numero di elementi la (6.3) va modificata, per dare un peso maggiore alle varianze

basate su più elementi).

La seconda stima: partiamo dalla relazione (3.2) che esprime l’errore standard della media; elevando a quadrato

otteniamo:

nY

22

da cui isolando 2 otteniamo:

22

Yn

Questa relazione indica la strada per arrivare alla seconda stima: essa ci dice che la varianza 2 della popolazione è

data dalla varianza 2

Y delle medie campionarie moltiplicata per n . Sostituendo il valore parametrico

2

Y con la

sua stima campionaria 2

Ys otteniamo la seconda stima della varianza

2 ; la chiamiamo varianza fra i gruppi e la

indichiamo col simbolo 2

gs ; In formula:

22

Yg sns (6.4)

(si ricordi che anche la (6.4) è valida solo nel caso che tutti i gruppi abbiano n elementi, e va sostituita nel caso

generale).

Riassumendo, abbiamo 2

ws e 2

gs , due stime della varianza stessa varianza 2 . Essendo stime di uno stesso

parametro i loro valori dovrebbero essere abbastanza simili e quindi il rapporto

Page 5: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

2

2

w

g

s

sF (6.5)

dovrebbe essere abbastanza prossimo ad 1.

Prima di procedere occorre una precisazione a proposito della (6.5). Il rapporto fra le due varianze è stato correttamente

chiamato con F, in quanto si tratta effettivamente di due stime indipendenti della varianza comune 2 (si ricordi che la

statistica F è appunto definita in conclusione del § 6. 1. 1. come rapporto di due varianze indipendenti). L’indipendenza

delle due stime andrebbe in realtà spiegata; qui ci accontenteremo intuitivamente del fatto che le due procedure di stima

seguono logiche differenti.

6. 3. 2. Come varia F Torniamo al rapporto (6.5). Per capire come vari il valore di F a seconda delle circostanze, in Tab. 6.1 riportiamo tre

esempi basati su tre gruppi (quindi a = 3)., che visualizziamo graficamente (attraverso la tecnica illustrata nel Box 1.1,

Parte c) e di cui calcoliamo in parallelo la statistica F secondo la (6.5).

Il primo esempio (colonna di sinistra) ha tre medie uguali a 10 e varianze rispettivamente uguali a 1, 2 e 3; nel secondo

(in colonna centrale) i tre gruppi hanno le stesse varianze dell’esempio di sinistra, ma medie differenti (8, 10 e 12); il

terzo esempio (colonna destra ) ha le stesse medie del secondo, ma varianze maggiori (4, 5 e 6). In tutti i gruppi n = 5.

Dai grafici vediamo subito: nella colonna a sinistra l’uguaglianza delle tre medie, e la loro disuguaglianza nei rimanenti

due casi; ma anche: la stessa variabilità nei primi due esempi e una maggiore variabilità nel terzo (graffe più aperte). Da

un confronto intuitivo fra gli ultimi due grafici notiamo che nell’ultimo la differenza fra le medie pare mitigata rispetto

all’altro da una maggiore variabilità dei dati: cioè sembra che lo stacco netto fra i tre gruppi visibile nel grafico centrale

venga in qualche modo riassorbito, in quello a destra, dalle graffe più aperte.

Gr. 1 Gr. 2 Gr. 3 Gr. 1 Gr. 2 Gr. 3 Gr. 1 Gr. 2 Gr. 3

Y 10 10 10 Y 8 10 12 Y 8 10 12

2s 1 2 3 2s 1 2 3 2s 4 5 6

n 5 5 5 n 5 5 5 n 5 5 5

10Y

02

000 2222

Y

s

00522

Yg sns

233212

ws

02022

wg ssF

10Y

4

2

202 2222

Y

s

204522

Yg sns

22ws

1020222

wg ssF

10Y

4

2

202 2222

Y

s

204522

Yg sns

52ws

450222

wg ssF

Tab. 6.1

E veniamo ad analizzare i calcoli che concludono Tab. 6.1.

La varianza delle medie 2

Ys (necessaria per il calcolo di

2

gs ) è ricavata attraverso la (3.7) anziché attraverso la

consueta equivalente computazionale (3.9), in quanto abbiamo numeri interi che non daranno problemi di

arrotondamento, ed il calcolo è più spedito; dunque:

1

2

2

a

YYs

Y (6.6)

La media delle medie Y necessaria nel calcolo di 2

Ys è scritta nella prima riga.

Page 6: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

Confrontiamo i calcoli relativi ai primi due esempi: le varianze (1, 2 e 3) sono le stesse nei due esempi e quindi la

varianza all’interno dei gruppi 2

ws ha lo stesso valore.

Invece la varianza fra i gruppi 2

gs è nulla nel primo caso (infatti le tre medie sono uguali, quindi hanno varianza nulla)

e piuttosto elevata nel secondo (dove infatti le medie si diversificano). Ciò conduce a differenti valori di F: nel primo

caso F = 0, nel secondo F = 10. Quindi abbiamo chiarito che a parità di varianza all’interno dei gruppi F cresce al

crescere della differenza fra le medie.

Ma a cosa serve esattamente la varianza all’interno dei gruppi che sta a denominatore? Ciò è spiegato dal confronto fra

gli ultimi due esempi (quelli nella colonna centrale e destra): le medie dei tre gruppi nei due esempi sono le stesse (8, 10

e 12) e quindi in termini assoluti la differenza fra di esse nell’esempio centrale ed in quello sulla destra è la stessa.

Eppure, si è detto sopra, se relazioniamo i distacchi fra le medie alle relative varianze dobbiamo concludere che

nell’esempio centrale il distacco fra i tre gruppi appare più netto. Ebbene, proprio questa necessità di relazionare la

variabilità delle medie alla variabilità interna ai gruppi suggerisce di rapportare la varianza fra i gruppi 2

gs a

numeratore con la varianza all’interno dei gruppi 2

ws a denominatore. Infatti, se finalmente confrontiamo i valori di F

nel secondo e nel terzo esempio notiamo che in quello centrale F = 10 mentre in quello a destra F = 4.

In sintesi, quella che era la sensazione soggettiva derivata dall’analisi dei tre grafici è confermata dal calcolo dei tre

valori di F: 0 nel caso in cui la differenza fra le medie è nulla, 10 quando lo stacco fra i tre gruppi è massimo, 4 nel caso

in cui tale stacco è mitigato da una maggiore variabilità all’interno dei gruppi.

6. 3. 3. I gradi di libertà e la significatività di F

Resta da chiarire come valutare la significatività della statistica F ora definita. Per questo occorre naturalmente ricorrere

alla Tavola 4 in modo del tutto analogo a quanto siamo abituati a fare con la Tavola 3 della statistica t e la Tavola 2

della statistica z.

Tuttavia per fare questo abbiamo bisogno di sapere quali sono i gradi di libertà della statistica F definita nella (6.5): è

quanto ci accingiamo a chiarire.

Per quanto riguarda la varianza fra i gruppi 2

gs il discorso è presto fatto: essa è calcolata moltiplicando per n la

varianza delle medie che ha

1 ag (6.7)

gradi di libertà, come è facile vedere dalla (6.6); questi sono dunque i gradi di libertà della varianza a numeratore.

Per i gradi di libertà del denominatore 2

ws , il discorso è ancora una volta intuitivo: si tratta di una media di a varianze

campionarie, ciascuna delle quali ha n – 1 gradi di libertà; quindi i gradi di libertà totali della varianza 2

ws a

denominatore sono n – 1 ripetuti a volte:

)1( naw (6.8)

(ancora una volta si presti attenzione al fatto che anche la (6.8) è valida solo nel caso che tutti i gruppi abbiano n

elementi, e va sostituita nel caso generale, contrariamente alla (6.7) che mantiene la sua validità anche nel caso

generale).

Ora abbiamo un ultimo punto da discutere: si tratta di un test a una coda o a due?

Formuliamo l’ipotesi nulla e l’ipotesi alternativa:

H0: I gruppi sono tratti da popolazioni aventi tutte la stressa media parametrica ;

H1: I gruppi sono tratti da popolazioni di cui almeno due hanno media parametrica diversa fra loro.

Sul corsivo almeno due torneremo in chiusura di paragrafo. Per ora dobbiamo riflettere sul numero di code del test. Il

fatto che H1 richieda che almeno una media sia diversa dalle altre e non maggiore potrebbe indurci ad optare per le

due code, ma le cose non stanno a questo modo: si ricordi che la statistica F è sempre positiva, e con gli esempi in Tab.

6.1 abbiamo mostrato chiaramente che una qualunque differenza di medie (senza specificare il verso delle differenze)

innalza sempre il valore di F: la presenza di eventuali differenze fra le medie sposta dunque sempre verso la coda di

destra il valore di F. Per questo motivo il test che stiamo presentando è ad una sola coda.

Ora abbiamo tutti gli elementi per decidere della significatività di F: g e w sono noti; il test è ad una coda; la Tavola 4

è ad una coda; quindi:

dopo aver calcolato la statistica F cerchiamo sulla Tavola 4 il valore critico al livello di significatività desiderato;

],[ wgF successivamente, se ],[ wg

FF allora è significativo a livello e rifiutiamo l’ipotesi nulla H0, altrimenti

no.

Siamo in debito di un’ultima spiegazione, a proposito delle parole in corsivo almeno due nella formulazione di H1

riportata sopra.

L’ipotesi alternativa deve essere una negazione dell’ipotesi nulla; ora, la negazione della proposizione tutte le medie

parametriche sono uguali non è la proposizione tutte le medie parametriche sono diverse, ma più semplicemente

Page 7: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

almeno due di esse sono diverse fra loro. Fino a qui sono considerazioni di pura logica. Ma quale è la conseguenza

pratica di tutto ciò? E’ questa:

se F è significativo abbiamo dimostrato che almeno due gruppi sono differenti fra loro, ma quali siano, e se sono solo

due, non è specificato. Per saperlo occorrono dei supplementi di indagine (vedi § 7. 1. 1. e § 7. 1. 2.).

6. 3. 4. L’analisi della varianza o ANOVA a singolo criterio di classificazione: caso particolare per gruppi di

uguale dimensione

Il test che abbiamo finito di descrivere è il primo e il più semplice di una serie articolata e ricchissima di tecniche che

prende il nome di analisi della varianza o ANOVA (acronimo anglosassone di ANalysis Of VAriance).

Più precisamente si tratta di una ANOVA a singolo criterio di classificazione, ed ancora più precisamente abbiamo

trattato il caso particolare in cui i gruppi hanno tutti la stessa dimensione n.

Lo scopo del presente paragrafo è di sintetizzarne la procedura matematica prosciugandola da tutti i commenti e le

spiegazioni.

Il problema è quello di sottoporre a test la differenza fra due o più gruppi di dati.

Preliminarmente, per ciascun gruppo si calcolano media e varianza.

Dopo aver formulato le due ipotesi H0 e H1 in opposizione conformemente a quanto fatto in § 6. 3. 3. si procede al

calcolo di 2

gs secondo la (6.4) e di 2

ws secondo la (6.3); si calcola quindi F secondo la (6.5) e dopo averne

individuato i gradi di libertà con la (6.7) e la (6.8) si determina la sua significatività confrontando con gli opportuni

valori critici della Tavola 4. L’ipotesi nulla viene rigettata o mantenuta in conseguenza alla significatività o meno della

statistica F.

Ricordiamo ancora una volta che buona parte delle formule indicate vale solo limitatamente al caso di gruppi con

uguale dimensione, e andranno modificate nel caso generale.

La procedura completa è illustrata nel Box 6.2.: nel corso di una sperimentazione i risultati raggiunti dal gruppo di

controllo C sono confrontati con tre gruppi sperimentali S1, S2 e S3. Si noti che la varianza 2

Ys non è stata calcolata con

la (6.6) per evitare la propagazione di errori di arrotondamento; è stata invece utilizzata l’equivalente computazionale

(3.9). Si noti altresì che la Tavola 4 non riporta il valore 52w ; assumiamo per F il valore conservativo

corrispondente a 40w , secondo la tecnica dei valori critici conservativi descritta in § 6. 1. 3. L’ANOVA evidenzia

l’esistenza di almeno due gruppi significativamente differenti fra loro. Ma, per sapere quali siano ed interpretare

correttamente l’esito del test occorre un supplemento di indagine (vedi § 7. 1. 1. e § 7. 1. 2.).

6. 3. 5. L’additività delle somme dei quadrati SS e dei gradi di libertà

E’ ora utile richiamare alla memoria il simbolismo introdotto in § 1. 3. 3., e precisamente la convenzione

YYy ii

dove yi viene chiamato scarto i – esimo della variata i – esima rispetto alla media, assieme alla convenzione

2ySS

dove il simbolo SS si legge somma dei quadrati (sottintendendo degli scarti).

E’ utile inoltre richiamare alla memoria la formula (1.8) computazionalmente più efficiente per il calcolo di SS, data in

§ 1. 3. 3. e che ormai utilizziamo abitualmente.

Questi richiami permettono di riscrivere la consueta formula per una varianza campionaria

11

22

2

n

y

n

YYs

nella forma

SSs 2

(6.9)

Essa dice che ogni varianza può essere espressa sotto forma di rapporto fra la somma dei quadrati SS e i corrispondenti

gradi di libertà .

In una analisi della varianza noi calcoliamo il rapporto fra le due varianze 2

gs e 2

ws . Anche queste varianze possono

essere espresse con un rapporto del tipo (6.9). Con una semplice estensione del simbolismo possiamo scrivere:

Page 8: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

g

g

g

SSs

2

(6.10)

w

w

w

SSs

2

Ora siamo interessati a calcolare direttamente SSg e SSw per metterne in luce una importantissima proprietà.

Dalle precedenti (6.10) ricaviamo attraverso un semplice passaggio le seguenti

ggg sSS 2

(6.11)

www sSS 2

che utilizziamo per il calcolo di SSg e SSw relativamente ai dati del Box 6.2. Otteniamo:

429.137834762.4592

ggg sSS

426.6692527005.1282

www sSS

Ora, sempre con i dati del Box 6.2, sviluppiamo un nuovo calcolo: consideriamo un unico gruppo, costituito

dall’unificazione di tutti gli elementi di tutti e quattro i gruppi. Abbiamo quindi un super gruppo di

56144 elementi. Di questo super gruppo calcoliamo la varianza, che per ovvi motivi indicheremo col nome di

varianza totale, e indicheremo ricorrendo al simbolismo

t

t

t

SSs

2 (6.12)

Per i gradi di libertà della varianza totale abbiamo il semplice calcolo 55156 t .

Per il calcolo di SSt ricorriamo alla formula computazionale (1.8). Per esprimere con una simbologia corretta la somma

delle variate Y di tutti i gruppi scriviamo a n

Y , ad indicare che prima operiamo una somma estesa ad n termini

all’interno di ciascun gruppo, e successivamente sommiamo gli a totali di gruppo in un unico totale generale. Analogo

significato ha la scrittura a n

Y 2. Dunque, tornando alla somma dei quadrati SSt abbiamo:

a n

Y 2148

904622 a n

Y

e quindi:

857.8070144

214890462

2

2

2

an

Y

YSS

a n

a n

t

(an è il numero totale di elementi dei quattro gruppi) e

146.742955

857.80702

t

t

t

SSs

Adesso siamo finalmente in grado di evidenziare una importantissima proprietà dell’analisi della varianza. Si noti che:

8070.8586692.4291378.429 wg SSSS

che, salvo un piccolo errore dovuto ad arrotondamenti nel calcolo, è uguale a SSt. Dunque:

twg SSSSSS (6.13)

In modo ancora più semplice è immediato verificare che:

twg (6.14)

La proprietà della analisi della varianza espressa dalle (9.13) e (9.14) prende il nome di additività della somma dei

quadrati e di additività dei gradi di libertà. In generale si può dimostrare la validità di questa proprietà, che qui

abbiamo semplicemente verificato attraverso un esempio.

Page 9: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

Nell’additività dell’ANOVA risiede il significato più profondo del test e la sua eleganza matematica.

In pratica l’ANOVA guarda ai dati con una visione complessiva, e scompone la varianza totale dei dati in due

componenti: quella dovuta alla variazione all’interno dei gruppi e quella dovuta alla variazione fra i gruppi.

Questa affermazione ci ricollega a quello che abbiamo visto con i tre esempi di Tab. 6.1 in § 6. 3. 2.

Si faccia però attenzione ad una cosa importante: la scomposizione della varianza totale nelle due componenti fra i

gruppi e all’interno dei gruppi non è una scomposizione additiva: l’additività sussiste fra le somme dei quadrati SS e fra

i gradi di libertà , ma non fra le varianze; la varianza totale non è la somma delle varianze fra i gruppi e all’interno dei

gruppi. La scomposizione della varianza fra i dati ci ricollega direttamente a quello che abbiamo visto con i tre esempi

di Tab. 6.1 in § 6. 3. 2.

6. 3. 6. La tavola riassuntiva di un’ANOVA a singolo criterio di classificazione

Le considerazioni svolte in § 6. 3. 5. inducono a riassumere i calcoli di un’ANOVA in una tabella standard che

riportiamo di seguito esemplificando con l’esempio del Box 6.2.

Fonti di variazione SS MS F

Fra i gruppi 3 1378.429 459.4762 3.57 *

All’interno dei gruppi 52 6692.429 128.7005

Totale 55 8070.857

Valore critico conservativo: 23.3]40,3[05.0 F

Tab. 6.2

Nella tavola riassuntiva si può usare una convenzione che è utile conoscere, perché ricorre frequentemente in letteratura

e nel software statistico: le varianze s2 vengono spesso chiamate quadrati medi ed indicate col simbolo MS (dall’inglese

Mean Squares) perché sono appunto una sorta di media dei quadrati degli scarti.

Come si nota la tabella evidenzia la scomposizione delle fonti di variazione; correttamente, alla riga della variazione

totale non è riportato il valore della corrispondente varianza, in quanto come si è detto in § 6. 3. 5. non vi è additività fra

le varianze.

Il valore di F è riportato col competente simbolismo riguardo la sua significatività.

Completano la tavola i valori critici di confronto per la statistica F.

Questo modo di riassumere i risultati dell’ANOVA è valido anche nel caso generale che stiamo per affrontare.

6. 4. ANOVA a singolo criterio di classificazione: caso generale

6. 4. 1. Generalizzazione delle procedure di calcolo

La procedura di calcolo descritta nei paragrafi precedenti ha validità solo nel caso in cui tutti gli a gruppi a confronto

hanno esattamente n elementi. Ora ci occuperemo del caso generale in cui ogni gruppo ha un differente numero di

elementi: n1, n2, n3,… na.

In proposito si può dimostrare la seguente formula di calcolo per SSg:

a

i

a n

a

i

n

g

n

Y

n

Y

SS

22

(6.15)

A questo punto l’idea è semplicissima:

calcoliamo al modo consueto SSt e calcoliamo SSg secondo la (6.15); poi, in base alla (6.13) calcoliamo SSw per

differenza. Con gli opportuni valori per i gradi di libertà delle due varianze otteniamo immediatamente la varianza fra i

gruppi MSg, la varianza all’interno dei gruppi MSw, e infine il rapporto F.

E’ meglio dire esplicitamente, anche se scontato, che la procedura generalizzata ora delineata si adatta anche al caso

particolare già trattato di gruppi con la stessa dimensione (e porta naturalmente allo stesso risultato).

6. 4. 2. Passi computazionali

Seguendo una collaudata ed efficace prassi dei testi di statistica per non matematici (vedi R. R. Sokal e F. J. Rohlf,

1982), indichiamo qui una serie di passi computazionali elementari che spezzettano il calcolo descritto in § 6. 4. 1.

Il Box 6. 3 mostra l’applicazione pratica della procedura descritta.

1. a ni

Y (totale generale, cioè somma di tutte le variate Y)

2. a ni

Y 2 (somma dei quadrati di tutte le variate Y)

Page 10: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

3.

a

i

n

n

Yi

2

(somma di tutte le somme di gruppo elevate a quadrato e divise per la propria dimensione)

4.

a

i

a n

n

Yi

2

(quadrato del totale generale della quantità 1 diviso per il numero totale di elementi)

Sulla base di queste quattro quantità si calcolano poi le somme dei quadrati:

tSS quantità 2 – quantità 4

gSS quantità 3 – quantità 4

gtw SSSSSS

In particolare si noti che la differenza (quantità 2 – quantità 4) corrisponde all’usuale formula computazionale per il

calcolo di una qualsiasi SS, mentre la differenza (quantità 3 – quantità 4) equivale al calcolo della (6.16). Come

precisato in chiusura di § 6. 4. 1., SSw è calcolato per differenza.

Per i gradi di libertà delle due varianze abbiamo:

1 ag

a

iw n 1

Quindi, per le due varianze fra i gruppi e all’interno dei gruppi:

g

g

g

SSMS

w

w

w

SSMS

w

g

MS

MSF

La procedura completa è applicata nel Box 6.3. Nel Collegio dei Docenti di un istituto scolastico si pone un problema:

fra i nuovi iscritti in prima classe si rilevano atteggiamenti alquanto differenziati circa il livello di affezione scolastica;

in particolare è sentito il problema delle assenze dalle lezioni. Si ipotizza che i differenti atteggiamenti a riguardo siano

in relazione all’istituto scolastico di provenienza. Fra le diverse scuole che costituiscono il bacino di utenza dell’istituto

vengono scelte quelle che si ritengono più rappresentative in un senso o nell’altro. I dati relativi alle assenze in un

medesimo e ben definito periodo scolastico vengono raccolte per ogni studente di ogni scuola sottoposta ad

osservazione. I dati raccolti vengono raggruppati per scuola e sottoposti ad analisi della varianza. Questa mostra

l’esistenza di una differenza significativa fra gli studenti provenienti da almeno due scuole diverse. Ancora una volta,

per sapere quali siano occorre un supplemento di indagine (vedi § 7. 1. 1. e § 7. 1. 2.).

6. 4. 3. Il caso particolare con due gruppi: ANOVA e t – test per gruppi indipendenti

Per concludere accenniamo al nesso che sussiste fra l’ANOVA e il t – test per gruppi indipendenti. In § 6. 3. 1.,

introducendo il discorso sull’analisi della varianza, abbiamo detto che si tratta di una tecnica per risolvere il problema

della differenza fra gruppi nel caso in cui i gruppi siano più di due. Naturalmente anche nel caso di due gruppi è

possibile utilizzare l’analisi della varianza, ma in questo caso il t – test è più comodo, specie se i calcoli sono da fare

manualmente.

Sebbene i due test sembrino profondamente differenti, in realtà il t – test non è altro che un caso particolare

dell’ANOVA: infatti si può dimostrare che con due gruppi il valore della statistica F nell’ANOVA eguaglia il quadrato

della statistica t del t – test per gruppi indipendenti. In simboli la relazione che lega le statistiche t ed F è:

],1[

2

][ Ft (6.16)

Si noti che in (6.16) F ha un grado di libertà al numeratore, il che appunto si verifica quando i gruppi sono due.

La relazione (6.16) può essere facilmente verificata anche attraverso le tavole dei valori critici delle due statistiche.

A titolo di esempio:

Page 11: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

]10,1[05.0

22

]10[05.0 96.4228.2 Ft

L’equivalenza fra il t – test e l’ANOVA nel caso di due gruppi è verificato nell’esempio del Box 6.4, Parte b. 6. 4. 4. Due formule di calcolo utili

In genere nei resoconti delle sperimentazioni sono riportate solo le tavole riassuntive dei test statistici; in esse mancano

i dati grezzi, che invece sono sintetizzati in forma già aggregata, attraverso il numero n di elementi, la media Y e la

deviazione standard s (o la varianza2s ) di ogni gruppo. Per il lettore può essere utile (o per riprova personale, o per un

eventuale supplemento di indagine statistica, o per elaborare confronti con dati analoghi di altri autori o propri) risalire

non tanto ai dati grezzi (cosa impossibile) ma almeno alle due importanti quantità Y e 2Y , che , come abbiamo

visto, sono il punto di partenza per ogni elaborazione statistica. In proposito abbiamo due formule.

La prima si deriva banalmente dalla definizione di media:

YnY (6.17)

La seconda si deriva dalla formula (3.9) per 2s :

nYsnY222 1 (6.18)

Un esempio spiega il semplice utilizzo delle due formule nel Box 6.4 Parte a, in cui partendo dai dati aggregati relativi a

due gruppi viene elaborato l’ANOVA.

Page 12: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

Box 6.1. Test Fmax per la differenza fra due varianze

Punteggi grezzi assegnati da diversi insegnanti con griglie di valutazione differenti ad un primo elaborato; punteggi

grezzi assegnati dagli stessi insegnanti con griglia di valutazione comune ad un secondo elaborato.

X

Punteggi con

griglie differenti

(primo elaborato)

Y

Punteggi con

la stessa griglia

(secondo elaborato)

31 51

48 55

30 53

48 43

31 51

50 48

H0: 2

2

2

1

H1: 2

2

2

1

(test ad una coda)

621 nn

5121 n

Calcolo le due varianze:

238504831 X

9930504831 2222 X

867.97

5

62389930

1

222

2

n

nXXsX

301485551 Y

15189485551 2222 Y

767.17

5

630115189

1

222

2

n

nYYsY

Pongo a numeratore la varianza maggiore fra le due:

*508.5767.17

867.972

2

X

Y

s

sF

Dalla Tavola 4 ottengo i valori critici:

05.5]5,5[05.0 F

15.7]5,5[01.0 F

Conclusioni:

il valore di F è significativo a livello 0.05; rifiuto l’ipotesi nulla: l’adozione di una griglia comune ha ridotto la

variabilità delle valutazioni.

Rif.:

§ 6. 2. 2.

Page 13: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

Box 6.2. ANOVA a singolo criterio di classificazione; gruppi di uguale dimensione

Punteggi grezzi relativi ad una prova oggettiva somministrata ad un gruppo di controllo C e a tre gruppi sperimentali S1,

S2 e S3.

C S1 S2 S3

45 34 48 34

34 23 34 56

21 34 47 44

30 21 49 51

35 20 53 65

33 25 55 67

31 34 43 55

47 43 35 21

51 38 45 31

34 39 49 61

41 41 51 30

18 30 39 21

22 29 42 19

47 39 27 37

Y 34.92857 32.14286 44.07143 42.28571

2s 106.2253 58.13187 63.60989 286.8352

n = 14

a = 4

H0: I gruppi sono tratti da popolazioni aventi tutte la stressa media parametrica ;

H1: I gruppi sono tratti da popolazioni di cui almeno due hanno media parametrica diversa fra loro.

4286.153Y

541.59832Y

81973.32

3

44286.153541.5983

1

222

2

a

aYYs

Y

4762.45981973.321422

Yg sns

7005.1284

4286.1532

a

Ysw

3141 ag

521341 naw

*57.37005.128

4762.4592

2

w

g

s

sF

La Tavola 4 non riporta il valore 52w ; assumiamo per F il valore conservativo corrispondente a 40w :

23.3]40,3[05.0 F

Conclusioni:

F è significativo a livello 0.05. Respingo l’ipotesi nulla H0: almeno due dei quattro gruppi hanno riportato punteggi con

significative differenze fra loro.

Rif.:

§ 6. 3. 4.

Page 14: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

Box 6.3. ANOVA a singolo criterio di classificazione; caso generale

Giorni di assenza dalle lezioni di alunni del primo anno di un istituto scolastico, divisi per scuola di provenienza.

Scuola A Scuola B Scuola C Scuola D Scuola E

2 8 3 1 2

3 1 8 3 1

0 0 4 2 2

1 1 3 0 0

4 7 7 5 2

4 9 10 1

3 3 9 2

0 1 3

5 4

4

3

n 8 7 11 9 5

Y 17 29 57 21 7

2Y 55 205 379 69 13

5a

H0: I gruppi sono tratti da popolazioni aventi tutte la stressa media parametrica ;

H1: I gruppi sono tratti da popolazioni di cui almeno due hanno media parametrica diversa fra loro.

1. 131721572917 a ni

Y

2. 7211369379205552 a ni

Y

3. 4315.5105

7

9

21

11

57

7

29

8

17 22222

2

a

i

n

n

Yi

4. 429.025591178

1312

2

a

i

a n

n

Yi

tSS quantità 2 – quantità 4 291.975025.429721

gSS quantità 3 – quantità 4 81.4065025.4294315.510

210.56854065.81975.291 gtw SSSSSS

4151 ag

354810671 a

iw n

20.351624

4065.81

g

g

g

SSMS

6.01624335

5685.210

w

w

w

SSMS

Page 15: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

*38.3016243.6

35162.20

w

g

MS

MSF

Tavola riassuntiva dell’ANOVA:

Fonti di variazione SS MS F

Fra i gruppi 4 81.4065 20.35162 3.38 *

All’interno dei gruppi 35 210.5685 6.016243

Totale 39 291.9750

Valori critici conservativi: 69.2]30,4[05.0 F ; 83.3]40,4[01.0 F

Conclusioni:

F è significativo a livello 0.05. Respingo l’ipotesi nulla H0; le assenze si diversificano secondo le scuole di

provenienza, almeno per due di queste.

Rif.:

§ 6. 4. 2.

Page 16: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

Box 6.4. ANOVA a partire da n , Y e s ; equivalenza con il t–test

Dati relativi ai punteggi di una prova oggettiva di due gruppi:

Y s n

Gruppo 1 34.5 12.1 8

Gruppo 2 21.5 9.4 12

Parte a

Per il primo gruppo:

2765.348 YnY

10546.8782761.1271 22222 nYsnY

Analogamente, per il secondo gruppo abbiamo:

258Y

6518.962 Y

2a

H0: I gruppi sono tratti da popolazioni aventi tutte la stressa media parametrica ;

H1: I gruppi sono tratti da popolazioni con media parametrica diversa fra loro.

1. 534258276 a ni

Y

2. 17065.836518.9610546.872 a ni

Y

3. 1506912

258

8

276 22

2

a

i

n

n

Yi

4. 14257.8128

5342

2

a

i

a n

n

Yi

tSS quantità 2 – quantità 4 2808.03

gSS quantità 3 – quantità 4 811.2

1996.83 gtw SSSSSS

1121 ag

181171 a

iw n

811.2g

g

g

SSMS

110.935w

w

w

SSMS

*7.31239w

g

MS

MSF

Page 17: 6. La distribuzione F e l’analisi della varianza F.pdf · di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra a

Tavola riassuntiva dell’ANOVA:

Fonti di variazione SS MS F

Fra i gruppi 1 811.20 811.20 7.31 *

All’interno dei gruppi 18 1996.83 110.935

Totale 19 2808.03

Valori critici conservativi: 41.4]18,1[05.0 F ; 28.8]18,1[01.0 F

Conclusioni:

F è significativo a livello 0.05. Respingo l’ipotesi nulla H0; i punteggi dei due gruppi sono significativamente

differenti.

Parte b

Equivalenza del t–test per gruppi indipendenti

182128221 nn

*2.704143

23.11146

13

128

128

2128

4.9111.127

1.125.34

2

1122

21

21

21

2

22

2

11

21

nn

nn

nn

snsn

YYt

Ft 7.312392.70414322

Ciò verifica la relazione (6.16)

Rif.:

Parte a: § 6. 4. 4. e § 6. 4. 2.; Parte b: § 5. 4. 2. e § 6. 4. 3.