Post on 03-May-2015
1
Corso di Laurea in Scienze e tecniche psicologiche
Esame di Psicometria
L’anova fattoriale between
A cura di Matteo Forgiarini
Matteo.forgiarini@unimib.it
2
Esercitazione N° 4 – L’anova betweenIl test anova
Spesso per scopi di ricerca siamo interessati a stabilire se due popolazioni indipendenti in media mostrano valori statisticamente diversi per la stessa variabile osservata – misurata su scala ordinale.
Nelle precedenti analisi abbiamo affrontato e risolto questo problema mediante il t-test: abbiamo confrontato le due medie osservate sui due differenti campioni e analizzando la significatività del valore t sperimentale, abbiamo potuto decidere se accettare o rifiutare l’ipotesi nulla di uguaglianza delle due medie.
Ma...
Se si volessero confrontare contemporaneamente i valori medi di più di due campioni?
Ad esempio, in riferimento al file “competenze.sav”, è possibile domandarsi se i soggetti nati prima del 1948, tra il 1948 e il 1954 e i dopo il 1954, abbiano in media la stessa pressione massima.
È un tipo di domanda frequente in molte ricerche: di fatto stiamo cercando di capire se il fattore “età” influisce sulla variabile “pressione massima”; ovvero se nelle 3 differenti fasce di età i soggetti hanno in media la stessa pressione o se le medie differiscono significativamente.
In questo caso non è possibile utilizzare i modelli di regressione perché la V.I. non è quantitativa.
Per rispondere a questo tipo di domande occorre utilizzare il test anova.
3
Esercitazione N° 4 – L’anova between
Occorre utilizzare l’anova ogni volta che:
•Si vuole sapere se una V.D. (misurata su scala a rapporto o a intervallo) presenta valori medi uguali nei diversi livelli di un a V.I. (misurata su scala qualsiasi).
Cioè:
•Si vuole sapere se una variabile categoriale influisce su una variabile quantitativa.
•Ogni livello della V.I. forma un gruppo di soggetti: dunque ogni livello della V.I. ha un proprio valore medio della V.D.
•La V.I. ha più di due livelli: dunque occorre confrontare contemporaneamente più di due medie.
•Se la V.I. ha 2 livelli, è indifferente utilizzare l’anova o il t-test (cfr. diapositive successive).
Indicando con µ1, µ2, … µk le medie della V.D. nei k livelli della V.I., l’ipotesi nulla del test anova risulta:
H0: µ1= µ2=…= µk
H1: µ i≠ µj per almeno una coppia di livelli della V.I. (i e j indicano 2 generici livelli della V.I.)
Il test anova
4
Esercitazione N° 4 – L’anova betweenIl t-test e l’anova
Se la V.I. presenta due livelli, il t-test e l’anova permettono di rispondere allo stesso tipo di domanda, infatti:
In riferimento al file “competenze.sav” ipotizziamo di dividere in due grandi classi di età (di uguale numerosità) i soggetti e di chiederci se i soggetti giovani in media hanno la stessa pressione massima dei soggetti più anziani.
Statistics
anno di nascita100
0
1951,00
Valid
Missing
N
50Percentiles
Abbiamo selezionato l’opzione per ottenere il valore – ovvero la mediana - della variabile “anno di nascita” che divide il campione totale in due sotto-campioni di uguale numerosità. Possiamo quindi costruire una nuova variabile per eseguire il t-test e l’anova.
5
Esercitazione N° 4 – L’anova between
Con “ricodifica in una nuova variabile” a partire dalla variabile “nascita” creiamo la variabile “nasc_2f”, creiamo cioè una variabile che indica le due fasce di età dei soggetti: la nuova variabile assume valore 1 per soggetti nati prima del 1951 e assume valore 2 per tutti gli altri soggetti più giovani.
Ipotizziamo di volere sapere se la variabile pressione sanguigna assume in media lo stesso valore nei due livelli della variabile nasc_2f. Ovvero ci stiamo chiedendo se la variabile età influisce sulla variabile pressione sanguigna. Per rispondere a questa domanda possiamo usare sia il t-test sia l’anova, perché?
Perché stiamo confrontando contemporaneamente i valori medi di 2 livelli della V.I.
H0: µ1= µ2 H1: µ1≠ µ2
Il t-test e l’anova
6
Esercitazione N° 4 – L’anova between
Independent Samples Test
,926 ,338 -2,160 98 ,033 -6,163 2,853 -11,825 -,501
-2,155 96,161 ,034 -6,163 2,860 -11,840 -,487
Equal variancesassumed
Equal variancesnot assumed
pressione massimaF Sig.
Levene's Test forEquality of Variances
t df Sig. (2-tailed)Mean
DifferenceStd. ErrorDifference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
Eseguiamo il t-test per campioni indipendenti utilizzando come variabile di gruppo “nasc_2f” e come variabile dipendente “pressione massima”.
Il t-test risulta significativo, è possibile rifiutare l’ipotesi nulla e concludere che la pressione sanguigna nelle persone “più giovani” è significativamente maggiore che negli “anziani”.
Group Statistics
52 133,46 13,854 1,921
48 139,63 14,676 2,118
nasc_2f1,00
2,00
pressione massimaN Mean Std. Deviation
Std. ErrorMean
Il t-test e l’anova
7
Esercitazione N° 4 – L’anova between
ANOVA
pressione massima
948,187 1 948,187 4,667 ,033
19912,173 98 203,185
20860,360 99
Between Groups
Within Groups
Total
Sum ofSquares df Mean Square F Sig.
Il test dell’anova risulta significativo (p-value<0,05): come per il t-test, possiamo concludere che in media la pressione sanguigna nei soggetti “più giovani” è statisticamente maggiore rispetto ai soggetti “più anziani”. È interessante notare che il livello di significatività ottenuto è il medesimo che abbiamo ottenuto con il t-test.
È importante notare però che l’anova si basa sul test F: infatti vengono confrontate le varianze tra i gruppi (between) ed entro i gruppi (within).
Il t-test e l’anova
8
Partizione della varianza
gruppi i entro variazione
gruppi travariazionestatisticotest
Varianza totale (SST) =
Tra gruppi (SSM)
Entro i gruppi (SSR)
Come decido se la variazione legata al trattamento (variabilità osservata tra i gruppi) è superiore a quella non legata al trattamento?
Al test statistico è associato un valore di significatività = un valore di probabilità di ottenere quel risultato – o risultati più estremi – per effetto del caso
9
Rappresentazione grafica
W WW
B
BB
10
Alcuni esempi
F1=B/W
B=, W>
F2<F1
B>, W=
F3>F1
B
W
11
Esercitazione N° 4 – L’anova betweenL’anova between
Come ipotizzato all’inizio, dividiamo ora i soggetti in tre grandi fasce di età di numerosità omogenea.
Statistics
anno di nascita100
0
1948,00
1954,00
Valid
Missing
N
33,33333333
66,66666667
Percentiles
Dagli output notiamo che un terzo dei soggetti è nato prima del 1948, un terzo tra il ’48 e il ’54 e il restante 33% è nato dopo il 1954.
12
Esercitazione N° 4 – L’anova between
Possiamo quindi costruire una nuova variabile “nasc_3f” che divide i soggetti in tre grandi fasce di età e che assume:
Valore 1 se i soggetti sono nati prima del 1948,
Valore 2 se i soggetti sono nati dal 1948 al 1954
Valore 3 se i soggetti sono nati dopo il 1954.
Possiamo quindi eseguire il test dell’anova e confrontare le medie della variabile “pressione massima” all’interno dei tre livelli di età che abbiamo creato.
L’anova between
13
Esercitazione N° 4 – L’anova between
H0: µ1= µ2= µ3
H1: esiste almeno una coppia di livelli in cui le medie della “pressione sanguigna” hanno una differenza statisticamente significativa.
ANOVA
pressione massima
1703,670 2 851,835 4,313 ,016
19156,690 97 197,492
20860,360 99
Between Groups
Within Groups
Total
Sum ofSquares df Mean Square F Sig.
Il test risulta significativo (p-value<0,05). Possiamo rifiutare l’ipotesi nulla e concludere che la variabile età ha influenza sulla variablile pressione sanguigna: in altri termini esiste una coppia di livelli della V.I. per i quali le due medie di gruppo hanno una differenza significativa. Ma...
Con 3 livelli della V.I. esistono 3 coppie di medie, qual è la coppia che rende significativo l’anova? Ne esiste più di una? Andiamo a scoprirlo...
Varianza within
Varianza between
Gradi di libertà
L’anova between
14
Esercitazione N° 4– L’anova between
Per capire quale coppia di fasce di età ha reso significativo l’anova, occorre eseguire i test post hoc.
I test post hoc confrontano contemporaneamente le n*(n-1)/2 coppie di medie della V.D. (con n pari al numero di livelli della V.I.). Ma...
Il confronto contemporaneo altera il livello di significatività dei test: il livello alfa (generalmente pari a 0,05) viene “gonfiato” rendendo quindi più elevato il rischio di commettere l’errore di I tipo. Occorre quindi mettere in atto strategie che permettano di controllare il valore di alfa: negli esempi proposti verrà usata la correzione di Tukey.
I problemi che si incontrano confrontando contemporaneamente più di 2 medie, sono gli stessi problemi che impediscono di usare il t-test quando la V.I. ha più di 2 livelli: anche in questo caso il livello alfa si gonfierebbe e aumenterebbe dunque il rischio di commettere l’errore di I tipo.
L’anova between
15
Esercitazione N° 4 – L’anova between
Multiple Comparisons
Dependent Variable: pressione massima
Tukey HSD
2,669 3,317 ,701 -5,23 10,57
-7,433 3,586 ,101 -15,97 1,10
-2,669 3,317 ,701 -10,57 5,23
-10,102* 3,500 ,013 -18,43 -1,77
7,433 3,586 ,101 -1,10 15,97
10,102* 3,500 ,013 1,77 18,43
(J) nasc_3f2,00
3,00
1,00
3,00
1,00
2,00
(I) nasc_3f1,00
2,00
3,00
MeanDifference
(I-J) Std. Error Sig. Lower Bound Upper Bound
95% Confidence Interval
The mean difference is significant at the .05 level.*.
Notiamo che la media 2 risulta significativamente diversa dalla media 3. Gli scarti tra media 1 e media 2 e tra media 1 e 3 non risultano invece significativi.
Dagli output possiamo notare che il test anova è risultato significativo poiché una coppia di medie presenta uno scarto statisticamente significativo e rende quindi falsa l’ipotesi nulla di uguaglianza delle 3 medie.
L’anova between