1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale...

15
1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini [email protected]

Transcript of 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale...

Page 1: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

1

Corso di Laurea in Scienze e tecniche psicologiche

Esame di Psicometria

L’anova fattoriale between

A cura di Matteo Forgiarini

[email protected]

Page 2: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

2

Esercitazione N° 4 – L’anova betweenIl test anova

Spesso per scopi di ricerca siamo interessati a stabilire se due popolazioni indipendenti in media mostrano valori statisticamente diversi per la stessa variabile osservata – misurata su scala ordinale.

Nelle precedenti analisi abbiamo affrontato e risolto questo problema mediante il t-test: abbiamo confrontato le due medie osservate sui due differenti campioni e analizzando la significatività del valore t sperimentale, abbiamo potuto decidere se accettare o rifiutare l’ipotesi nulla di uguaglianza delle due medie.

Ma...

Se si volessero confrontare contemporaneamente i valori medi di più di due campioni?

Ad esempio, in riferimento al file “competenze.sav”, è possibile domandarsi se i soggetti nati prima del 1948, tra il 1948 e il 1954 e i dopo il 1954, abbiano in media la stessa pressione massima.

È un tipo di domanda frequente in molte ricerche: di fatto stiamo cercando di capire se il fattore “età” influisce sulla variabile “pressione massima”; ovvero se nelle 3 differenti fasce di età i soggetti hanno in media la stessa pressione o se le medie differiscono significativamente.

In questo caso non è possibile utilizzare i modelli di regressione perché la V.I. non è quantitativa.

Per rispondere a questo tipo di domande occorre utilizzare il test anova.

Page 3: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

3

Esercitazione N° 4 – L’anova between

Occorre utilizzare l’anova ogni volta che:

•Si vuole sapere se una V.D. (misurata su scala a rapporto o a intervallo) presenta valori medi uguali nei diversi livelli di un a V.I. (misurata su scala qualsiasi).

Cioè:

•Si vuole sapere se una variabile categoriale influisce su una variabile quantitativa.

•Ogni livello della V.I. forma un gruppo di soggetti: dunque ogni livello della V.I. ha un proprio valore medio della V.D.

•La V.I. ha più di due livelli: dunque occorre confrontare contemporaneamente più di due medie.

•Se la V.I. ha 2 livelli, è indifferente utilizzare l’anova o il t-test (cfr. diapositive successive).

Indicando con µ1, µ2, … µk le medie della V.D. nei k livelli della V.I., l’ipotesi nulla del test anova risulta:

H0: µ1= µ2=…= µk

H1: µ i≠ µj per almeno una coppia di livelli della V.I. (i e j indicano 2 generici livelli della V.I.)

Il test anova

Page 4: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

4

Esercitazione N° 4 – L’anova betweenIl t-test e l’anova

Se la V.I. presenta due livelli, il t-test e l’anova permettono di rispondere allo stesso tipo di domanda, infatti:

In riferimento al file “competenze.sav” ipotizziamo di dividere in due grandi classi di età (di uguale numerosità) i soggetti e di chiederci se i soggetti giovani in media hanno la stessa pressione massima dei soggetti più anziani.

Statistics

anno di nascita100

0

1951,00

Valid

Missing

N

50Percentiles

Abbiamo selezionato l’opzione per ottenere il valore – ovvero la mediana - della variabile “anno di nascita” che divide il campione totale in due sotto-campioni di uguale numerosità. Possiamo quindi costruire una nuova variabile per eseguire il t-test e l’anova.

Page 5: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

5

Esercitazione N° 4 – L’anova between

Con “ricodifica in una nuova variabile” a partire dalla variabile “nascita” creiamo la variabile “nasc_2f”, creiamo cioè una variabile che indica le due fasce di età dei soggetti: la nuova variabile assume valore 1 per soggetti nati prima del 1951 e assume valore 2 per tutti gli altri soggetti più giovani.

Ipotizziamo di volere sapere se la variabile pressione sanguigna assume in media lo stesso valore nei due livelli della variabile nasc_2f. Ovvero ci stiamo chiedendo se la variabile età influisce sulla variabile pressione sanguigna. Per rispondere a questa domanda possiamo usare sia il t-test sia l’anova, perché?

Perché stiamo confrontando contemporaneamente i valori medi di 2 livelli della V.I.

H0: µ1= µ2 H1: µ1≠ µ2

Il t-test e l’anova

Page 6: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

6

Esercitazione N° 4 – L’anova between

Independent Samples Test

,926 ,338 -2,160 98 ,033 -6,163 2,853 -11,825 -,501

-2,155 96,161 ,034 -6,163 2,860 -11,840 -,487

Equal variancesassumed

Equal variancesnot assumed

pressione massimaF Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Eseguiamo il t-test per campioni indipendenti utilizzando come variabile di gruppo “nasc_2f” e come variabile dipendente “pressione massima”.

Il t-test risulta significativo, è possibile rifiutare l’ipotesi nulla e concludere che la pressione sanguigna nelle persone “più giovani” è significativamente maggiore che negli “anziani”.

Group Statistics

52 133,46 13,854 1,921

48 139,63 14,676 2,118

nasc_2f1,00

2,00

pressione massimaN Mean Std. Deviation

Std. ErrorMean

Il t-test e l’anova

Page 7: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

7

Esercitazione N° 4 – L’anova between

ANOVA

pressione massima

948,187 1 948,187 4,667 ,033

19912,173 98 203,185

20860,360 99

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

Il test dell’anova risulta significativo (p-value<0,05): come per il t-test, possiamo concludere che in media la pressione sanguigna nei soggetti “più giovani” è statisticamente maggiore rispetto ai soggetti “più anziani”. È interessante notare che il livello di significatività ottenuto è il medesimo che abbiamo ottenuto con il t-test.

È importante notare però che l’anova si basa sul test F: infatti vengono confrontate le varianze tra i gruppi (between) ed entro i gruppi (within).

Il t-test e l’anova

Page 8: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

8

Partizione della varianza

gruppi i entro variazione

gruppi travariazionestatisticotest

Varianza totale (SST) =

Tra gruppi (SSM)

Entro i gruppi (SSR)

Come decido se la variazione legata al trattamento (variabilità osservata tra i gruppi) è superiore a quella non legata al trattamento?

Al test statistico è associato un valore di significatività = un valore di probabilità di ottenere quel risultato – o risultati più estremi – per effetto del caso

Page 9: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

9

Rappresentazione grafica

W WW

B

BB

Page 10: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

10

Alcuni esempi

F1=B/W

B=, W>

F2<F1

B>, W=

F3>F1

B

W

Page 11: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

11

Esercitazione N° 4 – L’anova betweenL’anova between

Come ipotizzato all’inizio, dividiamo ora i soggetti in tre grandi fasce di età di numerosità omogenea.

Statistics

anno di nascita100

0

1948,00

1954,00

Valid

Missing

N

33,33333333

66,66666667

Percentiles

Dagli output notiamo che un terzo dei soggetti è nato prima del 1948, un terzo tra il ’48 e il ’54 e il restante 33% è nato dopo il 1954.

Page 12: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

12

Esercitazione N° 4 – L’anova between

Possiamo quindi costruire una nuova variabile “nasc_3f” che divide i soggetti in tre grandi fasce di età e che assume:

Valore 1 se i soggetti sono nati prima del 1948,

Valore 2 se i soggetti sono nati dal 1948 al 1954

Valore 3 se i soggetti sono nati dopo il 1954.

Possiamo quindi eseguire il test dell’anova e confrontare le medie della variabile “pressione massima” all’interno dei tre livelli di età che abbiamo creato.

L’anova between

Page 13: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

13

Esercitazione N° 4 – L’anova between

H0: µ1= µ2= µ3

H1: esiste almeno una coppia di livelli in cui le medie della “pressione sanguigna” hanno una differenza statisticamente significativa.

ANOVA

pressione massima

1703,670 2 851,835 4,313 ,016

19156,690 97 197,492

20860,360 99

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

Il test risulta significativo (p-value<0,05). Possiamo rifiutare l’ipotesi nulla e concludere che la variabile età ha influenza sulla variablile pressione sanguigna: in altri termini esiste una coppia di livelli della V.I. per i quali le due medie di gruppo hanno una differenza significativa. Ma...

Con 3 livelli della V.I. esistono 3 coppie di medie, qual è la coppia che rende significativo l’anova? Ne esiste più di una? Andiamo a scoprirlo...

Varianza within

Varianza between

Gradi di libertà

L’anova between

Page 14: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

14

Esercitazione N° 4– L’anova between

Per capire quale coppia di fasce di età ha reso significativo l’anova, occorre eseguire i test post hoc.

I test post hoc confrontano contemporaneamente le n*(n-1)/2 coppie di medie della V.D. (con n pari al numero di livelli della V.I.). Ma...

Il confronto contemporaneo altera il livello di significatività dei test: il livello alfa (generalmente pari a 0,05) viene “gonfiato” rendendo quindi più elevato il rischio di commettere l’errore di I tipo. Occorre quindi mettere in atto strategie che permettano di controllare il valore di alfa: negli esempi proposti verrà usata la correzione di Tukey.

I problemi che si incontrano confrontando contemporaneamente più di 2 medie, sono gli stessi problemi che impediscono di usare il t-test quando la V.I. ha più di 2 livelli: anche in questo caso il livello alfa si gonfierebbe e aumenterebbe dunque il rischio di commettere l’errore di I tipo.

L’anova between

Page 15: 1 Corso di Laurea in Scienze e tecniche psicologiche Esame di Psicometria L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it.

15

Esercitazione N° 4 – L’anova between

Multiple Comparisons

Dependent Variable: pressione massima

Tukey HSD

2,669 3,317 ,701 -5,23 10,57

-7,433 3,586 ,101 -15,97 1,10

-2,669 3,317 ,701 -10,57 5,23

-10,102* 3,500 ,013 -18,43 -1,77

7,433 3,586 ,101 -1,10 15,97

10,102* 3,500 ,013 1,77 18,43

(J) nasc_3f2,00

3,00

1,00

3,00

1,00

2,00

(I) nasc_3f1,00

2,00

3,00

MeanDifference

(I-J) Std. Error Sig. Lower Bound Upper Bound

95% Confidence Interval

The mean difference is significant at the .05 level.*.

Notiamo che la media 2 risulta significativamente diversa dalla media 3. Gli scarti tra media 1 e media 2 e tra media 1 e 3 non risultano invece significativi.

Dagli output possiamo notare che il test anova è risultato significativo poiché una coppia di medie presenta uno scarto statisticamente significativo e rende quindi falsa l’ipotesi nulla di uguaglianza delle 3 medie.

L’anova between