Istituto Comprensivo San Casciano in Val di Pesa Scuola Secondaria 1° Grado “Ippolito Nievo”
Elementi di Psicometria con Laboratorio di SPSS 1 · chi-quadro (Tavola H, p.487) e ......
Transcript of Elementi di Psicometria con Laboratorio di SPSS 1 · chi-quadro (Tavola H, p.487) e ......
Elementi di Psicometria con Laboratorio di SPSS 120-Chi quadro
(v. 1.5, 9 maggio 2018)
Germano Rossi1
1Dipartimento di Psicologia, Università di Milano-Bicocca
9 maggio 2018
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 1 / 60
Presentazione
Analisi di dati qualitativi
Finora ci siamo occupati di studiare le analisi dei dati (e letecniche statistiche) che trattano le variabili quantitative.
t-test per campioni appaiati (2 quantitative)t-test per campioni indipendenti (1 qualitativa suddivisa in duegruppi)t-test per campione unico (1 quantitativa e una media di riferimento)correlazione di Pearson (2 quantitative)
Adesso affrontiamo una tecnica di analisi dei dati che utilizzavariabili qualitativeQuesta e altre tecniche vengono anche chiamate nonparametriche perché non fanno riferimento ai parametri dellapopolazione
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 2 / 60
Presentazione
Dati qualitativi
Le variabili qualitative possono essere sia ordinali sia nominalie possono presentarsi da sole oppure associate con altreL’utilizzo più frequente e con le tabelle di contingenza (ad es.vedere se il nostro campione è bilanciato per genere e fasce d’età)Altri utilizzi sono
una variabile di cui si vuole testare la distribuzione casuale (ad es.se la variabile fasce di età nel nostro campione si distribuisce inmodo omogeneo)una distribuzione teorica (ad es. se una variabile del nostrocampione rispetta la proporzione presente nella popolazione)tre o più variabili qualitative (analisi loglineare)
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 3 / 60
Presentazione
Dati qualitativi
La maggior parte di queste tecniche utilizza variabili qualitativecon poche categorieCi sono tecniche di analisi che utilizzano una o più variabiliqualitative con molte/moltissime categorie (analisi dellecorrispondenze semplice; analisi delle corrispondenze multiple)
Noi ci occuperemo della tecnica del chi-quadro e del test esatto diFisher
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 4 / 60
Presentazione
Chi-quadro (χ2)
Il termine chi-quadro si usa con tre significati1 Per indicare una famiglia di distribuzioni di probabilità2 Per un indicare una statistica il cui risultato si distribuisce
approssimativamente come la distribuzione di probabilità omonima3 Per indicare la tecnica di analisi dei dati
Come statistica è un indice di discrepanzaSi usa con variabili nominali e/o ordinali
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 5 / 60
Presentazione
Scopo
La statistica di chi-quadro (χ2) ha lo scopo di verificare se undeterminato valore osservato si discosta (o no) da un valore teorico(l’ipotesi nulla)
in concreto si applica a:
1 una variabile nominale: si distribuisce casualmente? (ipotesi diomogeneità o di equiprobabilità: ogni cella ha la stessa probabilitàdi tutte le altre)
2 due variabili nominali: sono fra loro indipendenti? (ipotesi diindipendenza: Il valore atteso di ogni cella dipende dal prodottodelle probabilità)
3 una o due variabili: si distribuiscono in base a un modello?predefinito (verifica di un modello: io stabilisco qual è il valoreatteso di ogni cella)
le differenze dipendono dal modo in cui vengono calcolate le frequenzeteoriche
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 6 / 60
Presentazione
La formula completa
χ2 =∑ (fo − fa)2
fa=∑ (O −A)2
A=∑ O2
A−N
fo = frequenza osservata (indicabile anche come O)fa = frequenza teorica attesa (indicabile anche come A)N = Numerosità totaleLa statistica di χ2 è la sommatoria degli scarti quadratici fra lefrequenze osservate (O) e quelle teoriche attese (A) ponderatesulle attese.Il suo valore oscilla da 0 ad∞ e aumenta all’aumentare degliscarti (O −A)L’uso che si può fare, dipende dal modo in cui si calcola il valoreatteso
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 7 / 60
Presentazione
Avviso
Per farvi capire meglio, procederò secondo questo ordine:1 Modello casuale (o di equiprobabilità) [non presente nel libro]2 Modello di indipendenza [presente nel libro]3 Modello teorico [non presente nel libro]
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 8 / 60
Equiprobabilità
Esempio 1: equiprobabilità
Alcuni medici-psichiatri hanno notato che la maggior parte deglischizofrenici sono nati in periodo invernale.Ci chiediamo se anche i nostri schizofrenici sono nati inprevalenza nel periodo invernale.Usando le cartelle cliniche di 636 pazienti (fittizi) costruiamo lanostra tabella:
Primavera Estate Autunno Inverno Totale125 130 153 228 636
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 9 / 60
Equiprobabilità
Verifica di ipotesi e valori teorici
Se la nascita di schizofrenici non dipende dal periodo, le 4stagioni hanno la stessa probabilitàH0 : P (p) = P (e) = P (a) = P (i) = 0.25
H1 : P (p) 6= P (e) 6= P (a) 6= P (i) 6= 0.25
H0 è l’unica ipotesi su cui possiamo lavorareIn base ad H0, ci aspettiamo che in ogni stagione nascano636/4 = 159 bambini ovvero 636 ∗ 0.25 = 159
P E A I T
O 125 130 153 228 636T 159 159 159 159 636
d -34 -29 -6 69 0
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 10 / 60
Equiprobabilità
Scarti
Abbiamo il solito problema che la somma degli scarti si annulla.Lo risolviamo nel solito modo, elevando a quadrato gli scarti:
P E A I T
d -34 -29 -6 69 0d2 1156 841 36 4761 6794
Ora abbiamo il problema di valutare quanto effettivamente grandisiano questi scarti. Un modo per “standardizzarli” è quello didividerli per il valore teorico di ogni cella.Così facendo esprimiamo gli scarti al quadrato, come “numero divalori teorici che stanno nello scarto” (qualcosa di simile a quantosi è fatto con i punti z).
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 11 / 60
Equiprobabilità
Probabilità
Quindi, sommiamo tutti gli scarti standardizzati:
P E A I T
d2 1156 841 36 4761 6794ft 159 159 159 159 636
7.27 5.29 0.23 29.94 42.72
Ottenendo un χ2 di 42.72Qual è la probabilità che χ2 = 42.72 indichi una variazione casualerispetto a 4 celle?Tutti i valori di chi-quadro si distribuiscono secondo unaparticolare famiglia di distribuzione di probabilità che variano inbase ai “gradi di libertà” (o g.l. o gdl o df)
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 12 / 60
Equiprobabilità
Gradi di libertà
Se N frequenze si distribuiscono in c celle, noi possiamo mettereun numero arbitrario di valori nelle prime c− 1 celle, mentrenell’ultima dobbiamo mettere forzatamente quello che ci avanza:
totale
125 130 153 X 636
Nel nostro esempio, i g.l. sono 4− 1 = 3 perché dopo averdistribuito i 636 casi nelle prime 3 celle, nell’ultima devo metteregli avanzi.
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 13 / 60
Equiprobabilità
Distribuzione di chi-quadro (χ2)
0 5 10 15 20 25 30
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Valore di chi
Pro
babi
lità
Curve di chi quadro per 1,2,3,4,5 e 10 g.l
f(x) =2−k/2
Γ(k/2)x(k−2)/2e−x/2
Con pochi gdl (1 e 2), ivalori più probabili sonomolto vicini a 0
già con gdl=3, 0 non èprobabile
all’aumentare dei gdl lacurva assomiglia semprepiù a una normale (manon lo è)
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 14 / 60
Equiprobabilità
Significatività
Stabiliamo un livello α = .05
Usiamo le tavole delchi-quadro (Tavola H, p.487) ecerchiamo il valore critico diχ2 per 3 g.l. per un certo livellodi alfaper α = .05 è χ2
c = 7.815
il χ2 da noi trovato èχ2t = 42.72
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 15 / 60
Equiprobabilità
Significatività
Poiché il nostro χ2 (42.72) è superiore a quello critico (7.815),concludiamo che le nascite non sono state casualiPiù precisamente, ipotizzando l’equiprobabilità, il chi-quadrosignificativo ci dice che se rifiutiamo H0 corriamo un rischioinferiore (di molto inferiore) al 5% di prendere una decisionesbagliatasiccome il χ2
c per α = .01 è 11.35, possiamo anche dire che ilrischio che stiamo correndo è inferiore al l’1%siccome il χ2
c per α = .001 è 16.27, possiamo anche dire che ilrischio che stiamo correndo è inferiore al l’1‰
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 16 / 60
Equiprobabilità
Chi quadro in Spss: equiprobabilità
Analizza | Test nonparametrici |Chi-quadrato...
Mettiamo la variabilequalitativa in Variabilioggetto del test
OK
TestStagione
Chi-quadrato 42,730a
df 3Sig. Asint. ,000
Stagione
1342314
. . .
Prime 7 osservazioni (in totale 636 righe)In alternativa possiamo “pesare i casi”
a. Per 0 celle (,0%) erano previste frequenze minori di 5. Il valore minimo previsto perla frequenza in una cella è 159,0.
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 17 / 60
Equiprobabilità
Chi quadro in Spss: equiprobabilità
Analizza | Test nonparametrici |Chi-quadrato...
Mettiamo la variabilequalitativa in Variabilioggetto del test
OK
TestStagione
Chi-quadrato 42,730a
df 3Sig. Asint. ,000
Dati | Pesa casi, poi scegliamoPesa casi per Pazienti ovveroWEIGHT BY Pazienti.
a. Per 0 celle (,0%) erano previste frequenze minori di 5. Il valore minimo previsto perla frequenza in una cella è 159,0.
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 17 / 60
Equiprobabilità
Chi quadro e binomiale
Se volessimo usare l’approccio dell’equiprobabilità con unavariabile di sole due categorie (come il genere) scopriremmo cheil valore di chi quadro trovato corrisponderebbe al quadrato dello zcalcolato con la binomiale e p = .05
EsempioFile di Sara: verifichiamo se la distribuzione del genere è al 50%Usando il chi quadro, troviamo χ2 = 1.96
Usando la binomiale: z = 1.4
1.42 = 1.96√
1.96 = 1.4
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 18 / 60
Equiprobabilità
Precauzioni nell’uso del chi quadro
i dati devono essere indipendenti fra loroun caso statistico deve stare in una sola cellale frequenze attese non devono essere troppo piccole
Per df=1, le frequenze attese devono essere almeno 5Per df=2, devono essere almeno 2Per df>=3, una può essere =1 se le altre sono almeno 5
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 19 / 60
Indipendenza
Esempio 2: indipendenza
Ho raccolto un campione di 42 ragazze/i e ho misurato (fra l’altro):
Genere: Maschi (M) e femmine (F)
Livello socio-economico: Basso (B) e alto (A)
Mi chiedo “Le variabili sono fra loro associate?” ovvero una variabile haqualche influenza sull’altra?
H0: le variabili sono fra loro indipendenti
H1: le variabili non sono indipendenti
Livello EducativoGenere Basso Alto Totale
Maschi 13 9 22Femmine 13 7 20
Totale 26 16 42
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 20 / 60
Indipendenza
Valori teorici
In questo caso non possiamo dividere N per il numero di celleperché avremmo alcuni problemi42/4 = 10.5Avremmo quindi 10.5 + 10.5 = 21 maschi anziché 22;21 femmine anziché 20Avremmo anche 21 Basso e 21 AltoI valori teorici devono quindi essere calcolati diversamenteDevono tener conto del totale dei maschi e delle femmine, macontemporaneamente dei livelli socio-economiciCalcoliamo i valori teorici sulla base della probabilità di 2 eventiindipendenti
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 21 / 60
Indipendenza
Valori teorici
Bas Alt Tot
Maschi 13 9 22Femmine 13 7 20
Totale 26 16 42
La probabilità indipendente di essere Maschiodi Basso livello economico è data dal prodottodelle singole probabilità
p(M) =22
42= .52 p(B) =
26
42= .62
p(MB) = p(M)p(B) =22
42× 26
42
La probabilità ottenuta dovrà essere moltiplicata per la numerosità peravere la frequenza attesa
fa(MB) = p(M)p(B)N =22
42× 26
/42× /42 =
22× 26
42
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 22 / 60
Indipendenza
Valori teorici
Dall’applicazione della regola dell’indipendenza degli eventi, siricava una “regoletta” per il calcolo dei valori teorici:La frequenza attesa di una cella è uguale al totale di riga (Tr) peril totale di colonna (Tc) diviso il totale generale (Tt o N )
A =Tr × TcTt
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 23 / 60
Indipendenza
Valori teorici
Applicando la regola ad ogni cella della tabella, avremo:
Freq. Freq. teorica
Maschi Basso 13 22 x 26 / 42 = 13.62Alto 9 22 x 16 / 42 = 8.38
Femmine Basso 13 20 x 26 / 42 = 12.38Alto 7 20 x 16 / 42 = 7.62
Livello EducativoSesso Basso Alto Totale
Maschi 13 (13.62) 9 (8.38) 22Femmine 13 (12.38) 7 (7.62) 20
Totale 26 16 42
Le frequenze teoriche danno gli stessi totali (di riga, di colonna e generale) dellefrequenze osservate
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 24 / 60
Indipendenza
Calcolo del chi-quadro
Applicando la formula del chi-quadro avremo:
χ2 =(13− 13.62)2
13.62+
(9− 8.38)2
8.38+
(13− 12.38)2
12.38+
+(7− 7.62)2
7.62= 0.0282 + 0.0459 + 0.0311 + 0.0504 = 0.1556
che dovremo confrontare con il chi-quadro critico (χ2c)
Se il nostro χ2 è inferiore al χ2c , allora accetteremo H0
Se il nostro χ2 è superiore o uguale al χ2c , allora rifiuteremo H0
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 25 / 60
Indipendenza
Gradi di libertà
Per i gradi di libertà, consideriamo che corrispondono al numero dicelle necessarie per completare la tabella con i resti, dal momentoche i totali (di riga, di colonna e generale) non possono cambiare.
Livello EducativoSesso Basso Alto Totale
Maschi 13 X 22Femmine X X 20
Totale 26 16 42
In questi caso gdl = 1
Per tabelle di contingenza (incrocio di 2 variabili) la formulagenerica è quindi:
gdl = (r − 1)(c− 1)
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 26 / 60
Indipendenza
Verifica d’ipotesi
Il nostro chi quadro(χ2 = 0.1556) dev’essereconfrontato con quello critico
stabiliamo il livello α = .05 ecerchiamo sulla tavola ilchi-quadro critico per 1 gdl:chi2c = 3.841
siccome 0.1556 < 3.841accettiamo l’ipotesi nulla
Essendo non significativo perα = .05 lo sarà anche perα = .01; infatto il chi critico èchi2c = 6.63
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 27 / 60
Indipendenza
Chi quadro in Spss: indipendenza
Analizza |Statistichedescrittive |Tavole dicontingenza...
Mettiamo una variabilein Righe e una inColonneStatistiche... , attivaChi-quadrato
Continua e poi OK
Genere LivEdu
1 12 12 21 21 22 1... ...
Prime 7 osservazioni (in totale 42 righe)In alternativa possiamo “pesare i casi”
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 28 / 60
Indipendenza
Chi quadro in Spss: indipendenza
Analizza |Statistichedescrittive |Tavole dicontingenza...
Mettiamo una variabilein Righe e una inColonneStatistiche... , attivaChi-quadrato
Continua e poi OK
Dati | Pesa casi, Pesa casi perfreq ovveroWEIGHT BY freq.
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 28 / 60
Indipendenza
Chi quadro in Spss: indipendenza
Tavola di contingenza Genere * LivEdu
LivEdu1 2 Totale
Genere 1 13 9 222 13 7 20
Totale 26 16 42
Chi-quadrato
Valore df Sig. asint. Sig. esatta Sig. esatta(2 vie) (2 vie) (1 via)
Chi-quadrato di Pearson ,155a 1 ,694Correzione di continuitàb ,006 1 ,940
Rapporto di verosimiglianza ,155 1 ,693Test esatto di Fisher ,758 ,470
Associazione lineare-lineare ,151 1 ,697N. di casi validi 42
a. 0 celle (,0%) hanno un conteggio atteso inferiore a 5.Il conteggio atteso minimo è 7,62.
b. Calcolato solo per una tabella 2x2
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 29 / 60
Modello teorico
Esempio 3: modello teorico
Torniamo sull’esempio degli schizofreniciCi possiamo chiedere se nascono più schizofrenici in inverno,perché in inverno nascono più personePer cui, nascendo più persone, è più probabile che nascanoanche più schizofreniciPer verificare questa ipotesi, devo conoscere la frequenza dellenascite per ogni stagioneSupponiamo che le percentuali siano:
Primavera Estate Autunno Inverno
% 18 20 25 37
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 30 / 60
Modello teorico
Frequenze teoriche
Usando le percentuali della popolazione, calcoliamo i nuovi valoriteorici (636× 0.18 = 114.48)
Primavera Estate Autunno Inverno Totale
freq. oss. 125 130 153 228 636% di rif. 18 20 25 37freq. att. 114,48 127,2 159 235,32 636
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 31 / 60
Modello teorico
Calcolo del chi-quadro
χ2 =(125− 114.48)2
114.48+
(130− 127.2)2
127.2+
(153− 159)2
159+
+(228− 235.32)2
235.32= 0.9667 + 0.0616 + 0.2264 + 0.2277 = 1.278
χ2c per 3 gdl è ancora 7.815
Se il nostro χ2 è inferiore al χ2c , allora accetteremo H0
Se il nostro χ2 è superiore o uguale al χ2c , allora rifiuteremo H0
L’ipotesi nulla è il nostro modello teorico,ma...adesso noi vogliamo che il χ2 sia piccolo perché significa cheabbiamo ragione!
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 32 / 60
Modello teorico
Chi quadro in Spss: teoria
Analizza | Test nonparametrici |Chi-quadrato...
Mettiamo la variabile qualitativa inVariabili oggetto deltest
Nell’area Valori attesi,scegliere Valori e inserire ivalori teorici uno alla volta (conAggiungi )
OK
Stagione
Chi-quadrato 1,482a
df 3Sig. Asint. 0,686321
a. Per 0 celle (,0%) erano previste frequenzeminori di 5. Il valore minimo previsto per lafrequenza in una cella è 114,5.
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 33 / 60
Chi quadro in SPSS
SPSS: Chi quadro indipendenzaAnalizza | Statistiche descrittive | Tabella dicontingenza...
Inserire almenouna variabilequalitativa inRighe e almenouna in Colonne
Usare Celle...per i dati davisualizzare
UsareStatistiche...per i test dacalcolare
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 34 / 60
Chi quadro in SPSS
SPSS: Chi quadro indipendenza, Celle
Celle...
Serve per selezionare icontenuti delle celle
Osservati è attivo perdefault
Previsti visualizza lefrequenze attese (utile perfreq. attese <5)
Non standardizzato,Standardizzato non siusano
Standardizzato adattatoper avere i residuitrasformati in punti z
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 35 / 60
Chi quadro in SPSS
SPSS: Chi quadro indipendenza, Statistiche
Statistiche...
Chi quadrato per calcolare il χ2
Coefficiente di contingenza,Phi e V di Cramer per stamparel’effect size
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 36 / 60
Chi quadro in SPSS
SPSS: Chi quadro equiprobabilitàAnalizza | Test non parametrici | Finestre di dialogolegacy | Chi-quadrato...
Selezionare almeno unavariabile
Non cambiare nulla, per usaretutti i valori della variabileoriginale
Scegliere Utilizzaintervallo specificato,se si vuole limitare il numero dicategorie (che devono essereperò consecutive)
In tal caso inserire il valoreminimo da usare e quellomassimo
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 37 / 60
Chi quadro in SPSS
SPSS: Chi quadro modello teoricoAnalizza | Test non parametrici | Finestre di dialogolegacy | Chi-quadrato...
Selezionare almeno una variabile
Nel riquadro Valori previstiselezionare Valori
Inserire di fianco il valore teoricodella prima categoria e poipremere Aggiungi
Ripetere per tutte le categorie
I valori inseriti devono sommare a1 (proporzioni), 100 (percentuali) oN (frequenze)
Altrimenti vengono sommati ericalcolate le proporzioni
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 38 / 60
Ulteriori analisi
Studio dei residui
Il chi-quadro fornisce un’informazione complessiva sull’interatabellaOvvero, c’è (p<=α) o non c’è (p > α) associazione fra frequenzeosservate e frequenze attese? (sì/no)Se c’è associazione (p<=α), possiamo capire quali celle sono inqualche modo responsabili della significatività?Dal momento che il χ2 è la somma dei χ2 di tutte le celle, le celleche producono χ2 più elevati siano quelle che contribuisconomaggiormente ad innalzare il valore del χ2 totale.Però, questi χ2 parziali sono confrontabili fra loro, ma nonsappiamo quanto devono essere “grandi” per poter dare uncontributo maggiore
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 39 / 60
Ulteriori analisi
Residui aggiustati standardizzati
Possiamo allora considerare i residui semplici (O −A) madipendono dall’ampiezza delle frequenze della cellaQuesti residui semplici si possono standardizzare, ma diventanoconfrontabili ma non sappiamo se sono sufficientemente grandistatisticamente.Si possono allora trasformare in punti z
I residui trasformati in punto Z si chiamano residui aggiustatistandardizzatise il valore di un residuo aggiustato standardizzato di una cella èsignificativo, vuol dire che in quella cella la differenza fraosservate e attese non dipende da fluttuazioni casuali
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 40 / 60
Ulteriori analisi
Residui aggiustati standardizzati
La formula per il calcolo è:
zr =O −A√√√√
Tr ∗ Tc ∗
1− TrN
∗ 1− TcN
N
se zr è positivo e significativo, ci sono più Osservate di quantoprevistose zr è negativo e significativo, ci sono meno Osservate di quantoprevistoquando la differenza fra O e A è statisticamente significativa?
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 41 / 60
Ulteriori analisi
Residui aggiustati standardizzati
Nella curva normale,con ipotesi bidirezionalee α = .5,
gli z critici che corrispondono al 5% sulle due code (2.5% sul latonegativo e 2.5% su quello positivo) sono -1.96 e +1.96I residui aggiustati standardizzati (valore assoluto) superiori a 1.96sono statisticamente significativi
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 42 / 60
Ulteriori analisi
Residui aggiustati in SPSS
Vacanze ‘Vai in vacanza prevalentemente nello stesso posto?’ 1=sì 2=no
OrPol ‘Qual è il tuo orientamento politico?’ 1=Nessuno 2=Sinistra 3=Centro4=Destra
χ2(3) = 34.735, p < .001, V = .150
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 43 / 60
Ulteriori analisi
Residui aggiustati in SPSS
La somma dei residuiaggiustati (per riga e percolonna) deve essere 0−3.5 + (−2.1) + (−0.6) = 5.4
Con 2 celle, uno dei residui èpositivo, l’altro negativo−3.5 vs. 3.5
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 44 / 60
Ulteriori analisi
Indice di associazione/Effect size
Abbiamo già visto che la statistica χ2 (per tabelle di contingenza)ci dice sono se Osservate e Attese sono discrepanti o menoSe c’è discrepanza, allora non c’è indipendenza fra le variabiliSe non c’è indipendenza le variabili sono fra loro associateÈ possibile calcolare degli indici di ampiezza dell’effetto che cidicono “quanto sono associate”questi indici sono il Coefficiente di contingenza, la φ e la V diCramer
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 45 / 60
Ulteriori analisi
Coefficiente phi
Il coefficiente phi è anche un indice di associazione fra le duevariabiliUn indice di associazione misura la “forza” con cui le due variabilisono legate fra loroPer questo motivo, φ misura anche l’ampiezza dell’effettoφ ci dice quanto le due variabili sono legate fra loroIl coefficiente phi è calcolato con due distinte formule
φ =
√χ2
NV di Cramer =
√χ2
N(k − 1)k = min(r, c)
La φ oscilla fra -1 e +1 ed è a tutti gli effetti una correlazione.
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 46 / 60
Ulteriori analisi
Coefficiente C di contingenza
Anche il coefficiente di contingenza può essere usato come effectsize
C =
√χ2
N + χ2
Inoltre può essere usato per verificare se la numerosità èresponsabile della significatività del χ2
L’indice C di contingenza oscilla fra -1 e +1
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 47 / 60
Ulteriori analisi
Indice di associazione/Effect size
φ in una tabella 2x2corrisponde ad una r diPearson (che è l’indicedi associazione pervariabili quantitative)il segno indica ladirezioneil valore indical’intensità
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
● ●●
●
●
●
●
●●
●
●
●●
● ●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
x
y
r = 0.91
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 48 / 60
Cautele
Correzione di continuità
In certe condizioni, il valore della statistica χ2 non si approssimabene alla distribuzione di χ2
In questi casi si usa la correzione di continuità di Yates
χ2 =∑ (|O −A| − .5)2
A
Le condizioni in cui usarlo non sono sempre chiareQuando la tabella è 2x2 (la scelta di Spss)Quando gl=1 e almeno una cella ha una frequenza attesa minore di5 (A < 5)Quando gl=2 e almeno una cella ha una freq. attesa minore di 3Quando più del 20% delle celle ha una frequenza attesa minore di 5Sempre perché la distribuzione χ2 è continua e i dati sono discreti
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 49 / 60
Cautele
Problemi di numerosità
Il chi-quadro è sensibile alla numerosità.Riprendiamo l’esempio 2, ma moltiplichiamo tutte le celle per 10
Livello EducativoSesso Basso Alto Totale
Maschi 13 9 22Femmine 13 7 20
Totale 26 16 42
Livello EducativoSesso Basso Alto Totale
Maschi 130 90 220Femmine 130 70 200
Totale 260 160 420
Anche il chi quadro risulterà moltiplicato per 10 (χ = 1.551)E ancora una volta non è significativo perché inferiore al valorecritico (3.815) che non cambia perché dipende dai gdlMa se avessi 4200 valori (tutto moltiplicato per 100)?il χ2 sarebbe 15.51 (significativo!)
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 50 / 60
Cautele
Problemi di numerosità
Dal momento che il chi-quadro tende ad aumentare all’aumentaredel totale delle frequenze, e quindi a diventare significativo, si puòragionevolmente dubitare che la significatività trovata siaeffettivamente veraUna possibile soluzione è coefficiente phi (se gl=1) o V di Cramer (se g>1)
φ =
√χ2
N(Cramer)φ =
√χ2
N(k − 1)k = min(r, c)
che (in SPSS) si può chiedere tramite il pulsante Statistiche
Se tale coefficiente si avvicina a 0, allora il chi-quadro era elevato percolpa della numerosità
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 51 / 60
Cautele
Frequenze attese < 5
Quando più del 20% di celle ha una frequenza attesa inferiore a 5, lastatistica chi-quadro non si approssima alla sua distribuzione diprobabilità
Alcuni autori suggeriscono di usare la correzione di continuità di Yates
Altri autori suggeriscono di accorpare qualche categoria di una delle duevariabili (o di entrambe) per avere totali di riga (o di colonna) più elevati
Accorpare significa unire tra loro due o più categorie di una variabile
Se la variabile è ordinale, bisogna fare attenzione a cosa si accorpa (lacondizione economica “medio-bassa” può essere accorpata a quella“bassa” ma non a quella “medio-alta”!)
Per variabili nominali è più semplice perché si può creare una categoria“altro”
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 52 / 60
Cautele
Frequenze attese < 5
Le categorie che non si possono accorpare, possono essere “eliminate”dichiarandole come “mancanti definiti dall’utente”
È possibile usare il test esatto di Fischer (per tabelle 2x2 o 2x3, maSPSS lo calcola solo se 2x2), n! indica il fattoriale
(a+ b)!(c+ d)!(a+ c)!(b+ d)!
N !a!b!c!d!
a bc d
Altri ancora suggeriscono di usare il log chi-quadro ovvero ilcorrispondente loglineare del chi-quadro (che in Spss è chiamatoRapporto di verosimiglianza)
G2 = 2∑
(O)ln
(O
A
)
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 53 / 60
Cautele
Frequenze attese < 5
Il limite di 5 (o 3) per le frequenze attese deriva da uno studio diLewis e Burke (1949).Successivamente, diverse ricerche sono giunte a conclusionidiverse (sintetizzate in Delucchi, 1983)Il chi-quadro non è molto sensibile alle frequenze attese piccole oalle celle con poche frequenze se l’N totale è almeno superiore ar · c · 5Tuttavia questa possibilità incide solo sull’errore α, mentre restasconosciuto l’effetto sull’errore β
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 54 / 60
Cautele
Suddividere chi-quadro
Un chi-quadro significativo indica che le due variabili sono inqualche modo legateCon 6 o più celle non sempre è facile capire il modo in cui levariabili sono legateCi sono alcune tecniche che ci possono aiutare:
La partizione del chi-quadroI residui standardizzati corretti
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 55 / 60
Cautele
Partizione del chi-quadro
la partizione implica suddividere la tabella in tante sotto-tabelle di2 righe e due colonnee applicare il chi-quadro a ciascuna delle tabelleogni tabella avrà 1 gdl (essendo 2x2)però bisogna aggiustare la significatività tramite il criterio diBonferroni (α / numero di confronti)
Se ho una tabella 2x3 posso unire le categoria A1 con A2 e B1con B2, poi A2 con A3 e B2 con B3...
A1 A2 A3B1 B2 B3
A1+A2 A3B1+B2 B3
A1 A2+A3B1 B2+B3
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 56 / 60
Riepilogo
Riepilogo: equiprobabilità
Ipotesi di equiprobabilitàUsando: 1 variabile qualitativaValori attesi calcolati come A = N/celle
Gdl: (celle-1)Ipotesi: H0 : χ2 = 0 e H1 : χ2 6= 0
Ipotesi da falsificare: H0
Risultato cercato: significatività, rifiuto di H0, χ2 sig.
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 57 / 60
Riepilogo
Riepilogo: indipendenza
Ipotesi di indipendenzaUsando: una tabella di contingenza (2 variabili qualitative)Valori attesi calcolati come A = p(Tr)p(Tc)N = (Tr × Tc)/TtGdl: (celle-1)(righe-1)Ipotesi: H0 : χ2 = 0 e H1 : χ2 6= 0
Ipotesi da falsificare: H0
Risultato cercato: significatività, rifiuto di H0, χ2 sig.
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 58 / 60
Riepilogo
Riepilogo: verifica modello
Ipotesi basata su un modelloUsando: indifferente (1 o più variabili)Valori attesi calcolati in base ad una teoriaGdl: dipende dal modelloIpotesi: H0 : χ2 = 0 e H1 : χ2 6= 0
Ipotesi da verificare: H0
Risultato cercato: non significatività, accettazione di H0, χ2 nonsig.
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 59 / 60
Riepilogo
Riepilogo
Chi-quadrato
Equiprobabilità: una variabile qualitativa viene analizzata pervedere se le categorie sono fra loro equiprobabiliIndipendenza: due variabili qualitative vengono incrociate (tabelladi contingenza) per vedere se sono fra loro indipendentiModello teorico: una variabile qualitativa viene confrontata con unmodello teorico per vedere se le categorie si distribuiscono in basea dei valori attesi indicati dalla teoriaModello generico: una qualunque tabella di dati osservati vieneconfrontata con valori attesi calcolati in base ad una teoria (omodello teorico) [non disponibile in SPSS]
G. Rossi (Dip. Psicologia) ElemPsico 9 maggio 2018 60 / 60