Laboratorio di Statistica
ATTIVITÀ PIANO LAUREE SCIENTIFICHE
UNIVERSITÀ DEGLI STUDI DI NAPOLI
Federico II
CLASSI QUARTE
Indagine
“Terra promessa”
Analisi delle relazioni tra variabili
qualitativa
qualitativa
Chi quadrato
LA VERIFICA DELLE IPOTESI
1. formulazione delle ipotesi statistiche;
2. scelta delle regola di decisione adeguata;
3. confronto del valore campionario calcolato con la distribuzione campionaria sotto H0;
4. rifiuto dell’ipotesi sotto H0 in base al fatto che il valore campionario calcolato cada in una particolare regione di valori nella distribuzione campionaria specificata nell’ipotesi H0.
Verifica di ipotesi statistica
Conclusioni
1. L’ipotesi nulla è conservata (si è verificato un risultato probabile)
2. L’ipotesi nulla è respinta (si è verificato un risultato altamente
improbabile)
H0: I DUE CARATTERI SONO INDIPENDENTI
H1: I DUE CARATTERI NON SONO INDIPENDENTI
: errore di I tipo = 0,05
Funzione test: chi-quadrato
Regola di decisione:
•2 ≤ 2 accetto H0
•2 > 2 rifiuto H0
POSSIBILI DECISIONI NELLA VERIFICA D’IPOTESI
NELLA POPOLAZIONE È VERA
H0 H1
IN BASE AI
DATI
CAMPIONARI
NON SI RESPINGE H0
DECISIONE CORRETTA
(PROBABILITÀ 1- )
ERRORE 2° TIPO
(PROBABILITÀ )
SI RESPINGE H0
ERRORE 1° TIPO
(PROBABILITÀ )
DECISIONE CORRETTA
(PROBABILITÀ 1- )
Esiste una relazione tra la variabile
«Hai fiducia in te stesso?»
e «We are the Champions»?
"We are the Champions" SI NO totale
SI 276 90 366"Hai fiducia in te stesso?" NO 72 57 129
totale 348 147 495
ESEMPIO: Verifica di indipendenza in tabelle 22 (tetracoriche)
CALCOLO DELLE FREQUENZE TEORICHE o ATTESE
a, b, c, d frequenze attese
a=348 x 366 / 495 a = 257,3
b=348 x 129 / 495 b = 90,7
c=147 x 366 / 495c = 108,7
d=147 x 129 / 495
d = 38,3
"We are the Champions" SI NO totale
SI 257,3 (a) 108,7 (c) 366"Hai fiducia in te stesso?" NO 90,7 (b) 38,3 (d) 129
totale 348 147 495
FREQUENZE OSSERVATE E FREQUENZE ATTESE NELL’IPOTESI DI ASSENZA DI ASSOCIAZIONE
We are the championsTOTALE
Sì No
Hai fiducia
in te stesso?
SI276 O
A 257,3
90 O A 108,7
366
NO72 O
A 90,7
57 OA 38,3
129
TOTALE 348 147 495
Per ciascuna cella si calcola la differenza tra la frequenza osservata
e quella attesa (contingenza)
TEST 2 (CHI-QUADRATO)
Il valore del chi-quadrato indica presenza o assenza di associazione?
6,1713,986,322,336,1
3,38
3,3857
7,90
7,9072
7,108
7,10890
3,257
3,257276
A - O
22222
2
1
2
1
22
i j A
Per interpretare il risultato ottenuto si deve confrontare il
valore calcolato del chi-quadrato con il valore critico della
distribuzione del chi-quadrato (essendo vera H0) che
corrisponde ad una probabilità di errore pari a 0,05.
Per trovare il valore critico del chi-quadrato bisogna
consultare la tavola della distribuzione dei suoi valori. Il valore
critico è individuato entrando attraverso la colonna
corrispondente alla probabilità prescelta (0,05) e alla riga
corrispondente ai gradi di libertà (GdL) della tabella, dove:
GdL = (n° righe -1) x (n° colonne -1)
Essendo questa tabella 2X2, GdL=1.
La distribuzione chi-quadrato per alcuni valori dei gradi di libertà (gl=1, 2, 3,…)
Den
sità
Distribuzione CHI-QUADRATO
Chi-quadrato calcolato=17,6 Chi-quadrato critico =3,84
0
0,2
0,4
0,6
0,8
1
1,2
0 2 4 6 8 10 12 14 16 18 20 22 24
X2
g.l. 1
3,8
Il chi-quadrato calcolato è maggiore del chi-quadrato critico quindi si rifiuta l’ipotesi di assenza di relazione.
Esempio: Verifica di indipendenza fra le variabili «dove proseguirai gli studi» e «dove ti
piacerebbe vivere»
Campania Altra Regione
Estero Totale
Sto bene dove sto
49 16 4 69
Altro quartiere
21 6 0 27
Altra città 22 11 1 34
Altra regione
45 45 3 93
Estero 140 77 50 267
tot 277 155 58 490
Calcolo delle frequenze teoriche
Campania Altra regione
Estero Totale
Sto bene dove sto
39 21,82 8,18 69
Altro quartiere
15,26 8,54 3,20 27
Altra città 19,22 10,75 4,02 34
Altra regione 52,62 29,44 11 93
Estero 150,9 84,45 31,60 267
Totale 277 155 58 490
TEST 2 (CHI-QUADRATO)
2 =42.36
g.d.l.=4x2=8 =0.05
2 = 15.50
2 > 2 quindi i due caratteri sono dipendenti
2222222
2
1
2
1
22
6.31
6.3150
45.84
45.8477
9.150
9.150140
11
113.........
82.21
82.2116
39
3949
A - O
i j A
Indice di contingenza media quadratica del Pearson
• L’indice di contingenza quadratica media di Pearson è Φ2 = 2 /N;
• in caso di indipendenza assume il suo valore minimo che è zero;
• il valore massimo è pari a [(il più piccolo valore tra numero di righe e numero di colonne) -1];
• per renderlo normalizzato tra 0 e 1 occorre dividere il valore dell'indice per il suo valore massimo.
Coefficiente di contingenza di Pearson
= 2/N (5)
Una misura di associazione basata sul chi-quadrato è:
il coefficiente di contingenza di Pearson
Indice di YuleData una tabella tetracorica
a b
c d
L’indice di Yule si calcola :
Q di Yule
•Q=+1 i casi sono concentrati sulla diagonale ad
•Q = - 1 i casi sono concentrati sulla diagonale bc
•Q=0 i casi sono equiripartiti
Applicabile se le coppie di marginali sono entrambe equilibrate, oppure entrambe squilibrate e non vi sono una o tre celle semivuote, oppure entrambe squilibrate e una diagonale è semivuota.
"We are the Champions" SI NO totale
SI 276 90 366"Hai fiducia in te stesso?" NO 72 57 129
totale 348 147 495
ESEMPIO n °1: Calcolo degli indici in tabelle 22 (tetracoriche)
276 57 90 720.37
276 57 90 72Q
22 17.6
0.036495N
2
2
17.60.19
495 17.6C
N
ESEMPIO n °2: Calcolo degli indici in tabelle 53
Campania Altra Regione
Estero Totale
Sto bene dove sto
49 16 4 69
Altro quartiere
21 6 0 27
Altra città 22 11 1 34
Altra regione
45 45 3 93
Estero 140 77 50 267
tot 277 155 58 490
ESEMPIO n °2: Calcolo degli indici in tabelle 53
22
2
2
42.360.086
490
42.360.08
490 42.36
N
CN
Conclusioni
Grazie per l’attenzione
Liceo Statale “Q. O. Flacco” Portici (Na)
Top Related