Tavole di contingenza Connessione - Lezione11
-
Upload
sergio-pinna -
Category
Documents
-
view
1.796 -
download
0
description
Transcript of Tavole di contingenza Connessione - Lezione11
1
Tavole di Contingenza Connessione
Una tavola di contingenza per due generici fenomeni X e Y è una rappresentazione simbolica
di una tabella a doppia entrata
y1 y2 … yj … yk x1 n11 n12 … n1j … n1k n1• x2 n21 n22 … n2j … n2k n2• … … … … … … … … xi ni1 ni2 … nij … nik ni• … … … … … … … … xh nh1 nh2 … nhj … nhk nh• n•1 n•2 … n•j … n•k n
2
fenomeno bidimensionale (X,Y)
x1,……., xh modalità di Xy1,……., yk modalità di Y
Si vuole di fatto contare quante volte una particolare coppia di valori (xi,yj) si presenta sugli individui, tale numero è la frequenza congiunta e viene indicata con il simbolo nij
1 1 ;
k h
i ij j ijj i
ij i jj i i j
n n n n
n n n n
• •= =
• •
= =
= = =
∑ ∑
∑∑ ∑ ∑
nij ‘frequenze congiunte’n•j , ni• ‘frequenze marginali’
y1 y2 … yj … yk x1 n11 n12 … n1j … n1k n1• x2 n21 n22 … n2j … n2k n2• … … … … … … … … xi ni1 ni2 … nij … nik ni• … … … … … … … … xh nh1 nh2 … nhj … nhk nh• n•1 n•2 … n•j … n•k n
Distribuzione marginale di X (xi, ni•)
1
k
i ijj
n n•=
=∑
Somma per riga
3
y1 y2 … yj … yk x1 n11 n12 … n1j … n1k n1• x2 n21 n22 … n2j … n2k n2• … … … … … … … … xi ni1 ni2 … nij … nik ni• … … … … … … … … xh nh1 nh2 … nhj … nhk nh• n•1 n•2 … n•j … n•k n
Distribuzione marginale di Y (yj, n•j)
1
h
j iji
n n•=
=∑Somma per colonna
y1 y2 … yj … yk x1 n11 n12 … n1j … n1k n1• x2 n21 n22 … n2j … n2k n2• … … … … … … … … xi ni1 ni2 … nij … nik ni• … … … … … … … … xh nh1 nh2 … nhj … nhk nh• n•1 n•2 … n•j … n•k n
Distribuzione congiunta di (X,Y)
(xi, yj) con frequenza nij
4
ESEMPIO: CORSO DI LAUREA E RENDIMENTO
FREQUENZE ASSOLUTE RENDIMENTOCORSO LAUREA buono discreto ottimo sufficiente Totale complessivoIES 78 36 29 16 159ORU 79 52 42 13 186SAM 64 34 30 9 137SPO 73 29 147 2 251Totale complessivo 294 151 248 40 733
y1 y2 … yj … yk x1 f11 f12 … f1j … f1k f1• x2 f21 f22 … f2j … f2k f2• … … … … … … … … xi fi1 fi2 … fij … fik fi• … … … … … … … … xh fh1 fh2 … fhj … fhk fh• f•1 f•2 … f•j … f•k 1
Frequenze relative
= frequenze congiunte relative
= frequenze relative marginali di
= frequenze relative marginali di
ijij
jj
ii
nf
nn
f Yn
nf Xn
5
ESEMPIO: CORSO DI LAUREA E RENDIMENTO
FREQUENZE RELATIVE RENDIMENTOCORSO LAUREA buono discreto ottimo sufficiente Totale complessivoIES 10.64% 4.91% 3.96% 2.18% 21.69%ORU 10.78% 7.09% 5.73% 1.77% 25.38%SAM 8.73% 4.64% 4.09% 1.23% 18.69%SPO 9.96% 3.96% 20.05% 0.27% 34.24%Totale complessivo 40.11% 20.60% 33.83% 5.46% 100.00%
Distribuzioni condizionate
Distribuzione condizionata di Y dato X=xi (Y|X=xi)
y1 y2 … y j … yk x i n i1 n i2 … n ij … n ik ni•
Le frequenze condizionate relative di Y|X si ottengono dividendo ogni frequenza
condizionata per il totale di riga
6
ESEMPIO: CORSO DI LAUREA E RENDIMENTO
FREQUENZE CONDIZIONATE DI RIGA RENDIMENTOCORSO LAUREA buono discreto ottimo sufficiente Totale complessivoIES 49.06% 22.64% 18.24% 10.06% 100.00%ORU 42.47% 27.96% 22.58% 6.99% 100.00%SAM 46.72% 24.82% 21.90% 6.57% 100.00%SPO 29.08% 11.55% 58.57% 0.80% 100.00%Totale complessivo 40.11% 20.60% 33.83% 5.46% 100.00%
Il 49% degli studenti di IES ha preso BUONO
Distribuzioni condizionate
Distribuzione condizionata di X dato Y=yj (X| Y=yj)
yj x1 n1j x2 n2j … … xi nij … … xh nhj n•j
Le frequenze condizionate relative di X|Y si ottengono dividendo ogni frequenza
condizionata per il totale di colonna
7
FREQUENZE CONDIZIONATE DI COLONNA RENDIMENTOCORSO LAUREA buono discreto ottimo sufficiente Totale complessivoIES 26.53% 23.84% 11.69% 40.00% 21.69%ORU 26.87% 34.44% 16.94% 32.50% 25.38%SAM 21.77% 22.52% 12.10% 22.50% 18.69%SPO 24.83% 19.21% 59.27% 5.00% 34.24%Totale complessivo 100.00% 100.00% 100.00% 100.00% 100.00%
IL 26% degli studenti che hanno preso buono sono di IES
ESEMPIO: CORSO DI LAUREA E RENDIMENTO
QUANDO SI GUARDA A UNA TABELLA A DOPPIA ENTRATA,OLTRE AI FENOMENI
UNIDIMENSIONALI MARGINALI INTERESSA SOPPRATTUTO SE E COME I DUE FENOMENI
INTERAGISCONO TRA DI LORO
ANALISI DELLE FREQUENZE CONGIUNTE E CONDIZIONATE
8
Indipendenzadata una tavola di contingenza, le variabili X e Y si diranno indipendenti se la modalità con cui si presenta X non dà informazioni sulla modalità con cui si presenta Y
Si parla di associazione o connessione tra due fenomeni qualitativi, ad indicare l’esistenza di qualche legame nella manifestazione congiunta degli stessi fenomeni
Connessione
IndipendenzaSe tutte le distribuzioni condizionate sono uguali (per riga e contestualmente per colonna) allora il presentarsi di una particolare modalità di un fenomeno, non è influenzato dal presentarsi dell’altro.
Se tutte le distribuzioni condizionate di X sono uguali, allora sono necessariamente uguali alla distribuzione marginale di X.
Se tutte le distribuzioni condizionate di Y sono uguali, allora sono necessariamente uguali alla distribuzione marginale di Y.
9
In formulei due caratteri X e Y si dicono indipendenti se
per ogni 1, ..., 1, ...,
;
cioè
ij ij ji
j i
i jij
i h j kn n nnn n n n
n nn
n
••
• •
• •
= =
= =
⋅=
ijn
Frequente teoriche (se ci fosse indipendenza)
Deve assumere valore 0 in assenza di connessione e valori via via crescenti all’aumentare della
dipendenza tra i due fenomeni
* i jij
n nn
n• •⋅
=
Misura di Connessione
Frequente reali (osservate)
10
Contingenze
( )2*2
*1 1
2 *0
h ki j i j
i j i j
i j i j
n nn
n n
χ
χ= =
−=
= ⇔ =
∑ ∑
Indice χ2
*ij ij ijc n n= −
Distanza tra frequenze osservate e frequenze teoriche
L’indice è uguale a zero se e solo se tutte le contingenze sono uguali a zero (essendo somma di addendi sempre positivi – quadrati), cioè se tutte le frequenze osservate coincidono esattamente con quelle teoriche, altrimenti assume valori positivi, tanto piùgrandi tanti più grandi sono le distanze.
2 2max
2max
0
min( 1, 1)n h kχ χ
χ
≤ ≤
= ⋅ − −
Indice χ2
( )2* 2
*1 1 1 12
2max
1
min( 1, 1)
h k h kij ij ij
i j i jij i j
n n nn n n
h k= = = = • •
−−
⋅= =
− −
∑∑ ∑∑%χ
χ
Se il valore dell’indice è positivo vuol dire che c’è una dipendenza, ma non siamo in grado di dire se è una dipendenza forte o debole.
NORMALIZAZIONE
20 1χ≤ ≤%
11
ESEMPIO: CORSO DI LAUREA E RENDIMENTO
FREQUENZE OSSERVATE RENDIMENTOCORSO LAUREA buono discreto ottimo sufficiente Totale complessivoIES 78 36 29 16 159ORU 79 52 42 13 186SAM 64 34 30 9 137SPO 73 29 147 2 251Totale complessivo 294 151 248 40 733
1° passo: calcolo delle frequenze teoriche * i jij
n nn
n• •⋅
=
FREQUENZE TEORICHE RENDIMENTOCORSO LAUREA buono discreto ottimo sufficiente Totale complessivoIES 63.77353342 32.75443383 53.79536153 8.676671214 159ORU 74.60300136 38.3165075 62.93042292 10.15006821 186SAM 54.94952251 28.22237381 46.35197817 7.476125512 137SPO 100.6739427 51.70668486 84.92223738 13.69713506 251Totale complessivo 294 151 248 40 733
ESEMPIO: CORSO DI LAUREA E RENDIMENTO
2° passo: calcolo contingenze *ij ij ijc n n= −
CONTINGENZE RENDIMENTOCORSO LAUREA buono discreto ottimo sufficienteIES 14.23 3.25 -24.80 7.32ORU 4.40 13.68 -20.93 2.85SAM 9.05 5.78 -16.35 1.52SPO -27.67 -22.71 62.08 -11.70
3° passo: contingenze al quadrato / frequenze teoriche2
*ij
ij
cn
cij2/nij* RENDIMENTO
CORSO LAUREA buono discreto ottimo sufficienteIES 3.17 0.32 11.43 6.18ORU 0.26 4.89 6.96 0.80SAM 1.49 1.18 5.77 0.31SPO 7.61 9.97 45.38 9.99
12
ESEMPIO: CORSO DI LAUREA E RENDIMENTO
4° passo: somma di tutti i valori dell’ultima tabella
5° passo: normalizzazione dell’indice
χ2=Σ c ij 2 /n ij * 115.71Indice assoluto di connessione: ottenuto come somma di tutti i valori della tabella precedente.
χ2 max 2199χ2 N 0.053
Il valore dell'indice normalizzato è prossimo a 0. Non c'è una forte connessione tra il corso di laurea e il rendimento
max=n *min[(h -1),(k -1)], nel nostro caso n =733, h =4, k=4. Il max è quindi dato da 733*3
Test d’ipotesi per verificare l’indipendenza
Si rifiuta H0 seSi rifiuta H0 se ( ) ( )21 d o v e 1 1g g h kαχ χ −> = − ⋅ −
( )2*2
*1 1
h kij ij
i j ij
n nn
χ= =
−=∑∑
0
1
H : X e Y sono indipendentiH : X e Y sono associate
20
21
H :χ =0H :χ >0
X e Y sono fenomeni statistici rilevati congiuntamente
h : numero di modalità di X
k : numero di modalità di X