Tavole di contingenza Connessione - Lezione11

12
Tavole di Contingenza Connessione

description

Corso di StatisticaLezione: 11 di 15Argomento: Tavole di contingenza Connessione

Transcript of Tavole di contingenza Connessione - Lezione11

Page 1: Tavole di contingenza Connessione - Lezione11

1

Tavole di Contingenza Connessione

Una tavola di contingenza per due generici fenomeni X e Y è una rappresentazione simbolica

di una tabella a doppia entrata

y1 y2 … yj … yk x1 n11 n12 … n1j … n1k n1• x2 n21 n22 … n2j … n2k n2• … … … … … … … … xi ni1 ni2 … nij … nik ni• … … … … … … … … xh nh1 nh2 … nhj … nhk nh• n•1 n•2 … n•j … n•k n

Page 2: Tavole di contingenza Connessione - Lezione11

2

fenomeno bidimensionale (X,Y)

x1,……., xh modalità di Xy1,……., yk modalità di Y

Si vuole di fatto contare quante volte una particolare coppia di valori (xi,yj) si presenta sugli individui, tale numero è la frequenza congiunta e viene indicata con il simbolo nij

1 1 ;

k h

i ij j ijj i

ij i jj i i j

n n n n

n n n n

• •= =

• •

= =

= = =

∑ ∑

∑∑ ∑ ∑

nij ‘frequenze congiunte’n•j , ni• ‘frequenze marginali’

y1 y2 … yj … yk x1 n11 n12 … n1j … n1k n1• x2 n21 n22 … n2j … n2k n2• … … … … … … … … xi ni1 ni2 … nij … nik ni• … … … … … … … … xh nh1 nh2 … nhj … nhk nh• n•1 n•2 … n•j … n•k n

Distribuzione marginale di X (xi, ni•)

1

k

i ijj

n n•=

=∑

Somma per riga

Page 3: Tavole di contingenza Connessione - Lezione11

3

y1 y2 … yj … yk x1 n11 n12 … n1j … n1k n1• x2 n21 n22 … n2j … n2k n2• … … … … … … … … xi ni1 ni2 … nij … nik ni• … … … … … … … … xh nh1 nh2 … nhj … nhk nh• n•1 n•2 … n•j … n•k n

Distribuzione marginale di Y (yj, n•j)

1

h

j iji

n n•=

=∑Somma per colonna

y1 y2 … yj … yk x1 n11 n12 … n1j … n1k n1• x2 n21 n22 … n2j … n2k n2• … … … … … … … … xi ni1 ni2 … nij … nik ni• … … … … … … … … xh nh1 nh2 … nhj … nhk nh• n•1 n•2 … n•j … n•k n

Distribuzione congiunta di (X,Y)

(xi, yj) con frequenza nij

Page 4: Tavole di contingenza Connessione - Lezione11

4

ESEMPIO: CORSO DI LAUREA E RENDIMENTO

FREQUENZE ASSOLUTE RENDIMENTOCORSO LAUREA buono discreto ottimo sufficiente Totale complessivoIES 78 36 29 16 159ORU 79 52 42 13 186SAM 64 34 30 9 137SPO 73 29 147 2 251Totale complessivo 294 151 248 40 733

y1 y2 … yj … yk x1 f11 f12 … f1j … f1k f1• x2 f21 f22 … f2j … f2k f2• … … … … … … … … xi fi1 fi2 … fij … fik fi• … … … … … … … … xh fh1 fh2 … fhj … fhk fh• f•1 f•2 … f•j … f•k 1

Frequenze relative

= frequenze congiunte relative

= frequenze relative marginali di

= frequenze relative marginali di

ijij

jj

ii

nf

nn

f Yn

nf Xn

Page 5: Tavole di contingenza Connessione - Lezione11

5

ESEMPIO: CORSO DI LAUREA E RENDIMENTO

FREQUENZE RELATIVE RENDIMENTOCORSO LAUREA buono discreto ottimo sufficiente Totale complessivoIES 10.64% 4.91% 3.96% 2.18% 21.69%ORU 10.78% 7.09% 5.73% 1.77% 25.38%SAM 8.73% 4.64% 4.09% 1.23% 18.69%SPO 9.96% 3.96% 20.05% 0.27% 34.24%Totale complessivo 40.11% 20.60% 33.83% 5.46% 100.00%

Distribuzioni condizionate

Distribuzione condizionata di Y dato X=xi (Y|X=xi)

y1 y2 … y j … yk x i n i1 n i2 … n ij … n ik ni•

Le frequenze condizionate relative di Y|X si ottengono dividendo ogni frequenza

condizionata per il totale di riga

Page 6: Tavole di contingenza Connessione - Lezione11

6

ESEMPIO: CORSO DI LAUREA E RENDIMENTO

FREQUENZE CONDIZIONATE DI RIGA RENDIMENTOCORSO LAUREA buono discreto ottimo sufficiente Totale complessivoIES 49.06% 22.64% 18.24% 10.06% 100.00%ORU 42.47% 27.96% 22.58% 6.99% 100.00%SAM 46.72% 24.82% 21.90% 6.57% 100.00%SPO 29.08% 11.55% 58.57% 0.80% 100.00%Totale complessivo 40.11% 20.60% 33.83% 5.46% 100.00%

Il 49% degli studenti di IES ha preso BUONO

Distribuzioni condizionate

Distribuzione condizionata di X dato Y=yj (X| Y=yj)

yj x1 n1j x2 n2j … … xi nij … … xh nhj n•j

Le frequenze condizionate relative di X|Y si ottengono dividendo ogni frequenza

condizionata per il totale di colonna

Page 7: Tavole di contingenza Connessione - Lezione11

7

FREQUENZE CONDIZIONATE DI COLONNA RENDIMENTOCORSO LAUREA buono discreto ottimo sufficiente Totale complessivoIES 26.53% 23.84% 11.69% 40.00% 21.69%ORU 26.87% 34.44% 16.94% 32.50% 25.38%SAM 21.77% 22.52% 12.10% 22.50% 18.69%SPO 24.83% 19.21% 59.27% 5.00% 34.24%Totale complessivo 100.00% 100.00% 100.00% 100.00% 100.00%

IL 26% degli studenti che hanno preso buono sono di IES

ESEMPIO: CORSO DI LAUREA E RENDIMENTO

QUANDO SI GUARDA A UNA TABELLA A DOPPIA ENTRATA,OLTRE AI FENOMENI

UNIDIMENSIONALI MARGINALI INTERESSA SOPPRATTUTO SE E COME I DUE FENOMENI

INTERAGISCONO TRA DI LORO

ANALISI DELLE FREQUENZE CONGIUNTE E CONDIZIONATE

Page 8: Tavole di contingenza Connessione - Lezione11

8

Indipendenzadata una tavola di contingenza, le variabili X e Y si diranno indipendenti se la modalità con cui si presenta X non dà informazioni sulla modalità con cui si presenta Y

Si parla di associazione o connessione tra due fenomeni qualitativi, ad indicare l’esistenza di qualche legame nella manifestazione congiunta degli stessi fenomeni

Connessione

IndipendenzaSe tutte le distribuzioni condizionate sono uguali (per riga e contestualmente per colonna) allora il presentarsi di una particolare modalità di un fenomeno, non è influenzato dal presentarsi dell’altro.

Se tutte le distribuzioni condizionate di X sono uguali, allora sono necessariamente uguali alla distribuzione marginale di X.

Se tutte le distribuzioni condizionate di Y sono uguali, allora sono necessariamente uguali alla distribuzione marginale di Y.

Page 9: Tavole di contingenza Connessione - Lezione11

9

In formulei due caratteri X e Y si dicono indipendenti se

per ogni 1, ..., 1, ...,

;

cioè

ij ij ji

j i

i jij

i h j kn n nnn n n n

n nn

n

••

• •

• •

= =

= =

⋅=

ijn

Frequente teoriche (se ci fosse indipendenza)

Deve assumere valore 0 in assenza di connessione e valori via via crescenti all’aumentare della

dipendenza tra i due fenomeni

* i jij

n nn

n• •⋅

=

Misura di Connessione

Frequente reali (osservate)

Page 10: Tavole di contingenza Connessione - Lezione11

10

Contingenze

( )2*2

*1 1

2 *0

h ki j i j

i j i j

i j i j

n nn

n n

χ

χ= =

−=

= ⇔ =

∑ ∑

Indice χ2

*ij ij ijc n n= −

Distanza tra frequenze osservate e frequenze teoriche

L’indice è uguale a zero se e solo se tutte le contingenze sono uguali a zero (essendo somma di addendi sempre positivi – quadrati), cioè se tutte le frequenze osservate coincidono esattamente con quelle teoriche, altrimenti assume valori positivi, tanto piùgrandi tanti più grandi sono le distanze.

2 2max

2max

0

min( 1, 1)n h kχ χ

χ

≤ ≤

= ⋅ − −

Indice χ2

( )2* 2

*1 1 1 12

2max

1

min( 1, 1)

h k h kij ij ij

i j i jij i j

n n nn n n

h k= = = = • •

−−

⋅= =

− −

∑∑ ∑∑%χ

χ

Se il valore dell’indice è positivo vuol dire che c’è una dipendenza, ma non siamo in grado di dire se è una dipendenza forte o debole.

NORMALIZAZIONE

20 1χ≤ ≤%

Page 11: Tavole di contingenza Connessione - Lezione11

11

ESEMPIO: CORSO DI LAUREA E RENDIMENTO

FREQUENZE OSSERVATE RENDIMENTOCORSO LAUREA buono discreto ottimo sufficiente Totale complessivoIES 78 36 29 16 159ORU 79 52 42 13 186SAM 64 34 30 9 137SPO 73 29 147 2 251Totale complessivo 294 151 248 40 733

1° passo: calcolo delle frequenze teoriche * i jij

n nn

n• •⋅

=

FREQUENZE TEORICHE RENDIMENTOCORSO LAUREA buono discreto ottimo sufficiente Totale complessivoIES 63.77353342 32.75443383 53.79536153 8.676671214 159ORU 74.60300136 38.3165075 62.93042292 10.15006821 186SAM 54.94952251 28.22237381 46.35197817 7.476125512 137SPO 100.6739427 51.70668486 84.92223738 13.69713506 251Totale complessivo 294 151 248 40 733

ESEMPIO: CORSO DI LAUREA E RENDIMENTO

2° passo: calcolo contingenze *ij ij ijc n n= −

CONTINGENZE RENDIMENTOCORSO LAUREA buono discreto ottimo sufficienteIES 14.23 3.25 -24.80 7.32ORU 4.40 13.68 -20.93 2.85SAM 9.05 5.78 -16.35 1.52SPO -27.67 -22.71 62.08 -11.70

3° passo: contingenze al quadrato / frequenze teoriche2

*ij

ij

cn

cij2/nij* RENDIMENTO

CORSO LAUREA buono discreto ottimo sufficienteIES 3.17 0.32 11.43 6.18ORU 0.26 4.89 6.96 0.80SAM 1.49 1.18 5.77 0.31SPO 7.61 9.97 45.38 9.99

Page 12: Tavole di contingenza Connessione - Lezione11

12

ESEMPIO: CORSO DI LAUREA E RENDIMENTO

4° passo: somma di tutti i valori dell’ultima tabella

5° passo: normalizzazione dell’indice

χ2=Σ c ij 2 /n ij * 115.71Indice assoluto di connessione: ottenuto come somma di tutti i valori della tabella precedente.

χ2 max 2199χ2 N 0.053

Il valore dell'indice normalizzato è prossimo a 0. Non c'è una forte connessione tra il corso di laurea e il rendimento

max=n *min[(h -1),(k -1)], nel nostro caso n =733, h =4, k=4. Il max è quindi dato da 733*3

Test d’ipotesi per verificare l’indipendenza

Si rifiuta H0 seSi rifiuta H0 se ( ) ( )21 d o v e 1 1g g h kαχ χ −> = − ⋅ −

( )2*2

*1 1

h kij ij

i j ij

n nn

χ= =

−=∑∑

0

1

H : X e Y sono indipendentiH : X e Y sono associate

20

21

H :χ =0H :χ >0

X e Y sono fenomeni statistici rilevati congiuntamente

h : numero di modalità di X

k : numero di modalità di X