Statistica: principi e metodi - Luiss Guido...

22
Capitolo 9 Analisi delle distribuzioni doppie: dipendenza Statistica: principi e metodi Cap. 9-1

Transcript of Statistica: principi e metodi - Luiss Guido...

Page 1: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Capitolo 9 Analisi delle distribuzioni

doppie: dipendenza

Statistica: principi e metodi

Cap. 9-1

Page 2: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Colesterolo Disturbi cardiaci

Totale Si No

<219 20 553 573 220-259 31 439 470

>259 41 245 286 Totale 92 1237 1329

Tabella di contingenza

Cap. 9-2

Tabella di contingenza: sinonimo di distribuzione doppia di frequenze, ossia di distribuzione di frequenze secondo due caratteri.

Il numero che appare in una data casella è la frequenza delle unità che presentano le modalità che corrispondono a tale casella. Associando alle modalità del carattere “Colesterolo” e “Disturbi cardiaci” le frequenze ottenute come totale di riga e di colonna si ottengono le distribuzioni marginali.

Page 3: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

¥  Distribuzione della presenza di disturbo cardiaco condizionata a un valore di colesterolo nell’intervallo 220-259

Distribuzioni condizionate

Cap. 9-3

Colesterolo Disturbi cardiaci

Totale Si No

<219 20 553 573 220-259 31 439 470

>259 41 245 286 Totale 92 1237 1329

Associando alle modalità del carattere “Colesterolo” e “Disturbi cardiaci” le frequenze di una riga interna o colonna interna della tabella, otteniamo le distribuzioni condizionate.

Page 4: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Distribuzioni condizionate percentuali di riga

Cap. 9-4

Colesterolo Disturbi cardiaci

Totale Si No

<219 (20/573)*100 (553/573)*100 100 220-259 (31/470)*100 (439/470)*100 100

>259 (41/286)*100 (245/286)*100 100 Totale (92/1329)*100 (1237/1329)*100 100

Colesterolo Disturbi cardiaci

Totale Si No

<219 3,5 96,5 100 220-259 6,6 93,4 100

>259 14,3 85,7 100 Totale 6,9 93,1 100

Page 5: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Distribuzioni condizionate percentuali di colonna

Cap. 9-5

Colesterolo Disturbi cardiaci

Si No

<219 (20/92)*100 (553/1237)*100 220-259 (31/92)*100 (439/1237)*100

>259 (41/92)*100 (245/1237)*100 Totale 100 100

Colesterolo Disturbi cardiaci

Si No

<219 21,7 44,7 220-259 33,7 35,5

>259 44,6 19,8 Totale 100,0 100,0

Page 6: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Distribuzione di indipendenza

Cap. 9-6

Colesterolo Disturbi cardiaci

Totale Si No

<219 20 553 573 220-259 40=20*2 1106=553*2 1146=573*2

>259 60=20*3 1659=553*3 1719=573*3 Totale 120 3318 3438

Colesterolo Disturbi cardiaci

Totale Si No

<219 3,5 96,5 100 220-259 3,5 96,5 100

>259 3,5 96,5 100 Totale 3,5 96,5 100

Il modo di ripartirsi tra Si e No dei 573 individui con colesterolo <219 è uguale al modo di ripartirsi tra Si e No dei 1146 con colesterolo 220-259 e al modo di ripartirsi tra Si e No dei 1719 individui con colesterolo >259 (e uguale al modo di ripartirsi marginale)

Page 7: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Distribuzione di indipendenza

Cap. 9-7

Colesterolo Disturbi cardiaci

Totale Si No

<219 20 553 573 220-259 40=20*2 1106=553*2 1146=573*2

>259 60=20*3 1659=553*3 1719=573*3 Totale 120 3318 3438

L’uguaglianza delle distribuzioni condizionate percentuali di riga implica: 20/573=40/1146=60/1719=120/3438 553/573=1106/1146=1659/1719=3318/3438

Dall’uguaglianza:

20/573=120/3438 risulta:

20=(573*120)/3438

Page 8: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Tabella di contingenza: confronto delle distribuzioni condizionate

Cap. 9-8

Le distribuzioni condizionate di riga (di colonna) sono in numero pari a quello delle modalità (classi) del carattere sulle righe (colonne) della tabella. Per accertare se il livello di colesterolo influisce, determina, in qualche misura, la presenza di disturbi cardiaci si confrontano le frequenze relative o percentuali delle distribuzioni condizionate di riga (colonna) per eliminare l’effetto della diversa numerosità delle frequenze marginali di riga (colonna). Una distribuzione marginale o condizionata in cui si considerano le frequenze relative o percentuali è qualificata come normalizzata.

Page 9: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Dipendenza statistica

Cap. 9-9

Alla luce delle considerazioni precedenti, possiamo dare una definizione del concetto di dipendenza statistica con riferimento a una tabella di contingenza. Il carattere Y dipende dal carattere X se le distribuzioni condizionate normalizzate sono diverse tra loro. All’opposto: Si dice che il carattere Y non dipende dal carattere X quando le distribuzioni condizionate normalizzate sono uguali tra loro. In tale situazione ogni frequenza si può ottenere come prodotto (totale_riga*totale_colonna)/totale_generale

Page 10: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Carattere X Carattere Y

Totale y1 y2 … yj … yt

x1 n11 n12 … n1j … n1t n10 x2 n21 n22 … n2j … n2t n20 … … … … … … … … xi ni 1 ni 2 … nij … nit ni 0 … … … … … … … … xs ns1 ns 2 … nsj … nst ns 0

Totale n01 n02 … n0j … n0t N

Tabella di contingenza in simboli

Cap. 9-10

q  nij è la frequenza della coppia di modalità (xi, yj) q  ni 0 e n0j sono i totali di riga e di colonna q  questi simboli indicano modalità di caratteri qualitativi, oppure

valori o classi di caratteri quantitativi

Page 11: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Carattere X Carattere Y

Totale y1 y2 … yj … yt

x1 n11 n12 … n1j … n1t n10 x2 n21 n22 … n2j … n2t n20 … … … … … … … … xi ni 1 ni 2 … nij … nit ni 0 … … … … … … … … xs ns1 ns 2 … nsj … nst ns 0

Totale n01 n02 … n0j … n0t N

Distribuzione marginale e distribuzioni condizionate in simboli

Cap. 9-11

Le due righe segnalate in giallo configurano la distribuzione marginale del carattere Y. Le due righe segnalate in rosso configurano la generica distribuzione condizionata.

Page 12: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Misura della dipendenza

Cap. 9-12

Esse sono state ottenute nel modo seguente: in ogni casella si è posto il numero risultante dal prodotto tra il totale di riga e il totale di colonna diviso per il totale generale.

Nella tabella che segue sono indicate in rosso le frequenze che si avrebbero se vi fosse indipendenza. 573*92

1329

Colesterolo Disturbi cardiaci

Totale Si No

<219 39,7 533,3 573 220-259 32,5 437,5 470

>259 19,8 266,2 286 Totale 92 1237 1329

573*12371329

Page 13: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Misura della dipendenza

Cap. 9-13

La tabella che presenta in ogni casella la frequenza teorica di indipendenza è chiamata tabella di indipendenza. Per misurare la dipendenza del grado di istruzione dall’età si mette a confronto la tabella effettiva con quella di indipendenza tramite una media delle distanze tra frequenze effettive e “frequenze teoriche”. Per ogni casella si prende il rapporto

teorica frequenzateorica) frequenza - effettiva (frequenza 2

Page 14: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Misura della dipendenza: calcolo

Cap. 9-14

ψ =1

1329(20−39, 7)2

39, 7+(553− 533,3)2

533,3+(31−32,5)2

32, 5+(439− 437,5)2

437, 5+(41−19,8)2

19,8+(245− 266,2)2

266, 2"

#$

%

&'

=1

1329*34,55 = 1

1329* χ 2 = 0,16

Colesterolo Disturbi cardiaci

Totale Si No

<219 20 - 39,7 553 - 533,3 573 220-259 31 - 32,5 439 - 437,5 470

>259 41 - 19,8 245 - 266,2 286 Totale 92 1237 1329

Page 15: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Misura della dipendenza: formula generale

Cap. 9-15

Carattere X

Carattere Y Totale y1 y2 … yj … yt

x1 n11 n12 … n1j … n1t n10 x2 n21 n22 … n2j … n2t n20 … … … … … … … … xi ni 1 ni 2 … nij … nit ni 0 … … … … … … … … xs ns1 ns 2 … nsj … nst ns 0

Totale n01 n02 … n0j … n0t N

Carattere X

Carattere Y Totale y1 y2 … yj … yt

x1 … … … … … … n10 x2 … … … … … … n20 … … … … … … … … xi … … ni 0 … … … … … … … … xs … … … … … … ns 0

Totale n01 n02 … n0j … n0t N

Nnni 010 ·

Nnni 020 ·

Nnn ji 00 ·

Nnn ti 00 ·

Indice di dipendenza formula generale

∑∑= =

−=

s

i

t

j ji

jiij

NnnNnnn

1 1 00

200

//1 )(

Page 16: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Indice chi-quadrato

Cap. 9-16

∑∑= =

−=

s

i

t

j ji

jiij

NnnNnnn

χ1 1 00

2002

// )(

Relazione tra e

2χψ

22 ·ψNχ =

Come misura della dipendenza di Y da X si può usare anche formula, denominata indice chi-quadrato Entrambi gli indici sono nulli quando Y non dipende da X: cioè quando

Nnn

n jiij

00=

Page 17: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Dal confronto tra frequenze osservate e frequenze di indipendenza o dal confronto tra le distribuzioni condizionate percentuali e la distribuzione condizionata percentuale marginale si possono individuare le coppie di modalità che si attraggono/respingono.

L’indice ψ, come l’indice χ2, va rapportato al massimo che esso può assumere per poter esprimere un giudizio sul grado di dipendenza.

Massima dipendenza

Cap. 9-17

Page 18: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Dipendenza perfetta: un esempio

Cap. 9-18

Un esempio di tabella di dipendenza perfetta: Essa è caratterizzata dal fatto che in ogni riga vi è una sola frequenza diversa da 0. È facile verificare che in essa ψ = t −1 = s−1 = 3

Carattere X Carattere Y

Totale y1 y2 y3 y4

x1 45 0 0 0 45 x2 0 20 0 0 20 x3 0 0 0 92 92 x4 0 0 37 0 37 Totale 45 20 37 92 194

Page 19: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Dipendenza perfetta: un esempio

Cap. 9-19

Carattere X Carattere Y

Totale y1 y2 y3

x1 45 0 0 45 x2 0 20 0 20 x3 0 92 0 92 x4 0 0 37 37 Totale 45 112 37 194

Un esempio di tabella di massima dipendenza di Y da X: Essa è caratterizzata dal fatto che in ogni riga vi è una sola frequenza diversa da 0. È facile verificare che in essa

ψ = t −1 = 2(45-10,4)2/10,4+(0-25,9)2/25,9+(0-8,6)2/8.6+(45-4,6)2/4.6+(20-11,5)2/11,5+(0-3,8)2/3,8+(0-21,3)2/21,3+(92-53)2/53+(0-17,5)2/17,5+(0-8,6)2/8,6+(0-21,4)2/21,4+(37-7,0)2/7,0=740,611

ψ = 740,6511/194 = 2

Page 20: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Dipendenza perfetta: un esempio

Cap. 9-20

Carattere X Carattere Y

Totale y1 y2 y3 y4

x1 45 0 0 0 45 x2 0 20 0 0 20 x3 0 0 37 92 129 Totale 45 20 37 92 194

Un esempio di tabella di massima dipendenza di X da Y: Essa è caratterizzata dal fatto che in ogni colonna vi è una sola frequenza diversa da 0. È facile verificare che in essa ψ = s−1 = 2

Page 21: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Misura normalizzata di dipendenza

Cap. 9-21

Un indice normalizzato di connessione simmetrico (per il quale, cioè, non è necessario stabilire quale delle due variabili è l’antecedente logico) è l’indice di Cramér

dove min[(s – 1), (t – 1)] indica il minimo tra le due quantità tra parentesi quadra. L’indice raggiunge il massimo 1 se vi è dipendenza perfetta di Y da X o di X da Y; in questo senso esso può essere considerato come un indice “bilaterale” di dipendenza.

)](),min[( 11 −−=

tsψC

Page 22: Statistica: principi e metodi - Luiss Guido Carlidocenti.luiss.it/.../10/20151014182340-statistica-cap9.pdf · 2015. 10. 14. · Statistica: principi e metodi Cap. 9-1 . Colesterolo

Misura normalizzata della dipendenza: calcolo

Cap. 9-22

Colesterolo Disturbi cardiaci

Totale Si No

<219 20 - 39,7 553 - 533,3 573 220-259 31 - 32,5 439 - 437,5 470

>259 41 - 19,8 245 - 266,2 286 Totale 92 1237 1329

C = 0,16min[(3−1), (2−1)]

=0,161= 0,16