Statistica: principi e metodi - Luiss Guido...
Transcript of Statistica: principi e metodi - Luiss Guido...
Capitolo 9 Analisi delle distribuzioni
doppie: dipendenza
Statistica: principi e metodi
Cap. 9-1
Colesterolo Disturbi cardiaci
Totale Si No
<219 20 553 573 220-259 31 439 470
>259 41 245 286 Totale 92 1237 1329
Tabella di contingenza
Cap. 9-2
Tabella di contingenza: sinonimo di distribuzione doppia di frequenze, ossia di distribuzione di frequenze secondo due caratteri.
Il numero che appare in una data casella è la frequenza delle unità che presentano le modalità che corrispondono a tale casella. Associando alle modalità del carattere “Colesterolo” e “Disturbi cardiaci” le frequenze ottenute come totale di riga e di colonna si ottengono le distribuzioni marginali.
¥ Distribuzione della presenza di disturbo cardiaco condizionata a un valore di colesterolo nell’intervallo 220-259
Distribuzioni condizionate
Cap. 9-3
Colesterolo Disturbi cardiaci
Totale Si No
<219 20 553 573 220-259 31 439 470
>259 41 245 286 Totale 92 1237 1329
Associando alle modalità del carattere “Colesterolo” e “Disturbi cardiaci” le frequenze di una riga interna o colonna interna della tabella, otteniamo le distribuzioni condizionate.
Distribuzioni condizionate percentuali di riga
Cap. 9-4
Colesterolo Disturbi cardiaci
Totale Si No
<219 (20/573)*100 (553/573)*100 100 220-259 (31/470)*100 (439/470)*100 100
>259 (41/286)*100 (245/286)*100 100 Totale (92/1329)*100 (1237/1329)*100 100
Colesterolo Disturbi cardiaci
Totale Si No
<219 3,5 96,5 100 220-259 6,6 93,4 100
>259 14,3 85,7 100 Totale 6,9 93,1 100
Distribuzioni condizionate percentuali di colonna
Cap. 9-5
Colesterolo Disturbi cardiaci
Si No
<219 (20/92)*100 (553/1237)*100 220-259 (31/92)*100 (439/1237)*100
>259 (41/92)*100 (245/1237)*100 Totale 100 100
Colesterolo Disturbi cardiaci
Si No
<219 21,7 44,7 220-259 33,7 35,5
>259 44,6 19,8 Totale 100,0 100,0
Distribuzione di indipendenza
Cap. 9-6
Colesterolo Disturbi cardiaci
Totale Si No
<219 20 553 573 220-259 40=20*2 1106=553*2 1146=573*2
>259 60=20*3 1659=553*3 1719=573*3 Totale 120 3318 3438
Colesterolo Disturbi cardiaci
Totale Si No
<219 3,5 96,5 100 220-259 3,5 96,5 100
>259 3,5 96,5 100 Totale 3,5 96,5 100
Il modo di ripartirsi tra Si e No dei 573 individui con colesterolo <219 è uguale al modo di ripartirsi tra Si e No dei 1146 con colesterolo 220-259 e al modo di ripartirsi tra Si e No dei 1719 individui con colesterolo >259 (e uguale al modo di ripartirsi marginale)
Distribuzione di indipendenza
Cap. 9-7
Colesterolo Disturbi cardiaci
Totale Si No
<219 20 553 573 220-259 40=20*2 1106=553*2 1146=573*2
>259 60=20*3 1659=553*3 1719=573*3 Totale 120 3318 3438
L’uguaglianza delle distribuzioni condizionate percentuali di riga implica: 20/573=40/1146=60/1719=120/3438 553/573=1106/1146=1659/1719=3318/3438
Dall’uguaglianza:
20/573=120/3438 risulta:
20=(573*120)/3438
Tabella di contingenza: confronto delle distribuzioni condizionate
Cap. 9-8
Le distribuzioni condizionate di riga (di colonna) sono in numero pari a quello delle modalità (classi) del carattere sulle righe (colonne) della tabella. Per accertare se il livello di colesterolo influisce, determina, in qualche misura, la presenza di disturbi cardiaci si confrontano le frequenze relative o percentuali delle distribuzioni condizionate di riga (colonna) per eliminare l’effetto della diversa numerosità delle frequenze marginali di riga (colonna). Una distribuzione marginale o condizionata in cui si considerano le frequenze relative o percentuali è qualificata come normalizzata.
Dipendenza statistica
Cap. 9-9
Alla luce delle considerazioni precedenti, possiamo dare una definizione del concetto di dipendenza statistica con riferimento a una tabella di contingenza. Il carattere Y dipende dal carattere X se le distribuzioni condizionate normalizzate sono diverse tra loro. All’opposto: Si dice che il carattere Y non dipende dal carattere X quando le distribuzioni condizionate normalizzate sono uguali tra loro. In tale situazione ogni frequenza si può ottenere come prodotto (totale_riga*totale_colonna)/totale_generale
Carattere X Carattere Y
Totale y1 y2 … yj … yt
x1 n11 n12 … n1j … n1t n10 x2 n21 n22 … n2j … n2t n20 … … … … … … … … xi ni 1 ni 2 … nij … nit ni 0 … … … … … … … … xs ns1 ns 2 … nsj … nst ns 0
Totale n01 n02 … n0j … n0t N
Tabella di contingenza in simboli
Cap. 9-10
q nij è la frequenza della coppia di modalità (xi, yj) q ni 0 e n0j sono i totali di riga e di colonna q questi simboli indicano modalità di caratteri qualitativi, oppure
valori o classi di caratteri quantitativi
Carattere X Carattere Y
Totale y1 y2 … yj … yt
x1 n11 n12 … n1j … n1t n10 x2 n21 n22 … n2j … n2t n20 … … … … … … … … xi ni 1 ni 2 … nij … nit ni 0 … … … … … … … … xs ns1 ns 2 … nsj … nst ns 0
Totale n01 n02 … n0j … n0t N
Distribuzione marginale e distribuzioni condizionate in simboli
Cap. 9-11
Le due righe segnalate in giallo configurano la distribuzione marginale del carattere Y. Le due righe segnalate in rosso configurano la generica distribuzione condizionata.
Misura della dipendenza
Cap. 9-12
Esse sono state ottenute nel modo seguente: in ogni casella si è posto il numero risultante dal prodotto tra il totale di riga e il totale di colonna diviso per il totale generale.
Nella tabella che segue sono indicate in rosso le frequenze che si avrebbero se vi fosse indipendenza. 573*92
1329
Colesterolo Disturbi cardiaci
Totale Si No
<219 39,7 533,3 573 220-259 32,5 437,5 470
>259 19,8 266,2 286 Totale 92 1237 1329
573*12371329
Misura della dipendenza
Cap. 9-13
La tabella che presenta in ogni casella la frequenza teorica di indipendenza è chiamata tabella di indipendenza. Per misurare la dipendenza del grado di istruzione dall’età si mette a confronto la tabella effettiva con quella di indipendenza tramite una media delle distanze tra frequenze effettive e “frequenze teoriche”. Per ogni casella si prende il rapporto
teorica frequenzateorica) frequenza - effettiva (frequenza 2
Misura della dipendenza: calcolo
Cap. 9-14
ψ =1
1329(20−39, 7)2
39, 7+(553− 533,3)2
533,3+(31−32,5)2
32, 5+(439− 437,5)2
437, 5+(41−19,8)2
19,8+(245− 266,2)2
266, 2"
#$
%
&'
=1
1329*34,55 = 1
1329* χ 2 = 0,16
Colesterolo Disturbi cardiaci
Totale Si No
<219 20 - 39,7 553 - 533,3 573 220-259 31 - 32,5 439 - 437,5 470
>259 41 - 19,8 245 - 266,2 286 Totale 92 1237 1329
Misura della dipendenza: formula generale
Cap. 9-15
Carattere X
Carattere Y Totale y1 y2 … yj … yt
x1 n11 n12 … n1j … n1t n10 x2 n21 n22 … n2j … n2t n20 … … … … … … … … xi ni 1 ni 2 … nij … nit ni 0 … … … … … … … … xs ns1 ns 2 … nsj … nst ns 0
Totale n01 n02 … n0j … n0t N
Carattere X
Carattere Y Totale y1 y2 … yj … yt
x1 … … … … … … n10 x2 … … … … … … n20 … … … … … … … … xi … … ni 0 … … … … … … … … xs … … … … … … ns 0
Totale n01 n02 … n0j … n0t N
Nnni 010 ·
Nnni 020 ·
Nnn ji 00 ·
Nnn ti 00 ·
Indice di dipendenza formula generale
∑∑= =
−=
s
i
t
j ji
jiij
NnnNnnn
Nψ
1 1 00
200
//1 )(
Indice chi-quadrato
Cap. 9-16
∑∑= =
−=
s
i
t
j ji
jiij
NnnNnnn
χ1 1 00
2002
// )(
Relazione tra e
2χψ
22 ·ψNχ =
Come misura della dipendenza di Y da X si può usare anche formula, denominata indice chi-quadrato Entrambi gli indici sono nulli quando Y non dipende da X: cioè quando
Nnn
n jiij
00=
Dal confronto tra frequenze osservate e frequenze di indipendenza o dal confronto tra le distribuzioni condizionate percentuali e la distribuzione condizionata percentuale marginale si possono individuare le coppie di modalità che si attraggono/respingono.
L’indice ψ, come l’indice χ2, va rapportato al massimo che esso può assumere per poter esprimere un giudizio sul grado di dipendenza.
Massima dipendenza
Cap. 9-17
Dipendenza perfetta: un esempio
Cap. 9-18
Un esempio di tabella di dipendenza perfetta: Essa è caratterizzata dal fatto che in ogni riga vi è una sola frequenza diversa da 0. È facile verificare che in essa ψ = t −1 = s−1 = 3
Carattere X Carattere Y
Totale y1 y2 y3 y4
x1 45 0 0 0 45 x2 0 20 0 0 20 x3 0 0 0 92 92 x4 0 0 37 0 37 Totale 45 20 37 92 194
Dipendenza perfetta: un esempio
Cap. 9-19
Carattere X Carattere Y
Totale y1 y2 y3
x1 45 0 0 45 x2 0 20 0 20 x3 0 92 0 92 x4 0 0 37 37 Totale 45 112 37 194
Un esempio di tabella di massima dipendenza di Y da X: Essa è caratterizzata dal fatto che in ogni riga vi è una sola frequenza diversa da 0. È facile verificare che in essa
ψ = t −1 = 2(45-10,4)2/10,4+(0-25,9)2/25,9+(0-8,6)2/8.6+(45-4,6)2/4.6+(20-11,5)2/11,5+(0-3,8)2/3,8+(0-21,3)2/21,3+(92-53)2/53+(0-17,5)2/17,5+(0-8,6)2/8,6+(0-21,4)2/21,4+(37-7,0)2/7,0=740,611
ψ = 740,6511/194 = 2
Dipendenza perfetta: un esempio
Cap. 9-20
Carattere X Carattere Y
Totale y1 y2 y3 y4
x1 45 0 0 0 45 x2 0 20 0 0 20 x3 0 0 37 92 129 Totale 45 20 37 92 194
Un esempio di tabella di massima dipendenza di X da Y: Essa è caratterizzata dal fatto che in ogni colonna vi è una sola frequenza diversa da 0. È facile verificare che in essa ψ = s−1 = 2
Misura normalizzata di dipendenza
Cap. 9-21
Un indice normalizzato di connessione simmetrico (per il quale, cioè, non è necessario stabilire quale delle due variabili è l’antecedente logico) è l’indice di Cramér
dove min[(s – 1), (t – 1)] indica il minimo tra le due quantità tra parentesi quadra. L’indice raggiunge il massimo 1 se vi è dipendenza perfetta di Y da X o di X da Y; in questo senso esso può essere considerato come un indice “bilaterale” di dipendenza.
)](),min[( 11 −−=
tsψC
Misura normalizzata della dipendenza: calcolo
Cap. 9-22
Colesterolo Disturbi cardiaci
Totale Si No
<219 20 - 39,7 553 - 533,3 573 220-259 31 - 32,5 439 - 437,5 470
>259 41 - 19,8 245 - 266,2 286 Totale 92 1237 1329
C = 0,16min[(3−1), (2−1)]
=0,161= 0,16