area tecnica 2009 9 Analisi tabelle contingenza - Benvenuto · Corsi di laurea triennale di area...
Transcript of area tecnica 2009 9 Analisi tabelle contingenza - Benvenuto · Corsi di laurea triennale di area...
1
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 1
Università del Piemonte Orientale
Corsi di laurea triennale di area tecnica
Corso di Statistica Medica
Analisi dei dati in tabelle di contingenza
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 2
I metodi di analisi che vedremo sono utilizzati per il confronto di proporzioni in due o più gruppi diversi.
L’analisi delle tavole di contingenza appartiene al capitolo dedicato all’analisi dei dati categorici.
2
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 3
La tabella seguente presenta la frequenza di osservazioni, categorizzate secondo due variabili.
La notazione usata è semplice ma non è generalizzabile a tabelle di maggiori dimensioni.
a+b+c+db+da+cTOTALE
c/(c+d)c+ddcB
a/(a+b)a+bbaA
Proporzione curatiTotaleNon curatoCuratoFarmaco
Risultato
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 4
La seguente notazione è più generale e si applica a tabelle di qualsiasi dimensione
n.1/n..n..n.2n.1TOTALE
n21/n2.n2.n22n21B
n11/n1.n1.n12n11A
Proporzione curatiTotaleNon curatoCuratoFarmaco
Risultato
3
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 5
Talvolta la tabella viene costruita indicando non le frequenze ma le corrispondenti proporzioni.
p..p.2p.1TOTALE
p2.p22p21B
p1.p12p11A
TotaleNon curatoCuratoFarmaco
Risultato
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 6
I totali marginali della tabella (totali di riga e di colonna) sono definiti dal disegno dello studio e dai suoi risultati principali.
Ad esempio: uno studio clinico include 200 pazienti, divisi in due gruppi di eguale dimensione trattati con due diversi farmaci.
Il primo risultato dello studio sarà dato dal numero di pazienti che hanno mostrato un risultato favorevole del trattamento (120 risultati favorevoli, 80 con risultato non favorevole).
4
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 7
La tabella completata relativamente ai totali marginali è:
20080120TOTALE
100n22n21B
100n12n11A
TotaleNon curatoCuratoFarmaco
Risultato
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 8
Una volta definito un valore per una delle quattro celle, resta definito anche il valore delle celle restanti, poiché i totali marginali sono fissati.
In altri termini, in una tabella 2*2 una sola delle celle è libera di assumere qualsiasi valore, le restanti sono fissate dai totali marginali.
Il numero di celle libere corrisponde al numero di gradi di libertà(g.l. o d.f.).
Il numero di gradi di libertà in una tabella r * c è dato da:
g.l. = (r-1) * (c-1)
Le tabelle 2*2 hanno 1 grado di libertà.
5
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 9
Abbiamo già incontrato il numero di gradi di libertà nel calcolo della Deviazione Standard
( ))1(
.. 1
2
−=∑ −=
ni
StDev
n
iXx
n-1 è il numero di gradi di libertà per il calcolo della deviazione standard: dato il valore della media, il valore dell’nesima
osservazione è definito, noto il valore delle n-1 osservazioni precedenti.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 10
L’analisi di una tabella di contingenza prevede:
• il calcolo di indicatori di associazione tra le due variabili
• la valutazione della probabilità di osservare la tabella in esame data l’ipotesi nulla (test di significatività)
Esaminiamo dapprima il caso delle tabelle 2*2 (2 righe * 2 colonne)
6
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 11
Indicatori di associazione:
Malattia
a+b+c+db+da+cTotalec+ddcAssentea+bbaPresenteEsposizioneTotaleControlloCaso
La misura di associazione usata più frequentemente è l’Odds Ratio (Rapporto Crociato), abbreviato con OR.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 12
Odds Ratio (OR) è il rapporto tra i due odds:
OR = (a/b)/(c/d) = (a*d) / (c*b)
‘OR fornisce una stima del rischio di sviluppare un effetto quando è presente un fattore antecedente rispetto al corrispondente rischio quando il fattore è assente’ (Fleiss).
L’intervallo di valori validi per OR è:
0 <= OR <= ∞
7
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 13
Sviluppiamo un esempio derivato dallo studio clinico presentato a fine lezione sul confronto di due antibiotici nel trattamento delle infezioni in pazienti affetti da neoplasia.
249121128TOTALE
1146549Ceftazidima
1355679Meropenem
TotaleNon curatoCuratoFarmaco
Febbre
OR (Meropenem vs. Ceftazidima) = (79 * 65) / (49 * 56) = 1,87
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 14
Interpretazione:
le due variabili sembrano associate: la probabilità di essere trattati con successo per i pazienti trattati con meropenem è1,87 volte maggiore rispetto ai pazienti trattati con ceftazidime.
8
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 15
Per calcolare l’intervallo di confidenza nel caso dell’OR dobbiamo utilizzare la seguente formula poiché la distribuzione di OR è asimmetrica (va da 0 a + ∞):
IC (ln(OR)) = ln(OR) ± Zα/2 * ES(ln(OR))
ln(OR) = logaritmo naturale dell’ Odds Ratio
dcbaORES 1111))(ln( +++=
Quindi:
e ORESORORIC ))(ln(*)ln(2)( Ζ= ± α
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 16
( )( ) 2575,0651
491
561
791ln =
+++=ORES
95% -> α = 0,05 da distribuire nelle due code poiché l’intervallo di confidenza è bilaterale
( ) 1297,1inf_ 2575,0*96,16267,0%)95( == −eORICl
( ) 0999,3sup_ 2575,0*96,16267,0%)95( == +eORICl
9
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 17
Risultati di uno studio in un gruppo di tossicodipendenti sull'associazione tra positività al test della tubercolina ed uso promiscuo di siringhe per l'iniezione di stupefacenti.
25820652TOTALE16113328Non Promiscuo977324Promiscuo
TotaleNegativoPositivoUso di siringheTest della tubercolina
L'associazione tra il risultato del test alla tubercolina e l'uso promiscuo delle siringhe è misurato dall'Odds Ratio.
OR = (24 * 133) / (73 * 28) = 1,5616
Interpretazione: ?
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 18
ES(ln(OR))= 0,314004
95% -> α = 0,05 da distribuire nelle due code poiché l' intervallo di confidenza è bilaterale
Z(α/2) = Z(0,025 nella coda superiore) = 1,96
( )( ) 8439,0inf_ 314004,0*96,1445739,0
%95 == −eORICl
( )( ) 8898,2sup_ 314004,0*96,1445739,0
%95 == +eORICl
10
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 19
Test di ipotesi
Nell' analisi di tabelle di contingenza l'ipotesi di lavoro di solito corrisponde all'associazione tra le due variabili mentre l'ipotesi nulla corrisponde all'assenza di associazione.
H0: le variabili non sono associate (quindi OR=1)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 20
Il test statistico misura la probabilità di osservare una tabella come quella data (o più estrema) se vale l'ipotesi nulla.
Il test adottato è il Chi-quadro (χ2).
Questo test fornisce la probabilità (data l’ipotesi nulla) di osservare una tabella come quella in esame o una tabella più ‘estrema’.
Esamineremo dapprima la formula approssimata di questo test, che si basa sulla misura della differenza tra il numero di osservazioni in ciascuna cella della tabella ed il corrispondente numero di osservazioni attese, data l’ipotesi nulla.
11
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 21
Calcolo del numero di osservazioni attese
H0: Le due variabili non sono associate.
Se due eventi sono indipendenti
P(B|A) = P(B)
Quindi
La probabilità del realizzarsi congiunto di due eventi è data dal prodotto della probabilità di ciascuno di essi.
P(A ∩ B) = P(A) P(B)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 22
Osservati:
249121128TOTALE1146549Ceftazidima1355679Meropenem
TotaleNon curatoCuratoFarmaco
Febbre
12
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 23
Calcolo degli attesi:
Tb+da+cTOTALE
c+dE(d) = (c+d)*(b+d)/T
E(c ) = (c+d)*(a+c)/T
Ceftazidima
a+bE(b) = (a+b)*(b+d)/T
E(a) = (a+b)*(a+c)/T
MeropenemTotaleNon curatoCuratoFarmaco
Febbre
E(a) = ((a+b)/T)*((a+c)/T)*T=(a+b)*(a+c)/T
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 24
249121128Totale11455.39858.602Ceftazidima13565.60269.398Meropenem
Totale Non curatoCurato
Febbreattesi
13
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 25
La formula è approssimata ed è valida quando il numero di osservazioni non è troppo piccolo (ogni cella Atteso >1; non più del 20% delle celle con atteso < 5).
( )∑
−=
attattoss 2
2χ
( )( )( )
( )( )( )
( )( )( )
( )( )( )dEdEd
cEcEc
bEbEb
aEaEa 2222
2 −+
−+
−+
−=χ
Dove E(a) = [(a+b)/T] * [(a+c)/T] * T = (a+b) * (a+c)/T
Il valore atteso delle restanti celle viene calcolato in modo analogo o per differenza dai totali marginali.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 26
1.6641.573Ceftazidima
1.4061.329Meropenem
Non curatoCurato
Febbre(O-A)^2/A
chi2= 1.329 + 1.406 +1.573 + 1.664 = 5.972
14
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 27
Formula abbreviata (valida solo per tabelle 2 x 2)
( )( )( )( )( )dccbcaba
bcadT++++
−=
22 *χ
( )2.1..2.1
2211222112
******..nnnnnnnnn −
=χ
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 28
Come si usa il valore χ2 ?
Il valore di probabilità corrispondente al valore della statistica χ2 si legge su apposite tabelle, dato il valore di χ2 ed il numero di gradi di libertà.
La probabilità viene letta su una sola coda della distribuzione χ2 ma il test è bilaterale.
15
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 29
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 30
5.972
Il grafico presenta la curva della distribuzione χ2 con 1 gradi di libertà. Il valore di χ2 è sulle ascisse.L’area verde corrisponde al 5% della distribuzione.
16
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 31
Correzione per la continuità (Yates).
I valori osservati in una tabella di contingenza sono frequenze, quindi possono assumere solo valori interi. La distribuzione χ2 è invece una distribuzione continua.
E’ stata quindi proposta una correzione, applicabile alle tabelle 2*2, che ha l’effetto di ridurre il valore di χ2 (effetto conservativo).
∑
−−
=att
attoss21
2
2χ
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 32
Sviluppiamo un esempio utilizzando dati relativi ad uno studio storico sul trattamento dell'ulcera peptica
L’errore di primo tipo era stato fissato a 0,05.
La tabella dei valori osservati è:
612041TOTALE
311318Tritiozina
30723Pirenzepina
TotaleNon curatoCuratoFarmaco
Ulcera peptica
17
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 33
OR (pirenzepina vs. tritiozina) = 2,37
IC95%(OR): 0,7847 <= OR <=7,1766
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 34
Il calcolo dei valori attesi porta a questi risultati.
612041TOTALE
3110,1620,84Tritiozina
309,8420,16Pirenzepina
TotaleNon curatoCuratoFarmaco
Ulcera peptica
Il calcolo della statistica χ2
( ) ( ) ( ) ( )16,10
2/116,101384,20
2/184,201884,9
2/184,9716,20
2/116,2023 22222 −−
+−−
+−−
+−−
=χ
= 0,272 + 0,566 + 0,263 +0,539 = 1,6298
18
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 35
Interpretazione:
Il valore di χ2 , letto dall’apposita tabella, dato 1 grado di libertà corrisponde ad un valore di probabilità compreso tra 0,10 e 0,25
0,10 <probabilità < 0,25
Poiché l’errore α era stato fissato a 0,05, non rifiuto l’ipotesi nulla.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 36
Posso anche calcolare il valore di probabilità utilizzando una funzione di Excel:
dato χ2 = 1,629752 ed 1 grado di libertà calcolo:
p= 0,201737.
19
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 37
χ2 esatto
Quando il numero di soggetti nella tabella è piccolo si suggerisce di utilizzare la formula del χ2 esatto, sviluppata da Fischer.
Il test si basa sul calcolo della probabilità associata alla tabella osservata ed a ciascuna delle tabelle ‘più estreme’.
Il test è stato sviluppato a partire dalla funzione di probabilitàipergeometrica.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 38
Costruzione delle tabelle ‘più estreme’ (cioè con indicatore di associazione maggiore di quello osservato nella tabella data).
Esempio. La tabella riporta il numero di pazienti trattati in due reparti con intervento per frattura collo del femore ed il numero di complicanze osservate in ciascun reparto (dati fittizi).
402020Totale
321418No
862Si
TotaleBAComplicanza
RepartoTab. 1
p= (n1.!* n2.!* n.1!* n.2!) / (n..! * n11!* n12!* n21!* n22!)
20
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 39
Altre possibili tabelle
402020Totale321319No871Si
TotaleBAComplicanzaRepartoTab. 2
402020Totale321220No880Si
TotaleBAComplicanzaRepartoTab. 3
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 40
P(tab 1)= 8!32!20!20!/40!2!6!18!14! = 0,095760
P(tab 2)= 8!32!20!20!/40!1!7!19!13! = 0,020160
P(tab 3)= 8!32!20!20!/40!0!8!20!12! = 0,001638
P totale = 0,117558
Il test fornisce direttamente il valore di probabilità.
21
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 41
Test di Mc Nemar per dati appaiati
Frequentemente il disegno dello studio prevede l’appaiamento tra due soggetti o l’analisi dello stesso soggetto in condizioni diverse.
Immaginiamo di trattare un gruppo di soggetti con due diversi antidolorifici.
Ciascun soggetto riceve prima un farmaco e poi l'altro, secondo una sequenza casuale.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 42
In questo caso la tabella, gli indicatori di associazione ed il calcolo di χ2 diventano:
Nr+mk+sTotales+mmsNon miglioratok+rrkMigliorato
TotaleNon miglioratoMiglioratoTrattamento ATrattamento B
22
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 43
OR(McNemar) = r/s
Il χ2, calcolato con la correzione per la continuità è:
( )srsr
gl +−−
=1
2
2
1χ
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 44
Test di Mc Nemar, sviluppo di un esempio.
E’ stato condotto uno studio con l’obiettivo di confrontare due farmaci antiinfiammatori , che indichiamo come A e B. Non siamo in grado di prevedere quale dei due farmaci darà i migliori risultati. Sono inclusi 347 pazienti affetti da artrite. Ciascunpaziente riceve, in sequenza casuale, i due diversi farmaci.
Confronto quindi le risposte ai due farmaci calcolando l’Odds Ratio.
L’errore di primo tipo è fissato a 0,05.
Il test statistico appropriato è il test di Mc Nemar, con correzione per la continuità.
23
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 45
347181166Totale1486979Non migliorato19911287Migliorato
TotaleNon miglioratoMiglioratoTrattamento ATrattamento B
OR(McNemar) (modalità A vs. modalità B)= r/s = 1,42
χ2 1g.l. = 5,36
p < 0,025
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 46
Interpretazione:
La probabilità di ottenere un miglioramento per i pazienti trattati con il farmaco A è 1,42 volte più elevata che per i pazienti trattati con il farmaco B.
La probabilità di osservare un risultato come quello osservato o più estremo è inferiore al valore prefissato per il rifiuto dell’ipotesi nulla, che viene quindi respinta.
24
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 47
Tabelle R x C
L’estensione del calcolo di χ2 a tabelle con un maggior numero di righe e di colonne è semplice e si basa sulla formula approssimata:
( )∑
−=
attattoss 2
2χ
Il numero di gradi di libertà si calcola come (numero di righe-1)*(numero di colonne-1).
La correzione per la continuità non viene applicata.
Non sono disponibili formule per il calcolo del χ2 esatto in tabelle con dimensione maggiore di 2x2.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 48
Tabelle 2*n
Costituiscono un caso particolare delle tabelle R*C
Il calcolo di χ2 si basa sulla formula approssimata:
( )∑
−=
attattoss 2
2χ
Il numero di gradi di libertà si calcola come (righe-1)*(colonne-1).
25
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 49
Un esempio di impiego del test χ2
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 50
26
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 51
Un esempio di impiego del test esatto di Fischer
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 52
Esaminiamo alcune curve
27
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 53
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 54
28
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 55
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 56
29
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 57
Esercizi consigliati da: Fowler et al, ed Edises.
• Cap 12 (p 230) es 1• Cap 12 (p 230) es 2• Cap 12 (p 230) es 3• Cap 12 (p 230) es 4• Cap 12 (p 230) es 5• Cap 12 (p 231) es 8