STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE
Transcript of STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE
La presentazione dei dati per molte ricerche mediche fa comunemente
riferimento a frequenze, assolute o percentuali. Osservazioni cliniche
conducono sovente a risultati tipo "il 60% degli individui trattati con un
farmaco è migliorato rispetto al 47% del gruppo di soggetti di controllo",
implicando con ciò un confronto tra i risultati ottenuti per i due gruppi.
Risulta evidente che tali risultati non sono espressi da dati su scala
quantitativa e quindi non è possibile fare riferimento alla distribuzione
Gaussiana o a quelle del t di Student, ma occorre considerare metodiche
specifiche che permettano, anche con tale tipo di dati, di verificare l'ipotesi
zero di una differenza casuale tra le frequenze riscontrate.
STATISTICA INFERENZIALEPER VARIABILI QUALITATIVE
La statistica chi-quadrato (χ2)Variabile statistica semplice (v.s.s.)
Esempio 1. C’è parità tra i 2 sessi nei 180 iscritti al corso di laurea in medicina? Si organizza un'indagine su un campione casuale di 80 studenti. (Ho: M=F; H1: M≠F)
I risultati osservati (O) e le attese (A) sono riportati nella tabella.
* p < 0.05, risultato del test appena significativo
5*1.25χ2 g.l.=1
200/408050/408080TOT
100/403025/404035F
100/405025/404045M
χ2-testO2χ2-testAO1SESSO
v.s.s. con >2 modalitàAnche una serie empirica può seguire un modello.
Esempio 2. 4 campioni di 400 pz. ciascuno vengono sottoposti a ≠dosaggi di un farmaco. Si riporta il numero osservato di pz guariti (Oi) e il numero atteso (Ai) per ogni campione (Ci).
dove Ho (modello): Ai= scala a raddoppioΔ Oi-Ai dovuta ad errore?
22.75750750χ2
2.500/4004003504.0 mg
2.500/2002002502.0 mg
100/1001001101.0 mg
100/5050400.5 mg
χ2-testAiOiDose di farmaco
Il fumo è “causa” (o fattore di rischio) per la bronchite? ossia il Δ (+15%) è statisticamente significativo?
Tabella di contingenza (2x2)
1020807213TOTALE
62052793NO
400280120SI
TOTNOSIFUMO
BRONCHITE
La prevalenza di bronchite risulta statisticamente ≠ tra i fumatori e i non fumatori?H0: La bronchite si sviluppa indipendentemente dal fumo;H1: I fumatori sviluppano bronchite più dei non fumatori.
VARIABILI STATISTICHE DOPPIE: CONFRONTO DI 2 CAMPIONI(Confronto tra due percentuali)
Esempio 3.Si abbia un campione di 1020 soggetti diviso in Fumatori (A): nA=400 Prevalenza BCO 30% Non fumatori (B): nB=620 Prevalenza BCO 15%
TASSI DI PREVALENZA x 100 SOGGETTI
• Se ci fosse indipendenza tra fumo e BCO si dovrebbero riscontrare le stesse prevalenze di pazienti con BCO tra i fumatori e i non fumatori.
• Va costruita quindi una tabella le cui frequenze rispondono alla condizione d'indipendenza
%1562093P %30
400120P %8.20
1020213P NFFT ======
TABELLA TETRACORICA D'INDIPENDENZA
nn2(b+d)n1 (a+c)TOTnB(c+d)dcB (-)nA(a+b)baA (+)
TOTNP (-)P (+)
MalattiaFattore di rischio
Valori delle frequenze nel caso di indipendenza
n1:n = a:nA nnna 1A=
n1:n = c:nB nnnc 1B=
idem per b e d
Tornando all’esempio dell'associazione tra BCO e fumo si ha la
tabella delle frequenze attese:
1020807213TOTALE
620491129NO
40031684SI
TOTNOSIFUMO
BRONCHITE CRONICA
Es. (620x213)/1020 = 129; per differenza si calcolano le altre tre frequenze interne.
χ2 = (120-84)2 + (280-316)2+ (93-129)2 + 84 316 129 + (527-491)2 = 32.21 491 LA FORMULA PER CALCOLARE L'INDICE-TEST
CHI-QUADRATO
Σ (Oi-Ai)2
Ai
TEORIA SULLE IPOTESI
H0 = ipotesi zero o ipotesi nulla le due percentuali (30% e 15%) differiscono per effetto dell'errore di campionamento.
H1 = ipotesi alternativale due percentuali non differiscono per effetto dell'errore di campionamento. il test del χ2 consente di saggiare l'ipotesi nulla.
Nel caso di tabelle 2x2 si può calcolare il valore del test χ2 anche
direttamente attraverso la formula seguente:
(ad - cb)2 N χ2 -test = __________
N1 N2 NA NB
FORMULA PER IL CALCOLO DEL χ2 VALIDA SOLO NEL CASO DI TABELLE TETRACORICHE
Nel nostro esempio avremo:
( ) 21.32620*400*807*213
1020*280*93527*120 22 =
−=χ
Valore quasi coincidente a quello calcolato con la
precedente formula, quindi
LE DUE FORMULE DANNO RISULTATI EQUIVALENTI
Se il campione e 1/10 del precedente si ha:
1028121TOTALE
62539NO
402812SI
TOTALEBCO NOBCO SIFUMO
681.262*40*81*21
102*)56)28*953*12(( 22 =
−−=χ
L’ipotesi nulla non può essere rifiutata.
La CORREZIONE di YATES (per la continuità)
La correzione di Yates viene applicata nel caso di tabelle 2x2 che presentino:
la numerosità complessiva (n)<200oppure uno tra nA, nB, n1, n2 <40
a, b, c, d >5la correzione si attua con la formula:
(⏐ad - cb⏐- n/2)2 nχ2 = _________________
n1 n2 nA nB
N.B. Anche per n>200 conviene applicarla
Esempio 4. Si supponga di aver rilevato, su un campione di 36 giovani, la pressione arteriosa e la pratica sportiva.
361521TOT
20614NO
1697SI
TOTNOSI SPORT
IPERTENSIONE ARTERIOSAPRATICA
Applichiamo il test χ2 con la correzione di Yates per la continuità (⏐7x6 - 14x9⏐-36/2)2 36 χ2 = ___________________ = 1.55 n.s. 21x15x20x16
1028121TOTALE
62539NO
402812SI
TOTALEBCO NOBCO SIFUMO
681.262*40*81*21
102*)56)28*953*12(( 22 =
−−=χ
TEST ESATTO di FISCHERViene applicato nel caso in cui in una tabella 2x2 il numero
delle osservazioni è minore di 20 o una delle frequenze attese è inferiore a 5. Permette di calcolare direttamente la
probabilità esatta.
P=(a+b)! (c+d)! (a+c)! (b+d)!a! b! c! d! N!
311516TOT
20515NO
11101SI
TOTNOSISPORT
IPERTENSIONE ARTERIOSAPRATICA
P1 = 11! 20! 16! 15! = 0.0005671! 10! 15! 5! 31!
311516TOT
20416NO
11110SI
TOTNOSI
IPERTENSIONE ARTERIOSAPRATICASPORT
P0 = 11! 20! 16! 15! = 0.0000160! 11! 16! 4! 31!
P= 0.00567+0.000016=0.00568
Altamente significativo. P<0.001
Generalizzazione al caso di una tabella di dimensione rxs.Esempio 5.
97253933Tot.
5418 (14)24 (22)12 (18)Farmaco B
437 (11)15 (17) 21 (15)Farmaco A
Tot.Non miglioratiMiglioratiGuariti
33/97=34.02%(GUARITI), 39/97=40.20% (MIGLIORATI), 25/97=25.77 (INSUCCESSI TERAPEUTICI)
Si applica la formula generale per una valutazione complessiva:
(21-15)2 (12-18)2 (15-17)2 (24-22)2 (7-11)2
χ2 = ______ + _______ + ______ + _______ + ______ + 15 18 17 22 11
(18-14)2
____________ = 8.2314
CONFRONTO TRA PERCENTUALI IN CAMPIONI INDIPENDENTI
Campione 1: n1=300 Prevalenza 70%Campione 2: n2=400 Prevalenza 80%
700170530TOT
40080320C2
30090210C1
TOT-+
χ2 = (210x80-320x90)2 700 =9.32 p<0.001 530x170x300x400 Campione 1: n1=30 Prevalenza 70%
Campione 2: n2=40 Prevalenza 80%
701753TOT
40832C2
30921C1
TOT-+
χ2 = (⎢21x8-32x9⎢- 70/2)270 =0.47 n.s. 53x17x30x40
V E R IF IC A D I IP O T E S I
1 . T E O R IA D E L L A V E R IF IC A D E L L E IP O T E S I S T A T IS T IC H E
C o n s is te n e llo s ta b ilire se l 'a s su n z io n e fa tta , s i p o ssa c o n s id e ra re e sa tta o m e n o , su lla b a se d e lle o sse rv a z io n i c o n d o tte su u n a p a r te d e lle u n ità d e l co lle tt iv o m e d e s im o . 2 . L 'IP O T E S I (H 0) E ' u n a s su n to p a r tic o la re c irc a le c a ra tte r is tic h e ( i p a ra m e tr i d e lla p o p o la z io n e . E ' u n a a ffe rm a z io n e su e v e n ti " sc o n o sc iu ti" c o s tru ita in m o d o ta le d a p o te r e sse re v e r ific a ta m e d ia n te u n te s t s ta tis tic o (T .S .) 3 . T E S T S T A T IS T IC O E ' u n a te c n ic a d i in fe re n z a s ta tis tic a , m e d ia n te la q u a le s i a c c e tta o r ifiu ta u n a c e r ta ip o te s i, a d u n liv e llo c r it ic o d i s ig n ific a tiv ità . 4 . L IV E L L O D I S IG N IF IC A T I V I T A ' E ' i l m a rg in e d 'e rro re c h e s ia m o d isp o s ti a co m m e tte re , d i so lito 5 o 1 % , m a p iù è p ic c o lo e p iù r id u c ia m o il r isc h io d i r ifiu ta re H 0 q u a n d o in re a ltà è v e ra . 5 . F U N Z I O N E T E S T E ' la fu n z io n e d e i d a ti c a m p io n a r i d i c u i s i se rv e u n te s t p e r p o r ta re a lla d e c is io n e d i a c c e tta re o re sp in g e re H 0 . 6 . V E R IF IC A D 'IP O T E S I E ' u n a m e to d o lo g ia s ta tis tic a c h e b a sa n d o s i su lle p ro b a b ilità p o r ta a p re n d e re d e lle d e c is io n i. 7 . G R A D I D I L IB E R T A ' S o n o d a ti , in g e n e ra le , d a l n u m e ro d e lle m o d a lità c h e la v a r ia b ile a ssu m e m e n o i v in c o li
Area•Accettaz. Ho
•Rifiuto H1
•Test nonsignificativo
FUNZIONE TEST
SIGNIFICATIVO → (1)
dipendenza tra x e y
NON SIGNIFICATIVO → indipendenza
SIGNIFICATIVO → (s)
rifiuto il modello
TEST DI
SIGNIFICATIVITA’
NON SIGNIFICATIVO → non rifiuto il modello → RISPONDENZA TRA DISTRIBUZIONE CONSTATATA E QUELLA TEORICA.
D’INDIPENDENZA(1)
Ho: nij=n’ij H1: nij≠n’ij
IPOTESI DA
VERIFICARE DI CONFORMITA’O ADATTAMENTO
Ho: fo=fA H1: fo≠fA