simulazione esercizio di esame - Benvenuto...Cattedra di Statistica Medica-Università degli Studi...
Transcript of simulazione esercizio di esame - Benvenuto...Cattedra di Statistica Medica-Università degli Studi...
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 1
SIMULAZIONEDI
ESAMEESERCIZI
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 2
Alcuni autori hanno studiato se la depressione possa essere associata a indici sierologici di processi autoimmunitari o infezioni attive virali. A tal fine è stato misurato il livello di interluchina-2 (IL-2) in quattro gruppi di pazienti (i dati sono presentati nella pagina successiva).
1.1 Verificare se i livelli di interluchina 2 differiscono significativamente nei quattro gruppi sia con il metodo parametrico (1.1.a) che nonparametrico (1.1.b)
1.2. Effettuare i confronti multipli con i metodi a voi noti se il confronto tra gruppi di tipo parametrico è risultato statisticamente significativo
1.3 Verificare se esiste una differenza significativa nei livelli di IL-2 tra i soggetti sani e i soggetti con depressione maggiore senza melanconia, sia con il metodo parametrico (1.3.a) che non parametrico (1.3.b)
ESERCIZIO 1.ESERCIZIO 1.
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 3
255237395192
230349655182
348288324244
444363428190
439225369203
292303306240
517316250220
354254324157
283271305259
24225363492
Depressione maggiore
con melanconia
Depressione maggiore
senza melanconia
Depressione minore
Sani
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 4
iniT
iT
j ijyiS
j ijyiT
in
2
2
2å=
å=
10
1979
413027
3916441
391644.1
10
3990
1765464
15920100
1592010.0
10
2859
836939
8173881
817388.1
S=4260838
å = 839597632
,in
iT
N=40
T2/N=3740545.6
25523739519223034965518234828832424444436342819043922536920329230330624051731625022035425432415728327130525924225363492
10
3404
1245408
11587216
1158721.7
1.1.a
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 5
( )2.219218
6.37405458.3959763222
2.30107422
4.5202926.3740545426083822
=
-=-å=å -
=å-=å -
=-=-=å -
÷÷÷
ø
ö
ççç
è
æ
=
÷÷÷
ø
ö
ççç
è
æ÷øö
çèæ
=
÷øö
çèæ
=
NT
iniT
yiy
iniT
Siyijy
NTSyijy
GRUPPI TRA DEVIANZA
GRUPPIENTRO DEVIANZA
TOTALE DEVIANZA
1.1.a Calcolo delle devianze
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 6
39520292.4TOTALE
8363.1736301074.2ENTRO GRUPPI
8.7473072.733219218.2TRA GRUPPI
FCALVARIANZEG.L.DEVIANZESorgenti di
variazione
A N O V AA N O V A
Dove F=Varianza tra gruppi/varianza entro gruppi = 8.74
Poiché F cal =8.74 F tab = 2.9, rifiuto l’ipotesi nulla e concludo che almeno due gruppi differiscono tra loro
1.1.a Statistica test
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 7
LSD = t α/2 Ö (2 Var Residua/n)t α/2 Valore della t-Student con gradi di libertà N-k
t α/2 = 2.032 LSD = 2.032 Ö 2 x 8363.17/10 = 83.10
Medie 197.9 285.9 340.4 399.0
Diff14 = 399.0 – 197.9 = 201.1 > 83.10 Þ medie differenti
Diff24 = 399.0 – 285.9 = 113.1 > 83.10 Þ medie differenti
Diff34 = 399.0 – 340.4 = 58.6 > 83.10 Þ medie uguali
Diff13 = 340.4 – 197.9 = 142.5 > 83.10 Þ medie differenti
Diff23 = 340.4 – 285.9 = 54.5 > 83.10 Þ medie uguali
Diff12 = 285.9 – 197.9 = 88.0 > 83.10 Þ medie differenti
1.2.a Confronti multipli
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 8
( ) ( )úúû
ù
êêë
é+-£-£-- -- n
Styy
n
Styy residua
lgmsrsrresidua
lgmsr
2
21
2
2122
..,.., aa mm
α/12 = 0.004
Int 1-4 201.1 ± 2.7 x 40.9 = 201.1 ± 110.43 90.67 --- 311.53
Int 2-4 113.1 ± 2.7 x 40.9 = 113.1 ± 110.43 2.67 --- 223.53
Int 1-3 142.5 ± 2.7 x 40.9 = 142.5 ± 110.43 32.07 --- 252.93
Medie 197.9 285.9 340.4 399.0
Int 3-4 58.6 ± 2.7 x 40.9 = 58.6 ± 110.43 -51.83 --- 169.03
Int 2-3 54.5 ± 2.7 x 40.9 = 54.5 ± 110.43 -55.93 --- 164.93
Int 1-2 88.0 ± 2.7 x 40.9 = 88.0 ± 110.43 -22.43 --- 198.43
1.2.b
t = 2.7
Confronti multipli
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 9
1725510237343955192
230
348
444
439
292
517
354
283
242
D.Mag con mel
200
30
21
32
8
23
26
16
19
15
R3
299
40
27.5
35
33
25
14
27.5
24
39
R2
70
3
13
4
6
11
7
2
18
1
R1
251
9349655182
29288324244
37363428190
36225369203
22303306240
38316250220
31254324157
20271305259
1225363492
R4D.magsmel
Dep.MinSani
METODO NON PARAMETRICO - Kruskall Wallis1.1.b
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 10
( ) ( )å=
+-+
=k
j j
j nn
R
nnH
1
2
131
12
Dove:K= numero dei campioninj = numero di osservazioni nel j-esimo campionin = numero totale delle osservazioniRj =somma dei ranghi nel j-esimo campioni
( ) ( ) 03.21140310
25110
20010
2991070
1404012 2222
=+-úû
ùêë
é+++
+=H
Per il nostro insieme di dati:
1.1.b Statistica test e svolgimento
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 11
Per a=0,05 e g.l= k-1=3 c2 = 7.81
Rifiuto l’ipotesi nulla
i livelli di interluchina 2 differiscono significativamente nei quattro gruppi
1.1.b Decisione
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 12
Poichè ci sono osservazioni con il medesimo valore (ties ) bisogna correggere la statistica H
ttTnn
T
-=-
-å3
31
÷÷ø
öççè
æ-
-
=å
nn
T
HHcorr
31
1.1.b Correzione della statistica H
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 13
T=t3-t=23-2=6
Correzione = 1 - ( 6/ 403-40) = 0,999
05.21999.0
03.21
1 3
==
--
=å
nn
TH
Hcorr
Rifiuto l’ipotesi nulla
i livelli di interluchina 2 differiscono significativamente
1.1.b Correzione della Statistica H
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 14
Verificare ad un livello di significatività α=0.05 se le medie delle due popolazioni sono uguali oppure diverse:
H0: m1= m2
H1: m1 ¹ m2
nxx i /)(å=
( )1
/
1
)(222
2
-
-=
-
-= å åå
n
nxx
n
xx iiiS
Gruppo Sani: n=10 Σx i = 1979 Σxi2 = 413027 = 197.9 S2 = 2375.88x
Gruppo depressione Maggiore senza melanconia :
n=10 Σx i = 2859 Σxi2 = 836939 = 285.9 S2 = 2172.33x
1.3.a Confronto tra campioni indipendenti
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 15
H0: s21= s22H1: s21 ¹ s22
F=S12/S2
2 = 2375.88/2172.33 = 1.09
Poiché Ftab = F9,9,0.05 = 3.18 > Fcal = 1.09
Varianze sono omogenee
E’ possibile calcolare la varianza comune
2274.118
19550.921382.9nn
nSnSS p =
+=
-+-+-
=2
)1()1(
21
2221
212
1.3.a Confronto tra campioni indipendenti omogenità delle varianze
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 16
13.4
101.2274
101.2274
9.1979.285=
+
-=calct
2
2
1
2
2121 )()(
n
S
n
S
xxt
pp +
---=
mm
ttab = t18 = 2.10 < tcal = 4.13 ð rifiuto H0 ð
le medie dei due gruppi sono diverse
1.3.a Confronto tra campioni indipendenti – Statistica test
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 17
Se la distribuzione non è gaussiana utilizziamo il metodo non parametricodella Somma dei Ranghi
Gruppo Sani 92 259 157 220 240 203 190 244 182 192
Gr. Depr.Mag. 242 283 354 517 292 439 444 348 230 255senza melan.
92 157 182 190 192 203 220 225 237 240R 1 2 3 4 5 6 7 8 9 10
244 253 254 295 271 288 303 316 349 363R 11 12 13 14 15 16 17 18 19 20
Σ R sani = 63 Σ R patologici = 147
Per α = 0.05 Intervallo dei ranghi 78 - 132
Rifiuto l’uguaglianza dei due gruppi
1.3.b Confronto tra campioni indipendenti test della somma dei ranghi
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 18
Sono stati utilizzati due metodi per determinare in 15 soggetti l’efficacia di un antibiotico per il trattamento della tubercolosi. I logaritmi dei titoli ottenuti con i due metodi sono i seguenti:
Metodo A 3.3 2.4 2.7 2.4 2.1 2.1 3.0 2.2 2.4 2.1 2.4 2.0 3.0 2.0 2.1
Metodo B 4.1 3.8 3.6 3.2 2.9 3.2 3.9 2.8 3.4 3.3 3.3 2.9 3.5 3.1 2.7
2.1 Determinare la retta di regressione ipotizzando che il metodo A è affetto da errore trascurabile
2.2 Verificare l’ipotesi nulla b=0 con tutti i metodi conosciuti
2.3 Calcolare il coefficiente di determinazione
2.4 Studiare la relazione esistente tra le due metodiche con il metodo parametrico (2.4.a) e non parametrico (2.4.b), ipotizzando che entrambi i metodi non siano affetti da errore trascurabile
2.5 Verificare se esiste una differenza significativa tra le due metodiche sia con il metodo parametrico (2.5.a) che non parametrico (2.5.b)
ESERCIZIO 2.ESERCIZIO 2.
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 19
3.32
2.42
121.90
167.0549.7
89.736.2
=
=
=å
=å=å
=å=å
y
x
iyix
2i
yiy
2i
xix
2.1 Calcoli necessari per lo svolgimento
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 20
( )
( )
29.142.284.032.3ˆˆ
84.015/2)2.36(7.89
15/7.492.3690.121
ˆ
=´-=-=
úúû
ù
êêë
é
=-
´-=
=
åå
-
åå å
-
=-å
-å -=
xbya
n
2ix2
ix
n
iyixiyix
2)xi(x
)yi(y)xi(xb
effettuando i conti si ha:effettuando i conti si ha:32.315/7.49y42.215/2.36x
====
2.1 Determinazione dei parametri
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 21
( ) ( )
( ) ( )
( )( )[ ]( )
74.064.138.2.
64.12
2
222ˆ
38.215/27.4905.167
222
REGRESTOTALE =-=
=å -
å --=
=å -×=å -
=-=
=å-å=å -
-
xix
yiyxix
xixbyiy
niyiyyiyDEV. TOTALE =
DEV. REGRESSIONE=
DEV. RESIDUA =
Per il nostro esempio2.2.a Calcolo delle devianze
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 22
142.38TOTALE
0.06130.74RESIDUA
28.811.6411.64REGRESSIONE
FCALVARIANZEG.L.DEVIANZESorgenti di
variazione
Essendo F tab = F 1,13 = 4.67 < F cal = 28.81 rifiuto H0
A N O V AA N O V A
Nell’esempio
Dove Fcal= Varianza Regressione/Varianza residua = 1.64/0.06 = 28.81
2.2.a
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 23
( )( )
( )
( ) 25.516.084.0
16.02ˆ
var
0
2
2
==-
=
=-
--
==å
å
bESbb
T
xxN
yy
devxres
bESi
ii
H0: b = 0
H1: b ¹ 0
Poiché T cal=5.25 > T tab=2.16 si rifiuta l’ipotesi nulla e quindi il coefficiente di regressione è significativamente diverso da zero
2.2.b Verifica di ipotesi su b – test t
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 24
( )( )
69.038.264.1ˆ
2
22 ==
-
-==åå
yy
yy
devtotdevregr
Ri
i
La regressione spiega circa il 69% dei dati osservati
2.3 Coefficiente di determinazione
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 25
( ) ( )
83.036.296.1
)()(
)()(
22
22
22
==
=
úúû
ù
êêë
é-
úúû
ù
êêë
é-
-=
=--
--=
å åå å
å å å
å åå
ny
ynx
x
n
yxyx
yyxx
yyxxr
ii
ii
iiii
ii
ii
2.4.a COEFFICIENTE DI CORRELAZIONE DI PEARSON
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 26
36.583.01
1383.0
1
222=
-=
--
=r
nrT
IPOTESI
H0: r = 0
H1: r ¹ 0
STATISTICA TEST
Essendo t = 5.36 > ttab = 2.160 si rifiuta H0
2.4.a Verifica di ipotesi per l’indipendenza
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 27
104.2512.53.514.52.72.112.5-3.551.53.12.06.252.51113.53.53.0
4-23.51.52.92.0118.59.53.32.416-48.54.53.32.1
0.25-0.5109.53.42.4255272.82.2
0.25-0.51413.53.93.04-26.54.53.22.1113.54.52.92.1936.59.53.22.40012123.62.7
12.5-3.5139.53.82.40015154.13.3
di2diRBRABA
Metodo non parametrico-Coefficiente di correlazione di Spearman2.4.b
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 28
( )
813,03360
5.6251
)115(15
25.10461
1
61
2
2
2
=-=-
´-=
=-
-= ånn
dr i
s
Essendo rs cal=0.813 > rs tab=0.525 si rifiuta l’ipotesi nulla, i due test sono correlati
2.4.b Coefficiente di correlazione di Spearman
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 29
-13.5-0.6-1.1-0.5-0.9-0.9-1.2-1.0-0.6-0.9-1.1-0.8-0.8-0.9-1.4-0.8di
12.95Σ0.362.72.11.213.12.00.253.53.00.812.92.00.813.32.41.443.32.11.03.42.4
0.362.82.20.813.93.01.213.22.10.642.92.10.643.22.40.813.62.71.963.82.40.644.13.3di
2BA
H0: md =0H1: md >0
2.5.a Si valuti l’esistenza di una differenza significativa tra i due metodi - Metodo parametrico
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 30
( ) ( ) ( )0571.0
11515
5.1395.12
11
9.015
5.13
2222
2 =-
--
=-
-=
--
=
-=-
==
å åå
å
nn
dd
n
ddS
nd
d
iii
d
i
nSd
td
dm-= 59.14
150571.0
9.0-=
-=calct
Poiché t tab =2.16 < t cal = 14.59, rifiuto l’ipotesi nulla, le due metodiche sono significativamente differenti
2.5.a Confronto tra campioni appaiati test t- student
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 31
-2.5-0.62.72.1-12.5-1.13.12.0
-1-0.53.53.0-8.5-0.92.92.0-8.5-0.93.32.4-14-1.23.32.1-11-1.03.42.4-2.5-0.62.82.2-8.5-0.93.93.0-12.5-1.13.22.1
-5-0.82.92.1-5-0.83.22.4
-8.5-0.93.62.7-15-1.43.82.4-5-0.84.13.3
RdifdiBA Σ R- = 120
Intervallo tabulato25 ---- 95
I due metodi sono significativamente differenti
2.5.b Si valuti l’esistenza di una differenza significativa tra i due metodi - Metodo non parametrico – Ranghi con segno
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 32
Al fine di valutare la relazione tra radioesposizione e patologie tiroidee in una popolazione di lavoratori ospedalieri, sono stati reclutati 304 dipendenti radioesposti e 383 dipendenti non radioesposti. I risultati sono esposti nella tabella:
477240237Sani
687383304Totale
372314Tiroidite
17312053Noduli
TotaleNon Rx Esp.Rx Esp.
3.1 Si valuti l’esistenza di una relazione tra esposizione e patologia tiroidea.3.2 Limitando l’attenzione ai soggetti con patologia nodulare e sani si verifichi con tutti i metodi conosciuti la significatività della relazione e si determini l’odds ratio (3.3) e il suo intervallo di confidenza (3.3.a).
ESERCIZIO 3.ESERCIZIO 3.
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 33
687,00383,00304,00Totale
477,00265,93211,07Sani
37,0020,6316,37Tiroidite
173,0096,4576,55Noduli
TotaleNon Rx Esp.Rx Esp.
Tabella dei valori attesi
Eij= ni * nj / N = 304*173/687=76.55
G.l.=(r-1)*(c-1)=2
3.1
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 34
å =-
=C÷øö
çèæ
ij ijEijEijO
2
2
( ) ( ) =-++-=93.265
293.265240...
2
55.7655.7653
=7.25+0.34+3.18+5.75+0.27+2.53=19.33
Poiché c2 cal=19.33 < c2 tab=5.99si conclude che c’è legame tra esposizione e patologia tiroidea
STATISTICA TEST3.1
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 35
477240237Sani
650360290Totale
17312053Noduli
TotaleNon Rx Esp.Rx Esp.
( )( )( )( )( )
( )64.18
36029047717323712024053650 22
2 =××××-××
=++++
-=
dbcadcbabcadNc
Poiché c2 cal=18.64 < c2 tab=3.84si conclude che c’è legame tra esposizione e patologia nodulare tiroidea
3.2.a Confronto della proporzione di patologia nodulare tra esposti e non esposti – tabella 2 x 2.
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 36
( ) ( )32.4
3601
2901
74.026.0
033.018.0
2
1
1
1
212ˆ
1ˆ
-=
÷øö
çèæ +×
--=
÷÷
ø
ö
çç
è
æ+×
---=
nnqp
ppppz
74.01
26.0650
12053
=-=
=+
=
pq
pn1=290
x1=53
p1=0.18
n2=360
x2=120
p2=0.33
Essendo z=4.32 >1.96 si rifiuta l’ipotesi nulla ð le due proporzioni sono differenti
3.2.b Confronto della proporzione di patologia nodulare tra esposti e non esposti – test z.
Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 37
OR = ad / bc = 53*240 / 120*237 = 12720 / 28440 = 0.45
La radioesposizione non è fattore di rischio per la patologia nodulare tiroidea
3.3.a Determinazione dell’Odds Ratio
3.3.b Intervallo di confidenza dell’Odds Ratio
úúû
ù
êêë
é
÷÷ø
öççè
æ±
21
cz
OR = 0.313 – 0.646
z = 1.96 c2 = preso dal test di significatività (vedi pag. 35)