1
Correlazione
Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare.
Il segno di tale coefficiente indica il tipo (positivo se la variazione è concorde, negativo quando, all’aumentare di una variabile l’altra decresce), il valore assoluto ne specifica invece il grado.
Il valore della correlazione varia tra -1 e +1.
Il coefficiente r non è in grado di rilevare un’eventuale correlazione di tipo non lineare.
n
i
n
iii
n
iii
yyxx
yyxxr
1 1
22
1
)()(
))((
2
Esempi di r
r =
x
y
1.000 r =
x
y
1.000 r =
x
y
1.000
r =
x
y
0.562 r =
x
y
0.625 r =
x
y
0.500
Perfetta correlazione positiva
Debole correlazione positiva
3
Esempi di r
Associazione lineare non significativa
Vari gradi di correlazione negativa
r =
x
y
-0.079 r =
x
y
0.026 r =
x
y
0.078
r =
x
y
-0.544 r =
x
y
-0.931 r =
x
y
-1.000
4
ESERCIZIO 52 La concentrazione plasmatica di sodio (mmol/L) e la pressione arteriosa sistolica (mmHg) sono state misurate contemporaneamente in un campione di 12 pazienti. I dati sono riportati nella seguente tabella.
Rappresentare i dati mediante un diagramma di dispersione e calcolare il coefficiente di correlazione.
paziente Na (xi) pressione (yi)
1 140 135
2 135 105
3 141 135
4 144 140
5 136 120
6 139 125
7 143 135
8 137 125
9 145 150
10 141 130
11 142 145
12 138 120
pressione
050
100150200
130 135 140 145 150
Na
pre
ssio
ne
5
140 135 -0.08 0.01 4.58 21.01 -0.38135 105 -5.08 25.84 -25.42 646.01 129.20141 135 0.92 0.84 4.58 21.01 4.20144 140 3.92 15.34 9.58 91.84 37.53136 120 -4.08 16.67 -10.42 108.51 42.53139 125 -1.08 1.17 -5.42 29.34 5.87143 135 2.92 8.51 4.58 21.01 13.37137 125 -3.08 9.51 -5.42 29.34 16.70145 150 4.92 24.17 19.58 383.51 96.28141 130 0.92 0.84 -0.42 0.17 -0.38142 145 1.92 3.67 14.58 212.67 27.95138 120 -2.08 4.34 -10.42 108.51 21.701681 1565 110.92 1672.92 394.58
92.092.167292.110
58.394
)()(
))((
1 1
22
1
n
i
n
iii
n
iii
yyxx
yyxxr
08.140x 42.130y
Na pressione xxi yyi 2)( xxi
2)( yyi ))(( yyxx ii
La correlazione lineare suggerita dal diagramma a dispersione è molto forte. All’aumentare della concentrazione di sodio aumenta in modo lineare la pressione sanguigna.
6
ESERCIZIO 53 Si consideri la distribuzione chi-quadrato con due gradi di libertà.a) Quale proporzione dell'area sotto la curva giace a destra di 9.21?b) Quale valore di delimita il 10% superiore della distribuzione?
a)
01.021.9P 22
10.0P*2
222 6.4
*22
b)
7
Quando le variabili sono qualitative e i dati da
confrontare indipendenti si utilizza il Test 2
Per l'applicazione di questo test è opportuno
costruire una tavola di contingenza che contenga il
numero di casi osservati (O) in ogni combinazione
delle modalità delle due variabili analizzate, e di
casi attesi (A), cioè il numero di casi che ci si
potrebbe aspettare se non fosse presente la
differenza studiata.
Test chi quadratoTest chi quadrato
A
AO 22 )(
8
EsempioEsempio
Si studia l’effetto di un farmaco antiinfiammatorio nella cura dell’artrite reumatoide.
A 62 pazienti viene somministrato il farmaco e a 11 un placebo. La frequenza di rigidità articolare rilevata nei due gruppi è riportata nella tabella sottostante:
farmaco placebo Totale
Rigidità 14 5 19
Non rigidità 48 6 54
Totale 62 11 73
9
valori osservati14 5 1948 6 5462 11 73
valori attesi16,13699 2,863014 1945,86301 8,136986 54
62 11 73
p-value 0,111074
Il p-value non è significativo e non supporta quindi l’efficacia di tale farmaco.
Risultato (Excel)Risultato (Excel)
Calcolo attesi: la probabilità di rigidità articolare in tutto il campione indipendentemente dal trattamento è 19 su 73. Se non ci fosse effetto del trattamento mi aspetterei la stessa proporzione di casi di rigidità nei due gruppi, cioè:
(19/73)*62=16,14 e (19/73)*11=2.86
10
ESERCIZIO 54 Un gruppo di cardiologi conduce uno studio per accertare l'associazione che esiste tra metodo contraccettivo e ipertensione. Di 40 donne che usano contraccettivi orali e 60 donne che usano altri metodi, rispettivamente 8 e 15 sono ipertese. Testare l'ipotesi che tra il tipo di contraccettivo e ipertensione esista associazione ad un livello di significatività dell'1%.
Ipertese 8 15 23
Non ipertese 32 45 77
Tot 40 60 100
Orali Altro Totfrequenzeosservate
Ipertese 9.2 13.8 23
Non ipertese 30.8 46.2 77
Tot 40 60 100
Orali Altro Totfrequenzeattese
11
neipertensioetivicontraccetmetoditraneassociazio:H
neipertensioetivicontraccetmetoditrazaindipenden:H
1
0
= 0 . 0 1
3388.00312.00468.01043.01565.0
2.462.4645
8.308.30328.138.13152.92.98X2
2222
P o i c h è 2
01.0,12 X ( 0 . 3 3 8 8 < 6 . 6 3 ) n o n c i s o n o m o t i v i p e r
a f f e r m a r e c h e v i s i a u n a r e l a z i o n e t r a u s o d i m e t o d i
c o n t r a c c e t t i v i e i p e r t e n s i o n e .
12
ESERCIZIO 55 Saggiate ad un livello di significatività del 5% se il sesso e l'età sono significativamente associati.
20-44 anni
45-64 anni
65 anni
maschifemmine
3652
109117
126160
maschi
femmineTot
20-4436 (39.7)52 (48.3)
88
45-64109 (102.1)117 (123.9)
226
65126 (129.2)160 (156.8)
286
Tot271329600
Tabella osservati e attesi
13
neassociazio:H
zaindipenden:H
1
0 = 0 . 0 5
X 2 2 2 2
2 2 2
36 39 7 39 7 109 102 1 102 1 126 129 2 129 2
52 48 3 48 3 117 123 9 123 9 160 156 8 156 80 3448 0 4663 0 0793 0 2834 0 3843 0 0653 1 6234
. . . . . .
. . . . . .. . . . . . .
P o i c h è 2
05.0,22 X ( 1 . 6 2 < 5 . 9 9 ) n o n c i s o n o m o t i v i p e r
a f f e r m a r e c h e v i s i a u n a r e l a z i o n e t r a s e s s o e d e t à : c i o è
c h e i l r a p p o r t o m a s c h i - f e m m i n a v a r i a l v a r i a r e d e l l a
c l a s s e d i e t à .
14
ESERCIZIO 56 Un farmaco per il trattamento del raffreddore è stato somministrato a metà di un gruppo di malati selezionati casualmente. All'altra metà dei pazienti con raffreddore è stato somministrato un placebo. I risultati ottenuti sono riportati nella seguente tabella:
Verificare se l'opinione del paziente è indipendente dal trattamento ricevuto ammettendo un errore del I° tipo del 5%.
Farmaco 16 30 104
Nocivo Nessun effetto
Utile
Placebo 20 42 88
Farmaco 16 (18) 30 (36) 104 (96) 150
Placebo 20(18) 42 (36) 88 (96) 150
Tot 36 72 192 300
Nocivo Nessun effetto Utile Tot
15
opinioneedotrattamenttraneassociazio:H
opinioneedotrattamenttrazaindipenden:H
1
0
=0.05
778.3
969688363642181820
9696104363630181816
222
2222
X
Poichè (3.778<5.99) non ci sono motivi per
affermare che vi sia una relazione tra opinione dei pazienti
e tipo di trattamento. Il test non è significativo ad un
livello del 5%.
205.0,2
2 X
16
ESERCIZIO 57 La distribuzione percentuale, in accordo allo stato civile, della popolazione USA al di sopra dei 18 anni nel 1968 è la seguente: celibe/nubile=21.6, coniugato/a=62.9, vedovo/a=7.7, divorziato/a=7.8.Un campione casuale di 400 persone, di età superiore ai 18 anni (selezionato nel 1990) ha mostrato che 102 di queste sono celibi/nubili, 220 coniugate, 35 vedove e 43 divorziate. Saggiate, ad un livello di significatività del 5%, se in questo periodo è cambiata la distribuzione percentuale dello stato civile della popolazione USA di età superiore ai 18 anni.
Single Cng Ved. Div. Tot
Osservati%Attese
Attesi
10221.686.4
22062.9
251.6
357.730.8
437.8
31.2
400
400
neassociazio:H
zaindipenden:H
1
0 =0.05
17
822.11463.4573.0969.3817.22.312.3143
8.308.30356.2516.2512204.864.86102
2
2222
X
Poichè (11.822>7.815) si può affermare che dal 1968
vi è stato un mutamento nella struttura dello stato civile in USA.
205.0,3
2 X
ESERCIZIO 58 Una ditta ha 500 dipendenti. Di questi 300 sono uomini e 280 sono coniugati/e. Dei 300 uomini, 190 sono coniugati. Se un soggetto di questa ditta è selezionato a caso, qual è la probabilità che sia:
a) una donnab) un uomo sapendo che è coniugatoc) Si può ritenere che tra i dipendenti vi sia associazione tra sesso e stato civile (=0.05).
Uomini 110 190 300
Donne 110 90 200
Tot 220 280 500
OSSERVATI Single Cng. Tot
18
a) 4.0500/200donnaP
b) 679.0500/280
500/190coniugatooomuP
c)
neassociazio:H
zaindipenden:H
1
0 =0.05
Uomini 132 168 300
Donne 88 112 200
Tot 220 280 500
ATTESI Single Cng. Tot
37.1632.45.588.267.311211290 8888110
168168190132132110
22
222
X
Poichè (16.37>3.84) ci sono motivi per affermare che vi sia una relazione tra sesso e stato civile tra i dipendenti della fabbrica considerata.
205.0,1
2 X
19
ESERCIZIO 59 500 maschi sono classificati secondo l'età in anni compiuti e il numero dei fratelli. I risultati ottenuti sono riportati nella seguente tabella:
0 68 32 36 89
1 9 57 24 60
1-5 6-10 11-13 14-18
2 59 25 20 21
a) con quale misura di dispersione è possibile confrontare la variabilità delle due variabili prese in considerazione, cioè l’età ed il numero di fratelli (non fare i calcoli)?
b) calcolare per la variabile età una opportuna misura di posizione e una di dispersione.
c) calcolare per la variabile N° di fratelli una opportuna misura di posizione e una di dispersione.
d) quale è la probabilità che un soggetto estratto a caso abbia uno o più di un fratello?
e) gli eventi "essere in età prescolare" ed "avere un solo fratello" sono mutualmente esclusivi? Dimostrarlo con il calcolo delle probabilità.
f) verificare se esiste un’associazione tra età e numero di fratelli.
20
a) Il coefficiente di variazione V.C
a) con quale misura di dispersione è possibile confrontare la variabilità delle due variabili prese in considerazione, cioè l’età ed il numero di fratelli (non fare i calcoli)?
b)
10500
16170128081443136x
2.5
499
1701610...136310s
22
b) calcolare per la variabile età una opportuna misura di posizione e una di dispersione.
c) calcolare per la variabile N° di fratelli una opportuna misura di posizione e una di dispersione.
c) Moda=0 Range=2-0=2 d) quale è la probabilità che un soggetto estratto a caso abbia uno o più di un fratello?
d)
55.0500
1251501xP
21
e) P( età prescolare avere un solo fratello) = 9/500 0
non sono eventi mutualmente esclusivi
neassociazio:H
zaindipenden:H
1
0 =0.05
X2 2 2 2
2 2 2
36 397 397 109 1021 1021 126 1292 129252 483 483 117 1239 1239 160 1568 156803448 04663 00793 02834 03843 00653 16234
. . . . . .
. . . . . .. . . . . . .
Poichè 2
05.0,62 X (1.62<12.59) non ci sono motivi per
affermare che vi sia una relazione tra età numero di fratelli
-
Top Related