1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di...

21
1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica il tipo (positivo se la variazione è concorde, negativo quando, all’aumentare di una variabile l’altra decresce), il valore assoluto ne specifica invece il grado. Il valore della correlazione varia tra -1 e +1. Il coefficiente r non è in grado di rilevare un’eventuale correlazione di tipo non lineare. n i n i i i n i i i y y x x y y x x r 1 1 2 2 1 ) ( ) ( ) )( (

Transcript of 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di...

Page 1: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

1

Correlazione

Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare.

Il segno di tale coefficiente indica il tipo (positivo se la variazione è concorde, negativo quando, all’aumentare di una variabile l’altra decresce), il valore assoluto ne specifica invece il grado.

Il valore della correlazione varia tra -1 e +1.

Il coefficiente r non è in grado di rilevare un’eventuale correlazione di tipo non lineare.

n

i

n

iii

n

iii

yyxx

yyxxr

1 1

22

1

)()(

))((

Page 2: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

2

Esempi di r

r =

x

y

1.000 r =

x

y

1.000 r =

x

y

1.000

r =

x

y

0.562 r =

x

y

0.625 r =

x

y

0.500

Perfetta correlazione positiva

Debole correlazione positiva

Page 3: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

3

Esempi di r

Associazione lineare non significativa

Vari gradi di correlazione negativa

r =

x

y

-0.079 r =

x

y

0.026 r =

x

y

0.078

r =

x

y

-0.544 r =

x

y

-0.931 r =

x

y

-1.000

Page 4: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

4

ESERCIZIO 52   La concentrazione plasmatica di sodio (mmol/L) e la pressione arteriosa sistolica (mmHg) sono state misurate contemporaneamente in un campione di 12 pazienti. I dati sono riportati nella seguente tabella.

 Rappresentare i dati mediante un diagramma di dispersione e calcolare il coefficiente di correlazione.

paziente Na (xi) pressione (yi)

1 140 135

2 135 105

3 141 135

4 144 140

5 136 120

6 139 125

7 143 135

8 137 125

9 145 150

10 141 130

11 142 145

12 138 120

pressione

050

100150200

130 135 140 145 150

Na

pre

ssio

ne

Page 5: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

5

140 135 -0.08 0.01 4.58 21.01 -0.38135 105 -5.08 25.84 -25.42 646.01 129.20141 135 0.92 0.84 4.58 21.01 4.20144 140 3.92 15.34 9.58 91.84 37.53136 120 -4.08 16.67 -10.42 108.51 42.53139 125 -1.08 1.17 -5.42 29.34 5.87143 135 2.92 8.51 4.58 21.01 13.37137 125 -3.08 9.51 -5.42 29.34 16.70145 150 4.92 24.17 19.58 383.51 96.28141 130 0.92 0.84 -0.42 0.17 -0.38142 145 1.92 3.67 14.58 212.67 27.95138 120 -2.08 4.34 -10.42 108.51 21.701681 1565 110.92 1672.92 394.58

92.092.167292.110

58.394

)()(

))((

1 1

22

1

n

i

n

iii

n

iii

yyxx

yyxxr

08.140x 42.130y

Na pressione xxi yyi 2)( xxi

2)( yyi ))(( yyxx ii

 La correlazione lineare suggerita dal diagramma a dispersione è molto forte. All’aumentare della concentrazione di sodio aumenta in modo lineare la pressione sanguigna.

Page 6: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

6

ESERCIZIO 53   Si consideri la distribuzione chi-quadrato con due gradi di libertà.a) Quale proporzione dell'area sotto la curva giace a destra di 9.21?b) Quale valore di delimita il 10% superiore della distribuzione?

 a)

01.021.9P 22

10.0P*2

222 6.4

*22

 b)

Page 7: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

7

Quando le variabili sono qualitative e i dati da

confrontare indipendenti si utilizza il Test 2

Per l'applicazione di questo test è opportuno

costruire una tavola di contingenza che contenga il

numero di casi osservati (O) in ogni combinazione

delle modalità delle due variabili analizzate, e di

casi attesi (A), cioè il numero di casi che ci si

potrebbe aspettare se non fosse presente la

differenza studiata.

Test chi quadratoTest chi quadrato

A

AO 22 )(

Page 8: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

8

EsempioEsempio

Si studia l’effetto di un farmaco antiinfiammatorio nella cura dell’artrite reumatoide.

A 62 pazienti viene somministrato il farmaco e a 11 un placebo. La frequenza di rigidità articolare rilevata nei due gruppi è riportata nella tabella sottostante:

farmaco placebo Totale

Rigidità 14 5 19

Non rigidità 48 6 54

Totale 62 11 73

Page 9: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

9

valori osservati14 5 1948 6 5462 11 73

valori attesi16,13699 2,863014 1945,86301 8,136986 54

62 11 73

p-value 0,111074

Il p-value non è significativo e non supporta quindi l’efficacia di tale farmaco.

Risultato (Excel)Risultato (Excel)

Calcolo attesi: la probabilità di rigidità articolare in tutto il campione indipendentemente dal trattamento è 19 su 73. Se non ci fosse effetto del trattamento mi aspetterei la stessa proporzione di casi di rigidità nei due gruppi, cioè:

(19/73)*62=16,14 e (19/73)*11=2.86

Page 10: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

10

ESERCIZIO 54  Un gruppo di cardiologi conduce uno studio per accertare l'associazione che esiste tra metodo contraccettivo e ipertensione. Di 40 donne che usano contraccettivi orali e 60 donne che usano altri metodi, rispettivamente 8 e 15 sono ipertese. Testare l'ipotesi che tra il tipo di contraccettivo e ipertensione esista associazione ad un livello di significatività dell'1%.

Ipertese 8 15 23

Non ipertese 32 45 77

Tot 40 60 100

  Orali Altro Totfrequenzeosservate

Ipertese 9.2 13.8 23

Non ipertese 30.8 46.2 77

Tot 40 60 100

  Orali Altro Totfrequenzeattese

Page 11: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

11

neipertensioetivicontraccetmetoditraneassociazio:H

neipertensioetivicontraccetmetoditrazaindipenden:H

1

0

= 0 . 0 1

3388.00312.00468.01043.01565.0

2.462.4645

8.308.30328.138.13152.92.98X2

2222

P o i c h è 2

01.0,12 X ( 0 . 3 3 8 8 < 6 . 6 3 ) n o n c i s o n o m o t i v i p e r

a f f e r m a r e c h e v i s i a u n a r e l a z i o n e t r a u s o d i m e t o d i

c o n t r a c c e t t i v i e i p e r t e n s i o n e .

Page 12: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

12

ESERCIZIO 55 Saggiate ad un livello di significatività del 5% se il sesso e l'età sono significativamente associati. 

  20-44 anni

45-64 anni

65 anni

maschifemmine

3652

109117

126160

 maschi

femmineTot

20-4436 (39.7)52 (48.3)

88

45-64109 (102.1)117 (123.9)

226

65126 (129.2)160 (156.8)

286

Tot271329600

Tabella osservati e attesi

Page 13: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

13

neassociazio:H

zaindipenden:H

1

0 = 0 . 0 5

X 2 2 2 2

2 2 2

36 39 7 39 7 109 102 1 102 1 126 129 2 129 2

52 48 3 48 3 117 123 9 123 9 160 156 8 156 80 3448 0 4663 0 0793 0 2834 0 3843 0 0653 1 6234

. . . . . .

. . . . . .. . . . . . .

P o i c h è 2

05.0,22 X ( 1 . 6 2 < 5 . 9 9 ) n o n c i s o n o m o t i v i p e r

a f f e r m a r e c h e v i s i a u n a r e l a z i o n e t r a s e s s o e d e t à : c i o è

c h e i l r a p p o r t o m a s c h i - f e m m i n a v a r i a l v a r i a r e d e l l a

c l a s s e d i e t à .

Page 14: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

14

ESERCIZIO 56   Un farmaco per il trattamento del raffreddore è stato somministrato a metà di un gruppo di malati selezionati casualmente. All'altra metà dei pazienti con raffreddore è stato somministrato un placebo. I risultati ottenuti sono riportati nella seguente tabella: 

 Verificare se l'opinione del paziente è indipendente dal trattamento ricevuto ammettendo un errore del I° tipo del 5%. 

Farmaco 16 30 104

  Nocivo Nessun effetto

Utile

Placebo 20 42 88

Farmaco 16 (18) 30 (36) 104 (96) 150

Placebo 20(18) 42 (36) 88 (96) 150

Tot 36 72 192 300

  Nocivo Nessun effetto Utile Tot

Page 15: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

15

opinioneedotrattamenttraneassociazio:H

opinioneedotrattamenttrazaindipenden:H

1

0

=0.05

778.3

969688363642181820

9696104363630181816

222

2222

X

Poichè (3.778<5.99) non ci sono motivi per

affermare che vi sia una relazione tra opinione dei pazienti

e tipo di trattamento. Il test non è significativo ad un

livello del 5%.

205.0,2

2 X

Page 16: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

16

ESERCIZIO 57   La distribuzione percentuale, in accordo allo stato civile, della popolazione USA al di sopra dei 18 anni nel 1968 è la seguente: celibe/nubile=21.6, coniugato/a=62.9, vedovo/a=7.7, divorziato/a=7.8.Un campione casuale di 400 persone, di età superiore ai 18 anni (selezionato nel 1990) ha mostrato che 102 di queste sono celibi/nubili, 220 coniugate, 35 vedove e 43 divorziate. Saggiate, ad un livello di significatività del 5%, se in questo periodo è cambiata la distribuzione percentuale dello stato civile della popolazione USA di età superiore ai 18 anni.

  Single Cng Ved. Div. Tot

Osservati%Attese

Attesi

10221.686.4

22062.9

251.6

357.730.8

437.8

31.2

400 

400

neassociazio:H

zaindipenden:H

1

0 =0.05

Page 17: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

17

822.11463.4573.0969.3817.22.312.3143

8.308.30356.2516.2512204.864.86102

2

2222

X

Poichè (11.822>7.815) si può affermare che dal 1968

vi è stato un mutamento nella struttura dello stato civile in USA.

205.0,3

2 X

ESERCIZIO 58  Una ditta ha 500 dipendenti. Di questi 300 sono uomini e 280 sono coniugati/e. Dei 300 uomini, 190 sono coniugati. Se un soggetto di questa ditta è selezionato a caso, qual è la probabilità che sia:

a) una donnab) un uomo sapendo che è coniugatoc) Si può ritenere che tra i dipendenti vi sia associazione tra sesso e stato civile (=0.05).

 

Uomini 110 190 300

Donne 110 90 200

Tot 220 280 500

OSSERVATI Single Cng. Tot

Page 18: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

18

a) 4.0500/200donnaP

b) 679.0500/280

500/190coniugatooomuP

c)

neassociazio:H

zaindipenden:H

1

0 =0.05

Uomini 132 168 300

Donne 88 112 200

Tot 220 280 500

ATTESI Single Cng. Tot

37.1632.45.588.267.311211290 8888110

168168190132132110

22

222

X

Poichè (16.37>3.84) ci sono motivi per affermare che vi sia una relazione tra sesso e stato civile tra i dipendenti della fabbrica considerata. 

205.0,1

2 X

Page 19: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

19

ESERCIZIO 59 500 maschi sono classificati secondo l'età in anni compiuti e il numero dei fratelli. I risultati ottenuti sono riportati nella seguente tabella:

0 68 32 36 89

1 9 57 24 60

  1-5 6-10 11-13 14-18

2 59 25 20 21

a) con quale misura di dispersione è possibile confrontare la variabilità delle due variabili prese in considerazione, cioè l’età ed il numero di fratelli (non fare i calcoli)?

b) calcolare per la variabile età una opportuna misura di posizione e una di dispersione.

c) calcolare per la variabile N° di fratelli una opportuna misura di posizione e una di dispersione.

d) quale è la probabilità che un soggetto estratto a caso abbia uno o più di un fratello?

e) gli eventi "essere in età prescolare" ed "avere un solo fratello" sono mutualmente esclusivi? Dimostrarlo con il calcolo delle probabilità.

f) verificare se esiste un’associazione tra età e numero di fratelli.

Page 20: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

20

a) Il coefficiente di variazione V.C

a) con quale misura di dispersione è possibile confrontare la variabilità delle due variabili prese in considerazione, cioè l’età ed il numero di fratelli (non fare i calcoli)?

b)  

10500

16170128081443136x

2.5

499

1701610...136310s

22

b) calcolare per la variabile età una opportuna misura di posizione e una di dispersione.

c) calcolare per la variabile N° di fratelli una opportuna misura di posizione e una di dispersione.

c) Moda=0 Range=2-0=2 d) quale è la probabilità che un soggetto estratto a caso abbia uno o più di un fratello?

d)  

55.0500

1251501xP

Page 21: 1 Correlazione Il coefficiente di correlazione r è un indice campionario del grado e del tipo di associazione lineare. Il segno di tale coefficiente indica.

21

e) P( età prescolare avere un solo fratello) = 9/500 0 

non sono eventi mutualmente esclusivi

neassociazio:H

zaindipenden:H

1

0 =0.05

X2 2 2 2

2 2 2

36 397 397 109 1021 1021 126 1292 129252 483 483 117 1239 1239 160 1568 156803448 04663 00793 02834 03843 00653 16234

. . . . . .

. . . . . .. . . . . . .

Poichè 2

05.0,62 X (1.62<12.59) non ci sono motivi per

affermare che vi sia una relazione tra età numero di fratelli

-