Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è...

45
Pagina 1 Correlazione lineare 0 5 10 15 20 25 30 35 40 45 50 0 5 10 15 20 25 30 Consumo di alcool Mortalità per cirrosi Variabile indipendente V a r i a b i l e d i p e n d e n t e Metodologia per l’analisi dei dati sperimentali L’analisi di studi con variabili di risposta multiple La correlazione studia il rapporto di dipendenza tra due variabili, una della quali (Y) è definita come variabile dipendente ed una (X) come variabile indipendente.

Transcript of Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è...

Page 1: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 1

Correlazione lineare

05

101520253035404550

0 5 10 15 20 25 30

Consumo di alcool

Mor

talit

à pe

r ci

rros

i

Variabile indipendente

Var

iab

ile d

ipe n

de n

t e

Metodologia per l’analisi dei dati sperimentali

L’analisi di studi con variabili di risposta multip le

La correlazione studia il rapporto di dipendenza tra due variabili, una della quali (Y) è definita come variabile dipendente ed una (X) come variabile indipendente.

Page 2: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 2

Correlazione lineare

• Viene utilizzata quando si voglia valutare la relazione lineare tra due o più variabili

• Viene di solito rappresentata come diagramma di dispersione sul piano cartesiano

• La correlazione significativa tra due variabili NON IMPLICA NECESSARIAMENTE un nesso di casualità

Page 3: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 3

Coefficiente di correlazione lineare

r=0

r=1r=0.60

Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili che variano in modo congiunto. Il valore di r varia tra -1 (correlazione negativa perfetta) a 0 (assenza totale di correlazione ad 1 (correlazione positiva perfetta).

Page 4: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 4

Coefficiente di correlazione lineare

( ) ( )( )( )

( )( )1n

n

yxxy

1n

yyxxyx,COV ii

−=

−−−

=∑ ∑∑

( )( )( ) ( )

( )( )

( ) ( )

−=

−−

−−=

∑ ∑∑ ∑

∑ ∑∑

∑∑

n

yy²

n

xx²

n

yxxy

yyxx

yyxxr

222i

2i

ii

Page 5: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 5

Coefficiente di correlazione lineare

La statistica:

21

2

r

nrt

−−⋅=

è distribuita come t di Student con (n-2) gradi di libertà

Page 6: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 6

05

101520253035404550

0 5 10 15 20 25 30

X

Y

Il metodo matematico per individuare la retta di regressione è il metodo dei minimi quadrati , che minimizza la somma degli scarti quadratici tra y osservataed y attesa.

Page 7: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 7

Funzione lineare

05

101520253035404550

0 5 10 15 20 25 30

X

Y

i10i xbby += i10i xbby +=

Page 8: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 8

Correlazione lineare

xb-y b 1 0 =

( )( ) ( )

n

xx

n

yxyx

xDEVyx,COD

b 2

i2i

iiii

1

∑∑

∑ ∑∑

−==

xbb y 10 +=

Page 9: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 9

Scomposizione della devianza

( ) ( )2

i yyyDEV ∑ −=

( ) ( ) ( )yyyyyyyyyy iiiiiii −−−=−+−=−

( ) ( ) ( ) ( )( )∑ ∑ ∑∑ −−+−+−=− iii2

i2

i2

i yyyy2yyyyyy

( ) ( ) ( )∑ ∑ ∑ −+−=− 2i

2i

2i yyyyyy

SS(b1) SS(e)

devianza DOVUTA alla regressione

devianza RESIDUA

Ma la regressione può essere analizzata come un modello di analisi della varianza. L’analisi è concettualmente simile a quella dell’ANOVA ad un criterio di classificazione.

Page 10: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 10

Devianza dovuta alla regressione

( )( )[ ]( )

( )[ ]( )

( )

n

)x(x

n

yxxy

xDEVyx,COD

xx

yyxx)SS(b 2

2

2

2

2i

2

ii1 ∑∑

∑ ∑∑

∑∑

==−

−−=

Page 11: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 11

ANOVA applicata alla regressione

n-1SS(y)TOTALE

MS(e)n-2Per differenza

Residuo

MS(b1)1SS(b1)Regressione

MSg.l.SSFonte di variazione

Page 12: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 12

A differenza degli studi che riportano media e deviazione standard delle variabili di risposta, quelli che descrivono i dati come regressione sono difficilmente ricostruibili a partire dai risultati.

Utilizziamo quindi i risultati di un esempio di Armitage, che descrivono un gruppo di lavoratori dell’industria del cadmio, esposti da più di 10 anni.

Page 13: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 13

0

1

2

3

4

5

6

35 40 45 50 55 60 65 70

La rappresentazione grafica ci lascia intuire la possibilità di una relazione inversa tra le variabili.

Analizzare graficamente i risultati è una pratica utile, prima di procedere all’analisi, perché consente di individuare outliers (punti molto scostati dai rimanenti) ed influence points (punti che da soli influenzano la direzione della retta.

E’ corretto verificare l’esattezza di questi dati, ma non eliminarli per le loro caratteristiche.

Page 14: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 14

Page 15: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 15

Agli elementi di calcolo per le formula semplificate che abbiamo utilizzato per una singola varriabile, SOMMA(x) e SOMMA.Q(x) diviene necessaria la somma dei prodotti. E’ conveniente generare la colonna dei prodotti xy e calcolarne lasommatoria.

Page 16: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 16

( )( ) ( )

0.085912.2577.642

n

xx

n

yxyx

xDEVyx,COD

b 2

i2i

iiii

1

−=−=

=

−==

∑∑

∑ ∑∑

8.18312597

0.08512

47.39

xb-y b 1 0

=

⋅−−=

==

Page 17: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 17

0

1

2

3

4

5

6

35 40 45 50 55 60 65 70

La retta stimata è effettivamente indicativa di una relazione inversa. La rappresentazione della retta è effettuata correttamente solo entro i limiti di valori di x presenti nella regressione.

Page 18: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 18

( )[ ]( )

( )

6.608912.2577.6425][

n

)x(x

n

yxxy

xDEVyx,COD

)SS(b

2

22

1

=−=

=−

==∑∑

∑ ∑∑2

2

La devianza dovuta alla regressione si calcola a partire dagli stessi termini.

Page 19: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 19

ANOVA applicata alla regressione

n-111.739TOTALE

MS(e)n-2Per differenza

Residuo

MS(b1)16.608Regressione

MSg.l.SSFonte di variazione

Page 20: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 20

ANOVA applicata alla regressione

1111.739TOTALE

0.513 105.131Residuo

6.60816.608Regressione

MSg.l.SSFonte di variazione

Page 21: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 21

ANOVA applicata alla regressione

Il rapporto:

( )( )eMSbMS

F 1=

segue la distribuzione F con 1 ed (n-2) gradi di libertà

Page 22: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 22

ANOVA applicata alla regressione

F=12.871111.739TOTALE

0.513 105.131Residuo

6.60816.608Regressione

MSg.l.SSFonte di variazione

Il valore di F consente di rifiutare l’ipotesi nulla ad un livello di significatività di 0.0049

Page 23: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 23

Page 24: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 24

Intervallo di confidenza del coefficiente angolare

SS(x)MS(e)

sb1 =

L'errore standard del coefficiente angolare è:

b11 st b ⋅± α

Per cui il suo intervallo di confidenza è:

Page 25: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 25

0.1370.0320.02372.2280.085st b b11 −÷−=⋅±−=⋅± α

Page 26: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 26

Intervallo di confidenza della stima di y

−++⋅=SS(x)

)xxn1

12)-(n

SS(e)s

2i

yi

(

L'errore standard di è:

iyi st y ⋅± αˆ

Per cui il suo intervallo di confidenza è:

y

Page 27: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 27

Page 28: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 28

Coefficiente di determinazione

La quota di variazione della Y attribuibile alla associazione lineare con la x è valutata come:

( )( )ySSbSS 12 =r

Questo rapporto, riferito come coefficiente di determinazione, varia da 0 ad 1:- è 0 quando tra le variabili non c'è associazione lineare- è 1 quando tutta la variazione della y è determinata dalla relazione lineare con la x.

Page 29: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 29

Analisi della covarianza

• L’analisi della covarianza (ANCOVA) èadatta all’analisi di dati in cui la variabile oggetto di studio è influenzata da cause sistematiche, ed associata ad una covariata per la quale sia difficile formare gruppi omogenei

Page 30: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 30

Analisi della covarianza

x

y

x

y

y

x

y

x x

y

x

y

Page 31: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 31

L’esempio riporta i dati di lavoratori dell’industria del candmio, rispettivamente esposti da più di 10 anni, esposti da 10 anni, e non esposti.

Page 32: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 32

Abbiamo già visto come le misure di sintesi, somme, somme dei quadrati e somme dei prodotti, contengano tutta l’informazione che ci sarà necessaria.

Page 33: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 33

( )( ) ( ) 0.0195

9392.123183.623

n

xx

n

yxyx

xDEVyx,COD

b 2

i2i

iiii

com −=−==

−==

∑∑

∑ ∑∑

Il beta comune (cioè il coefficiente di regressione che tiene conto di tutti i dati,trascurando la loro divisione in gruppi) si calcola a partire dalle somme delle devianze e delle codevianze dei tre gruppi.

Page 34: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 34

gruppi entro residua

moparallelis

MS

MSF =

• Consente di rifiutare l’ipotesi di parallelismo tra i gruppi.

• Se il test non è significativo i dati non mostrano eterogeneità dovuta a mancato parallelismo, e si può rappresentare la relazione tra X e Y con il coefficiente di regressione comune

• Se non si rifiuta l’ipotesi di parallelismo, può essere condotta l’analisi della covarianza

Page 35: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 35

Un problema dell’analisi della covarianza è che alcuni software, anche piuttosto avanzati, quali STATA o SAS, non hanno un programma specifico per eseguirlo, ma richiedono l’uso di artifici di calcolo.

Nell’esempio STATA: l’assenza di interazione è indicativa di parallelismo.

Page 36: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 36

Il termine può quindi venire rimosso dall’analisi. Non risulta alcuna differenza tra i gruppi; le differenze sono tutte spiegate dall’età.

Page 37: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 37

4.484.523.77CV “aggiustata”

4.46±0.694.47±0.683.94±1.03CV

39.8±1237.8±9.249.8±9.1Età

Non esposti

Esposti < 10 anni

Esposti > 10 anni

Variabile

)xx(byy i1ci*i −−=

L’ANCOVA consente il calcolo delle medie “aggiustate”, cioè di quelle che sarebbero state le medie delle y se il valore delle x fosse stato uguale in tutti i gruppi, e pari al valore di x medio. Il cacolo è molto semplice, anche quando il software a disposizione non lo effettui (sono denominate anche LS means)

Page 38: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 38

Un uso improprio della correlazione

0

100

200

300

400

500

600

700

0 200 400 600 800

Strumento 1

Str

um

e nto

2

Viene spesso utilizzata in modo improprio la correlazione per definire la concordanza di due metodi o due strumenti di misura.

La correlazione significa la presenza di dipendenza tra le misure, ma è difficile immaginare che due misure della stessa unità sperimentale siano indipendenti!

Page 39: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 39

Una presentazione alternativa

-100

-80

-60

-40

-20

0

20

40

60

80

0 200 400 600 800

PEFR medio

Dif

fere

nza

tra

le d

ue m

isur

e

-100

-80

-60

-40

-20

0

20

40

60

80

0 200 400 600 800

PEFR medio

Dif

fere

nza

tra

le d

ue m

isur

e

Il metodo più utilizzato è il grafico di Brandt e Altman: se una delle due misure rappresenta uno standard consolidato, va in ascissa, altrimenti ci si mette la media delle due misure. In ordinata la corrispondente differenza tra le due misure. Non è associato un test inferenziale.

Page 40: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 40

Misure di concordanza per dati qualitativi

3004515240Totale

303000Severamente ridotta

3031215Mediamente ridotta

240123225Efficienza conservata

TotaleSeveramente ridotta

Mediamente ridotta

Efficienza conservata

OSSERVATORE A

OSSERVATORE B

Il problema della concordanza si pone anche per valutazioni di tipo qualitativo. Vediamo questo esempio immaginario. I numeri sono frequenze assolute.

Page 41: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 41

Misure di concordanza per dati qualitativi

3004515240Totale

3030Severamente ridotta

3012Mediamente ridotta

240225Efficienza conservata

TotaleSeveramente ridotta

Mediamente ridotta

Efficienza conservata

OSSERVATORE A

OSSERVATORE B

2673012225ff ii0 =++==∑ =

k

i 1Concordanza osservata:

Page 42: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 42

Misure di concordanza per dati qualitativi

3004515240Totale

3030 (4.5)Severamente ridotta

3012 (1.5)Mediamente ridotta

240225 (192)Efficienza conservata

TotaleSeveramente ridotta

Mediamente ridotta

Efficienza conservata

OSSERVATORE A

OSSERVATORE B

Concordanza dovuta al caso: 1984.51.5192fff .ii.e =++=⋅=∑ =

k

i 1

La concordanza dovuta al caso è stimata dal valore atteso (come al solito, totale di riga per totale di colonna divisio gran totale)

Page 43: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 43

Statistica k di Cohen

0.67610269

198300198267

f-Nff

=ke

eo ==−−=−

Concordanza completa: k=1

Eccellente concordanza: k>0.75

Scarsa concordanza: k<0.40

Page 44: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 44

Statistica k di Cohen

E’ distribuita come una deviata gaussiana standardizzata, quando N>100

se(k)k

Page 45: Appunti 2 Regressione e correlazione · 2008-07-04 · Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili ... Per cui il suo intervallo di confidenza

Pagina 45

Statistica k di Cohen

0.0830600198

198)(300300198

)f(NNf

=se(k)e

e ==−⋅

=−⋅

ha distribuzione gaussiana

8.450.08

0.676se(k)

k ==