Il metodo della regressione può essere - dsnm.univr.it · di sopravvivenza, che è una ......

Post on 03-Jul-2018

215 views 1 download

Transcript of Il metodo della regressione può essere - dsnm.univr.it · di sopravvivenza, che è una ......

Pagina 1

• Il metodo della regressione può essere esteso dal caso in cui si considera la variabilità della risposta della y in relazione ad una sola variabile indipendente X ad una situazione piùgenerale in cui le variabili indipendenti siano più di una.

• Il metodo è detto regressione multiplaed è uno degli strumenti statistici piùlargamente utilizzati.

Metodologia per l’analisi dei dati sperimentali

L’analisi di studi con variabili di risposta multip le:

Regressione multipla

Pagina 2

Quando la variabile indipendente è una variabile continua, il metodo è quello della regressione multipla lineare.

Pagina 3

• L’elaborazione eseguita secondo il metodo della regressione consente di adattare ai dati un’equazione lineare della forma:

• In senso geometrico l’equazione rappresenta un iperpiano nello spazio multidimensionale.

• Consideriamo il caso più semplice di due variabili indipendenti. L’equazione diviene:

pjpijijji xbxbxbxbby ++++++= ........ˆ 22110

jji xbxbby 22110ˆ ++=

Pagina 4

I punti sul piano sono i valori teorici di y, quelli che si verificherebbero qualora X1 e X2 fossero le uniche cause di variazione della Y

Pagina 5

Il parametro b0 è l’intercetta del piano con l’asse della Y, cioè il valore che questa variabile assume quando X1 ed X2 sono uguali a 0

Pagina 6

α

Nella regressione univariata il parametro b1 è la tangente dell’angolo α che la retta forma con l’asse delle x.

Pagina 7

I parametri b1 e b2 sono i coefficienti di regressione multipla; in termini geometrici la tangente dell’angolo tra la retta sul piano definita da valori costanti delle altre variabili.

Pagina 8

Coefficienti di regressione

• Il coefficiente di regressione multipla bimisura la variazione media di Y quando Xi varia di una sola unità, e tutte le altre X sono tenute costanti. In virtù di questo significato i coefficienti bi sono anche chiamati coefficienti di regressione parziale, per rimarcare la differenza nei confronti del coefficiente di regressione semplice lineare, che viene indicato come coefficiente di regressione totale.

Pagina 9

Utilizziamo come esempi una matrice di 25 dati.

Pagina 10

Pagina 11

Il coefficiente di regressione relativo alla stessa variabile, è diverso quando si tratti di una regressione univariata (in alto) o nel contesto di una regressione multivariata (in basso).

Pagina 12

• I valori dei coefficienti di regressione semplice (totale) sono diversi da quelli della regressione multipla (coefficienti di regressione parziale)

• La differenza dipende dal fatto che le X sono solitamente tra loro correlate e pertanto la quota di variabilità della regressione semplice, calcolata in relazione ad una delle X, comprende la porzione dovuta a questa variabile, nella situazione in cui tutte le altre sono costanti, più quella che risulta dalla correlazione con queste ultime.

Pagina 13

Il test t per un particolare coefficiente di regressione b saggia l’ipotesi che la corrispondente variabile predittiva possa essere eliminata dall’equazione di regressione senza significativi effetti sulla variabilità di y.

Pagina 14

La bontà dell’adattamento dell’equazione di regressione ai dati sperimentali, può essere stimata dal rapporto:

SS(y)

)....bbSS(bR p212 =

R² è noto come coefficiente di determinazione multipla e misura la quota della devianza della Y legate linearmente alle variazioni delle X incluse nel modello di regressione.

Pagina 15

Pagina 16

Contributo marginale delle variabili X

• In molti casi è di interesse valutare il contributo aggiuntivo di ciascuna delle X individualmente o di sottogruppi, alla SS dovuta alla regressione, quando tutte le altre X sono inserite nel modello.

• Questa quota di variabilità viene riferita come marginale o parziale e può essere saggiata mediante l’analisi della varianza

Pagina 17

0.0808996.5180.51

996.515292.455372.96

R21.23

==

=−=

Pagina 18

0.75103678.772762.771

3678.772610.195372.96

R23.12

==

=−=

Pagina 19

Regressione lineare con variabile qualitativa

• Facciamo riferimento al caso di variabili binarie che si presentano con due sole modalità: guarito/non guarito, vivo/morto, non trauma/trauma, non peggiorato/peggiorato…

• Il modo più semplice di esprimere numericamente queste variabili è quello di attribuire il valore di 0 a una e di 1 all’altra.

• Quando si tratta di una variabile indipendente X, le modalità di calcolo non si modificano.

Pagina 20

Pagina 21

Pagina 22

• Il modello è del tipo:

jjjji xbxbxbxbby 443322110ˆ ++++=• Se x4=0 allora:

jjji xbxbxbby 3322110ˆ +++=• Se x4=1 allora:

jjji xbxbxbbby 33221140 )(ˆ ++++=

• Sono due rette parallele e con diversa intercetta. Quindi il coefficiente b4 è una stima dell’effetto medio di X4 sul valore medio della Y.

Pagina 23

Regressione lineare con variabile dipendente qualitativa

• Anche quando la variabile binaria sia la variabile dipendente Y è possibile adottare il modello di regressione lineare.

• Se Y ha p (probabilità di successo) compreso tra 0.2 e 0.8 l’analisi còsìcondotta approssima da vicino i risultati dell’analisi pesata, che rappresenterebbe l’approccio corretto.

Pagina 24

0.63018 ==p

I dati dell’esempio rappresentano la probabilità di successo di un programma di addestramento, in funzione del tempo utilizzato.

La probabilità di successo è 0.6, per cui possiamo utilizzare la regressione lineare semplice.

Pagina 25

Pagina 26

Consideriamo ora anche la variabile sesso (1=maschio 2=femmina) per verificare se influenzi la probabilità di successo.

Pagina 27

L’assunzione della linearità del fenomeno, tuttavia, in casi come questo può costituire un vincolo.

Pagina 28

La regressione logistica

A differenza della regressione lineare, la regressione logistica non assume le linearità della relazione tra variabile dipendente e variabili indipendenti, non richiede distribuzione normale delle variabili, ed in genere ha vincoli meno stringenti.

Pagina 29

Con i medesimi dati calcoliamo la regressione logistica. Nel pannello superiore il risultato è proposto come coefficiente, nell’inferiore come odds ratio .

Pagina 30

Quando si descrive la frequenza con cui si realizza un evento, la proporzione di eventi rappresenta la misura piiùcomunemente usata, che vienedenominata RISCHIO:

rischio a esposti soggetti di numero eventi di numero

Sia il numeratore che il denominatore sono considerati su un periodo definito, usualmente non lungo.

Pagina 31

Una misura di frequente utilizzo negli studi, ma di non immediata comprensione è l'ODDS:

eventiSENZA soggetti di numeroeventi CON soggetti di numero

A differenza del rischio, l'odds assume valori tra 0 ed infinito.

Pagina 32

Odds ratio

)d(nd)d(nd

dndn

dd

dnd

dnd

oo

221

112

22

11

1

2

11

1

22

2

1

2

−⋅−⋅=

−−⋅

=

−==Φ

nc - dcnk - dkNon eventi

dcdkEventi

ControlliTrattati

L’odds ratio è il rapporto tra gli odds nei due gruppi considerati (detto anche rapporto crociato).

Pagina 33

Quando il rischio nella popolazione di riferimento èbasso, l'odds ratio approssima da vicino il rischio relativo.

Pagina 34

2950726.0343224.1 e=

L’odds ratio è l’esponenziale del coefficiente di regressione.

Pagina 35

La regressione logistica consente di stimare l’effetto contenmporaneo di piùvariabili, in modo analogo alla regressione multipla lineare.

Pagina 36

Quando la regressione considera anche il tempo

Quando invece il periodo di osservazione sia protratto, diviene rilevante anche il tempo a cui il soggetto presenti un evento.

Pagina 37

Questo tipo di informazione viene rappresentato graficamente come curva di sopravvivenza, che è una rappresentazione grafica della probabilitàdi rimanere libero da un evento di interesse, in funzione del tempo.Benché si utilizzino classicamente per valutare la sopravvivenza, queste tecniche possono essere utilizzate in tutte le situazioni in cui interessi valutare il tempo alla realizzazione di un evento.

Pagina 38

Peculiarità dei dati di sopravvivenza

Tutti i metodi di analisi della sopravvivenza prevedono che per ogni soggetto si abbia:

• una data di entrata nello studio• una data limite, alla quale l'osservazione

termina (o per termine dello studio, o per realizzarsi dell’evento di interesse)

Pagina 39

Il soggetto "uscito vivo"

Gli individui il cui periodo di osservazione termina mentre non hanno presentato l’evento di interesse,perché persi di vista o usciti alla fine dello studio, costituiscono i cosiddetti dati troncati: benché non sia noto il tempo di sopravvivenza libera da evento di questi individui, abbiamo comunque una informazione sul suo valore, e cioè che esso èsuperiore al tempo di troncamento. Quindi questi individui contribuiscono al numero degli esposti a rischio per la durata del loro tempo di osservazione.

Pagina 40

L'informazione relativa ad ogni soggettosarà quindi sintetizzata in due dati:

• Tempo nello studio (data limite - data di entrata)

• Modalità di uscita (0 se esce vivo, 1 se esce con l'evento di interesse)

oltre alle covariate delle quali ci interessi analizzare l’effetto sulla sopravvivenza libera da evento.

Pagina 41

Esistono modelli parametrici di curve di sopravvivenza, che assumono un modello matematico per descrivere la curva (es. log-normale, Weibull, gamma, esponenziale…); si tratta di strumenti matematicamente molto complessi, che richiedono assunzioni rigide.

Il vantaggio di tali modelli è che consentono di stimare l'effetto di covariate sulla probabilitàdell’evento:• Trattamento• Sesso• Età• Tipo di allenamento• Condizioni ambientali• …….

Pagina 42

Una soluzione a questo "conflitto" ècostituita dal modello di Cox, che è una tecnica semiparametrica che consente di stimare l'effetto delle covariatesulla probabilità di un evento

Pagina 43

Br J Sports Med 2001;35:412

Pagina 44

Se vengono osservati N soggetti e ti indica il periodo di tempo per cui l'individuo i-esimo èstato esposto a rischio, la somma AT di tali tempi ti per tutti gli N pazienti fornisce il totale di persone-unità di tempo (es.persone-anno). Si definisce tasso il rapporto:

TAd=λ

Pagina 45

Hazard ratio o rapporto di tassi

Se λ1 e λ2 sono i tassi nei due gruppi di soggetti al tempo ti, il rapporto di tassi o tasso relativo o hazard ratio è dato da:

1i

i2i λ

λ=Θ

Pagina 46

Nel modello di Cox il parametro Θ è una costante, che si assume indipendente dal tempo

)'exp()(

)',( β=λ

λ=Θ xtxt

0i

Stimando ß effettuiamo una stima dell'hazard ratio del gruppo di soggetti con le caratteristiche definite da x rispetto al gruppo in cui tutte le covariate sono nulle

Pagina 47

Il modello di Cox

• Non viene stimato il tasso dell'evento nel gruppo di riferimento, ma solo il tasso relativo (hazard ratio) tra il gruppo che ha la covariatadi interesse (es.il trattamento) e quello che non l'ha.

• Il modello può essere applicato anche come analisi multivariata, stimando il tasso relativo determinato da una covariata, tenendo conto anche dell'effetto delle altre covariate inserite nel modello

Pagina 48

Pagina 49

Pagina 50

Questo è il risultato dell’analisi, trattando l’età come una variabile continua.

Pagina 51

Una varaibile continua può però essere trasformata in una variabile categorica (in questo caso dividendo secondo i quartili) agecat .

Pagina 52

Se la variabile categorica viene inserita nel modello trattandola come una variabile continua, la sua significatività si riduce.

Pagina 53

Ma inserendola come una variabile categorica, si ottiene il confronto di ciascuno dei gruppi di età con il gruppo di riferimento (che per default è il numero 1). La stessa informazione può quindi essere gestita in modo diverso a seconda dell’informazione cui siamo interessati.

Pagina 54

Med Sci Sports Exerc 2007;39:1061-6

Questo esempio chiarisce come si possa utilizzare il modello di Cox per “aggiustare” la stima dell’hazard ratio per una serie di covariate di cui è nota l’influenza sulla variabile dipendente. La stima che si ottiene è “al netto”dell’effetto di tali covariate.