Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas...

36
Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein

Transcript of Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas...

Page 1: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Introduzione alla Regressione Logistica

Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein

Page 2: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Contenuto

• regressione lineare semplice e multipla• regressione logistica lineare semplice

– La funzione logistica – Stima dei parametri– Interpretazione dei coefficienti

• Regressione logistica Multipla– Interpretazione dei coefficienti– Codifica delle variabili

• Esempi in Stata• Modellare i propri dati

Page 3: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Regressione lineare Semplice

Età PAS Età PAS Età PAS

22 131 41 139 52 128 23 128 41 171 54 105 24 116 46 137 56 145 27 106 47 111 57 141 28 114 48 115 58 153 29 123 49 133 59 157 30 117 49 128 63 155 32 122 50 183 67 176 33 99 51 130 71 172 35 121 51 133 77 178 40 147 51 144 81 217

Tabella 1 Età e pressione sistolica nel sangue (PAS) in 33 donne adulte

Page 4: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

80

100

120

140

160

180

200

220

20 30 40 50 60 70 80 90

SBP (mm Hg)

Age (years)

Adattato da Colton T. Statistics in Medicine. Boston: Little Brown, 1974

Page 5: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Regressione lineare Semplice

• Relazione tra 2 variabili continue (PAS ed Età)

y

x

xβαy 11Slope

• coefficiente di Regressione 1

–Misura l’associazione tra y ed x–Valore del cambiameto di y in media quando x cambia di una unità–Metodo dei minini quadrati

Page 6: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Regression lineare Multipla

• Relazione tra una variabile continua ed un a set di variabili continue

• coefficienti di regressione Parziale i

– Valore del cambiamento di y in media quando xi cambia di una unità e tutte le altre xJ , per j≠i , rimangono costanti

– Misura l’associazione tra xi ed y corretta per tutte le altre xJ

• Esempio – PAS verso età, peso, altezza, etc

xβ ... xβ xβαy ii2211

Page 7: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Regressione lineare Multipla

Dipendente Variabili indipendenti

Predetta Variabili predittive

Variabile Risposta Variabili esplicative

Variabile Esito Covariate

xβ ... xβ xβα y ii2211

Page 8: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Analisi Multivariata

Modello Risultato.

Regressione Lineare quantitativo continuo.

Regressione di Poisson conteggi.Cox model sopravvivenza.Regressione Logistica binomiale.......

• Scelta del modello secondo lo studio, gli obiettivi, e le variabili.

– Controllo del confondimento.– Costruzione di un modello, predizione.

Page 9: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Regressione logistica

• Modella la relazione tra un set di variabili xi

– dicotomiche (mangiare : si/no)– categoriche (classe sociale, ... )– continue (eta’, ...)

e

– Variabile dicotomica Y

• esito dicotomico (binario) situazione molto comune in biologia e epidemiologia

Page 10: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Regressione logistica (1)

tabella 2 Età e sintomi di malattia coronarica (CHD)

Page 11: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Come possiamo analizzare questi dati ?

• Confronto di Età media delle donne Malate e Non- Malate

– Non- Malate : 38.6 anni– Malate: 58.7 anni (p<0.0001)

• Regressione Lineare?

Page 12: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Plot a punti: Dati di Tabella 2

Page 13: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Regressione logistica (2)

tabella 3 Prevalenza (%) dei segni di CD in accordo con il gruppo di età

Page 14: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Dot-plot: Dati di Tabella 3

0

20

40

60

80

100

0 1 2 3 4 5 6 7

Malati %

Età (anni)

Page 15: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

La funzione logistica (1)

0.0

0.2

0.4

0.6

0.8

1.0

Probabilità di malattia

x

Page 16: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

La funzione logistica (2)

logit di P(y|x)

{

Page 17: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

La funzione logistica(3)

• Vantaggi del logit– transformazione semplice di P(y|x)– relazione lineare con x

– Può essere continua (Logit tra - to + )– E’ nota la distribuzione binomiale (P tra 0 ed 1)– Diretto legame con la nozione di odds di malattia

βxαP-1

P ln

eP-1

P βxα

Page 18: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Interpretazione di (1)

eP-1

P βxα

Page 19: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Interpretazione di (2)

• β = incremento del log-odds per incremento unitario di x

• Test d’ipotesi H0 β=0 (test di Wald)

22 (1 df)

Varianza(

β

β)

• Intervallo di confidenza( 1.96SE )

95% CI e

Page 20: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Esempio

• rischio di sviluppare malattia delle arterie coronarie in accordo con età (<55 e 55+ anni).

Page 21: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

• Risultati del fitting del modello di regressione logistica

Age 2.094 0.841- Age βαP-1

P ln 1

Page 22: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Adattamento dell'equazione ai dati

• regressione lineare: minimi quadrati• regressione logistica: massima verosimiglianza• funzione di verosimiglianza

– I parametri stimati e hanno reso massima la verosimi-glianza (probabilità) dei dati osservati rispetto ad ogni altro valore

– In pratica è più semplice lavorare con log-verosimiglianza

n

iiiii xyxylL

1

)(1ln)1()(ln)(ln)(

Page 23: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Massima verosimiglianza

• Calcolo terativo– scelta di un valore arbitrario per i coefficienti

(usualmente 0)– Calcolo della log-verosimiglianza– Variazione dei valori dei coefficienti– Reiterazione fino alla massimizzazione (plateau)

• Resultati– stime di massima verosimiglianza (MLE) per e – stime di P(y) per a assegnato valore di x

Page 24: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Regressione logistica multipla

• Piu’ di una variabile indipendente – dicotomica , ordinale, nominale, continua …

1 1 2 2 i i

Pln =α+β x + β x +... βx

1-P

• Interpretazione di bi

– Incremento del log-odds per un Incremento unitario di xi

con tutte le altre xi constanti

– misure di associazione tra xi e log-odds corretta per tutte

le altre xi

Page 25: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Regressione logistica Multipla

• Modifica dell’effetto– Puo’ essere modellato includendo termini di interazione

1 1 2 2 3 1 1

Pln x x x x

1- P

Page 26: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Test dell’ipotesi Statistica

• Domanda– Il modello che include una variabile indipendente

assegnata fornisce più informazione circa la variabile dipendente del modello in cui tale variabile è assente ?

• Tre test– statistica rapporto di verosimiglianza [statistica (LR)]– Wald test– Score test

Page 27: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

statistica: rapporto di verosimiglianza

• Confronto di due modelli annidati (nested)

Log(odds) = + 1x1 + 2x2 + 3x3 + 4x4 (modello 1)

Log(odds) = + 1x1 + 2x2 (modello 2)

• statistica LR

-2 log_lik (modello 2 / modello 1) =

-2 log_lik (modello 2) meno -2log (modello 1)

La statistica LR è 2 con DF = numero di extra parametri nel modello

Page 28: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Esempio

0.2664) (SE 0.2614) (SE

Smk 0.7005 Exc 1.0047 0.7102

Smk β Exc βαP-1

P ln 21

P probabilità di arresto cardiacoExc 1= sedentarietà , 0 = exercizioSmk 1= fumo , 0= non-fumo

adapted from Kerr, Handbook di Public Health Methods, McGraw-Hill, 1998

Page 29: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

• Effetto di interazione tra fumo e sedentarietà ?

• Termine del Prodotto 3 = -0.4604 (SE 0.5332)

Wald test = 0.75 (1df)

-2log(L) = 342.092 con termine interaczione = 342.836 senza termine interaczione

LR statistica = 0.74 (1df), p = 0.39 Non evidenza di interazione

Exc Smk β Smk β Exc βαP-1

P ln 321

Page 30: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Codifica di variabili (1)

• variabile dicotomica: yes = 1, no = 0• variabili continue

– Incremento di OR per una variazione unitaria della variabile esposizione

– Il modello Logistico è moltiplicativo OR Incrementa esponenzialmente con x

» Se OR = 2 , per la variazione unitaria di esposizione di x passa da 2 to 5: OR = 2 x 2 x 2 = 23 = 8

– verifica che OR Incrementi esponenzialmente con x. Quando in dubbio, trattare come variabile qualitative

Page 31: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

variabile continua ?

• Relazione tra SBP>160 mmHg e BW (body weight)

• Introduci BW come variabile continua ?– Codifica del peso come variabile singlola , eg. 3 classi

uguali: 40-60 kg = 0, 60-80 kg = 1, 80-100 kg = 2

– Compatibile con assunto di modello moltiplicativo – Se non compatibile, usa variabili indicatori

Page 32: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Codifica delle variabili (2)

• variabili nominali o ordinali in classi disuguali :– Fumatori di tabacco :

» no=0, » grey=1, » brown=2, » blond=3

– modello assume che l’OR per (tabacco blond) = OR per (tabacco grey)3

– Use indicator variabili (dummy variabili )

Page 33: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

variabili indicatori: tipo di tabacco

• Neutralizza la gerarchia artificiale tra classi nella variabile "tipo di tabacco"

• Nessun assunto messo in atto

• 3 variabili (3 df) nel modello usando la medesima referenza

• OR per ogni tipo di tabacco, corretto per gli altri, riferito al non-fumo

Page 34: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Esempi usando stata

Esempio 1: Low Birth Weight Study

Esempio 2: Risk di death from bacterial meningitis according to treatment

Referenze• Hosmer DW, Lemeshow S. Applied logistic regression. Wiley & Sons,

New York, 1989

Page 35: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Esempio 1: Studio «Low Birth Weight »

• 198 observations• Low Birth Weigth [LBW]

– 1= Birth weight < 2500g– 0= Birth weight >= 2500g

• Age di mother in years• Weight di mother in pounds [LWT]• Race (1,2,3)• numero di doctor’s visit in last trimester [FTV]

Page 36: Introduzione alla Regressione Logistica Rachid Salmi, Jean-Claude Desenclos, Alain Moren, Thomas Grein.

Esempio 2: Rischio di morte per meningite batterica in accordo con il trattmento

• 161 observations• Death (0,1)• Treatment

– (1=Chloramphenicol, 2=Ampicillin)

• Delay before treatment (onset, in days)• Convulsions (1,0)• Level di consciousness (1-3)• Severity di dehydration (1-3)• Age in years• Pathogen

– 1 Others, 2 HiB, 3 Streptococcus pneumoniae