A cura di : Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

67
A cura di : Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma, c/o Servizio di Epidemiologia e Biostatistica, Direzione Scientifica, Istituto G. Gaslini, Largo G. Gaslini 5, 16147 Genova - Tel: 010 5636 301 - 423, Fax: 010 377 6590, e-mail: [email protected] Esercitazione pratica nell’ambito del Corso di Modelli Statistici - Anno Accademico 2006-2007 Applicazione del modello di regressione di Poisson e del modello logistico in Epidemiologia Lezione 1 Introduzione al modello di Poisson negli studi di coorte Corso di Laurea in Statistica Matematica e trattamento Informatico dei Datiati Università di Genova

description

Corso di Laurea in S tatistica M atematica e trattamento I nformatico dei D ati ati Università di Genova. Applicazione del modello di regressione di Poisson e del modello logistico in Epidemiologia Lezione 1 Introduzione al modello di Poisson negli studi di coorte. - PowerPoint PPT Presentation

Transcript of A cura di : Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Page 1: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

A cura di: Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma, c/o Servizio di Epidemiologia e Biostatistica, Direzione Scientifica, Istituto G. Gaslini, Largo G. Gaslini 5, 16147 Genova - Tel: 010 5636 301 - 423, Fax: 010 377 6590, e-mail: [email protected]

Esercitazione pratica nell’ambito del Corso di Modelli Statistici - Anno Accademico 2006-2007

Applicazione del modello di regressione di Poisson e del modello logistico in

Epidemiologia

Lezione 1 Introduzione al modello di Poisson negli studi di coorte

Corso di Laurea in

Statistica Matematica e trattamento Informatico dei Datiati Università di Genova

Page 2: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Il disegno dello studio in Epidemiologia

L’Epidemiologia è la scienza che studia la distribuzione nello spazio e nel tempo delle malattie, delle loro cause e dei loro rimedi.

A tal fine si avvale di diverse tipologie di studio (disegni dello studio), che possono essere raggrupati in tre grandi categorie: a) studi sperimentali

c) studi semi-sperimentali

d) studi osservazionali

Page 3: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Disegnodello studio in Epidemiologia

sperimentale

quasi-sperimentale(o semi-sperimentale)

osservazionale

descrittivo

analitico

ecologico

trasversale(cross-sectional)

di coorte(follow-up)

caso-controllo

test di laboratorio

sperimentazioni cliniche(clinical trials)

interventi di comunità

Page 4: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Gli studi sperimentali (o esperimenti) sono indagini in cui la distribuzione del fattore in studio viene decisa dallo sperimentatore, attraverso una procedura denominata randomizzazione.

Tale procedura consiste nell’assegnare in modo casuale il fattore (ad esempio un trattamento rispetto a un placebo) nei soggetti in studio.

I principali studi sperimentali sono i test di laboratorio, le sperimentazioni cliniche (clinical trials) e gli interventi di comunità.

Page 5: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Il loro vantaggio principale risiede nella possibilità di isolare gli effetti di interesse dai fattori estranei che possono influenzare le stime osservate, persino nel caso in cui questi non siano completamente noti.

Tali fattori sono noti come fattori di confondimento o confondenti.

Per tale motivo gli studi sperimentali sono considerati come altamente probanti.

Page 6: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Gli studi semi-sperimentali sono caratterizzati dalla possibilità di manipolare il fattore in studio, senza però utilizzare la randomizzazione.

Ciò può avvenire, ad esempio, quando ogni soggetto in un solo gruppo viene osservato prima e dopo un determinato trattamento oppure quando il fattore in studio viene rilevato su volontari.

Gli studi semi-sperimentali comprendono alcune indagini di laboratorio, clinical trials, e studi di valutazione degli interventi di politica sanitaria (introduzione di un limite di velocità, adozione di un divieto al fumo in luoghi pubblici, ecc...).

Page 7: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Gli studi osservazionali sono indagini in cui il ricercatore non può manipolare il fattore in studio.

In tali indagini l’osservazione viene condotta in modo da assomigliare il più possibile a un esperimento (osservazione pianificata).

Ad esempio, è possibile selezionare due gruppi di operai, di cui uno esposto a sostanze potenzialmente tossiche, e seguirli entrambi nel tempo per verificare se vi sono differenze nella comparsa di malattie.

Page 8: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Gli studi osservazionali possono essere distinti in due categorie:

a) gli studi descrittivi, che comprendono lo studio ecologico (spesso considerato come lo studio descrittivo “per eccellenza”) e lo studio trasversale (cross-sectional);

b) gli studi analitici, tra cui i più importanti sono lo studio di coorte e lo studio caso-controllo, che costituiranno l’oggetto della presente esercitazione.

Infatti in tale ambito vengono principalmente applicate le due metodiche di analisi di regressione che verranno illustrate, ovvero: il modello logistico e il modello di Poisson.

Page 9: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Nell’ambito degli studi osservazionali, lo studio di coorte, o studio di follow-up, è considerato lo studio analitico per eccellenza.

Lo studio di coorte

Infatti permette di osservare l’insorgenza della patologia dopo l’avvenuta esposizione, di misurare quindi i tempi di esposizione e di ottenere stime di associazione tra l’esposizione e la probabilità di contrarre una determinata patologia.

Tale procedura consiste nel confronto tra gruppi, denominati “coorti”, costituiti da soggetti esposti e da soggetti non-esposti.

Page 10: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Lo stesso disegno di studio viene spesso adottato anche nell’ambito degli studi sperimentali o semi-sperimentali, per esempio per valutare la diversa comparsa di ricadute in gruppi di pazienti sottoposti a trattamenti diversi e quindi per confrontare l’efficacia di tali trattamenti.

Sulla base della selezione dei soggetti si distinguono diverse tipologie di coorti, tra cui le due principali sono:

a) la coorte chiusa

b) la coorte aperta.

Page 11: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Nella coorte chiusa il campione in studio viene identificato interamente in un preciso istante temporale.

Solitamente, vengono identificati simultaneamente i fattori di interesse per lo studio, ovvero la presenza di esposizioni in soggetti sani o il tipo di trattamento per quanto riguarda gli studi clinici.

I soggetti vengono quindi seguiti nel tempo per rilevare la comparsa dell’evento di interesse (patologie, decesso, ricadute o recidive negli studi clinici), come illustrato nella Figura 2.

Page 12: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

ESEMPIO SCHEMATICO DI UNO STUDIO DI COORTE CHIUSA

12

3

4

56

7

8

Periodo di follow-up (anni)1 2 3 4 5 6 7 8

Popo

lazi

one

in st

udio

= Evento

Espo

sti

Non

-esp

osti

Page 13: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

In uno studio di coorte chiusa è possibile stimare direttamente la probabilità del verificarsi degli eventi di interesse durante il periodo di osservazione.

Infati è sufficiente calcolare la frequenza con cui tali eventi si sono verificati entro tale periodo.

La probabilità del verificarsi degli eventi, condizionata al tempo di osservazione prende il nome di Rischio.

Page 14: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

12345678

Periodo di follow-up (anni)1 2 3 4 5 6 7 8

Espo

sti

Non

-esp

osti

Nell’esempio sopra illustrato il rischio di ammalarsi negli esposti durante il periodo di osservazione (8 anni) sarà quindi pari al 50% (2 eventi osservati su 4 soggetti in studio), mentre il corrispondente rischio nei soggetti non esposti sarà del 25% (1 evento osservato su 4 soggetti).

Page 15: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

12345678

Periodo di follow-up (anni)1 2 3 4 5 6 7 8

Espo

sti

Non

-esp

osti

Il rapporto tra tali rischi, denominato Rischio Relativo (RR), può quindi essere utilizzato come misura dell’associazione tra l’avvenuta esposizione e la probabilità di comparsa della malattia.

Page 16: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Nell’esempio sopra illustrato la stima del rischio relativo dovuto all’esposizione sarà quindi pari a 2, indicando che gli esposti presentano un rischio doppio di ammalarsi rispetto ai non esposti.

Il RR tenderà ad assumere valori vicini a 1 se non vi è associazione tra il fattore in studio e la probabilità di insorgenza della patologia, mentre valori superiori a 1 saranno osservati per quei fattori (detti, appunto, fattori di rischio) che sono associati a tali patologie.

Valori compresi tra 0 e 1 saranno invece osservati per fattori associati inversamente al rischio (che verranno denominati “fattori protettivi”).

Page 17: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

12345678

Periodo di follow-up (anni)1 2 3 4 5 6 7 8

Espo

sti

Non

-esp

osti

Si noti come le stime di rischio siano condizionate alla durata del tempo di osservazione (periodo di follow-up). Infatti se tale periodo fosse stato di soli tre anni si sarebbero osservati 0 eventi in entrambi i gruppi di esposizione e quindi le corrispondenti stime di rischio sarebbero state entrambe pari a zero.

Page 18: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

12345678

Periodo di follow-up (anni)1 2 3 4 5 6 7 8

Espo

sti

Non

-esp

osti

Se invece il tempo di osservazione fosse stato di 6 anni, si sarebbe osservato un rischio del 25% in entrambi i gruppi, e di conseguenza la stima di RR sarebbe stata pari a 1.

Page 19: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Il Rischio, essendo una probabilità, può assumere solo valori compresi tra 0 e 1 ed è adimensionale (ovvero è un numero puro, privo di unità di misura).

Per distinguerlo dal rischio istantaneo (ovvero dal valore cui tenderebbe in un intervallo temporale tendente a zero) viene anche denominato Rischio Cumulativo, in quanto rappresenta una probabilità cumulativa.

Page 20: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

In una coorte aperta, al contrario del caso precedente, la perdita del soggetto durante il follow-up può avvenire anche per motivi diversi dalla fine del periodo di osservazione o dal manifestarsi dell’evento di interesse.

Il soggetto può risultare “perso di vista” (ad esempio per fenomeni di migrazione), oppure può decedere per cause diverse da quella in studio.

In tal caso il tempo di osservazione si definisce troncato (censored).

Page 21: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

ESEMPIO SCHEMATICO DI UNO STUDIO DI COORTE APERTA

12

3

4

56

7

8

Periodo di follow-up (anni)1 2 3 4 5 6 7 8

Popo

lazi

one

in st

udio

= Evento

Espo

sti

Non

-esp

osti

= Osservazione troncata (censored)

Page 22: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Un caso particolare, ma molto comune di coorte aperta, è la coorte dinamica, che è costituita da individui che possono cambiare nel tempo, per movimenti naturali, anagrafici o amministrativi.

Un esempio può essere rappresentato dalla maggior parte delle coorti occupazionali.

Una coorte lavorativa infatti, si può formare solo in piccola parte al momento dell’apertura di uno specifico impianto (assunzione).

In genere il periodo di studio è molto lungo e nel tempo nuove maestranze sono assunte, mentre altre escono dall’azienda per pensionamento, trasferimento, licenziamento, ecc...

Page 23: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

ESEMPIO SCHEMATICO DI UNO STUDIO DI COORTE DINAMICA

12

3

4

56

7

8

Periodo di follow-up (anni)1 2 3 4 5 6 7 8

Popo

lazi

one

in st

udio

= Evento

Espo

sti

Non

-esp

osti

= Osservazione troncata (censored)

Page 24: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

ESEMPIO SCHEMATICO DI COORTE APERTA RICAVATA DA UNA COORTE DINAMICA

12

3

4

56

7

8

Periodo di follow-up (anni)1 2 3 4 5 6 7 8

Popo

lazi

one

in st

udio

= Evento

Espo

sti

Non

-esp

osti

= Osservazione troncata (censored)

Page 25: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

In genere la presenza del troncamento impedisce di produrre stime dirette del rischio, dato che i tempi di osservazione per i diversi soggetti sono diversi.

12

3

4

56

7

8

Periodo di follow-up (anni)1 2 3 4 5 6 7 8

Espo

sti

Non

-esp

osti

Page 26: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Una possibilità per ottenere stimatori di rischio relativo è quella di stimare un’altra fondamentale grandezza utilizzata in Epidemiologia, ovvero il Tasso.

12

3

4

56

7

8

Periodo di follow-up (anni)1 2 3 4 5 6 7 8

Espo

sti

Non

-esp

osti

Page 27: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

La definizione di tasso può essere ricavata dalla relazione che lega il rischio al tempo in una coorte chiusa:

( )1

t dtR e

La quantità costituisce il tasso di comparsa degli eventi nella coorte e misura quindi la velocità con cui tali eventi si verificano nel tempo.

Page 28: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Per molte patologie la variazione di rispetto al tempo può essere considerata (almeno approssimativamente) trascurabile, da cui:

1 tR e

Nel caso in cui si studino patologie rare, per le quali il tasso di insorgenza risulti “piccolo” (nell’ordine, ad esempio, di un evento per 10-3 – 10-6 persone per anno), si può adottare la seguente utile approssimazione:

R t

Page 29: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

ANDAMENTO DEL RISCHIO IN FUNZIONE DEL TASSOR

isch

io

Tempo di osservazione (follow-up)

= 0.0010.t-1

= 0.0005.t-1

= 0.0003.t-1

= 0.0002.t-1

1 32 4 5 6 7 8 9 10

0.1

0.0

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Page 30: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Ris

chio

Tempo di osservazione (follow-up)

Si può osservare l’andamento approssimativamente lineare di tale relazione per bassi valori di t.

= 0.0010.t-1

= 0.0005.t-1

= 0.0003.t-1

= 0.0002.t-1

1 32 4 5 6 7 8 9 10

0.1

0.0

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Page 31: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Si Il tasso medio può essere stimato dal rapporto tra gli eventi osservati e la sommatoria dei tempi di osservazione m per ogni singolo soggetto:

Om

dove O sono gli eventi osservati e m viene denominata “massa persone-tempo a rischio”.

Page 32: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Dalla relazione tra rischio e tasso per eventi rari si evince che il rapporto tra tassi (rate ratio) può essere impiegato come stimatore di rischio relativo:

E ER t NE NER t

E

NE

RR

dove il pedice E indica la sub-coorte degli esposti e il pedice NE quella dei non-esposti.

Page 33: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

La variabilità della stima di un tasso e il confronto tra tassi diversi necessitano di assunzioni sulla distribuzione di probabilità che si ritiene generi gli eventi osservati.

Variabilità della stima dei tassi e distribuzione di Poisson

Nella grande maggioranza delle applicazioni, la variabilità della stima della popolazione a rischio viene considerata trascurabile rispetto alla variabilità del numero degli eventi stessi.

Quindi si assume che solamente il numeratore contribuisca alla variabilità della stima del tasso.

Page 34: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Si può assumere che gli eventi osservati in un intervallo di tempo t siano generati da una distribuzione binomiale (condizionata al tempo t) con parametri: p dimensioni della popolazione a rischio,

R rischio di ammalarsi nel tempo t e

O numero di eventi osservati in t .

OpO RROpO

p

1!!

!

Page 35: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Considerando invariante la popolazione a rischio, la funzione binomiale può essere riparametrizzata nel modo seguente:

OpO

ppOpOp

1!!

!

Se applicata allo studio di patologie rare, tale distribuzione può essere approssimata dalla distribuzione di Poisson, che presenta una formulazione analitica più semplice.

Page 36: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

OpO

ppOpOp

1!!

!

e

p

Op

Op

1lim0

, !!!!

lim0

, Op

OpOp O

Op

Essendo:

! !

OO Op eP O eO p O

Page 37: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

P(O) segue una distribuzione di Poisson, con parametro che rappresenta sia il valore atteso che la varianza, e che corrisponde al prodotto p.R della corrispondente distribuzione binomiale.

La varianza della stima di un tasso è facilmente calcolabile assumendo che la massa persone-tempo m a rischio sia invariante e che gli eventi osservati O rappresentino una stima di

2

2 2

ˆ ˆVar OO OVar Varm m m m O

Page 38: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Variabilità del rapporto tra tassi e inferenza statistica

Applicando alla stima del logaritmo di RR l’approssimazione alla distribuzione normale se ne possono ottenere gli intervalli di confidenza a uno specifico valore di 1-:

/ 21 2

1 11

2

zO Oe

che si ricava applicando la seguente formula approssimata per la stima della varianza del logaritmo di un tasso (metodo delta):

1logVarO

Page 39: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

L’applicazione di tale formula per l’inferenza statistica nello studio di coorte può essere illustrata mdiante il seguente esempio.

Si supponga di aver osservato la mortalità per tumori maligni dell’apparato respiratorio in una coorte di lavoratori, tra i quali un gruppo era esposto a sostanze potenzialmente cancerogene e uno era non esposto, entrambi osservati per un periodo di tempo adeguato agli obiettivi dello studio.

Esposizione Morti Persone/Anno

Esposti 108 44870

Non-esposti 51 21063

Page 40: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Esposizione Morti Persone/Anno

Esposti 108 44870

Non-esposti 51 21063

La stima del tasso per anno di osservazione negli esposti è:

51

108 240.7 1044870

Il corrispondente tasso nei non esposti è:

52

51 242.1 1021063

Page 41: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Esposizione Morti Persone/Anno

Esposti 108 44870

Non-esposti 51 21063

da cui:

51

52

242.7 10 0.99240.1 10

RR

i relativi intervalli di confidenza al 95% sono:

1 11.96

108 510.99 0.71;1.4e

Page 42: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Dal momento che tali intervalli comprendono il valore di 1, atteso sotto l’ipotesi nulla di uguaglianza del rischio nei due gruppi a confronto, tale ipotesi non può essere rigettata.

Si può quindi concludere che nel campione in studio non vi è evidenza di alcun effetto dell’esposizione.

Un risultato del tutto analogo si sarebbe potuto ottenere mediante il modello di regressione di Poisson.

Page 43: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

STIMA DI UN RAPPORTO TRA TASSI MEDIANTE IL MODELLO DI REGRESSIONE DI POISSON

Come sopra brevemente illustrato, il numeratore di un tasso, stimato per una patologia rara, può essere considerato come la realizzazione di una variabile Poissoniana con parametro ignoto .

Di conseguenza, la relazione che lega il tasso a variabili di interesse, ad esempio esposizioni in soggetti sani o trattamenti farmacologici in pazienti, può essere modellata mediante un modello di regressione di Poisson.

Page 44: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Come ampiamente illustrato nelle lezioni teoriche del Corso, il modello di Poisson può essere esplicitato nella forma seguente:

0 1, ... p pE Y x x x

con:

,!

Y eP Y xY

Page 45: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Comunemente si utilizza una funzione di link logaritmico, che permette di evitare valori attesi negativi (che non hanno senso se si tratta di modellare un conteggio).

Si noti però che il modello di Poisson adotta come variabile risposta un conteggio, mentre la variabile di interesse negli esempi sopra riportati è un tasso, ottenuto come rapporto di un conteggio e di una costante.

Risulta quindi opportuno introdurre nel modello tale costante (cioè gli anni persona a rischio), oppure la sua trasformata logaritmica se il modello è log-lineare, sotto forma di OFFSET.

Page 46: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

In un GLM l’offset rappresenta un predittore che viene introdotto nel predittore lineare con coefficiente pari a 1.

A seconda della funzione di link, tale predittore deve essere opportunamente trasformato; ad esempio, se il link è la funzione logaritmo, anche l’offset deve essere trasformato mediante trasformazione logaritmica) .

Nel caso di una sola variabile (dummy) di esposizione E, con valore 0 per i non-esposti e 1 per gli esposti, i valori stimati attesi di un modello di regressione log lineare di Poisson saranno:

0 1log E

Page 47: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

da cui si ricava che l’antilogaritmo del coefficiente per la dummy di esposizione rappresenta la stima di RR ricercata:

1 E

NE

e RR

dove E e NE rappresentano rispettivamente il tasso negli esposti e nei non esposti.

Page 48: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Utilizzando la stima dell’errore standard di 1 ricavata dal modello, si possono produrre gli intervalli di confidenza a un prefissato valore di 1- (tipicamente, al 95%) mediante il metodo di Wald.

L’anti-logaritmo di tali limiti di confidenza fornisce l’intervallo di confidenza corrispondente per la stima di RR, utilizzabile ai fini dell’inferenza statistica:

11.9695% ESIC RR RR e

Page 49: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Tra i vantaggi dell’applicazione di un modello di Poisson vi è la possibilità di analizzare matrici di dati in cui sono presenti zero osservazioni in una o più categorie di interesse .

Inoltre il modello di Poisson non assume l’omoscedasticità della variabile risposta nelle varie categorie dei predittori, che è parte degli assunti del modello lineare generale.

Grazie a tale modellamento, il modello di Poisson risulta del tutto analogo ad un modello di regressione lineare semplice o multipla che utilizzi come variabile risposta il logaritmo di un tasso.

Page 50: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

IL CONFONDIMENTO IN UNO STUDIO DI COORTE

Nell’analisi di dati epidemiologici occorre valutare la presenza di variabili che, se associate sia alla variabile risposta (incidenza, mortalità, ecc...) che al fattore in studio (esposizione, trattamento, fattori genetici, ecc...) possono produrre distorsioni nelle stime di associazione.

Tali fattori prendono il nome di confondenti, il fenomeno viene denominato “confondimento” e l’eventuale distorsione indotta nelle stime viene denominata “bias da confondimento”.

Page 51: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Esempio di confondimento generato da una variabile categorica (sesso) nell’ambito di uno studio di coorte in cui anche l’esposizione è riportata su scala dicotomica (presenza o assenza).

Tutti i soggetti Strato 1 Maschi

Strato 2 Femmine

Morti Pers/anno Morti Pers/anno Morti Pers/anno

Esposti 108 44870 30 3218 78 41652

Non-Esposti 51 21063 44 11699 7 9364

0.99

0.71,1.4TRR

1 2.5

1.6,3.9RR

2 2.5

1.2,5.4RR

Page 52: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Perché vi sia confondimento occorre che la stima di RR ottenuta nell’analisi dei dati raggruppati (analisi pooled) sia diversa da quella derivante dall’analisi stratificata per i livelli del confondente.

Se però le stime di RR risultassero diverse tra i vari strati del fattore in esame vi sarebbe indicazione che tale variabile modifichi l’effetto dell’esposizione (o del trattamento).

In tal caso vi sarebbe interazione tra le variabili e non confondimento.

0.99

0.71,1.4TRR

1 2.5

1.6,3.9RR

2 2.5

1.2,5.4RR

Page 53: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

0.99

0.71,1.4TRR

1 2.5

1.6,3.9RR

2 2.5

1.2,5.4RR

La differenza è fondamentale in quanto, mentre il confondimento in genere non è di nessun interesse per il ricercatore, l’interazione (o modificazione d’effetto) può rappresentare un fenomeno di grande interesse dal punto di vista bio-medico.

Nell’esempio sopra riportato le stime di RR nei due strati del confondente sono identiche (RR=2.5) e molto diverse dalla stima pooled (RR=0.99), per cui non vi è dubbio che ci si trovi in presenza di confondimento.

Page 54: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

0.99

0.71,1.4TRR

1 2.5

1.6,3.9RR

2 2.5

1.2,5.4RR

Si noti inoltre che il RR pooled è vicino al valore atteso di 1 di non effetto dell’esposizione, mentre le due stime entro gli strati del confondente risultano entrambe superiori a 1 (p<0.05).

In presenza di confondimento occorre procedere a una stima comune dei RR entro gli strati del confondente e del relativo intervallo di confidenza (in genere al 95%).

Tale procedimento può essere effettuato mediante il modello di regressione di Poisson.

Page 55: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Perché una variabile si comporti da confondente è necessario che sia associata sia alla variabile risposta che al fattore in studio, ( nell’esempio riportato, sia all’esposizione che al tasso).

Tutti i soggetti Strato 1 Maschi

Strato 2 Femmine

Morti Pers/anno Morti Pers/anno Morti Pers/anno

Esposti 108 44870 30 3218 78 41652

Non-Esposti 51 21063 44 11699 7 9364

Nell’esempio sopra riportato ciò può essere evidenziato stimando i tassi nelle due categorie di esposizione, separatamente per i maschi e per le femmine.

Page 56: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Tutti i soggetti Strato 1 Maschi

Strato 2 Femmine

Morti Pers/anno Morti Pers/anno Morti Pers/anno

Esposti 108 44870 30 3218 78 41652

Non-Esposti 51 21063 44 11699 7 9364

5,

30 932.3 103218

E M

5,

44 376.1 1011699

NE M

5,

78 187.3 1041652

E F

5,

7 74.8 109364

NE F

Esposti

Non-Esposti

Maschi Femmine

I tassi nei maschi sono più elevati dei corrispondenti tassi nelle femmine entro ogni categoria di esposizione (associazione tra stimatore di rischio e variabile di stratificazione).

Page 57: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Inoltre le femmine contribuiscono al gruppo degli esposti con molte più persone-anno rispetto ai maschi, mentre il loro contributo al gruppo dei non-esposti è simile a quello dei maschi (associazione tra esposizione e variabile di stratificazione).

Tutti i soggetti Strato 1 Maschi

Strato 2 Femmine

Morti Pers/anno Morti Pers/anno Morti Pers/anno

Esposti 108 44870 30 3218 78 41652

Non-Esposti 51 21063 44 11699 7 9364

Page 58: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Tutti i soggetti Strato 1 Maschi

Strato 2 Femmine

Morti Pers/anno Morti Pers/anno Morti Pers/anno

Esposti 108 44870 30 3218 78 41652

Non-Esposti 51 21063 44 11699 7 9364

In maniera più intuitiva, si può affermare che il confondimento è dovuto alla presenza di molte femmine tra gli esposti, che, presentando tassi inferiori a quelli dei maschi, hanno mascherato l’effetto dell’esposizione.

Page 59: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

CONTROLLO DEL CONFONDIMENTO MEDIANTE MODELLO DI REGRESSIONE DI POISSON

Si supponga di applicare un modello log-lineare di Poisson a dati di uno studio di coorte, utilizzando: a) come variabile risposta il numero di eventi osservati; b) come predittori una variabile dicotomica di esposizione E e un confondente C; c) come offset il logaritmo degli anni persona a rischio.

Page 60: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

I valori stimati attesi del modello saranno i seguenti:

0 1 2log E C

Dal rapporto tra i valori stimati attesi per gli esposti e per i non esposti e passando all’antilogaritmo:

1 2 E NEE C C

NE

e

A parità di valori (ovvero entro ogni strato) del confondente:

1 E

NE

e RR

Page 61: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Quindi l’anti-logaritmo della stima del coefficiente 1 per l’esposizione rappresenta una stima del rapporto tra il tasso E

negli esposti e il tasso NE nei non-esposti.

Di conseguenza, quando applicato allo studio di una patologia rara, rappresenta una stima non distorta di rischio relativo, corretta per l’effetto del confondente introdotto nel modello.

Lo stesso risultato si sarebbe ottenuto nel caso più generale di C espresso su scala categorica a più di due livelli, nel qual caso però sarebbero state necessarie più variabili dummies per modellarne l’effetto.

Page 62: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

MODIFICAZIONE D’EFFETTO IN UNO STUDIO DI COORTE

La modificazione d’effetto si produce quando una variabile interagisce con l’esposizione, per cui tale fenomeno, viene anche denominato interazione.

La presenza di interazione può essere evidenziata dalla presenza di un diverso andamento dello stimatore di rischio entro le categorie della variabile di interazione.

Contrariamente a quanto avviene per il confondimento, il ricercatore non può produrre stime aggiustate per l’effetto di tale variabile (stime comuni d’effetto), in quanto l’associazione tra esposizione e rischio è diversa nei gruppi a confronto.

Page 63: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Un esempio di tale fenomeno è illustrato nella tabella seguente, in cui gli eventi di interesse sono rappresentati dai nuovi casi di malattia osservati in una coorte ipotetica.

Tutti i soggetti Strato 1 Maschi

Strato 2 Femmine

Casi Pers/anno Casi Pers/anno Casi Pers/anno

Esposti 391 769309 189 478383 202 290926

Non-Esposti 119 358341 78 242043 41 116298

1.5

1.2,1.9TRR

1 1.2

0.94,1.6RR

2 2.0

1.4,2.8RR

Page 64: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Nell’intera coorte in studio il rischio di ammalarsi sembra associato all’esposizione, essendo lo stimatore di RR superiore a 1 in modo statisticamente significativo.

1.5

1.2,1.9TRR

1 1.2

0.94,1.6RR

2 2.0

1.4,2.8RR

Stratificando per sesso, si osserva una differenza di rischio relativo tra maschi e femmine, poiché i primi presentano un lieve eccesso di rischio non significativo (RR = 1.2), mentre nelle femmine l’esposizione porta a un raddoppio del rischio (RR = 2.0). In sostanza i risultati suggeriscono la presenza di interazione tra sesso ed esposizione, nel senso che le femmine sarebbero più suscettibili all’esposizione rispetto ai maschi .

Page 65: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

La presenza di interazione non permette di ottenere stime comuni di RR tra i diversi livelli del modificatore d’effetto, per cui in genere conviene produrre stime separate.

MODELLO DI REGRESSIONE DI POISSONCON INTERAZIONE (CENNI)

Tuttavia può essere conveniente verificare se l’evidenza di modificazione d’effetto sia attribuibile o meno alla fluttuazione statistica .

Per tale scopo esistono alcuni test formali, oppure, in alternativa, si può fittare un modello di Poisson con un termine di interazione e testarne la significatività statistica .

Page 66: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Nel caso di un’esposizione dicotomica e di un modificatore d’effetto anch’esso espresso su scala binaria, è sufficiente introdurre nel predittore lineare un termine di interazione

0 1 2 3log E M EM

dove M rappresenta la variabile indicatrice per il modificatore d’effetto con valore 0 nella prima categoria e valore 1 nella seconda.

Tale variabile viene ottenuta come prodotto del modificatore d’effetto per la variabile di esposizione:.

Page 67: A cura di :   Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

È agevole verificare che il modello permette di ottenere le due stime separate di RR entro le due categorie della variabile M:

1

0 1log 0 0M E RR M e

1 3

0 1 2 3log 1 1M E E RR M e

Si noti che, quando 3 è pari a 0 la variabile M può essere al più un confondente, in quanto le due stime di RR tenderanno a coincidere.

Di conseguenza la presenza di interazione può essere testata mediante un metodo consueto per i coefficienti di un modello GLM (es: test di Wald, LRo test, Score test), applicato alla stima di 3.