Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit...

23
Un’analisi del modello di cattura-ricattura Patrick Zecchin Universit` a di Trento 26 settembre 2014 relatore: prof. Pier Luigi Novi Inverardi Patrick Zecchin (Universit` a di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 1 / 23

Transcript of Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit...

Page 1: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Un’analisi del modello di cattura-ricattura

Patrick Zecchin

Universita di Trento

26 settembre 2014

relatore: prof. Pier Luigi Novi Inverardi

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 1 / 23

Page 2: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Piano della presentazione

1 La stima della numerosita

2 Il modello di cattura-ricattura

3 L’evoluzione del modello

4 Una stima dell’incidenza del diabete

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 2 / 23

Page 3: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

La stima della numerosita Introduzione

La stima della numerosita di popolazioni

Una questione di viva importanza, nella statistica e non solo

Varie le tecniche messe a punto, tra cui

il campionamento per centri

lo snowballing

il metodo di cattura ricattura

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 3 / 23

Page 4: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Il modello di cattura-ricattura Uno sguardo storico

Il modello inizialeUno sguardo storico

Si tratta di un modello gia proposto da Pierre Laplace nel 1802

ma “ufficializzato” nel 1896 da Carl Petersene nel 1930 da Frederick Lincoln

utilizzato inizialmente in ambito ecologico: platesse e anatre

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 4 / 23

Page 5: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Il modello di cattura-ricattura Uno sguardo storico

Il modello inizialeFunzionamento del metodo di cattura-ricattura

Il metodo originariamente ideato e piuttosto semplice:

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 5 / 23

Page 6: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Il modello di cattura-ricattura Le ipotesi

Il modello inizialeLe ipotesi da soddisfare

Per formulare il modello occorrono prima di alcune ipotesi:

1. popolazione chiusa

2. marcatura efficiente e non invasiva

3. omogeneita/equicatturabilita tra i soggetti,risolvibile con la stratigrafia

4. indipendenza delle liste,stimabile tramite l’odds ratio della tabella di contingenza

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 6 / 23

Page 7: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Il modello di cattura-ricattura Gli stimatori

Il modello inizialeLo stimatore di Lincoln-Petersen

n1,1

n1,0 + n1,1= P[x ∈ B | x ∈ A]

indip.= P[x ∈ B | x /∈ A] =

n0,1

n0,0 + n0,1

→ N = n1,1 + n1,0 + n0,1 + n0,0 =nAnBn1,1

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 7 / 23

Page 8: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Il modello di cattura-ricattura Gli stimatori

Il modello inizialeLo stimatore di Lincoln-Petersen: comportamento

Lo stimatore di Lincoln-Petersen N = nAnBn1,1

e asintoticamente non distorto:

E[N] ≈ E[nA]E[nB ]

E[n1,1]=

NpApBpA,B

indip.= N

ma purtroppo e distorto per piccoli valori del campione

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 8 / 23

Page 9: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Il modello di cattura-ricattura Gli stimatori

Il modello inizialeAltri stimatori proposti

stimatore di Chapman-Seber (1951)

NChapman =(nA + 1)(nB + 1)

n1,1 + 1− 1

stimatore di Chao (1987)

NChao = n1,0 + n0,1 + n1,1 +(n1,0 + n0,1)2

4n1,1

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 9 / 23

Page 10: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

L’evoluzione del modello Uno sguardo storico

L’evoluzione del modelloImportanti sviluppi nel XX secolo

Dopo Petersen (1896) e Lincoln (1930)

Schnabel propone la versione generalizzata a k-liste (1938)

Sekar e Deming stimano il numero di nascite e morti vicino a Calcutta(1949)

il cattura-ricattura viene ampiamente utilizzato fuori dall’ecologia

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 10 / 23

Page 11: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

L’evoluzione del modello Uno sguardo storico

L’evoluzione del modello... e conseguenti difficolta

Gli importanti sviluppi del XX secolo pongono nuove problematiche,ma si forniscono possibili nuove soluzioni, quali

il two-samples method, proposto da Wittes

il sample coverage approach, come ricorda Chao

i modelli log-lineari, suggeriti da Fienberg

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 11 / 23

Page 12: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

L’evoluzione del modello I modelli log-lineari

I modelli log-lineari

variabile Bvariabile A

totalecatA1 catA2

catB1 n1,1 n0,1 n ,1

catB2 n1,0 n0,0 n ,0

totale n1, n0, n

µi ,j = E[nij ] = npi ,jindip.

= npi , p ,j

log[µi ,j ] = λ+ λAi + λBj + λABij︸︷︷︸interazione

con la necessita di testare tramite i test di goodness of fit χ2 oppure L2

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 12 / 23

Page 13: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

L’evoluzione del modello I modelli log-lineari

L’evoluzione del modelloUtilizzo dei modelli log-lineari

Ci si trova di fronte alle relazioni che identificano il modello

logE[n1,1] = λ+ λA + λB + λAB logE[n0,0] = λ− λA − λB + λAB

logE[n1,0] = λ+ λA − λB − λAB logE[n0,1] = λ− λA + λB − λAB

Si tratta di trovare i termini λ per cui il modello meglio si adatta ai daticonosciuti

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 13 / 23

Page 14: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

L’evoluzione del modello Altre questioni

L’evoluzione del modello

Ulteriori questioni teoriche finali:

la selezione del modello

criterio di Akaike AIC = 2k − 2 log[L]criterio di Bayes BIC ≈ k log[n]− 2 log[L]

la costruzione di intervalli di confidenza

con la soluzione classicatramite la verosimiglianza profilolog[L1(N0)] > log[L(N, δ)]− 1

2χ21−α(1)

utilizzando il metodo bootstrap

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 14 / 23

Page 15: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Una stima dell’incidenza del diabete Inquadramento

Un caso concreto: una stima dell’incidenza del diabeteInquadramento del problema

L’OMS stima in 380 milioni il numero di persone con diabete nel mondo,ponendolo come 8a causa di morte

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 15 / 23

Page 16: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Una stima dell’incidenza del diabete Inquadramento

Una stima dell’incidenza del diabeteDati di partenza

Nello studio del caso in oggettosono state considerate 4 liste

a. elenco pazienti fornito damedici di famiglia (1754 casi)

b. registri di diagnosi di diabetefornito da ospedalipiemontesi (452 casi)

c. database con prescrizioni diinsulina e ipoglicemizzanti(1135 casi)

d. lista con richieste di rimborsoper medicinali (173 casi)

per un totale di 2069 casi unici

A - 85%

B - 22%

C - 55%

D - 8%

0.0

0.2

0.4

0.6

0.8

1.0

A Yes Yes No NoC D B Yes No Yes No

Yes Yes 58 46 14 8Yes No 157 650 20 182No Yes 18 12 7 10No No 104 709 74 -

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 16 / 23

Page 17: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Una stima dell’incidenza del diabete Analisi

Una stima dell’incidenza del diabetePrimo approccio: il two-samples method

AB Yes No

Yes 337 115No 1417 -

Lincoln-Petersen: N = 2353

Chao: N = 3610Chao C.I.: 3342 ÷ 3878

Chapman: N = 2351Chapman C.I.: 2238 ÷ 2464odds ratio = 1,6

(a) Liste A - B.

AC Yes No

Yes 911 224No 843 -

Lincoln-Petersen: N = 2185

Chao: N = 2290Chao C.I.: 2235 ÷ 2345

Chapman: N = 2185Chapman C.I.: 2141 ÷ 2229odds ratio = 3,7

(b) Liste A - C.

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 17 / 23

Page 18: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Una stima dell’incidenza del diabete Analisi

Una stima dell’incidenza del diabetePrimo approccio: il two-samples method

A-B

2351

A-C

2185

A-D

2261

B-C

2057

B-D

803

C-D

1555

AC-BD

2389

0

500

1000

1500

2000

2500

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 18 / 23

Page 19: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Una stima dell’incidenza del diabete Analisi

Una stima dell’incidenza del diabeteUn secondo approccio: i modelli log-lineari

Si possono utilizzare i modelli log-lineari, con una procedura backward, perdeterminare un modello dall’espressione

logE[ni ,j ,k,l ] =λ+ λA + λB + λC + λD

+λAB + λAC + λAD + λBC + λBD + λCD

+λABC + λABD + λACD + λBCD + λABCD

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 19 / 23

Page 20: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Una stima dell’incidenza del diabete Analisi

Una stima dell’incidenza del diabeteUn secondo approccio: i modelli log-lineari

Dall’analisi deriva che

il modello migliore e della forma:

logE[ni ,j ,k,l ] =λ+ λA + λB + λC + λD

+λAB + λAC +���λAD + λBC + λBD + λCD

+���λABC +���λABD +���λACD +���λBCD +����λABCD

con rapporto di verosimiglianza (la “precisione”) L2 = 7, 6

questo ci fornisce una stima di 2 771 casi (C.I. 2 492 - 3 051)

il modello log-lineare di indipendenza ha L2 = 217, 5, da cui leincongruenze precedenti

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 20 / 23

Page 21: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Una stima dell’incidenza del diabete Analisi

Una stima dell’incidenza del diabeteI modelli log-lineari con stratigrafia

Si possono ulteriormente dividere i pazienti in base al tipo di trattamento eripetere l’analisi

dieta: 360 casi (C.I. 303 - 442)

ipoglicemizzanti: 1 890 casi (C.I. 1 785 - 2 014)

insulina: 333 casi (C.I. 328 - 341)

totale: 2 583 casi (C.I. 2 416 - 2 798)

Questa e la migliore stima ottenibile con questo metodo.

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 21 / 23

Page 22: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Una stima dell’incidenza del diabete Conclusioni

Conclusioni

Con una tabella riassuntiva si vogliono schematizzare i risultati ottenutitramite le diverse analisi

provenienza casi accertati precisione

elenco da medici di famiglia (lista A) 1 754 68%registro ospedaliero (lista B) 452 17%

database prescrizioni (lista C) 1 135 44%elenco rimborsi (lista D) 173 7%

two-samples method corretto (AC-BD) 2 389 92%modello loglineare 2 771 107%

modello loglineare con stratigrafia 2 583 100%

Si evidenzia il deciso miglioramento nella stima dell’entita del problema.

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 22 / 23

Page 23: Un'analisi del modello di cattura-ricattura filePiano della presentazione 1 La stima della numerosit a 2 Il modello di cattura-ricattura 3 L’evoluzione del modello 4 Una stima dell’incidenza

Una stima dell’incidenza del diabete Conclusioni

Conclusioni

Anche dall’analisi del caso concreto risulta che

innumerevoli sono le applicazioni della statistica e molti sono i modelliapplicabili

vi e una continua evoluzione e un continuo miglioramento dellatecnica e delle metodologie

tali metodi forniscono un’idea piu corretta dell’entita dei problemi inesame.

Patrick Zecchin (Universita di Trento) Un’analisi del modello di cattura-ricattura 26 settembre 2014 23 / 23