– Il processo diagnostico Ł un processo imperfetto … prevalenza della malattia nella...

86
1 … Il processo diagnostico è un processo imperfetto che conduce ad una probabilità di malattia, piuttosto che alla certezza ... (F. di Orio - Elementi di Metodologia Epidemiologica Clinica - Piccin, 1994)

Transcript of – Il processo diagnostico Ł un processo imperfetto … prevalenza della malattia nella...

1

… Il processo diagnostico è un processo imperfetto che conduce ad una

probabilità di malattia, piuttosto che alla certezza ...

(F. di Orio - Elementi di Metodologia Epidemiologica Clinica - Piccin, 1994)

2

Epidemiologia

Misure

3

Validità di un test diagnostico

La validità di un test diagnostico è una misura relativa

Questa è calcolata attraverso il confronto tra il test in esame, definito index test, ed un altro test di comprovata validità

Il test di comprovata validità è definito Reference Standard

La scelta del Reference Standard è uno dei principali problemi metodologici in materia di test diagnostici

4

Test diagnostico

Affidabilità

Riproducibilità Validità

Concordanza

SensibilitàSpecificità

Valore Predittivo PositivoValore Predittivo Negativo

5

Condizione/MalattiaSi No Totale

TestPositivo Veri Positivi (VP) Falsi Positivi (FP) Positivi (P)

Negativo Falsi Negativi (FN) Veri Negativi (VN) Negativi (N)

Totale Malati (M) non Malati (nM) Totale

Validità di un test diagnostico

Sensibilità (Se) = VP / M Probabilità di positività al test tra i malati

Specificità (Sp) = VN / nM Probabilità di negatività al test tra i non malati

Valore Predittivo Positivo (VPP) = VP / P Probabilità di malattia tra i positivi al test

Valore Predittivo Negativo (VPN) = VN / N Probabilità di non malattia tra i negativi al test

6

Prevalenza Ca mammario in età 45-74 Prevalenza Ca mammario in età 65-69

Ca mammario

Si No Tot

Mx Pos 41 796 837

Neg 13 9150 9163

Tot 54 9946 10000

Ca mammario

Si No Tot

Mx Pos 88 791 879

Neg 29 9092 9121

Tot 117 9883 10000

Mammografia per la diagnosi di Carcinoma Mammario (Se=75%; Sp=92.3%)

VPP= 41/837 = 4.9%

VPN= 9150/9163 = 99.9%

VPP= 88/879 = 10.0%

VPN= 9092/9121 = 99.7%

7

RelazioniAumentando la sensibilità di un test, la sua specificità tende a ridursi

A parità di prevalenzaAlta specificità = Alto VPP

Alta sensibilità = Alto VPN

A parità di Sensibilitàe Specificità

Alta prevalenza = Alto VPP

Bassa prevalenza = Alto VPN

8

Aumentando la sensibilità di un test, la sua specificità tende a ridursi

es. dosaggio della glicemia e diagnosi di diabete

glicemia

Non diabetici diabetici

Cut off

b-1 b b+1

Fissando il cut off al valore b

Classifichiamo erroneamente 2 diabetici come Falsi Negativi

Classifichiamo erroneamente 2 non diabetici come Falsi Positivi

Abbassando il cut off al valore b-1 Innalzando il cut off al valore b+1

Identifichiamo un altro diabetico, ma includiamo un soggetto sano tra i diabetici

Identifichiamo un altro soggetto sano, ma includiamo

un diabetico tra i sani

9

Andamento di Sensibilità e Specificità al variare del valore soglia

identificazione di carcinoma colorettale

Levi Z. et al., Ann Intern Med, 2007

Valore soglia di emoglobina fecale Sensibilità % (lc 95%)

Specificità % (lc 95%)

� 50 ng/mL 100 (100-100) 84.4 (82.2-86.7)

� 75 ng/mL 94.1 (82.9-100) 87.5 (85.4-89.6)

� 100 ng/mL 88.2 (72.9-100) 89.7 (87.8-91.6)

� 125 ng/mL 82.4 (64.2-100) 91.5 (89.7-93.2)

� 150 ng/mL 82.4 (64.2-100) 91.9 (90.2-93.6)

10

Valutare la performance complessiva di un test Curva ROC (Receiver Operating Characteristic curve)

- Per ogni valore di cut-off studiato, si riportano su un piano cartesiano i valori di sensibilità (ordinate) e il tasso di falsi positivi, cioè 1-specificità, del test (ascisse).

- Si ottiene la valutazione grafica e matematica della performance complessiva del test e del cut-off che fornisce il risultato migliore e/o più appropriato alla situazione clinica specifica

11

5% 10% 15% 20% 25%..........

1-specificità

sens

ibili

100%

80%

60%

40%

20%

- ���� 50 ng/mL

- ���� 75 ng/mL

- ���� 100 ng/mL

-���� 125 ng/mL

- ���� 150 ng/mL

Sensibilità e Specificità del test per la ricerca del sangue occulto nelle feci (FOBT), ai fini dell’identificazione di ca colorettale

Levi Z. et al., Ann Intern Med, 2007

12

0.00

0.25

0.50

0.75

1.00

Sens

itivity

0.00 0.25 0.50 0.75 1.001 - Specificity

Area under RO C curve = 0.8926

Sensibil ità e Spec ifici tà per differenti cut offSangue Occulto nelle Feci (Emog lo bina Umana) e Ca del Colon

Curva ROC

13

Valutare la performance complessiva di più test Curva ROC (Receiver Operating Characteristic curve)

- Il confronto delle curve ROC di più test consente la valutazione comparativa, grafica e matematica, di due o più test.

-Il test che identifica l’area maggiore al di sotto della propria curva, offre la migliore performance.

- Un’area di ampiezza maggiore non significa migliori performance per ogni valore di cut-off

14

Levi Z. et al., Ann Intern Med, 2007

15

Confrontare le performance di due test – Curva ROC0.

000.

250.

500.

751.

00Se

nsitiv

ity

0.00 0.25 0.50 0.75 1.001-Specif icity

FOBT ROC area: 0.8926 Guaiaco ROC area: 0.6889Re ference

Sangue Occulto nel le Feci (Emoglobina Umana vs. Guaiaco)

16

Rapporti di Verosimiglianza

(Likelihood Ratio - LR)

- Sono misure sintetiche di performance che offrono l’opportunitàdi classificare il test con un indice che tiene conto contemporaneamente di sensibilità e specificità

- E’ calcolabile un LR positivo (+) e negativo (-)

- Alti valori del LR + e bassi valori del LR – indicano buone performance, cioè buoni rapporti tra sensibilità e specificità del test

- La misura di LR maschera il contributo separato che sensibilità e specificità del test hanno fornito per il raggiungimento del suo valore.

17

Rapporti di Verosimiglianza

(Likelihood Ratio - LR)

LR +Probabilità di ottenere un risultato positivo in un malato, rispetto alla probabilità di ottenere lo stesso risultato in un soggetto sano

LR -Probabilità di ottenere un risultato negativo in un malato, rispetto alla probabilità di ottenere lo stesso risultato in un soggetto sano

LR + = Sensibilità / 1 - Specificità

LR - = 1 - Sensibilità / Specificità

Si tratta del rapporto tra l’incidenza di risultati positivi (nei malati rispetto ai non malati), o negativi.

18

Rapporti di Verosimiglianza (LR) malattia+ -

test+ vp fp- fn vn

(vp / vp + fn)

(fp / fp + vn)LR + =

Il LR+ è un Rischio Relativo (RR).

Valuta la forza dell’associazione tra malattia e positività al test.

es. In caso di LR+= 3.5, i malati hanno un rischio di positività al test 3.5 volte superiore rispetto ai non malati

Buona specificità, il test è utile per confermare la malattia quando il risultato è positivo

LR+ ���� = test SpIn

19

malattia+ -

test+ vp fp- fn vn

Il LR- è un Rischio Relativo (RR, cioè un rapporto tra due incidenze). Valuta la forza dell’associazione tra malattia e negatività al test.

es. In caso di LR- = 0.2, i malati hanno un rischio di negativitàal test 5 volte più basso (1/0.2) rispetto ai non malati

Buona sensibilità, il test è utile per escludere la malattia quando il risultato è negativo

LR- ���� = test SnOut

Rapporti di Verosimiglianza (LR)

(fn / vp + fn)

(vn / fp + vn)LR - =

20

LR > 1 LR < 1 LR = 1

LR +

La probabilità di un test positivo è maggiore in

presenza di malattia che in assenza di essa

La probabilità di un test + è minore in presenza di

malattia che in assenza di essa

Un risultato positivo del test non è associato alla presenza/assenza della

malattia

LR -La probabilità di un test - è

minore in assenza di malattia che in presenza di essa

La probabilità di un test negativo è maggiore in

assenza di malattia che in presenza di essa

Un risultato negativo del test non è associato alla presenza/assenza della

malattia

Rapporti di Verosimiglianza e performance di un test

Performance ottimali, non ottimali e non informative

21

LR, prevalenza di malattia e probabilità post test

Esiste una correlazione tra:

- prevalenza della malattia nella popolazione sottoposta al test

- LR del test (per uno specifico valore di cut-off)

- predittività del test (es. probabilità di malattia in caso di risultato positivo)

L’algoritmo che lega questa tre grandezze è graficamente rappresentato dal nomogramma di Fagan

22

23

Un LR = 1 identifica il test (adoperato a quel determinato valore di cut-off), non informativo, poiché non aggiunge nessuna informazione a quella già disponibile prima della sua somministrazione.

24

LR=1, indica uguali valori di sensibilità (veri positivi) e falsi positivi, cioè somiglia alla probabilità di identificare correttamente la condizione, pari a quella ottenibile con il lancio di una moneta

20% 40% 60% 80% 100%

1-specificità

100%

80%

60%

40%

20%

LR= 1

sens

ibili

25

26

Come migliorare Sensibilità e Specificità

Uso di test multipli

Test in serie Test in parallelo

27

Come migliorare la Sensibilità. Test in paralleloNumerosi test somministrati contemporaneamente.

Il soggetto è considerato positivo se almeno uno dei test è positivo

Formula leucocitaria e manovre semiotiche per la diagnosi di urgenza di appendicite

Formula Leucocitaria*Manovre Semiotiche*

Sensibilità = 66.9%

Specificità = 79.4%

Sensibilità = 60.0%

Specificità = 75.2%

*Validità ipotizzate unicamente a fini didattici. I valori riportati non sono presi da fonti bibliografiche

28

App+ App- Tot

FL+ 187 1441 1628

FL- 93 5553 5646

Tot 280 6994 7274

I valori di performance della formula leucocitaria sono, nell’impiego dei test in parallelo, applicati ai negativi alle manovre semiotiche

Sensibilità complessiva dei 2 test somministrati in parallelo = (420+187) / 700 = 86.7%Specificità complessiva dei 2 test somministrati in parallelo = 5553/ 9300 = 59.7%

Prevalenza di appendicite tra i soggetti giunti al PS con sintomatologia acuta=7%

FL: Se=66.9%; Sp=79.4%

I test in parallelo migliorano la Sensibilità e peggiorano la Specificità

I test in parallelo ci danno l’opportunità di verificare se i negativi sono veri negativi

App+ App- Tot

Sem+ 420 2306 2726

Sem-- 280 6994 7274

Tot 700 9300 10000

Sem: Se=60.0%; Sp=75.2%

29

Migliorare la Sensibilità. Uso dei test in parallelo

Considerare “malato”, un soggetto che è risultato positivo ad almeno uno dei numerosi test impiegati in parallelo, significa minimizzare il rischio di risultati falsamente negativi.

Difficilmente un soggetto con appendicite in atto

sarà classificato come “non malato”

30

Migliorare la Specificità. Test in serie

Numerosi test somministrati in modo sequenziale

I positivi al 1� test sono sottoposti alla somministrazione del 2� test

Mammografia ed Esame Citologico nella

diagnosi di Carcinoma Mammario

Mammografia* Citologia**

Sensibilità = 75%

Specificità = 92.3%

Sensibilità = 87.7%

Specificità = 94.7%

•Carney PA., et al., Individual and combined effects of age, breast density, and hormone replacement therapy use on the accuracy of screening mammography, Annals of Internal Medicine, 2003

•**Collaco LM et al., Value of fine needle aspiration in the diagnosis of breast lesion, Acta Cytol, 1999

31

I soggetti positivi all’esame mammografico sono sottoposti all’esame citologico.

Ca + Ca - Tot

Mx+ 88 791 879

Mx- 29 9092 9121

Tot 117 9883 10000

Mammografia: Se = 75%; Sp = 92.3%

Test in serie

Ca + Ca - Tot

FNA+ 77 40 117

FNA- 11 751 762

Tot 88 791 879

Citologia: Se = 87.7%; Sp = 94.7%

I valori di performance della citologia sono, nell’impiego dei tests in serie, applicati ai positivi al test mammografico.

I test in serie migliorano la Specificità e peggiorano la Sensibilità

Specificità complessiva dei 2 tests somministrati in parallelo = 9092+751/ 9883 = 99.6%Sensibilità complessiva dei 2 tests somministrati in serie = 77 / 117 = 65.8%

32

La probabilità che una donna risulti positiva

a tutti gli esami e non sia portatrice di

ca mammario è molto ridotta

La sequenza degli esami è stabilita in base alla performance e alla invasività

Migliorare la Specificità. Uso dei test in serie

Considerare “malato”, un soggetto che è risultato positivo ad una serie di test somministrati in sequenza, significa minimizzare il rischio di risultati falsamente positivi

33

Migliorare i Valori Predittivi

A parità di Prevalenza:

- Aumentiamo la Specificità per aumentare i VPP

- Aumentiamo la Sensibilità per aumentare i VPN

A parità di Sensibilità e Specificità:

- Aumentiamo la Prevalenza per aumentare i VPP

34

Percorsi diagnostici

Il caso delle demenze

35

Epidemiologia delle demenze

La prevalenza di demenza in soggetti di età > 64 anni èpari al 4 %

La diagnosi di demenza è eminentemente clinica ed èbasata sull’impiego di test cognitivi brevi (MMSE) dotati di sensibilità pari al 70% e specificità pari al 75%, che consentono la formulazione della diagnosi di sindrome demenziale

Ferri CP, Lancet 2005, Feldman HH, CMAJ 2008, Tombaugh TN, J Am Geriatr Soc 1992

36

Sindrome demenzialeSi No Totale

MMSE< 25 2800 (VP) 24000 (FP) 26800

� 25 1200 (FN) 72000 (VN) 73200

Totale 4000 96000 100000

Diagnosi di demenza in popolazione di età > 64 anni

Probabilità pre-test di sindrome demenziale = 4 %

LR + = Se / 1-Sp = 0.7 / 0.25 = 2.8

Probabilità post test (se positivo) = 2800 / 26800 = 10.4 %

LR+ ���� = test SpIn

37

Il 5 % circa delle demenze non è di origine degenerativa, ma èinvece attribuibile a neoplasie, idrocefalo normoteso e ematomi subdurali, che è opportuno escludere, dal momento che necessitano di presidi terapeutici e atteggiamenti clinici completamente diversi da quelli richiesti da altri tipi di demenza.

TC e MRI sono dotati di Sensibilità pari al 95 % e Specificitàpari al 90 % per l’identificazione di tali lesioni.

38

neoplasie, idrocefalo, ematomiSi No Totale

MRI - TClesioni focali 1273 2546 3819

non lesioni focali 67 22914 22981

Totale 1340 25460 26800

Probabilità pre-test di lesioni focali = 5 %

LR - = 1-Se / Sp = 0.05 / 0.9 = 0.055

Probabilità post-test (se negativo) = 67 / 22981 = 0.3 %

LR- ���� = test SnOut

39

Epidemiologia clinica

Gli studi epidemiologici

40

Studi diagnostici

- Studi di correlazione

Indagano la correlazione tra un parametro di malattia e un altroparametro di cui si intende studiare l’utilizzabilità in ambito clinico

- Studi di accuratezza diagnostica

Si tratta di studi in cui è sottoposto a valutazione un test diagnostico (o più di uno), al fine di verificarne la capacità di identificare correttamente una determinata condizione o malattia

Studi efficacia diagnostica

-Si tratta di studi in cui è verificata l’efficacia di un determinato procedimento diagnostico nel modificare favorevolmente la prognosi di una determinata condizione o malattia

41

Gli studi di efficacia diagnostica sono disegnati come RCT, dal momento che il procedimento diagnostico è considerato quale intervento e un determinato outcome di malattia è considerato quale esito.

Negli studi di efficacia diagnostica il complesso diagnosi-terapia ètrattato come un’unica entità, della quale si cerca di studiare l’efficacia.

L’efficacia dimostrata riguarda, quindi, il complesso diagnosi-terapia.

Non è possibile separare la diagnosi dalla terapia e tentare di inferire l’efficacia di una delle due componenti, una volta dimostrata l’efficacia del complesso.

42

43

Comparative effectiveness of MRI in breast cancer (COMICE) trial: a randomised controlled trial. Lancet 2010

1625 soggetti candidati all’intervento di resezione chirurgica locale di ca mammario

817 assegnati alla valutazione pre-chirurgica con MRI + tripla valutazione

clinica, radiologica (mx e eco) e citologica

808 assegnati alla valutazione pre-chirurgica con tripla valutazione clinica, radiologica (mx e eco) e

citologica

816 soggetti analizzati 807 soggetti analizzati

Proporzione di re-interventi, di successive mastectomie e di mastectomie iniziali non appropriate

44

-Donne di età > 18, con diagnosi di carcinoma mammario confermata da biopsia,candidate ad interventi di ampia escissione locale dopo tripla valutazione.

-Randomizzazione con minimizzazione per età (< > 50 anni), densità del tessuto mammario (classi ACR-BI-RADS), consulente chirurgo.

-Mx, Eco e MRI somministrate in modo standardizzato.

-Il braccio no-MRI fu avviato a intervento così come pianificato.

-Il braccio MRI fu rivalutato e eventuali disaccordi con la precedente tripla valutazione furono risolti con team multidisciplinare e l’intervento fu pianificato secondo appropriatezza. Lo studio dei margini di escissione fu condotto secondo direttive del chirurgo, decise prima dell’arruolamento. I reperti MRI furono rivalutati da un esperto in cieco che assicurò la omogeneità di esecuzione e lettura tra i centri.

-Rivalutazioni a 6 mesi del tasso di re-interventi (escissioni locali o mastectomie).

-Rivalutazioni a 12 mesi delle mastectomie evitabili a causa di reperti MRI falsamente positivi (lesioni falsamente multifocali, lesioni di dimensioni sovrastimate).

45

La MRI ri-classifica casi di ca mamamrio già candidati all’escissione locale ampia, nell’ipotesi di una più precisa definizione di malattia.

Gli extra casi identificati dalla MRI come candidati alla mastectomia potrebbero rappresentare una parte dello spettro di malattia con diversa responsività alle terapie.

E’ pertanto necessario testare l’accuratezza della MRI in associazione all’effetto delle terapie.

46

47

Se il nuovo test ha una migliore specificità, in assenza di altre controindicazioni (es. sicurezza, costi, invasività, ecc), è ragionevole usare il nuovo test senza necessità di ulteriori valutazioni del complesso diagnosi-terapia.

Se il nuovo test ha una migliore sensibilità è necessario verificare la risposta alla terapia dei casi diagnosticati dal nuovo test.

E’ possibile che i casi diagnosticati dal nuovo test (e non identificati dal vecchio test) siano in possesso di caratteristiche cliniche che li rendono meno (o più) sensibili alla terapia.

A questo punto è necessario verificare la sensibilità di tali casi al trattamento in vari modi (valutazione dei dati del RCT di origine, valutazione caratteristiche cliniche degli extra casi, ecc).

In assenza di risultati conclusivi è necessario ri-testare il complesso diagnosi-terapia (nuovo RCT)

Disponibilità di un nuovo test

48

49

Gli studi di accuratezza diagnostica sono disegnati come studi cross-sectional (di prevalenza) e si basano sul confronto tra un test (index test) che si intende studiare e un altro test (reference standard) che si assume classifichi correttamente la condizione o malattia di interesse.

Luogo e modalità di arruolamento dei pazienti sono essenziali, dal momento che condizionano la prevalenza e lo spettro di malattia nello studio e quindi la performance del test.

Tempi e modalità di somministrazione dei test (index e reference) possono introdurre distorsioni nella valutazione di accuratezza.

Gli studi di accuratezza diagnostica consentono il calcolo di Se, Sp, VPP, VPN.

50

A Quantitative Immunochemical Fecal Occult Blood Test for Colorectal Neoplasia, Ann Intern Med. 2007;146:244-255.

1000 pazienti consecutivi

I-FOBT (index test)

Colonscopia (reference test)

Sensibilità, Specificità, Valore Predittivo Positivo, Valore Predittivo Negativo, per diversi livelli di emoglobina fecale

51

52

Soggetti afferenti al centro di endoscopia per “motivo di invio”

53

Sono arruolati 1000 pazienti consecutivi afferenti al centro di endoscopia perché sintomatici o ad alto rischio di ca colorettale.

A ciascun paziente è somministrato il test per la ricerca del sangue occulto nelle feci (FOBT in tre somministrazioni con uso del valore più elevato) e viene effettuata una colonscopia (le 56 colonscopie incomplete sono escluse dallo studio)

In caso di reperimento di neoformazioni colorettali viene effettuata una biopsia o rimozione e il polipo viene classificato per dimensioni, tipologia e displasia (patologi in cieco rispetto all’esito del FOBT). Sono definite le neoplasie clinicamente significative (cancro e adenomi ad alto grado di displasia).

54

55

Prevalenza di adenomi avanzati e cancri, della popolazione afferente al centro di endoscopia.

Advanced adenoma 74 / 1000 = 7.4 %

Cancer 17 /1000 = 1.7%

Cancer and Advanced adenoma 91 /1000 = 9.1 %

Advanced adenoma include polipi adenomatosi di dimensioni > 10 mm, oppure a componente villosa > 20 %, oppure ad alto grado di displasia

56

Utilizzando un cut off di 100 ng/ml il LR + risulta pari a 8.59 consentendo, in caso di test positivo un “aumento” di informazione significativo.

-Probabilità pre-test = 1.7 %-LR + = 8.59-Probabilità post test = 12.9 %

A parità di tutte le altre condizioni, una prevalenza (probabilitàpre-test) di 1.5 /1000 (qual è quella della popolazione generale), consentirebbe un guadagno di informazione diverso.

-Probabilità pre-test = 0.15 %-LR + = 8.59-Probabilità post-test = 1.28 %

57

Popolazione afferente al centro di endoscopia

Popolazione generale

58

La prevalenza della popolazione afferente al centro di endoscopia condiziona i valori predittivi e, in ultima analisi, la performance del test.

Si tratta, in ogni caso, di una prevalenza “reale”, è, come tale, utilizzabile nella clinica.

Il disegno di studio cross-sectional, consente il calcolo di Se, Sp, VPP, VPN.

59

Gli studi di accuratezza diagnostica beneficiano talvolta di un approccio del tipo caso-controllo.

In questo caso il disegno prevede la selezione di un gruppo di “malati” e di un gruppo di “non malati”.

I malati e i non malati sono classificati in base ai risultati di un test assunto quale reference standard.

I due gruppi sono confrontati relativamente ai risultati di un determinato test di cui si vuole studiare la performance (index test).

60

Studi di accuratezza diagnostica

popolazione

campione

index test reference standard

Sensibilità, Specificità, VPP, VPN

Malati(reference standard

positivo)

non Malati(reference standard

negativo)

index test(recupero informazioni test in studio, oppure

somministrazione dopo l’arruolamento)

Sensibilità, Specificità, VPP, VPN

prospettico retrospettivo

61

prospettico vs. retrospettivo

Negli studi prospettici pazienti sospettati di essere portatori della condizione di interesse sono arruolati e poi sottoposti all’index test e al reference standard.

Negli studi retrospettivi sono ricercati i risultati dei test cui sono stati, in passato, sottoposti pazienti portatori e non portatori della condizione di interesse.

Negli studi retrospettivi non è possibile calcolare valori predittivi “reali”, dal momento che la prevalenza è “decisa” dallo sperimentatore

62

Kodama N et al., Diagnosis of Alzheimer-type dementia: measurement of hippocampal and ventricular areas in MR

images, Magn Reson Med Sci 2002: 1(1):14-20

-Diagnosi di demenza attraverso la misurazione di atrofia cerebrale e ippocampale in MRI volumetrica

-73 soggetti arruolati: 22 controlli non malati; 51 probable AD

-Index test = MRI volumentrica

-Reference standard = diagnosi clinica criteri NINCS-ADRDA

-Sensibilità=90.2%; Specificità=81.8%

-Prevalenza =51/73=69.9%

63

Strumenti

Valutazione di qualità degli studi diagnostici

64

La valutazione di qualità degli studi diagnostici si giova di diversi strumenti, in gran parte mutuati da una checklist realizzata da un gruppo di ricercatori con metodo Delphi.

The development of QUADAS: a tool for the qualityassessment of studies of diagnostic accuracy included in

systematic reviewsPenny Whiting*1, Anne WS Rutjes2, Johannes B Reitsma2,

Patrick MM Bossuyt2 and Jos Kleijnen1, BMC Medical Research Methodology 2003, 3:25

Si tratta di 14 items che indagano le dimensioni della qualità di uno studio diagnostico ritenute importanti dal gruppo di lavoro e selezionate a seguito di procedure reiterate di consenso.

65

The QUADAS tool

66

Was the spectrum of patients representative of the patients who will receive the test in practice ?

-Si riferisce al rischio di spectrum bias

- Attiene ai problemi di generalizzabilità che si pongono quando i pazienti inclusi nello studio sono diversi da quelli della pratica clinica all’interno della quale si vuole utilizzare il test

- La diversità riguarda le caratteristiche demografiche, cliniche e la gravità di malattia

- Le stime di accuratezza diagnostica ottenute con una popolazione possono essere non confermate in popolazioni con malattia meno grave (es. pazienti ospedalizzati vs. pazienti non ospedalizzati)

67

Su 137 pazienti con AD (confermata mediante osservazione clinica dopo due anni di follow-up) e 178 pazienti affetti da altri tipi di demenza, è testata la performance di SPECT transaxial vs. 3D-SSP SPECT

Uchida Y. Diagnosis of Dementia Using Perfusion SPECT Imaging at the Patient’s Initial Visit to a Cognitive Disorder

Clinic Clin Nucl Med 2006;31(12):764-73

Transaxial 3D-SSP p

Severe dementia 0.75 0.90 0.002

Mild dementia 0.64 0.88 0.001

La perfomance è sempre migliore nei pazienti più gravi

68

Were selection criteria clearly described ?

-Si riferisce alla esplicita e chiara definizione dei criteri di inclusione e esclusione dei partecipanti allo studio

- La chiarezza dei criteri di inclusione aiuta a contestualizzarei risultati e a risolvere i problemi di generalizzabilità

69

Is the reference standard likely to correctly classify the target condition ?

-E’ un punto cruciale per la qualità dello studio diagnostico, poiché si assume che il reference standard abbia sensibilità e specificità pari al 100%.

- Le valutazioni di accuratezza diagnostica dell’index test si fondano sulla validità del reference test

- L’index test non può mai ambire al confronto con il reference test, cioè non è possibile conoscere il contributo aggiuntivo che l’index fornisce rispetto al reference in materia di accuratezza diagnostica

70

Uchida Y. Diagnosis of Dementia Using Perfusion SPECT Imaging at the Patient’s Initial Visit to a Cognitive Disorder

Clinic Clin Nucl Med 2006;31(12):764-73

Il reference test clinico non consente di stabilire il contributo fornito dalla SPECT alla diagnosi, in aggiunta alla valutazione clinica

Su 137 pazienti con AD (confermata mediante osservazione clinica dopo due anni di follow-up) e 178 pazienti affetti da altri tipi di demenza, è testata la performance di SPECT transaxial vs. 3D-SSP SPECT

71

Is the time period between reference standard and index test short enough to be reasonably sure that the target condition

did not change between the two test ?

- Si riferisce al rischio di disease progression bias

- Idealmente i due test (index e reference) dovrebbero essere somministrati in tempi ravvicinati

- In assenza di tale requisito è possibile che lo stato di salute del soggetto muti (da malattia a guarigione, da malattia meno grave a malattia più grave) con conseguente distorsione delle stime di accuratezza diagnostica

- Il bias che ne consegue è frequente negli studi di accuratezza diagnostica riferiti a malattie croniche che si basano sul follow up per ottenere la conferma diagnostica

72

Si tratta di uno studio retrospettivo che utilizza la diagnosi autoptica come reference standard

Si basa su 46 pazienti (31 con AD)

Valuta il contributo della FDG-PET alla diagnosi differenziale tra AD e FTD

73

74

Did the whole sample or a random selection of the sample, receive verification using a reference standard ?

- Si riferisce al rischio di partial verification bias, o work-up bias, o selection bias, o sequential ordering bias

- Quando non tutti i pazienti ricevono una conferma diagnostica con il reference standard, si pone il problema del verification bias

- I pazienti testati con il reference dovrebbe essere selezionatiin modo random

- …e comunque la selezione non dovrebbe essere influenzata dal risultato dell’index test

75

Did patients receive the same reference standard regardless of the index test result ?

- Si riferisce al rischio di differential verification bias

- Si verifica quando alcuni risultati dell’index test sono confermati da un reference standard diverso da quello adottato per altri risultati dell’index test

- E’ tipico di studi in cui soltanto i positivi all’index test sono sottoposti a conferme diagnostiche con esami più invasivi (es. biopsia).

- E’ una variante (meno grave) del partial verification bias

76

Was the reference standard independent of the index test (i.e. the index test did not form part of the reference standard) ?

- Si riferisce al rischio di incorporation bias

- Si verifica quando il test index è parte del reference standard, cioè quando il risultato dell’index test è usato per ottenere la conferma diagnostica

- Tende ad aumentare l’accordo tra index e reference e quindi a sovrastimare l’accuratezza diagnostica

- L’assenza di cecità tra risultato dell’index e del reference test non è sinonimo di incorporation bias

77

Was the execution of the index test described in sufficient detail to permit replication of the test ?

Was the execution of the reference standard described in sufficient detail to permit replication of the test ?

- Conoscere le modalità di somministrazione dei due test aiuta a comprendere criticamente i risultati e a implementare l’uso del nuovo test nella pratica clinica

78

Were the index test results interpreted without knowledge of theresults of the reference standard ?

Were the reference standard results interpreted without knowledge of the results of the reference standard ?

- E’ l’equivalente della cecità negli studi interventistici e si riferisce al review bias

- La distorsione potenziale delle stime di accuratezza èproporzionale al grado di soggettività che affligge la lettura dei test

79

Were the same clinical data available when test results were interpreted as would be available when the test is used in practice ?

- Si riferisce all’influenza esercitata dalla conoscenza di notizie cliniche, anamnestiche, ecc., sulla interpretazione del risultato del test

- I risultati dello studio possono essere influenzati nella misura in cui la lettura del risultato del test è soggetta a interpretazione

- La performance stimata nello studio può non essere riprodotta nella pratica clinica, se le conoscenze disponibili non sono le stesse.

80

Were uninterpretable / intermediate test results reported ?

- La presenza di risultati indeterminati o borderline può alterare le stime di accuratezza se tali risultati sono associati alla presenza/assenza malattia

- L’occorrenza casuale di tali risultati non altera le stime di accuratezza

81

Were withdrawals from the study explaned ?

- E’ possibile che le stime di accuratezza risultino distorte nella misura in cui i persi al follow up (prima della disponibilità dei risultati dei test) risultino selezionati per caratteristiche connesse alla performance del test

82

Manuale NICE 2009Methodology checklist: the QUADAS tool for studies of diagnostic test accuracy

83

Si compone di 4 domini:- selezione dei pazienti- index test- reference test- flow e timing

Per ogni dominio è valutato il rischio di bias e per i primi tre domini è valutata l’applicabilità

84

85

Gli autori suggeriscono di non generare score di qualità e rendono disponibile un software (nomefile.mdb) utile per la tabulazione dei risultati

86

E’ infine disponibile lo strumento STARD

(Standards for Reporting of Diagnostic Accuracy)

Clinical Chemistry, 2003; 49:7-18; http://www.stard-statement.org/

Si compone di 25 items e indaga la qualità nel reporting (non nella conduzione) degli studi di accuratezza diagnostica. In particolare:

-ricerca bibliografica -obiettivi dello studio-popolazione e criteri di inclusione-campionamento-allestimento database-razionale del reference standard-tecnica e lettura dell’index e reference-training dei “lettori” dei test-cecità nelle letture

-analisi statistica di validità e riproducibilità-descrizione popolazione-flow diagram-intervallo index-reference-severità di malattia -eventi avversi-risultati anomali del test-trasferibilità