Università degli Studi di Ferrara - La Metodologia …...come si è svolto il nostro studio. Se ho...

Lamberti Nicola 1

La Metodologia della ricerca: dalla stesura della tesi alla pubblicazione di uno studio clinico

Nicola Lamberti, MSc, [email protected]

Lamberti Nicola 2

Link utili

CV docentehttp://docente.unife.it/nicola.lamberti

Scheda del corso e materiale didattico (slides)http://www.unife.it/medicina/scienzemotorie/minisiti-LM/la-

metodologia-della-ricerca/folder_contents

Pubmed docentehttps://www.ncbi.nlm.nih.gov/pubmed/?term=nicola+lamberti+ferra

ra

Lamberti Nicola 3

Lezioni

Venerdì 03 Marzo ore 14-18, aula F9Venerdì 10 Marzo ore 14-18, aula F4Venerdì 17 Marzo ore 14-18, aula F8

Mercoledì 22 Marzo ore 14-17, aula F3Venerdì 24 Marzo ore 14-17, aula F4Venerdì 31 Marzo ore 14-17, aula F4

Martedì 11 Aprile ore 14 aula F8

Frequenza obbligatoria

Lamberti Nicola 4

Parte 4. I risultati

Abbiamo completato una buona ricerca bibliografica

Abbiamo costruito il nostro razionale dello studio

Abbiamo scelto il disegno dello studio migliore possibile

Abbiamo selezionato accuratamente i soggetti

Abbiamo scelto ed effettuato con cura le misure di outcome

Abbiamo descritto con precisioni gli interventi del mio studio

Ora, dobbiamo presentare in maniera efficace i risultati

Lamberti Nicola 5


La prima cosa fondamentale per avere risultati precisi e validi, è costruire un buon dataset di raccolta dati.

Cos’è un dataset (o database)?

E’ un foglio elettronico di lavoro, che raccoglierà con precisione i dati del mio studio/progetto, e mi aiuterà ad esplorarli prima di

affrontare un’adeguata analisi statistica.

Il dataset può essere costruito su molti programmi e sistemi, quello certamente più comune è il foglio elettronico di calcolo Excel

Nelle prossime slides vedremo alcuni consigli utili su come costruire un buon database (che ci renda l’analisi rapida ed efficace)

Lamberti Nicola 6

Parte 4. I risultati: creazione del datasetPrendiamo un esempio di uno studio che io intendo realizzare

In un progetto di ricerca stanno studiando l’efficacia di due trattamenti con l’esercizio fisico nei soggetti con recente NSTEMI.

1) Alta intensità intervallato (30 mins)_HIIT2) Moderata intensità continuo (25 mins)_MICO3) Gruppo di controllo (nessun intervento)_CTRL

Misure di outcome all’inizio (T0), dopo 2 settimane (T1), dopo 4 settimane (T2, fine trattamento), dopo 3 mesi (follow up T3)

- VO2max- 6MWD

- 5-time STS- QoL con SF-36.

Dobbiamo costruire un database (in bocca al lupo). Chi ci vuole provare??

Lamberti Nicola 7

Parte 4. I risultati: creazione del datasetAdesso apriremo un foglio Excel dove uno di voi verrà a creare il

dataset ideale da riempire.

La direzione dello studio ci ha informato che verranno arruolati un minimo di 10 soggetti per ogni gruppo.

Quindi, quale volontario ci vuole provare??

Avete visto quante migliorie possono rendere la creazione del vostro database più veloce??

Ci sono eventuali «tips» che posso utilizzare??

Lamberti Nicola 8

Parte 4. I risultati: creazione del datasetRapida carrellata dei vari strumenti utili che ci mette a disposizione

il foglio elettronico di calcolo per riuscire a fare un buon dataset:

- Scelta di righe e colonne- Blocco della visualizzazione

- Trascina cella- Medie e DS

- Funzione filtro

Lamberti Nicola 9


Il primo risultato da scrivere, prima anche dell’outcome primario, è come si è svolto il nostro studio.

Se ho uno studio con due gruppi, posso avvalermi di una flowchart(vedi slide seguente).

Se invece ho uno studio ad esempio retrospettivo, devo riportare come effettivamente è stato svolto il lavoro

Ad esempio: sono state consultate 500 cartelle cliniche dell’archivio XY, dai quali sono stati estrapolati i parametri in studio. In

particolare il parametro 6MWD è stato misurato in 476 soggetti, ecc.

RisultatiValutati per eleggibilità (n = 513)

Esclusi (n = 486) Non rispettati i criteri inclusione (n = 404) Rifiuto a partecipare (n = 82)

Analizzati (n = 6) Esclusi dall’analisi (n = 0)

Persi al follow up (n = 2) riscontro di patologia neoplastica in corso di follow up (n = 2)

Gruppo Rivascolarizzazione (n = 9) Ricevuto il trattamento previsto (n = 8) Non ricevuto il trattamento previsto (per controindicazioni

all’intervento) (n = 1)

Gruppo Esercizio (n = 18) Ricevuto il trattamento previsto (n = 18) Non ricevuto il trattamento previsto (n = 0)

Randomizzati (n = 27)

Arruolamento

Assegnazione

Persi al follow up (n = 6) aggravamento quadro vascolare (n = 2) comorbidità intercorrenti (n = 3) problematiche familiari (n = 1)

Follow up

Analizzati (n = 12) Esclusi dall’analisi (n = 0)

Analisi

Lamberti Nicola 11

Parte 4. Analisi statistica

Poi devo effettuare una accurata analisi statistica. La prima cosa che devo verificare, prima ancora di scegliere

qualsiasi test, è la distribuzione dei miei dati:

- È Normale?- Non è normale?

Le risposte alla nostra domanda le otteniamo grazie al test di Kolmogorov – Smirnov

Che ci indica se la nostra distribuzione dei dati è normale o non normale.

Lamberti Nicola 12


Cosa significa però «Normale» o «non normale»

Lamberti Nicola 13


Cosa significa però «Normale» o «non normale»

Lamberti Nicola 14

Parte 4. Analisi statisticaIl test di Kolmogorov – Smirnov ci risponde automaticamente se la

nostra distribuzione dei dati è normale oppure no

Lamberti Nicola 15


Ma perché è così importante determinare la distribuzione dei dati?

Perché a seconda che ogni variabile venga distribuita in maniera normale o non normale, ad essa vanno applicate due speciali

appendici della statistica:

- Statistica parametrica (per distribuzioni normali)- Statistica non parametri (per distribuzioni non normali).

Da un punto di vista più strettamente tecnico, a seconda della distribuzione cambia il modo di esprimere le variabili:

- Normale: media ± deviazione standard- Non normale: mediana (range interquartile)

Lamberti Nicola 16

Parte 4. Analisi statisticaLa media:

In statistica, la media è un singolo valore numerico che descrive sinteticamente un insieme di dati. Esistono varie tipologie di media che possono essere scelte per descrivere un fenomeno: quelle più comunemente impiegate sono le tre cosiddette medie pitagoriche

(aritmetica, geometrica e armonica).

Nel linguaggio ordinario, con il termine media si intende comunemente la media aritmetica.

Media = (somma delle variabili) / numero delle variabili

Lamberti Nicola 17

Parte 4. Analisi statisticaLa media:

In un foglio di calcolo Excel si esprime con la formula=media(C1:C9)

Deviazione standard:o scarto quadratico medio è uno dei modi per esprimere la

dispersione dei dati intorno ad un indice di posizione, quale può essere, ad esempio, la media aritmetica o una sua stima.

Vi risparmio la formula per calcolarla

In Excel=dev.st(C1:C9)

Lamberti Nicola 18

Parte 4. Analisi statisticaLa mediana:

si definisce la mediana (o valore mediano) come il valore assunto dalle unità statistiche che si trovano nel mezzo della distribuzione.

In un foglio di calcolo Excel si esprime con la formula=mediana(C1:C9)

Lamberti Nicola 19

Parte 4. Analisi statisticaIl range interquartile:

I quartili sono quei valori/modalità che ripartiscono la popolazione in quattro parti di uguale numerosità;

La differenza tra il terzo ed il primo quartile è un indice di dispersione ed è detto scarto (o range) interquartile; i quartili

vengono inoltre utilizzati per rappresentare un Box-plot.

Lamberti Nicola 20

Parte 4. Analisi statistica: i test più comuniLa scelta del test statistico più appropriato dipende dalla tipologia di

studio che io ho intrapreso.

Partiamo utilizzando come esempio lo studio RCT di cui abbiamo creato il database in precedenza.

La prima cosa che dobbiamo osservare è se nei nostri gruppi esistono sbilanciamenti che li rendono diversi in partenza.

Infatti se io ho un gruppo significativamente più scarso al baseline, posso interpretare in maniera errata i risultati che ottengo.

Lamberti Nicola 21

Parte 4. Analisi statistica: i test più comuniIl test più comune che confronta due gruppi è:

- T-test di Student per campioni indipendenti (parametrico)- U-test di Mann-Whitney per campioni indip (non parametrico).

Esempio con il valore di baseline di 6MWD fra CTRL e HIIT

Lamberti Nicola 22

Parte 4. Analisi statistica: i test più comuniPossiamo affermare che i due gruppi, pur presentando un valore di

6MWD che sembra piuttosto diverso, in realtà non sono così distanti fra loro, e posso assumermi con tranquillità la responsabilità

di dire: «al baseline i due gruppi non sono diversi fra loro per la misura 6MWD».

Però devo fare attenzione, avevo due campioni molto piccolo (7 vs 8); probabilmente ingrandendo il campione (15 vs 15) la differenza

che avrei trovato sarebbe stata significativa.

Lamberti Nicola 23

Parte 4. Analisi statistica: i test più comuniLo stesso identico test lo posso utilizzare, ad esempio, per valutare

l’outcome del mio lavoro; Posso confrontare le differenze in termini di 6MWD fra il gruppo di CTRL e il gruppo HIIT. In questo caso avrò bisogno di verificare se

la differenza sia significativamente diversa

Lamberti Nicola 24

Parte 4. Analisi statistica: i test più comuni

Lamberti Nicola 25

Parte 4. Analisi statistica: i test più comuniSe invece di avere due soli gruppi, ne ho tre o più, posso avvalermi di un’altra procedura statistica, che posso utilizzare sia per l’analisi intergruppo (between groups) che per quella intragruppo (within-

group).Si chiama One-way Analysis of Variance (ANOVA)

- Integruppo: valore di 6MWD baseline per i tre gruppi- integruppo: variazioni di 6MWD nei tre gruppi

In questo senso dobbiamo considerare anche il corrispettivo non parametrico dell’ANOVA, che si chiama test di Kruskal-Wallis

Lamberti Nicola 26

Parte 4. Analisi statistica: i test più comuniANOVA intergruppo al baseline

Lamberti Nicola 27

Parte 4. Analisi statistica: i test più comuniANOVA intergruppo variazioni 6MWD

Lamberti Nicola 28

Parte 4. Analisi statistica: i test più comuniE nel caso, se avessi sempre i miei tre gruppi, ma avessi un

parametro significativamente diverso al baseline (tipo l’età) devo considerare come questa possa influire sull’outcome.

Si utilizza in questo caso un metodo statistico chiamatoSi chiama One-way Analysis of Co-Variance (ANCOVA)

- integruppo: variazioni di 6MWD nei tre gruppi; si utilizza come covariata ad esempio l’età (che noi aveva trovato come

differente)

Lamberti Nicola 29

Parte 4. Analisi statistica: i test più comuniANCOVA intergruppo variazioni 6MWD (età covariata)

Lamberti Nicola 30

Parte 4. Analisi statistica: i test più comuniANCOVA intergruppo variazioni 6MWD (età covariata)

Lamberti Nicola 31

Parte 4. Analisi statistica: i test più comuniSempre rimanendo nel campo delle statistiche più semplici, mettiamo ad esempio che io voglia verificare delle variabili

dicotomiche (si/no, presente/assente, maschio/femmina) se sono diverse nei due gruppi in studio.

Posso usare diverse metodiche di test, (chi-quadro, McNemar, tabelle 2x2) ma sicuramente la più semplice e comune è data dal

test di Fisher (Fisher’s exact test).

Mettiamo ad esempio di voler verificare se maschi e femmine sono distribuiti in egual misura nei due gruppi CTRL e HIIT

Lamberti Nicola 32

Parte 4. Analisi statistica: i test più comuni(Fisher’s exact test)

Lamberti Nicola 33

Parte 4. Analisi statistica: i test più comuniProseguendo nella nostra carrellata delle analisi, dobbiamo prendere

in considerazione le misure di concordanza / discordanza fra due variabili.

La più conosciuta certamente è la retta di correlazione semplice.

Quando le variabili che compongono la variabile doppia (X,Y) sono entrambe numeriche, è possibile analizzare un particolare legame

statistico tra i caratteri, la correlazione lineare.

Studiare la correlazione lineare significa investigare l’esistenza di un legame per cui a variazioni di un carattere corrispondono variazioni dell’altro carattere secondo una relazione lineare.

Lamberti Nicola 34

Parte 4. Analisi statistica: i test più comuniAnalisi grafica della correlazione

Un primo modo per verificare l’esistenza di una correlazione lineare tra due caratteri quantitativi X e Y, è quello di rappresentare la distribuzione doppia (X,Y) attraverso un grafico a dispersione (o

scatterplot).

Uno scatterplot è un grafico in cui ogni osservazione della variabile doppia (xl, yl) viene rappresentata come un punto sugli assi

cartesiani in cui:

all’asse delle ascisse sono associati i valori della variabile Xall’asse delle ordinate sono invece associati i valori della

variabile Y

Lamberti Nicola 35

Parte 4. Analisi statistica: i test più comuniDate due variabili statistiche X e Y, l'indice di correlazione è definito come la loro covarianza divisa per il prodotto delle

deviazioni standard delle due variabili:Il coefficiente assume sempre valori compresi tra -1 e 1

Lamberti Nicola 36

Parte 4. Analisi statistica: i test più comuniPrendiamo il nostro esempio e proviamo a correlare la 6MWD al baseline di tutti con il tempo impiegato per completare il 5STS di

tutti.Nel caso abbiamo una distribuzione normale, utilizziamo l’indice di correlazione di Pearson; con distribuzione non normale l’indice di

correlazione rho di Spearman.

Cosa vi aspettate di vedere?Una correlazione diretta o inversa?

E quanto forte?

Lamberti Nicola 37

Parte 4. Analisi statistica: i test più comuniCorrelazione

Lamberti Nicola 38

Parte 4. Analisi statistica: i test più comuniCorrelazione

Lamberti Nicola 39

Parte 4. Analisi statistica: i test più comuniSe invece abbiamo più variabili in gioco, dobbiamo utilizzare una

regressione

Definizione di regressione

L'analisi della regressione è una tecnica usata per analizzare una serie di dati che consistono in una variabile dipendente e una o più variabili indipendenti. Lo scopo è stimare una eventuale relazione

funzionale esistente tra la variabile dipendente e le variabili indipendenti.

Più formalmente, in statistica la regressione lineare rappresenta un metodo di stima del valore atteso condizionato di una variabile

dipendente, dati i valori di altre variabili indipendenti

Lamberti Nicola 40

Parte 4. Analisi statistica: i test più comuniLa regressione utilizza il valore di R al quadrato (R2)

L'R², o coefficiente di determinazione, è una misura della bontà dell'adattamento (in inglese fitting) della regressione lineare stimata

ai dati osservati.

La regressione LINEARE utilizza due variabili, quando data una di queste (dipendente) si può stimare il valore di un’altra variabile

(indipendente) grazie ad una equazione di regressione.

Vediamo un esempio.

Lamberti Nicola 41

Parte 4. Analisi statistica: i test più comuniRegressione lineare

Lamberti Nicola 42

Parte 4. Analisi statistica: i test più comuniPiù il valore di (R2) è elevato, più il modello è buono, quindi vicino

alla realtà. Il valore del coefficiente di determinazione R2 varia fra 0 e 1.

Lamberti Nicola 43

Parte 4. Analisi statistica: i test più comuniQuando invece ho più variabili indipendenti ad influenzare una

variabile dipendente, ho bisogno di utilizzare non più una regressione lineare, ma una regressione multipla. La regressione

multipla può utilizzare

- Valori numeri (regressione multipla)- Valori dicotomici (si/no, 1/0; regressione logistica).

In entrambi i casi l’obiettivo del metodo è quello di creare un modello biologicamente ragionevole che si avvicini il più possibile

alla realtà.

Facciamo un esempio:

Lamberti Nicola 44

Parte 4. Analisi statistica: i test più comuniRegressione multipla

Obiettivo 2: fattori limitanti la mobilità nel paziente dializzato

Età

Statura

Peso

Età dialitica

Emoglobina

Classe NYHA

Forza arti inferiori

Forza arti inferiori

Mobilità (6MWD)Mobilità (6MWD)

R2 = 0,58p < 0,0001

Lamberti Nicola 46

Parte 4. Analisi statistica: i test più comuniPer la regressione multipla esistono molteplici tipologie di scelta della variabili indipendenti (se trattenerle o meno all’interno del

modello). Le più utilizzate sono due:- Scelta della variabile con selezione Stepwise (trattiene all’interno

del modello solo le variabili che abbiamo una relazione con la variabile dipendente con p < 0,05

- Scelta della variabile con selezione Enter (trattiene all’interno del modello tutte le variabili che io gli inserisco (rischiando però di ottenere un modello NON significativo).

- Apriamo un file e vediamo un esempio delle differenze fra queste due

Lamberti Nicola 47

Parte 4. Analisi statistica: i test più comuniNel caso invece io abbia variabili dicotomiche (come ad esempio possono essere i fattori di rischio cardiovascolare). In aggiunta le

regressione logistica fornisce anche una sorta di ipotesi del rischio, che viene chiamato Odds Ratio (letteralmente divisione della

probabilità).

In pratica l’Odds Ratio significa quando un determinato fattore (variabile indipendente) influenzi il rischio di comparsa della

variabile dipendente.

Ma vediamo alcuni esempi

RISULTATI(obiettivo 1): Creazione del modello statistico

Età > 60

Linfedema +

Peso > 70

Arto dominante

Complicanze

Chemioterapia

Radioterapia

Ormonoterapia

Snoll

Roll+LNS

Roll+Cavo

Roll+LNS+Cavo

Mastectomia+LNS

Mastectomia+Cavo

Cavo post LNS

Ipertensione

Dislipidemia

Diabete

Cardiovascolari

Neurologiche

Osteoarticolari

Gastroenteriche

Reumatologiche

Oncologiche

Psichiatriche

OR: 4,5

OR: 3,7OR: 3,0

OR: 2,6

OR: 1,7

Significatività del modello: R2 = 0,20; p < 0,001

Lamberti Nicola 61

Parte 4. Analisi statistica: i test più comuniAbbiamo visto come nella regressione logistica si possano utilizzare

anche variabili così definite come continue (età) che vengono possono essere opportunamente rese dicotomiche per creare un

modello biologicamente ragionevole

- Età - Peso

- Statura- Capacità funzionale

- Ecc..

Lamberti Nicola 62

Parte 4. Analisi statistica: i test più comuniInfine osserviamo come dal punto di vista statistico esistano altri due tipi di analisi che consentono un confronto che non abbiamo

ancora visto e che invece può rivelarsi molto utile nella nostra professione.

Il confronto fra due metodi di misura.

Di solito viene fatto analizzando il confronto fra un gold standard di riferimento e un nuovo metodo di misura.

Esempio. Poniamo di avere un ArmBand per la misura dei passi compiuti da un soggetto in una giornata, e lo vogliamo confrontare

con un nuovo accelerometro appena uscito

Lamberti Nicola 63

Parte 4. Analisi statistica: i test più comuniIn questi casi si utilizza il test di Bland-Altman che confronta le differenze ottenute fra i due metodi di misura. Ovviamente più

misure ho più precisa sarà la mia analisi statistica.

NB: per avere un confronto ragionevole possiamo fare in due modi:

- Facciamo indossare contemporaneamente allo stesso soggetto entrambi i dispositivi

- Oppure abbiamo bisogno di «fissare» in anticipo il numero di passi da svolgere (ad esempio 100); in quel caso ovviamente potrò fare i miei test in due momenti separati

Lamberti Nicola 64

Parte 4. Analisi statistica: i test più comuni

Lamberti Nicola 65

Parte 4. Analisi statistica: i test più comuniInfine un ultimo test per confrontare la ripetibilità di una misura

fatta con lo stesso test in due momenti differenti.

Si utilizza l’intraclass Correlation Coefficient (ICC) che ci fornisce un valore numerico compreso fra 0 e 1 (si basa sui principi della

correlazione lineare).

Più è vicino a 1 più e ripetibile la misura.

Una ripetibilità molto buona per un test è data da valori superiori a 0.9

Lamberti Nicola 66

Parte 4. Analisi statistica: due diversi approcciCome ultima parte affrontiamo quelli che vengono definiti due

tipologie di analizzare gli outcome di uno studio:

- Analisi «Intention-To-Treat»- Analisi «Per Protocol»

Qualcuno le ha già sentite? Cosa sono?

Lamberti Nicola 67

Parte 4. Analisi statistica: due diversi approcciAnalisi «Per Protocol»

Con questa metodica si analizzano i dati di un RCT a seconda dell’effettivo andamento del trial.

Nel senso che se un paziente del gruppo Controllo si è comportato come un paziente del gruppo Esercizio, i suoi dati saranno aggregati

a quelli del gruppo esercizio e non ai controlli.

In aggiunta, questa analisi tiene conto (a grandi linee) solo dei pazienti che hanno concluso il trial, escludendo quelli che l’hanno

interrotto.

In un trial grande, se scegliete questa analisi, è consigliabile farla seguire dall’analisi successiva ITT

Lamberti Nicola 68

Parte 4. Analisi statistica: due diversi approcciAnalisi «Intention-To-Treat»

Con questa metodica di analisi per gli RCT si analizzano i dati come programmato dal trial, indipendentemente dall’andamento

dello stesso (e.g. se un Controllo ha fatto come gli Esercizio, viene comunque analizzato come un controllo).

Con questo tipo di analisi si devono includere anche i soggetti che non hanno concluso il trial. Ma come è possibile utilizzare un loro

dato se non è stato raccolto?

Ci vengono in aiuto i metodi per la gestione dei «missing data» ovvero dei dati mancanti

Lamberti Nicola 69

Parte 4. Analisi statistica: due diversi approcciI missing data sono frequenti negli RCT per ovvi motivi, ma

possono essere rimpiazzati secondo tre metodi:

- Inserendo il valore medio dell’intera popolazione a quel determinato tempo

- Inserendo il valore medio di quel gruppo a quel determinato tempo

- Utilizzando il miglior metodo per la gestione dei missing data, ovvero la tecnica dell’imputazione multipla (o multiple

imputation).

Lamberti Nicola 70

Parte 4. Analisi statistica: due diversi approcciL’imputazione multipla (o multiple imputation) è una tecnica

statistica effettuata da alcuni programmi di calcolo (e.g. SPSS) che consente di rimpiazzare un dato mancante con un dato creato in

maniera fittizia ma che tenga conto (secondo determinati algoritmi matematici) dell’andamento di tutti gli altri componenti di quel

singolo gruppo.

È considerato il miglior metodo per la gestione dei missing data, anche se per missing data > 25% rispetto all’intera popolazione, anche questo metodo perde efficacia e i risultati del vostro trial

potrebbero essere compromessi.

Lamberti Nicola 71


Take Home Message

- La statistica è fatta di molti test, però qui abbiamo elencato i più utilizzati

- A seconda del disegno dello studio devo applicare la più corretta analisi statistica

- Ricordare sempre che una p < 0.05 non è sinonimo di certezza assoluta

- Presentare i propri dati con precisione (ad ogni correlazione deve essere seguito anche il livello di significatività)

Università degli Studi di Ferrara - La Metodologia …...come si è svolto il nostro studio. Se ho...

Documents

Transcript of Università degli Studi di Ferrara - La Metodologia …...come si è svolto il nostro studio. Se ho...