Università degli Studi di Ferrara - La Metodologia …...come si è svolto il nostro studio. Se ho...
Transcript of Università degli Studi di Ferrara - La Metodologia …...come si è svolto il nostro studio. Se ho...
Lamberti Nicola 1
La Metodologia della ricerca: dalla stesura della tesi alla pubblicazione di uno studio clinico
Nicola Lamberti, MSc, [email protected]
Lamberti Nicola 2
Link utili
CV docentehttp://docente.unife.it/nicola.lamberti
Scheda del corso e materiale didattico (slides)http://www.unife.it/medicina/scienzemotorie/minisiti-LM/la-
metodologia-della-ricerca/folder_contents
Pubmed docentehttps://www.ncbi.nlm.nih.gov/pubmed/?term=nicola+lamberti+ferra
ra
Lamberti Nicola 3
Lezioni
Venerdì 03 Marzo ore 14-18, aula F9Venerdì 10 Marzo ore 14-18, aula F4Venerdì 17 Marzo ore 14-18, aula F8
Mercoledì 22 Marzo ore 14-17, aula F3Venerdì 24 Marzo ore 14-17, aula F4Venerdì 31 Marzo ore 14-17, aula F4
Martedì 11 Aprile ore 14 aula F8
Frequenza obbligatoria
Lamberti Nicola 4
Parte 4. I risultati
Abbiamo completato una buona ricerca bibliografica
Abbiamo costruito il nostro razionale dello studio
Abbiamo scelto il disegno dello studio migliore possibile
Abbiamo selezionato accuratamente i soggetti
Abbiamo scelto ed effettuato con cura le misure di outcome
Abbiamo descritto con precisioni gli interventi del mio studio
Ora, dobbiamo presentare in maniera efficace i risultati
Lamberti Nicola 5
Parte 4. I risultati
La prima cosa fondamentale per avere risultati precisi e validi, è costruire un buon dataset di raccolta dati.
Cos’è un dataset (o database)?
E’ un foglio elettronico di lavoro, che raccoglierà con precisione i dati del mio studio/progetto, e mi aiuterà ad esplorarli prima di
affrontare un’adeguata analisi statistica.
Il dataset può essere costruito su molti programmi e sistemi, quello certamente più comune è il foglio elettronico di calcolo Excel
Nelle prossime slides vedremo alcuni consigli utili su come costruire un buon database (che ci renda l’analisi rapida ed efficace)
Lamberti Nicola 6
Parte 4. I risultati: creazione del datasetPrendiamo un esempio di uno studio che io intendo realizzare
In un progetto di ricerca stanno studiando l’efficacia di due trattamenti con l’esercizio fisico nei soggetti con recente NSTEMI.
1) Alta intensità intervallato (30 mins)_HIIT2) Moderata intensità continuo (25 mins)_MICO3) Gruppo di controllo (nessun intervento)_CTRL
Misure di outcome all’inizio (T0), dopo 2 settimane (T1), dopo 4 settimane (T2, fine trattamento), dopo 3 mesi (follow up T3)
- VO2max- 6MWD
- 5-time STS- QoL con SF-36.
Dobbiamo costruire un database (in bocca al lupo). Chi ci vuole provare??
Lamberti Nicola 7
Parte 4. I risultati: creazione del datasetAdesso apriremo un foglio Excel dove uno di voi verrà a creare il
dataset ideale da riempire.
La direzione dello studio ci ha informato che verranno arruolati un minimo di 10 soggetti per ogni gruppo.
Quindi, quale volontario ci vuole provare??
Avete visto quante migliorie possono rendere la creazione del vostro database più veloce??
Ci sono eventuali «tips» che posso utilizzare??
Lamberti Nicola 8
Parte 4. I risultati: creazione del datasetRapida carrellata dei vari strumenti utili che ci mette a disposizione
il foglio elettronico di calcolo per riuscire a fare un buon dataset:
- Scelta di righe e colonne- Blocco della visualizzazione
- Trascina cella- Medie e DS
- Funzione filtro
Lamberti Nicola 9
Parte 4. I risultati
Il primo risultato da scrivere, prima anche dell’outcome primario, è come si è svolto il nostro studio.
Se ho uno studio con due gruppi, posso avvalermi di una flowchart(vedi slide seguente).
Se invece ho uno studio ad esempio retrospettivo, devo riportare come effettivamente è stato svolto il lavoro
Ad esempio: sono state consultate 500 cartelle cliniche dell’archivio XY, dai quali sono stati estrapolati i parametri in studio. In
particolare il parametro 6MWD è stato misurato in 476 soggetti, ecc.
RisultatiValutati per eleggibilità (n = 513)
Esclusi (n = 486) Non rispettati i criteri inclusione (n = 404) Rifiuto a partecipare (n = 82)
Analizzati (n = 6) Esclusi dall’analisi (n = 0)
Persi al follow up (n = 2) riscontro di patologia neoplastica in corso di follow up (n = 2)
Gruppo Rivascolarizzazione (n = 9) Ricevuto il trattamento previsto (n = 8) Non ricevuto il trattamento previsto (per controindicazioni
all’intervento) (n = 1)
Gruppo Esercizio (n = 18) Ricevuto il trattamento previsto (n = 18) Non ricevuto il trattamento previsto (n = 0)
Randomizzati (n = 27)
Arruolamento
Assegnazione
Persi al follow up (n = 6) aggravamento quadro vascolare (n = 2) comorbidità intercorrenti (n = 3) problematiche familiari (n = 1)
Follow up
Analizzati (n = 12) Esclusi dall’analisi (n = 0)
Analisi
Lamberti Nicola 11
Parte 4. Analisi statistica
Poi devo effettuare una accurata analisi statistica. La prima cosa che devo verificare, prima ancora di scegliere
qualsiasi test, è la distribuzione dei miei dati:
- È Normale?- Non è normale?
Le risposte alla nostra domanda le otteniamo grazie al test di Kolmogorov – Smirnov
Che ci indica se la nostra distribuzione dei dati è normale o non normale.
Lamberti Nicola 12
Parte 4. Analisi statistica
Cosa significa però «Normale» o «non normale»
Lamberti Nicola 13
Parte 4. Analisi statistica
Cosa significa però «Normale» o «non normale»
Lamberti Nicola 14
Parte 4. Analisi statisticaIl test di Kolmogorov – Smirnov ci risponde automaticamente se la
nostra distribuzione dei dati è normale oppure no
Lamberti Nicola 15
Parte 4. Analisi statistica
Ma perché è così importante determinare la distribuzione dei dati?
Perché a seconda che ogni variabile venga distribuita in maniera normale o non normale, ad essa vanno applicate due speciali
appendici della statistica:
- Statistica parametrica (per distribuzioni normali)- Statistica non parametri (per distribuzioni non normali).
Da un punto di vista più strettamente tecnico, a seconda della distribuzione cambia il modo di esprimere le variabili:
- Normale: media ± deviazione standard- Non normale: mediana (range interquartile)
Lamberti Nicola 16
Parte 4. Analisi statisticaLa media:
In statistica, la media è un singolo valore numerico che descrive sinteticamente un insieme di dati. Esistono varie tipologie di media che possono essere scelte per descrivere un fenomeno: quelle più comunemente impiegate sono le tre cosiddette medie pitagoriche
(aritmetica, geometrica e armonica).
Nel linguaggio ordinario, con il termine media si intende comunemente la media aritmetica.
Media = (somma delle variabili) / numero delle variabili
Lamberti Nicola 17
Parte 4. Analisi statisticaLa media:
In un foglio di calcolo Excel si esprime con la formula=media(C1:C9)
Deviazione standard:o scarto quadratico medio è uno dei modi per esprimere la
dispersione dei dati intorno ad un indice di posizione, quale può essere, ad esempio, la media aritmetica o una sua stima.
Vi risparmio la formula per calcolarla
In Excel=dev.st(C1:C9)
Lamberti Nicola 18
Parte 4. Analisi statisticaLa mediana:
si definisce la mediana (o valore mediano) come il valore assunto dalle unità statistiche che si trovano nel mezzo della distribuzione.
In un foglio di calcolo Excel si esprime con la formula=mediana(C1:C9)
Lamberti Nicola 19
Parte 4. Analisi statisticaIl range interquartile:
I quartili sono quei valori/modalità che ripartiscono la popolazione in quattro parti di uguale numerosità;
La differenza tra il terzo ed il primo quartile è un indice di dispersione ed è detto scarto (o range) interquartile; i quartili
vengono inoltre utilizzati per rappresentare un Box-plot.
Lamberti Nicola 20
Parte 4. Analisi statistica: i test più comuniLa scelta del test statistico più appropriato dipende dalla tipologia di
studio che io ho intrapreso.
Partiamo utilizzando come esempio lo studio RCT di cui abbiamo creato il database in precedenza.
La prima cosa che dobbiamo osservare è se nei nostri gruppi esistono sbilanciamenti che li rendono diversi in partenza.
Infatti se io ho un gruppo significativamente più scarso al baseline, posso interpretare in maniera errata i risultati che ottengo.
Lamberti Nicola 21
Parte 4. Analisi statistica: i test più comuniIl test più comune che confronta due gruppi è:
- T-test di Student per campioni indipendenti (parametrico)- U-test di Mann-Whitney per campioni indip (non parametrico).
Esempio con il valore di baseline di 6MWD fra CTRL e HIIT
Lamberti Nicola 22
Parte 4. Analisi statistica: i test più comuniPossiamo affermare che i due gruppi, pur presentando un valore di
6MWD che sembra piuttosto diverso, in realtà non sono così distanti fra loro, e posso assumermi con tranquillità la responsabilità
di dire: «al baseline i due gruppi non sono diversi fra loro per la misura 6MWD».
Però devo fare attenzione, avevo due campioni molto piccolo (7 vs 8); probabilmente ingrandendo il campione (15 vs 15) la differenza
che avrei trovato sarebbe stata significativa.
Lamberti Nicola 23
Parte 4. Analisi statistica: i test più comuniLo stesso identico test lo posso utilizzare, ad esempio, per valutare
l’outcome del mio lavoro; Posso confrontare le differenze in termini di 6MWD fra il gruppo di CTRL e il gruppo HIIT. In questo caso avrò bisogno di verificare se
la differenza sia significativamente diversa
Lamberti Nicola 24
Parte 4. Analisi statistica: i test più comuni
Lamberti Nicola 25
Parte 4. Analisi statistica: i test più comuniSe invece di avere due soli gruppi, ne ho tre o più, posso avvalermi di un’altra procedura statistica, che posso utilizzare sia per l’analisi intergruppo (between groups) che per quella intragruppo (within-
group).Si chiama One-way Analysis of Variance (ANOVA)
- Integruppo: valore di 6MWD baseline per i tre gruppi- integruppo: variazioni di 6MWD nei tre gruppi
In questo senso dobbiamo considerare anche il corrispettivo non parametrico dell’ANOVA, che si chiama test di Kruskal-Wallis
Lamberti Nicola 26
Parte 4. Analisi statistica: i test più comuniANOVA intergruppo al baseline
Lamberti Nicola 27
Parte 4. Analisi statistica: i test più comuniANOVA intergruppo variazioni 6MWD
Lamberti Nicola 28
Parte 4. Analisi statistica: i test più comuniE nel caso, se avessi sempre i miei tre gruppi, ma avessi un
parametro significativamente diverso al baseline (tipo l’età) devo considerare come questa possa influire sull’outcome.
Si utilizza in questo caso un metodo statistico chiamatoSi chiama One-way Analysis of Co-Variance (ANCOVA)
- integruppo: variazioni di 6MWD nei tre gruppi; si utilizza come covariata ad esempio l’età (che noi aveva trovato come
differente)
Lamberti Nicola 29
Parte 4. Analisi statistica: i test più comuniANCOVA intergruppo variazioni 6MWD (età covariata)
Lamberti Nicola 30
Parte 4. Analisi statistica: i test più comuniANCOVA intergruppo variazioni 6MWD (età covariata)
Lamberti Nicola 31
Parte 4. Analisi statistica: i test più comuniSempre rimanendo nel campo delle statistiche più semplici, mettiamo ad esempio che io voglia verificare delle variabili
dicotomiche (si/no, presente/assente, maschio/femmina) se sono diverse nei due gruppi in studio.
Posso usare diverse metodiche di test, (chi-quadro, McNemar, tabelle 2x2) ma sicuramente la più semplice e comune è data dal
test di Fisher (Fisher’s exact test).
Mettiamo ad esempio di voler verificare se maschi e femmine sono distribuiti in egual misura nei due gruppi CTRL e HIIT
Lamberti Nicola 32
Parte 4. Analisi statistica: i test più comuni(Fisher’s exact test)
Lamberti Nicola 33
Parte 4. Analisi statistica: i test più comuniProseguendo nella nostra carrellata delle analisi, dobbiamo prendere
in considerazione le misure di concordanza / discordanza fra due variabili.
La più conosciuta certamente è la retta di correlazione semplice.
Quando le variabili che compongono la variabile doppia (X,Y) sono entrambe numeriche, è possibile analizzare un particolare legame
statistico tra i caratteri, la correlazione lineare.
Studiare la correlazione lineare significa investigare l’esistenza di un legame per cui a variazioni di un carattere corrispondono variazioni dell’altro carattere secondo una relazione lineare.
Lamberti Nicola 34
Parte 4. Analisi statistica: i test più comuniAnalisi grafica della correlazione
Un primo modo per verificare l’esistenza di una correlazione lineare tra due caratteri quantitativi X e Y, è quello di rappresentare la distribuzione doppia (X,Y) attraverso un grafico a dispersione (o
scatterplot).
Uno scatterplot è un grafico in cui ogni osservazione della variabile doppia (xl, yl) viene rappresentata come un punto sugli assi
cartesiani in cui:
all’asse delle ascisse sono associati i valori della variabile Xall’asse delle ordinate sono invece associati i valori della
variabile Y
Lamberti Nicola 35
Parte 4. Analisi statistica: i test più comuniDate due variabili statistiche X e Y, l'indice di correlazione è definito come la loro covarianza divisa per il prodotto delle
deviazioni standard delle due variabili:Il coefficiente assume sempre valori compresi tra -1 e 1
Lamberti Nicola 36
Parte 4. Analisi statistica: i test più comuniPrendiamo il nostro esempio e proviamo a correlare la 6MWD al baseline di tutti con il tempo impiegato per completare il 5STS di
tutti.Nel caso abbiamo una distribuzione normale, utilizziamo l’indice di correlazione di Pearson; con distribuzione non normale l’indice di
correlazione rho di Spearman.
Cosa vi aspettate di vedere?Una correlazione diretta o inversa?
E quanto forte?
Lamberti Nicola 37
Parte 4. Analisi statistica: i test più comuniCorrelazione
Lamberti Nicola 38
Parte 4. Analisi statistica: i test più comuniCorrelazione
Lamberti Nicola 39
Parte 4. Analisi statistica: i test più comuniSe invece abbiamo più variabili in gioco, dobbiamo utilizzare una
regressione
Definizione di regressione
L'analisi della regressione è una tecnica usata per analizzare una serie di dati che consistono in una variabile dipendente e una o più variabili indipendenti. Lo scopo è stimare una eventuale relazione
funzionale esistente tra la variabile dipendente e le variabili indipendenti.
Più formalmente, in statistica la regressione lineare rappresenta un metodo di stima del valore atteso condizionato di una variabile
dipendente, dati i valori di altre variabili indipendenti
Lamberti Nicola 40
Parte 4. Analisi statistica: i test più comuniLa regressione utilizza il valore di R al quadrato (R2)
L'R², o coefficiente di determinazione, è una misura della bontà dell'adattamento (in inglese fitting) della regressione lineare stimata
ai dati osservati.
La regressione LINEARE utilizza due variabili, quando data una di queste (dipendente) si può stimare il valore di un’altra variabile
(indipendente) grazie ad una equazione di regressione.
Vediamo un esempio.
Lamberti Nicola 41
Parte 4. Analisi statistica: i test più comuniRegressione lineare
Lamberti Nicola 42
Parte 4. Analisi statistica: i test più comuniPiù il valore di (R2) è elevato, più il modello è buono, quindi vicino
alla realtà. Il valore del coefficiente di determinazione R2 varia fra 0 e 1.
Lamberti Nicola 43
Parte 4. Analisi statistica: i test più comuniQuando invece ho più variabili indipendenti ad influenzare una
variabile dipendente, ho bisogno di utilizzare non più una regressione lineare, ma una regressione multipla. La regressione
multipla può utilizzare
- Valori numeri (regressione multipla)- Valori dicotomici (si/no, 1/0; regressione logistica).
In entrambi i casi l’obiettivo del metodo è quello di creare un modello biologicamente ragionevole che si avvicini il più possibile
alla realtà.
Facciamo un esempio:
Lamberti Nicola 44
Parte 4. Analisi statistica: i test più comuniRegressione multipla
Obiettivo 2: fattori limitanti la mobilità nel paziente dializzato
Età
Statura
Peso
Età dialitica
Emoglobina
Classe NYHA
Forza arti inferiori
Forza arti inferiori
Mobilità (6MWD)Mobilità (6MWD)
R2 = 0,58p < 0,0001
Lamberti Nicola 46
Parte 4. Analisi statistica: i test più comuniPer la regressione multipla esistono molteplici tipologie di scelta della variabili indipendenti (se trattenerle o meno all’interno del
modello). Le più utilizzate sono due:- Scelta della variabile con selezione Stepwise (trattiene all’interno
del modello solo le variabili che abbiamo una relazione con la variabile dipendente con p < 0,05
- Scelta della variabile con selezione Enter (trattiene all’interno del modello tutte le variabili che io gli inserisco (rischiando però di ottenere un modello NON significativo).
- Apriamo un file e vediamo un esempio delle differenze fra queste due
Lamberti Nicola 47
Parte 4. Analisi statistica: i test più comuniNel caso invece io abbia variabili dicotomiche (come ad esempio possono essere i fattori di rischio cardiovascolare). In aggiunta le
regressione logistica fornisce anche una sorta di ipotesi del rischio, che viene chiamato Odds Ratio (letteralmente divisione della
probabilità).
In pratica l’Odds Ratio significa quando un determinato fattore (variabile indipendente) influenzi il rischio di comparsa della
variabile dipendente.
Ma vediamo alcuni esempi
RISULTATI(obiettivo 1): Creazione del modello statistico
Età > 60
Linfedema +
Peso > 70
Arto dominante
Complicanze
Chemioterapia
Radioterapia
Ormonoterapia
Snoll
Roll+LNS
Roll+Cavo
Roll+LNS+Cavo
Mastectomia+LNS
Mastectomia+Cavo
Cavo post LNS
Ipertensione
Dislipidemia
Diabete
Cardiovascolari
Neurologiche
Osteoarticolari
Gastroenteriche
Reumatologiche
Oncologiche
Psichiatriche
OR: 4,5
OR: 3,7OR: 3,0
OR: 2,6
OR: 1,7
Significatività del modello: R2 = 0,20; p < 0,001
Lamberti Nicola 61
Parte 4. Analisi statistica: i test più comuniAbbiamo visto come nella regressione logistica si possano utilizzare
anche variabili così definite come continue (età) che vengono possono essere opportunamente rese dicotomiche per creare un
modello biologicamente ragionevole
- Età - Peso
- Statura- Capacità funzionale
- Ecc..
Lamberti Nicola 62
Parte 4. Analisi statistica: i test più comuniInfine osserviamo come dal punto di vista statistico esistano altri due tipi di analisi che consentono un confronto che non abbiamo
ancora visto e che invece può rivelarsi molto utile nella nostra professione.
Il confronto fra due metodi di misura.
Di solito viene fatto analizzando il confronto fra un gold standard di riferimento e un nuovo metodo di misura.
Esempio. Poniamo di avere un ArmBand per la misura dei passi compiuti da un soggetto in una giornata, e lo vogliamo confrontare
con un nuovo accelerometro appena uscito
Lamberti Nicola 63
Parte 4. Analisi statistica: i test più comuniIn questi casi si utilizza il test di Bland-Altman che confronta le differenze ottenute fra i due metodi di misura. Ovviamente più
misure ho più precisa sarà la mia analisi statistica.
NB: per avere un confronto ragionevole possiamo fare in due modi:
- Facciamo indossare contemporaneamente allo stesso soggetto entrambi i dispositivi
- Oppure abbiamo bisogno di «fissare» in anticipo il numero di passi da svolgere (ad esempio 100); in quel caso ovviamente potrò fare i miei test in due momenti separati
Lamberti Nicola 64
Parte 4. Analisi statistica: i test più comuni
Lamberti Nicola 65
Parte 4. Analisi statistica: i test più comuniInfine un ultimo test per confrontare la ripetibilità di una misura
fatta con lo stesso test in due momenti differenti.
Si utilizza l’intraclass Correlation Coefficient (ICC) che ci fornisce un valore numerico compreso fra 0 e 1 (si basa sui principi della
correlazione lineare).
Più è vicino a 1 più e ripetibile la misura.
Una ripetibilità molto buona per un test è data da valori superiori a 0.9
Lamberti Nicola 66
Parte 4. Analisi statistica: due diversi approcciCome ultima parte affrontiamo quelli che vengono definiti due
tipologie di analizzare gli outcome di uno studio:
- Analisi «Intention-To-Treat»- Analisi «Per Protocol»
Qualcuno le ha già sentite? Cosa sono?
Lamberti Nicola 67
Parte 4. Analisi statistica: due diversi approcciAnalisi «Per Protocol»
Con questa metodica si analizzano i dati di un RCT a seconda dell’effettivo andamento del trial.
Nel senso che se un paziente del gruppo Controllo si è comportato come un paziente del gruppo Esercizio, i suoi dati saranno aggregati
a quelli del gruppo esercizio e non ai controlli.
In aggiunta, questa analisi tiene conto (a grandi linee) solo dei pazienti che hanno concluso il trial, escludendo quelli che l’hanno
interrotto.
In un trial grande, se scegliete questa analisi, è consigliabile farla seguire dall’analisi successiva ITT
Lamberti Nicola 68
Parte 4. Analisi statistica: due diversi approcciAnalisi «Intention-To-Treat»
Con questa metodica di analisi per gli RCT si analizzano i dati come programmato dal trial, indipendentemente dall’andamento
dello stesso (e.g. se un Controllo ha fatto come gli Esercizio, viene comunque analizzato come un controllo).
Con questo tipo di analisi si devono includere anche i soggetti che non hanno concluso il trial. Ma come è possibile utilizzare un loro
dato se non è stato raccolto?
Ci vengono in aiuto i metodi per la gestione dei «missing data» ovvero dei dati mancanti
Lamberti Nicola 69
Parte 4. Analisi statistica: due diversi approcciI missing data sono frequenti negli RCT per ovvi motivi, ma
possono essere rimpiazzati secondo tre metodi:
- Inserendo il valore medio dell’intera popolazione a quel determinato tempo
- Inserendo il valore medio di quel gruppo a quel determinato tempo
- Utilizzando il miglior metodo per la gestione dei missing data, ovvero la tecnica dell’imputazione multipla (o multiple
imputation).
Lamberti Nicola 70
Parte 4. Analisi statistica: due diversi approcciL’imputazione multipla (o multiple imputation) è una tecnica
statistica effettuata da alcuni programmi di calcolo (e.g. SPSS) che consente di rimpiazzare un dato mancante con un dato creato in
maniera fittizia ma che tenga conto (secondo determinati algoritmi matematici) dell’andamento di tutti gli altri componenti di quel
singolo gruppo.
È considerato il miglior metodo per la gestione dei missing data, anche se per missing data > 25% rispetto all’intera popolazione, anche questo metodo perde efficacia e i risultati del vostro trial
potrebbero essere compromessi.
Lamberti Nicola 71
Parte 4. Analisi statistica
Take Home Message
- La statistica è fatta di molti test, però qui abbiamo elencato i più utilizzati
- A seconda del disegno dello studio devo applicare la più corretta analisi statistica
- Ricordare sempre che una p < 0.05 non è sinonimo di certezza assoluta
- Presentare i propri dati con precisione (ad ogni correlazione deve essere seguito anche il livello di significatività)