Dispensa Corso Statistic A 2011 Villani

43
Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA 1 ELEMENTI DI STATISTICA MEDICA ED EPIDEMIOLOGIA PER LE PROFESSIONI SANITARIE-TECNICHE Alessandra Marinoni Simona Villani Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali Università degli Studi di Pavia

Transcript of Dispensa Corso Statistic A 2011 Villani

Page 1: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

1

ELEMENTI DI STATISTICA MEDICA

ED EPIDEMIOLOGIA PER LE PROFESSIONI

SANITARIE-TECNICHE

Alessandra Marinoni

Simona Villani

Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali

Università degli Studi di Pavia

Page 2: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

2

Quanto presentato è liberamente tratto dalla

Dispensa n° 15 - Unità didattica STATSAN SA

dei “Percorsi formativi per il personale dipendente del Ministero della Salute”

Prof.ssa Alessandra Marinoni e Dr.ssa Simona Villani

Finito di stampare: Pavia, aprile 2002

Page 3: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

3

CAPITOLO I

1.1 Le caratteristiche dei fenomeni sanitari: variabilità e multidimensionalità

Chiunque sia interessato allo studio delle problematiche legate alla salute dell’uomo

si rende conto della complessità del problema e della necessità di possedere

strumenti adeguati di conoscenza.

Quando l’oggetto di studio è l’uomo i principali problemi metodologici sono:

1. variabilità: i fenomeni biologici sono caratterizzati da una estrema variabilità sia

entro lo stesso soggetto che tra soggetti. Se replico più volte la misura della

pressione arteriosa sistolica su uno stesso soggetto potrò trovare valori diversi e

le motivazioni di tale variabilità sono molteplici: variabilità nelle misurazioni,

ritmi circadiani, stato emozionale del soggetto, diversa posizione (coricato o

seduto) farmaci assunti, e così via (variabilità entro soggetto). Le rilevazioni

della pressione arteriosa sistolica in soggetti diversi possono avere valori

variabili per diverse motivazioni: età, sesso, razza, stato di salute per citare solo

alcuni aspetti (variabilità tra soggetti).

2. la multidimensionalità, per cui è necessario indagare su diversi aspetti del

soggetto, anche se l’interesse è una specifica malattia (es. le possibilità di cura,

riabilitazione o prevenzione della cardiopatia ischemica dipendono non solo della

gravità della malattia, ma dalla presenza o meno di altre patologie (comorbidità)

dell’età del soggetto, dal sesso, dalle attività professionali, dalle condizioni socio-

economiche, dal suo livello di educazione, dalla sua personalità, etc.). Tutto ciò

implica che gli aspetti da indagare non possono limitarsi alla rilevazione della

presenza-assenza della patologia in studio, ma anche di una serie di altre

dimensioni ad essa associate che potrebbero condizionare la corretta conoscenza

del fenomeno.

3. Il soggetto oggetto di studio è condizionato dal contesto in cui vive, per cui le

manifestazioni della malattia possono dipendere dall’ambiente fisico, sociale e

famigliare in cui si trova e dalle conseguenti interazioni uomo-ambiente. Tutto

Page 4: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

4

ciò complica il processo di conoscenza dei fenomeni biologici e sanitari in

particolare e rende indispensabile un metodo di approccio rigoroso.

Da quanto detto, lo scenario in cui operiamo si presenta così:

- unità statistica complessa: l’individuo che è unico, ma deve essere analizzato

nelle sue varie dimensioni e quindi ricomposto

- la variabilità: ogni osservazione può essere diversa da un’altra (variabilità

intra individuale, tra individui, di misura, di fluttuazioni biologiche.

1.2 Il ruolo della statistica e del metodo scientifico in Sanità

La statistica medica può essere considerata il momento empirico della scienza,

fornendoci la metodologia per lo studio “del vivente”. La statistica medica è intesa

come metodologia generale per lo studio dei fenomeni collettivi e quindi della

variabilità, attraverso le seguenti modalità:

a. osservazione dei fenomeni. La statistica medica insegna come occorre osservare

la realtà, come raccogliere i dati, con quali strumenti, su chi, su quanti, etc.

b. traduzione in simboli. La statistica medica insegna come riassumere in modo

corretto i dati raccolti, cioè come esprimerli e rappresentarli in modo sintetico e

appropriato in funzione del tipo di variabile e della sua distribuzione. La media e

la deviazione standard, la moda, la mediana, la percentuale, i tassi, i rischi

relativi, gli istogrammi, etc. rappresentano alcune delle misure di sintesi di

variabili raccolte, ciascuna rispondente ad uno specifico obiettivo come vedremo

più avanti.

c. evidenza delle irregolarità. Una appropriata analisi statistica di variabili raccolte,

consente di evidenziare quei fenomeni che si scostano dalla “normalità” cioè dai

valori più frequenti in un set di dati: spesso l’approfondimento su tali irregolarità

è molto informativo e può generare nuove ipotesi.

d. verifica di ipotesi. È l’aspetto più interessante della metodologia statistica: la

possibilità di verificare se un’ipotesi posta sia o no sia confutata dalla

osservazione della realtà, come sarà sviluppato nel capitolo sulla inferenza

statistica.

Page 5: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

5

Uno dei principali contributi della statistica medica alla conoscenza dei fenomeni

biologici è quello di fornirci i metodi per analizzare la variabilità, scomponendola

nelle sue componenti di tipo:

- sistematico ossia quella parte di variabilità che possiamo attribuire ad una

causa (età, sesso, comorbidità, etc.), detta anche variabilità spiegata o

prevedibile;

- casuale ossia quella parte di variabilità che non riusciamo ad attribuire ad una

causa (è detta anche variabilità non spiegata, imprevedibile, e genericamente

“biologica”). Il fatto che due fratelli gemelli, apparentemente uguali possano

avere valori di altezza diversi, o che rilevazioni successive della pressione

arteriosa sistolica sullo stesso soggetto in tempi ravvicinati diano valori

diversi, etc. sembra logicamente inspiegabile.

In base alle sue funzioni, la statistica si può distinguere in:

a) statistica descrittiva il cui obiettivo è quello di riassumere i dati sanitari raccolti

calcolando le opportune statistiche descrittive e/o indicatori che in modo sintetico

descrivano il fenomeno studiato. La statistica descrittiva rappresenta sempre la

prima fase di qualsiasi ricerca, o può essere lo scopo di uno studio conoscitivo

esplorativo;

b) statistica inferenziale il cui obiettivo è quello di ricavare dallo studio condotto

leggi generali che si intendono estendere alla popolazione e/o ad altre situazioni

simili. I due momenti fondamentali sono:

- la stima dei parametri. Ad esempio lo studio antropometrico di un campione

di bambini maschi dai 6 ai 14 anni può consentire di stimare gli intervalli di

altezza entro cui dovrebbero collocarsi le altezze dei bambini della stessa

fascia di età e della stessa popolazione con un certo livello di probabilità

(intervallo di confidenza attorno alla media);

- la verifica di ipotesi. Lo scopo della statistica inferenziale è quello di stimare

la probabilità che le differenze osservate nei dati di gruppi diversi siano

interamente dovute a variabilità casuale piuttosto che a differenze della

sottostante popolazione di riferimento. Per capire la statistica inferenziale è

necessario introdurre il concetto di popolazione e campione.

Page 6: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

6

CAPITOLO II

2.1 Popolazione e campione

Spesso non è possibile studiare l’intera popolazione che interessa. La statistica ci

offre la possibilità di selezionare un sottoinsieme di tale popolazione (un campione),

analizzando il quale si possono trarre conclusioni sull’intera popolazione. Perché ciò

sia possibile è necessario che la metodologia adottata sia corretta e rigorosa. Lo

schema logico di tale processo è illustrato nella seguente figura:

2.1.1 Popolazione target o popolazione obiettivo

È l’insieme di tutti gli ipotetici elementi oggetto del nostro interesse. La popolazione

obiettivo può essere:

- finita se è possibile produrre l’elenco di tutti gli elementi oggetto di interesse. Ad

esempio: desidero conoscere le anomalie di comportamento (droghe, alcool, etc.)

Page 7: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

7

dei giovani adolescenti frequentanti le scuole medie superiori ed inferiori

dell’area sanitaria di mia competenza (ASL) ai fini di organizzare un programma

di educazione sanitaria nelle scuole. In tal caso la popolazione oggetto di studio è

finita, in quanto mi interessa quella specifica popolazione di studenti residenti in

quella zona specifica in cui voglio attuare gli interventi di prevenzione.

- Infinita quando si tratta di una popolazione ideale, di cui non è possibile produrre

un elenco, in quanto spesso deve ancora verificarsi. Se ad esempio, l’obiettivo

del mio studio è quello di valutare l’efficacia di un trattamento di

disintossicazione dalla tossicodipendenza in giovani adolescenti, la popolazione

obiettivo è costituita da tutti quei giovani adolescenti che sono tossicodipendenti,

ma anche che potranno diventarlo in futuro, che risiedono ove io conduco lo

studio, ma anche in altre parti del paese e del mondo. In tal caso la popolazione

di interesse e che potrà beneficiare dei risultati dello studio è infinita.

2.1.2 Popolazione campionata (o base di campionamento)

Rappresenta l’aspetto operativo della popolazione obiettivo. Nel caso in cui la

popolazione sia finita (utenti di un servizio, residenti di una città, di un’ASL, etc.) è

possibile ottenere la lista dei soggetti della popolazione stessa. Se la popolazione

obiettivo è infinita non è possibile ottenere la lista di soggetti. In tal caso si sceglie

una definizione operativa della popolazione.

Ad esempio per valutare l’efficacia di un intervento terapeutico per

tossicodipendenti se si opera a Pavia, si potrà scegliere di effettuare la

sperimentazione sugli utenti dei servizi dei SERT della provincia di Pavia, per

motivi pratici e di fattibilità (si hanno buoni rapporti con i responsabili dei

servizi, sono conosciuta dalla popolazione, le distanze sono limitate, etc.).

L’assunto è che i tossicodipendenti frequentanti i SERT di Pavia non siano

diversi da quelli che potrebbero frequentare altri SERT italiani o di altre parti del

mondo, e che se dimostrerà l’efficacia di un trattamento per tale gruppo di

soggetti ci si aspetta che ciò sarà valido anche per altri.

Tale assunto è molto ambizioso e non sempre è verificato e la generalizzazione

alla fine dello studio dovrà essere molto prudente e verificata con le opportune

analisi. Tuttavia è l’unico approccio che rende fattibile lo studio!

Page 8: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

8

2.1.3 Il campione

Non potendo per ragioni pratiche condurre uno studio su tutti i soggetti della base di

campionamento (per ragioni di costi, di tempi ed anche etici), la statistica offre i

metodi per selezionare un sottoinsieme di tale popolazione, di numerosità limitata,

ma adeguata su cui si condurrà in pratica lo studio. Il processo di selezione si chiama

campionamento.

Selezionato il campione, ed effettuata la raccolta dei dati, prima di sottoporli alla

analisi occorre controllarne la qualità con gli opportuni metodi e quindi i dati validati

vengono sottoposti alle usuali elaborazioni di statistica descrittiva.

La fase successiva di stima dei parametri ed inferenza sulla popolazione sono molto

più ambiziose in quanto dall’analisi di un gruppo limitato di soggetti si ha la pretesa

di trarre conclusioni su tutta la popolazione. Tale processo è corretto solo se vengono

rispettate in modo rigoroso le regole di campionamento che la metodologia statistica

indica, e che si basano sulle leggi della probabilità (teoria del campionamento), la cui

trattazione esula dal livello di questo corso ma di cui è bene essere consapevoli. Il

processo si conclude con la estensione dei risultati trovati alla popolazione

campionata e da questa alla popolazione obiettivo.

In ciascuno di questi processi inferenziali si possono condurre errori di tipo logico

(bias) e pertanto occorre procedere con estrema prudenza e senso critico.

Se ad esempio i SERT di Pavia non offrissero alcune prestazioni (metadone, etc.)

alcuni tossicodipendenti potrebbero recarsi in altri servizi e quindi alcune tipologie di

soggetti sarebbero assenti dal nostro campione (errore di selezione o bias di

selezione).

2.2 Tipi di campionamento

La metodologia con cui si selezionano i soggetti (o le unità statistiche) dalla

popolazione si chiama campionamento.

Distinguiamo diversi metodi di campionamento non alternativi, ma ciascuno indicato

in specifici contesti, che solo l’esperienza di ricerca in campo clinico ed

epidemiologo consente di verificare. Una prima distinzione è la seguente:

Page 9: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

9

I) campionamenti probabilistici: la scelta delle unità statistiche da sottoporre allo

studio è regolata dalle leggi della probabilità;

II) campionamenti non probabilistici: la scelta delle unità statistiche da sottoporre

allo studio non è di tipo probabilistico.

2.2.1 Campionamenti probabilistici

A. Casuale semplice.

Per la scelta dei soggetti (o unità statistiche) si segue un criterio che garantisca la

stessa probabilità a tutti i componenti della base di campionamento di entrare a far

parte del campione. Occorre quindi affidarsi ad un metodo che garantisca la

casualità, così che la differenza tra popolazione e campione sia solo di tipo

numerico:

� Sistematicità. Si introduce una regola fissa di selezione che sia indipendente

dalle caratteristiche che poi si vanno a misurare (esempio: 1 soggetto ogni 10

partendo da un numero a caso; il primo nato di ogni mese; il paziente che sta

nel 2° letto di ogni stanza, etc.).

� Randomizzazione. Si ricorre ad un criterio di generazione di numeri casuali

(lancio di dadi, tabelle dei numeri casuali, programmi per PC che generino

numeri casuali, etc.). Il campione sarà costituito da quegli elementi della base

Page 10: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

10

di campionamento (opportunamente numerati) che corrispondono ai numeri

selezionati.

B. Casuale stratificato.

In campo clinico ed epidemiologico è difficile che non siano disponibili

informazioni su caratteristiche della popolazione, che potrebbero essere associate

alle variabili in studio la cui presenza potrebbe “confondere” i risultati finali

(fattori confondenti). Per tener conto di tali fattori occorre non solo che siano

raccolti, ma anche eliminati. Uno dei metodi utilizzati è quello della

stratificazione, cioè la suddivisione della base di campionamento in strati

omogenei per quelle caratteristiche. Il campione è scelto in modo casuale da

ciascuno degli strati.

� Campionamento stratificato a numero proporzionale. In tal caso il campione

riproduce la stessa proporzione della popolazione generale di elementi nei

singoli strati, cioè la distribuzione dei fattori di stratificazione nel campione è

la stessa di quella della popolazione.

Si ricorre a tale tipo di campionamento, quando la popolazione obiettivo

coincide con la popolazione campionata e quindi si è interessati ad ottenere

un campione che risponda il più fedelmente possibile alla popolazione.

Se ad esempio si è interessati a studiare la prevalenza di asma nella

popolazione adulta di Pavia (20-69 anni) ai fini di dimensionare i servizi per

Page 11: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

11

le patologie allergiche e respiratorie, essendo il sesso e l’età due

caratteristiche associate alla malattia, si eseguirà un campionamento

stratificato proporzionale.

� Campionamento stratificato a numero fisso. In tal caso la scelta casuale dai

singoli strati sarà effettuata prelevando uno stesso numero di soggetti dagli

starti, così da ottenere un campione bilanciato per i fattori confondenti.

Ad esempio, in uno studio europeo (ECRHS) per conoscere la prevalenza

dell’asma nei vari paesi e identificare i fattori di rischio, si è deciso di

scegliere per ogni area un campione di 3000 soggetti stratificando la

popolazione generale adulta per età e sesso, ma a numero fisso (1500 maschi

e 1500 femmine, con numerosità fissa per età) non essendo la popolazione

dell’area il vero obiettivo dello studio, ma solo operazionale.

C. A grappolo.

In tal caso il campionamento è effettuato in due momenti successivi:

− campionamento di unità aggregate;

− campionamento di unità individuali.

Tale tecnica di campionamento è utilizzata quando la ricerca deve essere svolta in

aree ampie e dove è possibile utilizzare aggregati di soggetti.

Se ad esempio l’obiettivo dello studio è di conoscere la diffusione della carie

dentaria, tra i ragazzi in età scolare e identificarne i fattori di rischio l’approccio

più ovvio è quello di condurre un’indagine nelle scuole.

Non essendo realistico effettuare una visita odontoiatrica a tutti i ragazzi

frequentanti la scuola dell’obbligo della nostra area, si può scegliere:

− un campione di plessi scolastici distribuiti nelle varie zone geografiche o socio-

economiche dell’ASL e per tipo di scuola(unità aggregate);

− un campione di sezioni all’interno di ogni plesso (unità aggregate);

− tutti gli alunni delle sezioni così scelte.

Ciò consentirebbe di concentrare le risorse salvaguardando la necessità di

rappresentatività delle diverse tipologie di scuole e quindi di alunni, in modo

realizzabile praticamente.

D. Multistadi.

Page 12: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

12

Si tratta di un campionamento che si svolge a stadi successivi con numerosità

decrescente e a progressivo livello di approfondimento. Se ad esempio si vuole

conoscere la diffusione di asma in una popolazione generale, si può procedere a

stadi successivi, come di seguito esemplificato.

I° stadio: campione casuale di 3000 soggetti sottoposto a indagine postale

mediante un questionario di sintomi standardizzato. Sulla base di tale indagine è

possibile individuare un gruppo di soggetti con sintomi riferibili ad asma, un

gruppo di soggetti senza sintomi e ad un gruppo borderline.

II° stadio: da ciascuno dei gruppi precedenti vengono campionati soggetti da

sottoporre a indagine più approfondita (con esame clinico, esami strumentali ed

ematologici, etc.).

Tale procedura, se condotta in modo corretto con la numerosità necessaria,

consente di ottenere risultati di ottima qualità con bassi costi.

Tutti i tipi di campionamento, ad eccezione di quello casuale semplice, richiedono

particolari metodi di analisi per effettuare le stime dei parametri di interesse.

2.2.2 Campionamenti non probabilistici

Quando è possibile definire la popolazione obiettivo e non si dispone di una base di

campionamento, si ricorre a tecniche di campionamento non probabilistico.

a) Campionamento a quote.

Si decide di arruolare nel campione un certo numero di soggetti con le

caratteristiche di interesse e si esaminano (esempio volendo conoscere l’opinione

di alcuni utenti di un servizio sul comportamento degli operatori, si intervistano

20 maschi e 20 femmine tra gli utenti di 2 giorni diversi della settimana).

b) Campionamento a valanga.

Si tratta di una metodologia di campionamento che coinvolge inizialmente pochi

soggetti a cui si chiede di coinvolgerne altri (amici, conoscenti con le

caratteristiche di nostro interesse). Ad esempio, se si desidera conoscere quali

siano i problemi di accesso ai servizi degli immigrati extracomunitari di una certa

città: si inizia con l’intervistare i gruppi che stazionano agli ingressi dei

supermercati, e si chiede loro di coinvolgere amici o compaesani.

c) Campionamento a scelta ragionata (judgement).

Page 13: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

13

Per alcuni studi interessa conoscere l’opinione dei personaggi chiave, che si

ritiene in grado di fornirmi informazioni interessanti sull’argomento. La scelta

del campione è allora “ragionata” nel senso che è il gruppo di ricercatori che

decide chi scegliere per lo studio. A tale approccio si ricorre spesso negli studi

valutativi e di accreditamento dei servizi.

d) Campionamento accidentale.

Per studi esplorativi si ricorre a campioni occasionali su pochi casi: l’obiettivo è

spesso quello di messa a punto di metodologie di indagine.

Va sottolineato che i campioni non probabilistici non consentono la generalizzazione

come indicato nella figura a pagina 9.

Page 14: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

14

CAPITOLO III

3.1 I disegni degli studi epidemiologici

Le indagini epidemiologiche, cioè gli studi sulle condizioni di salute della

popolazione generale, possono essere classificati in studi osservazionali o studi

sperimentali, come schematizzato in tabella 1 riporta i tipi di studio epidemiologico.

Gli studi osservazionali sono quegli studi in cui il ricercatore si limita ad osservare

ciò che accade, rilevando le caratteristiche di interesse (presenza di malattie, di

fattori di rischio o causali, etc.) senza intervenire.

Gli studi sperimentali sono quegli studi in cui il ricercatore interviene attivamente

per modificare un determinante della malattia (come un’esposizione o il

comportamento) o il suo progredire (come un trattamento). Gli studi sperimentali

implicano quindi che il ricercatore somministri (o tolga) il fattore di cui vuole

studiare l’effetto. Per ragioni etiche gli studi, sperimentali sull’uomo sono limitati a

quelli di tipo terapeutico o preventivo: se l’obiettivo è quello di trovare fattori di

rischio o causali di patologie, il tipo di studio non può essere sperimentale ma

osservazionale!

3.2 Studi osservazionali e studi sperimentali

1. Gli studi osservazionali, in base allo scopo, si dividono in:

a) studi descrittivi. L’obiettivo è quello di descrivere lo stato di salute di una

popolazione, attraverso l’uso di dati routinari: rappresentano in genere il

primo approccio alla conoscenza di un problema epidemiologico. Si tratta di

studi semplici, il livello informativo è limitato.

b) studi analitici. L’obiettivo è quello di studiare le relazioni tra malattia e altre

variabili supposte fattori di rischio o causali. La maggior parte degli studi

epidemiologici sono di tipo analitico. In base al disegno della ricerca gli studi

analitici si distinguono in:

Page 15: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

15

b1- studi ecologici; l’obiettivo è quello di esplorare la plausibilità di relazioni

tra fattori di rischio (determinanti) e patologie (outcome). Le unità di

analisi sono popolazioni di soggetti e non individui: inoltre il fattore e

l’effetto non sono raccolti sullo stesso individuo.

Ad esempio, ipotizzando che esista una relazione tra fumo di sigaretta e

tumore del polmone, un primo approccio è quello di verificare se la

mortalità per tumore al polmone di diversi paesi è associata alle vendite di

tabacco in quei paesi. L’associazione così evidenziata (correlazione

ecologica) rappresenta una evidenza a favore dell’ipotesi anche se non

conclusiva, in quanto il rischio di bias in tali studi è molto elevato.

b2- studi trasversali o di prevalenza; l’obiettivo di tali studi è quello di

misurare la diffusione di una patologia (o stato morboso) in una

popolazione generale e in gruppi di popolazione a rischio. Si effettuano su

campioni casuali della popolazione obiettivo (studi campionari) o su intere

popolazioni (studi esaustivi). La misura di malattia prodotta è il

1000

ospecificat momentoun in

rischio a epopolazion nella persone di N

ospecificat momentoun in

malattia lacon persone di N

prevalenza di Tasso ×°

°

=

Se i dati sono stati raccolti in un preciso momento temporale, si ottiene il

tasso di prevalenza puntuale. Più frequentemente, il tasso è calcolato in un

periodo (mese o anno) e si chiama tasso di prevalenza periodale, inteso

come numero di persone che presentano la situazione morbosa in un

definito periodo, nella popolazione a rischio nello stesso periodo.

Indipendentemente dalla durata dello studio, il fatto importante è che lo

stato di salute del soggetto è valutato in un definito momento

contemporaneamente alla rilevazione degli eventuali fattori di rischio e

confondenti. In altre parole, tutte le rilevazioni sul soggetto vengono

effettuate una sola volta.

Page 16: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

16

Se si valuta il tasso di prevalenza in gruppi a diversa esposizione al fattore

di rischio, si può calcolare una misura di associazione nota come Rischio

Relativo.

Ad esempio, è stato calcolato il tasso di prevalenza di asma in un’area a

basso livello di inquinamento ambientale (A) e in un’area ad alto

inquinamento ambientale (B):

Area A: tasso di prevalenza 0,3%

Area B: tasso di prevalenza 0,8%

Il Rischio Relativo è:

7,23,0

8,0 ==RR

Ciò significa che chi risiede nell’area B ha 2,7 volte più rischio di essere

malato di asma rispetto a chi vive nell’area A.

b3- studi longitudinali o di incidenza o di coorte; l’obiettivo di tali studi è

quello di valutare l’insorgenza della patologia di interesse nella

popolazione e in gruppi a rischio. Tali studi prevedono sempre almeno due

rilevazioni successive sui soggetti: nella prima fase si sceglie un campione

di popolazione senza la malattia in studio (coorte) si raccolgono le

variabili di interesse (fattori di rischio, protettivi, etc.) e si segue nel tempo

stabilito (follow-up) tale coorte, rilevando l’insorgenza dei casi della

malattia, che ovviamente saranno “nuovi casi”

Page 17: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

17

Le misure di malattia sono il:

a) tasso di incidenza (I):

1000

rischio a è coorte della soggetto ogni

quali i durante tempidei omma

scelto periodo nel

ammalano si che persone di N

persona- tempoincidenza di Tasso ×

°

=S

Tale tasso tiene cioè conto del periodo di osservazione specifico per ogni

individuo della coorte. Va sempre specificato il periodo di follow-up

(anno, mese, etc.).

b) tasso di incidenza cumulato (IC): è una misura più semplice, che valuta

i nuovi casi di malattia sulla popolazione a rischio all’inizio dello

studio:

1000

studio dello inizioall'

malattia dalla liberi soggetti di N

periodo nel

ammalano si che persone di N

IC ×°

°

=

Anche questo tasso va riferito al periodo in studio. Esso rappresenta la

probabilità che un soggetto della coorte libero da malattia ha di sviluppare

la malattia nel periodo di follow-up.

Le misure di associazione.

Dagli studi longitudinali si ricava anche il Rischio Relativo:

espostinon nei

esposti negli

IC

ICRR=

Esempio: si consideri una coorte di 1000 soggetti di cui 300 fumatori e

700 non fumatori. Alla fine del periodo di follow-up (di 25 anni) si

Page 18: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

18

valutano quanti soggetti si sono ammalati di tumore al polmone nei due

gruppi e si ottengono i seguenti risultati:

MALATTIA Sì No

Sì 15 285 300

No 4 696 700 FU

MO

20 980 1000

Le Incidenze Comulative (IC) sono pertanto:

%20anni 25in 10001000

20totali =×=IC

%50anni 25in 1000300

15fumatori =×=IC

%7,5anni 25in 1000700

4fumatorinon =×=IC

8,87,5

50

fumatorinon

fumatori ===IC

ICRR

I fumatori hanno un rischio di 8,8 volte più elevato di ammalarsi in 25 anni

di tumore al polmone rispetto ai non fumatori.

Vale la pena di ricordare la diversa capacità informativa dei due tipi di

studio ed i legami tra le misure fornite.

Prevalenza e Incidenza

La prevalenza è legata all’incidenza da

dICP ×≅

dove P = Prevalenza, IC = Incidenza, d = durata della malattia. La

prevalenza comprende infatti sia i nuovi casi (IC) ma anche i vecchi casi di

malattia condizionatamente alla sua durata. Nel caso di patologie acute i

due tassi sono quasi coincidenti, nel caso di patologie croniche a lunga

sopravvivenza i due tassi sono molto diversi.

Page 19: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

19

b4- studi caso-controllo; l’obiettivo è quello di individuare i fattori di rischio o

protettivi per una patologia. Si identificano due gruppi di soggetti da una

stessa popolazione

casi = soggetti con la patologia in esame

controlli = soggetti senza la patologia in esame

Si ricerca quindi la presenza attuale o passata dei supposti fattori di rischio

nei due gruppi come illustrato nella seguente figura

Ad esempio, è stato condotto uno studio per valutare il rischio di morire se

non si indossa il casco in gravi incidenti che coinvolgono motociclisti: si

sono scelti come casi 100 soggetti morti in incidenti e 100 soggetti

sopravvissuti.

I risultati ottenuti sono i seguenti:

Casi Controlli

Sì 30 80 110

No 70 20 90 CA

SC

O

100 100 200

Si nota che su 200 incidenti gravi, il 45% era senza casco, ma la

distribuzione dei soggetti senza casco è diversa tra casi e controlli. Infatti,

Page 20: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

20

tra i casi i soggetti senza casco sono il 70% mentre tra i sopravvissuti sono

solo il 20%. La misura di associazione appropriata è l’Odds Ratio (OR)

cioè il rapporto delle probabilità di esposizione tra i casi e la probabilità di

esposizione tra i controlli. Nell’esempio considerato l’esposizione è il ‘non

usare il casco’:

3,92030

8070

8020

3070 =××==OR

cioè il rischio di morire in un grave incidente è 9,3 volte più elevato in chi

non ha il casco rispetto a chi lo porta. L’Odds Ratio è una buona stima del

Rischio Relativo, soprattutto se la patologia è rara, perché i casi ed i

controlli siano tratti dalla stessa popolazione.

2. Gli studi sperimentali. L’obiettivo di tali studi è quello di evidenziare

l’associazione tra un fattore (trattamento) e un effetto (modificazione dello stato

di malattia): si possono quindi considerare studi analitici, in cui il fattore è

somministrato, ad un certo momento, dal ricercatore.

Rispetto alla valutazione di una relazione, gli studi sperimentali consentono di

conoscere la precedenza temporale del fattore rispetto all’effetto. Inoltre, essendo

il fattore somministrato secondo criteri casuali ai soggetti selezionati, si garantisce

un’equa distribuzione dei fattori confondenti tra i gruppi in studio. Pur

rappresentando quindi un disegno di studio vantaggioso, non è sempre attuabile

quando l’oggetto di studio è l’uomo.

Per ovvi motivi etici possiamo, infatti, condurre studi sperimentali solo quando

l’intervento previsto è “positivo” per il soggetto (trattamento terapeutico o

preventivo) e non per l’identificazione di fattori casuali o supposti di rischio per lo

sviluppo della malattia.

Schematicamente distinguiamo diversi tipi di studi sperimentali sull’uomo:

- sperimentazioni cliniche controllate randomizzate.

L’obiettivo è quello di valutare l’efficacia di un intervento terapeutico o

riabilitativo e quindi riguarda pazienti affetti da malattia.

- sperimentazioni sul campo (field trials).

Page 21: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

21

L’obiettivo è quello di valutare l’efficacia di interventi di prevenzione sui

soggetti esposti a rischio, ma non ancora malati. Rientrano in questo tipo di

studi le sperimentazioni di nuovi vaccini, le sperimentazioni di farmaci o diete

per soggetti con ipercolesterolemia o sovrappeso, e così via;

Si tratta di studi piuttosto complessi poiché implicano dapprima uno studio “sul

campo” per individuarne i soggetti a rischio, da sottoporre poi ad una

sperimentazione.

- sperimentazioni di comunità (community trial).

L’obiettivo è quello di verificare l’efficacia di interventi preventivi effettuati su

comunità, anziché sui singoli individui. È utilizzato soprattutto nel caso di

patologie che riconoscono fattori di rischio sociali e ambientali, per cui è

possibile agire direttamente su tali fattori.

Page 22: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

22

Tabella 1 – Tipi di studio epidemiologico

Denominazione Unità epidemiologica

Misure di malattia Misure di associazione Possibili applicazioni Rischio di bias Capacità di evidenziare relazioni causali

1) Osservazionali

a) descrittivi soggetti comunità

statistiche descrittive mortalità morbosità

indici correlazioni etc.

- studi pilota - studi esplorativi

altissimo nessuna (talora generazione

di ipotesi)

b) analitici

b1) ecologici popolazioni gruppi

correlazione ecologica

- patologie rare - rend

alto generazione di ipotesi

b2) trasversali soggetti prevalenza ~ RR - diffusione patologie - fattori di rischio

medio bassa

b3) coorte o longitudinali

soggetti incidenza RR - comparsa di nuovi casi di malattia

- fattori di rischio

- effetto di interventi

medio-basso (rischio di perdite al follow-up)

media

b4) caso-controllo soggetti OR - fattori di rischio medio media

2) Sperimentali

1) RCT (sperimentazioni cliniche controllate)

soggetti trattamento-esito - valutazione efficacia trattamenti basso buona

2) Trial sul campo soggetti intervento-comparsa di malattia

- valutazione efficacia interventi preventivi

basso buona

3) Trial in comunità comunità intervento-comparsa di malattia

- valutazione efficacia interventi preventivi

medio medio

Page 23: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

23

CAPITOLO IV

4.1 Metodi di analisi dei dati e loro interpretazione

Prima di vedere i metodi di analisi dei dati e la loro interpretazione, è opportuno

introdurre alcuni termini fondamentali. Un esempio pratico consentirà di

comprendere meglio i concetti che saranno esposti. Il direttore generale di una certa

ASL vorrebbe sapere qual è il grado di diffusione delle patologie cronico-

degenerative nella popolazione residente sul territorio dell’Azienda Sanitaria da lui

diretta, al fine di meglio orientare le risorse disponibili. Pertanto è condotto uno

studio su un campione di 500 persone dai 20 ai 59 anni di età estratte in modo

casuale dalle liste dei medici di famiglia. Ogni individuo costituisce la minima unità

da cui si raccolgono le informazioni ed è detta unità statistica.

Le informazioni su ogni soggetto sono raccolte mediante un’intervista effettuata a

domicilio da personale opportunamente addestrato utilizzando un questionario semi-

strutturato, contenente oltre che le caratteristiche anagrafiche (sesso, età, stato civile,

scolarità) diverse domande indaganti lo stato di salute di ogni rispondente rispetto

alla presenza e assenza di cardiopatia ischemica, vasculopatie periferiche o cerebrali,

ipertensione, diabete, oltre che valori di pressione (sistolica o PAS e diastolica o

PAD), la concentrazione all’eventuale ultimo prelievo effettuato negli ultimi 12 mesi

di colesterolo, HDL, LDL, glicemia. Ciascuna informazione raccolta con il

questionario è detta variabile. La natura delle variabili è varia entro uno studio, nel

senso che alcune ‘misurano’ la presenza di determinati stati con cui la caratteristica si

può presentare (basti pensare al colore dei capelli, che può essere nero, marrone,

rosso, biondo), altre ‘misurano’ in termini quantitativi come una determinata

caratteristica si presenta e la esprimono per mezzo di un numero (si pensi alla

pressione sistolica). Formalmente le variabili si dicono:

1) qualitative e si suddividono in nominali e ordinali. Una variabile si dice

nominale dicotomica o politomica quando assume rispettivamente due o più stati

tra loro non ordinabili. A titolo di esempio si ricordino per le variabili nominali

dicotomiche il sesso (maschio/femmina) e la cardiopatia ischemica

Page 24: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

24

(assente/presente); per quelle nominali politomiche il gruppo sanguigno (A, B,

AB, 0). Quando è possibile individuare un ordine tra gli stati assumibili, la

variabile si dice ordinale: e il grado di istruzione (analfabeta, licenza elementare,

licenza media inferiore, diploma superiore, laurea) o la gravità di un sintomo

(lieve, medio, forte) ne sono un esempio;

2) quantitative o numeriche quando specificano il valore assumibile mediante un

conteggio (come può essere il numero di attacchi anginosi e di gravidanze) o una

misurazione (il peso, l’altezza, il livello di colesterolo). Nel primo caso la

variabile si dice discreta perché può assumere solo valori interi, nel secondo

continua perché potrebbe assumere qualsiasi valore compreso in un intervallo se

il grado di precisione dello strumento di misurazione impiegato fosse

sufficientemente elevato.

L’informazione contenuta in ogni questionario è stato utilmente informatizzata (in un

foglio elettronico Excel) così da ottenere una matrice dei dati, costituita da tante

righe quanti erano i soggetti intervistati (500) e da tante colonne quante erano le

informazioni o variabili raccolte con il questionario. In generale, leggendo una riga

della matrice si ha l’informazione di un soggetto per tutte le variabili, leggendo una

colonna si ha per una stessa variabile l’informazione su tutti i soggetti. Dopo un

accurato controllo di qualità è iniziata la descrizione dei dati.

4.2 La statistica descrittiva

La statistica descrittiva comprende (come già detto) quelle tecniche che consentono

di sintetizzare i dati o variabili raccolte in una ricerca. Secondo la natura delle

variabili indagate sarà corretto l’impiego di una o diverse misure di sintesi.

4.2.1 Le frequenze e i grafici

Per poter rispondere alla domanda: quanti sono gli ipertesi e quanti i normotesi, è

necessario scegliere la colonna della matrice nella quale l’informazione sulla

ipertensione è stata inserita, e andare a contare quante volte compare la parola

‘presente’ e quante volte quella ‘assente’. Ovviamente la somma dei due conteggi

sarà uguale al totale delle osservazioni effettuate.

Page 25: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

25

Così facendo altro non si determina che la distribuzione di frequenza assoluta di una

variabile, da cui si può ricavare quella relativa rapportando il conteggio di ogni

modalità al totale delle osservazioni fatte, e moltiplicando quest’ultima per 100 si

ottiene quella percentuale:

IPERTENSIONE Frequenza assoluta

Frequenza Relativa

Frequenza percentuale

Presente 201 201/500=0,40 40% Assente 299 299/500=0,60 60% Totale 500 500/500=1,00 100%

Leggendo la colonna relativa alla distribuzione di frequenza percentuale (Frequenza

percentuale) si sa che per la variabile ipertensione la frequenza percentuale della

modalità ‘presente’ è del 40 % ossia che l’ipertensione è presente nel 40% dei

soggetti campionati.

Le distribuzioni di frequenza sono

il primo modo con cui vanno

sintetizzate le informazioni, siano

esse variabili qualitative come il

sesso oppure quantitative come la

PAS. In tal caso sarebbe

auspicabile prima raggruppare in

classi i valori osservati e

calcolarne la distribuzione di

frequenza. Poi sulla base di questa

distribuzione, costruire un grafico

o istogramma a canne d’organo del tipo:

PRESSIONE SISTOLICA

0%

10%

20%

30%

40%

[110-120)

[120-130)

[130-140)

[140-150)

[150-160)

[170-180)

intervallo di classe di 10 mmHg

Dalla tabella riportata a lato, si deduce

che la frequenza percentuale per la

classe [160-180) mg/100 ml è 11%, ossia

si ricava che l’11% dei soggetti

campionati presentano un valore di

colesterolo compreso tra 160 e 180

mg/100ml.

Colesterolo (mg/100ml)

Frequenza %

[140-160) 4 [160-180) 11 [180-200) 22 [200-220) 24 [220-240) 19 [240-260) 10 [260-280) 7 [280-300) 3

100

Page 26: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

26

Per le variabili quantitative è possibile determinare la distribuzione di frequenza

cumulata partendo da quella assoluta, oppure relativa o percentuale, come

esemplificato nella tabella sottostante per la distribuzione di frequenza percentuale

del colesterolo raggruppato in classi:

Colesterolo (mg/100ml)

Frequenza %

Freq. Cumulata %

[140-160) 4 4 [160-180) 11 4+11=15 [180-200) 22 4+11+22=37 [200-220) 24 4+11+22+24=61 [220-240) 19 4+11+22+24+19=80 [240-260) 10 4+11+22+24+19+10=90 [260-280) 7 4+11+22+24+19+10+7=97 [280-300) 3 4+11+22+24+19+10+7+3=100

100

La frequenza cumulata percentuale alla classe [160-180) è pari al 15% e ci dice qual

è la percentuale di soggetti che presentano un valore di colesterolo ematico ‘fino a

180 mg/100ml’: infatti, si determina sommando la frequenza percentuale per la

classe [140-160) con la frequenza percentuale per la classe [160-180).

4.2.2 Le misure di sintesi

Nel caso di variabili quantitative sono però calcolabili altre importanti misure di

sintesi che vanno sotto il nome di misure o statistiche descrittive: la media, la

mediana, i percentili, la moda, sono tra le misure di posizione; il range, la varianza, la

deviazione standard, sono alcune misure di dispersione o variabilità. Tali misure

sintetizzano in un unico valore numerico l’informazione raccolta e ciò è

particolarmente vantaggioso nel caso di campioni numerosi, dove è possibile trovare

differenti e svariati valori assunti dalla variabile quantitativa esaminata.

La media aritmetica è la somma dei valori che una variabile assume per ogni unità

statistica osservata divisa per il numero di unità statistiche e si indica con x (si legge

ics sopra segnato) o M quando si tratta di un campione:

n

xx

n

ii∑

== 1

Page 27: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

27

e con la lettera greca µ (si legge mi) quando si tratta di una popolazione e in tal caso

si parla di parametro.

La mediana è il valore della variabile che divide esattamente a metà la serie ordinata

(in senso crescente o decrescente) delle osservazioni.

I percentili dividono la serie ordinata delle osservazioni in 100 parti, contenenti

ciascuna l’1% delle osservazioni. I più noti sono: il 25° percentile che lascia prima di

sé il 25% delle osservazioni e il 75% dopo, il 50° percentile che lascia il 50% prima e

il 50% dopo, il 75° percentile che lascia il 75% prima e il 25% dopo. Come si può

facilmente dedurre da quanto sopra detto il 50° percentile coincide con la mediana.

La moda è il valore che la variabile assume con maggior frequenza. Può esserci più

di una moda.

Il range è la differenza tra il valori massimo e il valore minimo osservati per una

certa variabile. Tale misura di variabilità tende però a diventare più grande

aumentando il numero di osservazioni e comunque non ci dice quanto siano

‘dispersi’ tra il massimo e il minimo i valori della variabile esaminata. Più utile

sarebbe allora determinare la distanza o scarto di ogni (i-esima) osservazione dalla

media e poi fare la media di queste distanze, così da determinare la distanza media:

( )n

xxi∑ −

Purtroppo però il numeratore di questo rapporto, cioè la somma degli scarti delle

osservazioni dalla media, è 0. Per ovviare a questo problema una delle possibilità è

l’elevamento a quadrato di ogni scarto, che porta sempre a valori positivi. La somma

di tali scarti elevati al quadrato è detta anche devianza. A questo punto sarà possibile

calcolare la media dei quadrati degli scarti intorno alla media che è la misura di

sintesi nota come

Varianza = ( )( )1

2

−−∑

n

xxi

indicata solitamente con s2, nel caso di un campione, o con σ2 (si legge sigma), se si

tratta di popolazione. Al denominatore anziché n si può mettere (n − 1) ossia i gradi

libertà, ricordando così un solo modo per calcolare la varianza. I gradi di libertà è “il

numero di quantità indipendenti tra tutte quelle osservate, dove per quantità si

Page 28: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

28

intendono gli scarti dalla media di tutte le n osservazioni”: tenuto conto il vincolo

che la somma degli scarti delle osservazioni dalla media è uguale a zero, noti (n − 1)

scarti si trova per differenza l’nsimo valore.

Come si deduce dalla stessa definizione, la varianza esprime i valori della

dispersione elevati al quadrato. Il modo per ritornare ad esprimere la dispersione

nella stessa unità di misura della media è estrarre la radice quadrata della varianza,

ossia:

( )( )1

2

2

−−

= ∑n

xxs i

Così facendo si determina la cosiddetta deviazione standard, indicata con s o DS per

un campione, o σ se si tratta di popolazione.

Per meglio capire quanto sopra spiegato, consideriamo il seguente esempio: si

supponga avere un campione di 8 studenti di medicina da cui è raccolta

l’informazione sull’altezza 171, 168, 174, 172, 180, 175, 176, 177 (in cm). La media

dell’altezza è pari a 174,125 cm. Calcolando gli scarti di ogni osservazione dalla

media e sommandoli (seconda colonna), si otterrebbe zero.

xi x )( xxi − 2)( xxi −

168 − 174,125 = −6,125 37,516 171 − 174,125 = −3,125 9,766 172 − 174,125 = −2,125 4,516 174 − 174,125 = −0,125 0,016 175 − 174,125 = +0,875 0,766 176 − 174,125 = +1,875 3,516 177 − 174,125 = +2,875 8,266 180 − 174,125 = +5,875 34,516

0,000 98,878 Elevando al quadrato gli scarti tale problema si elimina (terza colonna), quindi la

varianza è

( )14,125429

7

878,98

1

2

==−−∑

n

xxi cm2

e la deviazione standard sarà la sua radice quadrata pari a 3,76 cm.

Tornando al caso dell’esempio iniziale, nel campione esaminato di 500 individui per

la variabile colesterolo si avrebbe:

56,203=x µg/100ml; mediana=175 µg/100ml;

Page 29: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

29

min=145 µg/100ml; max=390 µg/100ml;

s=80,66 µg/100ml; R=245 µg/100ml

Nel caso di variabili quantitative i cui valori sono osservati più di una volta, ossia

con frequenza ripetuta, o riclassificati in classi, allora sarà necessario ‘pesare’ per

tale frequenza tanto nella stima della media quanto in quella della varianza e della

deviazione standard. Precisamente il numeratore della media, della varianza e della

deviazione standard va moltiplicato per la frequenza fi (o fk) con cui il valore xi (o xk)

si osserva:

Media Varianza Deviazione Standard

Variabile con frequenza

ripetuta n

fx ii∑ 1

])[( 2

−⋅−∑

n

fxx ii 1

])[( 2

−⋅−∑

n

fxx ii

Variabile con dati in

classi n

fx kk∑ 1

])[( 2

−⋅−∑

n

fxx kk 1

])[( 2

−⋅−∑

n

fxx kk

dove xk è il valore centrale della classe, ottenuto facendo la media aritmetica

dell’estremo superiore e inferiore di ogni classe ([estremo inferiore+estremo

superiore]/2).

Immaginiamo di aver selezionato in modo casuale dalla popolazione delle matricole

della classe delle Professioni Sanitarie tecniche di una data Università Italiana un

campione di 57 studenti, e di averne misurata la statura. Poiché i valori di tale

variabile erano molto diversi tra loro, sono stati riclassificati in classi, ottenendo la

seguente distribuzione di frequenza:

Statura cm

fk

[170.5-175.5) 10 [175.5-180.5) 12 [180.5-185.5) 19 [185.5-190.5) 10 [190.5-195.5) 6

57

Page 30: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

30

Volendo determinare la statura media e la deviazione standard, si dovrà procedere

prima a calcolare il valore centrale di ciascuna classe (xk) (a titolo esemplificativo

riportiamo il calcolo del valore centrale della prima classe:

xk=1=(170.5+175.5)/2=173) e quindi alla stima delle misure di sintesi pesando per la

frequenza:

[xj − xj+1) fk xk xk fk )( xxk − 2)( xxk − kk fxx 2)( −

[170.5-175.5) 10 173 173×10 − 9.12 83.1744 831.7440 [175.5-180.5) 12 178 178×12 − 4.12 16.9744 203.6928 [180.5-185.5) 19 183 183×19 0.88 0.7744 14.7136 [185.5-190.5) 10 188 188×10 5.88 35.5744 345.7440 [190.5-195.5) 6 193 193×6 10.88 118.3744 710.2464

Σ 57 2106.1408

cm 12.18257

10381

57

619310188191831217810173 ==⋅+⋅+⋅+⋅+⋅=x

22

2 cm 6097.3756

1408.2106

1

])[(==

−⋅−

= ∑n

fxxs kk

cm 1327.61

])[( 2

=−

⋅−= ∑

n

fxxs kk

Risulta quindi una statura media di 182.12 cm, con una variabilità di 6.13 cm.

La distribuzione di frequenza di una variabile quantitativa è spesso una distribuzione

normale, che graficamente si presenta come una curva a campana simmetrica. Tale

distribuzione normale gode di alcune proprietà: la mediana e la moda coincidono con

la media. Inoltre, tra il valore medio e una deviazione standard è contenuto il 68%

circa delle osservazioni, tra il valore medio e due volte la deviazione standard è

contenuto (circa) il 95% delle osservazioni e tra il valore medio e tre volte la

deviazione standard è contenuto il 99,7% delle osservazioni:

Page 31: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

31

µ ± σ = 68% µ ± 2σ = 95% µ ± 3σ = 99,7%

Ciò significa che se in una ricerca si sono raccolti 100 valori di peso per un gruppo di

soggetti maschi di 18 anni di età, e la media è 71 Kg con una deviazione standard di

6 Kg, ho l’informazione che circa il 68% dei soggetti del campione ha un peso

compreso tra 65 e 77 chilogrammi, il 95% circa ha un peso compreso tra 59 e 83

chilogrammi, dato che la variabile peso è distribuita normalmente quando raccolta su

gruppi omogenei.

In Appendice A sono riportate le tavole della distribuzione o Curva Normale

Standardizzata.

4.3 La statistica inferenziale

La statistica inferenziale è quella parte della statistica con cui, si cerca di trarre delle

conclusioni sulla popolazione basandosi sulle informazioni osservate in un

campione. Precisamente, la statistica inferenziale è un insieme di tecniche con le

quali si cerca:

� di verificare se i risultati ottenuti in una certa indagine sono conformi o meno con

le congetture o le supposizioni (il quesito scientifico) che hanno motivato la

ricerca stessa;

Page 32: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

32

� di stimare un parametro della popolazione, partendo dai dati relativi ad un

campione che si suppone appartenere ad essa.

4.3.1 La verifica d’ipotesi e il test statistico

La verifica dell’ipotesi è un metodo per valutare se le differenze osservate tra gruppi

diversi siano dovute alla variabilità biologica e quindi al caso o a differenze delle

sottostanti popolazioni di riferimento.

Per verificare l’ipotesi si ricorre ad una statistica: la statistica test, che è diversa

secondo il tipo di variabili e del problema in esame. Il test statistico è costruito per

verificare l’ipotesi di uguaglianza (o nulla) H0 tra i gruppi, ovvero che le differenze

osservate sono solo dovute al caso. Per ogni statistica test è stata formulata una

distribuzione che rappresenta le probabilità di trovare i diversi valori della statistica

test quando l’ipotesi zero o nulla è vera, cioè quando le differenze sono casuali, sotto

H0 vera. Di seguito è riportata la distribuzione per la statistica test χ2 (caso specifico

per 1 grado di libertà).

Dalla figura sopra riportata si evince che, sotto l’ ipotesi nulla vera, la statistica χ2

può assumere tutti i valori da 0 a +∞, ma la probabilità di trovare valori elevati è più

piccola che quella di trovarne di piccoli. È necessaria allora una regola di decisione,

che consenta di rendere operativo l’uso del test.

La comunità scientifica è d’accordo nel ritenere che valori del χ2 che hanno

complessivamente una probabilità di verificarsi di almeno il 95%, sono più

compatibili con H0 vera e quindi portano ad accettare H0. Valori del test che hanno

95%

5%

3,84

Page 33: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

33

solo una probabilità di verificarsi del 5% o inferiore sono considerati troppo rari e

quindi meno compatibili con H0 vera: tali valori porteranno a rifiutare H0. È chiaro

che la decisione di rifiutare H0 non è scevra di rischi di errore, ma si è in grado di

quantificarlo in un p-value o P<0,05: pertanto la probabilità di errore che noi

commettiamo rifiutando H0 è inferiore al 5%. L’errore commesso quando si rifiuta

H0 è comunemente chiamato errore α o di I tipo. Ed ora qualche esempio.

4.3.2 Esempio di applicazione del test χχχχ2

È stato condotto un trial clinico controllato randomizzato per valutare se il nuovo

farmaco potesse essere efficacemente utilizzato per ridurre il rischio di morte nei

pazienti affetti da HIV. Ventidue soggetti sottoposti a terapia con il nuovo farmaco e

22 trattati con placebo furono seguiti per 15 anni. Al termine del periodo di

osservazione si trovò che 11 soggetti erano morti nel gruppo trattato con il nuovo

farmaco e 16 in quello trattato con placebo. Apparentemente sembrerebbe che il

nuovo farmaco sia efficace, data la minor frequenza di morti nel gruppo di soggetti

trattati (11/22) rispetto a quella del gruppo di coloro che ricevettero placebo (16/22):

Nuovo farmaco Placebo Vivo 11 6 17 Morto 11 16 27

22 22 44

Supposto corretto il metodo di campionamento si deve oggettivamente verificare se

quanto osservato su un campione di pazienti affetti da HIV sia generalizzabile a tutta

la popolazione (campionata) di pazienti interessati dalla stessa patologia.

Pertanto si formula l’ipotesi statistica:

H0 non esiste associazione tra trattamento ed esito

Quindi si individua il test statistico da utilizzare. Essendo l’outcome di interesse

(morte) una variabile di tipo binario (sì/no), utilizziamo allora il test χ2 per le tavole

di contingenza 2×2

∑−=E

EO 22 )(χ

Page 34: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

34

dove O sono le frequenze osservate ed E quelle attese sotto H0 vera. Queste ultime si

ottengono semplicemente moltiplicando il totale di riga per quello di colonna e

dividendo per il totale generale. La frequenza dei pazienti vivi in trattamento sarà:

5,844

17221 =×=E

per differenza si possono facilmente ricavare tutte le altre frequenze attese e si

costruisce la tabella degli attesi:

Nuovo farmaco Placebo Vivo 8,5 8,5 17 Morto 13,5 13,5 27

22 22 44

Con i dati rilevati nel campione esaminato, risulterebbe:

( ) ( ) ( ) ( ) =−+−+−+−=5,13

5,1316

5,13

5,1311

5,8

5,86

5,8

5,811 22222χ

4,246,046,074,00,74 =+++=

Controllando sulla tavola della distribuzione χ2 (in Appendice B) in corrispondenza

della riga 1 grado di libertà (essendo una tabella 2×2) il valore ‘calcolato’ non cade

nella colonna 0,05, dove si trova 3,84: ciò significa che il valore ‘calcolato’ è minore

di quello tabulato (ossia cade nella regione di non rifiuto dell’ipotesi nulla) quindi

non si deve rifiutare l’ipotesi nulla di uguaglianza, e concludere che la differenza

riscontrata tra la frequenza di morte dei pazienti trattati con il nuovo farmaco e quella

dei pazienti trattati con placebo potrebbe essere casuale, e non dovuta all’efficacia

del nuovo terapico.

4.3.3 Esempio di applicazione del test t di Student per confrontare due campioni

(test t per dati indipendenti)

Alcuni ricercatori sono interessati a conoscere se il livello medio di acido urico

serico di soggetti con Sindrome di Prader-Willi (gruppo 1) sia diverso da quello di

individui normali. Sono stati esaminati 12 soggetti con la sindrome e 15 senza

ottenendo i seguenti dati:

Page 35: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

35

n x s

Gruppo 1 12 4,5 mg/100 ml 1 mg/100 ml Gruppo 2 15 3,4 mg/100 ml 1,22 mg/100 ml

I due valori medi suggerirebbero che livelli di acido urico serico sono diversi tra i

soggetti con e senza Sindrome di Prader-Willi. Come visto per il caso precedente,

l’interesse è rivolto non solo ai 27 soggetti con la Sindrome, ma a tutti quelli che

presentano la stessa Sindrome (popolazione campionata). Di conseguenza, si deve

oggettivamente verificare se quanto osservato su un campione di individui sia

generalizzabile a tutta la popolazione (campionata) da cui esso è stato estratto.

Pertanto si formula l’ipotesi statistica:

H0 il livello medio di acido urico serico è uguale nei soggetti con e senza

Sindrome di Prader-Willi

e si individua il test statistico da utilizzare. Essendo l’outcome di interesse (livello di

acido urico serico) una variabile di tipo quantitativo, utilizziamo il test t di Student

per dati indipendenti (supponendo che le varianze siano uguali):

( )

+

−=

21

2

21

11

nns

xxt

p

dove

2

)1()1(

21

222

2112

−+−+−

=nn

snsnsp

è la varianza pooled, ossia una stima congiunta delle varianze nei due campioni.

Con i dati rilevati nel campione esaminato, risulterebbe:

( )52,2

15

1

12

1273504,1

4,35,4 =

+

−=t

Controllando sulle tavole della distribuzione t (Appendice C) nella colonna relativa a

α=0,05 per numero di gradi di libertà pari a n1+n2−2=25 si trova un valore pari a

2,06.

Page 36: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

36

Ecco che il valore ‘calcolato’ è in

termini assoluti maggiore di quello

tabulato (ossia cade nella regione di

rifiuto dell’ipotesi nulla) quindi si deve

rifiutare l’ipotesi nulla di uguaglianza, e

concludere che la differenza riscontrata

tra i livelli di acido urico serico dei

soggetti con Sindrome di Prader-Willi

sono significativamente diversi da quelli

senza la Sindrome. L’errore di tale

conclusione è P<0,05.

4.3.4 Errori di I e II tipo

Come abbiamo visto, il test statistico non porta a conclusioni certe (vero o falso) ma ci

consente di prendere decisioni in termini probabilistici: non si dimostra che una ipotesi

è vera o falsa, ma che è accettabile o rifiutabile con un errore quantificabile.

Gli errori che possiamo commettere prendendo tale decisione sono:

1) errore di I tipo (o errore α ) che rappresenta l’errore che noi commettiamo

rifiutando l’ipotesi nulla (H0) quando in realtà questa potrebbe essere vera: è quindi

legato alla funzione di distribuzione del test costruito sotto H0 vera. Rappresenta

anche il livello di significatività del test (P ≤ α).

2) errore di II tipo (o errore β): è un errore di tipo logico, che si può verificare

quando accettiamo H0, cioè la non differenza tra i due gruppi, mentre in realtà è

falsa. Il complemento dell’errore β si chiama potenza (1−β) del test e rappresenta la

probabilità di rifiutare H0 quando è falsa.

Ad esempio, in una sperimentazione clinica si vuole valutare l’efficacia del trattamento

A rispetto al trattamento B:

H0 A=B

Il test applicato mi porta a concludere che A è diverso da B quando P< 0,05, perchè la

probabilità di trovare quel valore del test come scostamento casuale da H0 è basso:

95%

2,5% 2,5%

Page 37: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

37

l’errore α <0,05. Se invece il test mi porta ad accettare H0 in quanto P>0,05, allora

concluderò che non c’è differenza d’efficacia. In realtà ciò potrebbe essere dovuto ad

una scorretta pianificazione della ricerca, con troppi pochi casi in rapporto alla

variabilità della variabile in studio, al tipo di scelta dell’errore α, etc.

Pertanto, quando si programma uno studio occorre tener conto di entrambi i rischi di

errore, che sono raffigurabili come nella tabella di seguito riportata, nella quale

l’ombreggiatura indica conclusione corretta del test.

4.4 Associazione tra variabili

È possibile descrivere anziché una variabile la volta, 2 variabili, utilizzando ogni volta

una misura opportuna della statistica bivariata (cosiddetta proprio perché si esaminano

contemporaneamente 2 variabili).

Per descrivere 2 variabili qualitative si costruisce una tabella a doppia entrata, sulle

righe si pongono le modalità di una variabile e sulle colonne quelle della seconda

variabile. Entro ogni cella della tabella si ha la frequenza congiunta, ossia il conteggio

di quanti individui presentano contemporaneamente le 2 caratteristiche esaminate,

mentre i totali di riga o di colonna coincidono con la distribuzione di frequenza della

variabile che si trova rispettivamente sulle righe o sulle colonne.

Per indagare la relazione tra 2 variabili qualitative, detta connessione, si fa un χ2 che

può assumero un valore minimo pari a 0 ed uno massimo pari a [n×min(C-1)(R-1)] dove

Page 38: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

38

n è il numero totale di osservazioni e min(C-1)(R-1) è il minore tra il numero delle righe

e il numero delle colonne della tabella a doppia entrata o di contingenza.

Per descrivere la relazione tra 2 variabili quantitative si calcola:

A. il coefficiente di correlazione, nel caso di una relazione simmetrica ossia quando le

due variabili variano congiuntamente, e la loro associazione è spiegata da

qualcos’altro;

B. la retta di regressione semplice, se si tratta di una relazione asimmetrica ossia

quando la variazione di una delle due variabili dipende dall’altra.

Quando si vuole indagare una relazione tra due variabili quantitative è sempre buona

regola esaminare dapprima il diagramma di dispersione delle stesse due variabili,

meglio noto con il termine inglese di scatter plot. Supponiamo di avere l’informazione

sui valori di pressione sistolica (PAS) e diastolica (PAD) di 65 pazienti ambulatoriali,

che sono tipiche variabili quantitative.

Volendo indagare se esiste una relazione tra queste due variabili plottiamo, dapprima su

un grafico i dati e otteniamo il seguente diagramma di dispersione:

Sembrerebbe che non esista una buona associazione tra le due variabili dal momento

che la nuvola dei punti non si dispone idealmente come lungo una retta, ma tende a

disperdersi nel piano in modo disordinato. Infatti, calcolando il coefficiente di

correlazione con la seguente formula:

∑∑∑

−−

−−=

22 )()(

))((

yyxx

yyxxr

ii

ii

si ottiene un valore pari a 0,13 che indica una debole associazione diretta, essendo di

segno positivo. Il coefficiente di correlazione può assumere valore compreso tra –1 e

Page 39: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

39

+1: valori negativi indicano associazione inversa o indiretta, ossia al crescere dei valori

della variabile sull’asse delle ascisse diminuiscono quelli della variabile sull’asse delle

ordinate. Quanto più il valore del coefficiente è prossimo allo zero, tanto più debole o

inesistente (=0) è la relazione, mentre più il valore del coefficiente è vicino a 1 (in

termine assoluto) maggiore sarà la relazione.

Qualora si volesse indagare una

dipendenza si dovrebbe calcolare la

regressione semplice usando

l’equazione:

Y = a + bx

dove a dicesi intercetta e b pendenza

della retta. Quindi si costruisce la

cosiddetta interpolata o linea di

tendenza:

Page 40: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

40

APPENDICE

Le sperimentazioni cliniche

L’obiettivo di questi studi epidemiologici è quello di valutare l’efficacia di un

intervento terapeutico. Rappresentano il disegno di studio scientificamente più valido e

potente per la verifica di ipotesi, cioè per verificare la relazione tra trattamento e

modificazione dello stato di malattia. Schematizzando, si articola in 4 fasi:

− I° Fase: farmacologia clinica.

L’obiettivo è valutare sull’uomo un nuovo farmaco (di cui si è già provata la non

tossicità e l’efficacia in sperimentazione di laboratorio e su animali). In tale fase si

studia il metabolismo, la biotollerabilità, si stabilisce il dosaggio, etc. Viene

condotto su pochi soggetti (20-30 volontari sani).

− II° Fase: sperimentazione clinica iniziale dell’effetto del trattamento.

L’obiettivo è quello di verificare l’efficacia terapeutica e la tollerabilità, nonché le

modalità di somministrazione. Anche in questo caso lo studio è effettuato su pochi

casi (30-100 pazienti volontari).

− III ° Fase: sperimentazione clinica randomizzata controllata.

L’obiettivo è quello di valutare l’efficacia del nuovo trattamento in modo

conclusivo, evidenziandone gli eventuali effetti collaterali. Si effettua su pazienti

secondo precise regole, che vedremo nel prossimo capitolo.

− IV° Fase: farmaco-vigilanza

Si tratta di studi post-marketing, che si effettuano dopo che il farmaco è entrato in

commercio per monitorizzare la sua efficacia a lungo termine, e la eventuale

comparsa di effetti collaterali.

Le sperimentazioni cliniche controllate randomizzate (Randomized Controlled Trial o

RCT)

Le caratteristiche fondamentali dei clinical trial si possono sintetizzare come segue:

Page 41: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

41

a) sono studi sperimentali, in quanto il ricercatore somministra il trattamento di cui

vuole valutare l’effetto;

b) sono studi controllati, cioè richiedono un gruppo di controllo, che è costituito da

un gruppo di pazienti con la patologia in studio sottoposti al trattamento

tradizionale o a un placebo (farmaco in tutto simile a quello in studio, ma senza

il principio attivo).

L’efficacia di un trattamento non può essere, infatti, dimostrata in senso

assoluto, ma relativamente ad un altro trattamento. Una serie di fattori oltre al

trattamento potrebbero infatti determinare modificazioni dello stato di malattia:

1. remissioni spontanee (modifiche della storia naturale della malattia);

2. regressione verso la media (da situazioni estreme si tende a ritornare ai

valori abituali);

3. effetto “alone ricerca” dovuto al fatto che chi è inserito in una ricerca è in

genere trattato con più attenzione rispetto a chi non lo è;

4. effetto placebo dovuto all’effetto psicologico di aver assunto un farmaco,

non sapendo che non contiene il principio attivo.

Tutti questi elementi possono portare a modifiche dello stato di malattia, per cui

è necessario il confronto con un gruppo di soggetti che sono sottoposti allo

stesso trattamento ad eccezione del principio attivo. Schematicamente, possiamo

rappresentare il fenomeno così:

Page 42: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

42

c) sono studi randomizzati. Nelle sperimentazioni cliniche viene randomizzata

(scelta in modo casuale) l’assegnazione del paziente (che risponde ai criteri di

selezione) al trattamento nuovo o al gruppo di controllo (placebo o vecchio

trattamento): ciò per evitare condizionamenti del paziente o del clinico ed

evitare quindi bias di selezione;

d) cecità. In alcuni casi è possibile evitare che il paziente (cecità semplice) o anche

il medico (cecità doppia) sappiano quale trattamento viene somministrato: ciò

per evitare bias di interpretazione.

Le sperimentazioni cliniche, per la loro potenzialità, ma soprattutto per la loro

importanza nel contribuire al progresso della conoscenza scientifica per la cura dei

malati, richiedono una metodologia statistico-epidemiologica rigorosa sia nella

pianificazione che conduzione ed analisi. Occorre definire i criteri di selezione ed

esclusione, la dimensione necessaria, quale gruppo di confronto, quali variabili

raccogliere e come misurarle, qual è l’end point primario e quelli secondari, quali test

statistici utilizzare e che livelli di errore accettare, quali modelli di analisi per la

Page 43: Dispensa Corso Statistic A 2011 Villani

Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate e Psicocomportamentali SEZ. DI EPIDEMIOLOGIA E STATISTICA MEDICA

43

valutazione dei fattori prognostici e dei confondenti, come trattare i punti di vista

(approccio pragmatico o approccio esplicativo), i problemi etici e come informare in

modo corretto il paziente, e così via, che sono spiegati nel protocollo della ricerca. La

trattazione di tali argomenti esula dal livello di questo corso.