Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice...

42
Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006

Transcript of Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice...

Page 1: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Statistica per la ricerca sperimentale

(II anno)

Dott.ssa Michela Franchini

Coordinatrice Epidemiologia

AUSL 11 Empoli

MARZO/ APRILE 2006

Page 2: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Programma del modulo

L’approccio all’indagine Come riassumere i dati:

* Misure di posizione e di variabilità * Distribuzioni di frequenza

Come analizzare e confrontare i dati * Le distribuzioni di probabilità (Binomiale, di Poisson e Normale) * Il concetto di inferenza statistica, di test ad ipotesi ed alcuni esempi di

utilizzo * I metodi di standardizzazione diretta e indiretta

Come presentare i dati: * Tabelle * Istogrammi * Linee * Torte * Dispersione

Page 3: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Definizione dell’obiettivo

valutazione delle fonti di dati a disposizione

individuazione degli standard di riferimento

definizione della metodologia di

analisi e di sintesi dei risultati

pianificazione del razionale

dell’indagine

(studio ad hoc, analisi di archivi

standard) ?

modalità comuni di approccio all’indagine

Page 4: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Pianificazione del razionale dell’indagine : alcune delle domande che dovremmo porci

Si lavora a livello di popolazione? Conosco tutte le variabili che mi interessano??

Si lavora analizzando dei campioni? Come li estraggo???

L’outcome di interesse di che tipo è?

Conosco la distribuzione di probabilità che più si avvicina alla realtà??

Quali fonti di dati posso utilizzare??

Qual è la loro affidabilità??

Esistono degli standard di riferimento?

Quali strumenti di analisi ho a disposizione??

Che tipo di approccio statistico intendo seguire??

[…..]

Page 5: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Alcuni concetti di statisticaAlcuni concetti di statistica

Variabile continua : può assumere qualsiasi valore all’interno di un ragionevole range (es. altezza, peso, pressione arteriosa

Variabile discreta : può assumere soltanto alcuni valori fissi (es. n. figli, età al compleanno)

Variabile dicotomica: può assumere solo due modalità (es. sesso, lancio di una moneta)

Popolazione

n1

n2

n3

nn

campioni

popolazione campione

media

varianza.

Numeros. N n

µ ŷ

σ2 s2

σ sDev. St

Page 6: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Distribuzione di frequenza assoluta

Numero di donne che presentano ognuna delle modalità

Distribuzione di frequenza relativa

Proporzione di donne che presentano ognuna delle modalità, rapportata al numero totale di donne

0 figli

1figlio

2 figli

N figli

totale

20

40

40

freq donne

100

20 / 100

40 / 100

40 / 100

freq relativa

100

20 %

60 %

100 %

fr cumulata

Distribuzione di frequenza assoluta del numero f igli procapite in un campione di 100 donne

0

20

40

60

80

100

120

0 1 2 totale

numerofigliprocapite

Distribuzione percentuale del numero figli

20%

40%

40%0

1

2

frequenza percentuale cumulativa

020406080

100120

0 1 2 totale

numero di figli

% c

um

ula

ta

Distribuzione di frequenza cumulativa

Sommatoria delle singole percentuali relative ad ogni modalità

Page 7: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Visualizzazione dell’andamento di dati

Anno num. di aborti conf.% con 1982 var assoluta var percent

1978 68700 29,26    

1979 187456 79,84 118.756 172,86

1980 222363 94,70 34.907 18,62

1981 224067 95,43 1.704 0,77

1982 234801 100,00 10.734 4,79

1983 233976 99,65 -825 -0,35

1984 227446 96,87 -6.530 -2,79

1985 210597 89,69 -16.849 -7,41

1986 198375 84,49 -12.222 -5,80

1987 191469 81,55 -6.906 -3,48

1988 179103 76,28 -12.366 -6,46

1989 171684 73,12 -7.419 -4,14

1990 165845 70,63 -5.839 -3,40

num. di aborti - tendenza nel tempo

1

10

100

1000

10000

100000

1000000

1978

1979

1980

1981

1982

1983

1984

1985

1986

1987

1988

1989

1990

num. di aborti

Page 8: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Distribuzioni di frequenza

Numero di figli per donna

(variabile discreta)

Altezza degli uomini adulti

(variabile continua approssimativamente simmetrica)

Peso medio dei nati vivi alla nascita

(variabile continua asimmetrica verso sinistra)

1.65 1.70 1.75 1.802.0 3.5 4.00 4.5

Tempo di sopravvivenza (mesi) dopo diagnosi di un particolare tumore maligno

(variabile continua con forma esponenziale)

0 6 12 18 24 30 36 0 1 2

n. s

og

get

ti

n. s

og

get

ti

n. s

og

get

ti

n. s

og

get

ti

Page 9: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Misure di posizione (o grandezza)Misure di posizione (o grandezza)

Media: somma di tutti i valori / numero delle osservazioni

Mediana: valore centrale quando le osservazioni sono ordinate in ordine crescente; la mediana è quel valore che divide la distribuzione di frequenza in due parti uguali

Moda: valore che si presenta più frequentemente

Supponiamo di avere questa serie di dati:

10 12

24 2 5 7 9 18 13

4 3 11

14

6 8

MEDIA : (10+ 12+24+2+….+8)/ 15 = 146/15 = 9,7

MEDIANA: ordino i dati in modo crescente e individuo il valore centrale della serie

MODA: non esiste una moda perchè ogni valore è presente una sola volta

2 3 4 5 6 7 8 9 10

11

12

13

14

18

24

50% 50%

Page 10: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Diametro (val centr.int)

frequenza diam*freq

freq%

freq % cumulata

13,07 1 13,07 0,2 0,2

13,12 4 52,48 0,8 1

13,17 4 52,68 0,8 1,8

13,22 18 237,96 3,6 5,4

13,27 38 504,26 7,6 13

13,32 56 745,92 11,2 24,2

13,37 69 922,53 13,8 38

13,42 96 1288,32 19,2 57,2

13,47 72 969,84 14,4 71,6

13,52 68 919,36 13,6 85,2

13,57 41 556,37 8,2 93,4

13,62 18 245,16 3,6 97

13,67 12 164,04 2,4 99,4

13,72 2 27,44 0,4 99,8

13,77 1 13,77 0,2 100

totale 500 6713,2 100  

Media: 6713,2 / 500= 13,43

Mediana: 13,42

Moda: 13,42

Come calcolare le misure di posizione (o grandezza)

in tabelle di frequenza

Page 11: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Misure di variabilitàMisure di variabilità

Range: differenza fra l’osservazione più grande e quella più piccola

Percentili: valore che separa l’n% delle osservazioni dal resto delle osservazioni in una distribuzione cumulativa delle frequenze relative (25% ovvero 25° percentile o quartile; 50% ovvero 50° percentile o mediana)

Varianza: si basa sulla differenza fra ogni osservazione e la media

varianza in una popolazione

σ2=Σ(y-µ)2/N

Varianza in un campione

s2=Σ(y-ŷ)2/(n-1)

Deviazione standard: radice quadrata della varianza; è una sorta di deviazione media delle osservazioni dalla media

Coefficiente di variazione: 100 σ/µ misura la variabilità delle osservazioni relativamente alla loro grandezza totale

Page 12: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Supponiamo di avere questa serie di dati:

10 12

24 2 5 7 9 18 13

4 3 11

14

6 8

RANGE : 24-2 = 22

MEDIA : 146/15 = 9,7

VARIANZA: [(10-9,7)2+ (12-9,7)2+ ……..+(8-9,6)2] / (15-1)= 35,21

DEVIAZIONE STANDARD : √Varianza = 5,93

COEFFICIENTE DI VARIAZIONE : 100* 5,93/9,7 = 61,13

Page 13: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Probabilità

La probabilità di un evento è definita come la proporzione delle volte in cui si verifica l’evento sul totale delle prove realizzate in una lunga serie casuale.

In una popolazione di uomini, il 10% è più alto di 2 metri. Se un uomo venisse selezionato a caso da questa popolazione si potrebbe dire che la probabilità che la sua altezza sia maggiore di 2 metri è 1/10 o 0.1 perché in media questo accade in un uomo su 10.

Distribuzioni di probabilità

E’ assimilabile ad una distribuzione di frequenza relativa calcolata però NON su un campione di osservazioni, ma su un’intera popolazione.

Ciò significa che se noi costruissimo un istogramma con le frequenze cumulative relative ad ogni valore di altezza rilevato sull’intera popolazione mondiale otterremmo una distribuzione di densità di probabilità.

Page 14: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Le distribuzioni di probabilità più significative sono:

•Binomiale (che riguarda variabili di tipo dicotomico,per esempio testa o croce)

Pr(T) + PR(C) = 10.5 + 0.5 = 1 questo è un esempio molto semplice di distr. Binomiale

Supponiamo di effettuare 8 lanci (n) di una moneta, quindi con Pr(T)=Pr(C)= ½K rappresenta il numero dei successiLa funzione di probabilità sarà

K 0 1 2 3 4 5 6 7 8

P(K) qn

n qn-1 p n

1 …. ….. …. …. …. …. pn

P(K) 1/256 8/256 28/256 56/256 70/256 56/256 28/256 8/256 1/256

8* ½ 1*½ 7 (8*7)/ (1*2)* ½ 2*½ 6

Page 15: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Distribuzione di probabilità binomiale con n=8 e P=q=1/2

0

0,05

0,1

0,15

0,2

0,25

0,3

0 1 2 3 4 5 6 7 8

Distribuzione binomiale

Valore medio µ = n*p

Varianza σ2= n*p*q

Deviazione standard σ = √(n*p*q)

Page 16: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

di Poisson (che riguarda eventi che si verificano in un periodo di tempo definito:per esempio n° di chiamate al 118 in un’ora)

Si supponga che il 2% dei pezzi prodotti da una fabbrica siano difettosi. Si determini la probabilità che in un campione di 100 pezzi ve ne siano 3 difettosi.

La formula è la seguente : p(k;λ) = (λk * e – λ)/ K! con K=0,1,2,3….

Quindi P (3;2) =( 23*e-2)/3! = 0.180

Distribuzione di Poisson

Valore medio µ = λ

Varianza σ2= λ

Deviazione standard σ= √ λ

Distribuzione di posson con λ= 2 con k=0,1,2,3

0

0,1

0,2

0,3

0 1 2 3

Page 17: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Applicazione della distribuzione di Poisson in Epidemiologia

Per molte malattie croniche la distribuzione dei casi avviene in modo casuale nel tempo e se si considera un periodo non troppo lungo si può assumere un tasso costante di incidenza.

Così il numero osservato di casi d in un periodo definito di tempo sarà una variabile poissoniana.

Se n è il numero di persone osservate in un anno o il numero di anni-persona di esposizione al rischio, il tasso poissoniano è pari a d/n e la deviazione standard è uguale a √d/n.

Questi risultati vengono utilizzati per trarre conclusioni relativamente alla precisione dei tassi e per i test di siginificatività

Page 18: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

normale (o di Gauss-LaPlace)

La normale è la distribuzione statistica più famosa ed utilizzata. Le tre ragioni principali sono: •essa si adatta bene alla rappresentazione grafica di molti fenomeni fisici, biologi, sociali, ecc.; •essa è fondamentale in inferenza statistica;

La formula matematica che descrive la funzione della densità di probabilità normale è la seguente:

                                                     dove µ e σ rappresentano la popolazione media e lo scarto quadratico medio (o deviazione standard). L'equazione della funzione di densità è costruita in modo tale che l'area sottesa alla curva rappresenti la probabilità. Perciò, l'area totale è uguale a 1.                                                                                                    

Distribuzione normale

Valore medio µ

Varianza σ2

Deviazione standard σ

Page 19: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

diametro frequenza

13.07 1

13.12 4

13.17 4

13.22 18

13.27 38

13.32 56

13.37 69

13.42 96

13.47 72

13.52 68

13.57 41

13.62 18

13.67 12

13.72 2

13.77 1

Questi dati si riferiscono al diametro in millimetri della testa di n = 500 rivetti, classificati in k = 15 intervalli, ognuno dell'ampiezza di h = 0.05 mm. Le frequenze riportate nella tabella si riferiscono al numero di misurazioni che rientrano nell'intervallo indicato dal corrispondente valore nella prima colonna. Il lotto dei 500 rivetti può essere considerato un semplice campione casuale preso da una distribuzione di probabilità. Si presuppone che questa distribuzione sia una normale. In questo caso, questa scelta è fatta solamente basandosi sull'osservazione che un simile tipo di rilevazioni spesso si mostra in accordo con una distribuzione normale.                                                                                                  

Distribuzione di frequenza con

media

e deviazione standard DS

Distribuzione di probabilità con la

stessa media e deviazione

standard della distribuzione di

frequenza

x

Page 20: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Distr. Normale:

Riguarda variabili continue

Ha forma a campana

È simmetrica intorno alla media µ

É determinata da due quantità: la media ( µ ) e la deviazione standard (σ)

Distr. Normale Standardizzata:

Poiché le tavole della distribuzione normale non possono essere tabulate per tutti i possibili valori di µ e σ, si utilizza la normale standardizzata che ha media =0 e deviazione standard =1.

L’area al di sotto della curva normale standardizzata corrisponde a 1 I valori relativi al campione in

osservazione si standardizzano secondo la formula

Z= (x-µ) / σ

e si confrontano con la tavola della normale standardizzata per sapere a quale valore di probabilità coincidono

µ

68% ( µ± σ )

95% ( µ± 1.96σ )

99% ( µ± 2.58σ )

Page 21: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Popolazione 1

µMEDIA pop

DS pop σ

CAMPIONE 1

CAMPIONE 2

CAMPIONE 3

CAMPIONE n

MEDIA camp

DS camp

ŷ1

ŷ2

ŷn

s1

s2

sn

ŷ3 s3

Inferenza : stima di un parametro riguardante una popolazione attraverso l’uso di un campione

Page 22: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Inferenza : alcune fra le varie possibilità di procedere

Popolazione 1 CAMPIONE 11) supponiamo di volere stimare la media µ di una popolazione utilizzando un campione con media ŷ

2) supponiamo di volere confrontare la media di un campione e la media di una popolazione

Popolazione 1 CAMPIONE 1

3) supponiamo di volere confrontare la media di un DUE campioni dipendenti (prima/dopo)

CAMPIONE 1 prima

CAMPIONE 1dopo

3) supponiamo di volere confrontare la media di un DUE campioni INdipendenti

CAMPIONE 1 CAMPIONE 2

Page 23: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Per esempio: supponiamo di volere stimare la media µ di una popolazione utilizzando un campione con media ŷ

Ciò che ci interessa è sapere in che misura la media campionaria è una stima precisa della media sconosciuta della popolazione.

Sappiamo che la distribuzione di tutte le possibile medie campionarie è una distribuzione normale con media µ e deviazione standard σ/√n (ovvero uguale all’errore standard ES) [Teorema del limite centrale]

1) Quindi essendo la media campionaria ŷ un singolo valore della distribuzione di tutte le possibili medie campionarie, la probabilità che tale valore stia entro µ±1.96 ES è pari al 95%

µ (media)

95% ( µ± 1.96ES )

Ciò significa che c’è un 95% di possibilità che la media campionaria si trovi all’interno dell’intervallo µ±1.96 ES(ŷ)

Primo approccio: costruire l’intervallo di confidenza per la media µ.

Page 24: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

2) Se come di solito accade σ (deviazione standard nella popolazione) non si conosce e deve essere stimata attraverso un campione, c’è bisogno di un piccolo aggiustamento.

Se la varianza di y è stimata dal campione attraverso la formula

s2=Σ(y-ŷ)2/(n-1)

è necessario usare il valore critico della distribuzione t con n-1 gradi di libertà

Allora l’intervallo di confidenza diventa

ŷ ±t(n-1)s/√n

Quindi la probabilità che l’intervallo ŷ±1.96 ES(ŷ) contenga la media sconosciuta della popolazione (µ) è pari a 0.95 o 95%.

L’intervallo ŷ±1.96 ES(ŷ) è chiamato Intervallo di confidenza al 95% di µ ed è una misura della precisione della media campionaria ŷ quale stima della media della popolazione

Page 25: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Problema n.3Una popolazione di altezze di uomini ha una DS di 6.6 cm e la media dei campioni è pari a 180 cm. Qual è l’errore standard della media di un campione casuale di : a) 25 uomini b) 100 uomini ?Qual’e l’intervallo di confidenza al 95% della media campionaria?

DATI:

Media dei campioni= 180 cm

Deviazione standard della popolazione (σ)= 6.6 cm

Numerosità campionaria: a) n=25 uomini b) n= 100 uomini

SOLUZIONE:

Errore Standard della media campionaria = σ/√n

a) ES (ŷ) = 6.6 / √25= 1.32

b) ES (ŷ) = 6.6 / √100= 0.66

Intervallo di confidenza al 95% = ŷ ±1.96*ES(ŷ)

a) 180±1.96*1.32 [177.4 – 182.6]

b) 180±1.96*0.66 [178.7 – 181.3]

Page 26: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Problema n.3Una popolazione di altezze di uomini ha una DS sconosciuta e la media del campione è pari a 180 cm. Qual è l’errore standard della media di un campione casuale di 25 uomini ?Supponendo che il campione abbia un DS pari a 4.5 cm qual’e l’intervallo di confidenza al 95% della media campionaria?

DATI:

Media del campione = 180 cm

Deviazione standard della popolazione (σ) sconosciuta

Numerosità campionaria: n=25 uomini

Deviazione Standard del campione (s) =4.5 cm

SOLUZIONE:

Errore Standard della media campionaria ES(ŷ)= s/√n = 4.5 /√25 = 0.9

Intervallo di confidenza al 95% = ŷ ±t(n-1)*ES(ŷ) in cui n-1=25-1=24

e t(n-1) dalle tavole della distribuzione t è pari a 1.711

quindi

180±1.711*0.9 [178.5 – 181.5]

Page 27: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Secondo approccio: confrontare la media di un campione e la media di una popolazione

Per esempio: supponiamo di volere valutare il rischio per la salute legato ad una certa occupazione: la media di pressione sistolica misurata in un campione di 20 uomini (30-39 anni) impiegati in quel tipo di occupazione è pari a 141.4 mmHg mentre in uomini della stessa età nella popolazione generale la media della pressione sistolica è pari a 133.2 mmHg con una deviazione standard σ di 15.1 mmHg.

La nostra ipotesi nulla è che non ci sia un cambiamento nella pressione sistolica dovuto a quel tipo di occupazione e che i 20 lavoratori rappresentino un campione random selezionato dalla popolazione generale.

Se l’ipotesi fosse vera la media del campione sarebbe distribuita normalmente intorno alla media della popolazione (133.2) con una deviazione standard pari a 15.1/√20= 3.38mmHg (errore standard) ovvero la media del campione dovrebbe stare entro l’intervallo 133.2 ± 1.96*3.38 [126.6 – 139.8]

In realtà la media del campione (141.4) stà al di fuori di questo IC 95% , ovvero cade in quel 5% di probabilità che ci fà dire che esiste una differenza significativa fra la pressione sistolica del campione e quella della popolazione generale maschile della stessa età.

Questo approccio è tecnicamnte noto come TEST DI SIGNIFICATIVITA’ O TEST AD IPOTESI

Page 28: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

popolazione

µ=µ0 µ≠µ0

corretto β

α corretto

accetto H0

rifiuto H0

H0: µ=µ0

α: probabilità di rifiutare H0 quando questa è vera β: probabilità di accettare

H0 quando questa è falsa

Popolazione 1 Popolazione 2

µ µ0

1- β: potenza del test ovvero la probabilità di rifiutare H0 quando questa è falsa

realtà

risultato del test

Test ad ipotesi

Supponiamo di voler valutare se la media della popolazione (µ) è uguale ad un valore prefissato µ0 Ipotesi nulla

HA: µ≠µ0Ipotesi alternativa

Page 29: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Test t su campioni dipendenti

A 5 soggetti è stata somministrata una dose di ipotensivo e si sono registrati i valori di pressione arteriosa sistolica prima e dopo la somministrazione ottenendo i seguenti risultati in mmHg:

Prima Dopo

Soggetto 1 180 160

Soggetto 2 210 205

Soggetto 3 240 200

Soggetto 4 195 195

Soggetto 5 170 160

Esiste differenza tra i valori medi della pressione prima e dopo la somministrazione (α= 0.05)?

Si procede calcolando la differenza fra i valori pressori prima del trattamento e dopo lo stesso

Page 30: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Prima Dopo differenza (d) d2 Soggetto 1 180 160 20 400Soggetto 2 210 205 5 25Soggetto 3 240 200 40 1600Soggetto 4 195 195 0 0Soggetto 5 170 160 10 100

75 2125

Fissiamo anche l’ipotesi nulla H0: µprima = µdopo e l’ipotesi alternativa Ha: µprima ≠ µdopo

La formula del test t per dati appaiati è la seguente t = dmedia /ES (d media)

Per applicare questa formula dobbiamo calcolare la DS della differenza sapendo che Σd= 75 dmedia= 75/5=15

Σ (d- dmedia)2= Σd2- (Σd)2/n=(2125-5625/5)=1000

S2(d)= Σ (d- dmedia)2/ (n-1)=1000/4=250 e ES(dmedia)= √s2(d)/n=√250/5=7.07

Quindi t = dmedia /ES (d media)= 15 /7.07=2.12

Page 31: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

I gradi di libertà da considerare sono: numero delle osservazioni meno 1, ovvero 5-1=4 e dalle tavole t(0.05) sulle due code è =2.776

2.776

Rifiuto H0

-2.776

Rifiuto H0

Accetto H0

2.12

Poiché il valore che risulta dal test t cade nella zona di accettazione dell’ipotesi nulla, posso affermare che non c’è differenza fra i valori di pressione prima e dopo il trattamento, sapendo di avere una percentuale di errore nell’affermare ciò pari al 5%

Page 32: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Test t su campioni INdipendenti

E’ stata misurata la velocità di eritrosedimentazione in un gruppo di pazienti (gruppo A) che avevano una certa infezione. Per controllo le stesse misurazioni sono state condotte in un gruppo di controllo (gruppo B). I dati ottenuti sono i seguenti:

gruppo A 3 9 8 6 5 5 7 3 10 8 10 4

gruppo B 10 13 6 11 10 7 8 8 5 9 Esiste una differenza significativa nella velocità media di sedimentazione tra il gruppo A e il gruppo B ?

H0: µA= µB HA: µA≠ µB

gruppo A 9 81 64 36 25 25 49 9 100 64 100 16 Σx2= 578gruppo B 100 169 36 121 100 49 64 64 25 81 Σx2= 809

media gruppo A= 87/ 10=8.7 media gruppo B= 78/12= 6.5

Per applicare il test t su dati indipendenti devo valutate l’omogeneità delle varianze dei due gruppiΣ(x-xmedioA)2= ΣxA

2-(ΣxA)2/nA=809- (87)2/10=52.1 ovvero DEVIANZA nel gruppo Ae Σ(x-xmedioB)2= 71 ovvero DEVIANZA nel gruppo B

Page 33: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Calcolo allora le Devianze: Σ(x-xmedioA)2= ΣxA

2-(ΣxA)2/nA=809- (87)2/10=52.1 ovvero DEVIANZA nel gruppo Ae Σ(x-xmedioB)2= 71 ovvero DEVIANZA nel gruppo B

E successivamente le varianze = devianza/ n-1Varianza di A 71/(12-1)= 6.45Varianza di B 52.1/(10-1)= 5.78Verifico ora l’omogeneità attraverso un test F sue varianzeF=Varianza più grande / varianza più piccola = 6.45/5.78= 1.11

H0 σA=σB H0 σA≠σBGradi di libertà del numeratore= 12-1=11

Gradi di libertà del denominatore= 10-1=9

Dalle tavole della distribuzione F si rileva che F (11;9; 0.05)= 3.07

3.07

Rifiuto H0

Accetto H0

1.11

Accettiamo l’ipotesi nulla di omogeneità delle varianze, allora posso applicare il test t

Page 34: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Calcoliamo la varianza combinata

S2(combinata)= dev A+ dev B/( nA+nB-2)= 71+52.1/20= 6.16

XmedioB-XmedioA

t= = 2.08

√ S2(combinata)/nA + S2

(combinata)/nB

2.086

Rifiuto H0

-2.086

Rifiuto H0

Accetto H0

2.080

Accetto l’ipotesi nulla, ovvero non c’è differenza fra i due gruppi

Dalle tavole

t (20;0.050)= 2.086

Page 35: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Come confrontare due tassi

  M F TOT

0-9 0 0 0

10-19 0 0 0

20-29 0 0 0

30-39 0 0 0

40-49 0 0 0

50-59 0 0 0

60-69 1 1 2

70-79 1 4 5

>80 21 35 56

TOT 23 40 63

Deceduti per età e sesso – USL22

  M F TOT

TOT 1,942141 3,303083 2,630206

Tassi grezzi per sesso *10.000ab – USL22

  M F TOT

0-9 12221 11718 23939

10-19 12337 11701 24038

20-29 18380 17738 36118

30-39 21339 20135 41474

40-49 16897 16072 32969

50-59 15518 15025 30543

60-69 11796 12495 24291

70-79 7319 10337 17656

>80 2619 5878 8497

TOT 118426 121099 239525

popolazione per età e sesso – USL22 (POP in esame)

Tassi specifici per età e sesso *10.000ab– USL22

Supponiamo di dover confrontare i livelli di mortalità dell’USL22 rispetto al livello medio regionale del Veneto. Questi sono i dati a disposizione:

  M F TOT

0-9 0 0 0

10-19 0 0 0

20-29 0 0 0

30-39 0 0 0

40-49 0 0 0

50-59 0 0 0

60-69 0,847745 0,80032 0,82335

70-79 1,366307 3,869595 2,831899

>80 80,18328 59,54406 65,90561

tot 1,942141 3,303083 2,630206

Page 36: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

  M F TOT

0-9 204791 193642 398433

10-19 212955 201804 414759

20-29 337781 322679 660460

30-39 392281 370314 762595

40-49 313951 304108 618059

50-59 291134 295181 586315

60-69 230853 262130 492983

70-79 149621 225816 375437

?80 52110 126409 178519

TOT 2185477 2302083 4487560

popolazione per età e sesso – Veneto (POP standard)

  M F TOT

5-9 0 0 0

15-19 0 0 0

25-29 0 0 0

35-39 0 0 0

45-49 0 0 0

55-59 0 0 0

65-69 19,57045 20,97879 40,58977

70-79 20,44282 87,38164 106,3199

>80 417,8351 752,6905 1176,54

TOT 457,8483 861,051 1323,45

Decessi attesi utilizzando la popolazione del Veneto

  M F TOT

TOT 2,094958 3,740312 2,949153

Tasso standardizzato diretto di mortalità per USL22

= 457,8483/2.185.477

  M F TOT

TOT 1,942141 3,303083 2,630206

Tassi grezzi per sesso – USL22

Metodo diretto

Tassi specifici per età e sesso*10.000ab – USL22

  M F TOT

0-9 0 0 0

10-19 0 0 0

20-29 0 0 0

30-39 0 0 0

40-49 0 0 0

50-59 0 0 0

60-69 0,847745 0,80032 0,82335

70-79 1,366307 3,869595 2,831899

>80 80,18328 59,54406 65,90561

Page 37: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

  M F TOT

0-9 12221 11718 23939

10-19 12337 11701 24038

20-29 18380 17738 36118

30-39 21339 20135 41474

40-49 16897 16072 32969

50-59 15518 15025 30543

60-69 11796 12495 24291

70-79 7319 10337 17656

>80 2619 5878 8497

TOT 118426 121099 239525

popolazione per età e sesso – USL22 (POP in esame)

Tassi specifici per età e sesso – Veneto (POP standard)

  M F TOT

0-9 0 0 0

10-19 0 0 0

20-29 0 0 0

30-39 0 0 0

40-49 0 0 0

50-59 0 0 0

60-69 0,75 0,82 0,86

70-79 1,5 3,7 2,4

>80 80,3 59,2 63,9

Casi attesi per USL 22

  M F TOT

0-9 0 0 0

10-19 0 0 0

20-29 0 0 0

30-39 0 0 0

40-49 0 0 0

50-59 0 0 0

60-69 0,8847 1,02459 2,089026

70-79 1,09785 3,82469 4,23744

>80 21,03057 34,79776 54,29583

tot 23,01312 39,64704 60,6223

  M F TOT

0-9 0 0 0

10-19 0 0 0

20-29 0 0 0

30-39 0 0 0

40-49 0 0 0

50-59 0 0 0

60-69 1,130327 0,976 0,957384

70-79 0,910871 1,045836 1,179958

?80 0,998546 1,005812 1,031387

tot 0,99943 1,008903 1,039222

SMR (osservati/ attesi)

Metodo INdiretto

  M F TOT

0-9 0 0 0

10-19 0 0 0

20-29 0 0 0

30-39 0 0 0

40-49 0 0 0

50-59 0 0 0

60-69 1 1 2

70-79 1 4 5

>80 21 35 56

TOT 23 40 63

Deceduti per età e sesso – USL22

Page 38: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Sesso Ricoveri per ernia

Maschio 35

Femmina 43

totale 78

Tabella ad una entrata

Sesso/età ≤65anni >65 anni totale

Maschio 12 23 35

Femmina 18 25 43

totale 30 48 78

Frequenza assoluta dei ricoveri per ernia disaggregati per sesso

Tabella a doppia entrata

Frequenza assoluta dei ricoveri per ernia disaggregati per sesso e classi di età

Come presentare i propri dati

Page 39: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Rappresentazioni grafiche

frequenza assoluta dei ricoveri per età e sesso

0

400

800

1200

1600

0 10 20 30 40 50 60 70 80 90 100

maschi femmine

Numero di fratture di femore per comune di residenza

0

100

200

300

400

500

Cap

raia

eLi

mite

Cas

telfi

oren

tino

Cas

telfr

anco

di

Sot

to

Cer

reto

Gui

di

Cer

tald

o

Em

poli

Fuc

ecch

io

Gam

bass

iT

erm

e

Mon

taio

ne

Mon

telu

poF

iore

ntin

o

Mon

tesp

erto

li

Mon

topo

li in

Val

d'A

rno

San

Min

iato

San

ta C

roce

sull'A

rno

Vin

ci

Tot

al

maschi femmine

Le frequenze o numeri assoluti possono essere visualizzate attraverso dei grafici a linee quando vogliono evidenziare una tendenza nel tempo (età, singoli anni di un periodo di osservazione, ecc.)

Quando invece si vuole visualizzare la differenza in numero assoluto fra diversi livelli di aggregazione del dato (sesso, comuni, ecc.) che non hanno un riferimento temporale, si possono usare gli istogrammi (o grafici a barre)

Page 40: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Distribuzione percentuale dei ricoveri per frattura di femore per comune di residenza (Zona Valdarno)

MASCHI

0%

50%

100%

Castelfra Fucecchio Montopoli San Minia Santa Cro

<1 1-14 15-64 65-74 75-84 85++

frequenze percentuali del tipo di ricovero per frattura di femore

26,55

70,43

0,381,69

0,75

0,19 neonati

progr non urg

urgente

TSO

TSV

con preosp

Le frequenze percentuali di una sola variabile (tipo di ricovero) distribuita in base alle sue modalità (neonati, ricoveri programmati non urgenti, urgenti, ecc.) possono essere visualizzate attraverso dei grafici a torta nei quali è immediato rilevare il contributo delle singole modalità sulla variabile in osservazione

Se la distribuzione percentuale che si sta graficando prevede una stratificazione della variabile in più livelli di altre due caratteristiche (età e comune di residenza) è necessario utilizzare una forma grafica che visualizzi contestualmente tutte le informazioni previste.

Page 41: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Peso e lunghezza dei bambini nati ad Empoli - anno 2000

05

101520253035404550556065

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500

peso (grammi)

lun

gh

ezza

(cm

)

lunghezza

Se si vuole visualizzare l’andamento contestuale di due variabili che si suppone siano correlate si utilizza il grafico a dispersione.

Questo grafico evidenzia la possibile relazione esistente fra le due variabili: se i punti di dispersione sono distribuiti lungo un’ipotetica retta la relazione si definisce lineare.

Page 42: Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

I miei recapiti:

Dott. Michela Franchini

Coordinatore Epidemiologia – ASL 11 Empoli

Telefono ufficio: 0571-702932

Cellulare aziendale : 335/5722279

Testi di consultazione consigliati:

Glantz

Statistica per discipline biomediche

Ed. McGraw-Hill

Pagano – Gauvreau

Biostatistica

Ed. Idelson-Gnocchi