LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di...

Post on 01-May-2015

230 views 4 download

Transcript of LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di...

LEZIONI DI LEZIONI DI STATISTICA MEDICASTATISTICA MEDICA

Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona

Prof. Roberto de Marco

Lezione n.4

- Misure di posizione

“ un qualsiasi insieme di dati porta in sè una certa quantità di informazione ”

OBIETTIVO:riassumere tutta l’informazione possibile

in modo SINTETICO ed EFFICACE

diversi strumenti e possibilità offerti dalla statistica

STATISTICHE DI BASE

la variabile d’interesse è l’ALTEZZA

UNA POPOLAZIONE CON MOLTA VARIABILITÀ

UNA POPOLAZIONE CON POCA VARIABILITÀ

Una serie di dati [misurazioni] è compiutamente descritta da tre PROPRIETÀ PRINCIPALI:

La tendenza centrale o posizione La dispersione o variabilità La forma

quando descrivono la POPOLAZIONE(si indicano con lettere dell’alfabeto

greco

STATISTICHE

PARAMETRI

Queste misure descrittive sintetiche sono chiamate:

quando sono calcolate su un CAMPIONE di dati (si indicano con lettere

dell’alfabeto latino)

(x, s, p)

INDICI DI POSIZIONEINDICI DI POSIZIONE(measures of location or central tendency)

1. MODA

2. MEDIA

3. MEDIANA

MODAMODA

Si definisce moda di un insieme di dati o di una distribuzione di frequenza la modalità, il valore (o l’intervallo di classe) della variabile a cui corrisponde la massima frequenza.

E’ la scelta fatta dalla maggioranza della popolazione, lo stile che “tutti” seguono

in statistica non è diverso

esempio: (50 neonati)

modalitàxi

frequenzaassoluta

ni

frequenzarelativa

pi

frequenza relativapercentuale

pi (%)

normale 35 0.70 70%

forcipe 1 0.02 2%

cesareo 14 0.28 28%

TOTALE 50 1.00 100%

MODA o classe modale

MA LA MODA E’ SEMPRE UNA MA LA MODA E’ SEMPRE UNA SOLA?SOLA?

0

0,05

0,1

0,15

0,2

<106 106-115

116-125

126-135

136-145

146-155

156-165

>=166

pressione sistolica (mmHg)

freq

. rel

ativ

a

0

0,05

0,1

0,15

0,2

0,25

<106 106-115

116-125

126-135

136-145

146-155

156-165

>=166

pressione sistolica (mmHg)

freq

. rel

ativ

a

0

0,05

0,1

0,15

0,2

0,25

<106 106-115

116-125

126-135

136-145

146-155

156-165

>=166

pressione sistolica (mmHg)

freq

. rel

ativ

a

Pressione sistolica di tre gruppi di maschi giapponesi: nativi, prima e seconda generazione di immigrati negli USA (Issei e Nisei).Winkelstein et al. Am J Epidemiol 1975; 102:502-13.

NATIVI GIAPPONESI

ISSEI NISEI

MEDIANAMEDIANA

Il valore centrale di una serie ORDINATA di dati

Le osservazioni vengono separate dal valore mediano in due parti numericamente uguali

Mediana (Me) è sinonimo di 50-esimo percentile o di II quartile

se n è dispari

Me = x[(n+1)/2]

se n è pari Me = [xn/2 + x(n/2+1)] / 2

es. sulla mediana

50 cm150 cm 155 cm165 cm 180 cm

campione di 5 unità

variabile d’interesse = altezza

1. ordino le unità secondo un ordine crescente di altezza

50 cm 150 cm 155 cm 165 cm 180 cm

2. identifico l’unità centrale nella serie ordinata di dati

es. sulla mediana

campione di 5 unità

variabile d’interesse = altezza

50 cm 150 cm 155 cm 165 cm 180 cm

2. la mediana è il VALORE che la variabile altezza assume sull’unità che divide il campione in due parti numericamente uguali

NB: le misure di posizione sono valori, NON frequenze!

50 cm 150 cm 155 cm 165 cm 180 cm

n è dispari Me = x[(n+1)/2] = x(5+1/2) = x3

formalmente:

14

3

5

2

ESERCIZIO-IIESERCIZIO-III dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne:

9 11,4 12,99,3 11,4 139,4 11,4 13,19,7 11,5 13,110,2 11,6 13,210,2 11,6 13,310,3 11,7 13,310,4 11,7 13,410,4 11,8 13,410,5 11,8 13,510,6 11,9 13,510,6 11,9 13,610,7 12 13,710,8 12 13,710,8 12,1 14,110,9 12,1 14,610,9 12,1 14,610,9 12,2 14,711 12,3 14,911 12,5 15

11,1 12,511,1 12,711,2 12,911,2 12,911,3 12,9

2. Raggruppate i dati in intervalli di ampiezza 1 g/100 ml.

3. Determinate la moda e la mediana della distribuzione (dati raggruppati in intervalli di classe).

MEDIA ARITMETICAMEDIA ARITMETICALa media aritmetica di un insieme di osservazioni è pari alla somma dei valori diviso il numero totale delle osservazioni

9.128/1038/)13135112713165( x

Formalmente: siano (x1, x2, … , xn) le osservazioni della variabile X su un campione di n unità statistiche, allora

nxxxnxx n

n

ii /)..(/ 21

1

5 16 13 27 11 5 13 13esempio:

(8 osservazioni)

x1 x2 x3 x4 x5 x6 x7 x8x1 x2 x3 x4 x5 x6 x7 x8

MEDIA ARITMETICA PONDERATA - IMEDIA ARITMETICA PONDERATA - I

n

nxnxnx

n

nxx kk

k

iii

..22111

Se una variabile assume lo stesso valore in più unità statistiche la media può essere calcolata moltiplicando quel valore per la frequenza con cui compare nella distribuzione

k = numero di valori che la variabile può assumere

xi = i-esimo valore assunto dalla variabile i-esimo

ni = frequenza corrispondente al valore xi

9.128/1038/)2716391110( x

xi ni xini

5 2 10

11 1 11

13 3 39

16 1 16

27 1 27

Totale 8 103

x1

x2

x3

x4

x5

x6

x7

x8

51613271151313

esempio sulla media aritmetica ponderata:

n

nxnxnx

n

nxx kk

k

iii

..22111

k = numero di valori che la variabile può assumerexi = valore assunto dalla variabile nel sogg. i-esimoni = frequenza corrispondente al valore xi

la variabile può assumere 5

valori (k = 5)

età ni xi xini

5-9 2 7 14

9-13 2 11 22

13-17 5 15 75

17-21 1 18 18

tot 10 129.12.9.129/10/)..( 882211 nnxnxnxx

n

nxnxnx

n

nxx kk

k

iii

..22111

k = numero di classi della variabile xi = valore centrale della classe

ni = frequenza corrispondente al valore xi

La media ponderata si applica anche alla distribuzione di frequenza di una var. quantitativa continua

La media aritmetica gode di diverse proprietà, le due principali dal punto di vista applicativo sono legate al concetto di scarto:

n

ini xxxxxxxx

121 0)(..)()()(

scarto (distanza) della prima osservazione dalla

media media aritmetica = punto ‘centrale’ della distribuzione

PRIMA PROPRIETA’ DELLA PRIMA PROPRIETA’ DELLA MEDIA ARITMETICAMEDIA ARITMETICA

la somma algebrica degli scarti delle osservazioni dalla loro media aritmetica è pari a zero

ESERCIZIO-IIIESERCIZIO-III

i) Determinate la media della distribuzione;

ii) Verificate la I° pproprietà della media

--------------------------------------------- CLASSE PUNTO FREQUENZA CENTRALE ASSOLUTA xi*ni (xi) (ni)---------------------------------------------[9-10) 9.5 4 38.0[10-11) 10.5 14 147.0[11-12) 11.5 19 218.5[12-13) 12.5 14 175.0[13-14) 13.5 13 175.5[14-15] 14.5 6 87.0 ---- ------- TOTALE 70 841.0

I dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne:

TIPO DI OPERAZIONI

VARIABILE CONSENTITE MODA MEDIANA MEDIA

nominale =

ordinale = < >

quantitativa = < > – + (/ *)

QUALE MISURA DI POSIZIONE QUALE MISURA DI POSIZIONE UTILIZZARE?UTILIZZARE?

Sì Sì

Sì Sì Sì

No No

No

MEDIA ARITMETICA

MEDIANAMODA

Facile da trattare matematicamente

Utilizza tutta l’informazione

contenuta nei dati

CONFRONTO TRA LE MISURE DI POSIZIONE PER CONFRONTO TRA LE MISURE DI POSIZIONE PER UNA VARIABILE QUANTITATIVAUNA VARIABILE QUANTITATIVA

E’ inaffidabile in caso

di distribuzioni asimmetriche

Difficile da trattare

matematicamente

Dipende dal raggruppamentoarbitrario dei dati

Varia molto da campione a campione

Buona misura con distribuzioni

asimmetriche (es. tempo di

sopravvivenza)

Buona misura quando un valore ha una frequenza

relativa molto elevata

Buona misura con distribuzioni

simmetriche (es. molti parametri

biologici)

CONFRONTO TRA LE MISURE DI POSIZIONE PER CONFRONTO TRA LE MISURE DI POSIZIONE PER UNA VARIABILE QUANTITATIVAUNA VARIABILE QUANTITATIVA

CAMPIONE 4 5 12 3 4 4 95 8 6

Moda = 4

Mediana = 5

Media ≈ 16 (senza outliers sarebbe circa 6)

esempio:Supponiamo di avere le Degenze Ospedaliere di 10 individui (espresse in giorni)

La media aritmetica è poco “robusta” in presenza di valori anomali (outliers)!

Moda> Mediana> Media

ASIMMETRIA

NEGATIVA

Moda< Mediana< Media

ASIMMETRIA POSITIVA

-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6

Moda= Mediana = Media

SIMMETRIA

RELAZIONE TRA MODA MEDIANA E MEDIA ARITMETICARELAZIONE TRA MODA MEDIANA E MEDIA ARITMETICA

1. CAMPO DI VARIAZIONE (range)

2. DISTANZA INTERQUARTILE

3. VARIANZA

INDICI DI DISPERSIONEINDICI DI DISPERSIONE(measures of dispersion)

6. COEFFICIENTE DI VARIAZIONE

Range = xmax - xmin

differenza tra il valore massimo e il valore minimo osservati

RANGE (CAMPO DI VARIAZIONE)RANGE (CAMPO DI VARIAZIONE)

Si basa soltanto sui valori estremi della distribuzione e non tiene conto dei valori intermedi

E' molto influenzato da osservazioni anomale (outliers)

Tende ad aumentare al crescere del numero delle osservazioni

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 11 Range = xmax - xmin = 17 - 0 =17

num. linfonodi metastatici

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 10 Range = xmax - xmin = 10 - 0 =10 = (0,10)

num. linfonodi metastatici

Variazione del numero di linfonodi metastatici

IQR = Q3 - Q1

differenza tra il III°quartile (Q3) ed il I°quartile (Q1)

DISTANZA INTERQUARTILEDISTANZA INTERQUARTILE

In questo intervallo ricade la metà dei valori osservati, posta esattamente al centro della distribuzione.

Non è influenzata da osservazioni anomale o estreme.

Statura Freq. Cumul.

162 1 1

168 1 2

169 1 3

170 3 6

172 2 8

174 2 10

175 5 15

176 3 18

177 3 21

178 3 24

179 1 25

181 1 26

182 2 28

183 2 30

184 1 31

188 1 32

192 1 33

193 1 34

Totale 34

MASCHI

esempio: Statura matricole della Facoltà di Medicina (A.A. 95/96)

Range = xmax - xmin = 193 - 162 = 31 cm

mediana (range) = 176 (162-193) cmmediana (IQR) = 176 (174-181) cm

Calcolo del I° quartile:

(rango percentilico = 25)

1. rango = (34+1) * 25 / 100

= 35 / 4 9

2. I° quartile = 174 cm

Calcolo del III° quartile:

(rango percentilico = 75)

1. rango = (34+1) * 75 / 100

= 35 * 3 / 4 26

2. III° quartile = 181 cmIQR = Q3 - Q1 = 181 - 174 =

7 cm

Deviazione standard:

2iD (x -x)

2 Ds =

n-1

2s s

Varianza campionaria:

Devianza:

Gli indici di dispersione di più largo uso sono basati sugli scarti dalla media e, : per un campione di dimensione n, {x1,x2,...xn}, sono così definiti

La Varianza

La devianza è la somma dei quadrati degli scarti tra ogni elemento del campione (xi) e la media campionaria ( ).

x

Calcolo della deviazione standard (d.s)

0

2

4

6

8 x

x

x xi= 2 + 5 + 8=15

devianza = (2 - 5)2 + (5 - 5)2 + (8 - 5)2

= 18

S2 = 18/2 = 9

d.s = 3

X = 5

Interpretazione della deviazione standard (SD) in una distribuzione simmetrica (Gaussiana)

In alcune situazioni il confronto della variabilità all’interno di due gruppi di osservazioni utilizzando la deviazione standard è fuorviante

Due variabili diverse:

In 91 ragazze matricole di Medicina a Verona nell’A.A. 95/96,

la media del peso era pari a 55.1 Kg e la deviazione standard era pari a 5.7 Kg,

la media della statura era pari a 166.1 cm e la deviazione standard era pari a 6.1 cm.

E’ maggiore la variabilità del peso o la variabilità della statura?

1. Le variabili misurate nei due gruppi sono diverse (le osservazioni nei due gruppi sono espresse con diverse unità di misura)

1. La variabile misurata è la stessa ma i valori medi delle osservazioni nei due gruppi sono molto distanti (le osservazioni nei due gruppi sono su diversi ordini di grandezza)

Due gruppi con valori medi molto distanti:

Tre neonati pesano rispettivamente 3, 4 e 5 Kg (media = 4 Kg; dev.st. = 1 Kg).Tre bambini di 1 anno pesano 10, 11 e 12 Kg (media = 11 Kg; dev.st. = 1 Kg).

La deviazione standard è uguale nei due gruppi, ma il buon senso suggerisceche la variabilità del peso sia maggiore nei neonati.

COEFFICIENTE DI VARIAZIONE COEFFICIENTE DI VARIAZIONE PERCENTUALE PERCENTUALE

CV% = (deviazione standard / media) *

100%

Ci permette di misurare la variabilità indipendentemente dalla grandezza e dalla scala di

misura delle osservazioni

Media Dev. standard CV Neonati 4 Kg 1 Kg 25.0 %

Bambini 1 anno 11 Kg 1 Kg 9.1 %

La variabilità del peso è maggiore nei neonati.

Media Dev. standard CV Peso 55.1 Kg 5.7 Kg 10.3 %

Statura 166.1 cm 6.1 cm 3.7 %

La variabilità del peso è maggiore della variabilità della statura.

MISURE PONDERATE (POOLED)MISURE PONDERATE (POOLED)

Molto spesso è necessario riassumere l’informazione pertinente ai valori di una variabile X misurata su due o più campioni indipendenti

Esempio: lo stesso farmaco viene sperimentato in 2 ospedali A e B

in A la % di guarigioni è del 25% su 100 pazienti

in B la % di guarigioni è del 35% su 300 pazienti

Considerando le due sperimentazioni, qual è la % di successo del farmaco?

325.0300100

30035.010025.0

pooledP

In generale se si dispone di k campioni e su

ognuno di essi è calcolata una misura di sintesi mi

con fattore di ponderazione wi (in genere la

numerosità del campione), la misura di sintesi ponderata in tutti i campioni sarà:

i

k

iii

p w

mwm 1

mesixp 45.243080

300.27805.23

esercizio: il tempo di sopravvivenza medio dei pazienti con carcinoma polmonare trattati in due centri A e B è rispettivamente:

A = 23.5 mesi n = 80

B = 27.0 mesi n = 30

Calcolare il tempo di sopravvivenza medio relativo ai due centri

Ax

Bx