Università del Piemonte Orientale Corso di Laurea in …magnani/pdf/biotech_2009_2_Statistic... ·...

40
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 1 Università del Piemonte Orientale Corso di Laurea in Biotecnologie Corso di Statistica Medica Statistica Descrittiva: Variabili numeriche

Transcript of Università del Piemonte Orientale Corso di Laurea in …magnani/pdf/biotech_2009_2_Statistic... ·...

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 1

Università del Piemonte Orientale

Corso di Laurea in Biotecnologie

Corso di Statistica Medica

Statistica Descrittiva: Variabili numeriche

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 2

In questa lezione parleremo di: Misure di tendenza centrale e di variabilità

Media

Deviazione Standard

Coefficiente di Variazione

Mediana

Percentili

Diagrammi a scatola e baffi (Box Plot)

Diagrammi a punti

Media geometrica

Trasformazione logaritmica

Media calcolata su dati raggruppati

Moda

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 3

Misure di tendenza centrale Misure di variabilità

Media (aritmetica) • Deviazione Standard

• Coefficiente di variazione

Mediana • Range

• Percentili

• Range interquartile

Media geometrica

Moda

Queste statistiche possono essere calcolate solo per variabili numeriche!

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 4

Media: è la più comune misura di tendenza centrale. Può essere calcolata per

variabili numeriche.

• Media aritmetica: Il valore medio di una variabile in un gruppo di osservazioni si

calcola sommando il valore della variabile per ciascuna osservazione e

dividendo il risultato per il numero di osservazioni.

n

xXMedia

n

ii∑

=== 1

= (x1 + x2+ x3+ x4+ x5+ + xn-1 + xn) / n

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 5

Simboli:

Σ = sommatoria

= (x1 + x2+ x3+ x4+ x5+ + xn-1 + xn)

xi = i-esima osservazione

n = numero totale di osservazioni

∑=

n

i 1

Indica la sommatoria di tutte le osservazioni, dalla prima (i=1) all’ultima (i=n)

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 6

Esempio = Calcolo di media

Variabile = altezza; variabile numerica; Campione = 20 soggetti

x 1,64

1,74

1,65

1,80

1,58

1,76

1,55

1,72

1,60

1,69

1,75

1,81

1,58

1,76

1,57

1,72

1,70

1,77

1,71

1,87

Totale = 33,97

Media= 33,97 / 20 = 1,699

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 7

Quanti decimali?

Quando presentate il risultato di una media usate un decimale in più di

quanti ne sono stati usati per i dati.

Nei calcoli e nei risultati intermedi mantenete una precisione maggiore ( almeno 2

o 3 decimali in più di quanti ne sono stati usati per i dati).

Se utilizzate un calcolatore arrotondate solo il risultato finale.

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 8

00,20,40,60,8

11,21,41,61,8

2

0 5 10 15 20 25

Case Number

Alte

zza

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 9

-0,2

-0,15

-0,1

-0,05

0

0,05

0,1

0,15

0,2

0 5 10 15 20 25

Case Number

Res

idua

l

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 10

Deviazione Standard: misura la variabilità delle osservazioni intorno alla Media.

Per spiegare la deviazione standard è utile esaminare prima le statistiche Devianza e

Varianza. La Devianza è la somma dei quadrati delle differenze (scarti) tra il valore della variabile e la

media.

( )∑ −=

=n

iXxidev

1

2

La Varianza è la devianza divisa per (numero di osservazioni – 1) (si può definire anche come la media degli scarti quadratici).

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 11

( ))1(

)1/(var 1

2

−=−=∑ −=

ni

ndev

n

iXx

La Deviazione Standard è la radice quadrata della varianza.

( ))1(

1

2

−=

∑ −=

nDS

n

iXxi

Deviazione standard calcolata su un campione -> il denominatore è (n-1).

Deviazione standard calcolata sulla popolazione -> il denominatore è (n).

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 12

Esempio di due distribuzioni di frequenza calcolate su un numero infinito di osservazioni e caratterizzate dalla stessa

media ma da due diverse deviazioni standard.

y

0 .00

0 .02

0 .04

0 .06

0 .08

0 .10

0 .12

0 .14

0 .16

0 .18

0 .20

0 .22

0 .24

0 .26

0 .28

0 .30

0 .32

0 .34

0 .36

0 .38

0 .40

x

-9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10

DS=1

DS=2

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 13

Coefficiente di Variazione

E’ il rapporto tra deviazione standard e media. Viene espresso in percentuale.

100% ∗=xDSCV

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 15

Esempio = Calcolo di media e deviazione standard

Variabile = altezza - Campione = 20 soggetti

ix xxi − ( )2xxi −

1,64 -0,05850 0,00342

1,74 0,04150 0,00172

1,65 -0,04850 0,00235

1,8 0,10150 0,01030

1,58 -0,11850 0,01404

1,76 0,06150 0,00378

1,55 -0,14850 0,02205

1,72 0,02150 0,00046

1,6 -0,09850 0,00970

1,69 -0,00850 0,00007

1,75 0,05150 0,00265

1,81 0,11150 0,01243

1,58 -0,11850 0,01404

1,76 0,06150 0,00378

1,57 -0,12850 0,01651

1,72 0,02150 0,00046

1,7 0,00150 0,00000

1,77 0,07150 0,00511

1,71 0,01150 0,00013

1,87 0,17150 0,02941

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 16

Media= 1,699

Varianza= 0,008

DS= 0,090

CV% 5,2%

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 17

Mediana Dato un insieme di osservazioni ordinate per valori crescenti della variabile, la

mediana corrisponde al valore dell’osservazione che occupa la posizione centrale

della distribuzione.

Se il numero di osservazioni è pari abbiamo due osservazioni centrali: la mediana

sarà ottenuta calcolando la media del valore di tali (due) osservazioni centrali.

N/2; N/2 +1

La media e la mediana coincidono nel caso di distribuzioni simmetriche.

Se la distribuzione è asimmetrica la media è maggiormente influenzata

dall’asimmetria e dai valori estremi.

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 18

Esempio = Calcolo di mediana

Variabile = altezza - Campione = 20 soggetti1 1,55

2 1,57

3 1,58

4 1,58

5 1,60

6 1,64

7 1,65

8 1,69

9 1,70

10 1,7111 1,7212 1,72

13 1,74

14 1,75

15 1,76

16 1,76

17 1,77

18 1,80

19 1,81

20 1,87

Mediana= (1,71 + 1,72) /2 = 1,715

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 19

Percentili: valori della variabile che delimitano specificate frazioni della distribuzione

cumulativa dei dati ordinati in senso crescente.

Alcuni sinonimi

1° quartile = 25° percentile

mediana = 50° percentile

3° quartile = 75° percentile

Range interquartili = 75° percentile - 25° percentile

La procedura più semplice per il calcolo dei percentili si basa sull’uso della

distribuzione cumulativa.

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 20

.Cumulative Cumulative ETA Frequency Percent Frequency Percent 32 2 0.5 2 0.5 41 2 0.5 4 0.9 42 6 1.4 10 2.3 44 6 1.4 16 3.7 45 4 0.9 20 4.7 46 8 1.9 28 6.5 47 4 0.9 32 7.4 49 8 1.9 40 9.3 50 4 0.9 44 10.2 10° percentile=50 51 6 1.4 50 11.6 52 4 0.9 54 12.6 54 12 2.8 66 15.3 55 6 1.4 72 16.7 56 8 1.9 80 18.6 57 8 1.9 88 20.5 58 8 1.9 96 22.3 59 14 3.3 110 25.6 25° percentile=59 60 12 2.8 122 28.4 61 20 4.7 142 33.0 62 20 4.7 162 37.7 63 22 5.1 184 42.8 64 38 8.8 222 51.6 Mediana= 64 65 20 4.7 242 56.3 66 32 7.4 274 63.7 67 18 4.2 292 67.9 68 8 1.9 300 69.8 69 22 5.1 322 74.9 70 22 5.1 344 80.0 75° percentile=70 71 8 1.9 352 81.9 72 18 4.2 370 86.0 73 24 5.6 394 91.6 74 14 3.3 408 94.9 75 4 0.9 412 95.8 76 6 1.4 418 97.2 77 4 0.9 422 98.1 79 4 0.9 426 99.1 83 2 0.5 428 99.5 92 2 0.5 430 100.0 totale 430 100.0 430 100.0

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 21

35

25° percentile

75° percentile

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 22

Formule per il calcolo di percentili, data una sequenza ordinata n: numero di osservazioni

k: percentile di interesse

se n*k /100 è un intero il percentile cercato sarà la media del valore della variabile delle due osservazioni che

occupano le seguenti posizioni nella sequenza ordinata:

- 100kn e

+1

100kn

es. calcolate il 30° percentile in una serie di 250 osservazioni.

250 * 30 /100 = 75

+= 1

10030250

10030250:____percentile 30esimo eposizioneinniosservaziodellemedia = media tra il valore della osservazione che

occupa la 75 posizione ed il valore della osservazione che occupa la 76 posizione.

se n*k /100 non è intero

1100

intpercentile esimo-k +

=

knero

es. calcolate il 25° percentile in una serie di 130 osservazioni.

130 * 25 /100 = 32,5

25° percentile = valore della osservazione che occupa la 33 posizione (32+1=33).

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 23

Un esempio di output di un programma di calcolo

Numero osservazioni 430 Mean 63.4325581 Std Deviation 8.79997142 Variance 77.4394969 Coeff Variation 13.8729568 Median 64.00000 Quantile (percentile) 99% 79 95% 75 90% 73 75% 70 50% Mediana 64 25% 59 10% 50 5% 46 1% 42

Interquartile Range 11.00000

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 24

La rappresentazione grafica di dati/variabili numeriche Box plot (diagramma a scatola e baffi) Fornisce una rappresentazione grafica che presenta i valori di mediana e quartili (25% e 75% percentile), sotto forma

di una scatola ed altri valori di dispersione, indicati come ‘baffi’.

La definizione della ‘scatola’ (mediana e range interquartile) è universale.

Non esiste invece una definizione universale per quanto riguarda i ‘baffi’.

L’esempio seguente costruito usando il package statistico SPSS si usa il range (valore minimo e valore massimo).

Il testo di Pagano e Gauvreau (p.19) usa invece i ‘valori adiacenti’, definiti come

- Valore minimo osservato > (1° quartile – 1,5 * range interquartile)

- Valore massimo osservato < (3° quartile + 1,5 * range interquartile)

Altri autori hanno proposto definizioni ancora diverse (es. 5° e 95° percentile).

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 25

Dati originali (sono riportate anche altre variabili) n Hb PCV% Età_anni menopausa1 111 35 20 02 107 45 22 03 124 47 25 04 140 50 28 05 131 31 28 06 105 30 31 07 96 25 32 08 125 33 35 09 135 35 38 0

10 139 40 40 011 151 45 45 112 139 47 49 013 162 49 54 114 163 42 55 115 168 40 57 116 171 50 60 117 166 46 62 118 169 55 63 119 157 42 65 120 165 46 67 1

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 26

Esempio: livello di emoglobina in un campione di 20 donne.

Dati elaborati con SPSS

Hb

Min: 96.00000

1st Qu.: 124.75000

Median: 139.50000

3rd Qu.: 163.50000

Max: 171.00000

Total N: 20.00000

NA's : 0.00000 numero di val mancanti

Mean: 141.20000

Std Dev.: 24.01885

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 27

Box plot del livello di emoglobina in un campione di 20 donne.

Dati elaborati con SPSS

100

120

140

160

Hb

Mediana

Quartili

Range

Media

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 28

Rappresentazione grafica di dati definiti da 2 variabili, di cui:

Una variabile quantitativa/numerica

e l’altra nominale / ordinale

Attenzione, alle variabili numeriche possono essere applicati i metodi descrittivi

visti durante la lezione precedente (frequenze, frequenze cumulative, istogrammi)

Questi metodi possono essere usati anche per confrontare diversi gruppi di

soggetti, ad esempio disegnando diversi istogrammi.

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 29

Diagramma a punti: è adatto quando il numero di osservazioni in ciascuna categoria non è troppo

grande.

Diagramma a punti. Distribuzione di frequenza di una variabile continua (Concentrazione di Emoglobina), separatamente per i due sottogruppi definiti dalla variabile Menopausa (0= no, 1= si).

0

1

menopausaaa

100

120

140

160

Hb

Singola osservazione

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 30

Rappresentazione grafica di dati definiti da 2 variabili quantitative

SOMMINISTRAZIONE GENERAL HEALTH QUESTIONNAIRE (GHQ)

0

5

10

15

20

25

0 5 10 15 20 25

1° TEST

2° T

EST

r = 0.90 (Coefficiente di regressione, sarà spiegato successivamente)

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 31

Media geometrica e trasformazione logaritmica

Talora la distribuzione dei dati originali è fortemente asimmetrica. Può essere utile (i motivi

saranno approfonditi in seguito) calcolare una funzione dei dati originali tale che la sua

distribuzione sia simmetrica. La funzione usata più comunemente è quella logaritmica.

Il logaritmo della media geometrica corrisponde alla media aritmetica dei logaritmi dei dati,

quindi la media geometrica coincide con l’antilogaritmo della media aritmetica dei logaritmi

dei dati.

MG = (Πxi )1/n

Log(MG)= Σ(logxi)/ n

Attenzione: il logaritmo di 0 e dei numeri negativi è indefinito. Occorre definire il valore da assegnare

alle osservazioni con valore 0 (se ne esistono).

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 32

Media geometrica Distribuzione di frequenza della concentrazione di corpuscoli dell’amianto in 372 casi di tumore

polmonare positivi per la ricerca dei corpuscoli. La distribuzione è marcatamente asimmetrica.

QUENCY

0

10

20

30

40

50

60

70

80

90

100

110

120

130

140

150

CORPUSCO MI DPOI NT

0 250

500

750

1000

1250

1500

1750

2000

2250

2500

2750

3000

3250

3500

3750

4000

4250

4500

4750

5000

5250

5500

5750

6000

6250

6500

6750

7000

7250

7500

7750

8000

8250

8500

8750

9000

9250

9500

9750

10000

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 33

Distribuzione di frequenza del logaritmo della concentrazione di corpuscoli dell’amianto in 372 casi

di tumore polmonare positivi per tale indicatore. La distribuzione è simmetrica.

REQUENCY

0

10

20

30

40

50

L_c MI DPOI NT

0.00

0.25

0.50

0.75

1.00

1.25

1.50

1.75

2.00

2.25

2.50

2.75

3.00

3.25

3.50

3.75

4.00

4.25

4.50

4.75

5.00

5.25

5.50

5.75

6.00

6.25

6.50

6.75

7.00

7.25

7.50

7.75

8.00

8.25

8.50

8.75

9.00

9.25

9.50

9.75

10.00

10.25

10.50

10.75

11.00

11.25

11.50

11.75

12.00

12.25

12.50

12.75

13.00

13.25

13.50

13.75

14.00

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 34

Possiamo calcolare una media partendo da una distribuzione di frequenza?

Colesterolo (mg/ 100 ml) n

80-119 13

120-159 150

160-199 442

200-239 299

240-279 115

280-319 34

320-359 9

360-399 5

Possiamo calcolare un valore medio se possiamo stimare la distribuzione dei soggetti

compresi in ciascuna classe di valori.

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 35

Se le classi non sono troppo ampie, è ragionevole pensare che il valor medio in ciascuna

classe si collocato al centro dell’intervallo che la costituisce.

Colesterolo (mg/

100 ml)

Valore centrale

della classe

n

80-119 100 13

120-159 140 150

160-199 180 442

200-239 220 299

240-279 260 115

280-319 300 34

320-359 340 9

360-399 380 5

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 36

Data questa assunzione, si possono considerare gli f soggetti in una data classe come

soggetti con lo stesso valore x della variabile e quindi applicare una semplice estensione

della formula della media.

=

=== n

ii

n

iii

f

xfXMedia

1

1

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 37

Colesterolo Valore x centrale della classe f x * f

80-119 100 13 1300

120-159 140 150 21000

160-199 180 442 79560

200-239 220 299 65780

240-279 260 115 29900

280-319 300 34 10200

320-359 340 9 3060

360-399 380 5 1900

Totale 1067 212700

Media= 212700 / 1067 = 199,3

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 38

Moda

Valore o classe di valori (in questo secondo caso si parla più correttamente di Classe

Modale) che ricorrono con maggior frequenza in una distribuzione.

Possono essere presenti più mode, come nell’esempio seguente.

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 39

Metodi statistici descrittivi Riepilogo

Tipo di variabile

Categoriche Numeriche

Nominale Ordinale

Distribuzione di Frequenza SI SI SI

Distrib. di Freq. cumulativa NO SI SI

Diagramma a barre /

Istogramma

SI SI SI

Media NO NO SI

Deviazione standard NO NO SI

Mediana NO NO SI

Percentili NO NO SI

Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 40

Esercizi consigliati, tratti da: M.Pagano & K.Gauvreau. Biostatistica (II edizione italiana). ed. Idelson

Gnocchi, Napoli 2003.

1. Svolgere i seguenti esercizi tratti dalle pag.48-51: 1, 2, 3, 4, 6, 7

2. Svolgere l’esercizio 8. Oltre alle domande presenti sul testo disegnate anche:

a. i due box plot (uno per le adolescenti bulimiche l’altro per le adolescenti sane)

b. i due istogrammi (id), da disegnarsi con classi di 5 Kcal/kg, partendo dalla prima classe da15 Kcal/kg.

3. Calcolate la media geometrica e la media dopo trasformazione logaritmica partendo dai dati forniti per l’esercizio

8, limitatamente alle adolescenti bulimiche.

4. Svolgere l’esercizio 14, limitatamente alla media. Oltre alle domande presenti sul testo disegnate anche

l’istogramma che descrive la distribuzione di frequenza.