Università del Piemonte Orientale Corso di Laurea in …magnani/pdf/biotech_2009_2_Statistic... ·...
Transcript of Università del Piemonte Orientale Corso di Laurea in …magnani/pdf/biotech_2009_2_Statistic... ·...
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 1
Università del Piemonte Orientale
Corso di Laurea in Biotecnologie
Corso di Statistica Medica
Statistica Descrittiva: Variabili numeriche
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 2
In questa lezione parleremo di: Misure di tendenza centrale e di variabilità
Media
Deviazione Standard
Coefficiente di Variazione
Mediana
Percentili
Diagrammi a scatola e baffi (Box Plot)
Diagrammi a punti
Media geometrica
Trasformazione logaritmica
Media calcolata su dati raggruppati
Moda
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 3
Misure di tendenza centrale Misure di variabilità
Media (aritmetica) • Deviazione Standard
• Coefficiente di variazione
Mediana • Range
• Percentili
• Range interquartile
Media geometrica
Moda
Queste statistiche possono essere calcolate solo per variabili numeriche!
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 4
Media: è la più comune misura di tendenza centrale. Può essere calcolata per
variabili numeriche.
• Media aritmetica: Il valore medio di una variabile in un gruppo di osservazioni si
calcola sommando il valore della variabile per ciascuna osservazione e
dividendo il risultato per il numero di osservazioni.
n
xXMedia
n
ii∑
=== 1
= (x1 + x2+ x3+ x4+ x5+ + xn-1 + xn) / n
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 5
Simboli:
Σ = sommatoria
= (x1 + x2+ x3+ x4+ x5+ + xn-1 + xn)
xi = i-esima osservazione
n = numero totale di osservazioni
∑=
n
i 1
Indica la sommatoria di tutte le osservazioni, dalla prima (i=1) all’ultima (i=n)
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 6
Esempio = Calcolo di media
Variabile = altezza; variabile numerica; Campione = 20 soggetti
x 1,64
1,74
1,65
1,80
1,58
1,76
1,55
1,72
1,60
1,69
1,75
1,81
1,58
1,76
1,57
1,72
1,70
1,77
1,71
1,87
Totale = 33,97
Media= 33,97 / 20 = 1,699
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 7
Quanti decimali?
Quando presentate il risultato di una media usate un decimale in più di
quanti ne sono stati usati per i dati.
Nei calcoli e nei risultati intermedi mantenete una precisione maggiore ( almeno 2
o 3 decimali in più di quanti ne sono stati usati per i dati).
Se utilizzate un calcolatore arrotondate solo il risultato finale.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 8
00,20,40,60,8
11,21,41,61,8
2
0 5 10 15 20 25
Case Number
Alte
zza
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 9
-0,2
-0,15
-0,1
-0,05
0
0,05
0,1
0,15
0,2
0 5 10 15 20 25
Case Number
Res
idua
l
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 10
Deviazione Standard: misura la variabilità delle osservazioni intorno alla Media.
Per spiegare la deviazione standard è utile esaminare prima le statistiche Devianza e
Varianza. La Devianza è la somma dei quadrati delle differenze (scarti) tra il valore della variabile e la
media.
( )∑ −=
=n
iXxidev
1
2
La Varianza è la devianza divisa per (numero di osservazioni – 1) (si può definire anche come la media degli scarti quadratici).
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 11
( ))1(
)1/(var 1
2
−=−=∑ −=
ni
ndev
n
iXx
La Deviazione Standard è la radice quadrata della varianza.
( ))1(
1
2
−=
∑ −=
nDS
n
iXxi
Deviazione standard calcolata su un campione -> il denominatore è (n-1).
Deviazione standard calcolata sulla popolazione -> il denominatore è (n).
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 12
Esempio di due distribuzioni di frequenza calcolate su un numero infinito di osservazioni e caratterizzate dalla stessa
media ma da due diverse deviazioni standard.
y
0 .00
0 .02
0 .04
0 .06
0 .08
0 .10
0 .12
0 .14
0 .16
0 .18
0 .20
0 .22
0 .24
0 .26
0 .28
0 .30
0 .32
0 .34
0 .36
0 .38
0 .40
x
-9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10
DS=1
DS=2
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 13
Coefficiente di Variazione
E’ il rapporto tra deviazione standard e media. Viene espresso in percentuale.
100% ∗=xDSCV
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 15
Esempio = Calcolo di media e deviazione standard
Variabile = altezza - Campione = 20 soggetti
ix xxi − ( )2xxi −
1,64 -0,05850 0,00342
1,74 0,04150 0,00172
1,65 -0,04850 0,00235
1,8 0,10150 0,01030
1,58 -0,11850 0,01404
1,76 0,06150 0,00378
1,55 -0,14850 0,02205
1,72 0,02150 0,00046
1,6 -0,09850 0,00970
1,69 -0,00850 0,00007
1,75 0,05150 0,00265
1,81 0,11150 0,01243
1,58 -0,11850 0,01404
1,76 0,06150 0,00378
1,57 -0,12850 0,01651
1,72 0,02150 0,00046
1,7 0,00150 0,00000
1,77 0,07150 0,00511
1,71 0,01150 0,00013
1,87 0,17150 0,02941
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 16
Media= 1,699
Varianza= 0,008
DS= 0,090
CV% 5,2%
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 17
Mediana Dato un insieme di osservazioni ordinate per valori crescenti della variabile, la
mediana corrisponde al valore dell’osservazione che occupa la posizione centrale
della distribuzione.
Se il numero di osservazioni è pari abbiamo due osservazioni centrali: la mediana
sarà ottenuta calcolando la media del valore di tali (due) osservazioni centrali.
N/2; N/2 +1
La media e la mediana coincidono nel caso di distribuzioni simmetriche.
Se la distribuzione è asimmetrica la media è maggiormente influenzata
dall’asimmetria e dai valori estremi.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 18
Esempio = Calcolo di mediana
Variabile = altezza - Campione = 20 soggetti1 1,55
2 1,57
3 1,58
4 1,58
5 1,60
6 1,64
7 1,65
8 1,69
9 1,70
10 1,7111 1,7212 1,72
13 1,74
14 1,75
15 1,76
16 1,76
17 1,77
18 1,80
19 1,81
20 1,87
Mediana= (1,71 + 1,72) /2 = 1,715
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 19
Percentili: valori della variabile che delimitano specificate frazioni della distribuzione
cumulativa dei dati ordinati in senso crescente.
Alcuni sinonimi
1° quartile = 25° percentile
mediana = 50° percentile
3° quartile = 75° percentile
Range interquartili = 75° percentile - 25° percentile
La procedura più semplice per il calcolo dei percentili si basa sull’uso della
distribuzione cumulativa.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 20
.Cumulative Cumulative ETA Frequency Percent Frequency Percent 32 2 0.5 2 0.5 41 2 0.5 4 0.9 42 6 1.4 10 2.3 44 6 1.4 16 3.7 45 4 0.9 20 4.7 46 8 1.9 28 6.5 47 4 0.9 32 7.4 49 8 1.9 40 9.3 50 4 0.9 44 10.2 10° percentile=50 51 6 1.4 50 11.6 52 4 0.9 54 12.6 54 12 2.8 66 15.3 55 6 1.4 72 16.7 56 8 1.9 80 18.6 57 8 1.9 88 20.5 58 8 1.9 96 22.3 59 14 3.3 110 25.6 25° percentile=59 60 12 2.8 122 28.4 61 20 4.7 142 33.0 62 20 4.7 162 37.7 63 22 5.1 184 42.8 64 38 8.8 222 51.6 Mediana= 64 65 20 4.7 242 56.3 66 32 7.4 274 63.7 67 18 4.2 292 67.9 68 8 1.9 300 69.8 69 22 5.1 322 74.9 70 22 5.1 344 80.0 75° percentile=70 71 8 1.9 352 81.9 72 18 4.2 370 86.0 73 24 5.6 394 91.6 74 14 3.3 408 94.9 75 4 0.9 412 95.8 76 6 1.4 418 97.2 77 4 0.9 422 98.1 79 4 0.9 426 99.1 83 2 0.5 428 99.5 92 2 0.5 430 100.0 totale 430 100.0 430 100.0
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 21
35
25° percentile
75° percentile
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 22
Formule per il calcolo di percentili, data una sequenza ordinata n: numero di osservazioni
k: percentile di interesse
se n*k /100 è un intero il percentile cercato sarà la media del valore della variabile delle due osservazioni che
occupano le seguenti posizioni nella sequenza ordinata:
- 100kn e
+1
100kn
es. calcolate il 30° percentile in una serie di 250 osservazioni.
250 * 30 /100 = 75
+= 1
10030250
10030250:____percentile 30esimo eposizioneinniosservaziodellemedia = media tra il valore della osservazione che
occupa la 75 posizione ed il valore della osservazione che occupa la 76 posizione.
se n*k /100 non è intero
1100
intpercentile esimo-k +
=
knero
es. calcolate il 25° percentile in una serie di 130 osservazioni.
130 * 25 /100 = 32,5
25° percentile = valore della osservazione che occupa la 33 posizione (32+1=33).
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 23
Un esempio di output di un programma di calcolo
Numero osservazioni 430 Mean 63.4325581 Std Deviation 8.79997142 Variance 77.4394969 Coeff Variation 13.8729568 Median 64.00000 Quantile (percentile) 99% 79 95% 75 90% 73 75% 70 50% Mediana 64 25% 59 10% 50 5% 46 1% 42
Interquartile Range 11.00000
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 24
La rappresentazione grafica di dati/variabili numeriche Box plot (diagramma a scatola e baffi) Fornisce una rappresentazione grafica che presenta i valori di mediana e quartili (25% e 75% percentile), sotto forma
di una scatola ed altri valori di dispersione, indicati come ‘baffi’.
La definizione della ‘scatola’ (mediana e range interquartile) è universale.
Non esiste invece una definizione universale per quanto riguarda i ‘baffi’.
L’esempio seguente costruito usando il package statistico SPSS si usa il range (valore minimo e valore massimo).
Il testo di Pagano e Gauvreau (p.19) usa invece i ‘valori adiacenti’, definiti come
- Valore minimo osservato > (1° quartile – 1,5 * range interquartile)
- Valore massimo osservato < (3° quartile + 1,5 * range interquartile)
Altri autori hanno proposto definizioni ancora diverse (es. 5° e 95° percentile).
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 25
Dati originali (sono riportate anche altre variabili) n Hb PCV% Età_anni menopausa1 111 35 20 02 107 45 22 03 124 47 25 04 140 50 28 05 131 31 28 06 105 30 31 07 96 25 32 08 125 33 35 09 135 35 38 0
10 139 40 40 011 151 45 45 112 139 47 49 013 162 49 54 114 163 42 55 115 168 40 57 116 171 50 60 117 166 46 62 118 169 55 63 119 157 42 65 120 165 46 67 1
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 26
Esempio: livello di emoglobina in un campione di 20 donne.
Dati elaborati con SPSS
Hb
Min: 96.00000
1st Qu.: 124.75000
Median: 139.50000
3rd Qu.: 163.50000
Max: 171.00000
Total N: 20.00000
NA's : 0.00000 numero di val mancanti
Mean: 141.20000
Std Dev.: 24.01885
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 27
Box plot del livello di emoglobina in un campione di 20 donne.
Dati elaborati con SPSS
100
120
140
160
Hb
Mediana
Quartili
Range
Media
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 28
Rappresentazione grafica di dati definiti da 2 variabili, di cui:
Una variabile quantitativa/numerica
e l’altra nominale / ordinale
Attenzione, alle variabili numeriche possono essere applicati i metodi descrittivi
visti durante la lezione precedente (frequenze, frequenze cumulative, istogrammi)
Questi metodi possono essere usati anche per confrontare diversi gruppi di
soggetti, ad esempio disegnando diversi istogrammi.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 29
Diagramma a punti: è adatto quando il numero di osservazioni in ciascuna categoria non è troppo
grande.
Diagramma a punti. Distribuzione di frequenza di una variabile continua (Concentrazione di Emoglobina), separatamente per i due sottogruppi definiti dalla variabile Menopausa (0= no, 1= si).
0
1
menopausaaa
100
120
140
160
Hb
Singola osservazione
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 30
Rappresentazione grafica di dati definiti da 2 variabili quantitative
SOMMINISTRAZIONE GENERAL HEALTH QUESTIONNAIRE (GHQ)
0
5
10
15
20
25
0 5 10 15 20 25
1° TEST
2° T
EST
r = 0.90 (Coefficiente di regressione, sarà spiegato successivamente)
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 31
Media geometrica e trasformazione logaritmica
Talora la distribuzione dei dati originali è fortemente asimmetrica. Può essere utile (i motivi
saranno approfonditi in seguito) calcolare una funzione dei dati originali tale che la sua
distribuzione sia simmetrica. La funzione usata più comunemente è quella logaritmica.
Il logaritmo della media geometrica corrisponde alla media aritmetica dei logaritmi dei dati,
quindi la media geometrica coincide con l’antilogaritmo della media aritmetica dei logaritmi
dei dati.
MG = (Πxi )1/n
Log(MG)= Σ(logxi)/ n
Attenzione: il logaritmo di 0 e dei numeri negativi è indefinito. Occorre definire il valore da assegnare
alle osservazioni con valore 0 (se ne esistono).
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 32
Media geometrica Distribuzione di frequenza della concentrazione di corpuscoli dell’amianto in 372 casi di tumore
polmonare positivi per la ricerca dei corpuscoli. La distribuzione è marcatamente asimmetrica.
QUENCY
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
CORPUSCO MI DPOI NT
0 250
500
750
1000
1250
1500
1750
2000
2250
2500
2750
3000
3250
3500
3750
4000
4250
4500
4750
5000
5250
5500
5750
6000
6250
6500
6750
7000
7250
7500
7750
8000
8250
8500
8750
9000
9250
9500
9750
10000
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 33
Distribuzione di frequenza del logaritmo della concentrazione di corpuscoli dell’amianto in 372 casi
di tumore polmonare positivi per tale indicatore. La distribuzione è simmetrica.
REQUENCY
0
10
20
30
40
50
L_c MI DPOI NT
0.00
0.25
0.50
0.75
1.00
1.25
1.50
1.75
2.00
2.25
2.50
2.75
3.00
3.25
3.50
3.75
4.00
4.25
4.50
4.75
5.00
5.25
5.50
5.75
6.00
6.25
6.50
6.75
7.00
7.25
7.50
7.75
8.00
8.25
8.50
8.75
9.00
9.25
9.50
9.75
10.00
10.25
10.50
10.75
11.00
11.25
11.50
11.75
12.00
12.25
12.50
12.75
13.00
13.25
13.50
13.75
14.00
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 34
Possiamo calcolare una media partendo da una distribuzione di frequenza?
Colesterolo (mg/ 100 ml) n
80-119 13
120-159 150
160-199 442
200-239 299
240-279 115
280-319 34
320-359 9
360-399 5
Possiamo calcolare un valore medio se possiamo stimare la distribuzione dei soggetti
compresi in ciascuna classe di valori.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 35
Se le classi non sono troppo ampie, è ragionevole pensare che il valor medio in ciascuna
classe si collocato al centro dell’intervallo che la costituisce.
Colesterolo (mg/
100 ml)
Valore centrale
della classe
n
80-119 100 13
120-159 140 150
160-199 180 442
200-239 220 299
240-279 260 115
280-319 300 34
320-359 340 9
360-399 380 5
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 36
Data questa assunzione, si possono considerare gli f soggetti in una data classe come
soggetti con lo stesso valore x della variabile e quindi applicare una semplice estensione
della formula della media.
∑
∑
=
=== n
ii
n
iii
f
xfXMedia
1
1
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 37
Colesterolo Valore x centrale della classe f x * f
80-119 100 13 1300
120-159 140 150 21000
160-199 180 442 79560
200-239 220 299 65780
240-279 260 115 29900
280-319 300 34 10200
320-359 340 9 3060
360-399 380 5 1900
Totale 1067 212700
Media= 212700 / 1067 = 199,3
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 38
Moda
Valore o classe di valori (in questo secondo caso si parla più correttamente di Classe
Modale) che ricorrono con maggior frequenza in una distribuzione.
Possono essere presenti più mode, come nell’esempio seguente.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 39
Metodi statistici descrittivi Riepilogo
Tipo di variabile
Categoriche Numeriche
Nominale Ordinale
Distribuzione di Frequenza SI SI SI
Distrib. di Freq. cumulativa NO SI SI
Diagramma a barre /
Istogramma
SI SI SI
Media NO NO SI
Deviazione standard NO NO SI
Mediana NO NO SI
Percentili NO NO SI
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 40
Esercizi consigliati, tratti da: M.Pagano & K.Gauvreau. Biostatistica (II edizione italiana). ed. Idelson
Gnocchi, Napoli 2003.
1. Svolgere i seguenti esercizi tratti dalle pag.48-51: 1, 2, 3, 4, 6, 7
2. Svolgere l’esercizio 8. Oltre alle domande presenti sul testo disegnate anche:
a. i due box plot (uno per le adolescenti bulimiche l’altro per le adolescenti sane)
b. i due istogrammi (id), da disegnarsi con classi di 5 Kcal/kg, partendo dalla prima classe da15 Kcal/kg.
3. Calcolate la media geometrica e la media dopo trasformazione logaritmica partendo dai dati forniti per l’esercizio
8, limitatamente alle adolescenti bulimiche.
4. Svolgere l’esercizio 14, limitatamente alla media. Oltre alle domande presenti sul testo disegnate anche
l’istogramma che descrive la distribuzione di frequenza.