STATISTICA MEDICA - med.unipg.it Didattico... · gli indici di variabilità (o dispersione) Vedremo...

31
STATISTICA MEDICA Prof.ssa Donatella Siepi [email protected] tel: 075 5853525 UNIVERSITA’ DEGLI STUDI DI PERUGIA 05 dicembre 2014

Transcript of STATISTICA MEDICA - med.unipg.it Didattico... · gli indici di variabilità (o dispersione) Vedremo...

STATISTICA MEDICA

Prof.ssa Donatella Siepi

[email protected]

tel: 075 5853525

UNIVERSITA’ DEGLI

STUDI DI PERUGIA

05 dicembre 2014

6° LEZIONE

Statistica descrittiva

C

Rilevazione dei dati Rappresentazione dei dati Elaborazione dei dati

STATISTICA DESCRITTIVA

piano tabelle grafici Medie e indici di

variabilitàA

D

E

B

C

A

D

E

B

Indici Statistici

Per sintetizzare i dati ed evidenziare una

certa caratteristica:

• Indici di tendenza centrale

• Indici di dispersione

• La forma

5

• Campo di variazione (Range)

• Scarto medio dalla media

• Varianza e scarto quadratico medio

• Coefficiente di variazione

In statistica è possibile valutare in modo

sintetico la distribuzione dei dati mediante

gli indici di variabilità (o dispersione)

Vedremo i seguenti indici

6

Scarto medio dalla media aritmetica

Un modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze

Scarto medio = Distanza media dei dati dalla

media

n

xxxxxx n

.....S medio Scarto

21

m

7

Esempio

Consideriamo le valutazioni di una prova

1a Prova

1° studente 3

2° studente 5

3° studente 8

4° studente 9

media 6,25

x1 = 3 – 6,25 = 3,25; x2 = 5 – 6,25 = 1,25;

x3 = 8 – 6,25 = 1,75; x4 = 9 – 6,25 = 2,75;

Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25

4

8

Calcoliamo lo Scarto medio per tutte le tre prove

Scarto 1a prova = 2,25 dati più dispersi,

risultati più eterogenei

Scarto 3a prova = 0,38 dati più concentrati, risultati più omogenei

Scarto 2a pr. Scarto 1a pr.

“Le Distribuzioni Differiscono”

1a Prova 2a Prova 3a Prova

1° studente 3 2 6

2° studente 5 7 7

3° studente 8 8 6

4° studente 9 8 6

media 6,25 6,25 6,25

scarto medio 2,25 2,13 0,38

9

• Campo di variazione (Range)

• Scarto medio dalla media

• Varianza e scarto quadratico medio

• Coefficiente di variazione

In statistica è possibile valutare in modo

sintetico la distribuzione dei dati mediante

gli indici di variabilità (o dispersione)

Vedremo i seguenti indici

10

Varianza e Scarto quadratico medio

Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati.

Varianza

Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M

n

xxxxxx n

22

2

2

12 ..... Varianza

11

n

x

n

xxn

i

n

i

1

2

1

2

Varianza

12

Esempio - Varianza

Consideriamo le valutazioni della prima prova

1a Prova

1° studente 3

2° studente 5

3° studente 8

4° studente 9

media 6,25

(x1)2 = (3 – 6,25 )2 = 10,5625; (x2)

2 = (5 – 6,25 )2 = 1,5625;

(x3)2 = (8 – 6,25 )2 = 3,0625; (x4)

2 = (9 – 6,25 )2 = 7,5625;

2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875

4

13

Calcoliamo la Varianza per tutte le tre prove

Varianza 1aprova = 5,69 dati più dispersi,

risultati più eterogenei

Varianza 3a prova = 0,19 dati più concentrati, risultati più omogenei

Varianza 2a pr. Varianza 1a pr

“Le Distribuzioni Differiscono”

1a Prova 2a Prova 3a Prova

1° studente 3 2 6

2° studente 5 7 7

3° studente 8 8 6

4° studente 9 8 6

media 6,25 6,25 6,25

varianza 5,69 6,19 0,19

Varianza

La varianza di una popolazione (1), il

cui simbolo è σ2 , è ottenuta

dividendo la devianza per n, il

numero di osservazioni.

La varianza di un campione (2), il cui

simbolo è s2 , è ottenuta dividendo la

devianza per n-1, il

numero di gradi di libertà.

La varianza o Quadrato Medio è una devianza media o

devianza rapportata al numero di osservazioni.

15

Scarto quadratico medio o Deviazione

standard

È uguale alla radice quadrata della varianza

n

x

n

xxn

i

n

i

1

2

1

2

medioquadr Scarto

n

xxxxxx n

22

2

2

1 ..... medio quadr. Scarto

16

Esempio - Scarto quadratico medio

Riprendiamo le valutazioni della prima prova

1a Prova scarti da M scarti2

1° studente 3 -3,25 10,5625

2° studente 5 -1,25 1,5625

3° studente 8 1,75 3,0625

4° studente 9 2,75 7,5625

media 6,25 0,00 5,6875

3848,26875,521

2

n

xn

i

17

Calcoliamo lo Scarto quadratico medio per tutte le

prove

Scarto q. 1aprova = 2,38 dati più dispersi,

risultati più eterogenei

Scarto q. 3aprova = 0,43 dati più concentrati, risultati più omogenei

Scarto q. 2a pr. Scarto q. 1a pr

“Le Distribuzioni Differiscono”

1a Prova 2a Prova 3a Prova

1° studente 3 2 6

2° studente 5 7 7

3° studente 8 8 6

4° studente 9 8 6

media 6,25 6,25 6,25

scarto quadratico 2,38 2,49 0,43

18

Osservazioni:

1. La varianza 2 e lo scarto quadratico medio

danno

informazioni sulla distribuzione dei dati:

• più 2 e sono piccoli più i dati sono

concentrati;

• più 2 e sono grandi più i dati sono dispersi.

2. Entrambi gli indici tengono conto di tutti i dati delladistribuzione

19

3. Entrambi si basano sulla proprietà della media per

cui la somma dei quadrati degli scarti dalla media è

minima

4. La varianza è espressa mediante il quadrato

dell’unità di misura dei dati

5. Lo scarto quadratico nella stessa unità di misura

dei dati e pertanto viene preferito alla varianza

20

• Campo di variazione (Range)

• Scarto medio dalla media

• Varianza e scarto quadratico medio

• Coefficiente di variazione

In statistica è possibile valutare in modo

sintetico la distribuzione dei dati mediante

gli indici di variabilità (o dispersione)

Vedremo i seguenti indici

La DS è la stima di variabilità di un campione

(molto utile quando le medie dei due campioni

sono simili)

Non consente di confrontare la variabilità di

campioni le cui medie sono sensibilmente

differenti

In questo caso si usa il

COEFFICIENTE di VARIAZIONE

Coefficiente di variazione

Il coefficiente di variazione (coefficient of

variation oppure coefficient of variability) è

una misura relativa di dispersione, mentre le

precedenti erano tutte misure assolute.

Permette di valutare la dispersione dei valori attorno alla media indipendentemente dall'unità di misura. Ad esempio, la deviazione standard di un campione di redditi espressi in Lire è completamente diversa della deviazione standard degli stessi redditi espressi in Euro, mentre il coefficiente di dispersione è lo stesso in entrambi i casi.

23

Il coefficiente di variazione CV

Il CV è una misura relativa di dispersione (le precedenti

sono misure assolute) ed è una grandezza adimensionale.

E’ particolarmente utile quando si devono confrontare le

distribuzioni di due gruppi con medie molto diverse o con

dati espressi in scale differenti (es. confronto tra variazione

del peso e variazione dell’altezza).

%100

xCV

È rappresentato dalla DS/m * 100

Il valore che ne deriva è una quantità priva di Dimensione è un rapporto, mentre la DS è espressanelle stesse Unità delle osservazioni originali. Il CV permette quindi il confronto di grandezze diverse.

Coefficiente di variazione (CV) odeviazione standard relativa

Il Coefficiente di Variazione (CV oppure

semplicemente con V in molti testi recenti) misura la

dispersione percentuale in rapporto alla media.

Per una popolazione:

dove

− σ = deviazione standard della popolazione

− μ = media della popolazione

Per un campione

dove

- s = deviazione standard del campione

- X = media del campione

26

Calcoliamo il Coeff. di variazione tre prove

CV 1a prova = 38,16% dati più dispersi,

risultati più eterogenei

CV 3a prova = 6,93% dati più concentrati, risultati più omogenei

CV 2a pr. CV 1a pr “Le Distribuzioni Differiscono”

1a Prova 2a Prova 3a Prova

1° studente 3 2 6

2° studente 5 7 7

3° studente 8 8 6

4° studente 9 8 6

media 6,25 6,25 6,25

scarto quadratico 2,38 2,49 0,43

coeff. variazione 38,16% 39,80% 6,93%

In natura, il coefficiente di variazione tende

ad essere costante per ogni fenomeno, con

valori che abitualmente oscillano tra il 5% e il

15%.

Valori esterni a questo intervallo possono fare

sorgere il sospetto di essere in presenza di un

errore di rilevazione o di calcolo; si tratta

comunque di situazioni non usuali che

occorrerebbe spiegare, individuandone la

causa.

•Se il materiale biologico in esame ha un CV troppo

basso (2-3 %), si può sospettare l'esistenza di un

fattore limitante che abbassa notevolmente od elimina

la variabilità, come la presenza di omogeneità

genetica congiunta ad una situazione ambientale

uniforme.

•Un CV molto alto (50%) è indice della presenza di

condizioni anomale o molto differenti per più fattori.

Per l'uomo, il coefficiente di variazione dell’altezza è

stato calcolato tra il 40% e il 45%, testimoniando

l'esistenza nella specie di grandi differenze, dovute sia

a cause genetiche che ambientali (alimentazione,

condizioni sanitarie, ecc.).

ERRORE STANDARD DELLA MEDIA (SEM)

La media e la DS calcolate da un campione sono stime

della media e della DS dell'intera popolazione dalla quale il

campione e' tratto.

Per quantificare in termini probabilistici l'accuratezza di

queste stime, possiamo calcolare i loro SE (sia della media

che della DS).

Il SEM (DS/√n) quantifica il grado di certezza col quale la

media calcolata da un campione casuale stima la vera media

della popolazione da cui il campione e' tratto.

ERRORE STANDARD DELLA MEDIA (SEM)

Pertanto la DS e il SEM misurano 2 aspetti decisamente diversi: • la DS descrive la variabilita' della popolazione,• il SEM descrive l'incertezza nella stima della media.

La media vera della popolazione originale cade ad una distanza dalla media campionaria inferiore a 2 SEM in circa il 95% dei possibili campioni.

E' bene sottolineare ancora come l'errore standard (e quindi la precisione della stima di ) dipende sia dalla variabilità della misura, sia dal numero di repliche che effettuiamo; più precisamente, l'errore standard aumenta all'aumentare della deviazione standard e diminuisce all'aumentare del numero delle ripetizioni, annullandosi quando questo tende ad infinito.