4_DISPENSA - Indici Di Dispersione_2010-2011
Transcript of 4_DISPENSA - Indici Di Dispersione_2010-2011
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
1/25
I Facolt di Medicina e Chirurgia
CORSO DI STATISTICA 2Dott. Laura Perrotta
- Lezione 4 - Gli indici di dispersione -
A.A. 20010/2011
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
2/25
INDICI DI DISPERSIONE
Gli indici di dispersione sono indici che danno una
misura della variabilit dei termini della distribuzione
rispetto ad una media.
Un indice di tendenza centrale non sufficiente, infatti,
a descrivere completamente un fenomeno.
Indici di tendenza centrale e indici di dispersione
devono essere associati per fornire uninformazionecompleta.
Gli indici di dispersione sono sempre associati ad una
media per indicare la variabilit intorno ad essa.
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
3/25
Paziente Sesso Et PA diastolica
(mmHg)
PA sistolica
(mmHg)1 M 50 70 110
2 F 50 90 95
3 F 50 80 130
4 F 50 85 85
5 M 50 70 95
Paziente Sesso Et PA diastolica
(mmHg)
PA sistolica(mmHg)
1 M 20 70 110
2 F 20 90 953 F 50 80 130
4 F 80 85 85
5 M 80 70 95
Tab. 1
Tab. 2
( ) ( ) 50580...20
Tab.2505
5050505050
Tab.11
=
++
==
++++
==
=
n
x
n
i
i
Non c dispersione rispetto alla variabile et
C dispersione rispetto alla variabile et
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
4/25
166,00
168,00
170,00
172,00
174,00
176,00
178,00
180,00cm
SARDEGNA
SICILIA
CALABRIA
BASILICATA
PUGLIA
CAMPANIA
MOLISE
ABRUZZO
LAZIO
MARCHE
UMBRIA
TOSCANA
EMILIAROMAGNA
LIGURIA
FRIULIVENEZIAGIULIA
VENETO
TRENTINOA
LTOA
DIGE
LOMBARDIA
VALLED'AOSTA
PIEMONTE
SARDEGNA
SICILIA
CALABRIA
BASILICATA
PUGLIA
CAMPANIA
MOLISE
ABRUZZO
LAZIO
MARCHE
UMBRIA
TOSCANA
EMILIAROMAGNA
LIGURIA
FRIULIVENEZIAGIULIA
VENETO
TRENTINOA
LTOA
DIGE
LOMBARDIA
VALLED'AOSTA
PIEMONTE
Media italiana
Grafico 1 - Stature degli iscritti nelle liste di leva dei nati nellanno 1969
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
5/25
Indici di tendenza centrale e indici di dispersione si
completano a vicenda, tenendo per conto del fatto che:
una media da sola non in grado di esprimere
compiutamente un fenomeno
un indice di variabilit da solo perde significato in quanto
gli viene a mancare il punto di riferimento
OSSERVAZIONE
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
6/25
INTERVALLO DI VARIAZIONE
(o RANGE)
Lintervallo di variazione la pi elementare misura di
dispersione riferita ai dati quantitativi ed calcolato come
differenza tra il valore pi alto e quello pi basso di una serie di dati.
intervallo di variazione = valore pi alto valore pi basso
(o Range)
I due valori estremi (max e min) forniscono lindicazione del dominiodella variabile e indicano un primo approccio descrittivo.
Limiti: dipende esclusivamente dai valori estremi, ed influenzato dalla
dimensione del campione stesso.
Una statistica alternativa la differenza interquatile, cio la differenza
tra il primo quartile Q1 e il terzo quartile Q3.
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
7/25
Paziente Sesso Et PA diastolica
(mmHg)
PA sistolica(mmHg)
1 M 20 70 110
2 F 20 90 95
3 F 50 80 130
4 F 80 85 85
5 M 80 70 95
Lintervallo di variazione calcolato per la variabile PA diastolica
il seguente 90 70 = 20
Min = 70
Max = 90
Range = 20
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
8/25
INDICI DI VARIABILITA ASSOLUTA
PER MISURE QUANTITATIVE
SCARTO MEDIO SEMPLICE ASSOLUTO
DEVIANZA
VARIANZA
DEVIAZIONE STANDARD
Sono gli indicatori statistici di fondamentale importanza per
la statistica descrittiva
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
9/25
VARIABILITA COMPLESSIVA
La variabilit complessiva costituita dallinsieme degliscarti di tutte le misure dalla media.
Per la propriet delle medie la somma degli scarti dalla media nulla a causa della compensazione tra scarti positivi e
negativi. Utilizzando lartificio del valore assoluto, possiamo
considerare lentit dello scarto senza tener conto del segnonegativo.
La variabilit complessiva data da:
Nota: calcolare gli N(N-1) / 2 scarti tra tutte le osservazioni diventa troppolaborioso
|| mX
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
10/25
Se rapportiamo la variabilit complessiva al numero delle
osservazioni otteniamo lo scarto medio semplice assoluto
Che costituisce il pi elementare indice di dispersione consignificato statistico, poco considerato per via dellartifizio del
valore assoluto
N
mXi
i ||
SCARTO MEDIO SEMPLICE ASSOLUTO
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
11/25
DEVIANZA
In alternativa al valore assoluto si ricorre al quadrato degli scarti
dalla media e si perviene alla formula della devianza:
Definita come la somma dei quadrati degli scarti dalla media
(Sum of Square)
La devianza sempre maggiore o uguale di zero e costituisce ilnumeratore della varianza
( )( ) 2
22
N
XXmX
i i
i ii i
=
( ) 0XDEV
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
12/25
Domanda:
Di fronte a due serie di misure di una stessa variabile con
medie uguali, ma devianze diverse, la devianza della
prima serie maggiore perch i suoi dati sono pi
dispersi o semplicemente perch il numero degli scarti
pi elevato?
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
13/25
Paziente Sesso Et PA diastolica
(mmHg)
PA sistolica(mmHg)
1 M 40 70 1102 F 40 90 95
3 F 50 80 130
70 M 55 70 95
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) 050.15055...50605050
620.105055...505050405040
505070
55...504040
222
1
2
2222
1
2
21
=+++=
=++++=
==++++=
=
=
n
i
i
n
i
i
x
x
Paziente Sesso Et PA diastolica
(mmHg)
PA sistolica
(mmHg)1 M 50 75 100
2 F 60 90 95
3 F 75 88 97
4 F 40 86 94
5 M 25 84 95
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
14/25
VARIANZA
Definiamo varianza il rapporto tra la devianza e il
numero delle osservazioni:
( )
N
mXi i =
2
2
La devianza non contiene linformazione del numero di
osservazioni N utilizzate nel calcolo
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
15/25
Paziente Sesso Et PA diastolica
(mmHg)
PA sistolica(mmHg)
1 M 40 70 1102 F 40 90 95
3 F 50 80 130
70 M 55 70 95
Paziente Sesso Et PA diastolica
(mmHg)
PA sistolica
(mmHg)1 M 50 75 100
2 F 60 90 95
3 F 75 88 97
4 F 40 86 94
5 M 25 84 95
050.150
620.1050
22
11
==
==
dev
dev
Var1 = 151,71
Var2 = 210
La seconda distribuzione per et presenta una
maggiore dispersione intorno alla media
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
16/25
VARIANZA CAMPIONARIA
In campo biostatistico si preferisce utilizzare la formula dellavarianza campionaria
Per N molto grande ininfluente ai fini del risultato dellavarianza dividere per N o N-1.
Per N molto piccolo se dividiamo la devianza per N-1 rispetto
a N otterremo una varianza campionaria maggiore rispetto aquella semplice.
Le N-1 osservazioni costituiscono i gradi di libert, cio leosservazioni indipendenti nel calcolo della varianza.
( )
1
2
2
=
N
mXS
i i
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
17/25
VARIANZA CAMPIONARIAIn campo biostatistico si preferisce utilizzare la formula della varianza
campionaria
Per N molto grande ininfluente ai fini del risultato della varianzadividere per N o N-1.
Per N molto piccolo se dividiamo la devianza per N-1 rispetto a Notterremo una varianza campionaria maggiore rispetto a quellasemplice.
Le N-1 osservazioni costituiscono i gradi di libert, cio le osservazioniindipendenti nel calcolo della varianza.
Per semplificare i calcoli si pu utilizzare questa formula:
( )
1
2
2
=
N
mXS
i i
Corso di Statistica
( )
= n
xx
nS
i
i
2
22
1
1
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
18/25
DEVIAZIONE STANDARD
La variabilit deve essere associata alla tendenza centrale perfornire una descrizione completa di un fenomeno.
Il valore della varianza deriva dal quadrato degli scarti dalla mediaed ha un ordine di grandezza differente dal dato originale.
Per un problema di interpretazione del dato convenienteesprimere la variabilit con lo stesso ordine di grandezza dellemedie: trasformiamo la varianza sotto il segno di radice eotteniamo la
Deviazione standard o
scarto quadratico medio
che rappresenta la dispersione di una serie di dati
( )n
mX
n
ii = =1
2
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
19/25
INDICE DI VARIABILITA RELATIVA:
COEFFICIENTE DI VARIAZIONE
100CV% =
Il coefficiente di variazione un indice numerico puro
Che si ottiene mettendo in rapporto la deviazione
standard con la media. Si esprime come percentuale
ed adatto a confronti tra situazioni diverse.
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
20/25
Paziente Sesso Et PA diastolica
(mmHg)
PA sistolica (mmHg)
1 M 50 75 100
2 F 47 90 95
3 F 74 88 97
4 F 40 86 94
5 M 61 84 95
Paziente Sesso Et PA diastolica
(mmHg)
PA sistolica (mmHg)
1 M 28 70 110
2 F 45 90 95
3 F 50 80 130
4 F 63 85 85
5 M 80 75 95
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) 9,75
80758085808080908070
8,55
6,84846,84866,84886,84906,8475
805
75...706,845
4868889075
22222
2
22222
1
2
1
21
1
=++++=
=++++
=
=
=++==++++==
=
=
n
x
n
x
n
i
i
n
i
i
1_Esempio di confronto tra variabilit
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
21/25
Paziente Sesso Et Glicemia
(mg/100ml)
Calcemia
(mg/100ml)
1 M 50 85 8
2 F 37 80 10
3 F 63 70 9
4 M 41 90 5
5 M 36 100 13
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) 91,25913959991098
18,115
851008590857085808585
9
5
135910885
5
10090708085
22222
2
22222
1
2
1
21
1
=++++
=
=++++
=
=
=++++
==++++
==
=
=
n
x
n
x
n
i
i
n
i
i
2_Esempio di confronto tra variabilit
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
22/25
%39,321009
91,2100CV%(2)
%15,1310085
18,11100CV%(1)
mg/100ml91,2mg/100ml9Calcemia
mg/100ml18,11mg/100ml85Glicemia
2
2
1
1
22
11
===
===
==
==
Confrontando i coefficienti di variazione risulta pi variabile
la calcemia
Corso di Statistica
C S
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
23/25
codice paziente et Posizione et
1 62 1 30
2 39 2 39
3 46 3 46
4 53 4 46
5 54 5 47
6 68 6 52
7 63 7 53
8 62 8 54
9 67 9 57
10 30 10 60
11 66 11 61
12 46 12 62
13 67 13 62
14 70 14 62
15 60 15 63
16 57 16 66
17 62 17 67
18 47 18 67
19 52 19 68
20 61 20 70
1112
201
2
5,602
6160
102
20
2
60,5medianaLa-
6,5620
70...463930
56,6aritmeticamediaLa-
62modaLa-
1
=+=+
=+
==
=++++
==
=
n
n
n
a
n
i
i
Corso di Statistica
C di St ti ti
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
24/25
codice paziente et Posizione et
1 62 1 30
2 39 2 39
3 46 3 46
4 53 4 46
5 54 5 47
6 68 6 52
7 63 7 53
8 62 8 54
9 67 9 57
10 30 10 60
11 66 11 61
12 46 12 62
13 67 13 62
14 70 14 62
15 60 15 63
16 57 16 66
17 62 17 67
18 47 18 67
19 52 19 68
20 61 20 70
( )
( ) ( ) ( )
( ) ( ) ( )
63,1020
6,179...8,3096,707
20
4,13...6,176,26
206,5670...6,56396,5630
10,63st.deviazione40range
70massimo
30minimo
A'VARIABILITDIINDICI
6,565,60Mediana
62Moda
CENTRALETENDENZADIINDICI
222
222
1
2
=+++
=
=+++
=
=+++=
=
=
==
=
=
==
=
=
n
an
i
i
Corso di Statistica
-
8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011
25/25
Esercizio
Nella tabella sono il numero di battiti cardiaci al
minuto di un gruppo di studenti
66, 57, 65, 84, 48 56, 76, 73, 75, 76,, 6, 69, 70, 70,
71, 85, 68. Calcolare il range, la distribuzione di frequenze
relative, usndo classi di ampiezza pari a 25; la moda, i
quartili, la mediana, il coefficiente di variazione dei
primi 3 studenti.