4_DISPENSA - Indici Di Dispersione_2010-2011

download 4_DISPENSA - Indici Di Dispersione_2010-2011

of 25

Transcript of 4_DISPENSA - Indici Di Dispersione_2010-2011

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    1/25

    I Facolt di Medicina e Chirurgia

    CORSO DI STATISTICA 2Dott. Laura Perrotta

    - Lezione 4 - Gli indici di dispersione -

    A.A. 20010/2011

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    2/25

    INDICI DI DISPERSIONE

    Gli indici di dispersione sono indici che danno una

    misura della variabilit dei termini della distribuzione

    rispetto ad una media.

    Un indice di tendenza centrale non sufficiente, infatti,

    a descrivere completamente un fenomeno.

    Indici di tendenza centrale e indici di dispersione

    devono essere associati per fornire uninformazionecompleta.

    Gli indici di dispersione sono sempre associati ad una

    media per indicare la variabilit intorno ad essa.

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    3/25

    Paziente Sesso Et PA diastolica

    (mmHg)

    PA sistolica

    (mmHg)1 M 50 70 110

    2 F 50 90 95

    3 F 50 80 130

    4 F 50 85 85

    5 M 50 70 95

    Paziente Sesso Et PA diastolica

    (mmHg)

    PA sistolica(mmHg)

    1 M 20 70 110

    2 F 20 90 953 F 50 80 130

    4 F 80 85 85

    5 M 80 70 95

    Tab. 1

    Tab. 2

    ( ) ( ) 50580...20

    Tab.2505

    5050505050

    Tab.11

    =

    ++

    ==

    ++++

    ==

    =

    n

    x

    n

    i

    i

    Non c dispersione rispetto alla variabile et

    C dispersione rispetto alla variabile et

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    4/25

    166,00

    168,00

    170,00

    172,00

    174,00

    176,00

    178,00

    180,00cm

    SARDEGNA

    SICILIA

    CALABRIA

    BASILICATA

    PUGLIA

    CAMPANIA

    MOLISE

    ABRUZZO

    LAZIO

    MARCHE

    UMBRIA

    TOSCANA

    EMILIAROMAGNA

    LIGURIA

    FRIULIVENEZIAGIULIA

    VENETO

    TRENTINOA

    LTOA

    DIGE

    LOMBARDIA

    VALLED'AOSTA

    PIEMONTE

    SARDEGNA

    SICILIA

    CALABRIA

    BASILICATA

    PUGLIA

    CAMPANIA

    MOLISE

    ABRUZZO

    LAZIO

    MARCHE

    UMBRIA

    TOSCANA

    EMILIAROMAGNA

    LIGURIA

    FRIULIVENEZIAGIULIA

    VENETO

    TRENTINOA

    LTOA

    DIGE

    LOMBARDIA

    VALLED'AOSTA

    PIEMONTE

    Media italiana

    Grafico 1 - Stature degli iscritti nelle liste di leva dei nati nellanno 1969

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    5/25

    Indici di tendenza centrale e indici di dispersione si

    completano a vicenda, tenendo per conto del fatto che:

    una media da sola non in grado di esprimere

    compiutamente un fenomeno

    un indice di variabilit da solo perde significato in quanto

    gli viene a mancare il punto di riferimento

    OSSERVAZIONE

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    6/25

    INTERVALLO DI VARIAZIONE

    (o RANGE)

    Lintervallo di variazione la pi elementare misura di

    dispersione riferita ai dati quantitativi ed calcolato come

    differenza tra il valore pi alto e quello pi basso di una serie di dati.

    intervallo di variazione = valore pi alto valore pi basso

    (o Range)

    I due valori estremi (max e min) forniscono lindicazione del dominiodella variabile e indicano un primo approccio descrittivo.

    Limiti: dipende esclusivamente dai valori estremi, ed influenzato dalla

    dimensione del campione stesso.

    Una statistica alternativa la differenza interquatile, cio la differenza

    tra il primo quartile Q1 e il terzo quartile Q3.

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    7/25

    Paziente Sesso Et PA diastolica

    (mmHg)

    PA sistolica(mmHg)

    1 M 20 70 110

    2 F 20 90 95

    3 F 50 80 130

    4 F 80 85 85

    5 M 80 70 95

    Lintervallo di variazione calcolato per la variabile PA diastolica

    il seguente 90 70 = 20

    Min = 70

    Max = 90

    Range = 20

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    8/25

    INDICI DI VARIABILITA ASSOLUTA

    PER MISURE QUANTITATIVE

    SCARTO MEDIO SEMPLICE ASSOLUTO

    DEVIANZA

    VARIANZA

    DEVIAZIONE STANDARD

    Sono gli indicatori statistici di fondamentale importanza per

    la statistica descrittiva

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    9/25

    VARIABILITA COMPLESSIVA

    La variabilit complessiva costituita dallinsieme degliscarti di tutte le misure dalla media.

    Per la propriet delle medie la somma degli scarti dalla media nulla a causa della compensazione tra scarti positivi e

    negativi. Utilizzando lartificio del valore assoluto, possiamo

    considerare lentit dello scarto senza tener conto del segnonegativo.

    La variabilit complessiva data da:

    Nota: calcolare gli N(N-1) / 2 scarti tra tutte le osservazioni diventa troppolaborioso

    || mX

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    10/25

    Se rapportiamo la variabilit complessiva al numero delle

    osservazioni otteniamo lo scarto medio semplice assoluto

    Che costituisce il pi elementare indice di dispersione consignificato statistico, poco considerato per via dellartifizio del

    valore assoluto

    N

    mXi

    i ||

    SCARTO MEDIO SEMPLICE ASSOLUTO

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    11/25

    DEVIANZA

    In alternativa al valore assoluto si ricorre al quadrato degli scarti

    dalla media e si perviene alla formula della devianza:

    Definita come la somma dei quadrati degli scarti dalla media

    (Sum of Square)

    La devianza sempre maggiore o uguale di zero e costituisce ilnumeratore della varianza

    ( )( ) 2

    22

    N

    XXmX

    i i

    i ii i

    =

    ( ) 0XDEV

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    12/25

    Domanda:

    Di fronte a due serie di misure di una stessa variabile con

    medie uguali, ma devianze diverse, la devianza della

    prima serie maggiore perch i suoi dati sono pi

    dispersi o semplicemente perch il numero degli scarti

    pi elevato?

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    13/25

    Paziente Sesso Et PA diastolica

    (mmHg)

    PA sistolica(mmHg)

    1 M 40 70 1102 F 40 90 95

    3 F 50 80 130

    70 M 55 70 95

    ( ) ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( ) 050.15055...50605050

    620.105055...505050405040

    505070

    55...504040

    222

    1

    2

    2222

    1

    2

    21

    =+++=

    =++++=

    ==++++=

    =

    =

    n

    i

    i

    n

    i

    i

    x

    x

    Paziente Sesso Et PA diastolica

    (mmHg)

    PA sistolica

    (mmHg)1 M 50 75 100

    2 F 60 90 95

    3 F 75 88 97

    4 F 40 86 94

    5 M 25 84 95

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    14/25

    VARIANZA

    Definiamo varianza il rapporto tra la devianza e il

    numero delle osservazioni:

    ( )

    N

    mXi i =

    2

    2

    La devianza non contiene linformazione del numero di

    osservazioni N utilizzate nel calcolo

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    15/25

    Paziente Sesso Et PA diastolica

    (mmHg)

    PA sistolica(mmHg)

    1 M 40 70 1102 F 40 90 95

    3 F 50 80 130

    70 M 55 70 95

    Paziente Sesso Et PA diastolica

    (mmHg)

    PA sistolica

    (mmHg)1 M 50 75 100

    2 F 60 90 95

    3 F 75 88 97

    4 F 40 86 94

    5 M 25 84 95

    050.150

    620.1050

    22

    11

    ==

    ==

    dev

    dev

    Var1 = 151,71

    Var2 = 210

    La seconda distribuzione per et presenta una

    maggiore dispersione intorno alla media

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    16/25

    VARIANZA CAMPIONARIA

    In campo biostatistico si preferisce utilizzare la formula dellavarianza campionaria

    Per N molto grande ininfluente ai fini del risultato dellavarianza dividere per N o N-1.

    Per N molto piccolo se dividiamo la devianza per N-1 rispetto

    a N otterremo una varianza campionaria maggiore rispetto aquella semplice.

    Le N-1 osservazioni costituiscono i gradi di libert, cio leosservazioni indipendenti nel calcolo della varianza.

    ( )

    1

    2

    2

    =

    N

    mXS

    i i

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    17/25

    VARIANZA CAMPIONARIAIn campo biostatistico si preferisce utilizzare la formula della varianza

    campionaria

    Per N molto grande ininfluente ai fini del risultato della varianzadividere per N o N-1.

    Per N molto piccolo se dividiamo la devianza per N-1 rispetto a Notterremo una varianza campionaria maggiore rispetto a quellasemplice.

    Le N-1 osservazioni costituiscono i gradi di libert, cio le osservazioniindipendenti nel calcolo della varianza.

    Per semplificare i calcoli si pu utilizzare questa formula:

    ( )

    1

    2

    2

    =

    N

    mXS

    i i

    Corso di Statistica

    ( )

    = n

    xx

    nS

    i

    i

    2

    22

    1

    1

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    18/25

    DEVIAZIONE STANDARD

    La variabilit deve essere associata alla tendenza centrale perfornire una descrizione completa di un fenomeno.

    Il valore della varianza deriva dal quadrato degli scarti dalla mediaed ha un ordine di grandezza differente dal dato originale.

    Per un problema di interpretazione del dato convenienteesprimere la variabilit con lo stesso ordine di grandezza dellemedie: trasformiamo la varianza sotto il segno di radice eotteniamo la

    Deviazione standard o

    scarto quadratico medio

    che rappresenta la dispersione di una serie di dati

    ( )n

    mX

    n

    ii = =1

    2

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    19/25

    INDICE DI VARIABILITA RELATIVA:

    COEFFICIENTE DI VARIAZIONE

    100CV% =

    Il coefficiente di variazione un indice numerico puro

    Che si ottiene mettendo in rapporto la deviazione

    standard con la media. Si esprime come percentuale

    ed adatto a confronti tra situazioni diverse.

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    20/25

    Paziente Sesso Et PA diastolica

    (mmHg)

    PA sistolica (mmHg)

    1 M 50 75 100

    2 F 47 90 95

    3 F 74 88 97

    4 F 40 86 94

    5 M 61 84 95

    Paziente Sesso Et PA diastolica

    (mmHg)

    PA sistolica (mmHg)

    1 M 28 70 110

    2 F 45 90 95

    3 F 50 80 130

    4 F 63 85 85

    5 M 80 75 95

    ( ) ( ) ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( ) ( ) 9,75

    80758085808080908070

    8,55

    6,84846,84866,84886,84906,8475

    805

    75...706,845

    4868889075

    22222

    2

    22222

    1

    2

    1

    21

    1

    =++++=

    =++++

    =

    =

    =++==++++==

    =

    =

    n

    x

    n

    x

    n

    i

    i

    n

    i

    i

    1_Esempio di confronto tra variabilit

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    21/25

    Paziente Sesso Et Glicemia

    (mg/100ml)

    Calcemia

    (mg/100ml)

    1 M 50 85 8

    2 F 37 80 10

    3 F 63 70 9

    4 M 41 90 5

    5 M 36 100 13

    ( ) ( ) ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( ) ( ) 91,25913959991098

    18,115

    851008590857085808585

    9

    5

    135910885

    5

    10090708085

    22222

    2

    22222

    1

    2

    1

    21

    1

    =++++

    =

    =++++

    =

    =

    =++++

    ==++++

    ==

    =

    =

    n

    x

    n

    x

    n

    i

    i

    n

    i

    i

    2_Esempio di confronto tra variabilit

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    22/25

    %39,321009

    91,2100CV%(2)

    %15,1310085

    18,11100CV%(1)

    mg/100ml91,2mg/100ml9Calcemia

    mg/100ml18,11mg/100ml85Glicemia

    2

    2

    1

    1

    22

    11

    ===

    ===

    ==

    ==

    Confrontando i coefficienti di variazione risulta pi variabile

    la calcemia

    Corso di Statistica

    C S

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    23/25

    codice paziente et Posizione et

    1 62 1 30

    2 39 2 39

    3 46 3 46

    4 53 4 46

    5 54 5 47

    6 68 6 52

    7 63 7 53

    8 62 8 54

    9 67 9 57

    10 30 10 60

    11 66 11 61

    12 46 12 62

    13 67 13 62

    14 70 14 62

    15 60 15 63

    16 57 16 66

    17 62 17 67

    18 47 18 67

    19 52 19 68

    20 61 20 70

    1112

    201

    2

    5,602

    6160

    102

    20

    2

    60,5medianaLa-

    6,5620

    70...463930

    56,6aritmeticamediaLa-

    62modaLa-

    1

    =+=+

    =+

    ==

    =++++

    ==

    =

    n

    n

    n

    a

    n

    i

    i

    Corso di Statistica

    C di St ti ti

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    24/25

    codice paziente et Posizione et

    1 62 1 30

    2 39 2 39

    3 46 3 46

    4 53 4 46

    5 54 5 47

    6 68 6 52

    7 63 7 53

    8 62 8 54

    9 67 9 57

    10 30 10 60

    11 66 11 61

    12 46 12 62

    13 67 13 62

    14 70 14 62

    15 60 15 63

    16 57 16 66

    17 62 17 67

    18 47 18 67

    19 52 19 68

    20 61 20 70

    ( )

    ( ) ( ) ( )

    ( ) ( ) ( )

    63,1020

    6,179...8,3096,707

    20

    4,13...6,176,26

    206,5670...6,56396,5630

    10,63st.deviazione40range

    70massimo

    30minimo

    A'VARIABILITDIINDICI

    6,565,60Mediana

    62Moda

    CENTRALETENDENZADIINDICI

    222

    222

    1

    2

    =+++

    =

    =+++

    =

    =+++=

    =

    =

    ==

    =

    =

    ==

    =

    =

    n

    an

    i

    i

    Corso di Statistica

  • 8/8/2019 4_DISPENSA - Indici Di Dispersione_2010-2011

    25/25

    Esercizio

    Nella tabella sono il numero di battiti cardiaci al

    minuto di un gruppo di studenti

    66, 57, 65, 84, 48 56, 76, 73, 75, 76,, 6, 69, 70, 70,

    71, 85, 68. Calcolare il range, la distribuzione di frequenze

    relative, usndo classi di ampiezza pari a 25; la moda, i

    quartili, la mediana, il coefficiente di variazione dei

    primi 3 studenti.