La relazione tra studiata per mezzo di Regressione · 2010. 10. 25. · Croma 2.0 1250 29366 Fonte:...

26
Statistica 2010/2011 1 Regressione Cicchitelli Cap. 10 Statistica 2010/2011 2 Modelli statistici La relazione tra variabili può essere studiata per mezzo di ‘modelli statistici’ 1 variabile (es. peso) Quanto ci si discosta da un valore ‘tipico’ 2 variabili (peso-altezza) Quanto ci si discosta da una relazione sistematica peso modello altezza peso 74 76 78 80 82 84 86 88 177 178 179 180 181 182 183 184 185 186 modello Esempio: le automobili si vendono a peso? PACE L. e SALVAN A., 1996, Introduzione alla Statistica - I Statistica Descrittiva, CEDAM, Padova Autovettura PESO PREZZO (kg) (mil lire) Cinquecento 700 ED 690 9697 Panda 1.0 i.e. L. 715 11071 Uno Fire 1.0 i.e 3P 770 13041 Tipo 1.4 i.e. 990 17580 Tempra 1.4 e.e. 1040 20549 Croma 2.0 1250 29366 Fonte: Gente Motori, febbraio 1993 Peso e prezzo dei modelli base della FIAT, marzo 1993 0 5000 10000 15000 20000 25000 30000 35000 500 600 700 800 900 1000 1100 1200 130 PESO PREZZO 3 Esempio: le automobili si vendono a peso? Autovettura PESO PREZZO (kg) (mil lire) Cinquecento 700 ED 690 9697 Panda 1.0 i.e. L. 715 11071 Uno Fire 1.0 i.e 3P 770 13041 Tipo 1.4 i.e. 990 17580 Tempra 1.4 e.e. 1040 20549 Croma 2.0 1250 29366 prezzo=a+b*(peso-500)+errore parte sistematica scostamento dovuto ad altri ‘fattori’ 0 5000 10000 15000 20000 25000 30000 35000 500 600 700 800 900 1000 1100 1200 1300 PESO PREZZO costi fissi a b errore Statistica 2010/2011 4

Transcript of La relazione tra studiata per mezzo di Regressione · 2010. 10. 25. · Croma 2.0 1250 29366 Fonte:...

  • Statistica 2010/2011 1

    Regressione

    Cicchitelli Cap. 10

    Statistica 2010/2011 2

    Modelli statistici

    La relazione tra variabili può essere

    studiata per mezzo di ‘modelli statistici’

    1 variabile (es. peso)Quanto ci si discosta da un valore ‘tipico’

    2 variabili (peso-altezza)Quanto ci si discosta da

    una relazione sistematica

    peso

    modello

    altezza

    peso

    74

    76

    78

    80

    82

    84

    86

    88

    177 178 179 180 181 182 183 184 185 186

    modello

    Esempio: le automobili si vendono a peso?

    PACE L. e SALVAN A., 1996, Introduzione alla Statistica - I Statistica Descrittiva, CEDAM, Padova

    Autovettura PESO PREZZO (kg) (mil lire)

    Cinquecento 700 ED 690 9697Panda 1.0 i.e. L. 715 11071Uno Fire 1.0 i.e 3P 770 13041Tipo 1.4 i.e. 990 17580Tempra 1.4 e.e. 1040 20549Croma 2.0 1250 29366 Fonte: Gente Motori, febbraio 1993

    Peso e prezzo dei modelli base della FIAT, marzo 1993

    0

    5000

    10000

    15000

    20000

    25000

    30000

    35000

    500 600 700 800 900 1000 1100 1200 130

    PESO

    PREZ

    ZO

    3

    Esempio: le automobili si vendono a peso?

    Autovettura PESO PREZZO (kg) (mil lire)

    Cinquecento 700 ED 690 9697Panda 1.0 i.e. L. 715 11071Uno Fire 1.0 i.e 3P 770 13041Tipo 1.4 i.e. 990 17580Tempra 1.4 e.e. 1040 20549Croma 2.0 1250 29366

    prezzo=a+b*(peso-500)+errore

    parte sistematicascostamento dovuto ad altri ‘fattori’

    0

    5000

    10000

    15000

    20000

    25000

    30000

    35000

    500 600 700 800 900 1000 1100 1200 1300

    PESO

    PREZ

    ZO

    costi fissi ab

    errore

    Statistica 2010/2011 4

  • Sintesi tramite funzioni analitiche

    La relazione tra due variabili numeriche può essere sintetizzata con una funzione matematica (retta, parabola, logaritmo …)La retta è la funzione più semplice da adattare ai dati e da interpretare

    Levine, Krehbiel, Berenson - Statistica II ed.© 2006 Apogeo 5

    Esempio di relazione lineare crescente

    β0 è l’intercetta, cioè il punto in cui la retta interseca l’asse di Y (valore di Y quando X=0)

    β1 è la pendenza o coefficiente angolare o rapporto incrementale (variazione in Y quando X aumenta di 1)

    1YX

    β Δ=Δ

    Equazione della retta: Y = β0+β1X

    Statistica 2010/2011 6

    Statistica 2010/2011 7

    Regressione lineare semplice

    REGRESSIONE: metodo per studiare come una variabile di risposta (detta anche variabile dipendente) Y dipende da una o più variabili esplicative (dette anche variabili indipendenti o regressori)

    In uno studio sui fattori che influenzano la spesa annuale per consumi di una famiglia, la variabile di risposta è la spesa annuale per consumi, mentre le variabili esplicative sono il reddito annuale complessivo, il tipo di lavoro svolto dal capofamiglia, il numero di componenti della famiglia, …

    Statistica 2010/2011 8

    Regressione lineare semplice

    SEMPLICE: è il caso in cui vi è una sola variabile esplicativa si tratta di un metodo bivariato perché riguarda due variabili: una variabile di risposta Y e una variabile esplicativa XLINEARE: si assume che, nella popolazione, la relazione tra la variabile di risposta Y e la variabile esplicativa X sia di tipo lineare (= una retta); più precisamente, si assume che per ogni valore x appartenente al range di X il valor medio di Y condizionatamente a x, M(Y |X=x), sia una funzione lineare di x

    La regressione lineare semplice è un metodo per studiare la dipendenza di una variabile quantitativa Y da una variabile X che può essere sia quantitativa che qualitativa (anche se in questo corso trattiamo solo il caso di X quantitativa); quando la risposta Y è qualitativa occorrono modelli di regressione di altro tipo

  • Statistica 2010/2011 9

    Regressione lineare semplice

    0 1y xβ β ε= + +Variabile dipendente (risposta)

    Variabile indipendente (esplicativa)

    Parte sistematica

    (segnale)

    Parte accidentale

    (rumore)

    Questo modello ipotizza che la risposta y sia generata dalla somma di

    • una parte sistematica (che è funzione lineare di x)

    • una parte accidentale (che è puramente casuale e quindi non dipende da x)Statistica 2010/2011 10

    Regressione lineare semplice

    L’ipotesi fondamentale del modello è che l’effetto di X sulla media di Y sia completamente catturato dalla parte sistematica; in altri termini, che la media della parte accidentale non dipenda da X

    In alternativa

    0 1( | )M Y X x x xβ β= = + ∀

    ( | ) 0M X x xε = = ∀

    Statistica 2010/2011 11

    Regressione lineare semplice

    Il modello assume che la relazione che lega la media di Y condizionata a X sia una funzione lineare di X (per i valori x appartenenti al range)

    Y = “spesa per consumi” e X = “reddito”

    ad ogni valore del reddito x appartenente al rangecorrisponde un insieme di famiglie con una certa distribuzione della spesa per consumi e quindi con una certa spesa media per consumi M(Y | X=x). La teoria economica (supportata dall’evidenza empirica) sostiene che al crescere del reddito cresce la spesa per consumi, cioè M(Y | X=x) è funzione crescente di x; se si usa la regressione lineare semplice si assume che tale funzione sia lineare

    Statistica 2010/2011 12

    Interpretazione della pendenza

    Supponiamo che X assuma un certo valore x* in corrispondenza del quale la media condizionata di Y è

    Supponiamo poi che X aumenti di 1 e quindi assuma il valore x*+1, in corrispondenza del quale la media condizionata di Y è

    Sottraendo si ottiene

    Pertanto β1 è la variazione della media condizionata di Y conseguente all’aumento di 1 di x, qualunque sia il valore x* di partenza

    * *0 1( | )M Y X x xβ β= = +

    * *0 1( | 1) ( 1)M Y X x xβ β= + = + +

    * *1( | 1) ( | )M Y X x M Y X x β= + − = =

  • Statistica 2010/2011 13

    Interpretazione della pendenza

    L’interpretazione di β1 dipende dall’unità di misura delle due variabiliSe X è l’altezza in cm e Y è il peso in kg allora β1 è espresso in kg/cm perché rappresenta la variazione in kgdel peso quando l’altezza aumenta di 1 cm

    Statistica 2010/2011 14

    Dal modello ai dati

    1 1

    i i

    n n

    y x

    y x

    y x

    ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

    M M

    M M

    1,2, ,i n= K

    Popolazione o campione di n unità statistiche

    Unità statistiche

    variabili

    0 1i i iY xβ β ε= + +

    Si aggiunge l’indice i

    Determinare la retta di regressione:

    il metodo dei minimi quadrati

    Statistica 2010/2011 15 Statistica 2010/2011 16

    Dati e retta di regressione stimata

    0 1

    retta stimataˆi iy b b x= +

    .

    ..

    .

    . ..

    ..

    ..

    . ... .

    .

    xix

    ie

    y

    0 1b b x+

    ˆiy

    iy

    0 0

    1 1

    stimabb

    ββ

    ⇒⇒

    dati

  • Statistica 2010/2011 17

    Retta di regressione stimata

    In termini geometrici: dato un diagramma di dispersione (che rappresenta n osservazioni della coppia di variabili in esame), qual è la retta che si adatta meglio ai punti, che passa più “vicina” all’insieme dei punti?

    In termini algebrici: come si calcolano l’intercetta b0 e la pendenza b1 della retta di regressione stimata in modo che l’errore di previsione che si commette con la retta sia il più piccolo possibile?

    Statistica 2010/2011 18

    Retta di regressione stimata

    Occorre stabilire una misura di distanza tra retta e insieme di punti (punto di vista geometrico)errore di previsione complessivo (punto di vista algebrico)

    I valori x sono considerati quantità date per cui il problema della previsione riguarda i valori y

    Il criterio più usato per definire la distanza tra retta e insieme di punti o per definire l’errore di previsione complessivo è quello della somma dei quadrati degli errori (di previsione)

    0 1

    valore di per l'unità ˆ valore di per l'unità

    ˆ errore di previsione (scarto)

    i

    i i

    i i i

    y osservato Y iy b b x previsto Y ie y y

    =

    = + == − =

    2 2

    1 1

    ˆ( )n n

    i i ii i

    e y y= =

    = −∑ ∑

    Statistica 2010/2011 19

    Minimi Quadrati (MQ)

    La retta che rende minimo l’errore di previsione quadratico è chiamata retta dei minimi quadratiLe rette del piano sono infinite, ognuna individuata in modo univoco da una coppia di valori (intercetta, pendenza): determinare la retta dei minimi quadrati significa determinare la coppia di valori (intercetta, pendenza) per cui la somma dei quadrati degli errori è minimaDa un punto di vista matematico si tratta di un problema di minimizzazione di una funzione in due variabili; per fortuna, la soluzione è unica ed è esprimibile con due semplici formule

    Retta di MQ

    11 2

    2

    1

    0 1

    ( )( )( , )( )( )

    n

    i iiXY XY

    nX X

    ii

    x x y yC Cov X YbD Var Xx x

    b y b x

    σσ

    =

    =

    − −= = = =

    = −

    Per determinare i coefficienti della retta di MQ occorrono quattro indici: media di Y, media di X, devianza di X, codevianza tra X e Y

    0 1ŷ b b x= +

    CXY è detta CODEVIANZA, σXY è detta COVARIANZA

    Statistica 2010/2011 20

  • Statistica 2010/2011 21

    Esempio: come crescono i bambini? /1

    Il ritmo di crescita varia da bambino a bambino, possiamo capire meglio il modello generale di crescita osservando come varia nel tempo l’altezza media di un gruppo di bambini

    età (mesi) altezza media (cm)18 76.119 77.020 78.121 78.222 78.823 79.724 79.925 81.126 81.227 81.828 82.829 83.5

    Altezza media per mese di 161 bambini

    Es. tratto da Moore (2005) Statistica 2010/2011 22

    Esempio: come crescono i bambini? /2

    I punti sono quasi allineati una linea retta che passa tra i punti descrive bene il legame tra X e Y

    75.0

    76.0

    77.0

    78.0

    79.0

    80.0

    81.0

    82.0

    83.0

    84.0

    16 18 20 22 24 26 28 30 3

    età (mesi)

    alte

    zza

    (cm

    )

    X=Età (variabile esplicativa)

    Y=Altezza media (variabile dipendente)

    Scatterplot dell’altezza media di 161 bambini per età

    Statistica 2010/2011 23

    Esempio: come crescono i bambini? /3

    1

    0 1

    ( , )( )

    Cov X YbVar X

    b y b x

    =

    = −

    Nel nostro esempio:M(x)=23.5 mesi, M(y)=79.85Var(x)=11.52, Cov(x,y)=7.57

    b1=7.57/11.52=0.635b0=79.85-23.5*0.635=64.93

    I coefficienti della retta di MQ sono

    Statistica 2010/2011 24

    Esempio: come crescono i bambini? /4

    Retta di MQ: altezza=64.93+0.635*età

    b1=0.635 pendenza: l’altezza dei bambini cresce ogni mese in media di 0.6 cm la pendenza della retta è il tasso di variazione Y al variare di X

    75.0

    76.0

    77.0

    78.0

    79.0

    80.0

    81.0

    82.0

    83.0

    84.0

    16 18 20 22 24 26 28 30 3

    età (mesi)

    alte

    zza

    (cm

    )

    b0=64.93 cm intercetta: altezza media alla nascita (età=0)

  • Alcune proprietà delle stime di MQ

    11 0 1

    2

    1

    ( )( )

    ( )

    n

    i iiXY

    nX

    ii

    x x y yCb b y b xD x x

    =

    =

    − −= = = −

    Statistica 2010/2011 25

    ( )0 1 1 1ˆ

    ˆ:x x y yInfatti y b b x y b x b x y= ⇒ =

    = + = − + =

    ( )1

    :

    0

    ˆ ˆ 0

    n

    ii

    i i i i ii i i iInfatti

    e

    e y y y y=

    =

    = − = − =

    ∑ ∑ ∑ ∑

    La retta dei MQ passa per il baricentro

    La somma dei residui è nulla

    Alcune proprietà dei MQ

    Statistica 2010/2011 26

    ( ) ( )( )( )

    0 1 1 1

    1

    ˆ(da cui segue )ˆ

    ˆ:i ii i

    i i ii i i

    i ii i i

    y yy y

    Infatti y b b x y b x b x

    y b x x y

    ==

    = + = − +

    = + − =

    ∑ ∑∑ ∑ ∑∑ ∑ ∑

    11 0 1

    2

    1

    ( )( )

    ( )

    n

    i iiXY

    nX

    ii

    x x y yCb b y b xD x x

    =

    =

    − −= = = −

    La somma dei valori stimati è uguale alla somma dei valori osservati

    Statistica 2010/2011 27

    Traslazione

    Consideriamo una traslazione a della x

    0 1

    0 1

    0 1 1

    ( ' )( ) '

    ay x

    ax

    x

    β β εβ β εβ β β ε

    = + +

    = + − +

    = − + +Pendenza invariata

    Caso speciale: , cioè ' Pendenza invariata Nuova intercetta ben interpretabile:

    è il valore previsto di quando

    x x x x

    y

    a

    x x

    = − = −→→

    =

    ' 'ax x ax x= + ⇔ = −

    Statistica 2010/2011 28

    Cambiamento di scala

    0 1

    0 1

    0 1

    ' '

    ' '

    y x

    yy y

    x

    y x

    y xd d

    dy d x d

    d

    β β ε

    β β ε

    β β ε

    = + +

    ⎛ ⎞= + +⎜ ⎟

    ⎝ ⎠

    ⎛ ⎞= + +⎜ ⎟

    ⎝ ⎠

    ' 'x yx d x y d y= =

    • espansione della scala y (dy > 1) aumenta pendenza

    • espansione della scala x (dx > 1) diminuisce pendenza

  • Interpolazione

    ed

    estrapolazione

    Statistica 2010/2011 29 Statistica 2010/2011 30

    Interpolazione

    Possiamo utilizzare la retta di regressione per prevedere il valore di Y per un dato valore di X non osservato, ma interno al range di X (nell’esempio 18-29 mesi).

    Altezza media dei bambini per x=20.5 mesi:

    altezza=64.93+0.635*20.5=77.95 cm

    Statistica 2010/2011 31

    Estrapolazione

    Possiamo utilizzare la retta di regressione per prevedereil valore di Y per un dato valore di X esterno al suo range (nell’esempio 18-29 mesi).

    Altezza media dei bambini per x=32 mesi:

    altezza=64.93+0.635*32=85.25 cm

    L’accuratezza dell’estrapolazione dipende da:• quanto la retta si adatta bene ai dati• quanto il valore di X è lontano dai valori osservatiEsempioX=0 è un valore esterno lontano intercetta potrebbe

    non essere una buona previsione dell’altezza alla nascitaStatistica 2010/2011 32

    Esempio del tempo TV: dati

    I dati riportati nella tabella seguente si riferiscono all’età in anni(X) e al tempo in minuti passato davanti alla televisione nell’ultima settimana (Y) per un campione di 6 soggetti:

    Età Tempo TV X Y

    34 430 42 365 55 620 59 580 61 800 63 780

    Somma 314 3575 Media 52.3 595.8

    2

    1

    1

    ( ) 683.333

    ( )( ) 9118.333

    n

    iin

    i ii

    x x

    x x y y

    =

    =

    − =

    − − =

  • Esempio del tempo TV: retta di regressione

    Diagramma di dispersione e retta di regressione

    0100200300400500600700800900

    0 10 20 30 40 50 60 70età (X)

    tem

    po T

    V (Y

    )

    11

    2

    1

    ( )( )9118.333 13.344683.333( )

    n

    i ii

    n

    ii

    x x y yb

    x x

    =

    =

    − −= = =

    0 1 595.8 13.344 52.3 102.498b y b x= − = − × = −

    ˆ 102.498 13.344y x= − +

    Statistica 2010/2011 33 Statistica 2010/2011 34

    Esempio del tempo TV: interpretazione

    La pendenza b1 = 13.3 è la variazione media del tempo TV settimanale in minuti corrispondente ad un aumento di 1 anno dell’età

    Poiché la pendenza è positiva all’aumentare dell’età tende ad aumentare il tempo TV:

    1 anno in più aumento medio di 13.3 minuti per settimana2 anni in più aumento medio di 26.6 minuti per settimana10 anni in più aumento medio di 133 minuti per settimana1 anno in meno riduzione media di 13.3 minuti per settimana … ecc.

    L’intercetta b0 = –102.5 è il tempo TV settimanale previsto per un soggetto di età zero (x=0)

    In questa applicazione l’intercetta non è interpretabile perché non ha senso chiedersi qual è il valore previsto del tempo TV per un neonato!

    L’intercetta è un caso speciale di valore previsto (è il valore previsto di Yquando x=0)

    Esempio del tempo TV: previsioniLa retta di regressione può essere usata per calcolare il valore previsto di Y in corrispondenza di un qualunque valore di X, sia un valore osservato nel campione che un valore non osservatoUsando la retta di regressione precedentesi ottengono, ad esempio, i seguenti valori previsti (arrotondati all’intero)

    ˆ 102.498 13.344y x= − +

    x-10 -236

    0 -10220 16430 29855 63160 69870 832

    100 1232500 6570

    ŷ La retta, come funzione matematica, è definita sull’intero asse dei reali e quindi qualsiasi valore x di X può essere usato per fare la previsione di Y

    Tuttavia non tutti i valori di x hanno senso nel contesto applicativo: nell’esempio del tempo TV x è l’età e quindi non può essere negativa, ma non ha senso nemmeno prendere in considerazione valori di x vicini a 0 (perché i neonati non guardano la TV) e valori di x oltre 100 (perché gli esseri umani raramente superano tale età)

    Statistica 2010/2011 35 Statistica 2010/2011 36

    Interpolazione vs estrapolazione

    In ogni applicazione si può determinare a priori (cioè indipendentemente dai dati effettivamente rilevati) un intervallo di valori di x che ha senso prendere in considerazione

    nell’esempio del tempo TV l’intervallo di x che ha senso considerare va grosso modo da 3 a 100 anni

    A posteriori, alla luce dei dati effettivamente rilevati, l’intervallo di valori di x che è opportuno utilizzare per prevedere la Y non dovrebbe essere molto più ampio del cosiddetto intervallo rilevante, cioè l’intervallo di valori assunti dalla variabile esplicativa X nel campione osservato

    nell’esempio del tempo TV l’intervallo rilevante va da 34 a 63 anni

  • Statistica 2010/2011 37

    Interpolazione vs estrapolazione

    Interpolazione: prevedere Y in corrispondenza di un valore xinterno all’intervallo rilevante (come la previsione di 398 per x=60)Estrapolazione: prevedere Y in corrispondenza di un valore x esterno all’intervallo rilevante (come la previsione di 164 per x=20 o la previsione di 832 per x=70)Le estrapolazioni vanno evitate o, per lo meno, limitate a valori x appena fuori dall’intervallo rilevante.

    Infatti la retta di regressione è stata determinata usando i valori xdell’intervallo rilevante e non vi è alcun modo di sapere come la retta si modificherebbe aggiungendo valori x esterni all’intervallo rilevante; facendo estrapolazioni si assume implicitamente che aggiungendo valori x esterni la retta rimarrebbe sostanzialmente invariata, ma tale ipotesi non è verificabile ed è tanto meno plausibile quanto più i punti considerati sono lontani dall’intervallo rilevante

    I pericoli dell’estrapolazione

    Diagramma di dispersione e retta di regressione

    0100200300400500600700800900

    0 10 20 30 40 50 60 70

    età (X)

    tem

    po T

    V (Y

    )

    Intervallo rilevante

    La linea rossa rappresenta una possibile relazione tra Y e X nella popolazione, mentre la retta nera è la retta di regressione determinata con i dati campionari, in cui l’intervallo rilevante è [34,63]

    Statistica 2010/2011 38

    Bontà di adattamento della retta di regressione:

    il coefficiente di determinazione r2

    Statistica 2010/2011 39

    Misure di variabilità nella regressioneDY (Devianza totale di Y): misura la variabilità dei valori Yosservati attorno alla loro media

    DSL (Devianza di Y Spiegata della regressione Lineare su X): misura la variabilità dei valori Y previsti attorno alla loro media (la quale, per una proprietà del metodo dei minimi quadrati, coincide con la media dei valori osservati)

    DRL (Devianza di Y Residua rispetto alla regressione Lineare su X): misura la variabilità degli errori di regressione attorno alla loro media

    2

    1( )

    n

    Y ii

    D y y=

    = −∑

    2 2

    1 1

    ˆ ˆ ˆ( ) ( )n n

    SL i ii i

    D y y y y= =

    = − = −∑ ∑

    2 2 2

    1 1 1

    ˆ( ) ( )n n n

    RL i i i ii i i

    D e e e y y= = =

    = − = = −∑ ∑ ∑Statistica 2010/2011 40

  • Misure di variabilità nella regressione

    2

    1( )

    n

    Y ii

    D y y=

    = −∑2

    1

    ˆ( )n

    SL ii

    D y y=

    = −∑

    2

    1

    ˆ( )n

    RL i ii

    D y y=

    = −∑

    Statistica 2010/2011 41 Statistica 2010/2011 42

    Misure di variabilità nella regressione

    Con alcuni passaggi algebrici si dimostra che

    Pertanto la regressione lineare semplice opera una scomposizione della variabilità totale di Y in due parti, interpretabili come

    DSL: variabilità di Y spiegata da X (più precisamente: variabilità di Y dovuta alla relazione lineare con X )DRL: variabilità residuale di Y (cioè non dovuta alla relazione lineare con X)

    Y SL RLD D D= +

    Statistica 2010/2011 43

    Regressione: spiegare la variabilità

    La regressione può essere vista come un metodo per spiegare la variabilità di una variabile (Y) tramite la relazione lineare con un’altra variabile (X)

    La spesa per consumi (Y) varia molto da famiglia a famiglia e può essere misurata da SST (che è il numeratore della varianza).

    D: perché le famiglie hanno consumi diversi? R: i motivi sono molti, uno è perché le famiglie hanno redditi diversi e il consumo cresce al crescere del reddito.

    D: quanto è importante il ruolo del reddito nello spiegare la variabilità dei consumi delle famiglie? R: assumendo una relazione lineare tra consumi e reddito, la risposta è fornita dalla scomposizione di SST nelle due parti SSR (variabilità dei consumi spiegata dalla relazione lineare con il reddito) e SSE(variabilità residuale dei consumi)

    Coefficiente di determinazione r2

    Poiché DSL≥0 e DSL≤DY segue che r2 ∈[0,1]. Dunque r2 è un indice normalizzato: per ogni insieme di dati r2 ha valore min 0 e max 1Il coefficiente di determinazione misura la bontà di adattamentodella retta di regressione; infatti per la scomposizione di DY, r2 si può scrivere anche

    La retta di regressione si adatta ai dati tanto meglio quanto più piccola è la somma dei quadrati degli errori, DRL, ovvero quanto più grande è il coefficiente di determinazione r2 (ma r2 è più facilmente interpretabile perché è un indice normalizzato)

    2 SL

    Y

    DrD

    =

    2 1 RLY

    DrD

    = −

    Il coefficiente di determinazione è la proporzione di variabilità totale di Yspiegata dalla relazione lineare con X:

    Statistica 2010/2011 44

  • Statistica 2010/2011 45

    Coefficiente di determinazione r2

    Misurare la bontà di adattamento è cruciale per l’interpretazione e l’utilizzo dei risultati della regressioneLa retta di regressione è la retta che meglio si adatta ai dati, quella che minimizza l’errore di previsione complessivo (definito dalla somma dei quadrati degli errori); Tuttavia la migliore retta potrebbe comunque fare un pessimo lavoro, cioè la regressione lineare potrebbe spiegare solo una piccola parte della variabilità di Y ( enormi errori diprevisione)Quando il coefficiente di determinazione r2 è piccolo l’adattamento della retta è scarso e quindi la regressione lineare è uno strumento inutile

    Statistica 2010/2011 46

    Coefficiente di determinazione r2

    Il metro di giudizio sul valore assunto da r2 dipende dal contesto applicativo: in alcuni campi r2 è solitamente su valori tra 0.15 e 0.30, in altri campi (ad es. serie temporali) r2 è spesso intorno a 0.90 non si può dire in generale quale sia la soglia al di sotto della quale r2 debba ritenersi insoddisfacenteCaso limite r2=1: accade quando DRL=0, il che significa che tutti gli errori di previsione sono nulli e quindi tutti i punti del diagramma di dispersione giacciono sulla retta di regressione (che può avere qualunque pendenza, positiva o negativa)Caso limite r2=0: accade quando DSL=0, il che significa che i valori previsti sono tutti uguali a e quindi la retta di regressione è orizzontale (ha pendenza nulla)

    ˆiy y

    Statistica 2010/2011 47

    Calcolo di r2

    Per calcolare r2 occorre calcolare DY e, a scelta, uno dei due termini della scomposizione della devianzaLa via più veloce è quella di calcolare DSL perché

    Pertanto r2 si può scrivere anche

    ( ) ( )2 20 1 0 11 1

    2 2 2 21 1 1

    1 1

    ˆ ( ) ( )

    ( ) ( ) ( ) ( )

    n n

    SL i ii in n

    i i Xi i

    D y y b b x b b x

    b x x b x x b D

    = =

    = =

    = − = + − +

    = − = − =

    ∑ ∑

    ∑ ∑

    2

    2 22 1( )

    XYX

    XSL X XY

    Y Y Y X Y

    C DDD b D Cr

    D D D D D

    ⎛ ⎞⎜ ⎟⎝ ⎠= = = =

    Questo è il quadrato del coefficiente di correlazione lineare(vedi più avanti)

    Statistica 2010/2011 48

    Calcolo di r2

    Nell’esempio del tempo TV si ha DY = 157220.833 DX = 683.333 b1 = 13.344.

    Pertanto, DSL = (13.344)2 × 683.333 = 121675.870

    2 121675.870 0.7739157220.833

    SL

    Y

    DrD

    = = =Il 77.39% della variabilità del tempo TV è spiegata dalla relazione lineare con l’età

  • Statistica 2010/2011 49

    Errore medio di previsione

    La radice quadrata della varianza residua è interpretabile come l’errore medio che si commette prevedendo Y tramite il modello di regressione lineare su X

    Nell’esempio del tempo TV

    2

    1

    1 ˆ( )n

    RLRL i i

    i

    D y yn n

    σ=

    = = −∑

    157220.833 121675.87 35544.963

    35544.963 76.969 (minuti)6

    RL

    RL

    D

    σ

    = − =

    = =

    Statistica 2010/2011 50

    La simmetria di r2

    Guadiamo l’indice di determinazione nella forma

    L’indice è simmetrico: rimane invariato cambiando l’ordine di X e Y cioè invertendo il ruolo di X e Y nella regressione: la regressione di Y su X e la regressione di X su Y producono lo stesso coeff. di determinazione, cioè hanno la stessa bontà di adattamentoDunque i risultati della regressione non forniscono alcuna indicazione in merito alla scelta di quale variabile usare come risposta e quale come esplicativa: tale scelta è necessariamente basata sulla conoscenza a priori di quale è la causa (= l’esplicativa) e quale l’effetto (la risposta); in mancanza di tale conoscenza la scelta è effettuata arbitrariamente dall’analista in base al punto di vista che vuole privilegiare

    22 XY

    X Y

    CrD D

    =

    Regressione e relazioni causa-effetto

    Statistica 2010/2011 51 Statistica 2010/2011 52

    Relazioni causa-effetto

    Si può affermare che X è la causa e Y l’effetto?La domanda è rilevante sia da un punto di vista teorico (come funziona il mondo?) che praticoInfatti, se si interviene nel sistema fissando la X ad un valore arbitrario, in presenza di una pura relazione causa-effetto la Y risponde assumendo il valore medio previsto dal modello, altrimenti ha un comportamento imprevedibile

  • Statistica 2010/2011 53

    Relazioni causa-effetto: esempio

    Sia X la spesa annuale in pubblicità e Y l’ammontare annuale di venditeLa pendenza stimata usando i dati degli ultimi anni è 1.2, cioè ogni euro in più di spesa in pubblicità è associato a 1.2 euro in più di vendite: se l’anno prossimo l’azienda aumenta la spesa in pubblicità di 100000 euro si deve attendere un aumento delle vendite di 120000 euro (e viceversa se riduce la spesa)Queste previsioni sono attendibili? No!

    In realtà l’ammontare delle vendite dipende solo in parte dalla pubblicità, perché è fortemente influenzato da fattori come il ciclo economicoInoltre è pure possibile una relazione inversa, cioè che la spesa in pubblicità sia influenzata dall’andamento delle vendite (se le vendite aumentano si rendono disponibili risorse aggiuntive che possono essere destinate alla pubblicità)

    Statistica 2010/2011 54

    Relazioni causa-effetto e regressione

    Il modello di regressione può evidenziare un’associazione tra X e Y ma non consente di dire niente sulla relazione causa-effetto

    Ad es. non vi è alcun criterio statistico per preferire (1) la regressione del consumo sul reddito piuttosto che (2) la regressione del reddito sul consumo (ricorda: entrambe le regressioni hanno lo stesso r2): è la teoria economica che suggerisce di usare la versione (1), in quanto asserisce che il reddito influenza il consumo e non viceversa

    Tuttavia per certe finalità può essere utile specificare la regressione in modo contrario alla relazione causa-effetto: nell’esempio precedente la versione (2) potrebbe essere specificata dall’Agenzia delle Entrate qualora disponga di dati sui consumi dei contribuenti e voglia usarli per inferire il loro reddito

    Statistica 2010/2011 55

    Relazioni causa-effetto e regressione

    Date due variabili, i due possibili modi di specificare il modello di regressione (scambiando i ruoli di risposta ed esplicativa) sono solo due punti di vista alternativi: scegliere un punto di vista o l’altro ovviamente non modifica la realtà, semplicemente si traggono impressioni diverse dello stesso fenomeno

    è come assistere ad un incontro di calcio dalla tribuna o dalla curva: ciò non modifica l’incontro, anche se si ottengono impressioni diverse

    Statistica 2010/2011 56

    Tipi di relazioni causa-effetto

    Z1 Z2Assenza di relazione

    Z1 Z2Z1 causa Z2

    Z1 Z2Z2 causa Z1

    Z1 Z2Z1 causa Z2 e viceversa

    Date due variabili osservate Z1 e Z2 le possibili relazioni causali sono:

  • Statistica 2010/2011 57

    Relazioni causa-effetto e variabili nascoste

    L’unico modo affidabile di stabilire una relazione causa-effetto consiste nel raccogliere i dati tramite un esperimento controllato (assegnare a caso le unità statistiche ai diversi valori di X, poi osservare la Y)Al di fuori dei dati sperimentali, vi è sempre un pericolo in agguato: la relazione tra Z1 e Z2 potrebbe essere in tutto o in parte dovuta ad una variabile non osservata, o comunque non inclusa nell’analisi Z0 (variabile nascosta)

    Z1 Z2Associazione tra Z1 e Z2interamente dovuta a Z0

    Z0Esempio. In una applicazione su bambini di diverse età: Z1 = lunghezza del piede; Z2 = numero di vocaboli conosciuti; Z0 = età. La regressione del numero di vocaboli sulla lunghezza del piede dà luogo ad una pendenza positiva significativa, ma ovviamente tra le due variabili non vi è alcuna relazione causa-effetto

    Statistica 2010/2011 58

    Relazioni causa-effetto e variabili nascoste

    Z1 Z2

    Z0

    Associazione tra Z1 e Z2in parte dovuta a Z0

    La regressione della capacità respiratoria sul numero di sigari dà luogo ad una pendenza significativa (di segno negativo: cioè all’aumentare del numero di sigari la capacità polmonare tende a diminuire). Tuttavia, entrambe le variabili sono associate all’età: negli anziani è maggiore la frequenza sia di coloro che fumano il sigaro, sia di coloro che hanno scarsa capacità polmonare. Gli studi epidemiologici hanno dimostrato che il fumo (anche quello di sigaro) riduce la capacità polmonare, cioè esiste una relazione causa-effetto: tuttavia, se nell’analisi si ignora che i soggetti hanno diverse età, risulta un’associazione più forte di quanto è realmente (la pendenza della retta di regressione è “troppo” negativa perché incorpora anche l’effetto dell’età). Una semplice soluzione è di eseguire l’analisi di regressione separatamente per fasce di età.

    Esempio. In una applicazione su adulti di diverse età:

    Z1 = numero di sigari fumati al giorno

    Z2 = capacità respiratoria

    Z0 = età

    www.

    caus

    eweb

    .org

    59

    Analisi dei residui

    Punti influenti

    Variabili nascoste

    Statistica 2010/2011 60

  • Statistica 2010/2011 61

    Analisi dei residui

    r2 non sempre è sufficiente a verificare la bontà di adattamento del modello

    Plot dei residui vs valori previsti:La relazione tra X e Y è lineare?La variabilità di Y resta costante al variare di X?Sono presenti valori anomali nei dati?

    iii yye ˆ−= residui

    Statistica 2010/2011 62

    Residui disposti casualmente

    Statistica 2010/2011 63

    Analisi dei residui: relazione non lineare Esempio: relazione non lineare

    x y6.10 87.495.91 83.591.79 11.712.37 18.641.66 9.875.21 67.964.04 42.311.95 12.753.64 33.632.94 23.535.38 68.192.34 17.602.55 17.900.91 4.543.96 41.09

    Y*=-20.25+16.64X

    r2=0.9716

    Analisi dei residui: relazione quadratica tra X e Y?

    Statistica 2010/2011 64

  • Statistica 2010/2011 65

    Esempio: relazione non lineare (segue)

    Y*=1.49+1.79X+2.03X2

    r2=0.9986

    Analisi dei residui:andamento casuale

    Statistica 2010/2011 66

    Analisi dei residui: varianza di Y non costante

    Statistica 2010/2011 67

    Osservazioni particolari

    OUTLIER: osservazione con residuo elevato (valore anomalo di Y rispetto alla previsione)LEVERAGE (punto di leva): valore anomalo della variabile indipendente (X)

    PUNTI INFLUENTI: osservazioni con comportamento anomalo che influenzano

    notevolmente i risultati

    Non tutti gli outlier e i leverage sono necessariamente punti influenti

    Statistica 2010/2011 68

    Esempio: outlier (residui grandi)

    x y-0.73 -1.57-0.24 2.690.41 2.671.51 -1.942.46 12.542.71 13.472.93 14.143.10 14.893.37 15.033.55 15.404.12 19.464.26 18.464.62 20.766.00 1.957.92 34.29

    Y*=2.11+3.27X

    r2=0.5731

    Valori anomali!!

  • Statistica 2010/2011 69

    Esempio: outlier (residui grandi) /segue

    Y*=2.06+4.04X

    r2=0.9925

    Migliore adattamento del modello!!

    Cancelliamo i valori anomali e ristimiamo il modello …

    Statistica 2010/2011 70

    Valori anomali e osservazioni influenti

    Un valore anomalo è un’osservazione che sta “lontana” dalle altre osservazioni. I punti che presentano un valore anomalo per Y (outlier) hanno residui alti, ma i punti con valori anomali in X (leverage) non necessariamente presentano residui alti!

    Un’osservazione è influente se la sua rimozione comporta un cambiamento notevole nelle stime dei parametri e/o in r2. Punti con valori anomali in X sono spesso influenti!

    Statistica 2010/2011 71

    Esempio: parola e abilità

    x y15 9526 7110 839 9115 10220 8718 9311 1008 10420 947 113

    x y 9 9610 8311 8411 10210 10012 10542 5717 12111 8610 100

    Per 21 bambini si conosce l’età, in mesi X, in cui è stata pronunciata la prima parola e il punteggio ad un test di abilità Y (Moore e McCabe)

    Y*=109.87-1.127X

    r2=0.41

    n.19 Y grande!

    n.18: x grande!

    L’età in cui un bimbo inizia a parlare è un buon previsore del punteggio ad un successivo test di abilità mentali?

    Statistica 2010/2011 72

    Esempio: parola e abilità /segue

    Il bambino n.18inizia a parlare molto più tardi degli altri: per la sua posizione estrema (leverage) questo punto ha una forte influenzasulla posizione della retta di regressione!

    Attenzione: non tutti i valori anomali sono influenti!!

    outlier

    leverage

  • Statistica 2010/2011 73

    Esempio: parola e abilità /segue

    y = 105.6299 - 0.779221*xr2= 0.11 La relazione tra X

    e Y è debole! Prima sembrava alta a causa della sola osservazione n. 18! Servono più dati per capire meglio la relazione studiata!

    Cosa succede se cancelliamo l’osservazione n.18?

    www.

    caus

    eweb

    .org

    74

    Statistica 2010/2011 75

    Esempio: cambiamento strutturale

    anno x y1990 4595 73641991 4827 75471992 4427 70991993 4258 68941994 3995 65721995 4330 71561996 4265 72321997 4351 7450

    Il dipartimento di matematica di una grande università deve pianificare il numero di corsi elementari richiesti.X = studenti iscritti al primo annoY = studenti che scelgono il corso di matematica

    Y*=2492.69+1.066X

    r2=0.694

    Esempio: cambiamento strutturale \segue

    I residui mostrano un andamento differenziato:da cosa dipende?

    Andamento per anno: dal 1995 una % più elevata di studenti sceglie il corso di matematica. È questo cambiamento che spiega l’andamento osservato nei residui! I dati antecedenti il 1995 non possono essere usati per previsioni

    Statistica 2010/2011 76

  • Statistica 2010/2011 77

    Variabili nascoste: esempio #1

    Per le nazioni del mondo rileviamoX = numero di apparecchi TV per 1000 abitanti Y = speranza di vita alla nascita

    La regressione di Y su X fornisce un coefficiente angolare positivo e un elevato indice di determinazione Possiamo allungare la vita del popolo del Rwanda inviando loro delle TV? NO!Le nazioni più ricche hanno più TV di quelle povere e hanno anche una speranza di vita più elevata perché hanno una migliore alimentazione, acqua potabile e cure mediche.Non c’è un rapporto di causa effetto tra TV e speranza di vita!!

    Statistica 2010/2011 78

    Variabili nascoste: esempio #2

    Uno studio sulle condizioni di salute nella città di Hull (GB) ha misurato per i quartieri più poveri della città

    X = indice di sovraffollamento Y = indice di mancanza di servizi igienici

    Poiché X e Y sono entrambe misure di abitazioni inadeguate ci aspettiamo una forte relazione; invece la regressione produce r2=0.006. Come è possibile?Ulteriori indagini hanno mostrato che in alcuni dei quartieri più poveri c’è una prevalenza di case pubbliche, con servizi igienici, mentre in altri non è cosìLa relazione tra X e Y è diversa in questi due tipi di quartiere analizzare tutti i quartieri insieme oscura la relazione tra X e Y.

    Statistica 2010/2011 79

    Variabili nascoste: esempio #3

    Y su X | Z=0 r2 = 0.79Y su X | Z=1 r2 = 0.41

    Y su X | tutti r2 = 0.12

    La rappresentazione grafica è importante per capire il legame tra X e Y nei sottogruppi individuati da Z!

    Z=0

    Z=1

    Due gruppi formati da una variabile categorica

    Modello statistico: costruzione e uso

    Teorizzazione fenomeno

    Individuazione variabiliesplicative

    Formulazione o identificazione modello

    Uso dei dati per la stima del modello

    verifica modello

    Utilizzo del modello

    Uso del modello:•Descrizione delle relazioni

    • Inferenza (conoscenza del processo generatore dei dati)

    • Previsione dei valori della variabile di risposta

    Statistica 2010/2011 80

  • Statistica 2010/2011 81

    Correlazione

    Cicchitelli Cap. 11

    Statistica 2010/2011 82

    Covarianza /1

    Consideriamo due variabili quantitative, ad es. SPESE (X) e RENDIMENTO (Y) nel 2003 per 9 fondi comuni Esiste una associazione tra SPESE e RENDIMENTO ?Ovvero: al crescere delle spese il rendimento tende a crescere, tende a calare o nessuna delle due?

    0.0

    10.0

    20.0

    30.0

    40.0

    50.0

    60.0

    70.0

    0.00 0.50 1.00 1.50 2.00

    Spese (X)

    Ren

    dim

    ento

    (Y)

    Spese Rendim.

    1.25 37.3

    0.72 39.2

    1.57 44.2

    1.40 44.5

    1.33 53.8

    1.61 56.6

    1.68 59.3

    1.42 62.4

    1.20 66.5

    Statistica 2010/2011 83

    Covarianza /2

    Sia per le SPESE (X) che per il RENDIMENTO (Y) posso calcolare separatamente media e deviazione std

    μX=1.353 e σX= 0.271

    μY= 51.533 e σY= 9.951

    Ma questi indici non dicono nulla sulla associazione tra X e Y

    Per questo fine serve un indice calcolato congiuntamente, come la covarianza

    Covarianza /3

    0.0

    10.0

    20.0

    30.0

    40.0

    50.0

    60.0

    70.0

    0.00 0.50 1.00 1.50 2.00

    Spese (X)

    Ren

    dim

    ento

    (Y)

    + +

    − − + −

    − +

    Y

    X

    + + e − − concordanti

    + − e − + discordanti

    Statistica 2010/2011 84

  • Statistica 2010/2011 85

    Covarianza /4

    Le osservazioni (Xi, Yi) con valori concordantihanno scarti dalla media con lo stesso segno (+ + o − −) e quindi il prodotto degli scarti ha segno positivoLe osservazioni (Xi, Yi) con valori discordantihanno scarti dalla media con segno opposto (+ −o − +) e quindi il prodotto degli scarti ha segno negativoPer ottenere un indice di associazione basta sommare i prodotti degli scarti e vedere se il risultato è positivo (prevalgono i concordanti) o negativo (prevalgono i discordanti)

    Statistica 2010/2011 86

    Covarianza /5

    Se positiva al crescere di X, Y tende a crescere(notare l’uso della parola tende: infatti, se una unità sta sopra alla media per X è probabile che vi stia anche per Y, ma non è detto)Se negativa al crescere di X, Y tende a diminuireSe nulla non vi è nessuna tendenza

    1

    1( , ) ( )( )N

    XY i X i Yi

    Cov X Y x yN

    σ μ μ=

    = = − −∑

    Statistica 2010/2011 87

    Calcolo della covarianza

    spese (X) rendim (Y) X-M(X) Y-M(Y) prodotto1.25 37.3 -0.103 -14.233 1.4660.72 39.2 -0.633 -12.333 7.8071.57 44.2 0.217 -7.333 -1.5911.40 44.5 0.047 -7.033 -0.3311.33 53.8 -0.023 2.267 -0.0521.61 56.6 0.257 5.067 1.3021.68 59.3 0.327 7.767 2.5401.42 62.4 0.067 10.867 0.7281.20 66.5 -0.153 14.967 -2.290

    9.579Covarianza 9.579 / 9 = 1.064

    1.353 51.533

    Statistica 2010/2011 88

    Coefficiente di correlazione lineare /1

    I valori minimo e massimo assumibili dalla covarianza dipendono dai dati in esame non si può dire se un valore (come il 1.064 dell’esempio) sia da considerarsi grande o piccoloPer questo si trasforma la covarianza in modo che abbia sempre lo stesso minimo (−1) e massimo (+1)

    Nell’esempio ρXY = 1.064 / (0.271 × 9.951) = 0.395

    XYXY

    X Y

    σρσ σ

    =

  • Statistica 2010/2011 89

    Coefficiente di correlazione lineare /2

    Media del prodotto delle variabili standardizzate:

    Simmetrico: ρ rimane invariato se le due variabili sono scambiate

    Numero puro: ρ non ha unità di misura (es. X altezza in cm, Ypeso in kg SXY è in cm×kg, SX è in cm, SY è in kg, e quindi rXYè un numero puro)

    Invariante per trasformazioni lineari: ρ rimane invariato se le variabili vengono linearmente trasformate (traslazione e/o moltiplicazione per una costante) (es. X temperatura in gradi Celsius, Y raccolto in quintali, ρ non cambia se si esprime la temperatura in gradi Fahrenheit e il raccolto in tonnellate)

    1

    1i i

    i ix y

    X Yi i

    NX Y

    XY x yi

    x yz zz z

    Nμ μ

    σ σρ

    =

    − −= == ∑

    Statistica 2010/2011 90

    Coefficiente di correlazione lineare /3

    rXY >0 X e Y correlate positivamenterXY

  • Statistica 2010/2011 93

    Correlazione e linearità /1

    L’indice rXY fa una sintesi di tutte le osservazioni, ma nei dati vi potrebbero essere andamenti molto diversi

    In questo es. vi sono due sottoinsiemi, uno con correlazione negativa e l’altro con correlazione positiva. Nel complesso la correlazione è positiva (r = 0.612)

    Statistica 2010/2011 94

    Correlazione e linearità /2

    Il termine “lineare” è spesso sottinteso, ma è importante: infatti rXYmisura l’associazione di tipo lineare (e non parabolico, esponenziale o altro)

    rXY = −1 o +1 significa che vi è relazione lineare perfettarXY = 0 significa che, nel complesso, vi è assenza di relazione

    lineare, ma vi potrebbe essere una relazione non lineare, anche forte!

    In questo es. vi è una relazione di tipo parabolico, con due sottoinsiemi. Nel complesso la correlazione è quasi nulla (r = -0.001)

    Statistica 2010/2011 95

    Correlazione e causalità /1

    Se due variabili X e Y sono correlate signfica che tendono a muoversi insieme (in modo concorde se r >0 o discorde se r

  • Statistica 2010/2011 97

    Correlazione e causalità /3

    Le serie temporali spesso danno luogo a forti correlazioni spurie perché vi sono andamenti simili nel tempo e nello spazio, ad es. in quasi tutti i paesi del mondo di anno in anno i prezzi crescono, così come gli studenti che frequentano la scuola superiore, il numero di donne nel mercato del lavoro …

    E’ quindi plausibile trovare una correlazione positiva elevata tra due fenomeni che tendono a crescere nel tempo, es. il prezzo delle banane in Italia e il salario degli operai canadesi, oppure il numero di laureati in Brasile …

    Statistica 2010/2011 98

    Concordanza

    Tra due variabili X e Y vi è concordanza o correlazione positiva quando tendono a crescere insiemeNel caso contrario si parla di discordanza o correlazione negativaIl termine correlazione viene spesso usato nel senso restrittivo di correlazione lineare, che è un tipo particolare di concordanza

    Il coefficiente di correlazione di Bravais-Galton-Pearson misura la correlazione lineare (assume i valori estremi in caso di perfetta relazione lineare)

    Statistica 2010/2011 99

    Massima concordanza/discordanza

    Si elencano le coppie (xi,yi) in ordine crescente della x:

    Se i valori della y sono crescenti massima concordanzaSe i valori della y sono decrescenti massima discordanza

    Statistica 2010/2011 100

    Indice di Spearman /1

    Per ognuna delle due variabili si trasformano i valori in ranghi (ranks), cioè posizioni in graduatoria (dal più piccolo)

    id x y g(x) g(y)1 25 28 6 82 18 21 1 23 20 23 2 44 27 30 8 105 28 24 9 56 22 20 4 17 21 22 3 38 30 29 10 99 26 26 7 710 24 25 5 6

    Voto riportato da 10 studenti agli esami di matematica Xe statistica Y

  • Statistica 2010/2011 101

    Indice di Spearman /2

    L’indice di Spearman (o coefficiente di correlazione tra ranghi) rS è il coefficiente di correlazione lineare tra i ranghi delle due variabili

    Nell’esempio precedenteCoeff. di correlazione lineare: r = 0.78Coeff. di correlazione tra ranghi: rS = 0.76

    Minimo rS = −1 in caso di massima discordanzaMassimo rS = +1 in caso di massima concordanza

    Statistica 2010/2011 102

    Indice di Spearman /3

    Perfetta relazione lineare crescente (decrescente)Massima concordanza (discordanza)

    Massima concordanza o discordanzanon implica perfetta relazione lineare

    x y1 0.125 0.60

    10 1.2025 3.00

    x y1 0.005 1.61

    10 2.3025 3.22

    0.00

    0.50

    1.00

    1.50

    2.00

    2.50

    3.00

    3.50

    0 5 10 15 20 25 30

    x

    y

    y = 0.12x

    y = ln(x)r = 1 rS = 1

    r = 0.90 rS = 1

    Statistica 2010/2011 103

    Indice di Spearman – caso di parità

    In caso di parità (due o più unità con lo stesso valore) si attribuisce il rango medio

    id x y g(x) g(y)1 25 28 6 82 20 21 1.5 23 20 23 1.5 44 27 30 8 105 28 25 9 66 22 20 4 17 21 22 3 38 30 29 10 99 26 25 7 610 24 25 5 6

    Voto riportato da 10 studenti agli esami di matematica Xe statistica Y

    rS = 0.78