STATISTICA II PARTEscienzepolitiche.unical.it/bacheca/archivio/materiale...03/03/2012 1 1...

42
03/03/2012 1 1 Università della Calabria Corso di statistica Corso di statistica RENDE RENDE a.a a.a 2011 2011-2012 2012 Campus di Arcavacata IL CONCETTO DI MEDIA I) Criterio di internalità (Chisini) La media di una variabile X è qualunque valore reale M intermedio tra il minimo x (1) ed il massimo x (n) di una distribuzione. (29 ( 29 1 n x M x II) Logica della trasferibilità di una variabile (Chisini) La media di una variabile X è quel valore M, intermedio tra il minimo x (1) ed il massimo x (n) di una distribuzione che, rispetto ad una funzione sintetica delle osservazioni, ne lascia inalterato il valore. ( ( 1 , , , , n n volte f x x f M M = K K 1 442 4 43 Il valore della funzione f() non cambia se si sostituisce ad ogni intensità di X il valore M.

Transcript of STATISTICA II PARTEscienzepolitiche.unical.it/bacheca/archivio/materiale...03/03/2012 1 1...

  • 03/03/2012

    1

    1

    Università della Calabria

    Corso di statisticaCorso di statistica

    RENDE RENDE a.aa.a 20112011--20122012

    Campus di Arcavacata

    IL CONCETTO DI MEDIA

    I) Criterio di internalità (Chisini)

    La media di una variabile X è qualunque valore reale Mintermedio tra il minimo x(1) ed il massimo x(n) di unadistribuzione. ( ) ( )1 nx M x≤ ≤

    II) Logica della trasferibilità di una variabile (Chisini)

    La media di una variabile X è quel valore M, intermediotra il minimo x(1) ed il massimo x(n) di una distribuzioneche, rispetto ad una funzione sintetica delle osservazioni,ne lascia inalterato il valore.

    ( ) ( )1

    , , , ,nn v o l t e

    f x x f M M=K K1 44 2 4 43

    Il valore della funzione f(•) non cambia se si sostituisce ad ogni intensità di X il valore M.

  • 03/03/2012

    2

    III) Minimizzazione della perdita globale (Wald)

    La media di una variabile X è quel valore M che minimizzala funzione di perdita complessiva che si ottiene quando allesingole osservazioni (x1,………,xn) si sostituisce M.

    ( )( ), m i n s e id x Mθ θ= =l( ),id x θ = Perdita subita nel sottrarre ���� da xi, per i=1,2,……..,n( )⋅ =l Funzione che sintetizza le singole perdite in un unico valore

    ( ) ( ) ( ) ( ) ( ) ( )

    ( ) ( )

    1 2

    1

    n

    n

    ii

    x x x M M M

    x n M=

    + + + = + + +

    = ⋅∑

    l l K l l l K l

    c

    l l

    IV) Principio della equiripartizione (Naguno-Kolmogorov-De Finetti)

    La media di una variabile X è quel valore M che realizzal’equiripartizione rispetto ad una funzione( )⋅l

    LA MEDIA ARITMETICALa sua individuazione deriva dalla logica della trasferibilità di una variabile (Chisini).

    ( ) ( )1

    , , , ,nn v o l t e

    f x x f µ µ=K K1 4 2 4 3

    Se la funzione f(•) corrisponde alla somma:

    1 2

    n

    n v o l t e

    x x x µ µ µ+ + + = + + +K K1 44 2 4 43

    1 1 2

    1

    =

    n

    ini n

    i Xi

    xx x x

    x nn n

    µ µ ==

    + + += ⇒ =∑

    ∑K

  • 03/03/2012

    3

    Media aritmetica: modalità di calcolo

    Distribuzione di frequenze

    Successione di n intensità1 =

    n

    ii

    X

    x

    nµ =

    1=

    k

    i ii

    X

    x n

    nµ =

    ⋅∑1

    =k

    X i ii

    x fµ=

    ⋅∑Frequenze assolute Frequenze relative

    1

    ˆ

    =

    k

    i ii

    X

    x n

    nµ =

    ⋅∑Distribuzioni in classi

    1ˆ p e r 1 , 2 , ,2

    i ii

    x xx i n−

    += = K

    Valore centrale dell’i-esima classe

    Il calcolo dei valori centrali introduce un’approssimazione perchéequivale ad attribuire una ripartizione uniforme delle frequenzeall’interno di ciascuna classe.

    Carattere NUMERO DI BOTTIGLIE

    1 1 1 2 2 2 2 33 3 4 4 4 4 4 55 5 5 5 5 5 5 5 5 5 6 6 6 6

    n

    ii 1

    x1 1 6 1 1 9

    3 9 7n 3 0 3 0

    ,=+ + +

    µ = = = =∑ L

    ( ) ( )

    ( ) ( )

    n

    i i ni 1

    i ii 1

    x n

    x fn

    1 0 1 0 2 0 1 3

    3 0 1 0 6 0 1 3 3 9 7

    , ,

    , , ,

    =

    =µ = = =

    = × + × +

    + × + + × =

    ∑∑

    L

    N. bottiglie ni fi1 3 0,10

    2 4 0,13

    3 3 0,10

    4 5 0,17

    5 11 0,37

    6 4 0,13

    Totale 30 1

  • 03/03/2012

    4

    Carattere PREZZO CH, classi equiampie (primi 20 consumatori)

    Classe ci ni fi

    1,69 |—| 1,77 1,73 3 0,15

    1,77 —| 1,85 1,81 0 0

    1,85 —| 1,93 1,89 3 0,15

    1,93 —| 2,01 1,97 5 0,25

    2,01 —| 2,09 2,05 9 0,45

    Totale 20 1

    ( ) ( ) ( )

    k

    i ii 1

    c n

    n

    1 7 3 3 1 8 1 0 2 0 5 9

    2 0

    1 9 5 8

    , , ,

    ,

    =µ = =

    × + × + + ×= =

    =

    L

    0 11

    x x 1 6 9 1 7 7c 1 7 3

    2 2

    , ,,

    + += = =

    1 22

    x x 1 7 7 1 8 5c 1 8 1

    2 2

    , ,,

    + += = =

    k 1 kk

    x xc

    2

    − +=

    i 1 ii

    x xc

    2

    − +=

    Proprietà della media aritmeticaI) Internalità ( ) ( )1 X nx xµ≤ ≤

    Dim: ( ) ( ) ( )1 p e r 1 , ,i nx x x i n≤ ≤ = K

    ( ) ( ) ( )11 1 1

    n n n

    i ni i i

    x x x= = =

    ≤ ≤∑ ∑ ∑

    ( ) ( ) ( )11

    n

    i ni

    n x x n x=

    ⋅ ≤ ≤ ⋅∑

    ( )

    ( )

    ( ) ( ) ( )1

    1 1

    n

    ii

    Xn n

    x

    x x x xn

    µ=≤ ≤ ⇔ ≤ ≤∑

    II) Proprietà Baricentrica ( )1

    0n

    i Xi

    x µ=

    − =∑

    Dim: ( )

    1 1 1 1

    1 1 1 1

    0

    n n n n

    i X i X i Xi i i i

    n n n n

    i i i ii i i i

    x x x n

    x n x n x x

    µ µ µ= = = =

    = = = =

    − = − = − =

    = − = − =

    ∑ ∑ ∑ ∑

    ∑ ∑ ∑ ∑

  • 03/03/2012

    5

    III) Linearità

    { } { }1 1 1, , , ,n n nx x y x y xα β α β→ = ± = ±K K

    t r a s f o r m a z i o n e l i n e a r eY X

    X Yα β= ± →

    ( )

    ( )

    1 1 1

    1

    1 1 1

    1 1 =

    n n n

    Y i ii i i

    n

    i Xi

    x xn n n

    n xn n

    µ α β α β

    α β α β µ

    = = =

    =

    = ± = ± =

    ± = ±

    ∑ ∑ ∑

    Y Xµ α β µ= ±

    Corollari:

    { } { }1 1 1, , , ,n n nx x y x y xβ β→ = ± = ±K K

    Y Xµ β µ= ±

    { } { }1 1 1, , , ,n n nx x y x y xα α→ = ± = ±K K

    Y Xµ α µ= ±a)

    b)

    ( ),α β ∈ ℜDim:

    Scelta Prezzo MM

    MM 1,99

    MM 1,99

    MM 1,99

    MM 2,09

    MM 2,09

    MM 2,09

    MM 2,09

    MM 2,09

    MM 2,13

    Per i soli succhi di frutta MM considerare il carattere PREZZO MM. La casa produttrice decide di cambiare il prezzo di vendita del prodotto: per ogni acquirente il nuovo prezzo sarà pari al prezzo di vendita mediano attuale più il 18.75% del prezzo attuale. Qual è la media dei nuovi prezzi di vendita?

    9 1 5

    2

    M e x x 2 0 9,+= = =

    La nuova serie dei prezzi p* sarà dunque ottenuta dalla trasformazione lineare:

    p* = 2,09 + 0,1875 p

    0629

    5518

    9

    p9

    1ii

    ,, ===µ

    ∑=

    2 0 9 0 1 8 7 5 2 0 9 0 1 8 7 5 2 0 6 2 4 7* , , , , , ,µ = + ⋅ µ = + ⋅ =

    * * *1 2 3p = p = p = 2 , 0 9 + 0 , 1 8 7 5 1 , 9 9 = 2 , 4 6×

    *9p = 2 , 0 9 + 0 , 1 8 7 5 2 , 1 3 = 2 , 4 9×

    * *4 8p = = p = 2 , 0 9 + 0 , 1 8 7 5 2 , 0 9 = 2 , 4 8×L

    9

    ii 1

    1 2 4 6 2 4 6 2 4 9p 2 4 7

    9 9

    * * , , , ,=

    + + +µ = = =∑

    L

  • 03/03/2012

    6

    IV) Associatività1

    1

    =

    = ∑G

    X j jj

    nn

    µ µ

    G = numero di gruppi

    nj = numerosità del j-esimo gruppo (j=1,….,G)

    ( )1 2

    1 , ,=

    + + + + + =K

    K K1 4 4 4 44 2 4 4 4 4 43

    j

    j G

    s u d d i v i s i o n e d e l l e i n t e n s i t à i n G g r u p p i d i n u m e r o s i t à n j G

    n n n n n

    1 1 1= = =

    =∑ ∑ ∑1 4 4 2 4 4 3

    jnn G

    i i ji j i

    s o m m a d e l l e i n t e n s i t à

    x x

    1

    1 11 1 1 1

    1 1 1; ; ; ;

    = = =

    = = =∑ ∑ ∑K K1 4 4 4 4 4 4 4 4 442 4 4 4 4 4 4 4 4 443

    j Gn nn

    i j i j G G ij Gi i i

    m e d i e d e i g r u p p i

    x x xn n n

    µ µ µ

    1 1 1

    1 1 1

    1 1

    1 1 1

    = = =

    = = =

    = =

    = =

    ∑ ∑ ∑

    ∑ ∑ ∑

    j

    j

    nn G

    X i i ji j i

    nG G

    i j j j jjj i j

    x xn n

    x n nn n n

    µ

    µ

    xij = j-esima intensità dell’i-esimo gruppo

    Scomposizione della media generale

    Media aritmetica delle medie dei

    gruppi

    Dim:

    nj Rivenditoren.bottiglie

    bis

    Bar 6

    Bar 6

    Bar 5

    Bar 5

    Bar 6

    Bar 3

    Bar 5

    Bar 4

    9 Bar 5

    Coloniali 3

    Coloniali 6

    Coloniali 4

    Coloniali 5

    Coloniali 3

    Coloniali 4

    Coloniali 5

    Coloniali 2

    9 Coloniali 4

    D. Automatico 2

    D. Automatico 5

    D. Automatico 3

    4 D. Automatico 6

    S.market 4

    S.market 6

    S.market 5

    S.market 2

    S.market 3

    S.market 6

    S.market 5

    8 S.market 1

    30 129

    3 0

    ii 1

    x=∑

    45

    36

    16

    32

    b a r b a rb a rb a r

    1x

    nµ = ∑

    c o l c o lc o lc o l

    1x

    nµ = ∑

    d a d ad ad a

    1x

    nµ = ∑

    s m s ms ms m

    1x

    nµ = ∑

    ( ) ( ) ( ) ( )b a r c o l d a s m9 9 4 83 0

    µ × + µ × + µ × + µ ×µ =

    ii

    1 1 2 9x 4 3

    n 3 0,µ = = =∑

  • 03/03/2012

    7

    Gruppi/modalitàG

    njj = 1, …, G

    Bar 9 45

    Coloniali 9 36

    D. Automatico 4 16

    Supermarket 8 32

    Totali 30 129

    jn

    ii 1

    x=∑

    ( ) ( ) ( ) ( )b a r b a r c o l c o l d a d a s m s mn n n nn

    µ =

    µ × + µ × + µ × + µ ×=

    b a r b a rb a rb a r

    1 1x 4 5 5

    n 9µ = = × =∑

    c o l c o lc o lc o l

    1 1x 3 6 4

    n 9µ = = × =∑

    d a d ad ad a

    1 1x 1 6 4

    n 4µ = = × =∑

    s m s ms ms m

    1 1x 3 2 4

    n 8µ = = =∑

    ( ) ( ) ( ) ( )5 9 4 9 4 4 4 8 1 2 94 3

    3 0 3 0,

    × + × + × + ×µ = = =

    V) Minimizzazione della somma degli scarti al quadrato

    ( )21

    m i n s e e s o l o s e n

    i Xi

    x δ δ µ=

    − = =∑

    Dim: ( ) ( )2 2

    1 1

    s e n n

    X i i Xi i

    x xδ µ δ µ= =

    ≠ ⇒ − > −∑ ∑

    ( ) ( )

    ( ) ( )

    ( ) ( )

    2 2

    1 1

    2 2

    1

    1

    2

    n n

    i i X Xi i

    n

    i X Xi

    n

    X i Xi

    x x

    x n

    x

    δ µ µ δ

    µ µ δ

    µ δ µ

    = =

    =

    =

    − = + − − =

    = − + − +

    + − −

    ∑ ∑

    ( ) ( ) ( )

    ( ) ( )

    2 2 2

    1 1

    2 2

    1 1

    n n

    i i X Xi i

    n n

    i i Xi i

    x x n

    x x

    δ µ µ δ

    δ µ

    = =

    = =

    − = − + −

    ⇒ − > −

    ∑ ∑

    ∑ ∑

    Termine nullo per la II proprie-tà della media arit-metica

  • 03/03/2012

    8

    Quale indice di posizione scegliere?

    La mediana minimizza la somma degli scarti in valore assoluto:

    n

    ii 1

    x c c M em i n=

    − = ⇒ =∑

    La mediana è un indice robustorobusto: non subisce l’influenza di valori anomali

    CRITERIO:

    � Se occorre un indice che tenga conto di tutti i tutti i valorivalori, si utilizza la media.

    � Se non si vuole che i valori estremivalori estremi alterino il valore dell’indice, allora si utilizza la mediana

    esempio:Scelta del luogo in cui situare il deposito di n punti vendita, in modo da minimizzare le distanze complessive (quindi i costi):

    il luogo che soddisfa tale condizione è la mediana dei punti vendita

    INDICI STATISTICI DI VARIABILITA’Variabilità: Attitudine di un fenomeno ad assumerediverse intensità

    Caratteristiche di un indice di variabilità

    • Dispersione rispetto ad un centro

    • Mutua variabilità

    • Mutevolezza delle frequenze(Concentrazione per caratteri trasferibili)

    Come si misura la variabilità?

    ( )( )( ) ( )

    ( ) ( )

    1

    1 1

    1 1

    ) , , 0

    ) , , 0

    ) , , ,

    ) S e , , , X è p i ù v a r i a b i l e d i Y

    n

    n n

    n n

    i V x x

    i i V c c

    i i i V x c x c V x x

    i v V x x V y y

    =

    + + =

    ≥ →

    K

    K

    K K

    K K

    V(••••): Indice di variabilità; c: costante nota

    N.B. Un indice di variabilità è sempre maggiore o uguale a zero.

  • 03/03/2012

    9

    Variabilità e funzione di ripartizione empirica

    Una funzione di ripartizione empirica molto ripida (che subitoraggiunge 1) indica scarsa variabilità. Viceversa, unafunzione di ripartizione empirica che raggiunge 1 moltolentamente indica elevata variabilità.

    Campo di Variazione

    È molto sensibile alla presenza di valori anomali

    Differenza Interquantile

    Differenza tra due quantili equidistanti dagli estremi delladistribuzione

    Via via meno sensibile alla presenza di valori anomali, mamano che r ed s si avvicinano.

    r > s

    Differenza Interquartile

    È un indice più robusto del campo di variazione

    Coefficiente di Variazione Interquartile

    � Non dipende dall’unità di misura del carattere osservato(come il Range e l’IQR) ma solo dal rapporto tra quartili

    � Se Me→→→→ 0 allora CQV →→→→ ∞∞∞∞

  • 03/03/2012

    10

    Variabilità rispetto ad un centroObiettivo: Sintetizzare una opportuna funzione degli scartidelle singole intensità dall’indice di posizione M prescelto

    Successione degli scarti:( ) ( ) ( ) ( )1 2, , , , ,i nx M x M x M x M− − − −K K

    ( )

    ( )1

    2

    1

    0

    S e

    m i n

    n

    ii

    n

    ii

    x

    M

    x

    µµ

    µ

    =

    =

    − == ⇒ − =

    1

    S e m i nn

    ii

    M M e x M e=

    = ⇒ − =∑

    Ogni scarto esprime la distanza di ciascuna intensità dall’indiceM.

    La variabilità rispetto ad un centro può essere definitaspecificando in diversi modi M.

    Ricordiamo che:

    VARIANZA

    � Misura la dispersione media intorno alla media aritmetica.

    � Si calcola come media aritmetica dei quadrati degli scarti.

    1. Per una successione di valori:

    2. Per una distribuzione di frequenza:

    3. Per una distribuzione in classi di frequenza:

  • 03/03/2012

    11

    N. bottiglie ni fi1 3 0,10

    2 4 0,13

    3 3 0,10

    4 5 0,17

    5 11 0,37

    6 4 0,13

    Totale 30 1( )

    ( ) ( ) ( )

    2

    2 1

    2 2 21 3 , 9 7 3 2 3 , 9 7 4 6 3 , 9 7 4

    3 0

    7 2 , 9 72 , 4 1

    3 0

    n

    i ii

    x n

    n

    =

    −= =

    − × + − × + + − × = =

    = =

    L

    µσ

    ( ) ( ) ( )

    2

    2 21

    2 2 2

    21 3 2 4 6 4

    3 , 9 73 0

    5 4 51 5 , 7 3 2 , 4 1

    3 0

    n

    i ii

    x n

    n

    == − =

    × + × + + ×= − =

    = − =

    L

    σ µ

    Formula alternativa:

    Classe ci ni fi

    1,69 |—| 1,77 1,73 3 0,15

    1,77 —| 1,85 1,81 0 0

    1,85 —| 1,93 1,89 3 0,15

    1,93 —| 2,01 1,97 5 0,25

    2,01 —| 2,09 2,05 9 0,45

    Totale 20 1

    ( )( )

    ( ) ( )

    ( )

    2

    22 1

    1

    2 2

    2

    1 , 7 3 1 , 9 6 0 , 1 5 1 , 8 1 1 , 9 6 0

    2 , 0 5 1 , 9 6 0 , 4 5 0 , 0 0 4

    k

    i i ki

    i ii

    c n

    c fn

    =

    =

    −= = − =

    = − × + − × + +

    + − × =

    ∑∑

    L

    µσ µ

    ( ) ( )

    n

    i i ni 1

    i ii 1

    c n

    c f 1 7 3 0 1 5 2 0 5 0 4 5 1 9 6n

    , , , , ,=

    =µ = = = × + + × =

    ∑∑ L

    ( ) ( )( )

    2

    2 2 2 21

    1

    2 2

    2 2

    1 , 7 3 0 , 1 5 1 , 8 1 0

    2 , 0 5 0 , 4 5 1 , 9 6 0 , 0 0 4

    n

    i i ni

    i ii

    c n

    c fn

    =

    =

    = − = − =

    = × + × + +

    + × − =

    ∑∑

    L

    σ µ µ

    Formula alternativa:

  • 03/03/2012

    12

    Proprietà della varianza

    I)20 X≤ ≤ ∞σ

    II) Esprime la variabilità nella stessa unità di misuradel carattere osservato, ma elevata al quadrato

    III) ( )22

    2X = −σ µ µ

    Dim: ( )

    ( ) ( )

    ( ) ( ) ( )

    ( )

    22

    1

    2 2

    1 1 1

    2 2

    1

    2 2

    1

    1=

    1 1 12

    12

    1

    n

    X ii

    n n n

    i ii i i

    n

    ii

    n

    ii

    xn

    x xn n n

    xn

    xn

    =

    = = =

    =

    =

    − =

    = − + =

    = − + =

    = −

    ∑ ∑ ∑

    σ µ

    µ µ

    µ µ µ

    µ

    Formula alternativa per il calcolo della varianza

    IV)t r a s f o r m a z i o n e l i n e a r e

    Y XX Y= ± →α β

    ( ),α β ∈ ℜ

    Dim:

    e i i Y Xy x= + = +α β µ α β µ

    ( ) ( )

    ( )

    2 22

    1 1

    22 2 2

    1

    1 1

    1

    n n

    Y i Y i Xi i

    n

    i X Xi

    y xn n

    xn

    σ µ α β α β µ

    β µ β σ

    = =

    =

    = − = + − − =

    = − =

    ∑ ∑

    quindi:

  • 03/03/2012

    13

    Esempio

    Scelta Prezzo MM

    MM 1,99

    MM 1,99

    MM 1,99

    MM 2,09

    MM Me ���� 2,09

    MM 2,09

    MM 2,09

    MM 2,09

    MM 2,13

    Nuovo prezzo = prezzo mediano attuale + 18.75% del prezzo attuale.

    Qual è la varianzavarianza del nuovo prezzo?

    Trasformazione lineare:

    p* = 2,09 + 0,1875 p

    2 * 2 20 , 1 8 7 5 0 , 0 3 5 0 , 0 0 2 0 , 0 0 0 0 7 5= × = × =σ σ

    Calcolo della nuova varianza:

    αααα = 2,09; ββββ = 0,1875

    2 * 2 2=σ β σ

    V) Decomposizione della varianza

    La varianza di X è data dalla somma della mediadelle varianze di gruppo (varianza interna) e dallavarianza delle medie di gruppo (varianza esterna).

    ( )22 21 1

    V A R I A N Z A I N T E R N A V A R I A N Z A E S T E R N A

    1 1G GX j j j X j

    j j

    n nn n= =

    = + −∑ ∑1 4 2 43 1 4 4 4 2 4 4 43

    σ σ µ µ

    Se:

    G = numero di gruppi;

    µµµµj: media dell’i-esimo gruppo;

    nj = numerosità dell’j-esimo gruppo (j = 1,….,G);

    allora:

    2 2 2T O T I N T E X T= +σ σ σossia:

  • 03/03/2012

    14

    Dim:

    ( )

    1 2

    s u d d i v i s i o n e d e l l e i n t e n s i t à i n G g r u p p i d i n u m e r o s i t à 1 , ,

    j

    j G

    nj G

    n n n n n

    =

    + + + + + =

    K

    K K1 4 4 4 4 44 2 4 4 4 4 4 43

    ( ) ( )

    ( )

    ( ) ( )

    ( ) ( )

    222

    1 1 1

    V a r i a n z a d e l l a p a r t i z i o n e i n g r u p p i

    2

    1 1

    2 2

    1 1 1 1

    1 1

    1 1

    1

    1 1

    12

    i

    i

    i i

    i

    nn G

    X i X i j Xi j i

    nG

    i j j j Xj i

    n nG G

    i j j j Xj i j i

    nG

    i j j j Xj i

    x xn n

    xn

    xn n

    xn

    = = =

    = =

    = = = =

    = =

    = − = − =

    = − + − =

    = − + − +

    + − −

    ∑ ∑ ∑

    ∑ ∑

    ∑ ∑ ∑ ∑

    ∑ ∑

    1 4 4 4 2 4 4 43

    σ µ µ

    µ µ µ

    µ µ µ

    µ µ µ

    1

    1 jn

    j i jj i

    xn =

    = ∑µMedia aritmetica delle intensità appartenenti all’i-esimo gruppo.

    ( ) ( ) ( ) ( )1 1 1 1

    è u g u a l e a z e r o p e r l a I p r o p r i e t à d i

    1 22 0

    i in nG G

    i j j j X j X i j jj i j i

    x xn n= = = =

    − − = − − =

    ∑ ∑ ∑ ∑1 44 2 4 43

    µ

    µ µ µ µ µ µ

    3° Addendo

    Quindi:

    1° Addendo

    ( )

    ( )

    2

    1 1

    2 2 2

    1 1 1

    V a r i a n z a d e l l ' i - e s i m o g r u p p o

    1

    1 1 1

    i

    j

    I N T

    nG

    i j jj i

    nG G

    i j j j j jj i jj

    xn

    x n nn n n

    = =

    = = =

    − =

    = − = =

    ∑ ∑

    ∑ ∑ ∑1 4 4 4 2 4 4 43

    µ

    µ σ σ

    2° Addendo

    ( ) ( )2 2 21 1 1

    V a r i a n z a d e l l e m e d i e d i g r u p p o

    1 1i

    E X T

    nG G

    j X j X jj i j

    nn n= = =

    − = − =∑ ∑ ∑1 4 4 4 2 4 4 43

    µ µ µ µ σ

  • 03/03/2012

    15

    Esempio sceltabottiglie CH MM Totale

    1 1 2 3

    2 2 2 4

    3 2 1 3

    4 5 0 5

    5 7 4 11

    6 4 0 4

    Totale 21 9 30

    ( ) ( ) ( )

    6

    11

    2 1

    1 1 2 2 6 44 , 2 8

    2 1

    iC H ii

    C H

    x n== = =

    × + × + + ×= =

    L

    µ µ

    ( ) ( ) ( )

    6

    12

    9

    1 2 2 2 5 43 , 2 2

    9

    iM M ii

    M M

    x n== = =

    × + × + + ×= =

    L

    µ µ

    G = 2 (1 = CH; 2 = MM)

    ( )

    ( ) ( )

    6 2

    2 2 11

    2 2

    2 1

    1 4 , 2 8 1 6 4 , 2 8 4 4 0 , 2 91 , 9 2

    2 1 2 1

    iC H C H ii

    C H

    x n=

    −= = =

    − × + + − ×= = =

    L

    µσ σ

    ( )

    ( ) ( )

    6 2

    2 2 12

    2 2

    9

    1 3 , 2 2 2 6 3 , 2 2 0 2 5 , 5 62 , 8 3

    9 9

    iM M M M ii

    M M

    x n=

    −= = =

    − × + + − ×= = =

    L

    µσ σ

    ( ) ( )2 21

    1 1 , 9 2 2 1 2 , 8 3 92 , 1 9

    3 0

    G

    I N T j jj

    nn =

    × + ×= = =∑σ σ

    ( )

    ( ) ( )

    22

    1

    2 2

    1

    4 , 2 8 3 , 9 7 2 1 3 , 2 2 3 , 9 7 90 , 2 4

    3 0

    G

    E S T j X jj

    nn =

    = − =

    − × + − ×= =

    ∑σ µ µ

  • 03/03/2012

    16

    SCARTO QUADRATICO MEDIO

    (o scostamento quadratico medio, o deviazione standard)

    � E’ uguale alla radice quadrata della varianza.

    � Esprime la variabilità nella stessa unità di misura delcarattere osservato.

    1. Per una successione di valori:

    2. Per una distribuzione di frequenza:

    3. Per una distribuzione in classi di frequenza:

    σ è interpretabile come scarto medio intorno alla media; la maggior parte dei valori sono compresi nell’intervallo:

    [µµµµ - σσσσ; µµµµ + σσσσ]

    s i t u a z i o n e d i m a s s i m a v a r i a b i l i t à

    0 p e r 1 , , 1 i nx i n x n= = − =K1 4 4 4 4 4 4 4 4 44 2 4 4 4 4 4 4 4 4 4 43µ

    ( )

    ( ) ( ) ( )

    ( )

    ( ) ( )

    22

    1

    2 2

    2 2 2 2 2

    2 2 2 2 2 2

    2

    2 2 2 2

    1

    10 1 1

    11 2

    12

    111

    n

    ii

    xn

    n nn

    n n nn

    n n nn

    n nn n n

    n n

    =

    = − =

    = − − + − ⋅ =

    = − + + − =

    = − + + − =

    − = − = = −

    ∑σ µ

    µ µ µ

    µ µ µ µ

    µ µ µ µ µ

    µµ µ µ

    Nella situazione di massima variabilità

    σ 2= µ 2(n-1) e 1nσ µ= −

    MASSIMA VARIABILITA’

    ( ) ( )2 2 1 1n nσ σ µ µ= = − = −Quindi:

  • 03/03/2012

    17

    INDICI DI VARIABILITA’ RELATIVA

    Coefficiente di variazione

    E’ un indice indipendente dall’unità di misura (è un numeropuro) e può essere utilizzato per confrontare distribuzionidiverse

    ( ) ( )2 20 1 e 0 1n n≤ ≤ − ≤ ≤ −σ µ σ µPoiché:

    INDICE DI VARIABILITA’ RELATIVI NORMALIZZATI (compresi tra 0 ed 1)

    Scarto quadratico medio relativo

    Si ottiene come rapporto tra il valore assunto dallo scarto ed il valore massimo che esso può assumere per la distribuzione:

    5614322 ,, ==σ=σ

    07029973

    561

    1nrel ,

    ,

    , ==−µ

    σ=σ

    390973

    561CV ,

    ,

    , ==µσ=

    N. bottiglie ni fi1 3 0,10

    2 4 0,13

    3 3 0,10

    4 5 0,17

    5 11 0,37

    6 4 0,13

    Totale 30 1

    Scarto quadratico medio:

    Coefficiente di variazione:

    Scarto quadratico medio relativo:

    Esempio

  • 03/03/2012

    18

    INDICI DI MUTUA VARIABILITÀ

    DIFFERENZE MEDIEDifferenza Media Semplice (senza ripetizione)

    Differenza Media Quadratica

    Misurano quanto le unità statistiche differiscono tra di lorotra di loro(non più rispetto ad un punto fisso).

    Il calcolo si basa sulle differenze tra tutte le coppie di unità statistiche.

    Successione di valori Distribuzione di frequenza

    Successione di valori Distribuzione di frequenza

    A B C D E F G

    xi 3 6 5 10 3 6 7

    A 3 3 2 7 0 3 4

    B 6 3 1 4 3 0 1

    C 5 2 1 5 2 1 2

    D 10 7 4 5 7 4 3

    E 3 0 3 2 7 3 4

    F 6 3 0 1 4 3 1

    G 7 4 1 2 3 4 1

    Scarti semplici in valore assoluto

    Impresa Addetti

    A 3

    B 6

    C 5

    D 10

    E 3

    F 6

    G 7

    totale 40

    n

    ii 1

    x4 0

    5 7 1n 7

    ,=µ = = =∑

    Calcolo della Differenza Media Semplice:

  • 03/03/2012

    19

    Impresa Addetti

    A 0

    B 0

    C 0

    D 0

    E 0

    F 0

    G 40

    totale 40

    Impresa Addetti

    A 5,71

    B 5,71

    C 5,71

    D 5,71

    E 5,71

    F 5,71

    G 5,71

    totale 40

    Equidistribuzione degli addetti Massima concentrazione di addetti

    xi = xj ∀∀∀∀ i,j ∆∆∆∆ = 0A B C D E F G

    xi 0 0 0 0 0 0 40

    A 0 0 0 0 0 0 40

    B 0 0 0 0 0 0 40

    C 0 0 0 0 0 0 40

    D 0 0 0 0 0 0 40

    E 0 0 0 0 0 0 40

    F 0 0 0 0 0 0 40

    G 40 40 40 40 40 40 40

    ∆∆∆∆ = 2µµµµ

    ( )

    ( )

    ( )

    n n

    i j ii j 1 i 1

    x x 2 n 1 x

    2n n 1 n n 1

    ≠ = =

    − −∆ = = = µ

    − −

    ∑ ∑

    INDICE DI CONCENTRAZIONE

    R = 0 se ∆∆∆∆ = 0Caso di equidistribuzioneequidistribuzione del carattere

    R = 1 se ∆∆∆∆ = 2µµµµCaso di massima concentrazionemassima concentrazione del carattere

    0 ≤≤≤≤ R ≤≤≤≤ 1

    2 8 6,∆ = 2 2 5 7 1 1 1 4 2m a x , ,∆ = µ = × =

    Se:

  • 03/03/2012

    20

    auto ni1 3

    2 8

    3 6

    4 2

    5 1

    tot 20

    X = NUMERO DI AUTO POSSEDUTE relativo ad un collettivo di 20 famiglie

    Caso di distribuzione di frequenza

    nj 3 8 6 2 1

    ni auto 1 2 3 4 5

    3 1 24 36 18 12

    8 2 24 48 32 24

    6 3 36 48 12 12

    2 4 18 32 12 2

    1 5 12 24 12 2

    ( )

    ( ) ( ) ( )

    1

    1

    1 2 3 8 1 3 3 6 5 4 1 2 4 4 01 , 1 6

    2 0 1 9 3 8 0

    K

    i j i ji j

    x x n n

    N N

    ≠ =− ⋅

    ∆ = =−

    − ⋅ ⋅ + − ⋅ ⋅ + + − ⋅ ⋅= =

    L

    Scarti semplici in valore assoluto

    55,222MAX =×=µ=∆

    INDICI DI

    ETEROGENEITÀ ED OMOGENEITÀ

    Mutabilità: Attitudine di un fenomeno ad assumerediverse modalità

    Distribuzione Massimamente Omogenea: le n unitàstatistiche presentano tutte la stessa modalità

    Distribuzione Massimamente Eterogenea: nelladistribuzione di frequenza appaiono tutte le k modalità, ead ognuna di esse è associata la medesima frequenza.

    Caratteristiche di un indice di mutabilità

    M(••••): Indice di mutabilità

    ( ) ( )

    ( ) ( )

    ( ) ( ) ( )

    1

    1

    1

    ) , , m i n

    m a s s i m a o m o g e n e i t à

    ) , , m a x

    m a s s i m a e t e r o g e n e i t à

    ) m i n , , m a x

    o m o g . / e t e r o g . i

    n

    n

    n

    i M x x M

    i i M x x M

    i i i M M x x M

    =

    =

    < <

    K

    K

    K

    n t e r m e d i a

  • 03/03/2012

    21

    INDICI DI ETEROGENEITA’ ED OMOGENEITA’

    ( ) 2 21 1 1 1

    1 1k k k k

    i i i i ii i i i

    G f f f f f= = = =

    = − = − = −∑ ∑ ∑ ∑

    INDICE DI GINI

    kii kfG ,,2,1max

    1L=∀=≡

    m a x 2 21

    1 11 1 1

    k

    i

    kG

    k k k=⇒ = − = − = −∑

    X: carattere qualitativo con k modalità

    INDICE DI GINI NORMALIZZATO

    ( )11

    11

    1

    12

    2

    max

    *

    −=

    −−=

    −== ∑∑ k

    kG

    k

    kf

    k

    f

    G

    GG i

    i

    Massima eterogeneità (minima omogeneità)

    Modalità fix1 0,2

    x2 0,2

    x3 0,2

    x4 0,2

    x5 0,2

    Totale 1

    Modalità fix1 0

    x2 0

    x3 1

    x4 0

    x5 0

    Totale 1

    Minima eterogeneità (massima omogeneità)

    ( )( )

    K2i

    i 1

    2

    G 1 f

    1 5 0 , 2

    1 5 0 0 4 0 8, ,

    == − =

    = − ×

    = − × =

    K2i

    i 1

    G 1 f

    1 1 0

    == − =

    = − =

    i

    1f , i 1 , , k

    k= ∀ = K

  • 03/03/2012

    22

    SCELTA ni fiCH 21 0,7

    MM 9 0,3

    Totale 30 1

    ( ) ( )

    K2i

    i 1

    2 2

    G 1 f

    1 0 , 7 0 , 3 1 0 4 9 0 0 9 0 4 2, , ,

    == − =

    = − + = − + =

    502

    11

    K

    11G ,max =−=−=

    Indice di eterogeneità normalizzato di Gini (0 ≤ G* ≤1)

    Indice di eterogeneità di Gini

    84050

    420

    G

    GG ,

    ,

    ,*

    max

    ===

    ConclusioneG* è abbastanza elevato →→→→ la distribuzione è abbastanza eterogenea: entrambe le modalità sono presenti, ma con frequenze non equilibrate tra loro.

    Esempio 1

    Negozio ni fiBar 9 0,30

    Coloniali 9 0,30

    D. automatico 4 0,13

    Supermarket 8 0,27

    Totale 30 1

    ( )( )

    42i

    i 1

    2 2 2 2

    G 1 f

    1 0 , 3 0 , 3 0 , 1 3 0 , 2 7

    1 0 , 0 9 0 , 0 9 0 , 0 2 0 , 0 7 0 , 7 3

    =

    = − =

    = − + + + =

    = − + + + =

    7504

    11

    K

    11G ,max =−=−=

    970750

    730

    G

    GG ,

    ,

    ,*

    max

    ===

    ConclusioneG* molto prossimo ad 1 →→→→ la distribuzione è molto eterogenea: tutte le modalità sono presenti e con frequenze molto simili tra loro.

    Esempio 2

  • 03/03/2012

    23

    FORMA DI UNA DISTRIBUZIONE

    Due distribuzioni che presentano gli stessi valori degliindici di posizione e degli indici di variabilità possonodifferire per il peso dei valori più grandi e/o più piccolirispetto al valore centrale a causa del comportamentodifferenziato nelle code della distribuzione.

    La forma di una distribuzione è importante proprio pervalutare l’effetto delle intensità posizionate sulle codedella distribuzione.

    Obiettivo dello studio della forma di una distribuzione èmisurare se una distribuzione è simmetrica oppure diquanto essa si discosta dalla situazione di simmetria.

    In una distribuzione simmetrica le intensità posizionatealla stessa distanza da un indice di posizione (ad es. lamedia aritmetica) ma in posizione opposta rispetto a taleindice presentano la stessa frequenza (o densità difrequenza).

    Una distribuzione che non risulta simmetrica si diceasimmetrica

    -2 0 2 4

    050

    010

    0015

    00

    Intensità

    Den

    sità

    di f

    requ

    enza

    SIMMETRIA E ASIMMETRIA

    Distribuzione simmetrica

    Proprietà:

    1 3 1 3

    )

    ) ( p e r d i t r i b u z i o n i u n i m o d a l i )

    ) ( e s o n o e q u i d i s t a n t i d a )

    X

    X

    i M e

    i i M e M o

    i i i Q M e Q M e Q Q M e

    == =

    − = −

    µµ

    N.B. Queste proprietà valgono in una sola direzione

  • 03/03/2012

    24

    0 10 20 30

    050

    010

    0015

    00

    Intensità

    Den

    sità

    di f

    requ

    enza

    -30 -20 -10 0

    050

    010

    0015

    00

    Intensità

    Den

    sità

    di f

    requ

    enza

    Asimmetria positiva

    Distribuzioni asimmetriche

    Asimmetria negativa

    • Le intensità si attardano sullacoda di destra delladistribuzione

    • Per distribuzioni unimo-dali:

    X M e M o> >µ

    • Le intensità si attardano sullacoda di sinistra delladistribuzione

    • Per distribuzioni unimo-dali:

    XM o M e> > µ

    INDICI DI FORMAForniscono informazioni sulla forma di una distribuzione (simmetria, asimmetria positiva o negativa).

    Indice di Hotelling e SolomonIndice di Hotelling e Solomon

    0

    1 0

    0 1

    H S

    H S

    H S

    A S i m m e t r i a

    A A s i m m e t r i a P o s i t i v a

    A A s i m m e t r i a N e g a t i v a

    =− ≤ <

    < ≤

    Poiché vale la seguente relazione: X XM eµ σ− ≤allora: 1 1H SA− ≤ ≤

    N.B. Nel caso in cui AHS = 0 la distribuzione non è necessariamente simmetrica

    Indice di Yule e BowleyIndice di Yule e Bowley

    0

    0

    0

    Y B

    Y B

    Y B

    A S i m m e t r i a

    A A s i m m e t r i a P o s i t i v a

    A A s i m m e t r i a N e g a t i v a

    =<>

  • 03/03/2012

    25

    INDICI DI FORMA BASATI SULLA STANDARDIZZAZIONE

    Tale indici neutralizzano l’effetto di qualunque indice diposizione e di variabilità attraverso una operazione distandardizzazione del tipo:

    p e r 1 , ,X i XiX X

    X xX Z Z z i n

    − −→ = = = Kµ µσ σ

    Z è la variabile standardizzata. Essa, oltre a non dipendere dall’unità di misura del carattere osservato, presenta sempre media pari a zero e varianza pari ad uno. Infatti:

    11 , , , ,

    X i X n Xi n

    X X X

    x x xz z z

    − − −= = =K Kµ µ µσ σ σ

    ( )1 1

    1

    1 1

    1 1 1 1 0 0

    n ni X

    Z ii i X

    n

    i XiX X

    xz

    n n

    xn n

    = =

    =

    −= = =

    = − = ⋅ ⋅ =

    ∑ ∑

    µµσ

    µσ σ

    ( ) ( )2 221 1

    2

    2 2

    2 21 1

    1 10

    1 1 1 1

    n n

    Z i Z ii i

    n ni X

    i Xi i X X

    z zn n

    xz

    n n

    = =

    = =

    = − = − =

    −= = = ⋅ =

    ∑ ∑

    ∑ ∑

    σ µ

    µ σσ σ

    Indice di FisherIndice di Fisher

    FA− ∞ ≤ ≤ ∞0

    0

    0

    F

    F

    F

    A S i m m e t r i a

    A A s i m m e t r i a p o s i t i v a

    A A s i m m e t r i a n e g a t i v a

    =><

    Successione di valori

    Distribuzione di frequenza

  • 03/03/2012

    26

    Indici di curtosiIndici di curtosi

    • Misurano la maggiore o minore frequenza delleosservazioni situate nelle code della distribuzione, ossia diquelle che presentano gli scarti dalla media più elevati.

    • Sono basati su un confronto tra la distribuzione empirica ed un modello teorico di riferimento quale la distribuzione distribuzione NormaleNormale.

    Intensità

    Den

    sità

    di f

    requ

    enza

    -4 -2 0 2 4

    0.0

    0.1

    0.2

    0.3

    Distribuzione Normale (Gauss-Laplace)

    • E’ utilizzata come modello teorico di riferimento perché frequentemente presente come distribuzione di fenomeni naturali• E’ una distribuzione simmetrica unimodale

    è un indice di disnormalità basato sul confronto tra la distribuzione empirica ed il modello della distribuzione Normale

    Successione di valori

    Distribuzione di frequenza

    Indice di curtosi di PearsonIndice di curtosi di Pearson

    Per la distribuzione Normale:

    AK = 3

    K = AK – 3

  • 03/03/2012

    27

    0

    0 l e p t o c u r t i c a

    0 p l a t i c u r t i c

    K D i s t r i b u z i o n e N o r m a l e

    K D i s t r i b u z i o n e

    K D i s t r i b u z i o n e a

    = > 0

    K = 0

    K < 0

    Distribuzione leptocurticaDistribuzione leptocurtica: i valori si accentrano intorno alla media più di quanto accade per la distribuzione Normale

    Distribuzione platicurticaDistribuzione platicurtica: presenta delle densità di frequenza nella coda della distribuzione più di quanto accade per la distribuzione Normale.

    N. bottiglie CH ni fi Fi

    1 1 0,05 0,05

    2 2 0,09 0,14

    3 2 0,09 0,23

    4 5 0,25 0,48

    5 7 0,33 0,81

    6 4 0,19 1

    Totale 21 1

    N. bottiglie MM ni fi Fi

    1 2 0,22 0,22

    2 2 0,22 0,44

    3 1 0,11 0,55

    4 0 0 0,55

    5 4 0,45 1

    6 0 0 1

    Totale 9 1

    ( )3

    1

    3 3 3

    3 3 3

    1

    1 1 4 , 2 9 2 4 , 2 9 3 4 , 2 92 2

    2 1 1 , 3 9 1 , 3 9 1 , 3 9

    4 4 , 2 9 5 4 , 2 9 6 4 , 2 95 7 4

    1 , 3 9 1 , 3 9 1 , 3 9

    11 3 , 3 5 8 , 9 9 1 , 6 0 ,

    2 1

    C Hn C HC H iC H i

    iC H C H

    xA F n

    n =

    − = ⋅ =

    − − − + ⋅ + ⋅ +

    − − −+ ⋅ + ⋅ + ⋅ =

    = − − − −

    ∑µ

    σ

    ( )0 4 0 , 9 6 7 , 5 8

    1 5 , 4 40 , 7 4

    2 1

    + + =

    = − = −

    µµµµCH = 4,29 µµµµMM = 3,22σσσσCH = 1,39 σσσσMM = 1,69

  • 03/03/2012

    28

    ( )

    ( )

    M M3

    nM MM M i

    M M ii 1M M M M

    3 3

    3 3

    x1A F n

    n

    1 1 3 , 2 2 2 3 , 2 22 2

    9 1 , 6 9 1 , 6 9

    3 3 , 2 2 5 3 , 2 24

    1 , 6 9 1 , 6 9

    1 0 , 6 64 , 5 9 0 , 7 6 0 , 0 0 2 4 , 7 0 , 0 7

    9 2 1

    =

    − µ = ⋅ = σ

    − −= ⋅ + ⋅ +

    − −+ + ⋅ =

    = − − − + = − = −

    Dal confronto risulta che entrambe le distribuzioni presentano un valore negativo dell’indice di Fisher, quindi un’asimmetria negativa, che è leggermente più accentuata per i consumatori CH.

    IL BOXPLOTPermette di studiare graficamente la forma di una distribuzioneCostruzione del boxplot:Costruzione del boxplot:

    1. Si determinano i quantili: x(1), Q1, Q2 = Me, Q3, x(n)2. Si disegna una scatola di estremi Q1 e Q3 tagliata

    sulla mediana

    Q 1 Me Q 3

    3. Si calcolano i valori a e b:( ) ( )1 3 1 3 3 11 , 5 ; 1 , 5a Q Q Q b Q Q Q= − − = + −

    4. Si calcolano i valori αααα e ββββ:αααα = minimo dei valori maggiore di aββββ = massimo dei valori minori di b

  • 03/03/2012

    29

    5. Si disegnano i baffi sui valori αααα e ββββ

    Q 1 Me Q 3 ��

    5. I valori oltre a e b sono disegnati con dei puntini(valori anomali)

    Q 1 Me Q 3 ��

    Caratteristiche del boxplot:

    • Permette di visualizzare le informazioni sullaforma e la variabilità di una distribuzione

    • Consente di confrontare graficamente la forma dipiù distribuzioni

    Esempi

    Distribuzione simmetrica

    Distribuzioneasimmetricapositiva

    Distribuzioneasimmetricanegativa

    3.54.04.55.05.56.06.5

    510152025

    -25-20-15-10-5

  • 03/03/2012

    30

    Distribuzione CHESEMPI

    Q1 = 4Q2 = Me = 5Q3 = 5

    ( ) 52QQ51Qa 131 ,, =−−=

    { } 3ax i =≥=α min( ) 56QQ51Qb 133 ,, =−+=

    { } 6bx i =≤=β max

    Q1 = 2Q2 = Me = 3Q3 = 5

    Distribuzione MM

    ( ) 52QQ51Qa 131 ,, −=−−=( ) 59QQ51Qb 133 ,, =−+=

    { } 1ax i =≥=α min{ }im a x x b 5β = ≤ = 1

    2

    3

    4

    5

    n. b

    ottig

    lie s

    ucch

    i MM

    1

    2

    3

    4

    5

    6

    n. b

    ottig

    lie s

    ucch

    i CH

    02

    46

    810

    Boxplot Numero di stabilimenti (n=50)

    02

    46

    8

    Boxplot Numero di stabilimenti (n=49)

    ( )1 3 11 , 5 1 4 , 5 3 , 5 0a Q Q Q= − − = − = − ⇒ =α

    ( )3 3 11 , 5 4 4 , 5 8 , 5 8b Q Q Q= + − = + = ⇒ =β

    Caso a) n=50:

    Caso b) n=49:

    Q1 = 1; Me = 2; Q3 = 4

    Q1 = 1; Me = 2; Q3 = 4( )1 3 11 , 5 1 4 , 5 3 , 5 0a Q Q Q= − − = − = − ⇒ =α

    ( )3 3 11 , 5 4 4 , 5 8 , 5 8b Q Q Q= + − = + = ⇒ =β

  • 03/03/2012

    31

    Le relazioni statistiche per distribuzioni doppie possono essere di due tipi:

    • Connessione: esistenza di una relazione reciproca tra i due caratteri

    –Dipendenza assoluta

    • Dipendenza: esistenza di una relazione di causa-effetto tra i due caratteri

    –Dipendenza lineare–Dipendenza in media

    • Correlazione (o intedipendenza): esistenza di una relazione di dipendenza reciproca tra i due caratteri.

    Relazioni statistiche

    INDICI DI CONNESSIONE

    Indice ChiIndice Chi--quadro di Pearson (quadro di Pearson (χχχχχχχχ22))

    ˆ = f r e q u e n z e t e o r i c h ei ji jn n

    nn

    • •=

    Per misurare la connessione bisogna considerare ledifferenze tra le frequenze teoriche e le frequenzeosservate.

    ( )1 1 1 1 1 1

    1 1 1 1

    ˆ ˆ

    1 1

    10

    k h k h k h

    i j i j i j i ji j i j i j

    k h k h

    i j i ji j i j

    n n n n

    n n n n n nn n

    n n n n nn

    = = = = = =

    • • • •= = = =

    − = − =

    = − = − =

    = − ⋅ = − =

    ∑ ∑ ∑ ∑ ∑ ∑

    ∑ ∑ ∑ ∑

  • 03/03/2012

    32

    20 χ≤ ≤ ∞

    2 0χ = Non esiste connessione (esiste indipendenza)tra X ed Y. Ogni frequenza congiunta è pari allarispettiva frequenza teorica.

    2 0χ > Esiste connessione (non esiste indipendenza)tra X ed Y. Almeno una frequenza congiunta èdiversa dalla rispettiva frequenza teorica.

    L’indice chi-quadro è pari alla somma dei quadrati delledifferenze tra le frequenze teoriche e le frequenzeosservate.

    Formulazione alternativaFormulazione alternativa

    ( )22 ˆˆ

    i j i j

    i ji j

    n n

    n

    −= ∑ ∑χ

    2

    ˆ

    i j

    i j i j

    n

    n= +∑ ∑

    ˆ

    i j

    i j i j

    n

    n−∑ ∑

    ˆ2

    ˆ

    i j i j

    i j i j

    n n

    n− =∑ ∑

    2

    ˆ 2ˆ

    i ji j i j

    i j i j i ji j

    nn n

    n n

    n

    • •= + − =∑ ∑ ∑ ∑ ∑ ∑

    2

    2i j

    i j i j

    nn n n

    n n• •= + − =∑ ∑

  • 03/03/2012

    33

    Indice PhiIndice Phi--quadro di Fisher (quadro di Fisher (φφφφφφφφ 22))

    { }20 m i n 1 , 1k h≤ ≤ − −φ

    2 1 1 i j j ih k n n n• •= − = − ⇒ = =φ

    2 1 i j ih n n •= − ⇒ =φ

    Perfetta dipendenza bilaterale in tabelle quadrate

    Perfetta dipendenza di Y da X in tabelle rettangolari

    2 1 i j jk n n •= − ⇒ =φ

    Perfetta dipendenza di X da Y in tabelle rettangolari

    h < k

    k < h

    negozio scelta Bar Coloniali D. Autom. S.market Totale

    CH 9 8 1 3 21

    MM 0 1 3 5 9

    Totale 9 9 4 8 30

    ( )∑ ∑

    = =

    −=χ

    k

    1i

    h

    1j ij

    2

    ijij2

    n

    nn

    ˆ

    ˆ

    negozio scelta Bar Coloniali D. Autom. S.market Totale

    CH 6,3 6,3 2,8 5,6 21

    MM 2,7 2,7 1,2 2,4 9

    Totale 9 9 4 8 30

    Frequenze teoriche ijn̂

    ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( )

    2 2 2 2

    2

    2 2 2 2

    9 6 , 3 8 6 , 3 1 2 , 8 3 5 , 6

    6 , 3 6 , 3 2 , 8 5 , 6

    0 2 , 7 1 2 , 7 3 1 , 2 5 2 , 4

    2 , 7 2 , 7 1 , 2 2 , 4

    1 , 1 6 0 , 4 6 2 , 8 2 1 3 , 2 7

    − − − −= + + + +

    − − − −+ + + + =

    = + + =L

    χ

    Metodo A.

  • 03/03/2012

    34

    negozio scelta Bar Coloniali D. Autom. S.market

    CH 81 64 1 9

    MM 0 1 9 25

    Frequenze teoriche 2ijn

    negozio scelta Bar Coloniali D. Autom. S.market

    CH 189 189 84 168

    MM 81 81 36 72

    ji nn .. ×

    [ ]

    2 8 1 6 4 1 9 1 9 2 53 0 11 8 9 1 8 9 8 4 1 6 8 8 1 3 6 7 2

    3 0 1 , 4 4 1 1 3 , 2 7

    = × + + + + + + − =

    = × − =

    χ

    ⋅=χ ∑ ∑

    = =

    1nn

    nn

    k

    1i

    h

    1j ji

    2ij2

    ..Metodo B.

    44030

    2713

    n

    1 22 ,, ==χ=Φ 20 1≤ ≤φ

    negozio

    scelta Bar Coloniali D. Autom S.market Totale

    CH 9 0 4 0 13

    MM 0 9 0 8 17

    Totale 9 9 4 8 30

    Esempi di perfetta dipendenza unilateraleEsempi di perfetta dipendenza unilaterale

    Massima dipendenza unilaterale del carattere SCELTA (X) dal carattere NEGOZIO (Y)

    jij nn .=

    negozio

    scelta Bar Coloniali D. Autom S.market Totale

    CH 21 0 0 0 21

    MM 0 0 9 0 9

    Totale 21 0 9 8 30

    Massima dipendenza unilaterale del carattere NEGOZIO (Y) dal carattere SCELTA (X)

    .iij nn =

  • 03/03/2012

    35

    DIPENDENZA IN MEDIA

    Y quantitativo Y quantitativo X qualitativo X qualitativo

    Indipendenza in media di Y da X:

    al variare delle modalità di X le medie delle distribuzioni condizionate di Y rimangono costanti.

    X quantitativo X quantitativo Y qualitativo Y qualitativo

    Indipendenza in media di X da Y:

    al variare delle modalità di Y le medie delle distribuzioni condizionate di X rimangono costanti.

    ( )

    ( )

    2

    2 |1

    | 2 2

    1

    ˆ

    i

    X

    k

    X Y y x iE X T i

    X Yh

    X

    j X jj

    n

    x n

    = •=

    •=

    −= =

    µ µση

    σµ

    ( )( )

    2

    2 |1

    | 2 2

    1

    j

    Y

    h

    Y X x Y jE X T j

    Y Xk

    Y

    i Y ii

    n

    y n

    = •=

    •=

    −= =

    µ µση

    σµ

    Rapporto di correlazione di PearsonRapporto di correlazione di Pearson

    MMMM

    XY x0 – x1 x1 – x2 … xh-1 - xh tot

    y1 n11 n12 … n1h n1.

    y2 n21 n22 … n2h n2.

    nij ni.

    yk nk1 nk2 … nkh nk.

    tot n.1 n.2 n.j n.h n

    Se y è quantitativo:

  • 03/03/2012

    36

    Proprietà:

    |0 1X Y≤ ≤η

    | 0X Y =ηPerfetta indipendenza in media: le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (µX)

    | 1X Y =η

    Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalità di Y corrisponde una sola intensità di X che presenta frequenza non nulla

    I)

    II) |0 1Y X≤ ≤η

    III) L’indice non è simmetrico

    | |Y X X Y≠η η

    IV) | | | | X Y = Y X X Y Y X X Y= ⇒ =η η η η ρ

    ESEMPIOFatturato (Y) Settore

    merceologico (X) � 200

    200-|300

    300-|400

    400-|500 >500 Totale

    Alimentare 11 1 5 1 3 21 Bevande 1 1 0 1 0 3 Health Care 6 1 1 2 2 12 I. Packaging 7 2 1 1 3 14 Totale 25 5 7 5 7 50

    ( )1| 1

    11

    1 5 0 1 1 2 5 0 1 3 5 0 5 4 5 0 1 1 2 5 6 3

    2 1

    3 4 8 , 4 8

    h

    Y X x j jj

    y nn

    ==•

    = =

    ⋅ + ⋅ + ⋅ + ⋅ + ⋅= =

    =

    ∑µ

    ( )

    ( )

    2

    2 |1

    | 2 2

    1

    i

    Y

    k

    Y X x Y iE X T i

    Y Xh

    Y

    j Y jj

    n

    y n

    = •=

    •=

    −= =

    µ µση

    σµ

  • 03/03/2012

    37

    ( )2| 2

    12

    1 5 0 1 2 5 0 1 4 5 0 12 6 6 , 6 7

    3

    h

    Y X x j jj

    y nn

    ==•

    = =

    ⋅ + ⋅ + ⋅= =

    ∑µ

    ( )3| 3

    13

    1 5 0 6 2 5 0 1 3 5 0 1 4 5 0 2 1 2 5 6 23 8 4 , 3 3

    1 2

    h

    Y X x j jj

    y nn

    ==•

    = =

    ⋅ + ⋅ + ⋅ + ⋅ + ⋅= =

    ∑µ

    ( )4| 4

    14

    1 5 0 7 2 5 0 2 3 5 0 1 4 5 0 1 1 2 5 6 34 1 2

    1 4

    h

    Y X x j jj

    y nn

    ==•

    = =

    ⋅ + ⋅ + ⋅ + ⋅ + ⋅= =

    ∑µ

    ( )1

    1 5 0 2 5 2 5 0 5 3 5 0 7 4 5 0 5 1 2 5 6 73 4 4 , 8 4

    5 0

    h

    Y j jj

    y nn

    •=

    = =

    ⋅ + ⋅ + ⋅ + ⋅ + ⋅= =

    ∑µ

    Le medie delle distribuzioni condizionate sono tutte diverse dalla media di Y per cui esiste dipendenza in media

    ( )( ) ( )( ) ( )

    2

    |1

    2 2

    2 2

    3 4 8 , 4 8 3 4 4 , 8 4 2 1 2 6 6 , 6 7 3 4 4 , 8 4 3

    3 8 4 , 3 3 3 4 4 , 8 4 1 2 4 1 2 3 4 4 , 8 4 1 4 1 0 0 . 4 7 4 , 1

    i

    k

    Y X x Y ii

    n= •=

    − =

    = − + − +

    + − + − =

    ∑ µ µ

    ( )( ) ( )( ) ( )( )

    2

    1

    2 2

    2 2

    2

    ˆ

    1 5 0 3 4 4 , 8 4 2 5 2 5 0 3 4 4 , 8 4 5

    3 5 0 3 4 4 , 8 4 7 4 5 0 3 4 4 , 8 4 5

    1 . 2 5 6 3 4 4 , 8 4 7 7 . 4 1 0 . 6 0 6

    h

    j Y jj

    y n •=

    − =

    = − + − +

    + − + −

    + − =

    ∑ µ

  • 03/03/2012

    38

    ( )

    ( )

    2

    2 |1

    | 2 2

    1

    1 0 0 . 4 7 4 , 10 , 1 1 6

    7 . 4 1 0 . 6 0 6

    i

    Y

    k

    Y X x Y iE X T i

    Y Xh

    Y

    j Y jj

    n

    y n

    = •=

    •=

    −= = =

    = =

    µ µση

    σµ

    La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO è piuttosto debole.

    CORRELAZIONE

    Misura del grado di interdipendeza (dipendenza reciproca) tra due caratteri quantitativi (variabili).

    Coefficiente di correlazione di Bravais-Pearson (ρρρρ)

    1 1

    2 2

    n n

    X Y

    x y

    x y

    x y

    M M

    ( ) ( )i x i YX Y

    X Y

    1x y

    n− µ − µ

    ρ =σ σ

    X YX Y

    X Y

    σρ =

    σ σ

    = covarianza tra X ed YX Yσ

  • 03/03/2012

    39

    La covarianza ci fornisce informazioni su come variano (co-variano) simultaneamente le due variabili considerate.

    0 I n d i p e n d e n z a

    0 I n t e r d i p e n d e n z a p o s i t i v a

    0 I n t e r d i p e n d e n z a n e g a t i v a

    X Y

    X Y

    X Y

    =><

    σσσ

    X Y− ∞ ≤ ≤ ∞σ

    1 1− ≤ ≤ρ

    0 I n c o r r e l a z i o n e

    0 C o r r e l a z i o n e p o s i t i v a

    0 C o r r e l a z i o n e p e g a t i v a

    1 M a s s i m a c o r r e l a z i o n e p o s i t i v a

    1 M a s s i m a c o r r e l a z i o n e n e g a t i v a

    =><

    == −

    ρρρ

    ρρ

    XYρIl segno di XYσdipende da

    INTERPRETAZIONE GRAFICAIncorrelazione

    Xi

    Yi

    -3 -2 -1 0 1 2 3

    -3-2

    -10

    12

    3

    Xi

    ρ=1ρ=1ρ=1ρ=1

    Correlazione diretta

    Yi

    -3 -2 -1 0 1 2

    -3-2

    -10

    12

    Yi

    Xi

    ρ=0,8ρ=0,8ρ=0,8ρ=0,8

    Correlazione diretta

    -2 -1 0 1 2 3

    -2-1

    01

    23

    ρ=0,3ρ=0,3ρ=0,3ρ=0,3Correlazione diretta

    Xi

    Yi

    -3 -2 -1 0 1 2

    -3-2

    -10

    12

    ρ=ρ=ρ=ρ=−−−−1111Correlazione inversa

    Xi

    Yi

    -2 -1 0 1 2 3

    -3-2

    -10

    12

    ρ=ρ=ρ=ρ=−−−−0,80,80,80,8

    Correlazione inversa

    Xi

    Yi

    -3 -2 -1 0 1 2

    -3-2

    -10

    12

    ρ=ρ=ρ=ρ=−−−−0,30,30,30,3

    Correlazione inversa

    Xi

    Yi

    -2 0 2 4

    -20

    2

  • 03/03/2012

    40

    Formula alternativa per la covarianza

    ( ) ( )1

    1

    1

    1

    n

    X Y i X i Yi

    n

    i i X Yi

    x yn

    x yn

    =

    =

    = − − =

    = −

    σ µ µ

    µ µ

    Correlazione per successione di valori

    1

    2 22 2

    1 1

    1

    1 1

    n

    i i X Yi

    X Yn n

    i X i Yi i

    x yn

    x yn n

    =

    = =

    −=

    − −

    ∑ ∑

    µ µρ

    µ µ

    Ricordando che:

    22 2

    1

    1 nX i X

    i

    xn =

    = −∑σ µ 22 21

    1 nY i Y

    i

    yn =

    = −∑σ µe

    ii yx2ix

    2iy

    Cliente fedele CH(X)

    fedele MM(Y)

    1 0,933 0,067 0,063 0,870 0,004

    2 0,400 0,600 0,240 0,160 0,360

    3 0,820 0,180 0,148 0,672 0,032

    4 0,978 0,022 0,022 0,956 0,000

    5 0,795 0,205 0,163 0,632 0,042

    6 0,384 0,616 0,237 0,147 0,379

    7 0,986 0,014 0,014 0,972 0,000

    8 0,993 0,007 0,007 0,986 0,000

    9 0,994 0,006 0,006 0,988 0,000

    10 1,000 0,000 0,000 1,000 0,000

    Totale 8,283 1,717 0,898 7,385 0,819

    Relativamente ai primi 10 consumatori misurare la correlazione tra i caratteri FEDELE CH e FEDELE MM.

    ESEMPIO

    1

    2 22 2

    1 1

    1

    1 1

    n

    i i X Yi

    X Yn n

    i X i Yi i

    x yn

    x yn n

    =

    = =

    −=

    − −

    ∑ ∑

    µ µρ

    µ µ

  • 03/03/2012

    41

    830

    10

    2838

    n

    xn

    1ii

    X ,,

    ===µ∑

    =

    170

    10

    7171

    n

    yn

    1ii

    Y ,,

    ===µ∑

    =

    ( )

    N

    i ii 1

    X Y x y

    x y0 8 9 8

    0 8 3 0 1 7 0 0 5 2N 1 0

    ,, , ,=σ = − µ µ = − × = −

    n2i

    i 1

    x7 3 8 5

    0 7 3 8n 1 0

    ,,= = =

    ∑n

    2i

    i 1

    y0 8 1 9

    0 0 8 2n 1 0

    ,,= = =

    ( ) ( )2 20 0 5 2

    10 7 3 8 0 8 3 0 0 8 2 0 1 7

    ,

    , , , ,

    −ρ = = −

    − −

    Massima correlazione positiva

    Correlazione per tabelle a doppia entrata

    1 1

    2 22 2

    1 1

    1ˆ ˆ

    1 1ˆ ˆ

    k h

    i i i j X Yi j

    X Yk k

    i i X i j Yi i

    x y nn

    x n y nn n

    = =

    • •= =

    −=

    − −

    ∑ ∑

    ∑ ∑

    µ µρ

    µ µ

    ESEMPIO

    A d d e t t i ( Y ) F a t t u r a t o ( X ) ≤ 2 0 0 2 0 0 - | 3 0 0 3 0 0 - | 5 5 0 5 5 0 - | 9 5 0 > 9 5 0 T o t a le

    ≤ 2 0 0 5 9 7 2 2 2 5 2 0 0 - | 3 0 0 1 1 1 2 0 5 3 0 0 - | 4 0 0 1 2 1 3 0 7 4 0 0 - | 5 0 0 0 0 0 2 3 5 > 5 0 0 0 1 0 2 5 8 T o t a le 7 1 3 9 1 1 1 0 5 0

  • 03/03/2012

    42

    Per calcolare il termine è consigliabilecostruire la tabella delle , ossia:

    ˆ ˆi j i ji j x y n∑ ∑

    ˆ ˆi j i jx y n

    100 250 425 750 3.608 100 50.000 225.000 297.500 150.000 721.600 250 25.000 62.500 106.250 375.000 0 350 35.000 175.000 148.750 787.500 0 450 0 0 0 675.000 4.870.800 1.256 0 314.000 0 1.884.000 22.658.240

    La somma degli elementi all’interno di tale tabella è pari a:

    ˆ ˆ 3 3 . 5 6 1 . 1 4 0i j i ji j x y n =∑ ∑

    da cui

    ˆ ˆ 3 3 . 5 6 1 1 4 06 7 1 . 2 2 3

    5 0

    i j i ji jx y n

    n= =

    ∑ ∑

    Per il calcolo gli altri termini:

    ˆ ix in ˆ jy jn ˆ i ix n ˆ j jy n 2ˆ ix

    2ˆ i ix n 2ˆj

    y

    2ˆj j

    y n

    100 25 100 7 2.500 700 10.000 250.000 10.000 70.000 250 5 250 13 1.250 3.250 62.500 312.500 62.500 812.500 350 7 425 9 2.450 3.825 122.500 857.500 180.625 1.625.625 450 5 750 11 2.250 8.250 202.500 1.012.500 562.500 6.187.500

    1.256 8 3.608 10 10.048 36.080 1.577.536 12.620.288 13.017.664 130.176.640 18.498 52.105 15.052.788 138.872.265

    1 1ˆ 1 8 . 4 9 8 3 6 9 , 9 6

    5 0X i i

    i

    x nn

    = = =∑µ

    1 1ˆ 5 2 . 1 0 5 1 . 0 4 2 , 1

    5 0Y j j

    j

    y nn

    = = =∑µ

    6 7 1 . 2 2 3 3 6 9 , 9 6 1 . 0 4 2 , 1 2 8 5 . 6 8 7X Y = − ⋅ =σ

    2

    1

    1 1ˆ 1 5 .0 5 2 . 7 8 8 3 0 1 .0 5 6

    5 0i

    k

    i

    i

    x nn =

    = =∑

    2

    1

    1 1ˆ 1 3 8 . 8 7 2 . 2 7 5 2 .7 7 7 . 4 4 5

    5 0

    h

    j j

    j

    y nn =

    = =∑

    ( ) ( )2 22 8 5 . 6 8 7

    3 0 1 . 0 5 6 3 6 9 , 9 6 2 . 7 7 7 . 4 4 5 1 . 0 4 2 , 1

    0 , 5 4 2

    X Y = =− −

    =

    ρ

    Correlazione diretta