nonpar parte2 2013 -...

41
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard 43 Alcune note su test non parametrici e loro applicazioni (PARTE II)

Transcript of nonpar parte2 2013 -...

Page 1: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

43

Alcune note su

test non parametrici e

loro applicazioni (PARTE II)

Page 2: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

44

Test a due campioni indipendenti – il test di Mann-Whitney

Il test di Mann-Whitney costituisce la controparte non parametrica del t

test per il confronto tra medie di due popolazioni indipendenti.

Ipotesi alla base del t test: il t test può essere usato quando la variabile di

interesse è quantitativa e quando le popolazioni hanno

distribuzione normale.

Se uno o entrambe le popolazioni non hanno distribuzione

normale e/o se la variabile di interesse è solo qualitativa ordinale,

il t test non può essere utilizzato.

In tali casi si può ricorrere al test di Mann-Whitney per la cui

applicazione si richiede che:

1. i campioni siano indipendenti;

2. la variabile di interesse sia almeno qualitativa ordinale.

Page 3: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

45

Nel t test si effettuava il confronto tra medie; in questo caso l’idea è

quella di effettuare il confronto tra i parametri di posizione delle due

popolazioni. In particolare si analizzano le mediane.

Indichiamo con θ1 la mediana della prima popolazione e con θ2 la

mediana della seconda popolazione.

I diversi set di ipotesi sono:

0 1 2

1 1 2

:

:

H

H

θ θ

θ θ

=

>

0 1 2

1 1 2

:

:

H

H

θ θ

θ θ

=

<

0 1 2

1 1 2

:

:

H

H

θ θ

θ θ

=

Page 4: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

46

Come già osservato nel caso del test di Wilcoxon per campioni appaiati,

in realtà le ipotesi poste a confronto sono più generali1.

Non assumiamo che le distribuzioni delle due popolazioni siano uguali a

meno della mediane (la cui ipotesi di uguaglianza è sottoposta a verifica).

Le due ipotesi poste a confronto sono ad esempio per il caso del test

bilaterale:

0

1

: le due distribuzioni sono identiche

: le osservazioni derivanti dalle due distribuzioni sono sistematicamente diverse

H

H

invece di 0 1 2

1 1 2

:

:

H

H

θ θ

θ θ

=

1 Qui abbiamo presentato la formulazione delle ipotesi basata sulle mediane in quanto Minitab presenta il suo

output finale in termini di mediane ETA1 (per θ1) e ETA2 (per θ1) e loro differenza.

Page 5: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

47

Esempio3: un’azienda che opera nel settore della televisione satellitare

vuole verificare se i redditi medi delle famiglie che sottoscrivono contratti

per TV satellitari sono maggiori di quelli delle famiglie che non

sottoscrivono contratti per TV satellitari. Si selezionano due campioni:

uno (di numerosità n1=14) di famiglie che hanno la TV satellitare; uno (di

numerosità n2=13) di famiglie che non hanno la TV satellitare. SatTV NonSatTV

24500 41000

39400 32500

36800 33000

43000 21000

57960 40500

32000 32400

61000 16000

34000 21500

43500 39500

55000 27600

39000 43500

62500 51900

61400 27800

53000

Page 6: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

48

Se i redditi dei sottoscrittori di abbonamenti SatTV fossero maggiori, ci

aspetteremmo di vedere redditi del primo campione (SatTV) più alti dei

redditi del secondo campione (NonSatTV).

Pertanto, per effettuare un confronto diretto tra i redditi nei due gruppi,

l’idea è quella di

1. fondere i due campioni in uno solo di numerosità n1+n2 (creando così

una colonna di n1+n2 osservazioni). A questa colonna con le osservazioni

di entrambi i campioni si aggiunge una colonna che identifica il gruppo

(SatTV o NonSatTV) a cui appartiene ciascuna osservazione;

2. mettere in ordine crescente le n1+n2 osservazioni e assegnare i ranghi

da 1 a n1+n2 (=27 nell’esempio).

Page 7: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13

49

Reddito Gruppo Rango

16000 NonSatTV 1

21000 NonSatTV 2

21500 NonSatTV 3

24500 SatTV 4

27600 NonSatTV 5

27800 NonSatTV 6

32000 SatTV 7

32400 NonSatTV 8

32500 NonSatTV 9

33000 NonSatTV 10

34000 SatTV 11

36800 SatTV 12

39000 SatTV 13

39400 SatTV 14

39500 NonSatTV 15

40500 NonSatTV 16

41000 NonSatTV 17

43000 SatTV 18

43500 SatTV 19.5

43500 NonSatTV 19.5

51900 NonSatTV 21

53000 SatTV 22

55000 SatTV 23

57960 SatTV 24

61000 SatTV 25

61400 SatTV 26

62500 SatTV 27

Qui abbiamo fuso i nostri

due campioni e ordinato

in modo crescente

(secondo il reddito) le

unità.

Quindi abbiamo

assegnato i ranghi.

Vediamo che il reddito

43500 è stato osservato

due volte e quindi, come

visto nel caso dei

precedenti test non

parametrici) alle unità

viene assegnato il rango

medio.

Se i redditi dei

sottoscrittori (SatTV)

fossero maggiori dei

redditi dei non

sottoscrittori

(NonSatTV), le unità

SatTV dovrebbero avere

sistematicamente ranghi

più alti (in merito alla

posizione occupata

secondo il reddito).

Page 8: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

50

L’ipotesi che vogliamo verificare è

0

1

: le due distribuzioni sono identiche

: le osservazioni derivanti da SatTV sono sistematicamente maggiori di quelle di NonSatTV

H

H

In termini di mediane abbiamo 0 SatTV NonSatTV

1 SatTV NonSatTV

:

:

H

H

θ θ

θ θ

=

>

Codifichiamo il gruppo SatTv come gruppo1 e il gruppo NonSatTV come

gruppo2.

Indichiamo con R1i (i = 1,..., n1) i ranghi delle osservazioni del primo

campione.

La statistica di Mann-Whitney è data dalla somma dei ranghi delle unità

del gruppo 1 (SatTV). In formule 1

1 11

n

ii

W R=

=∑

Nel nostro esempio

W1= 4+7+11+12+13+14+18+19.5+22+23+24+25+26+27 = 245.5

Page 9: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

51

Quanto è alto questo valore?

Un primo termine di raffronto ci può essere dato dal valore della somma

dei ranghi di tutte le 27 osservazioni.

Questa altro non è che la somma dei numeri interi da 1 a 27.

In generale è vero che la somma dei primi n numeri interi è data da ( )

1

1

2

n

i

n ni

=

+=∑

Quindi la somma dei ranghi da 1 a 27 è pari 27(27+1)/2=378.

Ne deduciamo che:

1. se la somma dei ranghi del gruppo1 (SatTV) è pari 245.5 allora la

somma dei ranghi del gruppo2 (NonSatTV) è pari a 378–245.5 =132.5;

2. la somma dei ranghi del gruppo1 ci appare piuttosto grande (molto più

vicina al valore 370) di quanto lo sia la somma dei ranghi del gruppo2.

Page 10: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

52

In generale per decidere occorre conoscere la distribuzione di probabilità

della statistica di Mann-Whitney 1

1 11

n

ii

W R=

=∑ .

Questa è stata tabulata per valori piccoli delle numerosità campionarie n1

e n2. Quando queste numerosità campionarie sono maggiori di 20 si può

ricorrere all’approssimazione normale. Questa poggia su valori noti della

distribuzione. In particolare:

( )( )

( )( )

1 1 21

1 2 1 21

1E

2

1Var

12

n n nW

n n n nW

+ +=

+ +=

Possedere la media e la varianza della distribuzione di W1 consente di

procedere alla standardizzazione e all’uso dell’approssimazione normale.

La scelta tra le due ipotesi avviene mediante calcolo delle zone di rifiuto

e di accettazione oppure mediante il calcolo del livello di significatività

osservato (p-value).

Page 11: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

53

Ecco l’output che ci restituisce Minitab:

Mann-Whitney Test and CI: SatTV; NonSatTV N Median

SatTV 14 43250

NonSatTV 13 32500

Point estimate for ETA1-ETA2 is 12500

95,1 Percent CI for ETA1-ETA2 is (3000;22000)

W = 245,5

Test of ETA1 = ETA2 vs ETA1 > ETA2 is significant at 0,0087

The test is significant at 0,0087 (adjusted for ties)

Il test quindi risulta significativo e il reddito medio dei sottoscrittori di

abbonamenti SatTV è significativamente superiore.

Page 12: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

54

Con riferimento al nostro esempio vediamo quale funzione usare:

Il test di Mann-

Whitney in Minitab

è semplicemente

indicato come

Mann-Whitney

Page 13: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

55

La finestra di dialogo chiede:

- la specificazione del primo

campione (nel nostro esempio

scegliamo la colonna di dati del

campione SatTV);

- la specificazione del secondo

campione (nel nostro esempio

scegliamo la colonna di dati del

campione NonSatTV);

- la specificazione del tipo di ipotesi

alternativa “Alterntive” (se

unilaterale > allora “greater than”,

se unilaterale < allora “less than”,

se bilaterale allora “note qual”)

Page 14: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

56

3. TEST A c CAMPIONI – IL TEST DI KRUSKAL-WALLIS

Quando si vogliono confrontare i valori medi di c popolazioni (ossia si

vuole vedere se c campioni diversi provengono dalla stessa popolazione)

allora avete usato l’ANOVA a una via.

Per potere correttamente eseguire l’ANOVA è necessario che siano

verificate le assunzioni:

1. le c popolazioni hanno distribuzione normale;

2. le c popolazioni hanno tutte la stessa varianza;

3. le osservazioni campionarie vengono estratte casualmente e

indipendentemente dalle c popolazioni;

4. i dati sono quantitativi continui.

Quando l’ipotesi di normalità, e/o di uguali varianze e/o di dati

quantitativi continui viene/vengono meno, non si può più usare

l’ANOVA. Allora si può ricorrere a un opportuno test non parametrico.

Page 15: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

57

Il test di Kruskal-Wallis costituisce l’alternativa non parametrica

all’ANOVA a una via.

���� Il test di Kruskal-Wallis può essere utilizzato anche quando i dati sono

qualitativi ordinali e non richiede nessuna assunzione sulla forma della

distribuzione delle popolazioni.

���� Il test di Kruskal-Wallis richiede che le osservazioni campionarie

vengano estratte casualmente e indipendentemente dalle c popolazioni.

���� Il test di Kruskal-Wallis si occupa del seguente problema di verifica

di ipotesi:

0

1

: le distribuzioni sono identiche

: almeno una delle distribuzioni è diversa

H c

H c

Il test verifica se i c campioni provengono dalla stessa popolazione o se

almeno un campione viene da una diversa popolazione.

In generale abbiamo c campioni di numerosità n1,...,nj,...,nc non

necessariamente uguali fra loro.

Si indica con n il numero totale di osservazioni 1

c

jj

n n=

= ∑

Page 16: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

58

Esempio4: si consideri un problema di “agribusiness”. Alcuni ricercatori

sono interessati a identificare se ci sono condizioni sotto le quali gli alberi

di Natale crescono più velocemente.

A tal fine 24 piantine di abete sono casualmente divise in 4 gruppi (c= 4).

Tutte le piantine sono coltivate nello stesso campo ma con 4 modalità

diverse: 1) in modo naturale (Natural); 2) con acqua extra (Water); 3) con

fertilizzate (Fertil); 4) con acqua extra e fertilizzante (Wat+Fert). Dopo

un anno viene misurata l’altezza delle piante.

Natural Water Fertil Wat+Fert

2.4 3 3.4 5.5

1.5 3.7 4.3 6.1

2.1 3.4 3 4.9

3.4 2.7 4.9 4.6

2.7 4 5.2 4.3

1.8 3.7 3.7 6.7

I ricercatori sono interessati a verificare se c’è una differenza

significativa nella crescita degli alberi appartenenti a gruppi diversi.

Page 17: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

59

Vediamo che i gruppi sono 4, c = 4.

Tutti i gruppi in questo esempio hanno uguale numerosità:

n1 = n2 = n3 = n4 = 6

per un totale di n1 + n2 + n3 + n4 = n = 24.

L’idea è quella di eseguire una sorta di ANOVA ma lavorando sui ranghi

e non sulle misurazioni.

Ciò vuol dire che:

1. fondiamo i 4 campioni in uno solo di numerosità n. In sostanza

impiliamo i nostri 4 dataset in una sola colonna con le misurazioni dei

quattro campioni. A questa colonna affianchiamo una colonna che

identifica il gruppo (Natural, Water, Fertil, Wat+Fert) a cui appartiene

ciascuna misurazione;

2. mettiamo in ordine crescente le misurazioni e assegniamo i ranghi da 1

a n (=24 nell’esempio).

Page 18: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13

60

Vediamo il risultato di queste due operazioni:

Altezza(m) Gruppo Rango

1.5 Natural 1

1.8 Natural 2

2.1 Natural 3

2.4 Natural 4

2.7 Natural 5.5

2.7 Water 5.5

3 Water 7.5

3 Fertil 7.5

3.4 Natural 10

3.4 Water 10

3.4 Fertil 10

3.7 Water 13

3.7 Water 13

3.7 Fertil 13

4 Water 15

4.3 Fertil 16.5

4.3 Wat+Fert 16.5

4.6 Wat+Fert 18

4.9 Fertil 19.5

4.9 Wat+Fert 19.5

5.2 Fertil 21

5.5 Wat+Fert 22

6.1 Wat+Fert 23

6.7 Wat+Fert 24

Se i 4 trattamenti non

producessero effetti diversi

in termini di crescita degli

abeti, allora ci potremmo

aspettare valori simili per le

somme dei ranghi riferite a

ciascun gruppo

separatamente studiato.

Se, invece, almeno un

trattamento fosse più

efficace, allora avremmo

sistematicamente ranghi più

elevati per le misurazioni

associate a quel trattamento

e, conseguentemente, la

loro somma sarebbe

nettamente più alta delle

altre somme.

Page 19: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

61

Dal momento che i campioni possono avere numerosità diversa, allora la

nostra attenzione non si può concentrare sulle somme dei ranghi che

competono a ciascun gruppo (perché questa somma è influenzata dalla

numerosità del gruppo) ma si deve concentrare sulla media dei ranghi che

competono a ciascun gruppo.

In sostanza l’analisi è condotta mediante il confronto tra le medie dei

ranghi dei diversi gruppi.

Introduciamo un po’ di notazione.

c = numero di campioni (o gruppi)

nj = numerosità del j-esimo campione, j = 1,...,c

n = n1 + n2 +...+ nj +...+ nc = numero totale di unità osservate

Tj = somma totale dei ranghi che competono al j-esimo gruppo, j = 1,...,c 1

j jj

R Tn

= = media dei ranghi che competono al j-esimo gruppo, j = 1,...,c

( )

1 1

11 1 1 1

2 2

c c

j j jj j

n n nR n R T

n n n= =

+ += = = =∑ ∑ = media globale dei ranghi

somma dei primi

n numeri interi

Page 20: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

62

Nel nostro esempio abbiamo che le somme totali e le medie dei ranghi dei

4 gruppi e globale sono:

Natural Water Fertil Wat+Fert Globale

Tj 25.5 64 87.5 123 jjT∑ = 300

jR 4.3 10.7 14.6 20.5 R = 12.5

Notiamo che le medie sono marcatamente diverse e crescono al crescere

dell’intensità del trattamento. Inoltre alcune medie (del gruppo “Natural”

e del gruppo “Wat+Fert” sono molto lontane dalla media globale).

Emulando quanto visto nel caso dell’analisi della varianza, la statistica

test di Kruskal-Wallis si basa sul confronto tra ciascuna media di gruppo

e la media globale. La statistica test è:

( )( )

( )

22

1 1

12 12 1

1 1 2

c c

j j j jj j

nH n R R n R

n n n n= =

+ = − = −

+ + ∑ ∑

Page 21: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

63

Attraverso alcuni passaggi algebrici si può vedere che la statistica H può

anche essere espressa come funzione delle somme totali dei ranghi di

gruppo:

( )( )

2

1

123 1

1

cj

j j

TH n

n n n=

= − ++

Sotto l’ipotesi nulla la statistica H ha distribuzione asintotica di tipo chi-

quadrato con c – 1 gradi di libertà. L’approssimazione migliora al

crescere delle numerosità campionarie n1,...,nc. L’approssimazione è già

accettabile per numerosità maggiori o uguali a 5.

Conoscendo la distribuzione della statistica H sotto H0, siamo in grado di

eseguire il test e di calcolare il p-value al fine di prendere una decisone.

Nel nostro esempio, le numerosità dei gruppi sono pari a 6 quindi la

condizione per l’uso dell’approssimazione al chi-quadrato è verificata.

Page 22: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

64

Si ottiene il seguente output:

Kruskal-Wallis Test: Altezza(m) versus Gruppo Kruskal-Wallis Test on Altezza(m)

Gruppo N Median Ave Rank Z

Fertil 6 4,000 14,6 0,83

Natural 6 2,250 4,3 -3,30

Wat+Fert 6 5,200 20,5 3,20

Water 6 3,550 10,7 -0,73

Overall 24 12,5

H = 16,77 DF = 3 P = 0,001

H = 16,86 DF = 3 P = 0,001 (adjusted for ties)

Il p-value è molto piccolo mostrando una forte significatività del test.

Quindi c’è una differenza significativa nella crescita di alberi trattati in

modo diverso.

Page 23: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

65

Vediamo come eseguire il test mediante Minitab.

Il test di Kruskal-

Wallis in Minitab è

semplicemente

indicato come

Kruskal-Wallis

Page 24: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

66

La finestra di dialogo chiede

solamente:

- la specificazione della colonna

che contiene le misurazioni (nel

nostro esempio “Altezza(m)”;

- la specificazione della colonna

che contiene l’informazione sul

greppo di appartenenza (nel

nostro esempio “Gruppo”).

Page 25: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

67

4. LA CORRELAZIONE TRA RANGHI – IL TEST DI SPEARMAN

Oggetto di grande interesse è lo studio dell’associazione/dipendenza tra

due variabili almeno qualitative ordinali.

In corsi precedenti avete studiato il coefficiente di correlazione di

Pearson che misura la dipendenza lineare tra due variabili quantitative.

In questo corso avete visto il test del chi-quadrato che si occupa dello

studio della associazione tra due variabili qualitative sconnesse.

Rimane la necessità di una misura adatta allo studio della dipendenza tra

due variabili qualitative ordinali. In questo corso avete visto l’indice γ di

Goodman e Kruskal.

Si pensi alle scale (di gradimento, importanza, soddisfazione etc...) che

spesso sono usate nelle applicazioni manageriali. Queste quasi sempre

vengono trattate con metodi che più propriamente appartengono alle

variabili quantitative. Alternativamente la loro struttura associativa viene

studiata con test tipo chi-quadrato per variabili qualitative sconnesse.

Page 26: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

68

Date due variabili almeno qualitative ordinali X e Y, le ipotesi che

dobbiamo mettere a confronto sono:

H0: X e Y sono indipendenti

H1: X e Y sono legate da dipendenza monotona (crescente o decrescente)

Due variabili almeno qualitative ordinali X e Y sono legate da dipendenza

monotona crescente se valori “grandi” di X tendono ad associarsi a valori

“grandi” di Y e valori “piccoli” di X tendono ad associarsi a valori

“piccoli” di Y.

Due variabili almeno qualitative ordinali X e Y sono legate da dipendenza

monotona decrescente se valori “grandi” di X tendono ad associarsi a

valori “piccoli” di Y e valori “piccoli” di X tendono ad associarsi a valori

“grandi” di Y.

Il test di Spearman risponde alla domanda calcolando il coefficiente di

correlazione tra ranghi campionari.

Page 27: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

69

Esempio5: si consideri un’azienda che si occupa di commercio e che ha

alle sue dipendenze vari rappresentanti di commercio. Il management si

chiede se ci sia correlazione tra km percorsi in auto e volume delle

vendite. Per rispondere a tale domanda viene preso un campione di 9

rappresentanti che operano in territori di dimensione e potenzialità

comparabili. Vengono rilevati i dati sui km percorsi in un mese e sul

volume delle vendite realizzato in un mese da ciascuno di essi.

Vendite(Euro) Km

115385 2414

338462 5792

219231 5149

307692 5310

257692 3540

300000 4023

231538 3862

326923 4988

161538 3379

Page 28: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

70

L’analisi può essere fatta mediante il coefficiente di correlazione ma

anche con una misura più robusta rispetto alla presenza di eventuali valori

anomali e/o estremi.

L’idea è quella di calcolare i ranghi per ciascuna variabile separatamente.

Indichiamo con Rxi e con Ryi i ranghi che si riferiscono alle variabili X e Y

separatamente ordinate.

Nel nostro esempio:

Vendite(Euro)

X

Km

Y

Rango(vendite)

Rxi

Rango(Km)

Ryi

115385 2414 1 1

338462 5792 9 9

219231 5149 3 7

307692 5310 7 8

257692 3540 5 3

300000 4023 6 5

231538 3862 4 4

326923 4988 8 6

161538 3379 2 2

Page 29: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

71

Il test di Spearman si basa sul coefficiente di correlazione tra ranghi.

Se X e Y sono legate da dipendenza monotona crescente allora ranghi

“grandi” di X si assoceranno più spesso a ranghi “grandi” di Y e ranghi

“piccoli” di X si assoceranno a ranghi “piccoli” di Y.

Al limite, se X e Y fossero legate da perfetta dipendenza monotona

crescente, le n coppie di ranghi osservate sarebbero:

(1, 1), (2, 2), ..., (n, n).

Cioè i ranghi sarebbero legati da una perfetta relazione lineare crescente.

Viceversa, se X e Y sono legate da dipendenza monotona decrescente,

allora ranghi “grandi” di X tendono ad associarsi a ranghi “piccoli” di Y e

ranghi “piccoli” di X tendono ad associarsi a ranghi “grandi” di Y.

Al limite, se X e Y fossero legate da perfetta dipendenza monotona

decrescente, le n coppie di ranghi osservate sarebbero:

(1, n), (2, n – 1), ..., (n, 1).

In altre parole i ranghi sarebbero legati da una perfetta relazione lineare

decrescente.

Page 30: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

72

Indichiamo con 1

1i

n

x xi

R Rn =

= ∑ e con 1

1i

n

y yi

R Rn =

= ∑ la media dei ranghi per

la variabile X e per la variabile Y rispettivamente.

Il coefficiente di correlazione tra ranghi è dato da

( )( )

( ) ( )

1

2 2

1 1

i i

i i

nx x y yi

n nx x y yi i

R R R R

R R R R

ρ=

= =

− −=

− −

∑ ∑

Attraverso alcuni passaggi algebrici si ottiene la seguente espressione

(equivalente ma più comoda ai fini del calcolo) del coefficiente di

correlazione tra ranghi Spearman:

( )2

21

61

1

n

ii

dn n

ρ=

= −−

dove i ii x yd R R= − è la differenza tra la coppia dei ranghi associata a

ciascuna unità di osservazione.

Page 31: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

73

Nel nostro esempio:

Vendite(Euro)

X

Km

Y

Rango(vendite)

Rxi

Rango(Km)

Ryi di

2id

115385 2414 1 1 0 0

338462 5792 9 9 0 0

219231 5149 3 7 -4 16

307692 5310 7 8 -1 1

257692 3540 5 3 2 4

300000 4023 6 5 1 1

231538 3862 4 4 0 0

326923 4988 8 6 2 4

161538 3379 2 2 0 0

pertanto

( ) ( )2

2 21

6 61 1 26 0.783

1 9 9 1

n

ii

dn n

ρ=

= − = − =− −

Page 32: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

74

Essendo il ρ di Spearman un coefficiente di correlazione, anch’esso,

come il più noto coefficiente di correlazione di Pearson, assume valori

compresi tra –1 e +1 estremi inclusi.

1 1ρ− ≤ ≤ +

Valori di ρ vicino a +1 indicano elevata dipendenza monotona crescente

tra le due variabili.

Valori di ρ vicino a –1 indicano elevata dipendenza monotona

decrescente tra le due variabili.

Valori di ρ vicino a 0 indicano l’assenza di dipendenza monotona tra le

due variabili.

Nel nostro esempio ρ = 0.783. Quindi le due variabili presentano una

forte dipendenza monotona2.

2 Il coefficiente di correlazione di Pearson risulta pari a 0.803.

Page 33: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

75

E’ interessante che al coefficiente ρ di Spearman può anche essere

associato un test statistico per la verifica delle ipotesi

H0: X e Y sono indipendenti

H1: X e Y sono legate da dipendenza monotona (crescente o decrescente)

ossia: 0

1

: 0

: 0

H

H

ρ

ρ

=

A tal fine è necessario conoscere la distribuzione della statistica ρ.

Tale distribuzione è nota ed è anche tabulata.

1. Per numerosità campionarie piccole (n ≤ 30) è necessario ricorrere a

queste tavole (riportate nell’ultima pagina della presente nota).

2. Per numerosità campionarie superiori a 30 si può usare

l’approssimazione normale in quanto è stato dimostrato che ρ tende ad

avere distribuzione normale di media 0 e varianza 1/(n – 1). Pertanto 0

11 1

nn

ρρ

−= −

− tende ad avere distribuzione normale standardizzata.

Page 34: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

76

Pertanto si può decidere come segue:

1. se n ≤ 30, fissato α, si confronta il valore di ρ calcolato sul campione

con il valore critico fornito dalle tavole per l’α prefissato3.

Si rifiuta l’ipotesi 0 : 0H ρ = se 2 2

o se r rα αρ ρ> < − dove 2

rα indica

il valore critico letto sulle tavole;

2. se n > 30, si calcola sulla base dei dati osservati 1nρ − e, fissato α, lo

si confronta con il valore critico 2

zα .

Si rifiuta l’ipotesi 0 : 0H ρ = se 2 2

1 o se 1n z n zα αρ ρ− > − < − .

3 Le tavole qui fornite presentano solo i valori critici per α = 0.01 e α = 0.05.

Page 35: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

77

Tornando al nostro esempio dobbiamo valutare se il valore trovato

ρ=0.783 è significativamente diverso da zero.

La numerosità campionaria è molti piccola (n = 9) quindi dobbiamo usare

le tavole.

Fissiamo un livello di significatività α = 0.05.

Il valore critico è: 0.686.

Poiché il ρ osservato è maggiore di 0.686, possiamo rifiutare l’ipotesi

nulla e concludere che c’è evidenza di dipendenza monotona crescente tra

il numero di km percorsi in un mese e il volume di vendite realizzato in

un mese dai rappresentanti di commercio.

Se avessimo richiesto un livello di significatività più selettivo, α = 0.01,

la conclusione sarebbe stata diversa in quanto il valore critico associato è

pari a 0.833 e il nostro ρ osservato (=0.783) è inferiore.

Page 36: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

78

Minitab esegue il calcolo di ρ ma non esegue il test statistico. Esso è

comunque molto facile da eseguire così come illustrato nelle pagine

precedenti. Vediamo come calcolare ρ con Minitab

L’indice di Spearman si trova seguendo il cammino

Stat → Tables → Cross Tabulation and Chi-Square.

Page 37: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

79

Si apre una finestra di dialogo in cui; 1) si devono specificare le variabili

tra cui si calcola la correlazione e 2) si deve cliccare su “Other Stats”

Si apre un’altra finestra di dialogo (Cross Tabulation – Other Statistics) in

cui si seleziona la voce “Correlation coefficients for ordinal categories”.

Page 38: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

80

L’output risulta il seguente:

Tabulated statistics: Vendite(Euro); Km Rows: Vendite(Euro) Columns: Km

2414 3379 3540 3862 4023 4988 5149 5310 5792 All

115385 1 0 0 0 0 0 0 0 0 1

161538 0 1 0 0 0 0 0 0 0 1

219231 0 0 0 0 0 0 1 0 0 1

231538 0 0 0 1 0 0 0 0 0 1

257692 0 0 1 0 0 0 0 0 0 1

300000 0 0 0 0 1 0 0 0 0 1

307692 0 0 0 0 0 0 0 1 0 1

326923 0 0 0 0 0 1 0 0 0 1

338462 0 0 0 0 0 0 0 0 1 1

All 1 1 1 1 1 1 1 1 1 9

Cell Contents: Count

Pearson's r 0,783333

Spearman's rho 0,783333

Page 39: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

81

Esempio6: la direzione di una catena di negozi con larga distribuzione

sul territorio si chiede se vi sia dipendenza tra il volume delle vendite e la

dimensione del negozio. Viene preso in considerazione un campione di

n=7 punti vendita sui quali sono rilevate entrambe le informazioni.

I dati forniti si riferiscono solo al posto in graduatoria occupato da

ciascuno dei 7 punti vendita rispetto alle due variabili separatamente

considerate. Vendite (Rango)

Dimensione (Rango)

6 7

2 2

3 6

7 5

5 4

1 1

4 3

Page 40: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

82

Si ottiene il seguente risultato:

Spearman's rho 0,714286

che suggerisce la presenza di una certa dipendenza monotona crescente

tra le due variabili.

Vediamo se questa è anche significativa.

Fissiamo un livello di significatività α = 0.05.

Il valore critico per n = 7 è 0.786. Quindi, nonostante il valore osservato

di ρ sia 0.71, il campione, anche a causa della sua numerosità esigua, non

porta sufficiente evidenza per affermare che c’è dipendenza monotona tra

dimensione del negozio e volume delle vendite. Quindi ci sono

sicuramente altri fattori importanti (ad es. l’ubicazione, l’attrattività del

negozio, la densità abitativa, ecc.) che possono incidere sulla

determinazione del volume delle vendite.

Page 41: nonpar parte2 2013 - host.uniroma3.ithost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/577... · Test a due campioni indipendenti – il test di Mann-Whitney ... precedenti

Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard

83

Tavola dei valori critici per il test di Spearman per α = 0.05 e α = 0.01