nonpar parte2 2013 -...
Transcript of nonpar parte2 2013 -...
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
43
Alcune note su
test non parametrici e
loro applicazioni (PARTE II)
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
44
Test a due campioni indipendenti – il test di Mann-Whitney
Il test di Mann-Whitney costituisce la controparte non parametrica del t
test per il confronto tra medie di due popolazioni indipendenti.
Ipotesi alla base del t test: il t test può essere usato quando la variabile di
interesse è quantitativa e quando le popolazioni hanno
distribuzione normale.
Se uno o entrambe le popolazioni non hanno distribuzione
normale e/o se la variabile di interesse è solo qualitativa ordinale,
il t test non può essere utilizzato.
In tali casi si può ricorrere al test di Mann-Whitney per la cui
applicazione si richiede che:
1. i campioni siano indipendenti;
2. la variabile di interesse sia almeno qualitativa ordinale.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
45
Nel t test si effettuava il confronto tra medie; in questo caso l’idea è
quella di effettuare il confronto tra i parametri di posizione delle due
popolazioni. In particolare si analizzano le mediane.
Indichiamo con θ1 la mediana della prima popolazione e con θ2 la
mediana della seconda popolazione.
I diversi set di ipotesi sono:
0 1 2
1 1 2
:
:
H
H
θ θ
θ θ
=
>
0 1 2
1 1 2
:
:
H
H
θ θ
θ θ
=
<
0 1 2
1 1 2
:
:
H
H
θ θ
θ θ
=
≠
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
46
Come già osservato nel caso del test di Wilcoxon per campioni appaiati,
in realtà le ipotesi poste a confronto sono più generali1.
Non assumiamo che le distribuzioni delle due popolazioni siano uguali a
meno della mediane (la cui ipotesi di uguaglianza è sottoposta a verifica).
Le due ipotesi poste a confronto sono ad esempio per il caso del test
bilaterale:
0
1
: le due distribuzioni sono identiche
: le osservazioni derivanti dalle due distribuzioni sono sistematicamente diverse
H
H
invece di 0 1 2
1 1 2
:
:
H
H
θ θ
θ θ
=
≠
1 Qui abbiamo presentato la formulazione delle ipotesi basata sulle mediane in quanto Minitab presenta il suo
output finale in termini di mediane ETA1 (per θ1) e ETA2 (per θ1) e loro differenza.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
47
Esempio3: un’azienda che opera nel settore della televisione satellitare
vuole verificare se i redditi medi delle famiglie che sottoscrivono contratti
per TV satellitari sono maggiori di quelli delle famiglie che non
sottoscrivono contratti per TV satellitari. Si selezionano due campioni:
uno (di numerosità n1=14) di famiglie che hanno la TV satellitare; uno (di
numerosità n2=13) di famiglie che non hanno la TV satellitare. SatTV NonSatTV
24500 41000
39400 32500
36800 33000
43000 21000
57960 40500
32000 32400
61000 16000
34000 21500
43500 39500
55000 27600
39000 43500
62500 51900
61400 27800
53000
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
48
Se i redditi dei sottoscrittori di abbonamenti SatTV fossero maggiori, ci
aspetteremmo di vedere redditi del primo campione (SatTV) più alti dei
redditi del secondo campione (NonSatTV).
Pertanto, per effettuare un confronto diretto tra i redditi nei due gruppi,
l’idea è quella di
1. fondere i due campioni in uno solo di numerosità n1+n2 (creando così
una colonna di n1+n2 osservazioni). A questa colonna con le osservazioni
di entrambi i campioni si aggiunge una colonna che identifica il gruppo
(SatTV o NonSatTV) a cui appartiene ciascuna osservazione;
2. mettere in ordine crescente le n1+n2 osservazioni e assegnare i ranghi
da 1 a n1+n2 (=27 nell’esempio).
Corso di Statistica per il Management – A.A. 2012/13
49
Reddito Gruppo Rango
16000 NonSatTV 1
21000 NonSatTV 2
21500 NonSatTV 3
24500 SatTV 4
27600 NonSatTV 5
27800 NonSatTV 6
32000 SatTV 7
32400 NonSatTV 8
32500 NonSatTV 9
33000 NonSatTV 10
34000 SatTV 11
36800 SatTV 12
39000 SatTV 13
39400 SatTV 14
39500 NonSatTV 15
40500 NonSatTV 16
41000 NonSatTV 17
43000 SatTV 18
43500 SatTV 19.5
43500 NonSatTV 19.5
51900 NonSatTV 21
53000 SatTV 22
55000 SatTV 23
57960 SatTV 24
61000 SatTV 25
61400 SatTV 26
62500 SatTV 27
Qui abbiamo fuso i nostri
due campioni e ordinato
in modo crescente
(secondo il reddito) le
unità.
Quindi abbiamo
assegnato i ranghi.
Vediamo che il reddito
43500 è stato osservato
due volte e quindi, come
visto nel caso dei
precedenti test non
parametrici) alle unità
viene assegnato il rango
medio.
Se i redditi dei
sottoscrittori (SatTV)
fossero maggiori dei
redditi dei non
sottoscrittori
(NonSatTV), le unità
SatTV dovrebbero avere
sistematicamente ranghi
più alti (in merito alla
posizione occupata
secondo il reddito).
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
50
L’ipotesi che vogliamo verificare è
0
1
: le due distribuzioni sono identiche
: le osservazioni derivanti da SatTV sono sistematicamente maggiori di quelle di NonSatTV
H
H
In termini di mediane abbiamo 0 SatTV NonSatTV
1 SatTV NonSatTV
:
:
H
H
θ θ
θ θ
=
>
Codifichiamo il gruppo SatTv come gruppo1 e il gruppo NonSatTV come
gruppo2.
Indichiamo con R1i (i = 1,..., n1) i ranghi delle osservazioni del primo
campione.
La statistica di Mann-Whitney è data dalla somma dei ranghi delle unità
del gruppo 1 (SatTV). In formule 1
1 11
n
ii
W R=
=∑
Nel nostro esempio
W1= 4+7+11+12+13+14+18+19.5+22+23+24+25+26+27 = 245.5
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
51
Quanto è alto questo valore?
Un primo termine di raffronto ci può essere dato dal valore della somma
dei ranghi di tutte le 27 osservazioni.
Questa altro non è che la somma dei numeri interi da 1 a 27.
In generale è vero che la somma dei primi n numeri interi è data da ( )
1
1
2
n
i
n ni
=
+=∑
Quindi la somma dei ranghi da 1 a 27 è pari 27(27+1)/2=378.
Ne deduciamo che:
1. se la somma dei ranghi del gruppo1 (SatTV) è pari 245.5 allora la
somma dei ranghi del gruppo2 (NonSatTV) è pari a 378–245.5 =132.5;
2. la somma dei ranghi del gruppo1 ci appare piuttosto grande (molto più
vicina al valore 370) di quanto lo sia la somma dei ranghi del gruppo2.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
52
In generale per decidere occorre conoscere la distribuzione di probabilità
della statistica di Mann-Whitney 1
1 11
n
ii
W R=
=∑ .
Questa è stata tabulata per valori piccoli delle numerosità campionarie n1
e n2. Quando queste numerosità campionarie sono maggiori di 20 si può
ricorrere all’approssimazione normale. Questa poggia su valori noti della
distribuzione. In particolare:
( )( )
( )( )
1 1 21
1 2 1 21
1E
2
1Var
12
n n nW
n n n nW
+ +=
+ +=
Possedere la media e la varianza della distribuzione di W1 consente di
procedere alla standardizzazione e all’uso dell’approssimazione normale.
La scelta tra le due ipotesi avviene mediante calcolo delle zone di rifiuto
e di accettazione oppure mediante il calcolo del livello di significatività
osservato (p-value).
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
53
Ecco l’output che ci restituisce Minitab:
Mann-Whitney Test and CI: SatTV; NonSatTV N Median
SatTV 14 43250
NonSatTV 13 32500
Point estimate for ETA1-ETA2 is 12500
95,1 Percent CI for ETA1-ETA2 is (3000;22000)
W = 245,5
Test of ETA1 = ETA2 vs ETA1 > ETA2 is significant at 0,0087
The test is significant at 0,0087 (adjusted for ties)
Il test quindi risulta significativo e il reddito medio dei sottoscrittori di
abbonamenti SatTV è significativamente superiore.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
54
Con riferimento al nostro esempio vediamo quale funzione usare:
Il test di Mann-
Whitney in Minitab
è semplicemente
indicato come
Mann-Whitney
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
55
La finestra di dialogo chiede:
- la specificazione del primo
campione (nel nostro esempio
scegliamo la colonna di dati del
campione SatTV);
- la specificazione del secondo
campione (nel nostro esempio
scegliamo la colonna di dati del
campione NonSatTV);
- la specificazione del tipo di ipotesi
alternativa “Alterntive” (se
unilaterale > allora “greater than”,
se unilaterale < allora “less than”,
se bilaterale allora “note qual”)
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
56
3. TEST A c CAMPIONI – IL TEST DI KRUSKAL-WALLIS
Quando si vogliono confrontare i valori medi di c popolazioni (ossia si
vuole vedere se c campioni diversi provengono dalla stessa popolazione)
allora avete usato l’ANOVA a una via.
Per potere correttamente eseguire l’ANOVA è necessario che siano
verificate le assunzioni:
1. le c popolazioni hanno distribuzione normale;
2. le c popolazioni hanno tutte la stessa varianza;
3. le osservazioni campionarie vengono estratte casualmente e
indipendentemente dalle c popolazioni;
4. i dati sono quantitativi continui.
Quando l’ipotesi di normalità, e/o di uguali varianze e/o di dati
quantitativi continui viene/vengono meno, non si può più usare
l’ANOVA. Allora si può ricorrere a un opportuno test non parametrico.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
57
Il test di Kruskal-Wallis costituisce l’alternativa non parametrica
all’ANOVA a una via.
���� Il test di Kruskal-Wallis può essere utilizzato anche quando i dati sono
qualitativi ordinali e non richiede nessuna assunzione sulla forma della
distribuzione delle popolazioni.
���� Il test di Kruskal-Wallis richiede che le osservazioni campionarie
vengano estratte casualmente e indipendentemente dalle c popolazioni.
���� Il test di Kruskal-Wallis si occupa del seguente problema di verifica
di ipotesi:
0
1
: le distribuzioni sono identiche
: almeno una delle distribuzioni è diversa
H c
H c
Il test verifica se i c campioni provengono dalla stessa popolazione o se
almeno un campione viene da una diversa popolazione.
In generale abbiamo c campioni di numerosità n1,...,nj,...,nc non
necessariamente uguali fra loro.
Si indica con n il numero totale di osservazioni 1
c
jj
n n=
= ∑
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
58
Esempio4: si consideri un problema di “agribusiness”. Alcuni ricercatori
sono interessati a identificare se ci sono condizioni sotto le quali gli alberi
di Natale crescono più velocemente.
A tal fine 24 piantine di abete sono casualmente divise in 4 gruppi (c= 4).
Tutte le piantine sono coltivate nello stesso campo ma con 4 modalità
diverse: 1) in modo naturale (Natural); 2) con acqua extra (Water); 3) con
fertilizzate (Fertil); 4) con acqua extra e fertilizzante (Wat+Fert). Dopo
un anno viene misurata l’altezza delle piante.
Natural Water Fertil Wat+Fert
2.4 3 3.4 5.5
1.5 3.7 4.3 6.1
2.1 3.4 3 4.9
3.4 2.7 4.9 4.6
2.7 4 5.2 4.3
1.8 3.7 3.7 6.7
I ricercatori sono interessati a verificare se c’è una differenza
significativa nella crescita degli alberi appartenenti a gruppi diversi.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
59
Vediamo che i gruppi sono 4, c = 4.
Tutti i gruppi in questo esempio hanno uguale numerosità:
n1 = n2 = n3 = n4 = 6
per un totale di n1 + n2 + n3 + n4 = n = 24.
L’idea è quella di eseguire una sorta di ANOVA ma lavorando sui ranghi
e non sulle misurazioni.
Ciò vuol dire che:
1. fondiamo i 4 campioni in uno solo di numerosità n. In sostanza
impiliamo i nostri 4 dataset in una sola colonna con le misurazioni dei
quattro campioni. A questa colonna affianchiamo una colonna che
identifica il gruppo (Natural, Water, Fertil, Wat+Fert) a cui appartiene
ciascuna misurazione;
2. mettiamo in ordine crescente le misurazioni e assegniamo i ranghi da 1
a n (=24 nell’esempio).
Corso di Statistica per il Management – A.A. 2012/13
60
Vediamo il risultato di queste due operazioni:
Altezza(m) Gruppo Rango
1.5 Natural 1
1.8 Natural 2
2.1 Natural 3
2.4 Natural 4
2.7 Natural 5.5
2.7 Water 5.5
3 Water 7.5
3 Fertil 7.5
3.4 Natural 10
3.4 Water 10
3.4 Fertil 10
3.7 Water 13
3.7 Water 13
3.7 Fertil 13
4 Water 15
4.3 Fertil 16.5
4.3 Wat+Fert 16.5
4.6 Wat+Fert 18
4.9 Fertil 19.5
4.9 Wat+Fert 19.5
5.2 Fertil 21
5.5 Wat+Fert 22
6.1 Wat+Fert 23
6.7 Wat+Fert 24
Se i 4 trattamenti non
producessero effetti diversi
in termini di crescita degli
abeti, allora ci potremmo
aspettare valori simili per le
somme dei ranghi riferite a
ciascun gruppo
separatamente studiato.
Se, invece, almeno un
trattamento fosse più
efficace, allora avremmo
sistematicamente ranghi più
elevati per le misurazioni
associate a quel trattamento
e, conseguentemente, la
loro somma sarebbe
nettamente più alta delle
altre somme.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
61
Dal momento che i campioni possono avere numerosità diversa, allora la
nostra attenzione non si può concentrare sulle somme dei ranghi che
competono a ciascun gruppo (perché questa somma è influenzata dalla
numerosità del gruppo) ma si deve concentrare sulla media dei ranghi che
competono a ciascun gruppo.
In sostanza l’analisi è condotta mediante il confronto tra le medie dei
ranghi dei diversi gruppi.
Introduciamo un po’ di notazione.
c = numero di campioni (o gruppi)
nj = numerosità del j-esimo campione, j = 1,...,c
n = n1 + n2 +...+ nj +...+ nc = numero totale di unità osservate
Tj = somma totale dei ranghi che competono al j-esimo gruppo, j = 1,...,c 1
j jj
R Tn
= = media dei ranghi che competono al j-esimo gruppo, j = 1,...,c
( )
1 1
11 1 1 1
2 2
c c
j j jj j
n n nR n R T
n n n= =
+ += = = =∑ ∑ = media globale dei ranghi
somma dei primi
n numeri interi
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
62
Nel nostro esempio abbiamo che le somme totali e le medie dei ranghi dei
4 gruppi e globale sono:
Natural Water Fertil Wat+Fert Globale
Tj 25.5 64 87.5 123 jjT∑ = 300
jR 4.3 10.7 14.6 20.5 R = 12.5
Notiamo che le medie sono marcatamente diverse e crescono al crescere
dell’intensità del trattamento. Inoltre alcune medie (del gruppo “Natural”
e del gruppo “Wat+Fert” sono molto lontane dalla media globale).
Emulando quanto visto nel caso dell’analisi della varianza, la statistica
test di Kruskal-Wallis si basa sul confronto tra ciascuna media di gruppo
e la media globale. La statistica test è:
( )( )
( )
22
1 1
12 12 1
1 1 2
c c
j j j jj j
nH n R R n R
n n n n= =
+ = − = −
+ + ∑ ∑
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
63
Attraverso alcuni passaggi algebrici si può vedere che la statistica H può
anche essere espressa come funzione delle somme totali dei ranghi di
gruppo:
( )( )
2
1
123 1
1
cj
j j
TH n
n n n=
= − ++
∑
Sotto l’ipotesi nulla la statistica H ha distribuzione asintotica di tipo chi-
quadrato con c – 1 gradi di libertà. L’approssimazione migliora al
crescere delle numerosità campionarie n1,...,nc. L’approssimazione è già
accettabile per numerosità maggiori o uguali a 5.
Conoscendo la distribuzione della statistica H sotto H0, siamo in grado di
eseguire il test e di calcolare il p-value al fine di prendere una decisone.
Nel nostro esempio, le numerosità dei gruppi sono pari a 6 quindi la
condizione per l’uso dell’approssimazione al chi-quadrato è verificata.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
64
Si ottiene il seguente output:
Kruskal-Wallis Test: Altezza(m) versus Gruppo Kruskal-Wallis Test on Altezza(m)
Gruppo N Median Ave Rank Z
Fertil 6 4,000 14,6 0,83
Natural 6 2,250 4,3 -3,30
Wat+Fert 6 5,200 20,5 3,20
Water 6 3,550 10,7 -0,73
Overall 24 12,5
H = 16,77 DF = 3 P = 0,001
H = 16,86 DF = 3 P = 0,001 (adjusted for ties)
Il p-value è molto piccolo mostrando una forte significatività del test.
Quindi c’è una differenza significativa nella crescita di alberi trattati in
modo diverso.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
65
Vediamo come eseguire il test mediante Minitab.
Il test di Kruskal-
Wallis in Minitab è
semplicemente
indicato come
Kruskal-Wallis
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
66
La finestra di dialogo chiede
solamente:
- la specificazione della colonna
che contiene le misurazioni (nel
nostro esempio “Altezza(m)”;
- la specificazione della colonna
che contiene l’informazione sul
greppo di appartenenza (nel
nostro esempio “Gruppo”).
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
67
4. LA CORRELAZIONE TRA RANGHI – IL TEST DI SPEARMAN
Oggetto di grande interesse è lo studio dell’associazione/dipendenza tra
due variabili almeno qualitative ordinali.
In corsi precedenti avete studiato il coefficiente di correlazione di
Pearson che misura la dipendenza lineare tra due variabili quantitative.
In questo corso avete visto il test del chi-quadrato che si occupa dello
studio della associazione tra due variabili qualitative sconnesse.
Rimane la necessità di una misura adatta allo studio della dipendenza tra
due variabili qualitative ordinali. In questo corso avete visto l’indice γ di
Goodman e Kruskal.
Si pensi alle scale (di gradimento, importanza, soddisfazione etc...) che
spesso sono usate nelle applicazioni manageriali. Queste quasi sempre
vengono trattate con metodi che più propriamente appartengono alle
variabili quantitative. Alternativamente la loro struttura associativa viene
studiata con test tipo chi-quadrato per variabili qualitative sconnesse.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
68
Date due variabili almeno qualitative ordinali X e Y, le ipotesi che
dobbiamo mettere a confronto sono:
H0: X e Y sono indipendenti
H1: X e Y sono legate da dipendenza monotona (crescente o decrescente)
Due variabili almeno qualitative ordinali X e Y sono legate da dipendenza
monotona crescente se valori “grandi” di X tendono ad associarsi a valori
“grandi” di Y e valori “piccoli” di X tendono ad associarsi a valori
“piccoli” di Y.
Due variabili almeno qualitative ordinali X e Y sono legate da dipendenza
monotona decrescente se valori “grandi” di X tendono ad associarsi a
valori “piccoli” di Y e valori “piccoli” di X tendono ad associarsi a valori
“grandi” di Y.
Il test di Spearman risponde alla domanda calcolando il coefficiente di
correlazione tra ranghi campionari.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
69
Esempio5: si consideri un’azienda che si occupa di commercio e che ha
alle sue dipendenze vari rappresentanti di commercio. Il management si
chiede se ci sia correlazione tra km percorsi in auto e volume delle
vendite. Per rispondere a tale domanda viene preso un campione di 9
rappresentanti che operano in territori di dimensione e potenzialità
comparabili. Vengono rilevati i dati sui km percorsi in un mese e sul
volume delle vendite realizzato in un mese da ciascuno di essi.
Vendite(Euro) Km
115385 2414
338462 5792
219231 5149
307692 5310
257692 3540
300000 4023
231538 3862
326923 4988
161538 3379
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
70
L’analisi può essere fatta mediante il coefficiente di correlazione ma
anche con una misura più robusta rispetto alla presenza di eventuali valori
anomali e/o estremi.
L’idea è quella di calcolare i ranghi per ciascuna variabile separatamente.
Indichiamo con Rxi e con Ryi i ranghi che si riferiscono alle variabili X e Y
separatamente ordinate.
Nel nostro esempio:
Vendite(Euro)
X
Km
Y
Rango(vendite)
Rxi
Rango(Km)
Ryi
115385 2414 1 1
338462 5792 9 9
219231 5149 3 7
307692 5310 7 8
257692 3540 5 3
300000 4023 6 5
231538 3862 4 4
326923 4988 8 6
161538 3379 2 2
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
71
Il test di Spearman si basa sul coefficiente di correlazione tra ranghi.
Se X e Y sono legate da dipendenza monotona crescente allora ranghi
“grandi” di X si assoceranno più spesso a ranghi “grandi” di Y e ranghi
“piccoli” di X si assoceranno a ranghi “piccoli” di Y.
Al limite, se X e Y fossero legate da perfetta dipendenza monotona
crescente, le n coppie di ranghi osservate sarebbero:
(1, 1), (2, 2), ..., (n, n).
Cioè i ranghi sarebbero legati da una perfetta relazione lineare crescente.
Viceversa, se X e Y sono legate da dipendenza monotona decrescente,
allora ranghi “grandi” di X tendono ad associarsi a ranghi “piccoli” di Y e
ranghi “piccoli” di X tendono ad associarsi a ranghi “grandi” di Y.
Al limite, se X e Y fossero legate da perfetta dipendenza monotona
decrescente, le n coppie di ranghi osservate sarebbero:
(1, n), (2, n – 1), ..., (n, 1).
In altre parole i ranghi sarebbero legati da una perfetta relazione lineare
decrescente.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
72
Indichiamo con 1
1i
n
x xi
R Rn =
= ∑ e con 1
1i
n
y yi
R Rn =
= ∑ la media dei ranghi per
la variabile X e per la variabile Y rispettivamente.
Il coefficiente di correlazione tra ranghi è dato da
( )( )
( ) ( )
1
2 2
1 1
i i
i i
nx x y yi
n nx x y yi i
R R R R
R R R R
ρ=
= =
− −=
− −
∑
∑ ∑
Attraverso alcuni passaggi algebrici si ottiene la seguente espressione
(equivalente ma più comoda ai fini del calcolo) del coefficiente di
correlazione tra ranghi Spearman:
( )2
21
61
1
n
ii
dn n
ρ=
= −−
∑
dove i ii x yd R R= − è la differenza tra la coppia dei ranghi associata a
ciascuna unità di osservazione.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
73
Nel nostro esempio:
Vendite(Euro)
X
Km
Y
Rango(vendite)
Rxi
Rango(Km)
Ryi di
2id
115385 2414 1 1 0 0
338462 5792 9 9 0 0
219231 5149 3 7 -4 16
307692 5310 7 8 -1 1
257692 3540 5 3 2 4
300000 4023 6 5 1 1
231538 3862 4 4 0 0
326923 4988 8 6 2 4
161538 3379 2 2 0 0
pertanto
( ) ( )2
2 21
6 61 1 26 0.783
1 9 9 1
n
ii
dn n
ρ=
= − = − =− −
∑
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
74
Essendo il ρ di Spearman un coefficiente di correlazione, anch’esso,
come il più noto coefficiente di correlazione di Pearson, assume valori
compresi tra –1 e +1 estremi inclusi.
1 1ρ− ≤ ≤ +
Valori di ρ vicino a +1 indicano elevata dipendenza monotona crescente
tra le due variabili.
Valori di ρ vicino a –1 indicano elevata dipendenza monotona
decrescente tra le due variabili.
Valori di ρ vicino a 0 indicano l’assenza di dipendenza monotona tra le
due variabili.
Nel nostro esempio ρ = 0.783. Quindi le due variabili presentano una
forte dipendenza monotona2.
2 Il coefficiente di correlazione di Pearson risulta pari a 0.803.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
75
E’ interessante che al coefficiente ρ di Spearman può anche essere
associato un test statistico per la verifica delle ipotesi
H0: X e Y sono indipendenti
H1: X e Y sono legate da dipendenza monotona (crescente o decrescente)
ossia: 0
1
: 0
: 0
H
H
ρ
ρ
=
≠
A tal fine è necessario conoscere la distribuzione della statistica ρ.
Tale distribuzione è nota ed è anche tabulata.
1. Per numerosità campionarie piccole (n ≤ 30) è necessario ricorrere a
queste tavole (riportate nell’ultima pagina della presente nota).
2. Per numerosità campionarie superiori a 30 si può usare
l’approssimazione normale in quanto è stato dimostrato che ρ tende ad
avere distribuzione normale di media 0 e varianza 1/(n – 1). Pertanto 0
11 1
nn
ρρ
−= −
− tende ad avere distribuzione normale standardizzata.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
76
Pertanto si può decidere come segue:
1. se n ≤ 30, fissato α, si confronta il valore di ρ calcolato sul campione
con il valore critico fornito dalle tavole per l’α prefissato3.
Si rifiuta l’ipotesi 0 : 0H ρ = se 2 2
o se r rα αρ ρ> < − dove 2
rα indica
il valore critico letto sulle tavole;
2. se n > 30, si calcola sulla base dei dati osservati 1nρ − e, fissato α, lo
si confronta con il valore critico 2
zα .
Si rifiuta l’ipotesi 0 : 0H ρ = se 2 2
1 o se 1n z n zα αρ ρ− > − < − .
3 Le tavole qui fornite presentano solo i valori critici per α = 0.01 e α = 0.05.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
77
Tornando al nostro esempio dobbiamo valutare se il valore trovato
ρ=0.783 è significativamente diverso da zero.
La numerosità campionaria è molti piccola (n = 9) quindi dobbiamo usare
le tavole.
Fissiamo un livello di significatività α = 0.05.
Il valore critico è: 0.686.
Poiché il ρ osservato è maggiore di 0.686, possiamo rifiutare l’ipotesi
nulla e concludere che c’è evidenza di dipendenza monotona crescente tra
il numero di km percorsi in un mese e il volume di vendite realizzato in
un mese dai rappresentanti di commercio.
Se avessimo richiesto un livello di significatività più selettivo, α = 0.01,
la conclusione sarebbe stata diversa in quanto il valore critico associato è
pari a 0.833 e il nostro ρ osservato (=0.783) è inferiore.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
78
Minitab esegue il calcolo di ρ ma non esegue il test statistico. Esso è
comunque molto facile da eseguire così come illustrato nelle pagine
precedenti. Vediamo come calcolare ρ con Minitab
L’indice di Spearman si trova seguendo il cammino
Stat → Tables → Cross Tabulation and Chi-Square.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
79
Si apre una finestra di dialogo in cui; 1) si devono specificare le variabili
tra cui si calcola la correlazione e 2) si deve cliccare su “Other Stats”
Si apre un’altra finestra di dialogo (Cross Tabulation – Other Statistics) in
cui si seleziona la voce “Correlation coefficients for ordinal categories”.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
80
L’output risulta il seguente:
Tabulated statistics: Vendite(Euro); Km Rows: Vendite(Euro) Columns: Km
2414 3379 3540 3862 4023 4988 5149 5310 5792 All
115385 1 0 0 0 0 0 0 0 0 1
161538 0 1 0 0 0 0 0 0 0 1
219231 0 0 0 0 0 0 1 0 0 1
231538 0 0 0 1 0 0 0 0 0 1
257692 0 0 1 0 0 0 0 0 0 1
300000 0 0 0 0 1 0 0 0 0 1
307692 0 0 0 0 0 0 0 1 0 1
326923 0 0 0 0 0 1 0 0 0 1
338462 0 0 0 0 0 0 0 0 1 1
All 1 1 1 1 1 1 1 1 1 9
Cell Contents: Count
Pearson's r 0,783333
Spearman's rho 0,783333
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
81
Esempio6: la direzione di una catena di negozi con larga distribuzione
sul territorio si chiede se vi sia dipendenza tra il volume delle vendite e la
dimensione del negozio. Viene preso in considerazione un campione di
n=7 punti vendita sui quali sono rilevate entrambe le informazioni.
I dati forniti si riferiscono solo al posto in graduatoria occupato da
ciascuno dei 7 punti vendita rispetto alle due variabili separatamente
considerate. Vendite (Rango)
Dimensione (Rango)
6 7
2 2
3 6
7 5
5 4
1 1
4 3
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
82
Si ottiene il seguente risultato:
Spearman's rho 0,714286
che suggerisce la presenza di una certa dipendenza monotona crescente
tra le due variabili.
Vediamo se questa è anche significativa.
Fissiamo un livello di significatività α = 0.05.
Il valore critico per n = 7 è 0.786. Quindi, nonostante il valore osservato
di ρ sia 0.71, il campione, anche a causa della sua numerosità esigua, non
porta sufficiente evidenza per affermare che c’è dipendenza monotona tra
dimensione del negozio e volume delle vendite. Quindi ci sono
sicuramente altri fattori importanti (ad es. l’ubicazione, l’attrattività del
negozio, la densità abitativa, ecc.) che possono incidere sulla
determinazione del volume delle vendite.
Corso di Statistica per il Management – A.A. 2012/13 Prof.ssa Paola Vicard
83
Tavola dei valori critici per il test di Spearman per α = 0.05 e α = 0.01