7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di...

35
01/04/2020 1 7. Test di indipendenza e test non parametrici Giorgio Alleva 1 2 Test di indipendenza tra due variabili Indipendenza assoluta: Test del chi quadrato (distribution free). Indipendenza in media: Analisi della varianza (ANOVA) (k v.c. normali indipendenti e omoschedastiche) Indipendenza lineare: test sul coefficiente di correlazione di Bravais Pearson o sui parametri della funzione di regressione. Indipendenza monotona: test di Spearman.

Transcript of 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di...

Page 1: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

1

7. Test di indipendenza e test non parametrici

Giorgio Alleva

1

2

Test di indipendenza tra due variabili

Indipendenza assoluta: Test del chi quadrato (distribution free).

Indipendenza in media: Analisi della varianza (ANOVA) (k v.c. normali indipendenti eomoschedastiche)

Indipendenza lineare: test sul coefficiente di correlazione di Bravais Pearson o suiparametri della funzione di regressione.

Indipendenza monotona: test di Spearman.

Page 2: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

2

3

Dipendenza assoluta: Test di indipendenza del Chi quadrato

Abbiamo 2 variabili qualitative (mutabile doppia) o quantitative suddivise un classi:

Y: c modalità;

X: k modalità.

Si siano rilevate n coppie di informazioni Yi e Xj e su un campione (di n unità).

Le frequenze congiunte nij possono essere rappresentata nella tabella seguentetabella.

X1 X2 ….. Xj …..XkY1Y2..Yi..Yc

nij ni.

n.j n..

H0: Y e X sono indipendenti (Y da X e X da Y);

H1: Y e X non sono indipendenti.

Per applicare il test di indipendenza di 2 non occorre fare alcuna ipotesi sulla formadella v.c. doppia: è un test distribution free.

4

H0: Y e X sono indipendenti (Y da X e X da Y);

H1: Y e X non sono indipendenti.

Per applicare il test di indipendenza di 2 non occorre fare alcuna ipotesi sulla forma della v.c. doppia: è un test distributionfree.

Una volta calcolate le frequenze teoriche di indipendenza = . ...la statistica è il valore di chi quadrato: 2 = ∑ ∑ − 2=1=1 .

Tale statistica tende a distribuirsi come un v.c. 2 con (k-1)(c-1) gradi di liberta.

Pertanto, si rifiuta l’ipotesi di indipendenza H0 se 2 ≥ ; ( −1)( −1)2 .Il test è affidabile sola se le frequenze teoriche sono tutte maggiori o uguali a 5.

Se non lo sono occorre raggruppare opportunamente alcune modalità (ossia aggregare righe o colonne della tabella).

IMPORTANTE: Si noti che il test di indipendenza tra 2 variabili Y e X, considerandolo con riferimentoalle v.c. condizionate Y│X può essere anche considerato il test che verifica l’ipotesi nulla che i kcampioni siano indipendenti e derivino dalla stessa popolazione (di cui non è richiesto di conoscere ladistribuzione).

Page 3: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

3

5

Esempio di applicazione del test di indipendenza di 2

Indagine campionaria negli U.S.A. sulla relazione tra livello di felicità e la categoriarazziale delle persone intervistate

Livello difelicità

Official racial categoriesTotaleWhite

AmericansAfro-

americansLatino-

americans

Molto feliceFrequenza 409 46 12 467% 32,6 22,9 25,5 31,1

Abbastanzafelice

Frequenza 730 116 26 872% 58,1 57,7 55,3 58,0

Piuttostoinfelice

Frequenza 117 39 9 165% 9,3 19,4 19,1 11,0

TotaleFrequenza 1.256 201 47 1.504% 100,0 100,0 100,0 100,0

Output dell’applicativo SPSS

Valore df p-valueChi-quadratodi Pearson 24,797 4 ,0000 celle (0,0%) hanno un conteggio atteso inferiore a 5. Il conteggio atteso minimo è 5,16.

Valore p-value.

Phi

V di CramerN. di casi validi

,128

,0911504

,000

,000

DomandeQual è il risultato del test?Da un punto di visa logico, qual è laconclusione?Le variabili condizionate provengono dallastessa popolazione?

6

Page 4: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

4

7

Test di indipendenza lineare tra due variabili

Come noto due variabili sono linearmente indipendenti se il loro coefficiente dicorrelazione di Bravais Pearson è uguale a 0. Ciò avviene se la loro covarianza ènulla ed implica che sia nullo anche il coefficiente di regressione B1 della retta diregressione di Y su X (pari al rapporto tra la covarianza e la varianza di X).

Indichiamo la correlazione tra due variabili nella popolazione con e il suo stimatorebasato sul campione con R.H0: = 0 equivale a porre H0: = 0.Vedremo i test sui parametri della funzione di regressione più avanti; ora vediamoquale sia la distribuzione campionaria di R, la stima intervallare e il test su .

8

La v.c. R rappresenta lo stimatore di calcolato su un campione di n coppie di valoridi X e Y.: = ∑ ( − )( − )∑ ( − )2 ∑ ( − )2 =Dove sxy , sxx e syy rappresentano la codevianza e le due devianze campionarie.

La distribuzione di R, seppur determinata, è piuttosto complessa.

Tuttavia si possono sfruttare due risultati importanti:

1) per = 0 √1− 2 √ − 2~ −2 (con n ≥ 3)

2) la cosiddetta v.c. trasformata di Fisher (U) converge al crescere di n ad unav.c. normale

N~11

log21

R

RU

, con il seguente valore atteso e varianza:

1211

log21

n

UE

31

n

UVar .

Page 5: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

5

9

Il primo risultato, essendo valido solo per = 0 , può essere utilizzato per verificare se un campione provenga da una v.c.doppia con le due v.c. componenti tra loro incorrelate (H0: = 0).

Il secondo risultato per determinare l’intervallo di confidenza di o per condurre un test su nel caso di n sufficientementeelevato (H0: =).

Se n è grande il valore atteso della v.c. di Fisher si semplifica

11

log21

UE

e dunque il corrispondente intervallo di confidenza risulta:12 log 1+1− − 2 1√ −3 ≤ 12 log 1+1− ≤ 12 log 1+1− + 2 1√ −3 .

Indicando con v1 e v2 i due estremi del precedente intervallo,

1 = 12 log 1 +1 − − 2 1√ − 32 = 12 log 1 +1 − + 2 1√ − 3

con alcuni passaggi si determina il seguente intervallo di confidenza di

10,5 −11+ 10,5 ≤ ≤ 20,5 −11+ 20,5 .

10

Test su

Caso generale (è uguale a ?)H0: = 0 H1: ≠ 0

Se n è sufficientemente grande, dalla statistica campionaria = 12 log 1+√1−si definisce = − ( )( ).Rifiutiamo H0 se │z│ ≥ z/2

Esempio di inferenza statistica su

Sulla base di un campione di 32 unità sia risultato pari a -0,16.Si determini l’intervallo di confidenza di per a=0,05.

1 = 12 log 1 − 0,161 + 0,16 − 1,96 1√29 = −0,41551 = 12 log 1 − 0,161 + 0,16 + 1,96 1√29 = +0,2886

-0,3931 ≤ ≤ +0,2808 Il segno di risulta pertanto incerto.

Page 6: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

6

11

Esempio

Con riferimento al precedente esempio, a fronte di R = - 0,16 possiamo considerare = 0?Rifiutiamo H0 se

| |√1− 2 √ − 2 = 0,16√1−0,0256 √29 = 0,873 ≥ 2 ; −2 = 1,699Quindi non rifiutiamo H0 e concludiamo che = 0.

12

Test di indipendenza monotona tra due variabili misurate su scala ordinale (Test di Spearman)

Si tratta del test sul coefficiente di cograduazione di Spearman, che come già noto corrisponde al coefficiente dicorrelazione lineare tra i ranghi delle due variabili.Indichiamo con s il coefficiente di Spearman nella popolazione e con Rs il suo stimatore basato su un campione di n coppiedi informazioni.

In analogia al test su possiamo testare l’indipendenza monotona tra le due variabili.

ConsiderandoH0: s= H1: s≠

poiché 1− 2 √ − 2 ~ −2rifiutiamo H0 se la statistica = | |1− 2 √ −2 ≥ 2; −2 .

Come per il coefficiente di correlazione , se n è elevato si può anche testare l’ipotesi che s=s0 attraversol’approssimazione alla normale della trasformata di Fisher U.

Page 7: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

7

13

Test di adattamento o conformità: verifica di ipotesi sul modello distributivo di unapopolazione (Goodness of Fit Test)

Iniziamo la trattazione considerando i test per verificare quale sia la v.c. generatrice dei daticampionari.Si tratta di una verifica importante. Ad esempio, come sappiamo bene, la normalità dellapopolazione di riferimento rappresenta molto spesso il presupposto per condurre i tradizionali testparametrici.Sulla base di un campione vogliamo verificare se questo possa considerarsi provenire da unadeterminata variabile casuale.

A tal fine si può procedere attraverso il Test Chi quadrato o il Test di Kolgomorov Smirnov.

TEST NON PARAMETRICI

I test non parametrici hanno il grande vantaggio che non debbono farsi ipotesi sulla distribuzionedella variabile causale (distribution free test).Tuttavia, sono generalmente meno potenti dei test parametrici.

14

2.1.1 Test di adattamento 2

Sia X un carattere qualitativo o quantitativo discreto che assume k modalità, o un caratterecontinuo raggruppato in k classi.Con k pari a un numero non grande, tale che le frequenze campionarie non siano inferiori a 5.

Sulla base della seguente distribuzione campionaria delle frequenze:

X1 n1

X2 n2

.. ..Xi ni

.. ..Xk nk

Con ni = n.

Volendo testare che il campione provenga da una popolazione che si distribuisce secondo unacerta v.c. è possibile determinare la distribuzione teorica delle frequenze corrispondente.

Page 8: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

8

15

Indicando le frequenze relative campionarie ni/n con pi , e le corrispondenti frequenze relativeteoriche (le probabilità) con pi0 , il sistema di ipotesi risulta il seguente.

H0: pi = pi0 per i = 1, …,k H1: altrimenti

La frequenza osservata ni (numero di unità nel campione che assumono la modalità Xi) è unavariabile casuale binomiale, con valore atteso: E(ni) = npi.

Pertanto, sotto H0 la frequenza attesa di Xi è: E(ni│H0) = npi0.

Un criterio ragionevole per vedere se le frequenze campionarie osservate siano uguali a quelleattese è quello di calcolare la statistica Chi-quadrato:2 = ∑ ( − 0)20=1 .

Tale approssimazione è soddisfacente se le frequenze attese npi0 ≥ 5, per ogni i.

Pertanto, si rifiuta l’ipotesi H0 che il campione provenga dalla v.c. ipotizzata se 2 ≥ ; −12 .

16

Le frequenze attese npi0 presuppongono la conoscenza dei parametri della v.c. che intendiamoverificare se sia quella generatrice dei dati.

Ad esempio, se ipotizziamo che il campione provenga di una distribuzione di Poisson o da una Normalecalcoleremo le frequenze attese nel modo seguente.

v.c. Poisson 0 = − !v.c. Normale 0 = 1√2 2 − −2 2

Ricordando che tale test considera solamente v.c. continue raggruppate in classi la stima delle frequenzeattese di ogni classe per la verifica della normalità viene effettuata facendo la differenza tra la funzioni diripartizione nell’estremo superiore e nell’estremo inferiore della classe.

Qualora non si conoscano i parametri il test χ2 può essere condotto stimando i parametri attraverso ilcampione.In questo caso si rifiuta l’ipotesi H0 che il campione provenga dalla v.c. ipotizzatase ≥ ; , dove q indica il numero di parametri stimati.

Page 9: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

9

17

Esempio 1

La seguente distribuzione campionaria può essere considerata proveniente da una v.c. diPoisson con parametro =0,4?

N° incidenti(X)

Frequenzeosservate (ni)

0 491 172 33 1

70

H0: 0 = −0,4 0,4 ! (il campione proviene da una Poisson con =0,4)

H1: altrimenti.

18

Una volta stimate le frequenze attese si può calcolare la statistica chi quadrato.

N° incidenti(X)

Frequenzeosservate (ni)

Probabilità(pi0)

Frequenzeattese (npi0)

Chiquadrato

0 49 0,76338 53,4 0,3681 17 0,20611 14,4 0,4592 3 0,02783 1,9 0,5683 1 0,00250 0,2 3,880

70 70 5,275

Rifiutiamo H0 se la statistica ≥ , ; = 7,81 .Poiché 5,275 < 7,81 non rifiutiamo H0 e quindi concludiamo che con α=0,05 il campione può essereconsiderato generato da una popolazione Poisson con parametro λ = 0,4.

Se non avessimo avuto l’informazione sul parametro λ avremmo proceduto a stimarlo come:λ = (0*49+1*17+2*3+3*1)/70 = 26/70 = 0,371In questo caso, dopo aver calcolato le frequenze attese e la statistica chi quadrato avremmo verificatose ≥ , ; .

Attenzione: due frequenze attese risultano inferiori a 5 e quindi l’approssimazione della statistica aduna v.c. chi quadrato è poco affidabile. Occorre aggregare le modalità oppure ampliare la dimensionecampionaria.

Page 10: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

10

19

Domanda

La Poisson ha un unico parametro. Si sarebbe potuto fare il test di adattamento verificandocon un test se la media campionaria possa essere considerata o meno uguale a 0,4 ?

H0: λ = 0,4H1: λ ≠ 0,4

Con il tradizionale test z o t di Student?

20

Esempio 2

La seguente distribuzione campionaria delle stature può essere considerata proveniente da una v.c. di Normale conparametri = 174 e 2 = 16?

Classi (X) Frequenzeosservate (ni)

-165 7165-170 51170-175 190175-180 124180 e altre 28

400

H0: il campione proviene da una N(174; 16);H1: altrimenti.

Occorre calcolare le frequenze attese in corrispondenza di ogni classe con l’ausilio delle tavole della v.c. normalestandardizzata.A titolo esemplificativo la frequenza attesa della classe 165-170 è così calcolata.

20 = 170−1744 − 165−1744 = 400 ∗ 0,147 = 58,8.La corrispondente frequenza osservata è 51.

Page 11: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

11

21

Classi (X) Frequenzeosservate (ni)

Frequenzeattese (npi0)

Chi quadrato

-165 7 4,8 1,008165-170 51 58,8 1,035170-175 190 176,0 1,114175-180 124 133,6 0,690180 e altre 28 26,8 0,054

400 3,900

Rifiutiamo H0 se la statistica 2 ≥ 0,05;42 = 9,49 .Poiché 3,9 < 9,491 non rifiutiamo H0 e quindi concludiamo che con =0,05 il campione può essere considerato generato dauna popolazione N(174; 16).

Se non avessimo avuto l’informazione sui parametri avremmo proceduto stimandoli attraverso la media campionaria e lavarianza campionaria corretta.

In questo caso, dopo aver calcolato le frequenze attese e la statistica chi quadrato avremmo verificato se 2 ≥ 0,05;22 .

22

Esempio 3

Lanciando 5 monete 100 volte, ottengo i seguenti risultati. Le monete sono regolari o truccate?

N° teste in5 lanci (X)

Frequenzeosservate

0 31 162 363 324 115 2

100Le frequenze attese possono calcolarsi attraverso la v.c. binomiale con p=0,5. E dunque si può verificare l’ipotesi:

H0: 0 = 0,5 (1 − 0,5) − per ogni i (il campione proviene da una Binomiale con p=0,5)H1: altrimenti.

N° teste in5 lanci (X)

Frequenzeosservate p(X) Frequenze

attese Chi quadrato

0 3 0,0313 3,1 0,0051 16 0,1563 15,6 0,0092 36 0,3125 31,3 0,7223 32 0,3125 31,3 0,0184 11 0,1563 15,6 1,3695 2 0,0313 3,1 0,405

100 1,0000 100,0 2,528

Rifiutiamo H0 se la statistica 2 > 0,05;52 = 11,07 .Poiché 2,528 < 11,07 non rifiutiamo H0 e quindi concludiamo che con =0,05 le monete non sono truccate.

Page 12: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

12

23

Esempio 4

Lanciando un dado 120 ottengo i seguenti risultati. Il dado è regolare o truccato?

Risultato in 100lanci di un dado

(X)

Frequenzeosservate

1 182 233 164 215 186 24

120

H0: il dado non è truccato pi0=1/6 per ogni i (i=1, …, 120)H1: il dado è truccato.

Le frequenze attese sono tutte uguali a 1/6 * 120 = 20.

5,220

20 22

i

in

Rifiutiamo H0 se la statistica 2 ≥ 0,05;52 = 11,07 .Poiché 2,5 < 11,07 non rifiutiamo H0 e quindi concludiamo che con =0,05 il dado non ètruccato.

24

Test di adattamento di Kolgomorov Smirnov

Il Test di Kolgomorov Smirnov rappresenta un’alternativa al test χ2.In particolare è il test che consente di verificare quale sia la v.c. generatrice dei dati campionari quandoquesta sia una v.c. quantitativa continua.Costituisce uno dei test più utilizzati per la verifica della normalità di un campione.Ad esempio lo utilizzeremo per verificare se i residui in un modello di regressione possano essere assunticome normali.

Data una v.c. continua il test si fonda sulla funzione di ripartizione empirica, è quella costruita sulcampione. Tale funzione è confrontata con la funzione di ripartizione della variabili casuale che si intendeverificare come generatrice dei dati campionari.

Si indichi con:la funzione di ripartizione empirica(del campione), e conla funzione di ripartizione teorica specificata da H0 (della popolazione).

Il sistema di ipotesi risulta il seguente:H0: F(X) = F0(X)H0: F(X) ≠ F0(X)

Page 13: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

13

25

Il Test di Kolgomorov Smirnov, per valutare la distanza tra Fn(X) e F0(X) considera la statistica:= ( ) − ( ) . (la distanza massima tra e due f. r.)

Si rifiuta H0 se è piccola, in particolare:

R: : ≥ =essendo d il valore critico tale che:

p(Dn ≥ d │H0) =

I valori da sono tabulati con riferimento a diversi valori di α e di n.

26

Da un punto di vista operativo si tratta pertanto di elaborare i dati per effettuare il confronto tra le due funzioni di ripartizioneFn(X) e F0(X).

Una volta ordinati i dati campionari la F0(X) è calcolata sulla base della v.c. continua specificata da H0, mentre la funzione di

ripartizione empirica Fn(X) è discreta e assume, a gradini, i valori0 , 1 , 2 , , … . . , , … . . , .

Pertanto la ricerca del massimo prende pertanto in considerazione le differenze tra:− F0(X) F0(X) − − 1 ( è ).

Page 14: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

14

27

Output di R dl test di normalità di Kolgomorov-Smirnov

28

Esempio di applicazione del test di adattamento di Kolgomorov Smirnov

Si voglia verificare se un campione di stature di n=14 neonati provengano da una variabile normalecon parametri = 48,8 e = 4,5.

Una volta ordinati i dati sono riportati nella seguente tabella.

rango(i) Xi

1 43,42 44,23 44,44 45,25 45,56 46,27 47,58 48,09 49,0

10 49,811 52,312 54,413 57,414 58,7

Page 15: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

15

29

Nella tabella seguente sono riportati: i valori della funzione di ripartizione empirica Fn(X) = i/n = i/14; i valori della funzione di ripartizione di una N(48,8; 20,5), calcolati sui dati standardizzati e le tavole della v.c. normale standard, indicati con F0(Xi): le differenze algebriche tra le due funzioni di ripartizione tra le quali occorre individuare il massimo.

rango(i) Xi i/n F0(Xi) i/n - F0(Xi) F0(Xi) - ( i-1)/n

1 43,4 0,07143 0,1151 -0,0437 0,115102 44,2 0,14286 0,1533 -0,0104 0,08193 44,4 0,21429 0,1641 0,0502 0,02124 45,2 0,28571 0,2119 0,0738 -0,00245 45,5 0,35714 0,2317 0,1254 -0,05406 46,2 0,42857 0,2817 0,1469 -0,07547 47,5 0,50000 0,3863 0,1137 -0,04238 48,0 0,57143 0,4294 0,1420 -0,07069 49,0 0,64286 0,5177 0,1252 -0,0537

10 49,8 0,71429 0,5879 0,1264 -0,055011 52,3 0,78571 0,7816 0,0041 0,067312 54,4 0,85714 0,8933 -0,0362 0,107613 57,4 0,92857 0,972 -0,0434 0,114914 58,7 1,00000 0,9861 0,0139 0,0575

Il valore massimo di D è pari a0,1469, fissato α=0,01, dalle tavoledel test di Kolgomorov-Smirnov sitrova che D0,01 = 0,3897.

Pertanto H0 non va rifiutata e si puòconcludere che il campione provieneda una popolazione normale.

30

Tavole del test di adattamento di Kolgomorov-Smirnov

Page 16: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

16

31

Un confronto tra i due test di adattamento

In conclusione, come test di adattamento qual è migliore? Come scegliere tra i due test nei diversicontesti di analisi?

Il test χ2 ha un’applicabilità molto generale, si richiede soltanto che il modello teorico diriferimento della popolazione sia espresso mediante una distribuzione di frequenza secondomodalità che possono essere di qualsiasi tipo (categorie, intervalli, valori isolati), il test diKolgomorov-Smirnov richiede che il modello sia espresso da una v.c. continua.

In generale il test di Kolgomorov-Smirnov è più potente del test χ2.

Il test χ2 per essere applicato richiede che le frequenze attese superino un certo limite minimo(generalmente posto pari a 5).

32

Altri test di normalità

Oltre al test di Kolgomorov-Smirnov ci sono altri test che comunemente vengono utilizzati per la verifica che il campioneprovenga duna popolazione normale. Tra questi il test di Shapiro-Wilk e il test Jarque-Bera.

Il Test di Shapiro-Wilk

Il test di Shapiro-Wilk, introdotto nel 1965, è uno dei test più potenti per la verifica della normalità, soprattutto perpiccoli campioni.

H0: la popolazione da cui proviene il campione si distribuisce come una v.c. normale

H1: la popolazione non si distribuisce come una normale.

La verifica della normalità avviene confrontando il valore di uno stimatore non parametrico della varianza di una normalee il valore della varianza del campione.

La statistica W è il rapporto tra le due varianze e può assumere valori da 0 a 1.

Qualora il valore di W sia piccolo, il test rifiuta l'ipotesi nulla che i valori campionari siano distribuiti come una v.c.normale.

La statistica W è tabulata in corrispondenza dei diversi valori di α e può essere interpretata come il quadrato delcoefficiente di correlazione in un diagramma quantile-quantile.

Page 17: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

17

33

Output di R Test di normalità di Shapiro-Wilk

34

Il diagramma quantile-quantile (Q-QPlot)

Il Q-Q Plot è la rappresentazione graficadei quantili di una distribuzione.Confronta la funzione di ripartizione dellavariabile osservata con la funzione diripartizione della normale.Se la variabile osservata presenta unadistribuzione normale, i punti di questadistribuzione congiunta si addensano sulladiagonale che va dal basso verso l'alto eda sinistra verso destra.

Come si può osservare, nelle due ‘code’la distribuzione campionaria diverge conevidenza dalla normale.

Page 18: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

18

35

‘Normal Q-Q Plot’

36

2.1.5 Test di Jarque-Bera

Il test di Jarque-Bera è un test statistico per la verifica dell'ipotesi di normalità ed è impiegatomolto spesso in campo econometrico. In particolare per verificare se i residui di unaregressione lineare sono normali.

Il test si basa sulla misura dell'asimmetria e della curtosi di una distribuzione.

H0: 1 = 2 = 0, e dunque il campione proviene da un v.c. normaleH0: altrimenti.

La statistica test è la seguente:= 6 12 + ( 2−3)24dove n è la numerosità campionaria, e 1 e 2 sono le misure dell’asimetria e curtosi delcampione. In particolare:1 = 33 2 = 44 (indicando con ̅ i momenti centrali del campione)

La statistica JB è distribuita asintoticamente come una v.c. chi quadrato con 2 gradi di libertà.

L’ipotesi nulla è rifiutata se la statistica JB assume valori grandi, maggiori di 22; a.

Page 19: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

19

37

Output di R del Test di normalità dei residui di Jarque-Bera

38

Test per la verifica che due campioni provengano dalla medesima popolazione (test di identicadistribuzione delle due popolazioni da cui sono stati estratti i due campioni).

Il confronto tra le medie di due popolazioni, fondato sulla differenza tra le medie campionariepresuppone che le popolazioni siano normali.D’altra parte, come noto, qualora entrambi i campioni abbiano ampiezza elevata lo stesso test puòessere utilizzato a prescindere dalla forma della distribuzione delle due popolazioni (per il teorema dellimite centrale).

Anziché valutare se due campioni prevengano da popolazioni con la stessa media (µ1= µ2) o la stessavarianza (σ1

2= σ22) possiamo verificare attraverso test non parametrici se provengano da popolazioni

identiche.

Mentre i test parametrici presuppongono che i due campioni siano entrambi generati da v.c. normali, iltest di uguale distribuzione non presuppone la specificazione di quale sia la distribuzione.

I test tradizionalmente utilizzati per tale verifica sono il test di Kolgomorov Smirnov e il test di Wald-Wolfowitz.

Page 20: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

20

39

Test Kolgomorov-Smirnov per la verifica dell’uguaglianza di due popolazioni

Il Test di Kolgomorov Smirnov, già presentato come test di adattamento, può essere considerato anche perla verifica che due campioni provengano dalla medesima popolazione con distribuzione ignota.In questo caso, anziché confrontare le funzioni di ripartizione empirica del campione e la funzione diripartizione specificata nell’ipotesi H0 , si confrontano le funzioni di ripartizione empiriche dei due campioni.

H0: i 2 campioni provengono dalla medesima popolazione, ossia hanno la medesima distribuzione (ignota)H1: non provengono dalla medesima popolazione.

La statistica su cui si fonda il test è la distanza massimatra le due funzioni di ripartizione:= 1( ) − 2( ) essendo 1 e 2le funzioni di ripartizione empiriche dei due campioni.

Rifiutiamo H0 se D è maggiore del valore tabulato.Definita la soglia critica data da 1 , 2 ≥ ( 1 , 2); │ 0 == , : , ≥ ( , );

40

Se n1 e n2 sono entrambi maggiori di 30:

per = 0,05, rifiutiamo H0 se n1 n2 D ≥ 1,3621

11

nn

per = 0,01, rifiutiamo H0 , se n1 n2 D ≥ 1,6321

11

nn

Page 21: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

21

41

Output di R del Test di uguaglianza di due popolazioni di Kolgomorov-Smirnov

42

2.2.2 Il Test Wald-Wolfowitz per la verifica dell’uguaglianza di due popolazioni

Il Test Wald-Wolfowitz (detto anche test dei run, o test delle sequenze) si fonda sui ranghi dei daticampionari e può pertanto confrontare sia due varabili quantitative sia qualitative ordinali rilevate attraversodue campioni indipendenti.

Come nel test di Kolgorov-Smirov le ipotesi sono le seguenti:H0: i due campioni provengono dalla medesima distribuzione, ossia hanno la medesima distribuzione (ignota)H1: non provengono dalla medesima popolazione.

Una volta assegnati i ranghi ai dati conglobati si calcola il numero di iterazioni Y (ossia il numero disuccessioni di dati appartenenti allo stesso campione).Ad esempio, indicando con 1 e 2 i dati conglobati ordinati a seconda che appartengano al campione 1 o 2,nella sequenza: 11222122211122222222111112 si osservano 8 iterazioni.

Se il numero di iterazioni fosse solo 2 vorrebbe dire che i due campioni sono assai diversi (ad esempio, primatutte le osservazioni di un campione e poi tutte le altre del secondo).Ad esempio: 11111111111222222222222222 (2 iterazioni)

Se invece i dati fossero alternati nella loro appartenenza ai due campioni il numero di iterazioni sarebbeelevato e quindi i campioni molto simili (se avessero la stessa numerosità le iterazioni sarebbero 2n).Ad esempio: 2121212121212121212121 (22 iterazioni).

Page 22: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

22

43

I valori di Y sono tabulati in corrispondenza di diversi valori di α:Rifiutiamo H0 se Y è minore del valore Yα quello tabulato in corrispondenza di n1 e n2.

Per n1 e n2 elevati si può dimostrare che Y N( )

con: = 1 + e = ( )( ) = ( )( ).

In questo caso si standardizza Y e si verifica con le tavole della normale se rifiutare o accettare.Poiché come abbiamo visto se il numero di iterazioni è grande le due popolazioni sono simili, sirifiuta H0 se │z│ ≤ zα/2 si rifiuta).

Lo stesso test può essere applicato per verificare ipotesi unilaterali.

44

Esempio di applicazione del test di Wald-Wolfovitz

Due campioni con n1 = 12 e n2 = 14 unità.I dati ordinati risultano i seguenti.

X1 X2

108 106110 118113 119115 124122 125126 136135 145139 150141 155142 158153 159156 161

162166

L’ordinamento dei due campioni conglobatie il numero di iterazioni Y è il seguente.

X (rango) CampioneY: numero di

iterazioni

106 1 2108 2 1110 3 1113 4 1115 5 1118 6 2119 7 2122 8 1124 9 2125 10 2126 11 1135 12 1136 13 2139 14 1141 15 1142 16 1145 17 2150 18 2153 19 1155 20 2156 21 1158 22 2159 23 2161 24 2162 25 2166 26 2

13

Page 23: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

23

45

Media di Y13,92

Varianza di Y6,16

Deviazione standard di Y2,48

z-0,37

za/2 -1,96

Se Y ≤ Yα rifiutiamo l’ipotesi H0 di uguaglianza delle due popolazioni.

Guardando le tavole del test di Wald-Wolfowitz con α = 0,05, poiché 13 > Y0,05 = 9 non rifiutiamo H0 e quindiconcludiamo che le due popolazioni da cui provengono i due campioni sono identiche.

Se i due campioni fossero stati grandi, assumendo la v.c. Y come normale , avremmo così operato :Poichè z > -za/2 non avremmo rifiutiato H0 : avremmo concluso che le 2 popolazioni hanno la stessadistribuzione.

Si noti che un possibile inconveniente nell’applicazione del test di Wald-Wolfowitz si ha quando ci sonoosservazioni con lo stesso valore appartenenti ai due campioni. Come costruire l’ordinamento? La soluzioneè ripetere il test nei due ordinamenti cui corrisponde il numero massimo e minimo di iterazioni tra i diversiordinamenti possibili e verificare se ci sia una stabilità dei risultati.

46

Tavole del test di Wald-Wolfowitz

Page 24: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

24

47

2.2.3 Test di uguaglianza delle mediane di due popolazioni: il Test di Mann-Whitney

Come nel test di Wald-Wolfowitz anche il test di Mann-Whitney si basa sui ranghi e le due popolazionipossono essere quindi espresse sia attraverso tradizionali variabili quantitative, sia qualitative ordinali. Anchein questo caso i due campioni sono indipendenti.

Il test può essere utilizzato sia per verificare se i due campioni provengono da due popolazioni identiche(una stessa distribuzione) sia per verificare se tali popolazioni abbiano mediane uguali:H0: Me1 = Me2 H1: Me1 ≠ Me2 .

Anche in questo caso vengono inizialmente assegnati i ranghi ai dati conglobati dei due campioni.Successivamente: si calcola la statistica S1 = somma dei ranghi del primo campione.

Tale somma sarà molto piccola se i dati del primo campione sono sistematicamente più bassi di quelli delsecondo campione, oppure molto grande nel caso siano sistematicamente più alti.

si calcolano i valori di U1, U2 = + ( ) − = −tra le quali si determina U = min(U1 ; U2 ).

I valori di U sono tabulati in corrispondenza di diversi valori di α:Rifiutiamo H0 se U è minore del valore Uα quello tabulato in corrispondenza di n1 e n2.

48

E’ stato dimostrato che U converge ad una distribuzione normale U N (U, U)

con U = 221nn

e U 12

)1( 2121 nnnn

Pertanto, per grandi campioni, una volta standardizzata U si può utilizzare la tavola dellanormale, rifiutandosi H0 se │z│ ≤ z/2 .Lo stesso test può essere applicato per verificare ipotesi unilaterali sulle due mediane.

Nota. Si può facilmente verificare che U1+U2 = n1 n2 .Pertanto se fosse U1 = n1 n2 allora U2 = 0(o viceversa). Il rapporto 1 2 è pertanto una frazione compresa tra 0 e 1. Tale frazione è

equivalente all'area sotto la curva ROC (Receiver Operating Characteristic), che utilizzeremonella regressione logistica.

Page 25: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

25

49

Tavole del test di Mann-Whitney

50

Esempio di applicazione del test di Mann Whitney2 campioni indipendenti, entrambi di 12 unità(le numerosità ovviamente potrebbero essere anche diverse)

X1 Campione X2 Campione108 1 106 2110 1 118 2113 1 119 2115 1 124 2122 1 125 2126 1 136 2135 1 145 2139 1 150 2141 1 155 2142 1 158 2153 1 159 2156 1 161 2

n1 = 12 n2 = 12

Dati conglobati e ordinati

Assegnazione del rango

X Campione Rango106 2 1

108 1 2

110 1 3

113 1 4

115 1 5

118 2 6

119 2 7

122 1 8

124 2 9

125 2 10

126 1 11

135 1 12

136 2 13

139 1 14

141 1 15

142 1 16

145 2 17

150 2 18

153 1 19

155 2 20

156 1 21

158 2 22

159 2 23

Page 26: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

26

51

Dati del primo campione con ilrango assegnato

Dati del secondo campione con ilrango assegnato

X1 Campione Rango X2 Campione Rango108 1 2 106 2 1

110 1 3 118 2 6

113 1 4 119 2 7

115 1 5 124 2 9

122 1 8 125 2 10

126 1 11 136 2 13

135 1 12 145 2 17

139 1 14 150 2 18

141 1 15 155 2 20

142 1 16 158 2 22

153 1 19 159 2 23

156 1 21 161 2 24

S1 130

n1 12

n2 12

U1 92

U2 52U 52

(U max 144)

Guardando le tavole, in corrispondenza di α=0,05 e numerosità 12 e 12,poiché U=52 > U0,05 = 37 ….non rifiutiamo H0 e concludiamo pertanto che le due popolazioni sonoidentiche. Le loro distribuzioni risaltano uguali ed hanno quindi anche la stessa mediana.

52

Se i due campioni fossero stati grandi, assumendo la v.c. S1 come normale , avremmo cosìoperato :

Media di U 72Varianza di U 276Deviazione standard di U 16,6z -1,20za/2 -1,96

Poichè z > -za/2 non avremmo rifiutiato H0 : avremmo concluso che le 2 popolazioni hanno lastessa distribuzione.Le mediane delle due popolazioni sarebbero risultate uguali.

Ricordando che U converge ad una distribuzione normale U N (U, U)

con U = 221nn

e U 12

)1( 2121 nnnn

Page 27: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

27

53

2.2.4 Il test di Wilcoxon (signed-rank test)

A differenza di tutti i precedenti test non parametrici per la verifica dell’uguaglianza di duepopolazioni, il test di Wilcoxon si usa nel caso di due campioni appaiati (per esempio, “prima-dopo”) e quindi quando si vuole verificare l’uguaglianza di due popolazioni non indipendenti.

Come abbiamo già visto in precedenza, se la distribuzione della popolazione da cui provengono icampioni è assunta normale, possiamo usare un test t di Student per due campioni appaiati, perverificare l’ipotesi nulla che le differenze tra ciascuna unità provengano da una popolazione con mediapari a 0.Se tuttavia non siamo sicuri della normalità della popolazione, possiamo utilizzare il signed-rank testdi Wilcoxon Anche tale test si fonda sui ranghi.

Come già visto nel caso della media, i dati i dati campionari si riferiscono a coppie di informazioniX1i e X2i per ciascuna delle n unità del campione (i = 1, …, n).

H0: le due distribuzioni sono identiche (le differenze non sono significative)H1: le due distribuzioni non sono identiche.

54

Dato un campione di n unità su cui si disponga della coppia di informazioni X1i e X2i (i = 1, …, n), laprocedura per effettuare il test si articola nel modo seguente: calcolo delle differenze di per ciascuna unità i-esima del campione (differenze tra X1i e X2i); assegnazione ad ogni differenza in valore assoluto |di| del suo rango (partendo dalla più piccola,

escludendo gli zeri e facendo la media per i pareggi); assegnazione ad ogni rango del segno della differenza di originale (signed-rank) che indichiamo con

sign(di), che ovviamente può essere + o -; calcolo della statistica W, pari alla somma dei ranghi con i loro segni:

=Rifiutiamo H0 se |W│ è maggiore del valore tabulato in corrispondenza di α.

Infatti, se le due distribuzioni fossero uguali, i ranghi associati a differenze positive dovrebbero esserepressoché pari ai ranghi associati a differenze negative e la somma dei ‘ranghi con segno’ W dovrebbeassumere un valore prossimo a 0.Viceversa, quanto più il ‘trattamento’ (ad esempio l’effetto ‘prima/dopo’) influisce sulla variabile X oggetto distudio, tanto più le differenze tenderanno ad assumere lo stesso segno.In questo caso la somma dei ‘ranghi con segno’ W tenderà ad assumere un valore positivo o negativo“grande”.

Page 28: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

28

55

Va osservato che (come nel test di Mann-Whitney) per la somma dei ranghi, la natura discreta delladistribuzione dei possibili valori di W implica l’ impossibilità di determinare sempre i valori criticiassociati esattamente al livello di significatività voluto (generalmente α=0,05).

Si dimostra che la statistica W converge ad unav.c. normale, in particolare con parametri μW = 0

e = ( ).Pertanto, una volta standardizzata la statistica Wpossiamo rifiutare H0 se z > zα/2.

56

Output di R del test di Wilcoxon

Page 29: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

29

57

Esempio di applicazione del test di Wilcoxon

Una delle voci di spesa importanti nelfunzionamento della PA sono gli acquisti di carta.Allo scopo di ridurre la spesa il governo haintrodotto modifiche alle norme sulle procedure diacquisto prevedendone una centralizzazione.Sulla base di un campione di 15 amministrazionipubbliche, a distanza di un anno dall'introduzionedel provvedimento, si valuti se si sia registrata unariduzione della spesa al livello di α=0,05.

Dati campionari della spesa Differenze e segno

Prima DopoX1 X2 di sign(di)

30 42 12 +15 23 8 +39 39 060 83 23 +

100 156 56 +40 26 -14 -65 38 -27 -31 31 027 21 -6 -48 30 -18 -56 38 -18 -22 13 -9 -37 35 -2 -13 7 -6 -58 37 -21 -

58

Poiché |W| = 23 < W0,05 = 70 tabulato in corrispondenza an=15, non rifiutiamo H0 econcludiamo che non si evidenzia una differenzasignificativa nella spesa prima e dopo il provvedimento.

Qualora considerassimo l’approssimazione con la normaleprocederemmo a standardizzare la statistica W.

Poiché µW = 0 e σ2W = 15(15+1)(30+1)/6 = 1240 allora

z = -23/35,2= -0,65 > -za/2 =-1,96 e dunque non rifiutiamo H0.

sign(di) │di│ ri sign(di) * ri

00

- 2 1 -1- 6 2,5 -2,5- 6 2,5 -2,5+ 8 4 4- 9 5 -5+ 12 6 6- 14 7 -7- 18 8,5 -8,5- 18 8,5 -8,5- 21 10 -10+ 23 11 11- 27 12 -12+ 56 13 13

-23W

Differenze assolute ordinate, assegnazionedei ranghi e calcolo di W

Page 30: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

30

59

2.3 L’analisi della varianza non parametrica: il test di Kruskall-Wallis e il test di Friedman

Qualora la variabile d’interesse Y fosse ordinale, oppure qualora non valessero le condizioni di normalità edi omoschedasticità delle popolazioni cui si riferiscono i campioni possono essere usati test nonparametrici.I test di Kruskall-Wallis e di Friedman corrispondono rispettivamente all’Anova ad un fattore e a due fattori.In questo casi l’ipotesi che viene verificata è l’uguaglianza delle popolazioni e non più dunquel’uguaglianza delle medie.

2.3.1 Test di uguaglianza di k popolazioni: il Test di Kruskall-Wallis

Il test di Kruskall-Wallis corrisponde all’ANOVA non parametrica, effettuata sui ranghi.Le distribuzioni debbono essere indipendenti ma non essere né omoschedastiche, né generate da v.c.normali,

H0: le k popolazioni hanno identica distribuzioneH1: altrimenti.

Ovviamente essendo un test non parametrico le distribuzioni possono essere qualsiasi.

60

Una volta conglobati i k campioni ed assegnati i ranghi a ciascuna osservazione (da 1 a n),si confrontano le medie dei ranghi dei diversi campioni.Se le distruzioni sono simili tali medie tenderanno ad essere uguali. Siano:n1,…, ni, …, nk, le numerosità campionarie dei k gruppi, con ∑ =1 = .R1,…, Ri, …, Rk la somma dei ranghi dei k gruppi1 = 11 , … . , = , … . , = la media dei ranghi dei k gruppi= 1+2+⋯..+ = +12 la media dei ranghi delle n osservazioni,

si calcola la devianza delle medie dei ranghi D:= ∑ ( − )2=1 e la statistica H di Kruskal Wallis:= ( + 1)/12 = 12( + 1) ( − )2=1Si rifiuta l’ipotesi H0 di uguaglianza delle k distribuzioni se H è maggiore del valore critico tabulato incorrispondenza di α e delle numerosità dei campioni.Per campioni di dimensione non troppo ridotta (almeno 5 unità per 3 gruppi o almeno 10 per 4 gruppi) la

statistica H si distribuisce come una χ2 con k-1 gradi di libertà.Si rifiuta l’uguaglianza delle k distribuzioni (H0) qualora H ≥ χ 2

k-1; α

Page 31: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

31

61

Tavole del test diKruskall-Wallis

62

Esempio di applicazione del test di Kruskal-Wallis

Livello di gradimento espresso da 60 operatori di 4 diversi Paesi

Paese A Paese B Paese C Paese D

39 44 76 7923 38 20 8964 46 20 3849 78 89 4222 31 55 4721 65 82 6864 74 33 4069 21 76 7842 73 32 2662 47 76 6634 66 42 5422 82 37 4186 38 32 5184 90 4688 21 20

66 71

ni 15 16 13 16 n = 60

Sulla base di un'indagine sul livello disoddisfazione di una gamma di servizi forniti daun'impresa, si intende verificare se ci sianodifferenze nell’indicatore composito dei giudizi daparte di un campione di operatori che svolgonoattività in 4 paesi diversi.L’indicatore assume valori compresi tra 1 e 100.

I dati risultano i seguenti.

Page 32: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

32

63

Assegnazione del rango ai dati conglobati

continua

Punteggio Paese Rango Punteggio Paese Rango

20 C 2 49 A 3120 C 2 51 D 3220 D 2 54 D 3321 A 5 55 C 3421 B 5 62 A 3521 B 5 64 A 36,522 A 7,5 64 A 36,522 A 7,5 65 B 3823 A 9 66 B 4026 D 10 66 B 4031 B 11 66 D 4032 C 12,5 68 D 4232 C 12,5 69 A 4333 C 14 71 D 4434 A 15 73 B 4537 C 16 74 B 4638 B 18 76 C 4838 B 18 76 C 4838 D 18 76 C 4839 A 20 78 B 50,540 D 21 78 D 50,541 D 22 79 D 5242 A 24 82 B 53,542 C 24 82 C 53,542 D 24 84 A 5544 B 26 86 A 56

64

Assumendo i campionidi dimensionesufficiente perutilizzarel’approssimazionedella statistica H allav.c Chi quadrato.Poiché H < χ2

0,05; 3 =7,81 non rifiutiamo H0concludendo che le 4popolazioni sonoidentiche.

Page 33: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

33

65

2.3.2 Il Test di Friedman

Il test di Friedman rappresenta la versione non parametrica dell’Anova a due fattori (A, con kmodalità, e B con t modalità).In particolare quando ognuno dei k * t campioni è composto da una sola unità.Corrisponde pertanto al caso di una Anova a due fattori senza replicazioni.Non si configura pertanto un fattore interazione e i test che possono essere condotti sono pertanto due,e riguardano gli effetti del Fattore A e quelli del Fattore B.

A \ B b1 b2 … bv … bt

a1 Y11 Y12 Y1v Y1t

a2 Y21 Y22 Y2v Y2t

ai Yi1 Yi2 Yiv Yit

ak Yk1 Yk2 Ykv Ykt

Gli n dati disponibili possono essere rappresentati nel modo seguente:

Il test di Friedman si svolge in due fasi.

La prima è rivolta a verificare l’assenza degli effetti di A,la seconda a verificare l’assenza degli effetti di B gruppi(campioni) di t osservazioni.

66

Verifica dell’effetto del fattore AH0A: le popolazioni trattate con le diverse modalità di A sono identiche (il Fattore A non ha effetti su Y).H1A: le popolazioni non sono identiche.

Si considerano i t campioni di k elementi (i dati nelle colonne della precedente tabella). Successivamente: si assegnano i ranghi da 1 a k ai dati di ciascuno dei t campioni di k elementi; si calcola la somma dei ranghi di ciascuno dei k campioni di t elementi (somma di riga, indicata con Ti).

Se tali somme di riga tendono ad essere uguali vuol dire che A non esercita un effetto su Y. Se invece sonomolto diverse, come nella seguente tabella, si è in presenza di un effetto di A su Y. Ad esempio, le unitàtrattate con la prima modalità di a (a1), indipendentemente dal trattamento di B, presentano sempre i valoripiù piccoli di Y, a testimonianza di un evidente effetto che tale modalità esercita.

Ranghi dei t campioni: caso di forte effetto su Y delle modalità del Fattore A(somme di riga molto diverse)A \ B b1 b2 … bv … bt

a1 1 1 1 1 1 1 T1

a2 2 2 2 2 2 2 T2

…ai i i i i i i Ti

…ak k k k k k k Tk

La statistica test è la seguente:= 12 ∑( + 1) − 3 ( + 1)Se G è maggiore del valore critico sulle tavole, incorrispondenza di α, si rifiuta l’ipotesi di uguaglianzadelle popolazioni trattate con le diverse modalità delFattore A.

Page 34: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

34

67

Verifica dell’effetto del fattore BH0B: le popolazioni trattate con le diverse modalità di B sono identiche (il Fattore B non ha effetti su Y).H1B: le popolazioni non sono identiche.

Simmetricamente il test si conduce nel modo seguente.

Si considerano i k campioni di t elementi (i dati nelle righe della precedente tabella). Successivamente: si assegnano i ranghi da 1 a t ai dati di ciascuno dei k campioni di t elementi (i ranghi della i-esima riga); si calcola la somma dei ranghi di ciascuno dei t campioni (somma dei ranghi di colonna, indicata con Tv).

Se tali somme di colonna tendono ad essere uguali vuol dire che B non esercita un effetto su Y. Se invece sonomolto diverse, come nella seguente tabella, si è in presenza di un effetto di B su Y. Ad esempio, le unità trattatecon la prima modalità di b (b1), indipendentemente dal trattamento di A, presentano sempre i valori più piccoli diY, a testimonianza di un evidente effetto che tale modalità esercita.

Ranghi dei k campioni: caso di forte effetto su Y delle modalità del Fattore B(somme di colonna molto diverse)A \ B b1 b2 … bv … bt

a1 1 2 v ta2 1 2 v t…ai 1 2 v t…ak 1 2 v t

La statistica test è la seguente:= 12 ∑( + 1) − 3 ( + 1)Se G è maggiore del valore critico sulle tavole, incorrispondenza di α, si rifiuta l’ipotesi di uguaglianza dellepopolazioni trattate con le diverse modalità del Fattore B.

68

Tavole del test di Friedman

Page 35: 7. Test di indipendenza e test non parametrici · 2020. 4. 3. · 01/04/2020 4 7 Test di indipendenza lineare tra due variabili Come noto due variabili sono linearmente indipendenti

01/04/2020

35

69

Livello di inquinamentoOre 8 Ore 13 Ore 18

Q1 18 16 15Q2 17 17 15Q3 12 18 18Q4 18 11 16Q5 13 12 17

Quartieri

Effetto Ore diurne (Fattore B)

Livello di inquinamentoOre 8 Ore 13 Ore 18

Q1 3 2 1Q2 2,5 2,5 1Q3 1 2,5 2,5Q4 3 1 2Q5 2 1 3T 11,5 9 9,5T2 132,3 81 90,25 303,5

Quartieri

Esempio di applicazione del test di Friedman

Variabile Y: Livello di inquinamentoFattore A (quartiere): k=5Fattore B (Livello di inquinamento) t=3