Test del Chi-quadrato - Docenti...

16
Il test (o i test) del Chi-quadrato ( 2 ) I dati: numerosità di osservazioni che cadono all’interno di determinate categorie Prima di tutto, è un test per confrontare proporzioni Esempio : confronto tra numero semi lisci e rugosi osservati in nella discendenza di una pianta eterozigote autofecondata DATI: 59 semi lisci e 14 semi rugosi o p = 59/73 = 0.808 Ci si chiede di verificare l’ipotesi nulla che la proporzione di semi lisci, 0 , sia 0.75 Ci ricorda qualcosa?

Transcript of Test del Chi-quadrato - Docenti...

Il test (o i test) del Chi-quadrato (2)

I dati: numerosità di osservazioni che cadono all’interno di determinate categorie

Prima di tutto, è un test per confrontare proporzioni

Esempio: confronto tra numero semi lisci e rugosi osservati in nella discendenza di una pianta

eterozigote autofecondata DATI: 59 semi lisci e 14 semi rugosi

o p = 59/73 = 0.808

Ci si chiede di verificare l’ipotesi nulla che la proporzione di semi lisci, 0, sia 0.75 Ci ricorda qualcosa?

Sappiamo già affrontare questo problema con un semplice test z !

H0 : = 0

H1 : 0

1488.1

73

25.075.0

750.0808.0

1 00

0

n

pzcalc

Però questa analisi si può affrontare anche con il test del chi-quadrato, calcolando sulle

numerosità (non sulle proporzioni) la statistica

A

AO

Attesi

AttesiOsservaticalc

222 )()(

Osservati sono le numerosità osservate Attesi sono le numerosità attese se fosse vera l’ipotesi nulla La sommatoria è per tutte le categorie (2 in questo caso, semi lisci e semi rugosi)

Come per il test z, questo test è valido se le numerosità attese nelle 2 categorie sono maggiori

o uguali a 5

Nell’esempio o Valori attesi di semi lisci, su un totale di 73 semi, è pari a 0.75*73 = 54.75 o Valori attesi di semi rugosi, su un totale di 73 semi, è pari a 0.25*73 = 18.25

o I valori attesi possono avere numeri decimali: sono medie di tante repliche ipotetiche di un esperimento sotto H0

o Il totale dei valori attesi deve essere pari al numero totale di osservazioni!

Per le verifica della significatività, ci servono i valori critici di una distribuzione teorica nuova,

quella del 2 .

Infatti si può dimostrare che se è vera l’ipotesi nulla (= 0), allora la distribuzione della

statistica (2

calc) segue una distribuzione teorica nota, quella del 2 appunto, con un numero di

gradi di libertà pari al numero di categorie indipendenti gdl: numero di pezzettini di informazione indipendente oppure numero di pezzettini di

informazione meno il numero di parametri stimati dai dati per calcolare gli attesi In questo caso, c'è soltanto 1 gdl, e lo posso dimostrare in due modi:

o esiste solo una classe indipendente (la numerosità nell'altra la posso calcolare per differenza dal totale)

o se alle due classi di partenza tolgo una singola quantità che proviene dai dati e che mi serve per calcolare i valori attesi (il totale di osservazioni) ottengo 1.

La distribuzione del 2

Tante curve a seconda dei gradi di libertà Il valore medio è uguale a il numero di gradi di libertà

Il 2 è sempre positivo (si calcola con un quadrato al numeratore)

Varia tra 0 e +infinito

Estratto da tabella del Chi-quadrato

I valori interni alla tabella corrispondono ai valori critici riferiti alla coda di destra, ovvero ai valori alla cui destra cade la frazione della curva riportata nella prima riga. Per esempio, con 2 gradi di libertà, il 5% della distribuzione ha valori superiori a 5.991. Si tratta quindi di una tabella delle aree a una coda.

df 0.995 0.99 0.975 0.95 0.90 0.10 0.05 0.025 0.01 0.005

1 0.000 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879

2 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597

3 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838

4 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860

5 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.833 15.086 16.750

10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188

20 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997

21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401

22 8.643 9.542 10.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796

23 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181

24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.559

25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928

30 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672

40 20.707 22.164 24.433 26.509 29.051 51.805 55.758 59.342 63.691 66.766

50 27.991 29.707 32.357 34.764 37.689 63.167 67.505 71.420 76.154 79.490

Riprendiamo l’esempio dei semi lisci e rugosi

3196.1

25.18

25.1814

75.54

75.545922

2

calc

A parità di gdl, valori grandi del 2

calc sono indice di allontanamento dall’ipotesi nulla, in

entrambe le direzioni

Tutte e due le deviazioni dall’ipotesi nulla ( > 0 e < 0) determineranno una deviazione verso

valori grandi 2 ,ossia verso la coda destra della distribuzione attesa quando è vera l'ipotesi nulla.

Le ipotesi sono definite in maniera bidirezionale,

ma se utilizziamo la statistica del 2

dobbiamo usarla ad una coda!

Quindi il valore di Chi quadrato calcolato

3196.12 calc

non è significativo per α = 0.05, visto che è inferiore al valore critico di 3.841

La conclusione è ovviamente identica a quella ottenuta con il test z

Ma quindi a cosa serve questo test se avevamo già z?

La generalizzazione del test del Chi-quadrato come test “goodness of fit” Il test che abbiamo visto per i piselli di Mendel si può considerare il caso più semplice di una

categoria di test definiti “test di bontà dell’adattamento di una distribuzione empirica ad una distribuzione teorica”, o più semplicemente “goodness of fit tests”

Le proporzioni osservate si confrontano con quelle previste da un modello teorico Il modello teorico è da considerarsi l’ipotesi nulla

Nel caso dei piselli lisci e rugosi, esistevano solo due categorie e solo una proporzione prevista

(l’altra era determinata automaticamente). Questa situazione si può però estendere ad un numero maggiore di categorie.

Per esempio, nella verifica della trasmissione di due geni indipendenti durante la trasmissione mendeliana in un incrocio di un doppio eterozigote

Assunzione del test (generalizzazione quando ci sono più di 2 categorie) Non più del 20% delle classi deve avere una numerosità attesa <5 (e nessuna classe deve

avere numerosità attesa <1) Se cio’ non si verifica, una soluzione è quella di raggruppare alcune classi

Esempio La proporzione di semi che possiedono le caratteristiche CS, Cs, cS e cs dopo

l'autofecondazione di piante eterozigoti a due geni è prevista, nel caso di geni indipendenti, nel rapporto 9:3:3:1.

Verificare questa distribuzione teorica attesa su un campione di 1000 semi che hanno dato la seguente distribuzione osservata

CS Cs cS cs 720 23 20 237

Calcolo le numerosità ( = frequenze assolute) attese

CS Cs cS cs 562,5 187,5 187,5 62,5

Calcolo il valore dei 4 elementi che devono essere sommati per ottenere il 2

calc

44,1 144,3 149,6 487,2

La somma porta a 3.8252 calc

Il calore critico della distribuzione teorica del chi-quadrato con 3 gradi di libertà è 7.81 (con = 0.05)

Quindi, la deviazione è altamente significativa ed è possibile respingere l'ipotesi nulla di

adeguamento alla distribuzione teorica prevista (le proporzioni osservate si discostano significativamente da quelle attese

Probabilmente i due geni sono localizzati in posizioni vicine sullo stesso cromosoma

Un esempio

Verificare con il test appropriato se la distribuzione osservata si adatta a quella attesa.

Altri esempi Dispersione di semi con legge quadratica inversa

Efficacia trappole per la cattura di uccelli

Verifica se i dati osservati in un campione seguono una distribuzione teorica normale

Vediamo quest’ultimo esempio

La distribuzione di frequenza del peso in chilogrammi di frutta prodotta da 81 piante è riportato nella seguente tabella:

Intervalli ni

48.5-49.5 4

49.5-50.5 7

50.5-51.5 9

51.5-52.5 10

52.5-53.5 15

53.5-54.5 11

54.5-55.5 10

55.5-56.5 8

56.5-57.5 5

57.5-58.5 2

Vogliamo testare l'ipotesi nulla che questi dati siano estratti da una popolazione in cui la

variabile "peso di frutta prodotta da un albero" ha una distribuzione gaussiana. Si deve cioè verificare se i dati osservati sono compatibili con un modello distributivo normale.

L'ipotesi nulla è che lo siano, l'ipotesi alternativa è che non lo siano. Come sempre, se l'ipotesi nulla non verrà rifiutata, non potremmo dire con certezza che i dati

provengono da una popolazione con distribuzione gaussiana della variabile, ma solo sono compatibili con questa ipotesi.

Per testare questa ipotesi, dobbiamo utilizzare (dopo aver calcolato media e varianza dei dati osservati) la distribuzione normale per calcolare le numerosità attese in ciascuna classe. Poi il test del chi-quadrato verrà utilizzato per confrontare le numerosità osservate con quelle attese

Le numerosità attese vengono calcolate sulla base della distribuzione teorica gaussiana che ha la stessa media e la stessa deviazione standard calcolati a partire dai dati osservati

Per il calcolo delle numerosità attese, avrò ovviamente bisogno della normale standardizzata, e quindi dovrò standardizzare i limiti delle classi

Attenzione alle classi estreme e alla determinazione dei gradi di libertà da utilizzare per definire la distribuzione nulla appropriata

Nel caso riportato, possiamo calcolare che

media = 52.25

varianza = 5.26

dev. St. = 2.29

A questo punto procedo con la standardizzazione dei limiti superori, il calcolo delle aree a sinistra di questi limiti, il calcolo delle aree relative a ciascun intervallo, e quindi al calcolo delle numerosità attese

Limite superiore

Limite superiore

stadardizz.

Area a sinistra del limite sup.

Area corrispondente

all'intervallo Numerosità

attese

49.50 -1.63 0.0516 0.0516 4.18

50.50 -1.20 0.1151 0.0635 5.15

51.50 -0.76 0.2236 0.1086 8.79

52.50 -0.33 0.3707 0.1471 11.91

53.50 0.11 0.5438 0.1731 14.02

54.50 0.55 0.7088 0.1650 13.37

55.50 0.98 0.8365 0.1276 10.34

56.50 1.42 0.9222 0.0857 6.94

57.50 1.85 0.9678 0.0456 3.70

58.50 2.29 1.0000 0.0322 2.60

Totali 1.0000 81.00

Ora calcolo la statistica test del chi-quadrato

OSSERVATI ATTESI (O-A)^2/A

4 4.18 0.01

7 5.15 0.66

9 8.79 0.01

10 11.91 0.31

15 14.02 0.07

11 13.37 0.42

10 10.34 0.01

8 6.94 0.16

5 3.7 0.46

2 2.6 0.14

24.22 calc

07.142

05.0,7, gdlcritico

CONCLUSIONE: Non ci sono forti evidenze per rifiutare il modello teorico gaussiano. La distribuzione di frequenza empirica (dei dati osservati) è compatibile con una distribuzione teorica gaussiana