-1cm Corso di Psicometria Progredito - 4.1 I principali...

Post on 17-Feb-2019

223 views 0 download

Transcript of -1cm Corso di Psicometria Progredito - 4.1 I principali...

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

Corso di Psicometria Progredito4.1 I principali test statistici per la verifica di ipotesi:

Il test t

Gianmarco AltoèDipartimento di Pedagogia, Psicologia e Filosofia

Università di Cagliari, Anno Accademico 2013 - 2014

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

Sommario

1 Introduzione

2 Test t a campione unico

3 Test t per dati appaiati

4 Test t per campioni indipendenti

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

E se la varianza è ignota?

Fino ad ora abbiamo considerato dei problemi di inferenzastatistica in cui la varianza della popolazione da cui è estrattoil campione è nota.

E se la varianza della popolazione non fosse nota (caso assaifrequente nella pratica)?

Potremmo sostituire una stima della varianza. Ma si è vistoche in questo caso, ed in particolare quando la numerositàcampionaria è ridotta, la statistica test sotto H0 non sidistribuisce esattamente come una normale.

Per fortuna uno “statistico birraio”, nei primi del novecento,ha risolto il problema ... ⇒

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

William Sealy Gosset e la distribuzione t di student

Nei primi del 900 lo statistico William Sealy Gosset, chelavorava presso una fabbrica di birra Guinnes a Dublino,risolse il problema proponendo la distribuzione t di Student.Tale distribuzione è simmetrica ed ha la forma di unacampana, ma rispetto alla normale è caratterizzata da codecontenenti una maggiore probabilità.

Gosset pubblicò i suoi risultati in un articolo passato allastoria nel 1908. La direzione della Guinnes non permettevaperò ai suoi dipendenti di pubblicare risultati relativi aesperimenti fatti nei propri laboratori ... e così Gosset fucostretto ad usare lo pseudonimo di “Student”.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

t di Student vs. Normale

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

quantili

Densità

t con 1 grado di libertàt con 2 gradi di libertàt con 5 gradi di libertàt con 10 gradi di libertàt con 20 gradi di libertànormale

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

t di Student, gradi di libertà e Normale

I gradi di libertà (degrees of freedom) sono un parametro chedefinisce la distribuzione t. Esso dipende dalla numerositàcampionaria e dalla statistica test utilizzata.

Ad esempio nel caso del test t per la verifica di ipotesi sullamedia di una popolazione con varianza ignota, i gradi dilibertà della statistica test sono pari alla numerositàcampionaria meno uno (n − 1).

Osservando il grafico precedente si può notare che alcrescere della numerosità e quindi dei gradi di libertà ladistribuzione t e la distribuzione normale tendono acoincidere. In particolare per n > 100 le due distribuzioni sipossono considerare praticamente uguali.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

Varie tipologie di test t

Nel corso della lezione vedremo, attraverso degli esempi, diverseapplicazioni della distribuzione t di Student:

Test t a campione unico, per la verifica di ipotesi sullamedia della popolazione nel caso di varianza ignota.

Test t per dati appaiati, per il confronto tra le medie di duecampioni dipendenti.

Test t per campioni indipendenti, per il confronto tra lemedie di due campioni indipendenti.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

La stima della varianza della popolazione

Nei casi di verifica di ipotesi in cui la varianza dellapopolazione è ignota, si ricorre ad una stima di tale varianzabasata sui dati campionari.

In questi casi utilizzare la formula per il calcolo della varianzastudiata nell’ambito delle statistiche descrittive porta ad unasottostima della varianza della popolazione.

Si utilizzerà quindi uno stimatore non distorto della varianzadella popolazione, detto varianza campionaria:

s2 =

∑ni (Xi −X)2

n − 1

Naturalmente la deviazione standard campionaria sarà:

s =√s2

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

Le bottigliette di birra

In uno stabilimento di birra, una macchina ha il compito diversare 33 cl di birra in ogni bottiglietta prodotta. IlDirettore ha però il sospetto che la macchina non funzionicorrettamente. Per verificare tale ipotesi il Direttore misuracon uno strumento ad alta precisione 8 riempimenti effettuatidalla macchina selezionandoli in maniera casuale. I risultatiottenuti sono i seguenti:

33 ; 35 ; 37 ; 33 ; 30 ; 38 ; 34 ; 32

Verificare ad un livello di significatività del 5% (α = 0.05), sel’eventuale guasto ha prodotto un aumento della quantità dibirra versata dalla macchina.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

Alcune considerazioni

L’esercizio chiede di verificare un’ipotesi monodirezionalesulla media della popolazione. Rispetto agli esempi visti inprecedenza però, la varianza della popolazione è ignota.

Procederemo quindi stimando la varianza della popolazionesulla base dei dati campionari e utilizzando il cosiddetto testt a campione unico.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

1. La costruzione del sistema di Verifica di Ipotesi

{H0 : µ = 33

H1 : µ > 33

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

2. Calcolo del valore osservato della statistica test

Nel caso di test t a campione unico la statistica test da utilizzareè la seguente:

tOSS =X − µX(

s√n

)dove:

X è la media campionaria delle osservazioni

µ è la media nella popolazione se vale H0s è la deviazione standard campionaria delle osservazioni

n la numerosità campionaria

Dalla teoria sappiamo che se vale H0 la statistica test sidistribuisce come una t di Student con n − 1 gradi di libertà.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

2. Calcolo del valore osservato della statistica test:Aspetti computazionali

Calcoliamo la media e la deviazione standard campionaria dei dati:

X =

∑ni=1Xin

= 34

s =

√∑ni (Xi −X)2n − 1 = 2.619

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

2. Calcolo del valore osservato della statistica test

tOSS =X − µX(s√n

) = 34− 33(2.619√8

) = 1.080

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

3. Confronto tra valore osservato e valore critico

Per prima cosa determiniamo il valore critico del test per unlivello di significatività critico pari a α = .05

Essendo il test monodirezionale dovremo cercare sulle tavolestatistiche il quantile della distribuzione t di Student conn − 1, nel nostro caso 8-1 = 7, gradi di libertà che lasciadestra della distribuzione un’area totale di .05.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

3. Confronto tra valore osservato e valore critico

Distribuzione t di Student con 7 gradi di libertà

t

Densità

0.0

0.1

0.2

0.3

0.4

0.5

0 tOSS = 1.08 tCRIT = 1.895

Rifiuto Ipotesi NullaNon Posso Rifiutare Ipotesi Nulla

α = 0.05

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

3-4. Confronto tra valore osservato e valore critico edecisione finale

Dall’analisi condotta emerge che il valore osservato dellastatistica test è inferiore al valore critico.L’ipotesi nulla che afferma che la media dei riempimentieffettuati dalla macchina è pari a 33 cl non può essererifiutata per un livello di significatività pari al 5%.

... in sostanza, dal punto di vista statistico i dati nonsupportano la sensazione del Direttore.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

Il battito cardiaco prima e dopo un esameNella seguente tabella sono riportati i battiti cardiaci alminuto di 10 studenti, rilevati prima e dopo che gli studentihanno saputo di dover affrontare un compito di latino asorpresa.

Codice studente Battiti - Prima Battiti -Dopo1 60 672 66 753 73 684 62 625 74 896 63 747 64 628 65 739 71 7610 72 84

Verificare ad un livello di significatività del 5% (α = 0.05), sein media i battiti cardiaci sono cambiati tra le due rilevazioni.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

Alcune considerazioni

Considerando che le rilevazioni effettuate si riferiscono aglistessi soggetti, si può parlare di osservazioni dipendenti o didati appaiati.In ogni coppia di valori rilevati prima e dopo la notizia delcompito a sorpresa, le osservazioni non sono indipendenti masi riferiscono allo stessa unità statistica (il soggetto).

In questi casi, quando cioè le osservazioni non sonoindipendenti, il test statistico da utilizzare è il test t per datiappaiati.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

1. La costruzione del sistema di Verifica di Ipotesi

{H0 : µD = 0

H1 : µD 6= 0

Dove µD e la media delle differenze individuali tra prima e dopo lanotizia del compito nella popolazione da cui è estratto ilcampione.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

2. Calcolo del valore osservato della statistica testNel caso di test t per dati appaiati la statistica test da utilizzare èla seguente:

tOSS =D − µD(sD√n

)dove:

D è la media campionaria delle differenze individuali traprima e dopo

µ è la media nella popolazione delle differenze individuali traprima e dopo se vale H0sD è la deviazione standard campionaria delle differenzeindividuali tra prima e dopo

n la numerosità campionaria

Dalla teoria sappiamo che se vale H0 la statistica test sidistribuisce come una t di student con n − 1 gradi di libertà.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

2. Calcolo del valore osservato della statistica test:Aspetti computazionali

Codice studente Battiti - Prima (X1) Battiti -Dopo (X2) D = X2 −X11 60 67 72 66 75 93 73 68 -54 62 62 05 74 89 156 63 74 117 64 62 -28 65 73 89 71 76 510 72 84 12

Da cui segue che:

D =

∑ni=1Din

= 6 sD =

√∑ni (Di −D)2n − 1 = 6.481

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

2. Calcolo del valore osservato della statistica test

tOSS =D − µD(sD√n

) = 6− 0(6.481√10

) = 2.928

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

3. Confronto tra valore osservato e valore critico

Per prima cosa determiniamo il valore critico del test per unlivello di significatività critico pari a α = .05

Essendo il test bidirezionale dovremo cercare sulle tavolestatistiche i quantili della distribuzione t di Student conn − 1, nel nostro caso 10− 1 = 9, gradi di libertà chelasciano sulle code di sinistra e destra della distribuzioneun’area totale di .05.

Essendo la distribuzione t simmetrica, ci basterà trovare ilquantile positivo che lascia a destra un’area di probabilitàpari a α/2 = .025. Il quantile negativo sarà pari al quantilepositivo moltiplicato per -1.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

3. Confronto tra valore osservato e valore critico

Distribuzione t di Student con 9 gradi di libertà

t

Densità

0.0

0.1

0.2

0.3

0.4

0.5

− tCRIT = −2.262 0 tCRIT = 2.262 tOSS = 2.928

Rifiuto Ipotesi Nulla Rifiuto Ipotesi NullaNon Posso Rifiutare Ipotesi Nulla

α

2= 0.025

α

2= 0.025

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

3-4. Confronto tra valore osservato e valore critico edecisione finale

Dall’analisi condotta emerge che il valore osservato dellastatistica test non è compreso tra i valori critici.L’ipotesi nulla che afferma che la media delle differenzeindividuali tra i battiti cardiaci rilevati prima e dopo la notiziadel compito a sorpresa è pari a 0, può essere rifiutata per unlivello di significatività pari al 5%.

... in sostanza, la notizia del compito a sorpresa ha fattocambiare in maniera statisticamente significativa il numero dibattiti cardiaci dei soggetti.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

Le cavie nel labirintoIn un laboratorio di ricerca vengono costruiti due labirinti:labirinto A e labirinto B. A un gruppo di 6 cavie (gruppo A)viene fatto percorrere il labirinto A e ad un gruppo di altre 6cavie (gruppo B) il labirinto B. Alla fine dell’esperimento perciascuna cavia viene rilevato il tempo impiegato in secondiper uscire dal labirinto. I dati ottenuti sono:

Gruppo A Gruppo B16 2018 2122 1522 1921 1921 20

Ipotizzando che le varianze dei due gruppi siano omogenee,verificare ad un livello di significatività del 5% (α = .05) se idue labirinti presentano una diversa difficoltà.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

Alcune considerazioni

Considerando che le rilevazioni effettuate provengono da duegruppi che non presentano legami di dipendenza, perverificare l’ipotesi di ricerca, utilizzeremo il test t percampioni indipendenti.Per utilizzare tale test le varianze dei gruppi devono poteressere considerate omogenee, in caso contrario esiste unaversione del t test per campioni indipendenti (test t concorrezione di Welch) che tiene conto della disomogeneitàdelle varianze.Dal punto di vista didattico, per semplicità, ipotizzeremosempre l’omogeneità delle varianze.Dal punto di vista applicativo tuttavia è bene far presenteche la maggior parte dei software statistici permette divalutare l’omogeneità delle varianze e in caso didisomogeneità di utilizzare la versione di Welch del test t percampioni indipendenti.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

1. La costruzione del sistema di Verifica di Ipotesi

{H0 : µa − µb = 0H1 : µa − µb 6= 0

L’ipotesi nulla prevede che la differenza tra le medie delle duepopolazioni da cui sono stati estratti i campioni sia pari a 0. Inpratica ciò significa che se vale H0 i due campioni provengono dauna popolazione con media comune.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

2. Calcolo del valore osservato della statistica testNel caso di test t per campioni indipendenti la statistica test dautilizzare è la seguente:

tOSS =

(Xa −Xb

)− (µa − µb)

sab

√na + nbnanb

dove:

sab è la deviazione standard campionaria combinata (pooled)

sab =

√(na − 1)s2a + (nb − 1)s2b

na + nb − 2

Xa − Xb è la differenza delle medie campionarie

µa − µb è la differenza delle medie delle popolazioni sotto H0

s2a e s2b sono le varianze campionarie dei due campioni

na e nb sono le numerosità dei due campioni

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

2. Calcolo del valore osservato della statistica test:Distribuzione della statistica test

Nel caso di test t per campioni indipendenti la statistica test sidistribuisce sotto H0 come una t di student con na + nb − 2(6 + 6− 2 = 10, nel nostro caso) gradi di libertà.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

2. Calcolo del valore osservato della statistica test:Aspetti computazionali

Xa = 20 Xb = 19

s2a = 6 s2b = 4.4

⇒ sab = 2.280

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

2. Calcolo del valore osservato della statistica test

tOSS =

(Xa −Xb

)− (µa − µb)

sab

√na + nbnanb

=(20− 19)− (0)

2.280

√6 + 6

6× 6

= 0.760

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

3. Confronto tra valore osservato e valore critico

Per prima cosa determiniamo il valore critico del test per unlivello di significatività critico pari a α = .05

Essendo il test bidirezionale dovremo cercare sulle tavolestatistiche i quantili della distribuzione t di Student conna + nb − 2 (6 + 6− 2 = 10, nel nostro caso) gradi di libertàche lasciano sulle code di sinistra e destra della distribuzioneun’area totale di .05.

Essendo la distribuzione t simmetrica, ci basterà trovare ilquantile positivo che lascia a destra un’area di probabilitàpari a α/2 = .025. Il quantile negativo sarà pari al quantilepositivo moltiplicato per -1.

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

3. Confronto tra valore osservato e valore critico

Distribuzione t di Student con 10 gradi di libertà

t

Densità

0.0

0.1

0.2

0.3

0.4

0.5

− tCRIT = −2.228 0 tOSS = 0.76 tCRIT = 2.228

Rifiuto Ipotesi Nulla Rifiuto Ipotesi NullaNon Posso Rifiutare Ipotesi Nulla

α

2= 0.025

α

2= 0.025

Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti

3-4. Confronto tra valore osservato e valore critico edecisione finale

Dall’analisi condotta emerge che il valore osservato dellastatistica test è compreso tra i valori critici.L’ipotesi nulla che afferma che i tempi impiegati dalle cavieper uscire dai labirinti provengano da una popolazione conuna media comune, non può essere rifiutata per un livello disignificatività pari al 5%.

... in sostanza, i dati non supportano dal punto di vistastatistico delle differenze, in termini di tempo impiegato peruscire, tra i due labirinti.