Corso di biomatematica lezione 9: test di Student Silvia Capelli.

Corso di biomatematica Corso di biomatematica lezione 9:lezione 9:

test di Studenttest di Student

Silvia Capelli

Sommario•Distribuzione di Student •Media osservata e attesa•Medie di due campioni•Test F

t di Student

Silvia Capelli - Dottorato in Biologia

• La distribuzione t di Student La distribuzione t di Student Abbiamo già incontrato la distribuzione t di

Student come distribuzione campionaria diversa dalla

distribuzione normale Z ed espressa dalla formula

Vedremo ora come questa distribuzione, che tiene conto oltre

che della variazione della media di un campionamento,

anche derlla variazione della deviazione standard, e possa

essere applicata a piccoli campioni anche con meno di una

decina di osservazioni

mxt

t di Student


• La distribuzione t di Student La distribuzione t di Student La forma della distribuzione t di Student è a

campana con una dispersione maggiore rispetto alla

gaussiana standardizzata, ed esiste un’intera

gfamiglia di distribuzioni t in funzione dei gradi di libertà (la

distribuzione normale rapresenta una t quando i g.d.l.

aumentano…).

Valori critici: per l’area in una coda alla probabilità

coinicidono con quelli a probabilità 2 nella distribuzione a

due code e viceversa.Con il t di student calcolerò un intervallo

fiduciale!

t di Student


• La distribuzione t di Student La distribuzione t di Student Condizioni di validità:1. Distribuzione di dati normale2. Osservazioni indipendentiLa t di Student è robusta, ovvero vale anche

per una serie di dati che devia dalla normalità..Applicazioni per il confronto tra:1. Media campione e media universo2. Singolo dato e media di un campione3. Media delle differenze di due campioni

dipendenti con differenza attesa4. Media di due campioni indipendenti

t di Student


• Media osservava e media attesa Media osservava e media attesa La t di Student con n-1 g.d.l. è data da

Con valore atteso e errore standard, n numero di

dati e la deviazione standard calcolata sui dati del

ampione.

nx

t n

)1(

n

t di Student


• Media osservava e media attesa -ipotesiMedia osservava e media attesa -ipotesiPer verificare l’ipotesi relativa alla media

nel caso di un test bilaterale avremo:• Ipotesi alternativa H1 : 0

• Ipotesi nulla H0 : = 0

Mentre nel caso di un test unilaterale l’ipotesi relativa alla

media nel caso di un test bilaterale avremo:• Ipotesi alternativa H1 : < (>) 0

• Ipotesi nulla H0 : () 0

Per verificare se la media è significativamente inferiore a

quella attesa

t di Student


• Media osservava e media attesa -ipotesiMedia osservava e media attesa -ipotesiQuindi dalla formula per la differenza tra

media attesa e campionaria avremo

E da questo posso stimare l’intervallo fiduciale (o intervallo

di confidenza) entro il quale è compresa la media reale della

popolazione da cui ho estratto il campione (prob /2).

nx

t n 0

)1(

ntxn

)1,

2(

t di Student


• Media osservava e media attesa - Media osservava e media attesa - esempioesempio

Abbiamo un vivaio con pianticelle di tipo A, che dopo due

mesi raggiungono un’altezza media di 25 cm (0), nel

terreno vengono versate sostanze tossiche e per verificare

l’incidenza negativa sulla crescita delle piante ne vengono

seminate 7 che dopo 2 mesi raggiungono le altezze di

22,25, 21,23,24,25,21 cm

Voglio sapere:1. Le sostanze tossiche inibiscono la

crescita?2. Qual è la media reale dell’altezza delle

piante nel nuovo terreno?

t di Student



• Le sostanze tossiche inibiscono la crescita?

Questo è un test ad una coda con1. Ipotesi alternativa H1 : < 0

2. Ipotesi nulla H0 : 0

Il test ovviamente assume significato solo se la media

campionaria assume valore minore della media attesa 0, e

serve per verificare se la differenza sia casuale o significativa

Scegliamo una probabilità =0,05

t di Student



Avremo dunque la formula

Con i nostri 7 dati abbiamoX =23,0 =1,732t0,025;6 =2,447n=70=25

nx

t n 0

)1(

t di Student



Ed il calcolo di t con 6 g.d.l. mi dà

Cioè t(6) =-3,053Dove il segno meno indica solamente che la

differenza è negativa rispetto al valore atteso. Per la

significatività prendo il modulo.Per il test ad una coda abbiamo con =0,05 t0,05;6 =1,943Accetto dunque H1 e rifiuto H0 con il 5% di

prob. di errore

7732,1

0,250,23)6(

t

t di Student



• Qual è la media reale dell’altezza delle piante nel nuovo terreno?

L’altezza media reale può essere stimata tramite l’intervallo

di confidenza, ovvero

Prendendo i dati del nostro campione con la probabilità

associata ad =0,05 per un test a due code t0,025;6 =2,447

Cioè l1= 21,398 e l2= 24,602

ntxn

)1,

2(

602,1237732,1447,223

t di Student


• Media osservava e media attesa una o Media osservava e media attesa una o due code?due code?

Resta da sottolineare che se voglio solamente evidenziare una

differenza tra due medie (di cui una attesa) dovrò effettuare

un test a due code (come nel caso precedente in cui ad

esempio voglio considerare che le piante subiscono una

mutazione ma non so se le piante saranno più alte o più

basse a priori..)Invece una volta che si vada a stimare un

intervallo fiduciale posso effettuare un test a due code (ovvero

andro’ a leggere I corrisponenti valori nelle tabelle di test

bilaterale), con probabilità ad esempio =0,01 oppure un

test ad una coda (tabelle unilaterali) con probabilità

=0,005 (

t di Student


• Confronto una misura e media di un Confronto una misura e media di un campionecampione

Voglio ora stabilire se una misura (per ragioni non note) si

possa considerare errata. Questo può essere effettuatro con

un test unilaterale o bilaterale a seconda delle ipotesi

mediante la formula:

Con nA numero di oservazioni del campione, x1 misura da

verificare, xA,media del campione A misura

varianza del campione A

nnxx

t

A

AA

nAA

12

1

)1(

t di Student


• Confronto una misura e media di un Confronto una misura e media di un campionecampione

Ad esempio voglio “rigettare” una misura (x1 =49,7) nel

campione A=(40,3 - 38,8 – 33,5 – 38,6 – 31,9 – 37,6)

Dove nA =6, xA= 36,873, A=12,206,

ottenendo

Ora dalle tabelle per il test bilaterale abbiamo i valori critici

2,571 per =0,05 4,032 per =0,01 Mentre il test unilaterale dà3,365 per =0,01 5,893 per =0,001Rifuto l’ipotesi nulla con tra 0,05 e 0,01

(0,01 e 0,001 uni)

42,3)5(t

t di Student


• Confronto le medie di due campioniConfronto le medie di due campioniPosso derivare la distribuzione t di Student

dal rapporto tra la differenza delle due medie campionarie

ed il suo errore standard, ovvero

Dove nell’ipotesi nulla H0 le due medie sono identiche,

Ovvero 1 = 2 oppure 1 - 2 =0

mediediffstderroremediediff

t_2___

_2_

t di Student


• Confronto le medie di due campioni Confronto le medie di due campioni DIPENDENTIDIPENDENTI

Se ho due campioni dipendenti, posso accoppiare ogni

osservazione di un campione con UNA ed UNA SOLA

osservazione dell’altro (senza entrare nello specifico

dell’appaiamento).L’analisi dunque è applicata ad una nuova

serie di dati, risultanti dalle differenze tra gli elementi di

ciascuna coppia.Per il test di Student bilaterale, abbiamo H0 =0 mentre H1 0Il test unilaterale invece èH0 < (>) 0 mentre H1 () 0

t di Student


• Confronto le medie di due campioni Confronto le medie di due campioni DIPENDENTIDIPENDENTI

La significatività della media delle differenze viene verificata

con:

Dove dm è la media delle differenze, è la media attesa (spesso

ma non sempre 0), n è il numero di differenze e d è la

deviazione standard delle differenze.L’intervallo di confidenza entro cui è

compresa la media reale è

n

dt

d

mn

)1(

ntd dm n

)1,2

(

t di Student


• Confronto le medie di due campioni Confronto le medie di due campioni INDIPENDENTIINDIPENDENTI

In questo caso aumenta la variabilità tra I due gruppi, ovvero

potrò 1. Utilizzare numero diverso di osservazioni2. Avere dati che sono variabili casualmente3. Confrontare il proprio campione con

quello raccolto da altriNel caso di due campioni indipendenti i

calcoli per il test di significatività vengono effettuati sulle due

serie di osservazioni

t di Student



Nel caso di un test bilaterale l’ipotesi nulla H0 è che i due

campioni A e B siano estratti dalla stessa popolazione o da

due popolazioni diverse ma con media uguale

le due medie sono identiche, ovvero A = B oppure A - B =0L’ipotesi alternativa H1 saràA B oppure A - B 0Mentre nel test unilaterale avremoH0 A () B oppure A - B () 0H1 A < (>) B oppure A - B <(>) 0

t di Student



Per due campioni indipendenti i gradi di libertà di t sono dati

da (nA-1) + (nB-1) =(nA+ nB-2) =(N-2)Il valore di t è ottenuto così:

Con xAe xB medie dei due campioni, A+ b medie attese

nAe nB numero di osservazioni e p è la

varianza pooled

nn

xxt

BAP

nBnA

BABA

112

)2(

t di Student



p la varianza pooled è in pratica una varianza media

ponderata calcolata a partire dalle due devianze e dai loro

g.d.l. ed è data dalla formula:

Questo test si può quindi applicare anche ai risultati di due

ricercatori diversi (che saranno ora A e B), al patto di

disporre dei dati, delle rispettive varianze, e delle medie

11

2

1

2

12

nn

xxxxS

BA

nB

i

nA

i

p

BBiAAi

t di Student


• Validità del t-di StudentValidità del t-di StudentLe assunzioni per la validità del test di

Student sono essenzialmente tre:1. Indipendenza dei dati entro i campioni2. Omogeneità della varianza3. Dati (o scarti rispetto alla media)

distribuiti normalmenteE’ importante soprattutto che le varianze

dei due campioni siano statisticamente uguali.Infatti la varianza pooled

p che è una quantità

fondamentale ha significato solo se è rappresentativa delle

varianze di ogni gruppo.

t di Student


• Validità del t-di StudentValidità del t-di StudentPer applicare il test t , la cosiddetta

omoschedasticitrà tra due gruppi A e B è verificata con un test

bilaterale, dove làipotesi nulla e l’ipotesi alternativa sono:H0

A = B e

H1 A

B

Esistono vari test per verificare quella che si chiama

omoschedasticità bilaterale o unilaterale, in particolare

accenneremo solo al test F bilaterale

t di Student


• Validità del t-di Student: test FValidità del t-di Student: test FIl test F bilaterale è fondato sul rapporto tra

la varianza campionaria () maggiore e quella minore:

Dove 1 è la varianza maggiore e

2 è quella minore

(e ovviamente i rispettivi numeri di dati). Una volta calcolato

il rapporto (che non sarà mai 1) lo si confronta con una

tabella di distribuzione F relativa ai due g.d.l. (di solito entro

=0,05)

2

12

2

)1)(1( 21

nnF

Corso di biomatematica lezione 9: test di Student Silvia Capelli.

Documents

Transcript of Corso di biomatematica lezione 9: test di Student Silvia Capelli.