STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di...

31
STATISTICA a.a. 2003-2004 – PARAMETRO t DI STUDENT – t di STUDENT PER DATI INDIPENDENTI – t di STUDENT PER DATI APPAIATI – F DI FISHER PER IL CONFRONTO FRA VARIANZE

Transcript of STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di...

Page 1: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

STATISTICAa.a. 2003-2004

– PARAMETRO t DI STUDENT– t di STUDENT PER DATI INDIPENDENTI– t di STUDENT PER DATI APPAIATI– F DI FISHER PER IL CONFRONTO FRA

VARIANZE

Page 2: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

DISTRIBUZIONI CAMPIONARIE

– Consideriamo tutti i possibili campioni di ampiezza N che si possono estrarre da una popolazione.

– Per ciascun campione possiamo calcolare media , deviazione standrad, ecc., e trovare una distribuzione campionaria di ciascun parametro.

Page 3: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

DISTRIBUZIONI CAMPIONARIE

– Si dimostra che la media della distribuzione campionaria della media coincide con la media della popolazione, mentre lo scarto quadratico medio vale

– Per N>30 la distribuzione campionaria della media è approssimabile alla distribuzione normale.

Nx

Page 4: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

PARAMETRO t di STUDENT

– Supponiamo di avere due campioni casuali di ampiezza N1 e N2, estratti da popolazioni normali con uguale scarto quadratico medio (1 = 2).

– I due campioni hanno media e scarto quadratico medio x1, x2 e s1,s2.

– Vogliamo provare l’ipotesi H0 che i campioni provengano dalla stessa popolazione (ossia che sia 1 = 2 e 1 = 2).

Page 5: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

PARAMETRO t di STUDENT

– Noi non conosciamo né il valore della deviazione standard né quello della media della popolazione.

– Definiamo ERRORE STANDARD la deviazione standard della media,

N

σ

N

σσ

2

m

Page 6: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

PARAMETRO t di STUDENT

– Una buona stima dell’errore standard vero è l’errore standard del campione

– Ma utilizzando l’errore standard campionario il parametro z viene modificato, e da

N

s

N

ss

2

m

m

xz

Page 7: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

PARAMETRO t di STUDENT

si passa al parametro t

– Caratteristica importante del parametro t è che non è distribuito normalmente. La sua distribuzione sarà più dispersa di quella di z.

ms

xt

Page 8: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

PARAMETRO t di STUDENT

– Essa è stata calcolata dal matematico inglese Gosset, che la pubblicò sotto lo pseudonimo di Student.

– Si tratta di una famiglia di distribuzioni, a seconda del numero di gradi di libertà, che vale

GdL = N-1

dove N è il numero di osservazioni del campione.

Page 9: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

PARAMETRO t di STUDENT

– I valori della famiglia di distribuzioni t sono tabulati.

– Per campioni molto grandi, il valore di sm oscilla

poco intorno al suo valore medio, che è m.

– Quindi per valori molto grandi la distribuzione t si avvicina molto a quella di z, ed arriva a coincidere per infiniti gradi di libertà.

– Per piccoli campioni le differenze sono notevoli, data l’oscillazione casuale di sm intorno a m.

Page 10: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

PARAMETRO t di STUDENT

– A questo punto possiamo assegnare dei “limiti fiduciali” alla media di un campione, ossia calcolare entro quanti errori standard dalla media della popolazione la media campionaria ha una certa probabilità di cadere.

– Scelta una certa probabilità P0, troveremo sulle tavole il valore t0 per il quale

P(-t0 < t < t0) = P(t0) .

Page 11: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

PARAMETRO t di STUDENT

ossia c’è una probabilità P0 che la media campionaria x sia compresa in un intervallo che va da – smt0 a + smt0 .

)(

)(

)(

00

00

00

tsxtsP

tsxtsP

ts

xtP

mm

mm

m

Page 12: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

CONFRONTO FRA MEDIE– Supponiamo di avere due campioni estratti da due

popolazioni la cui media per ipotesi coincide, e le cui varianze 1 e 2 sono note.

– La media vera della differenza fra due valori delle due popolazioni sarà per definizione zero, = 0.

– La media campionaria della differenza fra due valori estratti dai due campioni sarà tale per cui

d = x1 - x2.

– Analogamente la varianza della differenza sarà

22

21

2 d

Page 13: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

CONFRONTO FRA MEDIE

– Quindi l’errore standard della differenza media sarà

– Mentre la distribuzione standardizzata per la differenza sarà

2

22

1

212

nnmd

2

22

1

21

nn

dz

Page 14: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

CONFRONTO FRA MEDIE

Ed essendo d = x1 – x2 e = 0

si avrà

Da cui si può calcolare il valore di z.

2

22

1

21

21

nn

xxz

Page 15: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

CONFRONTO FRA MEDIE

Cerchiamo sulle tavole il valore z0 di z tale per cui

P(-z0 < z < z0) = P0

dove P0 è una probabilità da noi scelta, in genere pari al 90, 95,99 o 99.9% a seconda del margine di sicurezza che vogliamo avere nel pronunciare un giudizio sulla differenza fra medie.

– Se il valore di z che abbiamo calcolato è in valore assoluto maggiore di z0, ciò significa che la probabilità di avere ottenuto casualmente i nostri risultati, supponendo vera l’ipotesi zero, è minore di (1 – P0), ossia minore del limite che ci eravamo prefissati (minore del 10%, 5%, 1% o 0,1%).

Page 16: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

CONFRONTO FRA MEDIEPER PICCOLI CAMPIONI

– In questo caso quindi rifiutiamo l’ipotesi zero, avendo una probabilità di errore pari a (1 – P0).

– Questo metodo però funziona solo se si conosce la varianza delle due popolazioni.

– Noi conosciamo raramente le varianze delle popolazioni

– Ma per campioni grandi queste varianze campionarie possono essere considerate stime molto buone delle varianze vere.

– Si possono quindi sostituire a 1 e 2 i valori s1 e s2.

Page 17: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

CONFRONTO FRA MEDIEPER PICCOLI CAMPIONI

– Per piccoli campioni sarà invece necessario sostituire t al posto di z, e supporre inoltre che oltre alle medie anche le varianze delle due popolazioni siano uguali.

– Sarà allora

)11

(21

2

21

2

2

1

2

21

nns

xx

ns

ns

xxt

Page 18: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

CONFRONTO FRA MEDIEPER PICCOLI CAMPIONI

2

)()(

)(

)(

21

222

211

21

2121

21

212

21

nn

xxxx

nnnn

xx

t

nnnn

s

xxt

ii

Page 19: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

CONFRONTO FRA MEDIEPER PICCOLI CAMPIONI

– E’ importante ricordare che il parametro t è applicabile solo se è valido l’assunto che le varianze delle due popolazioni siano uguali (principio di omoscedasticità delle varianze).

– Aver utilizzato stime delle varianze vere ci ha portato ad una distribuzione non normale e dispersa.

– Per calcolare i limiti fiduciali della media, quindi, dobbiamo valutare le tavole della distribuzione t di Student.

Page 20: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

CONFRONTO FRA MEDIEPER PICCOLI CAMPIONI

– Il numero di gradi di libertà è dato in questo caso dalla somma dei gradi di libertà delle varianze,

GdL = n1 + n2 –2 .

– Ora il procedimento è analogo a prima: cerchiamo sulle tavole una t0 di t tale che, scelta una probabilità limite P0, sia

P(-t0 < t < t0) = P0

Page 21: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

CONFRONTO FRA MEDIEPER PICCOLI CAMPIONI

– Se il valore di t da noi calcolato a partire dai due campioni è superiore a t0 possiamo scartare l’ipotesi nulla, perché la probabilità che troviamo casualmente quel valore di t essendo vera l’ipotesi nulla è più bassa della probabilità limite prefissata. Nel fare questo abbiamo la probabilità di errore (1 – P0).

– Per valutare se le varianze delle due popolazioni campionate non differiscono significativamente si usa il test F (v. avanti).

Page 22: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

TEST t DI STUDENT PER DATI APPAIATI

– Finora abbiamo sempre affermato che i test sono applicabili se le serie di dati in esame sono indipendenti.

– Potrebbe invece succedere che le serie siano legate da qualche relazione.

– Ad esempio supponiamo di avere dieci topi e di sottoporli a trattamento dimagrante:

Page 23: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

TEST t DI STUDENT PER DATI APPAIATI

TOPI PESO PRIMA PESO DOPO

A 110 105

B 105 105

C 135 125

D 165 150

E 140 135

F 120 115

G 150 140

H 150 130

I 130 130

L 140 135

TOT 1345 180

Page 24: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

TEST t DI STUDENT PER DATI APPAIATI

Xprima = 134.5 Xdopo = 128.0

– Il peso di ogni topo dopo la dieta è in relazione al suo peso prima della dieta: le due serie di dati non sono indipendenti.

– Ad ogni dato della prima serie se ne può far corrispondere uno ed uno solo della seconda.

– Calcoliamo tutte le differenze fra prima e dopo:

Page 25: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

TEST t DI STUDENT PER DATI APPAIATI

A -5

B 0

C 10

D 15

E 5

F 5

G 10

H 20

I 0

L 5

Tot 65

X 6.5

Page 26: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

TEST t DI STUDENT PER DATI APPAIATI

– Per l’ipotesi nulla la media delle differenze delle due serie non deve differire significativamente da zero.

– La media vera è per ipotesi zero.

– La media campionaria è d=6.5.

– Scriveremo

nd

zd

nd

zd

Page 27: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

TEST t DI STUDENT PER DATI APPAIATI

– Ma poiché non conosciamo la varianza vera useremo la sua stima

– Questo però vale per grandi campioni. Per piccoli campioni useremo la distribuzione

ns

dz

d

ns

dt

d

Page 28: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

TEST t DI STUDENT PER DATI APPAIATI

con n-1 gradi di libertà.

In questo caso avremo

D= 6.5 GdL = n-1 = 9

7.22.35.7

5.65.6

8.559

5.422925

910

)(

2

22

2

ns

t

dd

s

d

d

Page 29: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

TEST t DI STUDENT PER DATI APPAIATI

– In questo caso il valore di t sta fra i due valori corrispondenti alle probabilità 0.05 e 0.02.

– Pertanto concludiamo che esiste una differenza significativa tra le medie dei pesi prima e dopo il trattamento, ossia che la dieta somministrata ai topi è efficace.

Page 30: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

TEST F DI FISHER PER IL CONFRONTO FRA

VARIANZE– Per vedere se due varianze sono omogenee si utilizza il test

F.

– Dati due campioni con n1 e n2 osservazioni e varianze s1 ed s2, il parametro F è definito come il rapporto fra le due varianze campionarie:

– Quanto più questo rapporto si allontana da uno, tanto più diverse sono le due varianze e tanto minori sono le possibilità di aver ottenuto casualmente i due campioni dalla stessa popolazione.

22

21

s

sF

Page 31: STATISTICA a.a. 2003-2004 –PARAMETRO t DI STUDENT –t di STUDENT PER DATI INDIPENDENTI –t di STUDENT PER DATI APPAIATI –F DI FISHER PER IL CONFRONTO FRA.

TEST F DI FISHER PER IL CONFRONTO FRA

VARIANZE– La distribuzione di F è stata tabulata: è una

famiglia di distribuzioni, a seconda del numero di gradi di libertà a numeratore e denominatore,

n1 –1 e n2 – 1.