3. Confronto tra medie di due campioni indipendenti o appaiati · MARTA BLANGIARDO – CONFRONTO...

74
MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.1 3. Confronto tra medie di due campioni indipendenti o appaiati BIOSTATISTICA Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health [email protected]

Transcript of 3. Confronto tra medie di due campioni indipendenti o appaiati · MARTA BLANGIARDO – CONFRONTO...

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.1

3. Confronto tra medie di due campioni

indipendenti o appaiati

BIOSTATISTICA

Marta Blangiardo, Imperial College, London

Department of Epidemiology and Public Health

[email protected]

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.2

CAMPIONE

PARAMETRIUNIVERSO

STIMATORI

PROGRAMMARE

DESCRIVERE

SPECULARE

INFERIRE

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI O APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.3

CAMPIONE

PARAMETRIUNIVERSO

STIMATORI

Siamo interessati a valutare se due diete (A e B) determinano diversi incrementi del peso delle cavie con esse nutrite

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI O APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.4

CAMPIONE

PARAMETRIUNIVERSO

STIMATORI

PROGRAMMARE

Vengono scelti casualmente due campioni di 12 e 13 cavie ciascuno, ad ognuno di essi viene somministrata una delle due diete in studio dalla nascita fino all’età di 3 mesi e ne vengono registrati gli incrementi di peso. I campioni sono indipendenti

Siamo interessati a valutare se due diete (A e B) determinano diversi incrementi del peso delle cavie con esse nutrite

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.5

STATISTICHE STATISTICHE

n1 = 12

CAMPIONE 1 CAMPIONE 2

56 59

63 52

57 68

64 61

57 60

63 60

n2 = 13

yi2: generica i-esima osservazione del campione 2 (j =2)

yi1: generica i-esima osservazione del campione 1 (j =1)

STATISTICHE STATISTICHE

DESCRIVERE

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

61 64

67 56

60 72

68 65

61 64

67 64

60

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.6

CAMPIONE 1

CAMPIONE 2

50 54 58 62 66 70

1

2

3

4

74

50 54 58 62 66 70

1

2

3

4

74

y1 = 60

y2 = 63.77

s1 = 4.24

s2 = 4.21

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.7

Media campionariaµµµµ

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

IPOTESI: I due campioni provengono dallastessa popolazione di cavie e se

potessimo misurare l’intera popolazionesarebbe

X ~ N(µµµµ,σσσσ2)

Noi non conosciamo nè la media µµµµ nè la varianza σσσσ2, ma conosciamo i parametricampionari:

y1 y2

medie

s1 s2Dev.

standard

n1 n2

numerosità

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.8

campione 1 campione 2

Dieta A Dieta B

n1 = 12

y1 = 60

s1 = 4.24

n2 = 13

y2 = 63.77

s2 = 4.21

POPOLAZIONE

Ai due campioni assegniamo diete diverse.

Le osservazioni ottenute sono ancora compatibili con l’ipotesi che i due campioni

provengono dalla stessa popolazione?

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.9

CAMPIONE

PARAMETRIUNIVERSO

STIMATORI

PROGRAMMARE

DESCRIVERE

SPECULARE

INFERIRE

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.10

POPOLAZIONE BERSAGLIO

Media campionariaMedie campionarie

y1

y2

Tutti i possibili campioni

µµµµ

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

δδδδ = µµµµ2 - µµµµ1= µµµµ - µµµµ =0

d = y2 – y1 H0: δδδδ=0

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.11

POPOLAZIONE 1 (dieta A)

(tutte le medie campionarie y 1)

Tutti i possibili campioni

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

POPOLAZIONE 2 (dieta B)

(tutte le medie campionarie y 2)

Tutti i possibili campioni

y1

µµµµ1111

y2

µµµµ2222

δδδδ = µµµµ2- µµµµ1

d = y2 – y1H1: δ δ δ δ = 0

Le due distribuzionihanno la stessavarianza

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.12

n1 = 12

y1 = 60

s1 = 4.24

n2 = 13

y2 = 63.77

s2 = 4.21

d = y2 - y1 = 3.77

POPOLAZIONE 1 POPOLAZIONE 2

µµµµ1 µµµµ2

δδδδ = µµµµ1 - µµµµ2

La variabile di interesse non è più la media campionaria bensì la differenza

tra medie campionarie

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

IN GENERALE

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.13

d

Differenze tra medie campionarie

POPOLAZIONE BERSAGLIO

(tutte le possibili differenze tra medie campionari e)

Tutti i possibili campioni

δδδδ

ignota

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.14

H0: µµµµ1 = µµµµ2 δδδδ = 0

Ipotesi nulla:

Cosa succede sotto l’ipotesi nulla?

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.15

Tutti i possibili campioni

Questa situazione ècompatibile con l’ipotesi nulla?

d

Differenze tra medie campionarie

POPOLAZIONE BERSAGLIO

(tutte le possibili differenze tra medie campionari e)

δδδδ = 0

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.16

d

δδδδ = 0

d

δδδδ = 0

Situazione possibile

Situazione meno probabile

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.17

d

H0: µµµµ1 = µµµµ2 δδδδ = 0

Ipotesi nulla:

L’ipotesi nulla non può essere mai rigettata con assoluta certezza! Dobbiamo agganciare alla stima d un “livello di confidenza”.

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

P-Value: quanto estremo è ilrisultato che abbiamo ottenuto?

δδδδ = 0d

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.18

P-value=0.03

d

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

δδδδ = 0d

P-Value: probabilità di ottenere un risultato campionario altrettanto o piùestremo di quello osservato, se H 0 èvera

P-value = Pr ( D >d sotto H 0)

Più piccolo è il valore del p-value,

1) più “estremo” è ilvalore d osservato

2) Più bassal’evidenza che i datisiano coerenti con la distribuzione sotto

l’ipotesi nulla

P-value=0.25

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.19

P-value=0.03

d

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

δδδδ = 0

PROBLEMA: l’ipotesi è bidirezionale

P-value = Pr ( D >d sotto H 0)

H0: δδδδ = 0 H1: δδδδ = 0vs

Unidirezionale

Bidirezionale

2*P-value

-d

P-value=0.03

P-value=0.06

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.20

A. Stima intervallare

B. Test basato sulla t di Student

C. Analisi della varianza e test F

A. Stima intervallare

Tre procedure per saggiare l’ipotesi nulla

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.21A. Stima intervallare

y ± t . es

Ricordando la stima intervallare nel caso di una media campionaria:

la si adatti al confronto tra due medie campionarie

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.22

y ± t . es

La variabile misurata di interesse non

è più la media campionaria y, bensì la

differenza tra medie campionarie d:

d ± t . es

A. Stima intervallare

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.23

n1 = 12

y1 = 60

s1 = 4.2

n2 = 12

y2 = 64

s2 = 4.2

d ± t . es

n1 = 12

y1 = 60

s1 = 4.24

n2 = 13

y2 = 63.77

s2 = 4.21

d = y2 – y1 = 3.77

A. Stima intervallare

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.24

d ± t . es

L’errore standard non è piùvisto che, essendo implicati due campioni, si dispone di due deviazioni standard ( s1 e s2) e due numerositàcampionarie ( n1 e n2)

√√√√s / n

s* = (n1-1) .s1

2 + (n2-1) .s22

(n1-1) + (n2-1)

A. Stima intervallare

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

Pooled

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.25

d ± t . es

L’errore standard non è piùvisto che, essendo implicati due campioni, si dispone di due deviazioni standard ( s1 e s2) e due numerositàcampionarie ( n1 e n2)

√√√√s / n

n1 + n2

n1 . n2

= n1

1n2

1+

A. Stima intervallare

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

=1

n*

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.26

n1 = 12

y1 = 60

s1 = 4.2

n2 = 12

y2 = 64

s2 = 4.2

3.77 ± t . es

= 1.69

(12-1) .4.23 + (13-1) .4.212 2

(12-1) + (13-1)

12 + 13

12 . 13=esd

n1 + n2

n1 . n2

(n1-1) .s12 + (n2-1) .s2

2

(n1-1) + (n2-1)=esd =

n1 = 12

y1 = 60

s1 = 4.24

n2 = 13

y2 = 63.77

s2 = 4.21

A. Stima intervallare

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

s*

n*

1

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.27

d ± t . es

Valore critico della variabile casuale t

di Student, caratterizzata da un certo

numero di gradi di libertà g e da una

probabilità (1- α). α). α). α). Quindi

d ± t g ; (1-αααα). es

A. Stima intervallare

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.28

d ± t g ; (1-αααα). es

g = ( n1 + n2 ) - 2

I gradi di libertà non sono più n - 1 visto che, essendo implicati due campioni, si dispone di due numerosità campionarie ( n1 e n2):

A. Stima intervallare

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.29

d ± t g ; (1-αααα). es

Dove 1 - αααα è il livello di confidenza dell’intervallo (di solito definiamo 0.9, 0.95 o 0.99)

A. Stima intervallare

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.30

3.77 ± tg;(1-αααα). 1.69

Fissando (1- αααα) = 0.9 e avendo due code abbiamo 0.9 + 0.1/2 = 0.95

3.77 ± t23;0.95. 1.69

3.77 ± 1.7139. 1.69

Dalla tavola della distribuzione t:

A. Stima intervallare

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

n1 = 12

y1 = 60

s1 = 4.23

n2 = 13

y2 = 63.77

s2 = 4.21

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.31

Distribuzione t

1.89461.41491.11920.89600.71110.54910.26327

1.94321.43981.13420.90570.71760.55340.26486

2.01501.47591.15580.91950.72670.55940.26725

2.13181.53321.18960.94100.74070.56860.27074

2.35341.63771.24980.97850.76490.58440.27673

2.92001.88561.38621.06070.81650.61720.28872

6.31383.07771.96261.37641.00000.72650.32491

0.050.10.150.20.250.30.4

5.40794.7853

5.95885.2076

6.86885.8934

8.61037.1732

12.924010.2145

31.599122.3271

636.6192318.3088

0.00050.001

….

….

1.65771.28861.04090.84460.67650.52580.2539120

1.66021.29011.04180.84520.67700.52610.2540100

1.66411.29221.04320.84610.67760.52650.254280

1.66691.29381.04420.84680.67800.52680.254370

1.67061.29581.04550.84770.67860.52720.254560

1.67591.29871.04730.84890.67940.52780.254750

1.67941.30061.04850.84970.68000.52810.254945

….

3.37353.1595

3.39053.1737

3.41633.1953

3.43503.2108

3.46023.2317

3.49603.2614

3.52033.2815

gdl

1.71391.31951.06030.85750.68530.53170.256323

….3.76763.4850

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.32

3.77 ± 1.7139 . 1.69

0.87 , 6.67

n1 = 12

y1 = 60

s1 = 4.23

n2 = 13

y2 = 64

s2 = 4.21

δδδδ = 0

1 2 3 4 5 6 7 8-7 -6 -5 -4 -3 -2 -1

valore atteso sotto

l’ipotesi nulla

Ripetendo l’esperimento 100 volte nelle stesse condizioni, ci si aspetta che in 90

casi le due diete differiscano

A. Stima intervallare

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.33

Visto che l’intervallo non contiene il valore atteso sotto l’ipotesi nulla

= 0.1ααααcon:

allora concludiamo che non c’èabbastanza evidenza che supporti che i dati siano coerenti con l’ipotesi nulla e quindi

H0: µµµµ1 = µµµµ2 δδδδ = 0

H1: µµµµ1 ≠≠≠≠ µµµµ2 δδδδ ≠≠≠≠ 0

Le due medie differiscono significativamenteE se avessimo prefissato un errore di

primo tipo più cautelativo (es. αααα = 0.01)?A. Stima intervallare

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.34

Distribuzione t

1.41491.11920.89600.71110.54910.26327

1.43981.13420.90570.71760.55340.26486

1.47591.15580.91950.72670.55940.26725

1.53321.18960.94100.74070.56860.27074

1.63771.24980.97850.76490.58440.27673

1.88561.38621.06070.81650.61720.28872

3.07771.96261.37641.00000.72650.32491

0.10.150.20.250.30.4

5.40794.7853

5.95885.2076

6.86885.8934

8.61037.1732

12.924010.2145

31.599122.3271

636.6192318.3088

0.00050.001

….

….

1.28861.04090.84460.67650.52580.2539120

1.29011.04180.84520.67700.52610.2540100

1.29221.04320.84610.67760.52650.254280

1.29381.04420.84680.67800.52680.254370

1.29581.04550.84770.67860.52720.254560

1.29871.04730.84890.67940.52780.254750

1.30061.04850.84970.68000.52810.254945

….

3.37353.1595

3.39053.1737

3.41633.1953

3.43503.2108

3.46023.2317

3.49603.2614

3.52033.2815

gdl

1.31951.06030.85750.68530.53170.256323 ….

3.4995

3.7074

4.0321

4.6041

5.8409

9.9248

63.6567

0.005

2.6174

2.6259

2.6387

2.6479

2.6603

2.6778

2.6896

3.76763.48502.8073

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.35

3.77 ± 2.8073 . 1.69

-0.98 , 8.52

n1 = 12

y1 = 60

s1 = 4.23

n2 = 13

y2 = 63.77

s2 = 4.21

δδδδ = 0

1 2 3 4 5 6 7 8-7 -6 -5 -4 -3 -2 -1

valore atteso sotto

l’ipotesi nulla

Non c’è più evidenza che le due diete differiscano

A. Stima intervallare

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

Se seguiamo un approcico più cautelativo e fissiamo 1-α α α α = 0.99

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.36

A. Stima intervallare

B. Test del t di Student

C. Analisi della varianza e test F

B. Test del t di Student

Tre procedure per saggiare l’ipotesi nulla

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.37

Ricordando la variabile casuale t nel caso di una media campionaria è:

la si adatti al confronto tra due medie campionarie

s n

y - µµµµt =

B. Test del t di Student

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.38

s n

y - µµµµt =

È la differenza tra il valore osservato e

quello atteso sotto l’ipotesi nulla

(y2 - y1) - 0

Nel caso della differenza tra due

medie quindi:

B. Test del t di Student

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

d

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.39

s n

y - µµµµt =

È l’errore standard di una media

campionaria

Nel caso della differenza tra due

medie quindi:

B. Test del t di Student

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

(n1-1) .s12 + (n2-1) .s2

2

(n1-1) + (n2-1)

n1 + n2

n1 . n2 =esd = s*

n*

1

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.40

s n

y - µµµµt =

Il valore della variabile casuale t è

caratterizzato dai gradi di libertà ( g):

Quindi dovrebbe essere scritta come:

tg =esd

(y2 - y1) - 0

che rappresenta il valore empirico(osservato) di t. La valutazione dell’accettazione/rifiuto viene ottenuta tramite il P-value

B. Test del t di Student

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.41

0.025

DISTRIBUZIONE t g

B. Test del t di Student

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

tgδδδδ = 0

-tg

Non sufficiente evidenzacontro H0

P-value>=0.1

Evidenza contro H00.05<P-value<0.1

Forte evidenza contro H00.01<P-value<0.05

Fortissima evidenza controH0

P-value<0.01

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.42

n1 = 12

y1 = 60

s1 = 4.23

n2 = 13

y2 = 64

s2 = 4.21

tg= esd

(y2 - y1) - 0

è il valore empirico della statistica t. Il P-value corrispondente è

P-value < 0.025

t 23 = 1.69

3.77=2.23

B. Test del t di Student

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

2*P-value < 0.05

Ipotesi bidirezionale

<0.05: Forte evidenzacontro H 0

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.43

A. Stima intervallare

B. Test del t di Student

C. Analisi della varianza e test F C. Analisi della varianza e test F

Tre procedure per saggiare l’ipotesi nulla

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.44

CAMPIONE 1 CAMPIONE 2

56 59

63 52

57 68

64 61

57 60

63 60

Media generale: y = 62

Da quali fonti dipende la variabilità(devianza) totale del fenomeno?

Devianza totale =

= (56-62)2 + (59-62)2 + (63 -62)2 +...

...+ (67-62)2 + (64-62)2 + (60 -62)2 =

= 499

ΣΣΣΣ ΣΣΣΣ (yij - y)2ji

C. Analisi della varianza e test F

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

61 64

67 56

60 72

68 65

61 64

67 64

60

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.45

CAMPIONE 1 CAMPIONE 2

Una prima fonte di variabilità è dovuta al fatto che i due campioni sono stati sottoposti

a diverse diete (fattore sperimentale)

60 60

60 60

60 60

60 60

60 60

60 60

63.8 63.8

63.8 63.8

63.8 63.8

63.8 63.8

63.8 63.8

63.8 63.8

63.8

Devianza tra i livelli del fattore sperimentale

ΣΣΣΣ n j (yj - y)2j

y1 = 60 y2 = 63.8

Media generale: y = 62

C. Analisi della varianza e test F

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

= 12 . (60-61.96)2 + 13 .

(63.8-61.96)2 = 88.65

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.46

CAMPIONE 1 CAMPIONE 2

Una seconda fonte di variabilità è dovuta al fatto

che ogni unità sperimentale tende a rispondere in modo

diverso dalle altre allo stesso stimolo (livello del

fattore sperimentale)

60 60

60 60

60 60

60 60

60 60

60 60

63.8 63.8

63.8 63.8

63.8 63.8

63.8 63.8

63.8 63.8

63.8 63.8

63.8

Devianza entro i livelli del fattore sperimentale

ΣΣΣΣ ΣΣΣΣ (yij - y j)2i

y1 = 60 y2 = 63.8

C. Analisi della varianza e test F

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

= (56-60)2 + (59-60)2 + (63 -60)2 +...

...+ (67-63.8)2 + (64-63.8)2 + (60 -63.8)2 =

= 410.3

j

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.47

SISTEMATICA

Tra gruppi 88.65 +

CASUALE

Entro gruppi * 410.3 =

Fonti di variabilità devianza

Totale 498.96

* Variabilità residua

C. Analisi della varianza e test F

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.48

Tra gruppi

Entro gruppi

Fonti di variabilità

Totale

88.65 +

410.3 =

devianza

498.96 =

1 (N.gruppi-1) +

23 (N – N.gruppi) =

gradi di libertà

24 (N-1)

C. Analisi della varianza e test F

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.49

Tra gruppi

Entro gruppi

Fonti di variabilità

Totale

96 +

396 =

devianza

498.96 =

1 +

gradi di libertà

24

varianza

=88.65 + 1 + 88.65

22 =22 = =410.3 + 23 + 17.8

F1, 23 =Varianza tra gruppi

Varianza entro gruppi

88.65

17.8= = 4.97

C. Analisi della varianza e test F

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.50

1 Valore atteso sotto l’ipotesi nulla

DISTRIBUZIONE Fg1;g2

Area = 1

C. Analisi della varianza e test F

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

In questo caso le tavole disponibili non permettono di calcolare il P-value. E’possibile calcolare il P-value tramite

software (excel, R, Matlab).

=DISTRIB.F(4.97,1,23) = 0.036

Funzione di Excel

P-value<0.05 Forte evidenzacontro H 0

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.51

Ci sono tavole tabulate che permettono dicalcolare una soglia di accettazione/rifiutoper alcune prespecificate soglie1-α(0.9,0.95)

F(1-αααα),g1,g2

Fg1,g2 Fg1,g2

Non sufficienteevidenzacontro H 0

Sufficienteevidenzacontro H 0

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.52

Gradi di libertà del numeratore

Gra

di d

i lib

ertà

del

den

om

inat

ore

Distribuzione F g1;g2;0.95

F

1 2 3 4 5 101 161.45 199.50 215.71 224.58 230.16 241.882 18.51 19.00 19.16 19.25 19.30 19.403 10.13 9.55 9.28 9.12 9.01 8.794 7.71 6.94 6.59 6.39 6.26 5.965 6.61 5.79 5.41 5.19 5.05 4.746 5.99 5.14 4.76 4.53 4.39 4.067 5.59 4.74 4.35 4.12 3.97 3.648 5.32 4.46 4.07 3.84 3.69 3.359 5.12 4.26 3.86 3.63 3.48 3.1410 4.96 4.10 3.71 3.48 3.33 2.9811 4.84 3.98 3.59 3.36 3.20 2.8512 4.75 3.89 3.49 3.26 3.11 2.7513 4.67 3.81 3.41 3.18 3.03 2.6714 4.60 3.74 3.34 3.11 2.96 2.6015 4.54 3.68 3.29 3.06 2.90 2.5416 4.49 3.63 3.24 3.01 2.85 2.4917 4.45 3.59 3.20 2.96 2.81 2.4518 4.41 3.55 3.16 2.93 2.77 2.4119 4.38 3.52 3.13 2.90 2.74 2.3820 4.35 3.49 3.10 2.87 2.71 2.3521 4.32 3.47 3.07 2.84 2.68 2.3222 4.30 3.44 3.05 2.82 2.66 2.3023 4.28 3.42 3.03 2.80 2.64 2.2724 4.26 3.40 3.01 2.78 2.62 2.2525 4.24 3.39 2.99 2.76 2.60 2.2430 4.17 3.32 2.92 2.69 2.53 2.1650 4.03 3.18 2.79 2.56 2.40 2.03

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.53

Distribuzione F 1,23

4.97Valore empirico

allora dovremmo rifiutare l’ipotesi nulla: p < 0.05

4.28

0.95 0.05

Valore tabulato

Area di accettazioneArea di rifiuto

C. Analisi della varianza e test F

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.54

Test del t di Student

t23 = 2.23

Analisi della varianza

F1,23 = 4.97

t23 = F1,232

Due vie equivalenti per saggiare l’ipotesi nulla

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.55

CAMPIONE

PARAMETRIUNIVERSO

STIMATORI

PROGRAMMARE

Si estrae un campione di 13 zolle di terreno e su ognuna di esse si misura il pH in superficie e nel sottosuolo. Abbiamo due misurazioni per ogni zolla. I campioni sono appaiati

Siamo interessati a valutare se il pH di un terreno acido sulla superficie è diversa da quella del sottosuolo

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.56

STATISTICHE STATISTICHE

n = 13

CAMPIONE 1 CAMPIONE 2

6.57 6.77

6.53 6.71

6.72 6.01

4.99 5.49

5.56 5.32

5.92 6.55

6.93

E’ lo stesso campione con due diverse misurazioni

Per ogni zolla le due misurazioni non sono indipendenti

8.34 6.13

6.32 8.30

8.44 6.80

5.42 7.90

5.20 5.32

6.21 5.66

5.66

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

Superficie Sottosuolo

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.57

Calcoliamo la variabile differenzatra le due misurazioni

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

6.57 6.77

6.53 6.71

6.72 6.01

4.99 5.49

5.56 5.32

5.92 6.55

6.93

8.34 6.13

6.32 8.30

8.44 6.80

5.42 7.90

5.20 5.32

6.21 5.66

5.66

-1.77 0.64

0.21 -1.59

-1.72 -0.79

-0.43 -2.41

0.36 0.00

-0.29 0.89

1.27

Superficie Sottosuolo Differenza

La nuova variabile Differenzaè quella su cui vogliamo fare

inferenza

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.58

Media campionariaµµµµ

IPOTESI: La differenza tra il pH in superficie e nel sottosuolo si distribuisce

come una variabile casuale Normale

D ~ N(µµµµd,σσσσ2d)

Noi non conosciamo nè la media µµµµd nè la varianza σσσσ2

d, ma conosciamo i parametricampionari:

d

media

sdDev.

standard

n

numerosità

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

INFERENZA SU UN CAMPIONE

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.59

POPOLAZIONE BERSAGLIO

Media campionariaMedie campionarie

d

Tutti i possibili campioni di differenze

µµµµd

H0 : µµµµd = 0

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

Cosa succede sotto l’ipotesi nulla?

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.60

Tutti i possibili campioni

È questa situazione compatibile con l’ipotesi nulla?

d

Differenze tra medie campionarie

POPOLAZIONE BERSAGLIO

(tutte le possibili differenze)

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.61

d

d

Situazione possibile

Situazione meno probabile

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.62

d1

H0: µµµµd=0

Ipotesi nulla:

L’ipotesi nulla non può essere mai rigettata con assoluta certezza! Dobbiamo agganciare alla stima d un “livello di confidenza”.

P-Value: quanto estremo è ilrisultato che abbiamo ottenuto?

µµµµd = 0d

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.63

A. Stima intervallare

B. Test basato sulla t di Student

A. Stima intervallare

Tre procedure per saggiare l’ipotesi nulla

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.64A. Stima intervallare

y ± t . es

Avendo un solo campione, in questo caso la stima intervallare da utilizzare èproprio quella introdotta precedentemente nel caso di una media campionaria:

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

d ± t . es

Che nel caso di campioni appaiati è

n = 13

d = -0.43

se = 1.15

sd/radq(n)

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.65

Valore critico della variabile casuale t

di Student, caratterizzata da un certo

numero di gradi di libertà g e da una

probabilità (1- α). α). α). α). Quindi l’intervallo di

confidenza sarà

A. Stima intervallare

Noi non conosciamo la varianza σσσσ2

T di Student

d ± t g ; (1-αααα). es

tg ; (1-αααα)

n-1livello di confidenza

dell’intervallo (di solito definiamo 0.9, 0.95 o

0.99)

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.66

-0.43 ± tg;(1-αααα). 1.15

Fissando (1- αααα) = 0.95 e avendo due code abbiamo 0.95 + 0.05/2 = 0.975

-0.43 ± t12;0.975. 1.15

-0.43 ± 2.1788. 1.15

Dalla tavola della distribuzione t:

A. Stima intervallare

n = 13

d = -0.43

es = 1.15

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.67

Distribuzione t

1.89461.41491.11920.89600.71110.54910.26327

1.94321.43981.13420.90570.71760.55340.26486

2.01501.47591.15580.91950.72670.55940.26725

2.13181.53321.18960.94100.74070.56860.27074

2.35341.63771.24980.97850.76490.58440.27673

2.92001.88561.38621.06070.81650.61720.28872

6.31383.07771.96261.37641.00000.72650.32491

0.050.10.150.20.250.30.4

5.40794.7853

5.95885.2076

6.86885.8934

8.61037.1732

12.924010.2145

31.599122.3271

636.6192318.3088

0.00050.001

….

….

1.65771.28861.04090.84460.67650.52580.2539120

1.66021.29011.04180.84520.67700.52610.2540100

1.66411.29221.04320.84610.67760.52650.254280

1.66691.29381.04420.84680.67800.52680.254370

1.67061.29581.04550.84770.67860.52720.254560

1.67591.29871.04730.84890.67940.52780.254750

1.67941.30061.04850.84970.68000.52810.254945

….

3.37353.1595

3.39053.1737

3.41633.1953

3.43503.2108

3.46023.2317

3.49603.2614

3.52033.2815

gdl

….2.17881.78231.35621.08320.87260.69550.53860.259012

2.3646

2.4469

2.5706

2.7764

3.1824

4.3027

12.7062

0.025

1.9799

1.9840

1.9901

1.9944

2.0003

2.0086

2.0141

4.31783.9296

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.68

-0.43 ± 2.1788. 1.15

-2.93 , 2.08

µµµµd = 0

1 2 3 4 5 6 7 8-7 -6 -5 -4 -3 -2 -1

valore atteso sotto

l’ipotesi nulla

Ripetendo l’esperimento 100 volte nelle stesse condizioni, ci si aspetta che in 95

casi i due pH non siano diversi significativamente

A. Stima intervallare

n = 13

d = -0.43

es = 1.15

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.69

A. Stima intervallare

B. Test del t di StudentB. Test del t di Student

Tre procedure per saggiare l’ipotesi nulla

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.70

Ricordando la variabile casuale t nel caso di una media campionaria è:

B. Test del t di Student

d - 0

Nel caso di campioni appaiati

abbiamo:

s n

d - µµµµt =

È la differenza tra il valore osservato

e quello atteso sotto l’ipotesi nulla

1.275.666.93

………

0.216.326.53

0.646.136.77

-1.778.346.57

dpH2pH1

d -0.43

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.71

s n

yi - µµµµt =

È l’errore standard (es) di una media

campionaria

B. Test del t di Student

ΣΣΣΣ(yi - y)2

i =1

n

n - 1s

n

=

n

= 1.15

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.72

s n

yi - µµµµt =

Il valore della variabile casuale t è

caratterizzato dai gradi di libertà ( g):

Quindi dovrebbe essere scritta come:

che rappresenta il valore empirico(osservato) di t. La valutazione dell’accettazione/rifiuto viene ottenuta tramite il P-value

I gradi di libertà sono n-1

B. Test del t di Student

tg =esd

d - 0

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.73

t 12 = 1.15

-0.43= -0.37

B. Test del t di Student

n = 13

d = -0.43

esd = 1.15

tg =sed

d - 0

è il valore empirico della statistica t. Il P-value corrispondente è

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI - 3.74

Il valore ènegativo

-0.37

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

Le tavole restituiscono la coda di destrasolo per valori positivi, ma

0.37

Pr(D<-0.37 sotto H 0) = Pr(D>0.37 sotto H 0) Dalle tavole otteniamo

0.3<P-value 0.4

0.6 2*P-value 0.8

<

<

Non c’è evidenza di una differenza significativa dei pH

<