5. Test per proporzioni: confronto tra campioni e...

Post on 18-Feb-2019

229 views 0 download

Transcript of 5. Test per proporzioni: confronto tra campioni e...

MARTA BLANGIARDO – TEST PER PROPORZION - 6.1

6. TEST PER PROPORZIONI

5. Test per proporzioni: confronto tra campioni e

associazione

BIOSTATISTICA

Marta Blangiardo, Imperial College, London

Department of Epidemiology and Public Health

m.blangiardo@imperial.ac.uk

MARTA BLANGIARDO – TEST PER PROPORZION - 6.2

6. TEST PER PROPORZIONI

1. Un solo campione: metodo esatto e approssimazione alla Normale

3. Test per la bontà di adattamento di una distribuzione di probabilità ad una distribuzione empirica: il caso di probabilità stimata

2. Confronto tra due o più proporzionila variabile casuale chi quadro

4. Test per la bontà di adattamento di una distribuzione di probabilità ad una distribuzione empirica: il caso di probabilità teorica

MARTA BLANGIARDO – TEST PER PROPORZION - 6.3

6. TEST PER PROPORZIONI

1. Un solo campione: metodo esatto e approssimazione alla Normale

• Dalla teoria mendelianadell’ereditarietà ci si aspetta checerti incroci di varietà di baccelliproducano baccelli gialli o verdi in rapporto di 3:1.

• In un particolare esperimento siottengono 17 baccelli gialli e 5 verdi.

• Possiamo concludere chel’esperimento supporta la teoria?

MARTA BLANGIARDO – TEST PER PROPORZION - 6.4

6. TEST PER PROPORZIONI

L’esperimento produce solo due possibili risultati: giallo o verde

Estraiamo un campione di n=22 incroci. Siamo interessati a valutarese la proporzione di baccelli verdi e

gialli riscontrata nel campioneriflette la teoria mendeliana

H0 : p verde = ¼ = 0.25

MARTA BLANGIARDO – TEST PER PROPORZION - 6.5

6. TEST PER PROPORZIONI

Dati campionari:

x (numero baccelli verdi) = 5

n = 22

Che valori può assumere X?

La variabile di interesse (numero dibaccelli verdi) è quantitativa discreta

X = 0,1,2,3,…,n

i = baccello verde SUCCESSO

i =baccello giallo INSUCCESSO

Il nostro interesse è sulla proporzionedi SUCCESSI

MARTA BLANGIARDO – TEST PER PROPORZION - 6.6

6. TEST PER PROPORZIONI

Variabile casuale binomiale

• X: numero di successi in un datonumero di prove n indipendenti

• Il risultato di ogni prova è S o I

• La probabilità di S (p) è la stessa in tutte le prove

• Contiamo il numero di successi in n prove

X ~ Binom(n,p)

successi

10

15

20

25

30

35

1 2 3 4 5 6 7 8 9 10

MARTA BLANGIARDO – TEST PER PROPORZION - 6.7

6. TEST PER PROPORZIONI

X ~ Binom(n,p)

µµµµx = np

σσσσx2 = np(1-p)

P(X=x) = n

x px(1-p)n-x

x = 0,1,2,….,n

Media e Varianza

n=12, p=0.3 n=12, p=0.8

MARTA BLANGIARDO – TEST PER PROPORZION - 6.8

6. TEST PER PROPORZIONI

P(X=x) = n

x px(1-p)n-x

Numerositàcampionaria

Coefficientebinomiale

Probabilità disuccesso

n!

x! (n-x)! =

n*n-1*n-2*…2*1

(x*x-1*…*2*1) [(n-x)*(n-x-1)*… *2*1]

Fattoriale

5!

2! (5-2)! =

5

2 =

5*4*3*2*1

(2*1) ((5-2)(5-3)(5-4))

n

0 = 1

n

n = 1

Proprietà del fattoriale

MARTA BLANGIARDO – TEST PER PROPORZION - 6.9

6. TEST PER PROPORZIONI

L’ipotesi è che pverde=0.25

P(X=x) = 22

x 0.25x(1-0.25)22-x

Successo

MARTA BLANGIARDO – TEST PER PROPORZION - 6.10

6. TEST PER PROPORZIONI

P(X=5) = 22

5 0.255(1-0.25)22-5= 0.193

Distribuzione esatta:

dal campione ho n=22 e x=5

Quanto è estremo il valore osservato nelladistribuzione

X ~ Binom(22,0.25)P(X≤5) = P(X=0)+P(X=1)+P(X=2)+P(X=3)+P(X=4)

+P(X=5)= 0.4956

Pvalue=2*0.4956=0.9912

H0 : p verde = ¼ = 0.25

Evidenza a supportodell’ipotesi nulla

MARTA BLANGIARDO – TEST PER PROPORZION - 6.11

6. TEST PER PROPORZIONI

P(X=20)= 22

20 0.2520(1-0.25)22-20=1.18e-10

Se nel campione avessi osservato

x=20

Quanto è estremo il valore osservato nelladistribuzione

X ~ Binom(22,0.25)P(X≥20) = P(X=21)+P(X=22) =

1.21986e-10

Pvalue=2* 1.21986e-10 =2.43972e-10

RIFIUTO H0 : p verde = ¼ = 0.25

Non sufficienteevidenza a supportodell’ipotesi nulla

MARTA BLANGIARDO – TEST PER PROPORZION - 6.12

6. TEST PER PROPORZIONI

Quando n è abbastanza grande (>40)

possiamo approssimare la distribuzionebinomiale a quella normale

X ~ Binom(200,0.2)

In questo caso si possono utilizzare I valori tabulati per

1) intervalli di confidenza

2) test d’ipotesi

MARTA BLANGIARDO – TEST PER PROPORZION - 6.13

6. TEST PER PROPORZIONI

n.successin.provep =

Dal campione ottengo

Posso calcolare lo standard error campionario

p(1-p)n

se( p) =

Non conosco p ma posso stimarlausando p

p(1-p)n

se( p) =

E ottenere l’intervallo di confidenza

Pr {{{{ p - 1.96 se(p) ≤≤≤≤ p ≤≤≤≤ p + 1.96 se( p) }}}} = 0.95

95%

99%

Pr {{{{ p – 2.57 se(p) ≤≤≤≤ p ≤≤≤≤ p + 2.57se( p) }}}} = 0.99

MARTA BLANGIARDO – TEST PER PROPORZION - 6.14

6. TEST PER PROPORZIONI

• Un gruppo di medici ha studiato l’effettodell’utilizzo di cravatte strette sul flusso disangue che arriva alla testa. Il loro interesse èvalutare come questo fatto influenzi la capacitàdel cervello di rispondere a stimoli visivi. Su un campione di 250 uomini d’affari si èottenuto che in 167 casi la cravatta troppostretta influenza l’abilità del cervello.

Dal campione:

n=250

x=167

p=?

p=167/250 = 0.668

Per calcolarel’intervallo diconfidenza mi serve l’errorestandard chestimo:

p(1-p)n

se( p) =

n>40 approssimo alla Normale

Pr {{{{ 0.668 - 1.96 * 0.03 ≤≤≤≤ p ≤≤≤≤ 0.668 + 1.96 * 0.03 }}}} = 0.95

=0.03

IC = {{{{0.6092-0.7268 }}}}

MARTA BLANGIARDO – TEST PER PROPORZION - 6.15

6. TEST PER PROPORZIONI

Dal campione:

n=250

x=167

p=?

p=167/250 = 0.668

IC = {{{{0.6092-0.7268 }}}}

p

Possiamo concludere che ripetendol’esperimento 100 volte in 95 casi il p della popolazione è compresonell’intervallo {{{{0.6092-0.7268 }}}}.

In 5 casi su 100 sbaglio stimando p con p.

MARTA BLANGIARDO – TEST PER PROPORZION - 6.16

6. TEST PER PROPORZIONI

n.successin.provep =

Dal campione ottengo

p(1-p)n

se( p) =

Ipotesi nulla:

H0: p=p 0

p – p0

se(p)~ N(0,1)

P-value (1 coda) =

Pr ( z >zp sotto H 0)

zp=

P-value (2 code)=

2*Pr ( z >zp sotto H 0)

MARTA BLANGIARDO – TEST PER PROPORZION - 6.17

6. TEST PER PROPORZIONI

Dal campione:

n=250

x=167

p=167/250 = 0.668

H0: p = 0.5 Per standardizzarep devo stimarel’errore standard

p(1-p)n

se( p) = =0.03

p – p0

se(p)zp= = 5.6

Dalla stessa popolazione di uomini d’affarivoglio valutare se l’ipotesi che la proporzionedi uomini con cravatta troppo stretta è 0.5

Pr ( z >zp sotto H 0) = Pr(z>5.6 sotto H 0)

Il test è a due code quindi

P-value (2 code)= 2*Pr ( z >5.6 sotto H 0)

MARTA BLANGIARDO – TEST PER PROPORZION - 6.18

6. TEST PER PROPORZIONI

Distribuzione normale

standardizzata

0.81330.81060.80780.80510.80230.79950.79670.79390.79100.78810.8

0.78520.78230.77940.77640.77340.77040.76730.76420.76110.75800.7

0.75490.75170.74860.74540.74220.73890.73570.73240.72910.72570.6

0.72240.71900.71570.71230.70880.70540.70190.69850.69500.69150.5

0.68790.68440.68080.67720.67360.67000.66640.66280.65910.65540.4

0.65170.64800.64430.64060.63680.63310.62930.62550.62170.61790.3

0.61410.61030.60640.60260.59870.59480.59100.58710.58320.57930.2

0.57530.57140.56750.56360.55960.55570.55170.54780.54380.53980.1

0.53590.53190.52790.52390.51990.51600.51200.50800.50400.50000.0

9876543210

=1-DISTRIB.NORM.ST(5.6)=0

Excel

1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.6

1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.5

1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.4

1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.3

1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.2

1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.1

1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.0

……..

Pr(z >zp) = 1-Pr(z<zp) = 0

Tavole

Concludiamo che c’è evidenza contro H0

P-value 2 code2*0=0

P-value 2 code2*0=0

MARTA BLANGIARDO – TEST PER PROPORZION - 6.19

6. TEST PER PROPORZIONI

2. Confronto tra due o piùproporzioni: la variabile casuale chi quadro

In una sperimentazione clinica tesa a valutare l’effetto di un nuovo farmaco nel trattamento dell’infarto miocardico acuto, 80 pazienti sono stati assegnati casualmente al gruppo trattato con il farmaco in studio o al placebo

Dopo 28 giorni dall’episodio di infarto (e dall’inizio dello specifico trattamento) 10 dei 40 pazienti trattati con il farmaco sono deceduti, contro 15 decessi verificatisi nei 40 pazienti trattati con placebo

Questa sperimentazione offre sufficienti evidenze che il nuovo farmaco sia efficace nel trattamento dell’infarto

acuto?

MARTA BLANGIARDO – TEST PER PROPORZION - 6.20

6. TEST PER PROPORZIONI

p1 = 10 / 40 = = 0.250

p2 = 15 / 40 = = 0.375

E1. In una sperimentazione clinica tesa a valutare l’effetto di un nuovo farmaco nel trattamento dell’infarto miocardico acuto, 80 pazienti sono stati assegnati casualmente al gruppo trattato con il farmaco in studio o al placebo

Dopo 28 giorni dall’episodio di infarto (e dall’inizio dello specifico trattamento) 10 dei 40 pazienti trattati con il farmaco sono deceduti, contro 15 decessi verificatisi nei 40 pazienti trattati con placebo

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

10 15

30 25

deceduti

vivi

6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

Tabella di contingenza 2 X 2

Questa sperimentazione offre sufficienti evidenze che il nuovo farmaco sia efficace nel trattamento

dell’infarto acuto?

MARTA BLANGIARDO – TEST PER PROPORZION - 6.21

6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

10 15

30 25

deceduti

vivi

Tabella di contingenza 2 X 2

p = 25 / 80 = = 0.3125

p1 = 10 / 40 = = 0.250

p2 = 15 / 40 = = 0.375

Ci si aspetta che la mortalità nei due gruppi differisca per effetto del caso (errore di campionamento) in

assenza del quale:

p1 = p2 = p = 0.3125

MARTA BLANGIARDO – TEST PER PROPORZION - 6.22

6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

10 15

30 25

deceduti

vivi

Tabella di contingenza 2 X 2

p = 25 / 80 = = 0.3125

p1 = 10 / 40 = = 0.250

p2 = 15 / 40 = = 0.375

H0sotto:

ππππ1 ππππ2 ππππ= =

MARTA BLANGIARDO – TEST PER PROPORZION - 6.23

6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

10 15

30 25

deceduti

vivi

Tabella di contingenza 2 X 2

p = 25 / 80 = = 0.3125

p1 = 10 / 40 = = 0.250

p2 = 15 / 40 = = 0.375

12.5

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

deceduti

vivi

Quanti pazienti trattati con il farmaco sarebbero morti se fossero sottoposti alla stessa mortalitàdell’intero gruppo sperimentale? 40 . 0.3125 =

MARTA BLANGIARDO – TEST PER PROPORZION - 6.24

6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

10 15

30 25

deceduti

vivi

Tabella di contingenza 2 X 2

p = 25 / 80 = = 0.3125

p1 = 10 / 40 = = 0.250

p2 = 15 / 40 = = 0.375

Quanti pazienti trattati con placebo sarebbero morti se fossero sottoposti alla stessa mortalitàdell’intero gruppo sperimentale?

deceduti

vivi

40 . 0.3125 =

12.5

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

MARTA BLANGIARDO – TEST PER PROPORZION - 6.25

6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

10 15

30 25

deceduti

vivi

Tabella di contingenza 2 X 2Dati

osservati

deceduti

vivi

12.5

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

Tabella di contingenza 2 X 2Dati

attesi

12.5

27.527.5

χχχχ2= ΣΣΣΣi

(Oi - Ei)2

Eig

Test del

chi-quadrato

MARTA BLANGIARDO – TEST PER PROPORZION - 6.26

6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

10 15

30 25

deceduti

vivi

Dati osservati

Datiattesi

deceduti

vivi

12.5

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

12.5

27.527.5

χχχχ2= ΣΣΣΣi

(Oi - Ei)2

Eig

(15-12.5)2

12.5++

(30-27.5)2

27.5(25-27.5)2

27.5+ + = 1.45

(10-12.5)2

12.5= +

MARTA BLANGIARDO – TEST PER PROPORZION - 6.27

6. TEST PER PROPORZIONI

Distribuzione chi-quadrato

16.8114.4412.59

15.0912.8311.07

13.2811.149.49

11.349.347.81

9.217.385.99

6.635.023.84

0.010.0250.05

6

5

4

3

2

1

gdl

Chi quadro

…7.847.23

6.626.06

5.394.88

4.103.66

2.772.41

1.321.07

0.250.3

MARTA BLANGIARDO – TEST PER PROPORZION - 6.28

6. TEST PER PROPORZIONI

Valore empirico: χχχχ2=

11.45

6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

Dovremmo accettare l’ipotesi nulla (p > 0.05): le due proporzioni non differiscono significativamente

Questa sperimentazione non offre sufficienti evidenze che il nuovo farmaco sia efficace nel

trattamento dell’infarto acuto

Perché 1 grado di libertà?

P-value =

0.2 < Pr(χχχχ22>1.45 sotto H0) < 0.25

> 0.05

MARTA BLANGIARDO – TEST PER PROPORZION - 6.29

6. TEST PER PROPORZIONI

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

10 15

30 25

deceduti

vivi

Dati osservati

Se si fissano i totali di riga e di colonna (marginali) mi basta inserire il valore diuna cella e le altre le trovo per differenza

Pazienti trattati con il farmaco

Pazienti di controllo

totale

totale

8040 40

25

55

deceduti

vivi

10

40-10=30 40-15=25

25-10=15

Quindi ho solo 1 grado di libertà

MARTA BLANGIARDO – TEST PER PROPORZION - 6.30

6. TEST PER PROPORZIONI

In una sperimentazione clinica tesa a valutare l’effetto di due nuovi farmaci (A e B) nel trattamento dell’infarto miocardico acuto, 90 pazienti furono assegnati casualmente al gruppo trattato con il farmaco A, al gruppo trattato con i l farmaco B o al placebo

Dopo 28 giorni dall’episodio di infarto (e dall’inizio dello specifico trattamento) 10 dei 30 pazienti trattati con il farmaco A, 5 dei 30 pazienti trattati con il farmaco B e 15 dei 30 pazienti trattati con placebo sono deceduti

6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

deceduti

vivi

Tabella di contingenza 2 X 3

Questa sperimentazione offre sufficienti evidenze che i diversi trattamenti determinino diversi

effetti sulla sopravvivenza?

FarmacoA

totale

totale

9030 30

30

60

FarmacoB

Placebo

30

10 15

20 15

5

25

pA = 10 / 30 = = 0.333

pP = 15 / 30 = = 0.5

pB = 5 / 30 = = 0.167

MARTA BLANGIARDO – TEST PER PROPORZION - 6.31

6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

deceduti

vivi

Tabella di contingenza 2 X 3

FarmacoA

totale

totale

9030 30

30

60

FarmacoB

Placebo

30

10 15

20 15

5

25

pA = 10 / 30 = = 0.333

pP = 15 / 30 = = 0.500

pB = 5 / 30 = = 0.167

ππππA =

H0sotto:

ππππB ππππ= ππππp=

30/90=0.333

MARTA BLANGIARDO – TEST PER PROPORZION - 6.32

6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

deceduti

vivi

FarmacoA

totale

totale

9030 30

30

60

FarmacoB

Placebo

30

10 15

20 15

5

25

pA = 10 / 30 = 0.333

pP = 15 / 30 = 0.500

pB = 5 / 30 = 0.167

p = 30 / 90 = 0.333

Dati osservati

10

0.333 . 30 =

10

0.333 . 30 =

10

0.333 . 30 =

deceduti

vivi

FarmacoA

totale

totale

9030 30

30

60

FarmacoB

Placebo

30

Dati attesi sotto H 0

202020

MARTA BLANGIARDO – TEST PER PROPORZION - 6.33

6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

deceduti

vivi

FarmacoA

totale

totale

9030 30

30

60

FarmacoB

Placebo

30

10 15

20 15

5

25

Dati osservati

10 10 10deceduti

vivi

FarmacoA

totale

totale

9030 30

30

60

FarmacoB

Placebo

30

202020

Dati

attesi

= 6.11(Oi - Ei)2

Eig

χχχχ2= ΣΣΣΣi

2

MARTA BLANGIARDO – TEST PER PROPORZION - 6.34

6. TEST PER PROPORZIONI

Valore empirico: χχχχ2=

26.11

6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI

Dovremmo rigettare l’ipotesi nulla (p < 0.05): le tre proporzioni

differiscono significativamente

Questa sperimentazione offre sufficienti evidenze che il diverso trattamento determina diverse

mortalità nei pazienti con infarto acuto

Perché 2 gradi di libertà?

P-value =

0.025< Pr(χχχχ22222>6.11 sotto H 0) < 0.05

< 0.05

MARTA BLANGIARDO – TEST PER PROPORZION - 6.35

6. TEST PER PROPORZIONI

deceduti

vivi

FarmacoA

totale

totale

9030 30

30

60

FarmacoB

Placebo

30

10 15

20 15

5

25

Dati osservati

In questo caso una cella non è sufficiente per ottenere tutte le altre per differenza. Neservono 2

deceduti

vivi

FarmacoA

totale

totale

9030 30

30

60

FarmacoB

Placebo

30

10 30-10-5=15

30-10=20 30-15=15

5

30-5=25

Dati osservati

Quindi ho 2 gradi di libertà

In generale i gdl si ottengono come

(n.righe-1)*(n.colonne-1)

MARTA BLANGIARDO – TEST PER PROPORZION - 6.36

6. TEST PER PROPORZIONI

ESERCIZIO di RIEPILOGO 1

In una popolazione di bambini in etàprescolare si vuole verificare se la percentuale di bambini affetti da dislessiaè pari al 10%. Per questo motivo si estrae un campione di 200 bambini e si ottiene che quelli dislessici sono 40. Saggiare l’ipotesi nulla

Si vuole verificare se l’effetto di tre diete èequivalente nel ridurre il peso in una popolazione di bambini. A tal fine si estraggono 3 campioni di 20, 30 e 40 bambini e si assegna loro rispettivamente la dieta A, B e C. Definiamo che la dieta ha effetto se riduce il peso di almeno 5 Kg. Il numero di riduzioni di peso nei tre campioni è rispettivamente 10, 12 e 18

ESERCIZIO di RIEPILOGO 2

MARTA BLANGIARDO – TEST PER PROPORZION - 6.37

6. TEST PER PROPORZIONI

MARTA BLANGIARDO – TEST PER PROPORZION - 6.38

6. TEST PER PROPORZIONI

Si vuole verificare se l’effetto di tre diete èequivalente nel ridurre il peso in una popolazione di bambini. A tal fine si estraggono 3 campioni di 20, 30 e 40 bambini e si assegna loro rispettivamente la dieta A, B e C. Definiamo che la dieta ha effetto se riduce il peso di almeno 5 Kg. Il numero di riduzioni di peso nei tre campioni è rispettivamente 10, 12 e 18

ESERCIZIO di RIEPILOGO 2

MARTA BLANGIARDO – TEST PER PROPORZION - 6.39

6. TEST PER PROPORZIONI

3. Test per la bontà di adattamento di una distribuzione di probabilità ad una distribuzione empirica: il caso di probabilità teorica

Baccelli giallie rugosi

Baccelli verdi e lisci

9/163/163/161/16

Lisci e gialli (LG)

Rugosi e gialli (RG)

Lisci e verdi (LV)

Rugosi e verdi (RV)

Dalla teoria mendeliana:

MARTA BLANGIARDO – TEST PER PROPORZION - 6.40

6. TEST PER PROPORZIONI

9/163/163/161/16

Lisci e gialli (LG)

Rugosi e gialli (RG)

Lisci e verdi (LV)

Rugosi e verdi (RV)

Distribuzione teorica

Da un campione di 160 incroci si ottengonoi seguenti risultati:

9327328

Lisci e gialli (LG)

Rugosi e gialli (RG)

Lisci e verdi (LV)

Rugosi e verdi (RV)

N=160

I dati supportano la teoria mendeliana?

MARTA BLANGIARDO – TEST PER PROPORZION - 6.41

6. TEST PER PROPORZIONI

Vogliamo testare la seguente ipotesi

H0: p1=1/16, p2=3/16, p3=3/16, p4=9/16

Se H0 è vera:

90303010

LGRGLVRV

160. 116

=10 160.3

16=30 160. 9

16=90160.

3

16=30

Utilizziamo nuovamentre la statistica chi quadrato

χχχχ2= ΣΣΣΣi

(Oi - Ei)2

Eig

Test del

chi-quadrato

MARTA BLANGIARDO – TEST PER PROPORZION - 6.42

6. TEST PER PROPORZIONI

(32-30)2

30++

(27-30)2

30(93-90)2

90+ + = 0.93

(8-10)2

10= +

9327328

Lisci e gialli (LG)

Rugosi e gialli (RG)

Lisci e verdi (LV)

Rugosi e verdi (RV)

90303010

LGRGLVRV

Valori attesi sotto H0

Valori osservati

χχχχ32

I gradi di libertà sono ncat-1

(nel nostro caso 4-1=3)

MARTA BLANGIARDO – TEST PER PROPORZION - 6.43

6. TEST PER PROPORZIONI

Distribuzione chi-quadrato

4.57023.82763.07012.20416

3.65552.99992.34251.61035

2.75282.19471.64881.06364

1.86921.42371.00520.58443

1.02170.71330.44630.21072

0.27500.14850.06420.01581

0.60.70.80.9gdl

Il Pvalue è compreso tra questi due valori

P-value = Pr( χχχχ22223>0.93 sotto H 0) ≈ 0.85

> 0.05

Non abbiamo abbastanza evidenza per rifiutare H 0

MARTA BLANGIARDO – TEST PER PROPORZION - 6.44

6. TEST PER PROPORZIONI

4. Test per la bontà di adattamento di una distribuzione di probabilità ad una distribuzione empirica: il caso di probabilità stimata

Stima dei parametri della popolazionepartendo dai dati campionari

Assunzioni sulla forma delladistribuzione dei parametri

E’ utile verificare tali assunzioni valutandoquanto i valori osservati si discostano dalla

distribuzione teorica

Confronto tramite chi quadrato dellefrequenze osservate e attese sotto la

distribuzione teorica

MARTA BLANGIARDO – TEST PER PROPORZION - 6.45

6. TEST PER PROPORZIONI

Strategia:

1) Scelta della distribuzione di probabilitàadatta a descrivere il fenomeno in studio

2) Calcolo delle probabilità associate aivalori che la variabile in studio assume nel

campione

3) Calcolo delle frequenze attese πi.O

4) Valutazione tramite chi quadrato dellediscrepanze tra frequenze osservate (Oi)

ed attese πi.O

χχχχ2= ΣΣΣΣ (Oi – ππππi O)2

ππππi Og

MARTA BLANGIARDO – TEST PER PROPORZION - 6.46

6. TEST PER PROPORZIONI

Verifica dell’adattamento ad unadistribuzione Binomiale

Sono stati raccolti i dati relativi al numerodi figlie femmine in 103 famiglie di 4 figli. Il rapporto tra maschi e femmine è atteso di½:½.

Variabile casualedicotomica

Successo : figlia femmina

Variabile casuale teorica: Binomiale

X~Binom(n,p) X~Binom(4,0.5)

1) Scelta della distribuzione di probabilitàadatta a descrivere il fenomeno in studio

MARTA BLANGIARDO – TEST PER PROPORZION - 6.47

6. TEST PER PROPORZIONI

2) Sappiamo che πi=0.5 sotto H0

0

5

10

15

20

25

30

35

40

45

50

1 2 3 4 5

Osservati

11

19

44

24

5

Oi

0

1

2

3

4

X

Valori osservati nel campione

MARTA BLANGIARDO – TEST PER PROPORZION - 6.48

6. TEST PER PROPORZIONI

11

19

44

24

5

Oi

(1/2)4. (1/2)0 = 0.0625

4 . (1/2)3. (1/2)1 = 0.25

6. (1/2)2. (1/2)2 = 0.375

4. (1/2)1. (1/2)3 = 0.25

(1/2)4=0.0625

πi

0

1

2

3

4

X

3) Calcolo delle probabilità associate aivalori che la variabile in studio assume

nel campione

P(X=x) = 4

x 0.5x(1-0.5)4-x

MARTA BLANGIARDO – TEST PER PROPORZION - 6.49

6. TEST PER PROPORZIONI

4) Calcolo delle frequenze attese πi.O

11

19

44

24

5

Oi

(1/2)4. (1/2)0 = 0.0625

4 . (1/2)3. (1/2)1 = 0.25

6. (1/2)2. (1/2)2 = 0.375

4. (1/2)1. (1/2)3 = 0.25

(1/2)4=0.0625

πi

0.0625.103=6.44

0.25.103=25.75

0.375.103=38.62

0. 25.103=25.75

0.0625.103=6.44

πi.O

0

1

2

3

4

X

0

5

10

15

20

25

30

35

40

45

50

1 2 3 4 5

OsservatiAttesi

MARTA BLANGIARDO – TEST PER PROPORZION - 6.50

6. TEST PER PROPORZIONI

5) Valutazione tramite chi quadrato dellediscrepanze tra frequenze osservate (Oi)

ed attese πi.O

(24-25.75)2

25.75++

(44-38.62)2

38.62

(11-6.44)2

6.44+ = 6.191

(5-6.44)2

6.44=

(19-25.75)2

25.75+

χχχχ2= ΣΣΣΣ (Oi – ππππi O)2

ππππi Og

P-value = Pr( χχχχ22224>6.191 sotto H 0) ≈ 0.18

> 0.05

Il numero di gdl è ncat-1 = 5 - 1 = 4

Da excel:

=DISTRIB.CHI(6.191,4)

MARTA BLANGIARDO – TEST PER PROPORZION - 6.51

6. TEST PER PROPORZIONI

Possiamo concludere che la differenza tra la distribuzioneosservata e quella teorica(Binomiale di parametro 0.5 in 4 prove) non è significativa

MARTA BLANGIARDO – TEST PER PROPORZION - 6.52

6. TEST PER PROPORZIONI

Verifica dell’adattamento ad unadistribuzione Poisson

Si desidera conoscere la distribuzione diuna variante rara di una certa pianta in unadeterminata regione. Per fare cio’ la regione viene suddivisa in aree di ugualegrandezza e si conta il numero di elementidella variante in studio.

Variabile casualediscreta, ma NON dicotomica

EventoRARO

Variabile casuale teorica: Poisson

X~Poisson(λ)

1) Scelta della distribuzione di probabilitàadatta a descrivere il fenomeno in studio

MARTA BLANGIARDO – TEST PER PROPORZION - 6.53

6. TEST PER PROPORZIONI

Distribuzione Poisson

X~Poisson(λ)

Caratterizzata daun parametro

E(X) = λ

Var(X) = λ

E(X)=5

Var(X)=5

E(X)=3

Var(X)=3

X~Poisson(3)X~Poisson(5)

Distribuzone usataper gli eventi rari

MARTA BLANGIARDO – TEST PER PROPORZION - 6.54

6. TEST PER PROPORZIONI

2) Non conosciamo i valori di πi nellapopolazione: dobbiamo stimarli

13

0

13

34

39

Oi

0

1

2

>3

X

Valori osservati nel campione

0

5

10

15

20

25

30

35

40

45

0 1 2 3Osservati

MARTA BLANGIARDO – TEST PER PROPORZION - 6.55

6. TEST PER PROPORZIONI

2) Non conosciamo i valori di πi nellapopolazione: dobbiamo stimarli

Una stima di λ è

x (media campionaria):

ΣxiOi

ΣOix =

x = 39 . 0 + 34 . 1 + 13 . 2 + 1 . 3 = 0.7241

87

X~Poisson(0.7241)

MARTA BLANGIARDO – TEST PER PROPORZION - 6.56

6. TEST PER PROPORZIONI

e-0.7241.(0.7241)3/6=0.030613

0

13

34

39

Oi

1-0.4847- 0.3510-0.1271-0.0306 = 0.0065

e-0.7241.(0.7241)2/2=0.1271

e-0.7241.(0.7241)1 = 0.3510

e-0.7241=0.4847

πi

0

1

2

>3

X

3) Calcolo delle probabilità associate aivalori che la variabile in studio assume

nel campione

X~Poisson(0.7241)

P(X=x) = λλλλx e-λλλλ

x!

0.72410 e-0.7241

0!=1

MARTA BLANGIARDO – TEST PER PROPORZION - 6.57

6. TEST PER PROPORZIONI

4) Calcolo delle frequenze attese πi.O

0

1

13

34

39

Oi

1-0.4847- 0.3510-0.1271-0.0306 = 0.0065

e-0.7241.

(0.7241)3/6=0.0306

e-0.7241.

(0.7241)2/2=0.1271

e-0.7241.(0.7241)1 = 0.3510

e-0.7241=0.4847

πi

0.0625. 87=0.54

0.0306. 87=2.66

0.1271. 87=11.06

0.3510. 87=30.54

0.4847.87=42.17

πi.O

0

1

2

3

>3

X

0

5

10

15

20

25

30

35

40

45

0 1 2 3 >3OsservatiAttesi

MARTA BLANGIARDO – TEST PER PROPORZION - 6.58

6. TEST PER PROPORZIONI

5) Valutazione tramite chi quadrato dellediscrepanze tra frequenze osservate (Oi) ed attese πi.n (o pi.n se i parametri sono

ignoti nella popolazione)

(34-30.54)2

30.54++

(13-11.06)2

11.06

(0-0.54)2

0.54+ = 2.5095

(39-42.17)2

42.17=

(1-2.66)2

2.66+

χχχχ2= ΣΣΣΣ (Oi – ππππi O)2

ππππi Og

P-value = Pr( χχχχ22223>2.5094 sotto H 0) ≈ 0.47

> 0.05

Il numero di gdl è n.cat-2 = 5 - 2 = 3

Da excel:

=DISTRIB.CHI(2.5094,3)

MARTA BLANGIARDO – TEST PER PROPORZION - 6.59

6. TEST PER PROPORZIONI

Possiamo concludere che la differenza tra la distribuzioneosservata e quella teorica(Poisson di parametro 0.7241) non è significativa

PROBLEMA: come mai abiamo usatoun chi quadro con 3 gradi di libertà?

Il numero di gdl è n.cat-2 = 5 - 2 = 3

???

MARTA BLANGIARDO – TEST PER PROPORZION - 6.60

6. TEST PER PROPORZIONI

Abbiamo visto precedentemente che i gradi di libertà erano calcolati come

•N.obs-1 (nel caso della T di Student)

•N.cat-1

•(n.righe-1)(n.col-1)

Nel caso del chi quadro

In questo caso abbiamo un ulteriore vincolodato dal fatto che DOBBIAMO stimare λtramite i dati campionari (y). Quindi:

1. ΣOi=O

2. ΣxiOi= y

ΣOi

gdl = n.cat - 2

Una regola universale: il numero di gradi di libertà èsempre uguale al numero di osservazioni MENO il

numero di relazioni tra le osservazioni che abbiamo la necessità di ottenere

MARTA BLANGIARDO – TEST PER PROPORZION - 6.61

6. TEST PER PROPORZIONI

Verifica dell’adattamento ad unadistribuzione Normale

In un campione di piante da fiore vienemisurata la lunghezza della corolla (in mm); si desidera conoscere la sua distribuzione.

Variabile casualecontinua

Ci si aspettasimmetrianelladistribuzione

Variabile casuale teorica: Normale

X~N(µ,σ2)

1) Scelta della distribuzione di probabilitàadatta a descrivere il fenomeno in studio

2

2

2

)(

22

1)( σ

µ−−⋅

πσ=

x

exf

MARTA BLANGIARDO – TEST PER PROPORZION - 6.62

6. TEST PER PROPORZIONI

X~N(µ,σ2)2

2

2

)(

22

1)( σ

µ−−⋅

πσ=

x

exf

Standardizzazione

Z~N(0,1)2

2

2

1)(

z

ezf−

⋅π

=

Per standardizzare devo stimare µ e σ2 dalcampione:

µ ΣxiOi

ΣOix =

σ2Σ(xi-x)2Oi

(ΣOi)-1s2 =

= 67.45

= 8.6136

MARTA BLANGIARDO – TEST PER PROPORZION - 6.63

6. TEST PER PROPORZIONI

Distribuzione normale standardizzata

0

1

z

Verifica dell’adattamento ad unadistribuzione Normale

1. Suddividere l’intero campo di variazionein intervalli. E’ conveniente che il valorecentrale sia un numero intero.

2. Calcolare la frequenza osservata in ogniclasse

73

70

67

64

61

(xa+xb)/2

2768.5-|71.5

8

42

18

5

Oi

59.5-|62.5

62.5-|65.5

65.5-|68.5

71.5-|74.5

xa -| xb

MARTA BLANGIARDO – TEST PER PROPORZION - 6.64

6. TEST PER PROPORZIONI

3. Standardizzare usando l’estremosuperiore di ogni classe

8

27

42

18

5

Oi

73

70

67

64

61

(xa+xb)/2

1.3868.5-|71.5

oo

0.36

-0.66

-1.69

z

59.5-|62.5

62.5-|65.5

65.5-|68.5

71.5-|74.5

xa -| xb

2

2

2

1)(

z

ezf−

⋅π

=

62.5-67.45

2.93

MARTA BLANGIARDO – TEST PER PROPORZION - 6.65

6. TEST PER PROPORZIONI

4. Determinare la funzione cumulata I corrispondenza dei limiti superiori di ogniclasse (per l’ultima classe porre=1)

oo

1.38

0.36

-0.66

-1.69

z

8

27

42

18

5

Oi

73

70

67

64

61

(xa+xb)/2

0.912668.5-|71.5

1.0000

0.6406

0.2546

0.0455

Fi

59.5-|62.5

62.5-|65.5

65.5-|68.5

71.5-|74.5

xa -| xb

Usando le tavole

MARTA BLANGIARDO – TEST PER PROPORZION - 6.66

6. TEST PER PROPORZIONI

5. Per differenze determinare le frequenzeattese relative πi

1.0000

0.9126

0.6406

0.2546

0.0455

Fi

oo

1.38

0.36

-0.66

-1.69

z

8

27

42

18

5

Oi

73

70

67

64

61

(xa+xb)/2

0.275668.5-|71.5

0.0838

0.3860

0.2091

0.0455

πi

59.5-|62.5

62.5-|65.5

65.5-|68.5

71.5-|74.5

xa -| xb

Fi – Fi-1

MARTA BLANGIARDO – TEST PER PROPORZION - 6.67

6. TEST PER PROPORZIONI

6. Calcolare le frequenze attese πiO

0.0838

0.2756

0.3860

0.2091

0.0455

πi

1.0000

0.9126

0.6406

0.2546

0.0455

Fi

oo

1.38

0.36

-0.66

-1.69

z

8

27

42

18

5

Oi

73

70

67

64

61

(xa+xb)/2

27.5668.5-|71.5

8.38

38.60

20.91

4.55

πiO

59.5-|62.5

62.5-|65.5

65.5-|68.5

71.5-|74.5

xa -| xb20

MARTA BLANGIARDO – TEST PER PROPORZION - 6.68

6. TEST PER PROPORZIONI

(18-20.91)2

20.91++

(42-38.60)2

38.60

(8-8.38)2

8.38+ = 0.777

(5-4.55)2

4.55=

(27-27.56)2

27.56+

χχχχ2= ΣΣΣΣ (Oi – ππππi O)2

ππππi Og

Il numero di gdl è n.cat-3 = 5 - 3 = 2

Da excel:

=DISTRIB.CHI(2.5094,2)

6. Confrontare le frequenze osservate e attese tramite il chi quadro

P-value = Pr( χχχχ22222>0.777 sotto H 0) ≈ 0.67

> 0.05

MARTA BLANGIARDO – TEST PER PROPORZION - 6.69

6. TEST PER PROPORZIONI

Possiamo concludere che la differenza tra la distribuzioneosservata e quella teorica(Normale di parametri µ=67.45 e σ=2.93) non è significativa