Alcune formule di statistica inferenziale per il corso di...

32
Alcune formule di statistica inferenziale per il corso di Matematica e Statistica II A. A. 2009/10 Andrea Pugliese 1 Valore atteso e varianza di variabili casuali Definizione 1. Se X ` e una variabile casuale discreta con distribuzione p(x), ossia P(X = x i )= p(x i ) := p i per definizione il valore atteso di X , E(X ), (spesso detto anche media) ` e E(X )= X i x i p i . Se X ` e una variabile casuale continua con densit` a π(x) ossia P(a X b)= Z b a π(x) dx E(X )= Z +-∞ (x) dx. E’ possibile dare una definizione unica di E(X ), ma ci` o richiederebbe l’introduzione del concetto dei spazio degli eventi e misure di probabilit` a. Alcune dimostrazioni diventerebbero molto pi` u semplici in questo contesto, ma preferisco evitarlo qui. Data una qualunque funzione g : R R anche Y = g(X )` e una variabile casuale e si potrebbe calcolare E(Y )= E(g(X )) 1 . Vale il seguente fatto, molto intuitivo, E(g(X )) = ( i g(x i )p i se X ` e discreta R +-∞ g(x)π(x) dx se X ` e continua. (1) 1 Se g(X)` e una variabile casuale che pu` o assumere valori infinitamente grandi, non ` e detto che E(g(X)) sia ben definito. In particolare, non ` e detto che tutte le variabili casuali X ammettano valore atteso e varianza. Qua trascuriamo questi aspetti tecnici. 1

Transcript of Alcune formule di statistica inferenziale per il corso di...

Page 1: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Alcune formule di statistica inferenzialeper il corso di Matematica e Statistica II

A. A. 2009/10

Andrea Pugliese

1 Valore atteso e varianza di variabili casuali

Definizione 1. Se X e una variabile casuale discreta con distribuzione p(x),ossia

P(X = xi) = p(xi) := pi

per definizione il valore atteso di X, E(X), (spesso detto anche media) e

E(X) =∑i

xipi.

Se X e una variabile casuale continua con densita π(x) ossia

P(a ≤ X ≤ b) =

∫ b

a

π(x) dx

E(X) =

∫ +∞

−∞xπ(x) dx.

E’ possibile dare una definizione unica di E(X), ma cio richiederebbel’introduzione del concetto dei spazio degli eventi e misure di probabilita.Alcune dimostrazioni diventerebbero molto piu semplici in questo contesto,ma preferisco evitarlo qui.

Data una qualunque funzione g : R→ R anche Y = g(X) e una variabilecasuale e si potrebbe calcolare E(Y ) = E(g(X))1. Vale il seguente fatto,molto intuitivo,

E(g(X)) =

∑i g(xi)pi se X e discreta∫ +∞−∞ g(x)π(x) dx se X e continua.

(1)

1Se g(X) e una variabile casuale che puo assumere valori infinitamente grandi, non edetto che E(g(X)) sia ben definito. In particolare, non e detto che tutte le variabili casualiX ammettano valore atteso e varianza. Qua trascuriamo questi aspetti tecnici.

1

Page 2: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

In particolare, definiamo in questo modo la varianza di X, V(X) come

V(X) = E((X − E(X))2) = E(X2)− (E(X))2. (2)

L’ultima identita si dimostra con qualche passaggio algebrico.La varianza e una misura della dispersione dei valori che puo assumere X.

La disuguaglianza di Chebysev, semplice da dimostrare ma molto importanteteoricamente, mostra come la media e la varianza permettano di stimare laprobabilita che X prenda valori lontani dalla media. Si ha infatti

Teorema 1. Sia g : R → R+ una funzione nonnegativa, ossia g(x) ≥ 0. Siha

P(g(X) ≥ k) ≤ 1

kE(g(X)).

In particolare, vale la disuguaglianza di Chebysev:

P(|X − E(X)| ≥ c) ≤ 1

c2V(X). (3)

Dimostrazione. Do una dimostrazione nel caso di X continua, ma e analoganel caso X discreta.

E(g(X)) =

∫ +∞

−∞g(x)π(x) dx =

∫x: g(x)<k

g(x)π(x) dx+

∫x: g(x)≥k

g(x)π(x) dx

≥∫x: g(x)≥k

g(x)π(x) dx ≥ k

∫x: g(x)≥k

π(x) dx = kP(g(X) ≥ k). (4)

Dividendo il primo e l’ultimo termine di (4) per k, otteniamo la tesi.Per dimostrare (3), basta scegliere g(x) = (x−E(X))2 e k = c2 si ottiene

P((X − E(X))2 ≥ c2) ≤ 1

c2V(X).

Ma (X − E(X))2 ≥ c2 ⇐⇒ |X − E(X)| ≥ c e si ha quidni (3).

Prima di parlare di valore atteso e varianza della somma di due variabilicasuali, ricordo la definizione di indipendenza.

Definizione 2. Due variabili casuali X e Y si dicono indipendenti se, perogni coppia di intervalli I e J , si ha

P(X ∈ I, Y ∈ J) = P(X ∈ I)P(Y ∈ J). (5)

Si ha

2

Page 3: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Teorema 2. Date due variabili casuali X e Y e una costante c ∈ R si ha

a) E(cX) = cE(X);

b) E(X + Y ) = E(X) + E(Y );

c) V(cX) = c2V(X);

d) se X e Y sono indipendenti V(X + Y ) = V(X) + V(Y ).

Le proprieta a)-b)-c) sono molto intuitive, anche se non e immediatodimostrarle usando la definizione usata qui.

Per capire che l’indipendenza e necessaria per la validita di d), consideria-mo un’urna con due palline, una con valore 0, l’altra con valore 1. Estraiamouna pallina e sia X il numero della pallina estratta e Y quello della pallinarimasta nell’urna. Allora X + Y = 1 con certezza e quindi V(X + Y ) = 0;d’altra parte V(X) = V(Y ) = 1/4 [controllare!].

2 Media e varianza campionaria

Molti problemi della statistica si possono ricondurre al problema di osservareun campione, ma di volere dedurne le caratteristiche di una popolazione dacui il campione e estratto. In alcuni casi la popolazione e letteralmente tale(si pensi al problema di prevedere il risultato di un’elezione tramite un son-daggio), piu spesso la popolazione e un’idealizzazione: si vuole valutare se lapresenza di un certo gene protegge da una certa malattia; le popolazioni sonoallora tutti gli individui passati, presenti e futuri portatori o non portatoridi quel gene, al di la di tutte le altre differenze biologiche, culturali e sociali.

Al di la di tutti gli aspetti pratici, per noi l’osservazione di un campionee l’estrazione di n (la dimensione del campione) variabili casuali X1, . . . , Xn

con una stessa distribuzione (quella della popolazione da cui il campione eestratto). Nel caso in cui (come normalmente in un sondaggio) il campiona-mento avvenga senza ripetizioni da una popolazione finita di dimensioneM , le variabili casuali X1, . . . , Xn non sono indipendenti.

La teoria e pero estremamente piu semplice se assumiamo che X1, . . . , Xn

siano indipendenti, cosa che avverrebbe se il campionamento fosse con ripe-tizioni o la popolazione di riferimento fosse infinita2. Per questo nel seguitoassumero che il campionamento avvenga con ripetizioni; alla fine, scrivero leformule anche per il caso senza ripetizioni. In ogni caso, se n (la dimensionedel campione) e molto piu piccola di M (la dimensione della popolazione),come avviene quasi sempre in pratica, la differenza fra i due casi e minima.

2cosa che renderebbe le ripetizioni infinitamente improbabili

3

Page 4: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

La media campionaria, calcolata secondo la definizione intuitiva di media,e

X =1

n(X1 + · · ·+Xn) =

1

n

n∑i=1

Xi. (6)

Anch’essa e una variabile casuale (come X1, . . . , Xn) e si puo discutere delsuo valore atteso e della sua varianza.

Posto µ = E(Xi), σ2 = V(Xi) (ricordare che si e supposto che tutte

le variabili X1, . . . , Xn abbiano la stessa distribuzione, e quindi lo stessovalore atteso e varianza), usando le formule per valore atteso e varianza dellasomma, si ha

E(X) =1

nE(X1 + · · ·+Xn) =

1

n(µ+ · · ·+ µ) = µ (7)

e

V(X) =1

n2V(X1 + · · ·+Xn) =

1

n2(σ2 + · · ·+ σ2) =

σ2

n. (8)

Notare che in (8), l’ipotesi di indipendenza di X1, . . . , Xn e essenziale.Per stimare la varianza di X si usa la seguente quantita, la varianza

campionaria

S2 =1

n− 1[(X1 − X)2 + · · ·+ (Xn − X)2] =

1

n− 1

n∑i=1

(Xi − X)2. (9)

La ragione per dividere per n − 1 (e non per n) dipende dal fatto che inquesto modo vale

E(S2) = V(Xi) = σ2, (10)

ossia il valore atteso di S2 e uguale a σ2, la quantita che si vuole stimare.Uno stimatore con questa proprieta viene detto non distorto.

Se invece avessimo diviso per n, il valore atteso sarebbe stato uguale an− 1

nσ2, quindi avremmo in media sottostimato σ2 (anche se lievemente per

n grande).La dimostrazione di (10) non e difficile ma e un po’ lunga, quindi non

la presento. Un ragionamento spesso usato per convincersi del fatto che siagiusto dividere per n−1, e che X e stato ricavato usando X1, . . . , Xn; quindidegli n termini di (9), solo n − 1 sono indipendenti, in quanto conoscendoX1, . . . , Xn−1 e X, conosco anche Xn. Si dira che l’espressione (9) ha solon− 1 gradi di liberta, facendo un analogo con i sistemi meccanici.

4

Page 5: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

2.1 Campionamento senza ripetizioni

Supponiamo di estrarre senza ripetizioni un campione di n individui da unapopolazione di N (ovviamente dovra essere n ≤ N).

Possiamo sempre calcolare la media e la varianza campionaria. Con calcolimolto piu complessi dei precedenti, e anche possibile calcolare il valore attesoe la varianza di queste statistiche; il valore atteso si riferisce a tutti i possibilicampionamenti di grandezza n da quella popolazione.

I risultati sono i seguenti, intendendo con µ e σ2 i veri valori della mediae della varianza di X nella popolazione:

• E(X) = µ;

• V(X) = (N−n)(N−1)

σ2

n;

• E(S2) = σ2 NN−1

.

Confrontando questi risultati con (7), (8) e (10), notiamo che il valore atte-so della media campionaria e uguale nei due casi. La varianza della mediacampionaria e un po’ piu piccola senza ripetizioni (in particolare nel casolimite in cui n = N , cioe il campione e uguale alla popolazione, la varian-za e 0 perche non c’e possibilita di errore). Il valore atteso della varianzacampionaria e lievemente piu grande senza ripetizioni; questo corrisponde alfatto che non si possono estrarre campioni in cui si misura piu volte lo stessoindividuo, campioni che avranno una varianza campionaria minore. In ognicaso, le differenze fra i due casi sono minime quando N n, che e il casotipico.

2.2 Legge dei grandi numeri

Le relazioni (7) e (8) mostrano che il valore atteso della media campionariae sempre uguale al valor medio della variabile considerata, mentre la va-rianza decresce all’aumentare della dimensione del campione. Utilizzandola disuguaglianza di Cebysev (3), queste semplici osservazioni forniscono unrisultato notevole.

Teorema 3 (Legge dei grandi numeri). Chiamiamo la media campionariaXn = 1

n2 V(X1+· · ·+Xn) per mettere in risalto la dipendenza dalla numerositadel campione. Per ogni a > 0 si ha

P(|Xn − µ| > a) −→n→∞

0. (11)

In termini intuitivi, possiamo dire che la media campionaria si avvicinasempre piu alla media teorica al crescere della numerosita del campione.

5

Page 6: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Dimostrazione. Usando prima (3) e poi (8), si ha

P(|Xn − µ| > a) ≤ 1

a2V(Xn) =

σ2

na2−→n→∞

0.

I risultati precedenti assicurano che la media campionaria e una buonaapprossimazione della media teorica (ignota). In termini tecnici, si dice cheX e uno stimatore di µ.

3 Il teorema centrale

La legge dei grandi numeri assicura che la media campionaria si avvicinerasempre piu (nel senso specificato da (11)) alla media teorica.

C’e pero un’altra proprieta, molto piu inaspettata, che in sostanza diceche, per n abbastanza grande, la distribuzione della media campionaria seguela distribuzione normale (o gaussiana) indipendentemente da quale sia ladistribuzione delle variabili Xi.

Sappiamo che vale E(Xn) = µ e V(Xn) = σ2/n. Volendo ottenere unadistribuzione limite, conviene introdurre la variabile

Zn =Xn − µσ/√n.

Le regole per il calcolo di media e varianza mostrando che per ogni n vale

E(Zn) = 0 V(Zn) = 1.

Il teorema seguente indica che le variabili casuali Zn tendono alla distribu-zione normale.

Teorema 4 (Teorema centrale del limite). Per ogni a ≤ b ∈ R

P(a ≤ Zn ≤ b) −→n→∞

1√2π

∫ b

a

e−x2

2 dx = P(a ≤ N(0, 1) ≤ b), (12)

dove N(0, 1) indica una variabile casuale standardizzata.

Possiamo scrivere (12) come

Xn − µσ/√n

= Zn ∼ N(0, 1)

6

Page 7: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

nel senso cheP(a ≤ Zn ≤ b) ≈ P(a ≤ N(0, 1) ≤ b).

Moltiplicando ambo i termini per σ/√n, possiamo anche scrivere che

Xn − µ ∼σ√nN(0, 1) = N(0,

σ2

n)

implicando (anche se il Teorema centrale da una relazione un po’ diversa)che

P(a ≤ Xn − µ ≤ b) ≈ P(a ≤ N(0,σ2

n) ≤ b).

Sommando infine µ a entrambi i termini si puo scrivere

Xn ∼ N(µ,σ2

n)

che puo venire usata nel senso che

P(a ≤ Xn ≤ b) ≈ P(a ≤ N(µ,σ2

n) ≤ b).

In questo senso possiamo scrivere che la media campionaria puo essere ap-prossimata, per n abbastanza grande, da una normale di media µ e varianzaσ2/n, le cui probabilita si calcolano facilmente con le tavole.

Considerando Sn = X1 + · · · + Xn = nXn, possiamo anche scrivere (conqualche improprieta) che

Sn ∼ nN(µ,σ2

n) = N(nµ, nσ2).

Di conseguenza

P(a ≤ Sn ≤ b) ≈ P(a ≤ N(nµ, nσ2) ≤ b). (13)

Questa approssimazione si usa in particolare per la distribuzione binomia-le. Infatti se X1, . . . Xn sono variabili casuali bernoulliane, ossia i possibilivalori sono 1 (con probabilita p) e 0 (con probabilita 1−p), Sn = X1+· · ·+Xn

ha distribuzione binomiale di parametri n e p.Da (13), abbiamo allora (ricordando che E(Xi) = p e V(Xi) = p(1− p))

P(a ≤ B(n.p) ≤ b) ≈ P(a ≤ N(np, np(1− p)) ≤ b). (14)

La relazione (14) si usa molto spesso per calcolare le probabilita delle distri-buzioni binomiali, appena n non e cosı piccolo da fare i conti facilmente amano.

7

Page 8: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

3.1 Le distribuzioni chi-quadro e t

Alcune distribuzioni collegate alla normale giocano un ruolo importante instatistica, anche grazie al teorema centrale.

Precisamente se X1, . . . , Xn sono variabili normali standard (media = 0,varianza = 1) indipendenti, la somma dei loro quadrati

S2 = X21 + · · ·+X2

n

segue una distribuzione che e detta chi-quadro con n gradi di liberta. Scri-veremo S2 ∼ χ2(n). Anche per le distribuzioni chi-quadro esistono tabelle eroutine al computer (per esempio in R) per calcolarne i valori.

Un risultato molto importante e che la varianza campionaria (9) e distri-buita come un chi-quadro. Precisamente

Teorema 5. Se X1, . . . , Xn sono variabili normali indipendenti (di media µe varianza σ2), allora

(n− 1)S2/σ2 =

∑ni=1(Xi − X)2

σ2∼ χ2(n− 1). (15)

Inoltre S2 e indipendente da X − µ (che come noto segue una distribuzionenormale).

Il teorema centrale assicura che anche se X1, . . . , Xn non seguono la di-stribuzione normale, si ha comunque che (n − 1)S2/σ2 tende ad una distri-buzione chi-quadro al tendere di n→∞.

Un’altra distribuzione molto usata in statistica e la distribuzione t (diStudent) che e il rapporto fra una normale standard e la radice di un chi-quadro. Esattamente, se Z ∼ N(0, 1) e W ∼ χ2(n) con Z e W indipendenti,√nZ/√W ∼ t(n), segue la distribuzione t con n gradi di liberta. Anche per

la distribuzione t esistono tabelle, ed e fra quelle nell’elenco standard di R.Segue dal teorema precedente che, se X1, . . . , Xn sono variabili normali

indipendenti (di media µ e varianza σ2), allora (n − 1)S2/σ2 ∼ χ2(n − 1) e

( X−µσ/√n∼ N(0, 1). Allora

√n− 1

√n(X − µ)/σ√(n− 1)S2/σ2

=

√n(X − µ)√

S2∼ t(n− 1). (16)

Questo fatto e utile in statistica perche la quantita in (16) non dipende daσ2 ma solo da S2 che si calcola dai dati. Tramite essa sara possibile calcolareintervalli di confidenza per µ tramite la distribuzione t quando (come ingenere) σ2 non e noto a priori.

8

Page 9: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

4 Stima di parametri

La statistica parametrica (il ramo tuttora piu diffuso della statistica inferen-ziale) consiste nell’ipotizzare che i dati osservati provengano da un modelloprobabilistico ben definito eccetto per il valore di alcuni parametri. Le os-servazionii ci forniscono allora delle informazioni per inferire il valore di taliparametri.

Generalizzando quanto detto prima sul campionamento, assumiamo quin-di che le n osservazioni siano il risultato di n variabili casuali X1, . . . Xn

con una data distribuzione che pero contiene parametri ignoti. I parame-tri ignoti li rappresentiamo in genere con la lettera ϑ dove ϑ puo esse-re uni-dimensionale (ed essere quindi un unico parametro) oppure multi-dimensionale (ad esempio potremmo non conoscere ne la media µ ne la va-rianza σ2 di una distribuzione normale e quindi ϑ rappresenterebbe la coppia:ϑ = (µ, σ2). Se conoscessimo ϑ, il modello probabilistico sarebbe definito;indichiamo quindi con Pϑ0(A) la probabilita di un evento A (che coinvolge levariabili X1, . . . Xn) usando il valore ϑ0 per il parametro ignoto, e con Eϑ0(Y )il valore atteso di una variabile casuale Y (costruita a partire da X1, . . . Xn)usando il valore ϑ0 per il parametro ignoto.

In genere vogliamo stimare ϑ ovvero una delle componenti nel caso ϑ siamultidimensionale; ad esempio, potrebbe essere ϑ = (µ, σ2) e a noi interessastimare solo µ o solo σ2 (o comunque e utile considerare separatamente le duequantita). Volendo usare una notazione unica, scrivo che vogliamo stimarela quantita τ(ϑ) dove τ e una qualche funzione del parametro ϑ. In genereτ(ϑ) = ϑ se ϑ e uni-dimensionale, oppure se ϑ = (µ, σ2) sara τ(ϑ) = µoppure τ(ϑ) = σ2. La notazione τ(ϑ) e solo un modo per scrivere il problemain generale, senza dover considerare troppi casi particolari.

Uno stimatore di τ(ϑ) e semplicemente una funzione g(x1, . . . , xn) cheusiamo per stimare τ(ϑ). Ovviamente vorremmo trovare una funzione gche effettivamente approssimi il valore vero τ(ϑ). Siccome i dati x1, . . . , xnsono il prodotto delle variabili casuali X1, . . . , Xn anche lo stimatore τ =g(X1, . . . , Xn) e una variabile casuale. Non possiamo quindi pretendere chefornisca sempre il valore giusto.

Una delle proprieta che spesso si richiede ad uno stimatore e che siacorretto (o non distorto), ossia che valga

Eϑτ = Eϑg(X1, . . . , Xn) = τ(ϑ) (17)

ovvero che se ripetessimo tante volte il processo di stima usando osservazionidiverse, in media troveremmo il valore giusto.

Ci sono delle altre proprieta che si possono richiedere ad uno stimatore,come quello di avere una varianza piccola (o minima possibile) in modo che

9

Page 10: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

le deviazioni dal valore giusto non siano troppo grandi. Possiamo anchedomandarci se ci siano dei metodi standard per costruire stimatori. Esistetutta una teoria statistica che discute questi problemi, che pero non affrontoin questo corso.

Mi limito a ricordare gli stimatori standard per media e varianza di unadistribuzione, ossia la media e varianza campionaria, visti prima come (6) e(9).

Preferisco invece affrontare la stima intervallare, ossia il metodo perassegnare un intervallo in cui si ritiene debba essere il valore vero τ(ϑ).

4.1 Intervalli di confidenza

Un intervallo di confidenza per τ(ϑ) al livello γ (tradizionalmente per γ siusa il 95% o il 90% o il 99%) e un intervallo casuale (T1, T2) dove T1 =t1(X1, . . . , Xn) e T2 = t1(X1, . . . , Xn) sono funzioni dei dati e quindi sonovariabili casuali tali che

Pϑ(T1 ≤ τ(ϑ) ≤ T2) ≥ γ ∀ ϑ. (18)

La relazione (18) va letto come la probabilita che l’intervallo casuale (T1, T2)contenga il valore vero e non come la probabilita che τ(ϑ) appartenga adun dato intervallo, perche nel modello usato τ(ϑ) e un numero (non unavariabile casuale) e quindi non ha senso parlarne di probabilita (non avrebbesenso parlare della probabilita che 3 sia minore di 5).

In altri termini, se ad esempio γ = 95%, chiedamo che se ripetessimo 100volte le osservazioni con lo stesso ϑ, costruendo ogni volta l’intervallo casuale(T1, T2) (che sara diverso tutte le volte), ci aspetteremmo che 95 di questevolte il valore vero τ(ϑ) sarebbe nell’intervallo costruito e 5 volte sarebbefuori.

Come facciamo a costruire un intervallo di confidenza? Senza voler fareuna teoria generale, facciamo alcuni esempi. Si notera nel seguito una certasimilarita al problema del test di ipotesi.

Intervallo di confidenza per µ con σ2 noto. Supponiamo che X1, . . . , Xn

siano normali indipendenti di media µ e varianza σ2. Vogliamo trovare un in-tervallo di confidenza per µ supponendo che σ2 sia noto (anche se la situazionemi sembra improbabile).

Abbiamo gia visto che in questo caso X ∼ N(µ, σ2

n). Questo fatto si puo

anche scrivere come

Z =X − µσ/√n

=

√n(X − µ)

σ∼ N(0, 1).

10

Page 11: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Dalle tabelle della distribuzione normale troviamo zγ tale che

P(|Z| ≤ zγ) = γ.

Ad esempio, se γ = 95%, zγ = 1.96.Usando la definizione di Z, abbiamo allora

P(−zg ≤√n(X − µ)

σ≤ zg) = γ (19)

Poiche

−zg ≤√n(X − µ)

σ⇐⇒ µ ≤ X +

σzg√n

e

√n(X − µ)

σ≤ zg ⇐⇒ X − σzg√

n≤ µ

possiamo riscrivere (19) come

P(X − σzg√n≤ µ ≤ X +

σzg√n

) = γ. (20)

Confrontando (20) con (18) possiamo dire che (X − σzg√n, X + σzg√

n) e un

intervallo di confidenza per µ al livello γ.Dalla definizione sarebbe possibile anche scegliere intervalli di confidenza

non simmetrici. Ad esempio si ha anche

P(−1.75 ≤ N(0, 1) ≤ 2.33) = 95% = P(−1.96 ≤ N(0, 1) ≤ 1.96),

Usando questo fatto possiamo dire che (X − σ1.75√n, X + σ2.33√

n) e un intervallo

di confidenza per µ al 95% tanto quanto lo e (X − σ1.96√n, X + σ1.96√

n). E’ pero

consuetudine (giustificabile in vari modi) scegliere intervalli di confidenzasimmetrici (in probabilita) e quindi diremo che (X− σzg√

n, X+ σzg√

n) e l’intervallo

di confidenza per µ al livello γ

Intervallo di confidenza per µ con σ2 ignoto. Supponiamo come primache X1, . . . , Xn siano normali indipendenti di media µ e varianza σ2, ma cheσ2 non sia noto. I conti precedenti valgono ancora, ma (X− σzg√

n, X+ σzg√

n) non

puo essere considerato un intervallo di confidenza, perche non conosciamo σe quindi non possiamo calcolare tale intervallo.

Si potrebbe sostituire σ con la varianza campionaria S2, ma allora i cal-coli precedenti non sarebbero corretti, anche se, per n grande, l’intervallocalcolato sarebbe quasi giusto, come discusso sotto. Consideriamo invece lavariabile ottenuta da Z sostituendo S2 a σ2. Otteniamo

T =X − µS/√n

=

√n(X − µ)

S.

11

Page 12: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Abbiamo gia visto in (16) che T segue la distribuzione t(n− 1). Leggendo letabelle della distribuzione t con n−1 gradi di liberta, possiamo allora trovaretγ tale che

P(|T | ≤ tγ) = γ.

Con passaggi analoghi ai precedenti, arriviamo a

P(X − Stγ√n≤ µ ≤ X +

Stγ√n

) = γ (21)

ossia (X − Stγ√n, X + Stγ√

n) e un intervallo di confidenza al livello γ per µ.

La quantita tγ e sempre un po’ maggiore di zγ, quindi l’intervallo trovatoe un pochino piu ampio di quanto avremmo avuto sostituendo S a σ nel casoprecedente. Pero la distribuzione t(n) tende alla normale standard al cresceredi n→∞; quindi la differenza fra i due casi diventa sempre piu piccola finoad essere trascurabile per n > 100 e poco significativa gia per n > 20.

In R la procedura t.test calcola (anche) l’intervallo di confidenza (didefault al 95%) per la media di un campione di dati.

I calcoli precedenti valgono solo se X1, . . . , Xn seguono la distribuzionenormale. Pero il teorema centrale afferma che X si puo approssimare conuna normale per n abbastanza grande. E’ quindi comune usare gli intervallidi confidenza per la media calcolati sopra, anche nel caso in cui X1, . . . , Xn

non seguano la distribuzione normale, purche n non sia troppo piccolo e ledistribuzioni di Xi troppo asimmetriche.

Intervallo di confidenza per la varianza Si e detto in (15) che (n −1)S2/σ2 segue una distribuzione chi-quadro con n − 1 gradi di liberta, seX1, . . . , Xn sono distribuiti secondo una normale (e vi si avvicina per ngrande, qualunque sia la distribuzione di X1, . . . , Xn).

Possiamo usare questo fatto per calcolare gli intervalli di confidenza perσ2. Fissato il livello di confidenza γ, troviamo c1 e c2 tali che

P(c1 ≤ χ2(n− 1) ≤ c2) = γ,

P(χ2(n− 1) ≤ c1) =1− γ

2= P (χ2(n− 1) ≥ c2).

(22)

[Notare che in (22) abbiamo scelto c1 e c2 in modo che le probabilita deisegmenti esclusi sia uguale sui due lati].

Ad esempio, se γ = 95% e n = 20, ossia n − 1 = 19, troviamo c1 ≈ 8.9,c2 ≈ 32.9.

L’equazione (22) indica che

P(c1 ≤(n− 1)S2

σ2≤ c2) = γ.

12

Page 13: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

E’ molto semplice riscrivere questa espressione in termini di un intervallo diconfidenza per σ2. Infatti

c1 ≤(n− 1)S2

σ2⇐⇒ σ2 ≤ (n− 1)S2

c1

e(n− 1)S2

σ2≤ c2 ⇐⇒ σ2 ≥ (n− 1)S2

c2

.

( (n−1)S2

c2, (n−1)S2

c1) e quindi un intervallo di confidenza al livello γ per σ2.

Supponiamo per esempio che con n = 20 abbiamo trovato S2 = 1.9.L’intervallo di confidenza al 95% per σ2 sata circa (1.10, 4.05).

Se n = 100, l’intervallo di confidenza sarebbe (1.46, 2.56).Non mi sembra che esista in R un’istruzione per calcolare direttamente

tale intervallo.

Intervallo di confidenza per la probabilita di successo nel modellobinomiale: approssimazione normale Come si e visto, il modello bino-miale e molto utilizzato ed e naturale volere stimare la probabilita di successop. Ad esempio, possiamo aver fatto un sondaggio elettorale su un campione din elettori e vogliamo dare un intervallo di confidenza per la vera percentualedi votanti per il candidato Y.

Possiamo formalizzare il tutto dicendo che Xi = 1 in caso di successo allaprova i, i = 1 . . . n (con probabilita p che vogliamo stimare) e Xi = 0 incasodi insuccesso (con probabilita 1− p)

Chiamando S = X1+· · ·+Xn il numero di successi, abbiamo che la mediacampionaria X = S/n e lo stimatore naturale della media µ di Xi, ossia dip; chiameremo p = S/n.

Per trovare un intervallo di confidenza, possiamo usare il fatto che X eapprossimativamente normale se n e grande, ossia X ∼ N(p, p(1 − p)/n).Applicando brutalmente il calcolo compiuto per l’intervallo di confidenza per

µ nel caso di σ2 noto, troveremmo (p−√p(1−p)zg√

n, p+

√p(1−p)zg√

n) come intervallo

di confidenza per p al livello γ.Se ad esempio fosse n = 6, S = 4 e quindi p = 2/3, e scegliessimo γ =

95%, otterremmo l’intervallo (23− 1.96

√127, 2

3+ 1.96

√127

) ≈ (0.290, 1.044).

Queto calcolo e poco ragionevole per due motivi: prima di tutto perche abbia-mo utilizzato p(1−p) per la varianza, come se essa fosse nota; in secondo luogoperche n = 6 certamente non e abbastanza grande perche l’approssimazionenormale sia giustificata.

Per correggere il primo problema, notiamo che il teorema centrale affermache √

n(p− p)√p(1− p)

=⇒ N(0, 1).

13

Page 14: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Quindi trovato zγ possiamo scrivere

P(

√n|p− p|√p(1− p)

≤ zγ) = γ. (23)

Dobbiamo quindi trasformare le disuguaglianze√n|p− p|√p(1− p)

≤ zγ in p1 ≤ p ≤ p2.

Facendo il quadrato di entrambi i membri, abbiamo

n(p− p)2

p(1− p)≤ z2

γ ⇐⇒ p2(n+ z2γ)− p(2np+ z2

γ) + np2 ≤ 0, (24)

che si risolve facilmente in p1 ≤ p ≤ p2 dove 0 < p1 < p2 < 1 sono le radicidell’equazione quadratica ottenuta da (24).

Nell’esempio n = 6, S = 4, l’equazione e

9.84p2 − 11.84p+ 2.66 = 0 =⇒ p1 = 0.30, p2 = 0.90

e quindi l’intervallo di confidenza al 95% sarebbe (0.30, 0.90).Per tenere conto del fatto che si approssima una distribuzione discreta

(la binomiale) con una continua, si usa una correzione di continuita che va aldi la del livello di queste note. In R la procedura prop.test calcola (anche)l’intervallo di confidenza per p, applicando (a meno che uno esplicitamenteindichi il contrario) la correzione di continuita. Calcolando questo esempio inR, si trova che, grazie alla correzione di continuita, In questo modo l’intervallotrovato e (0.24, 0.94), un po’ diverso da quanto trovato senza correzione. Se ne piu grande, la differenza fra gli intervalli di confidenza con e senza correzionedi continuita e invece molto piccola.

Intervallo di confidenza per la probabilita di successo nel modellobinomiale: calcolo esatto E’ possibile calcolare l’intervallo di confidenzausando in modo esatto la distribuzione binomiale. Il calcolo e molto piulungo, ma se n e piccolo, vale decisamente la pena fare il calcolo esatto, seuno ha a disposizione un computer.

Il metodo per il calcolo dell’intervallo di confidenza e generale, anche sespecificato solo per l;’esempio della binomiale. Consideriamo una funzionedei dati che ci serve per stimare il parametro che ci interessa; in questo caso ilparametro e p, e come funzione scegliamo S, il numero di successi3. Per ognip troviamo quali sono i valori possibili di S al livello di confidenza richiesto.Per la precisione troviamo g1(p) e g2(p) tali che

3potremmo usare anche p = S/n, ma la notazione e piu semplice usando S

14

Page 15: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

• Pp(g1(p) ≤ S ≤ g2(p)) ≥ γ,

• Pp(S < g1(p)) ≤ 1−γ2, Pp(S > g2(p)) ≤ 1−γ

2.

Richiediamo ≤ 1−γ2, e non = 1−γ

2perche S ha una distribuzione discreta

e non si puo in genere trovare un valore g2(p) tale che Pp(S > g2(p)) = 1−γ2

.Ad esempio, se γ = 95%, n = 6 e p = 1/2, vediamo che Pp(S > 5) =

Pp(S = 6) = p6 = 0.01625 < 2.5%, quindi g2(p) ≥ 5, ma Pp(S > 4) =Pp(S = 5) + Pp(S = 6) = 0.109375 > 2.5%, quindi g2(p) = 5. Analogamenteg1(p) = 1.

Supponendo che g1 e g2 siano funzioni crescenti di p, possiamo conside-rarne le inverse g−1

1 (S) e g−12 (S) e poniamo t1(S) = g−1

2 (S), t2(S) = g−11 (S).

Abbiamo (vedi figura)

g1(p) ≤ S ≤ g2(p) ⇐⇒ t1(S) ≤ p ≤ t2(S). (25)

Di conseguenza

Pp(t1(S) ≤ p ≤ t2(S)) = Pp(g1(p) ≤ S ≤ g2(p)) ≥ γ ∀ p

cioe (t1(S), t2(S)) e un intervallo di confidenza per p al livello γ.In realta non abbiamo bisogno di costruire esplicitamente le funzioni g1

e g2 e di invertirle, e neanche che tali funzioni siano invertibili. Per esempio,nel caso della distribuzione binomiale, g1 e g2 sono delle funzioni a scalino chepossono prendere solo i valori 0, 1, . . . , n e quindi non sono invertibili. Daldisegno ci accorgiamo che, fissato un valore S0 se p < t1(S0) si ha S0 > g2(p)e quindi Pp(S ≥ S0) ≤ (1− γ)/2. Possiamo allora definire .

t1(S0) = maxp : Pp(S ≥ S0) ≤ (1− γ)/2t2(S0) = minp : Pp(S ≤ S0) ≤ (1− γ)/2.

(26)

La definizione (26) si puo usare senza problemi anche al caso di distribuzionidiscrete.

15

Page 16: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Riprendiamo l’esempio precedente di un campionamento dalla binomialecon n = 6, S = 4 e scegliamo γ = 95%. Per prima cosa dobbiamo trovarep : Pp(S ≥ 4) ≤ 0.025, ossia l’insieme dei p tali che la probabilita di averealmeno 4 successi su 6 tentativi sia piu piccola del 2,5%. t1(4) sara il massimodi tale insieme. Si ha

Pp(S ≥ 4) = Pp(S = 6)+Pp(S = 5)+Pp(S = 4) = p6+6p5(1−p)+15p4(1−p)2.

Ponendo f(p) = p6+6p5(1−p)+15p4(1−p)2, dobbiamo trovare il massimo va-lore di p tale che f(p) ≤ 0.025. Poiche f(p) e crescente4 in [0, 1] (l’insieme deivalori posssibili per p), dobbiamo trovare p ∈ [0, 1] tale che f(p) = 0.025. Ri-solvendo questa equazione con l’aiuto di un apposito programma al computertroviamo p ≈ 0.223, ossia t1(4) ≈ 0.223.

Passiamo ora al limite superiore. Dobbiamo trovare minp : Pp(S ≤ 4) ≤0.025.

Pp(S ≤ 4) = 1− Pp(S = 5)− Pp(S = 6) = 1− p6 − 6p5(1− p).

Questa volta dobbiamo risolvere 1− p6 − 6p5(1− p) = 0.025, ossia

p6 + 6p5(1− p) = 0.975.

La soluzione e p ≈ 0.957, ossia t2(4) ≈ 0.957.In conclusione, l’intervallo di confidenza trovato e (0.223, 0.957).Come si e visto, si tratta di calcoli non fattibili a mano, neanche nel caso

di numeri estremamente piccoli. Esistono delle tabelle per n piccolo, masoprattutto e possibile calcolare l’intervallo di confidenza tramite softwarestatistici; in R si usa l’istruzione binom.test.

5 La stima di massima verosimiglianza

Gli esempi di stima di parametri visti finora appaiono tutti metodi “ad hoc”seppure ragionevoli. Esistono invece metodi generali per costruire stimatoried intervalli di confidenza.

Qui presento brevemente un metodo generale per costruire stimatori, ilmetodo della massima verosimiglianza, giustificandolo soltanto perche con-vincente a livello intuitivo. Non discuto invece proprieta generali di talemetodo.

La verosimiglianza e un termine che comprende i casi di probabilita siadiscreta sia continua. Siano x1, . . . , xn i dati osservati. Se le variabili casuali

4controllare

16

Page 17: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

X1, . . . , Xn previste nel modello (comprendente i parametri ϑ da stimare)che si ritiene abbia generato i dati sono discrete, definiamo la funzione diverosimiglianza L(·) come

L(ϑ) = Pϑ(X1 = x1, . . . , Xn = xn).

Se, come in tutti i casi considerati, X1, . . . , Xn sono indipendenti, L si scrivecome prodotto

L(ϑ) = Pϑ(X1 = x1) · · ·Pϑ(Xn = xn).

Se invece le variabili casuali X1, . . . , Xn sono continue, esse avranno unadensita f e porremo

L(ϑ) = fϑ(x1, . . . , xn) = (se X1, . . . , Xn sono indipendenti) = fϑ(x1) · · · fϑ(xn).

Esempi. Se X1, . . . , Xn sono variabili casuali indipendenti distribuite se-condo Poisson, il parametro da stimare e λ e x1, . . . , xn sono i dati osservati(necessariamente interi) avremo

L(λ) =λx1

x1!e−λ · · · λ

xn

xn!e−λ =

λx1+···+xn

x1! · · ·xn!e−λn.

Se X1, . . . , Xn sono variabili casuali indipendenti normali, i parametri dastimare sono µ e σ2 e x1, . . . , xn sono i dati osservati

L(µ, σ2) =1√

2πσ2e−

(x1−µ)2

2σ2 · · · 1√2πσ2

e−(xn−µ)2

2σ2 = (2πσ2)−n/2e−(x1−µ)2+···+(xn−µ)2

2σ2 .

Se X1, . . . , Xn sono variabili casuali di Bernoulli (ossia che puo averevalore 1 con probabilita p e 0 con probabilita 1 − p), ossia X1 + · · · + Xn euna variabile casuale binomiale di parametri n e p dove n e noto mentre p eda stimare, e i dati consistono in k successi e n− k insuccessi, allora

L(p) =

(n

k

)pk(1− p)n−k.

Il criterio della massima verosimiglianza consiste nello stimare ϑ tramiteil valore ϑ che rende L massima. In altre parole lo stimatore di massimaverosimiglianza ϑ ha la proprieta che L(ϑ) = maxL(ϑ) dove il massimo sicerca su tutti i valori ϑ ammissibili.Esempio. Consideriamo il caso della stima di p, la probabilita di successo inun modello binomiale. Abbiamo visto L(p) =

(nk

)pk(1− p)n−k. Per trovarne

il massimo, conviene passare ai logaritmi, ossia considerare

LL(p) = log(L(p)) = log

(n

k

)+ k log(p) + (n− k) log(1− p)

17

Page 18: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

la cui derivata

LL′(p) =k

p− n− k

1− p=k(1− p)− (n− k)p

p(1− p)=

k − npp(1− p)

E’ evidente che LL′(p) = 0 se p = k/n, LL′(p) > 0 se 0 < p < k/n,LL′(p) < 0 se k/n < p < 1 (trascuriamo il caso banale in cui sia k = 0ovvero k = n). Di conseguenza il massimo di LL (e quindi anche di L) siha in p = k/n, ovvero lo stimatore di massima verosimiglianza p = k/n, lascelta piu ovvia (numero di successi/numero di tentativi).

6 L’approccio bayesiano al problema della sti-

ma

I metodi discussi finora assumono che esista un valore vero del parametro ϑe che l’obiettivo sia di approssimare tale valore il meglio possibile sulla basedel risultato delle osservazioni.

Nell’approccio Bayesiano non esiste invece un valore vero di ϑ. Primadelle osservazioni noi assegniamo una distribuzione a priori di probabilitaa ϑ sulla base delle nostre conoscenze. Dopo le osservazioni, correggiamo ilnostro giudizio e assegniamo una distribuzione a posteriori di probabilita aϑ.

Volendo si puo scegliere il punto di massimo della distribuzione a poste-riori di ϑ per definire il valore piu probabile di ϑ (stima puntuale). Ovvero,possiamo scegliere (in modo opportuno) un intervallo di probabilita a poste-riori γ per definire un intervallo in cui riteniamo probabile che ϑ si trovi(stima intervallare).

Questi aspetti sono pero successivi alla costruzione della probabilita aposteriori, che e l’obiettivo principale dell’approccio bayesiano.

Lo strumento essenziale e la formula di Bayes. Se A1, . . . , Ak sono unapartizione dell’universo (ossia ∪Ai = Ω e Ai ∩ Aj = ∅ per i 6= j) vale

P(Ai|B) =P(B|Ai)P(Ai)∑j P(B|Aj)P(Aj)

. (27)

L’interpretazione della fromula di Bayes (27) e che essa indica come trovarela probabilita delle cause Ai sulla base dell’osservazione B e delle probabilitaa priori P(Ai).

La formula di Bayes puo essere estesa al caso di distribuzioni continue.In particolare, al posto della partizione Ai mettiamo i valori possibili delparametro ϑ, e al posto dell’evento B il risultato di X1, . . . , Xn.

18

Page 19: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Definiamo π(ϑ) la densita a priori di probabilita del parametro ϑ. Ladensita a posteriori fpost(ϑ) = π(ϑ|X1, . . . , Xn) e data da

fpost(ϑ) =Pϑ(X1, . . . , Xn)π(ϑ)∫

Pϕ(X1, . . . , Xn)π(ϕ) dϕ. (28)

Si puo notare che il denominatore in (28) e una costante, indipendenteda ϑ. Se vogliamo conoscere solo il profilo di fpost(ϑ) e non i valori nume-rici, possiamo evitare di calcolare il denominatore e ottenere che fpost(ϑ) eproporzionale a Pϑ(X1, . . . , Xn)π(ϑ).Un esempio. Supponiamo che il parametro incognito sia p, la probabilitadi successo in un modello bernoulliano, e che le osservazioni consistano in 4successi su 6 tentativi. Allora

Pp(X1, . . . , Xn) =

(6

4

)p4(1− p)2.

Una possibile distribuzioni a priori per p e π(p) = 1 per p ∈ [0, 1], ossiatutti i valori di p sono equiprobabili. Allora otteniamo

fpost(p) =

(64

)p4(1− p)2∫ 1

0

(64

)q4(1− q)2 dq

= Cp4(1− p)2. (29)

La costante C puo essere trovata, imponendo che∫ 1

0fpost(p) dp = 1 e quindi

C = 105. Il massimo della distribuzione (ossia il valore piu probabile) e inp = 2/3, che corrisponde alla stima tramite la media campionaria.

Se invece la nostra distribuzione a priori avesse privilegiato i valori in-torno a p = 1/2, ad esempio π(p) = 6p(1 − p) per p ∈ [0, 1], avremmotrovato

fpost(p) = Cp5(1− p)3,

dove C = 504.Il massimo di questa distribuzione e in 5/8, una via di mezzo fra il

massimo a priori in 1/2 e la media campionaria in 2/3.L’approccio bayesiano puo sembrare arbitrario nel richiedere di fornire

una probabilita a priori sui parametri ignoti. D’altra parte, il risultato delmetodo (una distribuzione di probabilita per ϑ) e molto piu facile da com-prendere e spiegare. Inoltre, in tale metodo e naturale accumulare il risultatodi osservazioni successive, tramite un cambiamento graduale delle probabilitaa priori.

Anche nei casi piu semplici, e necessario ricorrere al computer per cal-colare le probabilita a posteriori. Questo pero attualmente non e un grossoproblema, ed e possibile considerare anche modelli notevolmente comples-si. In questo corso ci limitiamo a questo breve cenno, senza approfondireulteriormente.

19

Page 20: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

7 Il test di ipotesi

7.1 Generalita

Una delle problematiche affrontate in statistica e di verificare se i dati osser-vati sono compatibili con un modello statistico che dovrebbe avere generatotali dati secondo un’ipotesi (scientifica) sui meccanismi che regolano il feno-meno osservato. Per poter discutere di compatibilita dell’ipotesi con i dati,e necessario formulare un’ipotesi alternativa. Il test di ipotesi fornisce unmetodo per scegliere fra le due ipotesi. Intuitivamente, uno potrebbe sceglie-re (analogamente alla stima di massima verosimiglianza) l’ipotesi secondo laquale i dati osservati sono piu verosimili. Come si vedra piu sotto, nella pra-tica dell’uso del test di ipotesi, cio non e in genere possibile, ne ragionevole.La metodologia del test di ipotesi e quindi un po’ meno diretta e richiedeuna serie di definizioni che ora si precisano. Notiamo infine che in molti ca-si il test di ipotesi si puo ridurre alla costruzione di intervalli di confidenzasui parametri del modello. Non sempre cio e pero semplice, o addiritturapossibile, per cui vale la pena trattare separatemente il test di ipotesi.

Partiamo distinguendo ipotesi semplici, ossia ipotesi che specificano esat-tamente il modello probabilistico che dovrebbe aver generato i dati e ipotesicomposte, in cui il modello non e specificato completamente.

Per esempio, l’ipotesi che i dati x1, . . . , xn siano la realizzazione di nvariabili casuali X1, . . . , Xn indipendenti e distribuite secondo una normaledi media µ0 e varianza σ2

0 (dove µ0 e σ20 sono numeri specificati) e un’ipotesi

semplice: possiamo calcolare tutte le probabilita relative a X1, . . . , Xn.Invece supporre che X1, . . . , Xn indipendenti e distribuite secondo una

normale di parametri non specificati e un’ipotesi composta.Nella pratica dei test, le due ipotesi hanno un ruolo diverso. Una, detta

H0, e l’ipotesi “nulla”, e rappresenta la base di riferimento; in alcuni casi,essa e un’ipotesi semplice, in altri e composta, ma e comunque un caso piusemplice dell’ipotesi alternativa, nel senso che, sotto l’ipotesi nulla, e in ge-nere possibile calcolare alcune probabilita relative a X1, . . . , Xn. L’ipotesialternativa (spesso detta H1) e, nella pratica, sempre un’ipotesi composta,sotto la quale non sono possibili calcoli esatti. Questa idea si chiarira vedendovari esempi.

Esempio 1. Vogliamo verificare se i dati raccolti sono compatibili con il fattoche la media della distribuzione da cui i dati sono stati tratti sia un certo µ0

(che sara un qualche valore di riferimento). Aggiungeremo l’ipotesi che ladistribuzione dei dati sia normale; molti dei metodi classici della statistica sisono ottenuti sotto questa ipotesi, anche se l’attuale disponibilita di calcolo

20

Page 21: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

permette di scegliere ipotesi diverse senza troppa difficolta. Supponendo cheanche la varianza sia un valore σ2

0 noto, avremo

H0 : X1, . . . , Xn ∼ N(µ0, σ20) e indipendenti.

H0 e quindi un’ipotesi semplice. L’ipotesi alternativa puo essere che µ siadiverso da µ0; avremmo quindi

H1 : X1, . . . , Xn ∼ N(µ, σ20) e indipendenti, dove µ 6= µ0.

H1 e invece un’ipotesi composta perche, non sapendo quanto vale µ, nonpossiamo calcolare probabilita relative a X1, . . . , Xn.

In alcuni casi, l’ipotesi alternativa potrebbe essere unilatera, ossia µ > µ0

ovvero µ < µ0. Supponiamo per esempio che vogliamo studiare se un farmacoe efficace per diminuire il livello di colesterolo; lo sperimentiamo su un gruppodi volontari e vogliamo verificare se il loro livello medio e uguale al livellomedio µ0 della popolazione, o e piu basso (non riteniamo concepibile chepossa essere µ > µ0). In questo caso avremmo

H1 : X1, . . . , Xn ∼ N(µ, σ20) e indipendenti, dove µ < µ0.

Esempio 2. Come il precedente, eccetto che riteniamo che la varianza nonsia nota. Avremo

H0 : X1, . . . , Xn ∼ N(µ0, σ2) e indipendenti, dove σ2 > 0.

H0 e quindi un’ipotesi composta. L’ipotesi alternativa sara

H1 : X1, . . . , Xn ∼ N(µ, σ2) e indipendenti, dove µ 6= µ0, σ2 > 0

oppure unilatera

H1 : X1, . . . , Xn ∼ N(µ, σ2) e indipendenti, dove µ < µ0, σ2 > 0

Esempio 3. Abbiamo due gruppi di campioni x1, . . . , xn e y1, . . . , ym. Suppo-nendo che entrambi siano tratti da distribuzioni normali con uguale varianza(questo per rendere i conti agevoli), ci domandiamo se abbiano la stessamedia. Avremo come ipotesi generale

X1, . . . , Xn ∼ N(µX , σ2), Y1, . . . , Ym ∼ N(µY , σ

2), e indipendenti.

L’ipotesi nulla saraH0 : µX = µY , σ

2 > 0.

e l’ipotesi alternativaH1 : µX 6= µY , σ

2 > 0.

Entrambe le ipotesi sono composte, ma H0 e piu “semplice” di H1 percheimpone che due parametri siano uguali.

21

Page 22: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Esempio 4. Abbiamo dei dati x1, . . . , xn che supponiamo siano stati prodottida variabili distribuite secondo Poisson. L’ipotesi nulla e

H0 : X1, . . . , Xn ∼ P (λ) e indipendenti, dove λ > 0

mentre H! e che X1, . . . , Xn non siano distribuite secondo Poisson.

Come facciamo a scegliere fra le due ipotesi? Se pensiamo all’Esempio1, viene naturale scegliere H0 se la media campionaria X e vicina a µ0 escegliere H1 se X e lontana da µ0. Ma come facciamo a scegliere quantovicino e quanto lontano? La metodologia del test di ipotesi ci fornisce deicriteri probabilistici per la scelta.

Dalle osservazioni x1, . . . , xn vogliamo scegliere una delle due ipotesi H0 oH1. Divideremo quindi l’insieme dei possibili risultati in due parti C0, quellain cui scegliamo H0, e C1, quella in cui scegliamo H1. Non si ammette chesi possa non decidere fra H0 e H1, ma naturalmente la decisione puo essererivista sulla base di conoscenze successive. Siccome poi H0 e H1 sono ingenere concettualmente diverse, spesso si parla di non rifiutare l’ipotesi nullaH0 ovvero di rifiutarla, anziche di accettare H0 ovvero H1

Come scegliere C0 e C1? In teoria si vorrebbe minimizzare gli errori, chedistinguiamo come errore di prima specie, ovvero scegliere H1 quando e veraH0, e in errore di seconda specie, ovvero scegliere H0 quando e vera H1.

Chiaramente e impossibile minimizzare entrambi gli errori: per minimiz-zare la probabilita di errore di prima specie, ossia della probabilita che i daticadano in C1 quando e vera H0, dovremmo rendere C1 piu piccola possibile.Ma questo farebbe sı che non sceglieremmo mai o quasi H1 neanche quandoH1 e vera, e quindi aumenteremmo la probabilita di errore di seconda specie.

Il metodo standard che si segue nel test di ipotesi e il seguente: si fissaun livello α per la probabilita di errore di prima specie; dopo di che si sceglieil test (ossia le regioni C0 C1) migliore, ossia quello che abbia la probabilitadi errore di seconda specie piu piccola fra tutti quelli la cui probabilita dierrore di prima specie sia pari ad α. In molti casi e possibile trovare un testcon queste proprieta e quelli illustrati piu avanti lo sono tutti (eventualmenteaggiungendo qualche altra richiesta ragionevoie sui test ammissibili), anchese non verra mostrato qui.

In tutti i test che considereremo le regioni C0 e C1 saranno partico-larmente semplici. Si baseranno infatti sul calcolo di una quantita testT = t(X1, . . . , Xn), funzione delle osservazioni e quindi variabile casuale.La regione di accettazione di H0 si avra quando T cade in un certo intervallo(finito o semi-infinito), e quella di rifiuto di H0 quando T cade nell’insiemecomplementare.

22

Page 23: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Perche i due tipi di errore si trattano in modo asimmetrico? Una ragionee che le due ipotesi hanno uno status diverso, e si vuole essere sicuri chela probabilita di rifiutare per errore l’ipotesi nulla sia piccola o comunquenota (α). Un secondo motivo e che in genere non e possibile calcolare leprobabilita di errore di seconda specie, perche H1 e un’ipotesi composta chenon permette di calcolare le probabilita rilevanti. Il terzo motivo, infine, eche questa e una metodologia che funziona e che ha prodotto una teoria riccae dei metodi pratici.

Infine, come si sceglie α? Ci sono dei livelli di riferimento come α = 5%o (volendo essere piu sicuri) α = 1%. E’ chiaro anche che, se un esperimentoche dia risultati vicini al livello di soglia, non e che uno accetta o rifiutameccanicamente l’ipotesi nulla sulla base del valore ottenuto; in genere, siriterra che il problema richiede un’analisi piu approfondita.

7.2 Test sulla media di una variabile normale

Varianza nota

Riprendiamo l’Esempio 1 dove

H0 : X1, . . . , Xn ∼ N(µ0, σ20) e indipendenti.

mentre

H1 : X1, . . . , Xn ∼ N(µ, σ20) e indipendenti, dove µ 6= µ0.

E’ abbastanza naturale scegliere come quantita test la media campionariaX, e decidere che scegliamo H0 se X e vicino a µ0 e che scegliamo H1 se Xe lontano da µ0.

Avremo quindi

C0 = |X − µ0| ≤ c e C1 = |X − µ0| > c

per qualche c.Anziche cercare direttamente c, ricordiamo che, se e vera H0,

X ∼ N(µ0, σ20/n) e quindi Z =

X − µ0

σ0/√n. ∼ N(0, 1)

e quindi l’insieme C1 di rifiuto di H0 sara |Z| > k. Poiche vogliamo

α = P(C1) = P(|Z| > k) = P(|N(0, 1)| > k)

andremo a cercare nelle tavole della normale il valore zα tale che P(|N(0, 1)| >zα) = α; ad esempio, se α = 5% (un valore comunemente usato), zα = 1.96.

23

Page 24: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Rifiuteremo quindi l’ipotesi nulla µ = µ0 se, calcolato Z = X−µ0

σ0/√n, si ha

|Z| > zα; la accetteremo se |Z| ≤ zα.

Se l’ipotesi alternativa e unilatera, ad esempio

H1 : X1, . . . , Xn ∼ N(µ, σ20) e indipendenti, dove µ > µ0

tutto procede abbastanza simile a prima, eccetto che chiaramente avremo

C0 = X − µ0 ≤ c e C1 = X − µ0 > c

per qualche c (accettiamo H1 solo se X e abbastanza piu grande di µ0, nonse ne e molto piu piccolo).

Stavolta allora vorremo

α = P(C1) = P(Z > k) = P(N(0, 1) > k)

e quindi cerchiamo z′α tale che P(N(0, 1) > z′α) = α; ad esempio, se α = 5%,

z′α = 1.645. Rifiuteremo quindi l’ipotesi nulla µ = µ0 se, calcolato Z = X−µ0

σ0/√n,

si ha Z > z′α; la accetteremo se Z ≤ z′α.Il caso dell’ipotesi alternativa unilatera e interessante concettualmente,

ma poco usato in pratica perche l’effetto pratico e di rendere piu facile (comesi vede dai numeri dell’esempio visto sopra) il rifiuto dell’ipotesi nulla.

Varianza non nota

Riprendiamo l’Esempio 2 dove

H0 : X1, . . . , Xn ∼ N(µ0, σ2) e indipendenti, dove σ2 > 0.

e

H1 : X1, . . . , Xn ∼ N(µ, σ2) e indipendenti, dove µ 6= µ0, σ2 > 0

La quantita che usiamo per il test e

T =X − µ0

s/√n

dove s2 e la varianza campionaria. Abbiamo gia visto che, sotto l’ipotesi H0,T e distribuita come una t con n− 1 gradi di liberta: T ∼ t(n− 1).

Allora, fissato il livello di significativita α, troviamo tα tale che

P(|t(n− 1)| > tα) = α.

24

Page 25: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Ad esempio, vediamo dalle tavole che, se n = 20 e α = 5%, tα = 2.093. Sedai dati si trova |T | > tα si rifiuta l’ipotesi H0; altrimenti, la si accetta.

Notare che il valore di tα si e trovato nella colonna “two-sided test” perchel’ipotesi alternativa e bilatera (µ 6= µ0). nel caso di un’ipotesi alternativaunilatera, avremmo dovuto guardare la colonna relativa a “one-sided test”.

In R possiamo compiere questo test tramite l’istruzione t.test, specifi-cando eventualmente il valore µ0 ed il tipo di alternativa.

Notare che in R non bisogna indicare il livello di significativita α; inveceviene restituito il valore di p, ossia la probabilita che il risultato del test sidiscostasse dall’ipotesi nulla piu di quanto osservato. Per esempio, in questocaso (test sulla media di una normale con varianza non nota e alternativabilatera)

p = P(|t(n− 1)| > |T |) dove T e il valore osservato.

Allora rifiuteremo l’ipotesi nulla a tutti i livelli α tali che α > p e la accette-remo ai livelli α < p; per esempio, se p = 0.026, rifiuteremo l’ipotesi nulla al5%, mentre la accetteremo all’1%.

Notiamo infine che questi test sono del tutto equivalenti al calcolo del-l’intervallo di confidenza per µ: accettiamo l’ipotesi µ = µ0 al livello disignificativita α se e solo se l’intervallo di confidenza di livello 1 − α per µcomprende µ0.

7.3 Test sull’uguaglianza delle medie

Campioni indipendenti

Riprendiamo l’Esempio 3 in cui abbiamo due gruppi di campioni x1, . . . , xne y1, . . . , ym, di cui supponiamo

X1, . . . , Xn ∼ N(µX , σ2), Y1, . . . , Ym ∼ N(µY , σ

2), e indipendenti.

con ipotesi nullaH0 : µX = µY , σ

2 > 0.

e ipotesi alternativaH1 : µX 6= µY , σ

2 > 0.

Sotto l’ipotesi H0 si ha che Yi − Xj ∼ N(0, 2σ2) per ogni i = 1 . . .m, j =1 . . . n.

Allora un test dell’ipotesi H0 e un test del fatto che la media di Yi −Xj

sia uguale a 0. Per questo possiamo usare normalmente il t-test, eccettoche abbiamo bisogno della stima della varianza. In questo caso, con due

25

Page 26: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

gruppi che si suppone abbiamo la stessa varianza5, la stima per la varianzacampionaria e

s2X,Y =

1

n+m− 2

((n− 1)s2

X + (m− 1)s2Y

)dove s2

X e s2Y sono le varianze campionarie calcolate solo sul gruppo X e solo

sul gruppo Y ; s2X,Y e quindi una media pesata di s2

X e s2Y .

A questo punto si trova che

T =Y − X

sX,Y

√1n

+ 1m

e, sotto l’ipotesi H0, distribuita come una t(n+m− 2)Di conseguenza, fissato α, si trova tα tale che

P(|t(n+m− 2)| > tα) = α.

Si accetta H0 se |T | ≤ tα; la si rifiuta se |T | > tα.Notare che, nel caso in cui m = n, i conti diventano piu semplici: s2

X,Y =

(s2X + s2

Y )/2, e T =√n(Y − X)/(

√2sX,Y ).

Campioni appaiati

Il caso precedente prevede che X1, . . . , Xn e Y1, . . . , Ym siano indipendenti.Un caso invece molto utilizzato nella pratica scientifica e invece quello deicampioni appaiati. Per esempio, misuro un paziente prima e dopo aver som-ministrato un farmaco. In questo modo riesco ad evitare che l’effetto delfarmaco sia sovrastato dalla variabilita naturale esistente fra i pazienti.

In questo caso necessariamente m = n e l’ipotesi generale che facciamo eche

Yi −Xi ∼ N(µ, σ2), i = 1 . . . n.

Notiamo che non facciamo alcuna ipotesi su come le variabili Xi e Yi sianodistribuite nella popolazione, ma soltanto che la loro differenza abbia unacerta media e varianza.

L’ipotesi H0 sara µ = 0 (nessun effetto del farmaco) mentre l’ipotesialternativa H1 sara (nel caso bilatero) µ 6= 0.

5se si suppone che le varianze siano diverse, il test diventa molto piu complesso. Sarebbecorretto effettuare il test, che non discutiamo ma che e semplice capire, per l’uguaglianzadelle varianze prima di questo test.

26

Page 27: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Questo caso e esattamente un test sul fatto che una certa variabile W =Y − X abbia media 0. Quindi calcoliamo la media campionaria Y − X, lavarianza campionaria

s2Y −X =1

n− 1

n∑i=1

(Yi −Xi − (Y − X))2

e la quantita T =√n(Y − X)/sY−X .

Se |T | > tα rifutiamo l’ipotesi H0 (e quindi accettiamo che il farmacoabbia avuto un qualche effetto); altrimenti accettiamo H0. tα e il valore disignificativita α per la distribuzione t(n− 1).

Confrontando questo test con quello per campioni appaiati, possiamonotare che troveremo valori di T notevolmente piu alti (e sara quindi piufacile rifiutare H0) quando sY−X e notevolmente piu basso di

√2sX,Y .

In R possiamo compiere questi test sempre tramite l’istruzione t.test,fornendo due vettori di dati da confrontare e specificando se si tratta dicampioni indipendenti o appaiati, ed eventualmente il tipo di alternativa.

7.4 Test sulla probabilita nel modello binomiale

Supponiamo di avere osservato una serie di eventi descrivibili con il modellobinomiale, ad esempio s teste in n lanci di una moneta. Ci domandiamo setali eventi sono compatibili con il fatto che la probabilita di successo in ogniprova sia un certo p0, per esempio che la probabilita di testa sia 1/2.

Avremo quindi

H0 : X ∼ Bin(n, p0) e H1 : X ∼ Bin(n, p) con p 6= p0.

Tramite il numero s di successi osservati vogliamo scegliere fra H0 e H1.Il metodo piu semplice e tramite il teorema centrale che prevede che, sotto

l’ipotesi H0,

Z =X − np0√np0(1− p0)

∼ N(0, 1) per n→∞.

Di conseguenza, purche n sia abbastanza grande6, possiamo confronatre ivalori di Z con quelli di una normale standard.

Fissato α troviamo zα tale che P(|N(0, 1)| > zα) = α. Se |Z| > zα,rifiutiamo H0 (ossia decidiamo che p 6= p0); altrimenti, accettiamo H0.

In R questo test si effettua tramite l’istruzione prop.test che fornisceanche un “warning” nel caso in cui i valori di n e p0 non siano adeguati perl’uso dell’approssimazione normale.

6una regola pratica e che sia np0 sia n(1− p0) siano maggiori di 5

27

Page 28: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

E’ anche possibile evitare l’approssimazione normale e calcolare la regionedi accettazione e rifiuto in modo esatto tramite il modello binomiale.

I calcoli non sono fattibili a mano, ma si possono effettuare in R tramitel’istruzione binom.test. Analogamente a quanto visto per gli intervalli diconfidenza, e piu corretto usare questa istruzione se n e piccolo: i risultatisaranno abbastanza diversi che con l’approssimazione normale.

7.5 Test del chi-quadro per l’adattamento ad una di-stribuzione

Metodo generale

Supponiamo di avere k tipi di eventi in ogni prova, e di avere una stima apriori per le probabilita di tali eventi: p0

1, . . . , p0k dove chiaramente si avra

p01 + · · ·+ p0

k = 1.

Dopo avere effettuato n prove, osserviamo n1 eventi di tipo 1, n2 di tipo 2,nk di tipo k, dove

n1 + · · ·+ nk = n.

Ci domandiamo se queste osservazioni sono compatibili con il nostro modelloa priori.

Notare che se k = 2 il problema si riduce a quella del modello binomialedel paragrafo precedente.

L’ipotesi di fondo e che (n1, . . . , nk) siano la realizzazione di variabili ca-suali N1, . . . , Nk ottenute secondo il modello multinomiale (generalizzazionedel binomiale) secondo il quale ogni prova e indipendente dalle precedenti edha probabilita costanti per i k risultati possibili (pensate al lancio di un dadocon k = 6). Diremo

(N1, . . . , Nk) ∼ Multinom(p1, . . . , pk).

Le ipotesi sono

H0 : (p1, . . . , pk) = (p01, . . . , p

0k) H0 : (p1, . . . , pk) 6= (p0

1, . . . , p0k).

Il test classico7 e quello del chi-quadro.Poniamo Ei = np0

i , il numero atteso di risultati di tipo i sotto l’ipotesiH0 e calcoliamo

X2 =k∑i=1

(ni − Ei)2

Ei.

7anche se non e un test di rapporto di verosimiglianze, come i precedenti, e quindi none ottimale dal punto di vista teorico

28

Page 29: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Un teorema (conseguenza del teorema centrale) afferma che, sotto l’ipotesiH0, X2 converge (in distribuzione) per n → ∞ a una chi-quadro con k − 1gradi di liberta8. Intuitivamente parliamo di k − 1 gradi di liberta, perchele k quantita p1, . . . , pk hanno il vincolo di sommare a 1, quindi ci sono solok − 1 parametri liberi.

Invece, sotto l’ipotesi H1, X2 tende ad infinito per n→∞.Allora il test del chi-quadro consiste, fissato il livello α di significativita,

nel calcolare cα tale che

P(χ2(k − 1) > cα) = α

e di rifiutare H0 se X2 > cα e di accettare H0 altrimenti 9.Poiche X2 tende ad una distribuzione χ2 solo per n → ∞, ci si puo

domandare se il test sia corretto anche per n finito. La risposta empirica alladomanda e che il test del chi-quadro e soddisfacente purche Ei ≥ 5 per ognii = 1, . . . , k. Nel caso in cui cio non valga, e opportuno raggruppare alcunitipi di esiti (e quindi diminuire k) in modo che la condizione sia verificata.Esempio Supponiamo di avere lanciato 25 volte un dado, e di avere ottenutoi seguenti risultati:

Punteggio Frequenza1 72 53 54 45 36 1

Totale 25

Ci domandiamo se tali risultati sono compatibili con l’ipotesi che il dado nonsia truccato, cioe che sia pi = 1/6 per i = 1 . . . 6.

Ei = 25/6 ≈ 4.16. Volendo essere pignoli, siamo sotto il livello raccoman-dato e allora raggruppiamo le classi, scegliendo per esempio 1-2, 3-4 e 5-6;abbiamo allora la nuova tabella:

Punteggio Frequenza Frequenza attesa1 -2 12 8.333-4 9 8.335-6 4 8.33

Totale 25

8Per convincersi che tale teorema e verosimile, e utile considerare il caso k = 2 enotare che allora X2 e esattamente il quadrato della quantita Z considerata nel precedenteparagrafo.

9il chi-quadro e una distribuzione sempre positiva (cosı come X2) e non c’e questionedi ipotesi alternative unilatere

29

Page 30: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Si ottiene

X2 =(12− 8.33)2

8.33+

(9− 8.33)2

8.33+

(4− 8.33)2

8.33≈ 3.92.

Confrontando 3.92 con la tabella di χ2(2) (ci siamo risotti a k = 3 classi diesiti), vediamo che tale numero e sotto il 95% percentile, quindi non possiamoescludere che il dado sia bilanciato.

InR si puo effettuare il test del chi-quadro tramite l’istruzione chisq.test.Con il metodo del chi-quadro e possibile verificare l’adattamento dei dati

anche ad una distribuzione continua, ad esempio la normale. Per fare questoe necessario dividere l’insieme continuo dei possibili valori in un numero fini-to k di intervalli discreti ed effettuare il test come nel caso discreto. Esistonometodologie su come scegliere il numero e l’ampiezza degli intervalli discre-ti, ma non vengono discusse qui. Per analizzare l’adattamento dei dati aduna distribuzione continua esistono anche metodi che confrontano le funzionicumulative; il piu noto e il metodo di Kolmogorov-Smirnov che non vieneaffrontato in questo corso.

Chi-quadro con parametri da stimare

E’ possibile utilizzare il test del chi-quadro, anche nel caso in cui le probabilita(p0

1, . . . , p0k) non siano specificate completamente, ma dipendano da uno o piu

parametri.Ad esempio, potremmo domandarci se certi dati sono compatibili con una

distribuzione di Poisson (di parametro da stimare). Il test del chi-quadrosi puo ancora utilizzare, purche i parametri non specificati siano stimatiminimizzando il valore del chi-quadro stesso.

Precisamente abbiamo che se p01, . . . , p

0k dipendono dam parametri λ1, . . . , λm

e se λ1, . . . , λm sono le stime ottenute minimizzando X2 di λ1, . . . , λm sullabase dei dati osservati n1, . . . , nk, allora, posto Ei = np0

i (λ) si ha che

X2 =k∑i=1

(ni − Ei)2

Ei

tende (per n→∞) a una chi-quadro con k −m− 1 gradi di liberta.La stima minimizzando X2 non si effettua quasi mai, e in genere si usa

la stima di massima verosimiglianza, che e quasi sempre molto vicina.Andremo quindi a confrontare SX2 con i quantili di una chi-quadro con

k −m− 1 gradi di liberta. Notiamo che necessariamente m < k − 1; infattiho solo k − 1 quantita libere fra p1, . . . , pk; se usassi k − 1 parametri perdescriverle, potrei fare in modo che i dati attesi coincidano perfettamente

30

Page 31: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

con quelli osservati; il modello descriverebbe allora perfettamente i dati, manon ci sarebbe modo di verificarne la validita.Esempio Prendiamo l’esempio, presentato in classe, dei dati, raccolti da VonBartkiewicz (1898), sulle morti di soldati prussiani a causa di calci da cavallio muli:

i ni0 1091 652 223 34 1

Totale 200

Vogliamo verificare se i dati sono compatibili con una distribuzione di Pois-son.

Abbiamo pi(λ) = λi

i!e−λ. La stima di massima verosimiglianza λ e data10

dalla media campionaria, ossia λ = (1 · 65 + 2 · 22 + 3 · 3 + 4 · 1)/200 = 0.61.Calcoliamo ora Ei, in particolare

E4 = 200 · 0.624

4!e−0.62 ≈ 0.627.

Questo numero e evidentemente troppo basso per l’approssimazione del chi-quadro; raggruppiamo quindi 3 e 4 in una classe ≥ 3. Abbiamo una nuovatabella, a cui aggiungiamo i valori di Ei:

i ni Ei0 109 108.671 65 66.292 22 20.22≥ 3 4 4.82

Totale 200

L’ultimo numero e sotto 5, ma di poco, per cui ritengo di mantenere la classea se.

Abbiamo allora X2 ≈ 0.32 che e certamente minore dei quantili di χ(2)(k = 4, m = 1), per cui non rifiutiamo l’ipotesi che i dati vengano da unadistribuzione di Poisson.

Nella libreria standard di R non c’e una procedura che fa la stima dei para-metri, e controlla l’adattamento ai dati della distribuzione ottenuta. Occorreprocedere “a mano”.

10e non e difficile da dimostrare

31

Page 32: Alcune formule di statistica inferenziale per il corso di ...anal1/matstat_biotech/note/note_stat.pdf · Alcune formule di statistica inferenziale per il corso di Matematica e Statistica

Esistono invece delle istruzioni all’interno di package appositi (goodfitnel package vcd, oppure fitdistr nel package MASS) che pero non conoscobene.

Test di indipendenza

Un caso molto studiato e quello in cui gli eventi che osserviamo sono i livellidi due variabili qualitative (o intere). L’ipotesi nulla e che le due variabilisiano indipendenti; quella alternativa e che non siano indipendenti.

Abbiamo k livelli della variabile X e l livelli della variabile Y (spessok = l = 2, ossia abbiamo una tabella di contingenza 2 × 2) e i dati cheosserviamo sono nij, il numero di osservazioni in cui la variabile X valeva i(i = 1 . . . k) e la variabile Y valeva j (j = 1 . . . l).

L’ipotesi nulla e

H0 : P(X = i, Y = j) = piqj per ogni i e j

dove pi, i = 1 . . . k − 1, qj, j = 1 . . . l − 1 sono le probabilita per X e per Ye vanno stimate dai dati.

Stimiamo quindi k+ l−2 parametri dai dati, mentre il numero dei gruppie k · l. L’ipotesi alternativa H1 e che non valga P(X = i, Y = j) = piqj.

Per stimare i parametri pi e qj e usuale estendere la tabella delle osser-

vazioni, aggiungendo i totali per riga ni• =∑l

j=1 nij, per colonna n•j =∑ki=1 nij e totale n•• =

∑ki=1 ni• =

∑lj=1 n•j. Avremo

pi =ni•n••

, qj =n•jn••

e quindi

Eij =ni•n•jn••

e possiamo allora calcolare

X2 =∑i,j

(nij − Eij)2

Eij

e confrontarlo con i quantili di χ2(k · l−1− (k+ l−2)) = χ2(k · l−k− l+ 1).E’ possibile far calcolare direttamente il risultato in R tramite l’istruzione

chisq.test.E’ anche possibile effettuare un test esatto (senza l’approssimazione del

chi-quadro) con l’istruzione binom.test.

32