Indice - Dipartimento di Matematica - Università di...

192
Indice 0.1 Dati ................................ 8 0.2 Apprendimento e statistica matematica ............ 9 0.3 Esempi introduttivi ........................ 9 0.4 Campioni gaussiani ........................ 11 0.4.1 Stima della media con varianza nota .......... 12 0.4.2 Stima della varianza con media incognita ....... 13 0.4.3 Stima della media con varianza incognita ....... 16 1 Concetti fondamentali 19 1.1 Modello statistico ......................... 19 1.2 Parametri ............................. 21 1.3 Notazioni ............................. 21 1.4 Esempi ............................... 22 1.5 Statistica frequentista ...................... 25 1.5.1 Stima puntuale ...................... 25 1.5.2 Insiemi di confidenza ................... 27 1.5.3 Test di Ipotesi ...................... 28 1.6 Statistica Bayesiana ....................... 31 1.6.1 Due esempi base ..................... 35 1.7 Elementi di teoria delle decisioni ................ 37 1

Transcript of Indice - Dipartimento di Matematica - Università di...

Page 1: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Indice

0.1 Dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

0.2 Apprendimento e statistica matematica . . . . . . . . . . . . 9

0.3 Esempi introduttivi . . . . . . . . . . . . . . . . . . . . . . . . 9

0.4 Campioni gaussiani . . . . . . . . . . . . . . . . . . . . . . . . 11

0.4.1 Stima della media con varianza nota . . . . . . . . . . 12

0.4.2 Stima della varianza con media incognita . . . . . . . 13

0.4.3 Stima della media con varianza incognita . . . . . . . 16

1 Concetti fondamentali 19

1.1 Modello statistico . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.2 Parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.3 Notazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.4 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.5 Statistica frequentista . . . . . . . . . . . . . . . . . . . . . . 25

1.5.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . 25

1.5.2 Insiemi di confidenza . . . . . . . . . . . . . . . . . . . 27

1.5.3 Test di Ipotesi . . . . . . . . . . . . . . . . . . . . . . 28

1.6 Statistica Bayesiana . . . . . . . . . . . . . . . . . . . . . . . 31

1.6.1 Due esempi base . . . . . . . . . . . . . . . . . . . . . 35

1.7 Elementi di teoria delle decisioni . . . . . . . . . . . . . . . . 37

1

Page 2: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

2 INDICE

2 Modelli Statistici Dominati 41

2.1 Dominanti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.2 Dominanti Privilegiate . . . . . . . . . . . . . . . . . . . . . . 44

2.3 Calcolo di speranze condizionali: un lemma . . . . . . . . . . 49

2.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3 Verosimiglianza. 53

3.1 Il Processo di Verosimiglianza . . . . . . . . . . . . . . . . . . 53

3.2 Il Principio di Verosimiglianza . . . . . . . . . . . . . . . . . . 54

3.3 Stimatori di massima verosimiglianza . . . . . . . . . . . . . . 56

3.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4 Sufficienza e Completezza. 61

4.1 Statistiche Sufficienti. . . . . . . . . . . . . . . . . . . . . . . 61

4.2 Sufficienza Minimale . . . . . . . . . . . . . . . . . . . . . . . 66

4.3 Statistiche complete. . . . . . . . . . . . . . . . . . . . . . . . 66

4.4 Completezza e sufficienza . . . . . . . . . . . . . . . . . . . . 68

5 Famiglia esponenziale 71

5.1 Famiglia esponenziale . . . . . . . . . . . . . . . . . . . . . . 71

5.2 Completezza per famiglie esponenziali in fomra canonica . . . 74

5.3 Rango e parametrizzazione . . . . . . . . . . . . . . . . . . . 77

5.4 Stimatori di massima verosimiglianza . . . . . . . . . . . . . . 78

5.5 Famiglie esponenziali per campioni i.i.d. . . . . . . . . . . . . 80

5.6 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

6 Stimatori a Varianza Uniformemente Minima. 83

6.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

7 Informazione di Fisher ed applicazioni 89

Page 3: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

INDICE 3

7.1 La disuguaglianza di Fisher-Cramer-Rao . . . . . . . . . . . . 91

7.2 L’informazione di Fisher come misura del contenuto d’infor-mazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

8 Stimatori M e Z. 97

8.1 Il metodo di sostituzione . . . . . . . . . . . . . . . . . . . . . 97

8.2 Stime M e Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

8.3 Minima discrepanza . . . . . . . . . . . . . . . . . . . . . . . 102

8.3.1 Le divergenze come esempio di discrepanze . . . . . . 103

8.4 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

8.5 Stimatori di Massima Verosimiglianza come stimatori M . . . 106

9 Consistenza 109

9.1 Stimatori consistenti . . . . . . . . . . . . . . . . . . . . . . . 109

9.2 Consistenza degli stimatori M . . . . . . . . . . . . . . . . . . 110

9.3 Consistenza degli Stimatori Z . . . . . . . . . . . . . . . . . . 111

10 Distribuzioni asintotiche 115

10.1 Normalita asintotica degli MLE . . . . . . . . . . . . . . . . . 118

11 Cenni al test di Ipotesi 121

introduzione 6

12 Mathematical formalization of Bayesian Paradigm 123

12.1 Bayes-Laplace Paradigm . . . . . . . . . . . . . . . . . . . . . 123

12.2 Sequences of conditionally independent and identically dis-tributed observations . . . . . . . . . . . . . . . . . . . . . . . 125

12.3 Posterior and predictive distributions . . . . . . . . . . . . . . 126

12.4 Dominated Models and Bayes theorem . . . . . . . . . . . . . 127

13 Exchangeable sequences of observations 129

Page 4: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

4 INDICE

13.1 Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

13.2 Definition of exchangeability . . . . . . . . . . . . . . . . . . . 132

13.3 Strong law of large numbers and convergence of empiricalprocess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

13.4 de Finetti Representation Theorem . . . . . . . . . . . . . . . 136

13.5 Merging of predictive and empirical means . . . . . . . . . . . 139

14 Famiglie esponenziali nella Statistica Bayesiana 141

14.1 La famiglia esponenziale nella statisitca Bayesiana . . . . . . 142

15 Un teorema di esistenza ed unicita per m.d.p. aleatorie 151

15.1 Proprieta delle leggi di dimensione finita di una m.d.p. aleatoria151

15.2 Un teorema di esistenza ed unicita per m.d.p. aleatorie . . . . 153

16 Processo di Ferguson-Dirichlet 161

16.1 Distribuzione di Dirichlet sul simplesso . . . . . . . . . . . . . 161

16.2 Processo di Ferguson–Dirichlet . . . . . . . . . . . . . . . . . 164

16.3 Distribuzione finale di un processo di Ferguson-Dirichlet . . . 166

16.4 Costruzione alla Sethuraman . . . . . . . . . . . . . . . . . . 170

17 Bayesian computations: non–parametric case 173

17.1 Parameter Estimation . . . . . . . . . . . . . . . . . . . . . . 173

17.2 Applicazioni della distribuzione di Ferguson-Dirichlet a prob-lemi elementari d’inferenza statistica . . . . . . . . . . . . . . 174

A Appendice 179

A.1 Richiami sulle probabilita condizionali . . . . . . . . . . . . . 179

A.2 Misure prodotto σ–finite su spazi prodotto . . . . . . . . . . . 183

A.3 Misure di probabilita prodotto . . . . . . . . . . . . . . . . . 184

A.4 Teorema di estensione di Kolmogorov . . . . . . . . . . . . . 184

A.5 Convergenza debole di misure su spazi Polacchi . . . . . . . . 185

Page 5: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

INDICE 5

A.6 Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

A.7 Measure theoretic preliminaries . . . . . . . . . . . . . . . . . 188

Page 6: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

6 INDICE

Page 7: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Introduzione

Questi appunti nascono dalla giustapposizione di vario materiale che nelcorso degli ultimi 4 anni ho usato per tenere corsi di Statistica Matematicae Statistica Bayesiana.

La prima importante osservazione e:

QUESTI APPUNTI NON INTENDONO SOSTITUIRSI A TESTI PIU’ORGANINCI DI STATISTICA!!

In particolare gli studenti sono caldamente invitati a consultare Shao, J.(1999) [10] per la parte di statistica frequentista.

I capitoli 2,3,4,6,7 sono in sostanza gli appunti presi da me e da ValentinaLeucari durante un corso di dottorato tenuto dal Prof. E.Regazzini. Nel-l’essenza, e quasi integralmente anche nella forma, sono per tanto fedeli allelezioni del Prof.Regazzini. Fanno eccezione alcuni esempi ed esercizi chesono stati aggiunti ed alcune scelte formali. Questi primi capitoli sono i piuorganici e completi.

Il materiale di questa introduzione e del Capitolo 1 e classico ed e statoscritto da me.

Il capitolo 5 e in parte tratto dagli appunti del corso di Regazzini e inparte dal Bickel e Doksum (2001) [2].

I Capitoli 8 e 9 originariamente basati su appunti di quel corso sono statiampiamente rimaneggiati, sostanzialmente sulla base del Bickel e Doksum(2001) [2] e del Wellner e Van der Vaart (1996) [11].

Il Capitolo 10 (molto schematico) e basato sul Bickel e Doksum (2001)[2] .

Il Capitolo 11 e per ora rimasto solo nelle intenzioni, gli studenti sonorinviati al Bickel e Doksum (2001).

7

Page 8: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

8 INDICE

I Capitoli 12-13 sono liberamente tratti da alcune parti degli appunti diun ciclo di lezioni tenute a Stanford nel periodo di Luglio-Agosto 2001 dalProf. Eugenio Regazzini. Tali appunti esistono solo in versione mansoscritta.In particolare il Capitolo 12 e la versione ridotta e semplificata delle Sezioni2.2-2.3-2.4-2.5 di quegli appunti, mentre il Capitolo 13 e sostanzialmente ilCapitolo 3 di quelle dispense.

Il Capitolo 14 e tratto dal lavoro di Diaconis-Ylvisaker (1979) [4].

Il Capitolo 15 e la riproduzione (con minimi cambiamenti tipografici edi notazione) del Paragrafo 7 di ′′Impostazione non parametrica di problemid’inferenza statistica bayesiana′′ di Eugenio Regazzini. Il testo integrale ereperibile on–line all’indirizzo:

http://www.mi.imati.cnr.it/iami/abstracts/96-21.html

Io ho aggiunto solo le note.

I Capitoli 16 e 17 sono liberamente tratti sempre da ′′Impostazione nonparametrica di problemi d’inferenza statistica bayesiana′′, in questo casopero ho riscritto diverse parti e aggiunto varie cose.

Le appendici sono scritte da me.

Gli errori eventuali (e quasi certi) sono imputabili solo a me.

Nella lettura (come nella vita!) siate critici, se qualcosa non vi tornapotrebbe essere sbagliata.

SPEDITEMI VIA EMAIL GLI ERRORI CHE TROVATE E BUONLAVORO.

F.B.

0.1 Dati

Esperimenti e studi producono dati. Sono dati, ad esempio, le misurazionidi una concentrazione di un agente chimico o biologico in un mezzo liquido ogassoso (sangue, acqua, aria, gas di scarico di un’automomile...); sono dati lemisurazioni di una distanza fra due corpi celesti, le misurazioni della velocitadi un oggetto o della durata di un fenomeno, le misurazioni del tempo cheintercorre fra due fenomeni periodici. Sono dati l’eta, le preferenze politiche,il reddito degli individui in una popolazione, l’intensita dei terremoti negli

Page 9: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

0.2. APPRENDIMENTO E STATISTICA MATEMATICA 9

ultimi cento anni in Italia, il numero di sinistri fra gli assicurati di unacompagnia in un anno, i tassi di rendita delle banche, i tassi di cambio, ilvalore all’apertura della borsa delle azioni negli ultimi tre mesi, la strutturadel genoma, le sequenza del DNA.

I dati sono (o dovrebbero essere) le fondamenta di ogni scienza. Natural-mente, pero, i dati da soli non dicono nulla. I dati vanno letti ed interpretatie, quando possibile, usati per validare o smentire una teoria.

0.2 Apprendimento e statistica matematica

La statistica costituisce uno degli strumenti per dedurre dai dati infor-mazioni generali e per verificare se una teoria o un modello siano adatti aspiegare o a descrivere un certo fenomeno. La statistica fornisce un metodo(o, meglio, vari metodi) per organizzare i dati in modo razionale e coerentee per usarli per prendere decisioni in situazioni di incertezza.

La statistica matematica frequentista, in particolare, assume come ipote-si che i dati siano realizzazioni di fenomeni aleatori.

Questo non vuole dire che i dati reali siano davvero realizzazioni di unfenomeno aleatorio, ma semplicemente che pensarli come tali aiuta ad or-ganizzare il nostro processo di comprensione e di apprendimento dall’espe-rienza.

Models, of course, are never true but fortunately it is only necessary thatthey be useful. George Box (1979)

In breve, la statistica puo essere considerata uno strumento per prenderedelle decisioni e per dare delle valutazioni su fenomeni futuri (o non ancoraosservati) non determinabili con certezza.

0.3 Esempi introduttivi

Esempio 1. Supponiamo di dover controllare la qualita di una massa dipezzi prodotti in serie tramite un’ispezione campionaria (n pezzi). Ciascunpezzo puo risultare difettoso (1) oppure idoneo (0). Se si esegue l’ispezionecon la modalita delle estrazioni con restituzione e le estrazioni avvengonoin condizioni analoghe, indicata con θ la frazione dei difettosi nell’interamassa, la probabilita di avere una specifica successione (x1, . . . , xn) di 0, 1,

Page 10: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

10 INDICE

e uguale an∏i=1

θxi(1− θ)1−xi .

Sulla base del campione osservato in che modo possiamo dare una valu-tazione della qualita del prodotto, ossia di θ? Entro che limiti e sensatoutilizzare come stima di θ

νn =1n

n∑i=1

xi?

Esempio 2. Si effettuano n misurazioni di una grandezza fisica m con unostrumento che fornisce letture con un certo errore. Se denotiamo con eil’errore commesso nella lettura i–esima xi, allora

xi = m+ ei (i = 1, . . . , n).

Se le misurazioni si effettuano nelle stesse condizioni ambientali, e ragionev-ole considerare ei come realizzazioni di variabili aleatorie εi indipendentied identicamente distribuite. Un’ipotesi classica e considerare εi variabilialeatorie con distribuzione Gaussiana di media nulla e varianza (nota oincognita) σ2, ossia variabili aleatorie caratterizzate dalla densita

y 7→ 1√2πσ2

exp− 1

2σ2y2

.

Supponendo noto σ2 come possiamo stimare m? Come possiamo valutarel’errore che rischiamo di commettere con questa valutazione? Come possi-amo procedere nel caso in cui σ non sia noto? E se fossimo interessati astimare σ invece di m?

Esempio 3. Un produttore di batterie dichiara che la durata in vita di cias-cuna batteria e di almeno θ0 giorni. Un acquirente di tali batterie e in-teressato ad accertare se la precedente affermazione possa intendersi comesostanzialmente veritiera oppure no. Un modo ragionevole di procedere, perl’acquirente, potrebbe essere quello di osservare la durata effettiva di n bat-terie e, ad esempio, sulla base della media osservata decidere se gli convengacomportarsi come se la durata reale delle batterie θ risultasse non inferiorea θ0 oppure come se θ risultasse minore di θ0.

Esempio 4. Per testare l’efficacia di un farmaco contro l’insonnia si procedecome segue. Si forma un campione di n = 100 persone e lo si sottopone alseguente esperimento. Per ogni soggetto i (i = 1, . . . , n), vengono registrate

Page 11: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

0.4. CAMPIONI GAUSSIANI 11

le ore di sonno in una notte senza l’assunzione del farmaco (x1,i) e in unanotte dopo l’assunzione del farmaco (x2,i). Per tanto xi = x1,i − x2,i indicala differenza fra le ore di sonno senza assunzione del farmaco e quelle dopol’assunzione del farmaco nel soggetto i–esimo. Come utilizzare (x1, . . . , xn)per decidere se riterere efficace o meno il farmaco?

Esempio 5. [Feller Vol. I] Si supponga che in un lago siano catturati 1000pesci e che, dopo la cattura, vengano segnati con della vernice rossa ed infinevengano rilasciati. Dopo un po’ di tempo viene eseguita una nuova catturadi 1000 pesci e si scopre che 100 fra essi sono marchiati con la vernice rossa.Che conclusione puo essere tratta riguardo al numero di pesci presenti nel la-go? Assumiamo naturalmente che le due catture possano essere consideratecome estrazioni casuali dalla popolazione totale di pesci nel lago. Supponi-amo anche che il numero di pesci nel lago non vari fra una cattura e l’altra.Generalizzando il problema siano: n il numero (incognito) di pesci nel lago,n1 il numero di pesci nella prima cattura, r il numero di pesci nella secondacattura, k il numero di pesci marcati nella seconda cattura. Ovviamente laprobabilita che il numero di pesci rossi nella seconda cattura sia k e data da(

n1

k

)(n−n1

r−k)(

nr

) .

Sappiamo che n1 + r − k pesci diversi sono stati catturati, e quindi n ≥n1 +r−k. Questo e tutto cio che possiamo dire con certezza. Nel nostro es-empio possiamo dire che il numero dei pesci e maggiore di 1900. Ipotizziamoora che il numero dei pesci sia effettivamente 1900. Sotto questa ipotesi laprobabilita di aver ripescato 100 pesci marcati sarebbe dell’ordine di 10−430.Per tanto, presumibilmente, tutti sarebbero disposti a ritenere irragionevolecomportarsi come se in effetti il lago contenga 1900 pesci.

0.4 Campioni gaussiani

Nell’Esempio 2 abbiamo visto come i risultati delle misurazioni possanoessere interpretati come realizzazioni di variabili aleatorie indipendenti edidenticamente distribuite (i.i.d.) con legge gaussiana di media m e varianzaσ2. Nell’Esempio 4 si puo ancora assumere che le xi siano realizzazionidi variabili aleatorie gaussiane con media m e varianza incognita σ2 e sie interessati a sapere se sia ragionevole supporre m ≥ 0, oppure se invecesi puo supporre m < 0. Si puo anche immaginare di essere interessati ascoprire se m < m0, ossia a fissare una soglia per l’efficacia del farmaco.

Page 12: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

12 INDICE

In effetti, in molte altre situazioni si ha a che fare con osservazioni chepossono approssimativamente ritenersi gaussiane. Il teorema centrale dellimite puo essere talvolta invocato per giustificare tale ipotesi: se cio chesi osserva e un’ipotetica quantita fissa affetta da un’errore che puo esserepensato come somma di molti piccoli (trascurabili) errori fra loro indipen-denti e ragionevole assumere che l’errore sia la realizzazione di una variabilealeatoria gaussiana. In realta il largo uso dell’ipotesi di gaussianita e anchedettato dalla semplicita di calcolo che deriva da tale assunzione. Prima diprocedere con una trattazione sistematica di alcuni argomenti di statisticamatematica ci proponiamo in questa sezione di ricapitolare alcuni risultaticlassici sui campioni gaussiani che saranno utili in seguito come spunto ecome illustrazione di risultati generali.

Nel resto del capitoloξ1, . . . , ξn

sono da intendersi come variabili aleatorie indipendenti e identicamentedistribuite con legge gaussiana di media m e varianza σ2.

0.4.1 Stima della media con varianza nota

Supponiamo noto σ2. Per stimarem possiamo scegliere di utilizzare la mediaempirica

mn =1n

n∑i=1

ξi.

In seguito vederemo come tale scelta possa essere variamente giustificata.Al momento assumiamola senz’altri commenti. Notiamo che, se indichiamocon E la speranza matematica,

E(mn) = m

inoltre la varianza di mn e

V ar(mn) =σ2

n=: s2n.

La legge forte dei grandi numeri assicura che mn converge quasi certamentea m. Queste proprieta suggeriscono che la nostra scelta non e del tuttoinsensata.

La variabile aleatoriamn, essendo somma di variabili aleatorie gaussiane,ha legge gaussiana di media m e varianza s2n e, di conseguenza, la legge di

Page 13: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

0.4. CAMPIONI GAUSSIANI 13

Mn := (mn −m)/sn e una gaussiana di media nulla e varianza 1. Ne segueche

Prob−c ≤Mn ≤ c = Φ(c)− Φ(−c) = 2Φ(c)− 1

dove Φ e la funzione di ripartizione di una gaussiana di media nulla e varianzaunitaria, ossia

Φ(x) =1√2π

∫ x

−∞e−t

2/2dt.

Poiche−c ≤Mn ≤ c

se e solo semn − snc ≤ m ≤ mn + snc,

anche senza sapre quale sia il valore dim, si puo concludere che la probabilitache l’intervallo aleatorio

[mn − cασ/√n,mn + cασ/

√n]

contenga m e 1−α, quando si scelga cα in modo che Φ(cα) = 1−α/2, ossia

cα = Φ−1(1− α/2).

In questo modo possiamo parzialmente rispondere alle domande dell’eser-cizio 2. Infatti potremmo affermare che se ragionassimo come se m fossecontenuto nel suddetto intervallo avremmo la probabilita 1 − α di com-portarci correttamente. Si puo procedere in modo del tutto analogo quandosi sia interessati a stimare la varianza.

0.4.2 Stima della varianza con media incognita

Si voglia stimare la varianza. Come stimatore consideriamo qui la varianzaempirica, ossia

S2n :=

1n

n∑i=1

(ξi −mn)2.

Si noti che la legge forte dei grandi numeri implica che

S2n =

1n

n∑i=1

ξ2i +m2n − 2mn

1n

n∑i=1

ξi

converge quasi certamente a σ2.

Per quanto riguarda la distribuzione esatta di S2n si ha la seguente

Page 14: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

14 INDICE

Proposizione 0.1. La distribuzione di nS2n/σ

2 e una χ2n−1 (chi quadrato

con n− 1 gradi di liberta) e quindi nS2n/σ

2 ha densita

x 7→ xn−1

2−1e−

12x

2(n−1)/2Γ((n− 1)/2)

per ogni x > 0. Inoltre Sn e mn sono stocasticamente indipendenti.

Dimostrazione Calcoliamo la funzione caratteristica del vettore (mn, ξ1−mn, . . . , ξn−mn). Sia (t, t1, . . . , tn) un vettore di Rn+1. Posto t =

∑nj=1 tj/n,

si ha

E(expitmn + in∑j=1

tj(ξj −mn)) = E(expin∑j=1

(t

n+ tj − t)ξj)

= expitm− σ2

n

t2

2 exp−σ

2

2n(

1n

n∑j=1

t2j − (1n

n∑j=1

tj)2

= expitm− σ2

n

t2

2 exp−1

2(n∑j=1

t2j (1−1n

)σ2 −∑

1≤k 6=j≤ntjtk

σ2

n).

Nell’ultimo termine della precedente catena di uguaglianze si riconosce ilprodotto di due funzioni caratteristiche gaussiane. In particolare mn e (ξ1−mn, . . . , ξn−mn) risultano stocasticamente indipendenti, inoltremn ha leggegaussiana di media m e varianza σ2/n mentre (ξ1 −mn, . . . , ξn −mn) e unvettore con legge gaussiana n–dimensionale con vettore delle medie nullo ematrice di varianze e covarianze

(1− 1n)σ2 −σ2

n . . . −σ2

n

−σ2

n (1− 1n)σ2 . . . −σ2

n. . . . . . . . . . . .

−σ2

n −σ2

n . . . (1− 1n)σ2

.Questo dimostra che Sn e mn sono stocasticamente indipendenti. Consid-eriamo ora un vettore di variabili aleatorie indipendenti identicamente dis-tribuite con legge gaussiana di media nulla e varianza unitaria (ζ1, . . . , ζn)Si verifica subito, con un semplice cambiamento di variabili, che

Probζ21 ≤ z =

1√2π

∫ z

0

1√te−tdt,

pertanto ζ21 ha legge Gamma di parametri (1/2, 1/2), ossia una χ2

1. Sfrut-tando il fatto che se Y1, . . . , Yn sono variabili aleatorie indipendenti con

Page 15: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

0.4. CAMPIONI GAUSSIANI 15

distribuzione Gamma(pi, λ), allora∑

i Yi ha legge Gamma(∑pi, λ) (vedi

esercizi), si deduce che∑n

i=1 ζ2i ha legge χ2

n. Quindi

1σ2

n∑i=1

(ξi −m)2

ha funzione caratteristica

t 7→ 1(1− 2it)n/2

.

D’altra parte

1σ2

n∑i=1

(ξi −m)2 =1σ2

n∑i=1

(ξi −mn)2 +n

σ2(mn −m)2

e quindi, passando alle funzioni caratteristiche, dal momento che∑n

i=1(ξi−mn)2 e mn sono indipendenti

1(1− 2it)n/2

= φnS2n/σ

2(t)1

(1− 2it)1/2

ossia

φnS2n/σ

2(t) =1

(1− 2it)(n−1)/2.

Il che conclude la dimostrazione.

Se indichiamo con Fχ2n−1

la funzione di ripartizione di una variabilealeatoria χ2

n−1, e con c1 e c2 due numeri tali che

Fχ2n−1

(c2)− Fχ2n−1

(c1) = 1− α

si ha che

Probc1 ≤ nS2n/σ

2 ≤ c2 = Fχ2n−1

(c2)− Fχ2n−1

(c2) = 1− α

e quindi la probabilita che σ2 appartenga a all’intervallo (aleatorio)

[nS2n/c2, nS

2n/c1]

e 1− α.

Page 16: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

16 INDICE

0.4.3 Stima della media con varianza incognita

Come procedere quando la varianza sia incognita ma si sia interessati astimare la media? Naturalmente mn rimane una stima valida, ma comepossiamo possiamo determinare agevolemente un intervallo di confidenzaper m? La risposta e data dalla seguente

Proposizione 0.2. La distribuzione di

Tn =

√n(n− 1)(mn −m)√∑n

i=1(ξi −mn)2

e una T di Student con n− 1 gradi di liberta, ossia ha densita

Γ(n/2)Γ((n− 1)/2)

√π(n− 1)

(1 +

x2

n− 1

)−n/2x ∈ R.

Dimostrazione Prima di tutto si noti che Tn puo essere riscritto come

X√Yn−1

dove

X :=√

n

σ2(mn −m)

ha legge gaussiana di media nulla e variaza unitaria e

Y :=1σ2

n∑i=1

(ξi −mn)2

ha legge χ2n−1, inoltreX ed Y sono stocasticamente indipendenti (cfr. Propo-

sizione 0.1). Osservato che Tn ha chiaramente una distribuzione simmetricaattorno all’origine, fissato u > 0 ne segue che

ProbTn ≤ u = ProbX − u√Y/(n− 1) ≤ 0

ovvero

ProbTn ≤ u =∫ +∞

0

∫ u√y/(n−1)

−∞

1√2πe−

x2

2 dx2−(n−1)/2

Γ((n− 1)/2)y(n−1)/2−1e−y/2dy.

Page 17: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

0.4. CAMPIONI GAUSSIANI 17

Derivando si ha che la densita di Tn calcolata in u e

f(u) =∫ +∞

0

1√2πe−

u2

2y

n−1

√y

n− 12−(n−1)/2

Γ((n− 1)/2)y(n−1)/2−1e−y/2dy

=1

2n/2Γ((n− 1)/2)√π√n− 1

∫ +∞

0yn/2−1e

−y( 12+ u2

2(n−1))dy

=1

2n/2Γ((n− 1)/2)√

(n− 1)πΓ(n/2)

(12 + u2

2(n−1))n/2

=Γ(n/2)

Γ((n− 1)/2)√

(n− 1)π(12

+u2

2(n− 1))−n/2.

Ancora una volta possiamo concludere che

Prob−c ≤ Tn ≤ c = FTn−1(c)− FTn−1(−c) = 2FTn−1(c)− 1

dove FTn−1 e la funzione di ripartizione di una T di Student a n− 1 gradi diliberta. La seconda uguaglianza segue dalla simmetria attorno allo zero delladistribuzione T di Student. Senza sapere quale sia il valore di m e quale siaquelllo di σ, possiamo affermare che la probabilita che m appartenga a

[mn − Sncα/√n− 1,mn + Sncα/

√n− 1]

e 1− α secα = F−1

Tn−1(1− α/2).

Page 18: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

18 INDICE

Page 19: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 1

Concetti fondamentali

1.1 Modello statistico

In tutte le dispense considereremo esperimenti i cui possibili risultati costi-tuiscono un insieme X, a cui si associa una classe di suoi sottoinsiemi X ,dotata della struttura di σ-algebra. L’insieme X prende il nome di spaziocampionario e la σ-algebra X rappresenta quindi una famiglia di eventisignificativi relativi all’esperimento in esame.

In generale, l’esperimento potra consistere in un numero finito, infinitoo incognito di osservazioni relative ad un dato fenomeno. Per fissare le idee,quando non diversamente specificato, si supporra di aver programmato nosservazioni di tale fenomeno e di aver determinato per ognuna di questeun insieme Xi, i = 1, . . . , n di valori ammissibili e una σ-algebra Xi. Laforma del singolo caso elementare sara pertanto x = (x1, . . . , xn) e lo spaziocampionario sara dato dallo spazio prodotto X = ×ni=1Xi, munito dellaσ-algebra prodotto X = ⊗ni=1Xi.

Come detto si vuole interpretare l’esito di un esperimento (ossia il risul-tato del processo di osservazione) come una variabile aleatoria. Si puo per-tanto pensare che ogni valore osservato x sia la realizzazione di una certavariabile aleatoria ξ definita su uno spazio di probabilita astratto (Ω,F) conuna data legge di probabilita P a valori in (X,X ).

Sulla base delle considerazioni appena esposte, ogni esperimento puoessere rappresentato tramite un insieme

M = Ω,F , X,X ,P ∈ M

19

Page 20: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

20 CAPITOLO 1. CONCETTI FONDAMENTALI

dove P e una misura di probabilita incognita appartenente ad una famigliadi leggi di probabilita M. Tale insieme viene detto modello statistico.La famiglia M identifica un insieme di meccanismi di generazione dei datiplausibili per il fenomeno analizzato, ognuno dei quali riflette sia le caratter-istiche del processo di osservazione sia differenti ipotesi sulle proprieta delfenomeno stesso.

Prima di proseguire notiamo che lo spazio astratto (Ω,F) non giocaun ruolo importante, infatti lo statistico ha accesso solo alle osservazioni equindi solo allo spazio (X,X ). Allo stesso modo cio che conta veramentenon e la misura a P ma la sua immagine (tramite ξ) su X , in altri termini

P (·) := Pξ ∈ ·.

In seguito, quindi, intenderemo per modello statistico piu brevemente l’in-sieme

M = X,X , P ∈M

dove, questa volta, M e un’insieme di misure di probabilita su X .

In ogni caso possiamo sempre pensare che il modello sopra definito siaassociato ad un modello piu completo Ω,F , X,X ,P ∈ M dove M sono leleggi indotte su X dalle leggi contenute in M, ossia

M = P (·) = P(ξ ∈ ·) : P ∈ M.

Infatti, qualora (Ω,F ,P ∈ M) non sia esplicitamente assegnato, possiamosupporre che Ω sia il cosiddetto spazio canonico. In altri termini, per ognii, si introduce la variabile aleatoria

ξi((x1, . . . , xn)) = xi

definita su X e a valori in (Xi,Xi), che associa ad ogni risultato dell’es-perimento la coordinata i-esima. Tale variabile viene denominata osser-vazione i-esima. Si guardera alla n-upla di osservazioni come vettorealeatorio ξ = (ξ1, . . . , ξn), ossia come applicazione identita sullo spaziomisurabile (X,X ). Ossia (Ω,F) = (X,X ), ξ(ω) = ξ(x) = x e P = P .Nel caso di infinite osservazioni si avra X = ×+∞

i=1Xi, X = ⊗+∞i=1Xi e

ξi((x1, . . . , xn, . . . )) = xi.

Ai fini della trattazione che segue, in ogni caso, non e assolutamenterilevante chi sia (Ω,F ,M) ma solo chi sia (X,X ,M).

Page 21: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

1.2. PARAMETRI 21

1.2 Parametri

Il principale obiettivo della statistica e quello di fare inferenza sulla leggedi probabilia del fenomeno descritto dal modello sulla base del campioneosservato, ossia sulla base di una realizzazione del processo di osservazioneξ.

Nel seguito il modello verra formulato in termini parametrici diretta-mente in funzione della misura immagine P , ossia

M = (X,X , Pθ) : θ ∈ Θ

dove θ e il parametro che indicizza la distribuzione delle osservazioni e Θ ilrelativo spazio parametrico. In questo caso θ sara l’oggetto dell’inferenza.Volendo che l’inferenza sia sensata sara necessario imporre che il parametroidentifichi univocamente la legge di probabilita e viceversa.

Identificabilia. Il modello si dice identificato se vale

θ 6= θ′ ⇒ Pθ 6= Pθ′ .

Questa ipotesi verra implicitamente assunta nel seguito.

1.3 Notazioni

Come gia detto non specificheremo mai la natura di (Ω,F ,P) ma solo quelladi (X,X , P ). Tuttavia, per chiarezza, useremo spesso il fatto che il processodi osservazione puo essere identificato con una variabile aleatoria ξ, definitasu (Ω,F) con legge P , ossia tale che

Pξ ∈ A = P (A) (A ∈ X ).

In generale se (X,X , P ) e uno spazio probabilizzato, h : (X,X ) → (R,B(R))una funzione misurabile e ξ : (Ω,F ,P) → (X,X ) una variabile aleatoria conlegge P , i.e. Pξ ∈ · = P (·), la speranza matematica di h(ξ) rispetto a P ,qualora esista, verra indicata indifferentemente con

E[h(ξ)] =∫

Ωh(ξ(ω))P(dω) =

∫Xh(x)P (dx).

Se vorremo evidenziare la misura di probabilita rispetto a cui si sta facendola speranza matematica useremo la scrittura EP . In altre parole se P e

Page 22: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

22 CAPITOLO 1. CONCETTI FONDAMENTALI

Q sono due m.d.p. allora EP (h(ξ)) sara∫X h(x)P (dx) e EQ(h(ξ)) sara∫

X h(x)Q(dx). Analogamente, dato un modello statistico Pθ : θ ∈ Θ, conEθ, (V arθ, Covθ) si indichera la speranza matematica (varianza, covarianza)calcolata rispetto a Pθ. Ancora si considerino equivalenti le notazioni

Eθ[h(ξ)] e∫Xh(x)Pθ(dx).

Infine, data una variabile aleatoria t = t(ξ), funzione di ξ,

EP [h(ξ)|t(ξ)]

indichera una versione della speranza condizionale di h(ξ) dato t(ξ) qualoraξ abbia legge P . Analogamente, nel caso di un modello statistico Pθ :θ ∈ Θ, Eθ[h(ξ)|t(ξ)] indichera una versione della speranza condizionale dih(ξ) dato t(ξ) qualora ξ abbia legge Pθ. Per i richiami minimi alle speranzecondizionali, alle distribuzioni condizionali e alle probabilita condizionali sirimanda ad un qualunque buon libro di probabilita. Un minimo di richiamisono riportati anche in Appendice.

1.4 Esempi

Esempio 6. [Modello Bernoulliano.] Si consideri una successione di n es-trazioni, con restituzione, da un’urna contenente palline bianche e pallinenere secondo una composizione non nota. La composizione e completamentecaratterizzata dalla frazione (incognita) θ∗ delle palline bianche. Il risultatodi ogni osservazione puo descriversi mediante gli interi 0 e 1: 0 corrispondeall’estrazione di nera, 1 all’estrazione di bianca, ossia Xi = 0, 1 per og-ni i = 1, . . . , n. Quindi X = 0, 1n. In considerazione delle modalitadi estrazione ipotizzate, fissata una determinazione θ di θ∗ che, necessari-amente, deve appartenere a [0, 1], Pθ puo supporsi coerente col ben notoschema Bernoulliano, ovvero

Pθξ1 = x1, . . . , ξn = xn = Pθ((x1, . . . , xn)) = θx1+···+xn(1− θ)n−(x1+···+xn)

(1.1)in cui si pone, per convenzione, 00 = 1. Per completare la definizione diM, resta da specificare Θ che, in assenza di vincoli posti dal problema, siidentifica con l’intervallo [0, 1].

Esempio 7. [Modello Poissoniano.] Si consideri l’osservazione, in n in-tervalli di tempo consecutivi, degli arrivi presso un dato punto di servizio.

Page 23: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

1.4. ESEMPI 23

Si puo porre Xi = 1, 2, . . . = N0, i = 1, . . . , n. Si ha quindi come spaziocampionario X = Nn

0 (numerabile) e come σ-algebra degli eventi l’insiemedi tutte le parti di Nn

0 . Per quanto riguarda la definizione di M , ipotizzandovalide le condizioni del processo di Poisson, per ogni specifica determinazionedi θ (valore atteso del numero di arrivi in un intervallo unitario) si ha

Pθξ1 = x1, . . . , ξn = xn = Pθ((x1, . . . , xn)) =n∏i=1

θxi

xi!e−θ (1.2)

con θ in Θ := (0,∞).

Esempio 8. [Modello Gaussiano.] Si effettuano n misurazioni di una certagrandezza con uno strumento che fornisce letture il cui errore dal vero valoreincognito si distribuisce secondo la legge Gaussiana di media nulla e vari-anza σ2 = 1/h2, dove h e un indice noto della precisione dello strumento.Se le misurazioni si effettuano nelle stesse condizioni ambientali e m e ilvero valore della grandezza misurata, e ragionevole considerare le ξi comevariabili aleatorie indipendenti, tutte con distribuzione Gaussiana di mediam e varianza σ2. In questo caso X = Rn, X = B(X) (σ-algebra di Borel suRn), θ = m, Θ = R e la famiglia delle misure di probabilita e caratterizzabilecon

Pθ(B) =∫B

1(2πσ2)n/2

exp

− 1

2σ2

n∑i=1

(xi −m)2dx1, . . . , dxn ∀ B ∈ B(X).

Chiaramente con h incognita si ha θ = (m,σ) e Θ = R×R+. Si noti che ξipuo essere riscritta come ξi = m+σεi (con εi = (ξ−m)/σ) dove (ε1, . . . , εn)risultano essere variabili aleatorie indipendenti ed identicamente distribuitecon legge gaussiana di media nulla e varianza unitaria. In questo caso σεipuo essere interpretato come l’errore commesso nella misurazione i–esima.

Esempio 9. [Scala-posizione.] Come generalizzazione dell’esempio prece-dente si supponga di effettuare n misurazioni indipendenti di una quantitaincognita m. In questo caso l’errore nella misurazione i-esima sara inte-so come una quantita aleatoria σεi dove (ε1, . . . , εn) e un vettore di variabilialeatorie indipendenti ed identicamente distribuite con una certa legge carat-terizzata da una funzione di ripartizione F su R e σ e una costante positiva.Quindi

ξi = m+ σεi

e per tanto, per ogni (x1, . . . , xn) in Rn,

Pθξ1 ≤ x1, . . . , ξn ≤ xn =n∏i=1

F

(xi −m

σ

),

Page 24: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

24 CAPITOLO 1. CONCETTI FONDAMENTALI

con θ = (m,σ) e Θ = R× (0,+∞).

Esempio 10. [Regressione] In molti problemi pratici si programmano studiin cui n soggetti sono sottoposti ad un test il cui esito e un numero reale xi(i = 1, . . . , n). In generale di ogni soggetto si conoscono delle caratteristichespecifiche che vengono registrate prima del test, per semplicita supponiamoche tali caratteristiche si possano sintetizzare in un vettore zi di Rd (i =1, . . . , n). In altri termini si osserva

(z1, x1), . . . (zn, xn).

Generalmente ogni xi e pensata come realizzazione di una variabile aleatoriaξi. Spesso le ξi sono supposte indipendenti e sono da intendersi, appunto,come la risposta del soggetto i–esimo (anche detto caso) allo studio. Sisuppone infine che la legge di ogni ξi dipenda dalle caratteristiche del soggettoi–esimo. Ad esempio ξi potrebbe essere il risultato di un test medico e le zipotrebbero contenere le informazioni sul sesso, sull’eta, sul peso e sull’altezzadel soggetto i–esimo. In generale le zi si suppongono fissate (ossia nonsono aleatorie) e sono dette covariate (o variabili esplicative). Per quantoriguarda la legge delle ξi, comunemente dette variabili dipendenti, si possonopostulare varie forme. Qui supponiamo che ogni ξi si possa scrivere come

ξi = gθ(zi) + εi

dove ε1, . . . , εn sono variabili aleatorie indipendenti e identicamente dis-tribuite con media nulla (i.e. E(εi) = 0) e gθ : Rd → R e una funzionenota a meno di un parametro θ che varia in Θ ⊂ Rk. Se indichiamo con Fla funzione di ripartizione di εi si ha che

Pθξ1 ≤ x1, . . . , ξn ≤ xn =n∏i=1

F (xi − gθ(zi)).

In questa generalita non e detto che il modello Rn,B(Rn), Pθ : θ ∈ Θ siaun modello identificabile.

Esempio 11. [Modello lineare gaussiano] Come caso notevole dell’esempioprecedente si consideri il caso in cui le εi sono variabili aleatorie gaussianecon media nulla e

gθ(t) :=d∑i=1

tiθi, (t ∈ Rd)

Page 25: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

1.5. STATISTICA FREQUENTISTA 25

(con k = d e Θ = Rd) ossia

ξi =d∑j=1

zi,jθj + εi i = 1, . . . n.

Sotto queste ipotesi si dimostra che se z1, . . . , zn sono linearmente indipen-denti allora il modello e identificabile.

1.5 Statistica frequentista

Nella statistica frequentista si assume che la legge del fenomeno oggetto distudio sia un ben determinato elemento di Pθ : θ ∈ Θ. In altri termini siassume che le osservazioni siano realizzazioni di una variabile aleatoria ξ lacui legge sia una certa Pθ0 con θ0 in Θ. Naturalmente θ0 e incognito e loscopo della statistica e fare dell’inferenza su questo parametro incognito.

1.5.1 Stima puntuale

Date le premesse, e chiaro che uno dei problemi principali della statisticafrequentista sia quello di stimare il vero valore del parametro θ a partiredalla conoscenza del campione ξ = (ξ1, ξ2, . . . ), o, piu in generale, di unasua statistica, ossia di una funzione t(ξ). Spesso si e interessati a stimareuna funzione di θ, diciamo τ(θ), e non direttamente θ. Per questo motivo siintroducono delle particolari statistiche a valori nell’immagine di τ che in unqualche senso permettano di approssimare il vero valore τ(θ). Nel seguitosupponiamo che Θ sia uno spazio di misura dotato una σ-algebra H.

Dato il modello (X,X , Pθ) : θ ∈ Θ e una funzione misurabile τ :(Θ,H) → (T, T ), si dice stimatore puntuale di τ(θ) qualunque statistica

t : (X,X ) →(τ(Θ), T|τ(Θ)

)che associa ad ogni realizzazione campionaria uno specifico valore per lafunzione da stimare. Qui con T|τ(Θ) indichiamo la restrizione di T a τ(Θ).

Esempio 12. Con riferimento all’Esempio 8, uno stimatore della media me la media empirica

1n

n∑i=1

ξi.

Un’altro stimatore e la mediana empirica.

Page 26: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

26 CAPITOLO 1. CONCETTI FONDAMENTALI

La costruzione di stimatori puntuali e le proprieta di tali stimatori saran-no la parte principale di questo corso. Iniziamo da un esempio importante.

Esempio 13 (Stime dei minimi quadrati). Si supponga, come gia visto nel-l’Esempio 10, che ogni osservazione ξi sia la somma di una parte sistematicae di un disturbo. In particolare si supponga che la parte sistematica sia es-primibile come αzi + β, con zi nota, e che il disturbo sia esprimibile comeuna variabile aleatoria εi. Un metodo classico di stima puntuale (che risalea Legandre e Gauss) consiste nella ricerca di stimatori di (α, β) che ren-dano minima un’opportuna penalizzazione quadratica. Il metodo propone insostanza di stimare (α, β) con la coppia (αn, βn) che minimizza la sommadei quadrati dei disturbi

q(α, β) :=n∑i=1

ε2i =n∑i=1

(ξi − β − αzi)2.

Determinando i punti stazionari di q dalle equazioni

∂αq(α, β) = −2n∑i=1

(ξi − β − αzi)zi = 0

∂βq(α, β) = −2n∑i=1

(ξi − β − αzi) = 0

si ottiene

αn = ρnσ2,n

σ1,n

βn = m2,n −m1,nρnσ2,n

σ1,n

Page 27: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

1.5. STATISTICA FREQUENTISTA 27

dove

m1,n :=1n

n∑i=1

zi

m2,n :=1n

n∑i=1

ξi

σ1,n :=

√√√√ 1n

n∑i=1

z2i −m2

1,n

σ2,n :=

√√√√ 1n

n∑i=1

ξ2i −m22,n

ρn :=1

σ1,nσ2,n

( 1n

n∑i=1

ziξi −m1,nm2,n

).

E’ facile verificare che (αn, βn) e punto di minimo assoluto di q(α, β); pertanto questo e detto vettore delle stime dei minimi quadrati.

1.5.2 Insiemi di confidenza

Naturalmente la stima puntuale non e l’unico strumento di un’indagine sta-tistica. Supponiamo, ad esempio, di voler stimare la durata in vita θ di unaparte di un dato sistema. In certi casi piu che fissare una stima puntuale, sie interessati a stabilire una funzione dell’osservazione θ∗(ξ) per la quale sipossa stabilire che

Pθθ∗(ξ) ≤ θ ≥ 1− α

per ogni θ in Θ, essendo α un numero positivo (piccolo) assegnato. In altritermini, si intende determinare un intervallo (aleatorio) [θ∗,+∞) che, conprobabilita elevata, contenga il vero valore incognito del parametro.

La stima di parametri mediante insiemi che ne contengano il vero valoreincognito viene detta stima mediante insiemi di confidenza.

Dato il modello statistico (X,X , Pθ) : θ ∈ Θ, sia Sx ⊂ Θ : x ∈ Xuna famiglia di sottoinsiemi di Θ. Tale famiglia e detta famiglia d’insiemidi confidenza di livello (1− α) se

PθSξ contiene θ ≥ 1− α

per ogni θ in Θ.

Page 28: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

28 CAPITOLO 1. CONCETTI FONDAMENTALI

Esempio 14. Sia (ξ1, . . . , ξn) un vettore aleatorio di variabili indipendentied identicamente distribuite con legge gaussiana di media m e varianza σ2.Nel Paragrafo 0.4.1 abbiamo dimostrato che un intervallo di confidenza dilivello (1− α) per m quando σ2 sia noto e dato da

[mn − cασ/√n,mn + cασ/

√n]

dove

mn =1n

n∑i=1

ξi.

ecα = Φ−1(1− α/2).

Nel Paragrafo 0.4.2 abbiamo dimostrato che un intervallo di confidenzadi livello (1− α) per σ con m incognito e dato da

[nS2n/c2, nS

2n/c1]

dove S2n := 1

n

∑ni=1(ξi −mn)2 e c1 e c2 sono tali per cui

Fχ2n−1

(c2)− Fχ2n−1

(c1) = 1− α.

Nel Paragrafo 0.4.3 abbiamo dimostrato che un intervallo di confidenzadi livello (1− α) per m quando σ sia incognito e dato da

[mn − Sncα/√n− 1,mn + Sncα/

√n− 1]

secα = F−1

Tn−1(1− α/2).

1.5.3 Test di Ipotesi

Nel test d’ipotesi si e interessati, a partire dai dati osservati, a discriminarese il parametro incognito θ0 appartenga o meno ad un dato insieme Θ0.In generale si supporra Θ = Θ0 ∪ Θ1, con Θ0 ∩ Θ1 = ∅. Il fatto che θ0appartegna a Θ0 viene generalmente riferito come ipotesi nulla, in simboliH0, mentre il fatto che θ0 appartegna a Θ1 e comunemente indicato conil termine di ipotesi alternativa, H1. Se accettiamo H0 stiamo sostenendoche il parametro incognito appartega a Θ0 e, per tanto, ci comporteremodi conseguenza, mentre se rifiutiamo H0 sosteniamo che il parametro nonappartenga ad Θ0.

Page 29: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

1.5. STATISTICA FREQUENTISTA 29

Un test sara una metodologia per decidere se accettare o rifiutare H0,matematicamente un test e una funzione

δ : (X,X ) → ([0, 1],B([0, 1])).

Se in corrispondenza di un’osservazione x0 si ha δ(x0) = 1, allora lo statisticorifiuta H0, se δ(x0) = 0 allora lo statistico accetta H0, se invece t(x0) = p,con p ∈ (0, 1), lo statistico procede accettando o rifiutando in modo casuale,con probabilita di rifiutare pari a p. In altri termini tira una monetina conprobabilita di testa pari a p e se esce testa rifiuta H0 mentre se esce crocel’accetta. Un simile test si dice randomizzato, mentre se δ(x) ∈ 0, 1 perogni x in X, δ si dice non randomizzato.

Naturalmente lo statistico puo commettere due errori

• Errore di I tipo: rifiutare H0 mentre θ0 appartiene a Θ0,

• Errore di II tipo: accettare H0 mentre θ0 non appartiene a Θ0.

Sebbene matematicamente il ruolo di H0 e H1 sia assolutamente sim-metrico nella pratica vi possono essere grandi differenze.

L’esempio piu classico e testare l’efficacia di un farmaco. In un modellosemplificato potremmo assumere che Θ0 = θ∗ e Θ1 = θ∗∗. Assumiamoche Θ0 corrisponda al fatto che il farmaco funzioni. Per esempio potremmoassumere che il nostro modello statistico sia costituito da una successionebernoulliana con probabilita di successo θ, con la convenzione che in ogniesperimento (=paziente sottoposto alla cura) la probabilita di guarire, sottoPθ, dopo aver assunto il farmaco e uguale a θ. Si potrebbe quindi volertestare θ∗ = 0.9 contro θ∗∗ = 0.1. Commettere un errore di primo tipocomporta l’immettere nel mercato un farmaco che non funziona, mentrel’errore di secondo tipo comporta di non immettere nel mercato un farma-co funzionante. In questo caso e ragionevole che ritenere piu grave l’erroredi primo tipo. Data questa asimmetria in genere si deve pensare all’erroredi primo tipo come il peggiore fra i possibili due errori. Questo classicoesempio dovrebbe spiegare come mai storicamente le definizioni e le proce-dure statistiche non considerano l’ipotesi nulla e l’ipotesi alternativa comesimmetriche.

Dato un test δ, si introduce la funzione di potenza

β(θ, δ) = β(θ) := Eθ[δ(ξ)].

Page 30: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

30 CAPITOLO 1. CONCETTI FONDAMENTALI

Chiaramente

se θ0 ∈ Θ0 allora β(θ0) = prob. errore I tipo

se θ0 ∈ Θ1 allora β(θ0) = 1− prob. errore II tipo.

La taglia di un test eTg(δ) = sup

θ∈Θ0

β(θ, δ).

Un test si dice di livello α se

Tg(δ) ≤ α.

La potenza di un test contro un’alternativa θ1 ∈ Θ1 e definita come β(θ1).Guardando θ 7→ β(θ) vorremmo che fosse una funzione prossima a zero su Θ0

e prossima ad uno su Θ1. Dal momento che cio e in generale impossibile, sipensa a contenere l’errore di primo tipo sotto una certa soglia, ossia, fissatoα in (0, 1), si considerano solo test di livello α. Nell’ambito di questi test,un test δ0 e detto α-test piu potente contro θ1 ∈ Θ1 se

Tg(δ0) ≤ α e β(θ1, δ) ≤ β(θ1, δ0) ∀ δ : Tg(δ) ≤ α.

In questo corso non vedremo molto sui test, tuttavia per ora osservi-amo che per costruire un test in generale si procede fissando un’opportunastatistica T : X → Rk e scegliendo come test

δ(ξ) = IT (ξ) ∈ C

con C ⊂ Rk, oppure

δ(ξ) = IT (ξ) ∈ C+ γIT (ξ) ∈ ∂C

Poiche per calcolare la taglia di un test occorre calcolare Eθ[δ(ξ)], risulteratutto semplificato se, almeno per θ ∈ Θ0, la legge di T (ξ) non dipendera daθ. Una statistica con tali caratteristiche e detta pivot. Un’esempio di talistatistiche e gia stato incontrato nel paragrafo precedente. In altri casi sipossono scegliere delle statistiche per cui sia nota la legge.

Esempio 15. Supponiamo di voler confrontare un trattamento con un place-bo. Ad esempio si vuole testare se un farmaco induce sonnolenza. Ad ungruppo di n pazienti (scelti a caso) si somministra un giorno il placebo eun’altro giorno il farmaco. Si registra poi in ξi la differenza delle ore disonno con e senza farmaco per il paziente i. Se facciamo l’ipotesi (si noti

Page 31: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

1.6. STATISTICA BAYESIANA 31

che e un’ipotesi!) che le osservazioni ξi siano indipendenti ed identicamentedistribuite con comune legge gaussiana di media incognita m e di varianzanota (per semplicita) σ2, possiamo formulare il problema come un proble-ma di test d’ipotesi. Si tratta di testare Θ0 = (−∞, 0) contro l’alternativaΘ1 = [0,+∞). Infatti se m > 0 la media della differenza fra le ore sisonno prima e dopo il trattamento e positivo e quindi si puo ragionevol-mente ritenere che il farmaco non induca sonnolenza, mentre se m < 0 lasituazione e ribaltata. Come si vede nella scelta di chi sia H0 e chi H1

preferiamo essere conservativi e non rischiare di affermare che un farmaconon induca sonnolenza qunado invece la induce. Infatti l’errore di primotipo e affermare che il farmaco non induce sonnolenza (H0) quando invecela induce. Con riferimento a 0.4.1, consideriamo il test

δc(ξ) = ITn > c

con

Tn(ξ) =√nmn

σ=

1σ√n

n∑i=1

ξi.

Chiaramente

β(m, δc) = PmTn(ξ) > c = PMn > c−

√nm

σ

= Φ

(− c+

√nm

σ

)dove

Mn :=mn −m

σ

√n ∼ N (0, 1)

e Φ e la funzione di ripartizione di una gaussiana standard. Quindi, dalmomento che Φ e una funzione monotona non decrescente

supm≤0

β(m, δc) = Φ(−c)

e dunque se scegliamo cα in modo che

Φ(−cα) = α ossia cα = −Φ−1(α)

otteniamo un test di livello α.

1.6 Statistica Bayesiana

Un approccio completamente diverso all’indagine statistica e quello dellastatistica bayesiana. La statistica bayesiana differisce dalla statistica fre-quentista sia per i metodi sia per i principi “filosofici” su cui si basa. Per

Page 32: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

32 CAPITOLO 1. CONCETTI FONDAMENTALI

una discussione approfondita sul tema si rinvia al Capitolo 4, Sezioni 4.1-4.2-4.3 e al Capitolo 5, Sezioni 5.1.1 - 5.1.2 - 5.1.3 di [1]. Nel seguitoesponiamo sinteticamente e in versione semplicistica alcuni punti base del-la statistica bayesiana. Nei capitoli successivi avremo modo di tornare piuapprofonditamente sull’argomento.

Il concetto chiave sul quale si basa la statistica bayesiana e il concettodi probabilita condizionale e, in varie forme, il teorema di Bayes.

Ricordiamo che il teorema di Bayes, nella sua versione elementare, af-ferma che, dato uno spazio di probabilita (Ω,F , P ), se H1,H2, . . . e unapartizione di Ω ed E e un determinato evento con P (E) > 0, allora

P (Hj |E) =P (E|Hj)P (Hj)

P (E)=

P (E|Hj)P (Hj)∑i P (E|Hi)P (Hi)

.

L’interpretazione e la seguente. La partizione rappresenta un insieme diipotesi (H1,H2, . . . ) (ipotesi che possono essere pensate come determinatecircostanze e che hanno il ruolo di parametri) sulle quali sappiamo forniredelle valutazioni di probabilita (ossia P (Hi)). Inoltre si suppone che con-dizionatamente ad una data ipotesi sappiamo valutare la probabilita di E,ossia sappiamo fornire P (E|Hi). Nel processo di osservazione immagini-amo di osservare il verificarsi di E. Naturalmente non conosciamo qualedelle ipotesi si sia verificata, allora “aggiorniamo” la probabilita delle ipote-si usando il terema di Bayes. La nostra opinione iniziale P (Hi) sul’ipote-si Hi diventa un’opinione finale (o a posteriori) P (Hi|E). In questo mo-do abbiamo descritto probabilitisticamente il processo di apprendimento.P (H1), . . . , P (Hn) descrivera la nostra opinione iniziale sui parametri, P (E|Hi)sara il nostro modello e P (Hi|E) la nostra opinione dopo l’esperimento.

Prima di proseguire, ricordiamo che, se (X,Y ) e un vettore aleatorio condensita g(x, y) rispetto alla misura di lebesgue o di conteggio (indicata condxdy), la densita condizionale di X dato Y e

g1|2(x|y) :=g(x, y)g2(y)

dove g2(y) =∫g(x, y)dx. In questo caso il teorema di Bayes e semplicemente

g2|1(y|x) =g1|2(x|y)g2(y)∫g1|2(x|u)g2(u)du

.

A differenza di quanto visto per la statistica frequentista, nella statisticabayesiana non si suppone l’esistenza di una legge “vera” Pθ0 , che descrive

Page 33: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

1.6. STATISTICA BAYESIANA 33

la legge di probabilita del nostro processo di osservazione, ma si consideraanche il parametro come un ente aleatorio. In altri termini si considera unvettore aleatorio (ξ, θ) a valori in (X × Θ) e non piu solo ξ. Il fatto diconsiderare la legge congiunta di parametro ed osservazioni consente, comevedremo, di utilizzare i principi della probabilita non solo per descrivere ifenomeni studiati (il processo di osservazione), ma anche per descrivere ilprocesso di apprendimento dall’esperienza.

Per semplificare, iniziamo, in modo un po’ informale, dal caso in cuiX ⊂ Rn e Θ ⊂ Rd. Un modello statistico Bayesiano, in questo caso, e datoda

Θ, π,X, P (·|θ)dove: P (·|θ) = Pθ e la legge del vettore delle osservazioni (che si assumonoa valori in X) nell’ipotesi che il parametro incognito sia θ, Θ e uno spaziodi parametri dei quali varia θ, π e una misura di probabilita (m.d.p.) su Θ.

A questo punto occorre definire la legge congiunta di osservazioni-parametro.Per fissare le idee supponiamo che Pθ sia assolutamente continua ed ammettauna densita f(x|θ) per ogni θ in Θ.

Per assegnare la legge congiunta di osservazioni-parametro, si ricorreal paradigma di Bayes-Laplace. Ossia: la legge congiunta del processo diosservazione e del parametro e data da

Pξ1 ∈ dx1, . . . , ξn ∈ dxn, θ ∈ dθ = f(x1, . . . , xn|θ)dx1 . . . dxnπ(dθ)

Schematicamente:

• Si fissa una distribuzione iniziale (prior) π sullo spazio dei parametriΘ. La prior doverbbe riflettere l’opinione iniziale di chi si apprestaa fare inferenza.

• Il parametro incognito si pensa come realizzazione di una variabilealeatoria con distribuzione π,

θ ∼ π(dθ).

• Condizionatamente a θ i dati (x1, . . . , xn) si pensano come realizzazionidi una successione di v.a. ξ1, . . . , ξn con densita f(x1, . . . , xn|θ), insimboli

(ξ1, ξ2, . . . , ξn)|θ ∼ f(x1, . . . , xn|θ)dx1 . . . dxn.

In questo caso f(x|θ) deve incorporare la nostra idea sul modellonell’ipotesi che il parametro sia θ.

Page 34: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

34 CAPITOLO 1. CONCETTI FONDAMENTALI

Ne segue che la legge marginale delle osservazioni e

Pξ1 ∈ dx1, . . . , ξn ∈ dxn =[ ∫

Θf(x1, . . . , xn|θ)π(dθ)

]dx1 . . . dxn.

Come accennato, uno dei punti cruciali dell’impostazione Bayesiana eil fatto che consente di formalizzare il processo di apprendimento dall’es-perienza. Infatti osservato (ξ1, . . . , ξn) = (x1, . . . , xn) si aggiorna l’opinioneiniziale (ossia π) con il teorema di Bayes. Applicando il teroema di Bayesnella verisione appena ricordata per densita, se supponiamo π(dθ) = π∗(θ)dθotteniamo la densita finale (posterior) (ossia la densita condizionale di θ dato(ξ1, . . . , ξn)),

π∗(θ|x(n)) =f(x1, . . . , xn|θ)π∗(θ)∫

Θ f(x1, . . . , xn|u)π∗(u)du

dovex(n) = (x1, . . . , xn).

Per una formalizzazione piu rigorosa si veda il Capitolo 12.

Il passaggio da π a π(·|x(n)) e cio che abbiamo appreso dai dati.

Supponendo che il processo di osservazione sia proseguibile, si puo con-siderare anche la distribuzione predittiva, ossia

Pξn+1 ∈ dxn+1|ξ(n) = x(n)

Essa serve se si vuole dare una previsione dell’n + 1–esima osservazioneavendo osservato le prime n-realizzazioni del processo di osservazione.

Molto spesso si assume che, per ogni n ≥ 1,

f(x1, . . . , xn|θ) =n∏i=1

f(xi|θ),

ossia che, condizionatamente al parametro θ, le osservazioni siano indipen-denti ed identicamente distribuite con densita f(·|θ). Chiaramente in questocaso il processo e infinitamente proseguibile. Inoltre notiamo che poiche

Pξ1 ∈ dx1, . . . , ξn ∈ dxn =∫

Θ

[ n∏i=1

f(xi, . . . , xn|θ)]dx1 . . . dxnπ(dθ).

la legge di (ξ1, . . . , ξn) e scambiabile, ossia invariante per permutazioni fi-nite. In altri termini, per ogni permutazione di σ di 1, . . . , n la legge di

Page 35: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

1.6. STATISTICA BAYESIANA 35

(ξ1, . . . , ξn) e ugale alla legge di (ξσ(1), . . . , ξσ(n)). Come vedremo il legamefra scambiabilia e (parte della) statistica bayesiana e assai stretto.

Nel caso ora esaminato la distribuzione predittiva prende la forma parti-colarmente significativa

Pξn+1 ∈ dxn+1|ξ(n) = x(n) =∫

Θf(xn+1|θ)π(dθ|x(n))dxn+1.

Schematizzando i due tipi principali di inferenza statistica bayesianasono:

-INFERENZA PREDITTIVA. Essa risponde alla necessita di fornire unavalutazione di probabilita sull’n + k–esima osservazione condizionatamentealla conoscenza delle prime n-realizzazioni del processo di osservazione. Sibasa sulla determinazione della distribuzione predittiva. In ques’ottica ladeterminazione della distribuzione finale e solo uno strumento per calcolarela distribuzione finale e non ha particolare interesse in se stesso. Si veda5.1.2 e 5.1.3 in [1].

-INFERENZA PARAMETRICA. E’ l’inferenza che ha come oggetto ilparametro θ. Per tale tipo di inferenza si puo riportare la legge finale oppurequalche sua funzione. Ad esempio, se il parametro di interesse e un numeroreale, si puo calcolare la media a posteriori

E[θ|ξ(n) = x(n)] =∫

Rθπ(dθ|x(n))

e la varianza a posteriori∫R(θ −

∫Ruπ(du|x(n)))2π(dθ|x(n))

per avere un riassunto delle informazioni realtive alla distribuzione a poste-riori del parametro. In questo caso si pensa al parametro θ (e di conseguen-za alla sua legge) come qualcosa interessante dal punto di vista statistico.Come vedremo questo puo essere in qualche forma giustificato ricorrendo alteorema di rappresentazione di de Finetti.

1.6.1 Due esempi base

Esempio 16 (Binomiale-Beta). Consideriamo

X = 0, 1n, Θ = (0, 1)

Page 36: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

36 CAPITOLO 1. CONCETTI FONDAMENTALI

Come verosimiglianza scegliamo

f(x|θ) = θx(1− θ)1−x x = 0, 1 θ ∈ (0, 1).

Come prior scegliamo

π(dθ) = B(a, b)−1I(0,1)(θ)θa−1(1− θ)b−1dθ (a > 0, b > 0)

con

B(a, b) =∫ 1

0θa−1(1− θ)b−1dθ.

In questo caso la legge congiunta e

Pθ ∈ (u, v), ξ(n) = x(n) = B(a, b)−1

∫(u,v)

θPn

i=1 xi(1−θ)1−Pn

i=1 xiθa−1(1−θ)b−1dθ.

e la posterior e

π(dθ|x(n)) = B

(a+

n∑i=1

xi, b+ n−n∑i=1

xi

)−1

I(0,1)(θ)θa+Pn

i=1 xi−1(1−θ)b+n−Pn

i=1 xi−1dθ.

Possiamo calcolare media e varianza a posteriori:

E[θ|ξ = x(n)] =a+

∑ni=1 xi

a+ b+ n

V ar[θ|ξ = x(n)] =(a+

∑ni=1 xi)(b+ n−

∑ni=1 xi)

(a+ b+ n)2(a+ b+ n+ 1).

Si ricordi che se X e una variabile con legge Beta(a, b) allora

E(X) =a

a+ b

V ar(X) =ab

(a+ b)2(a+ b+ 1).

Esempio 17 (Normale-Normale). Consideriamo

X = Rn, Θ = R

π(dθ) =1√2πa

exp− 12aθ2dθ = N (0, a)(dθ).

f(x|θ) =1√2π

exp−12(x− θ)2

Page 37: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

1.7. ELEMENTI DI TEORIA DELLE DECISIONI 37

Allora

π(θ|x(n)) ∝ exp−12

n∑i=1

(xi − θ)2 − 12θ2/a

= exp−12(n∑i=1

x2i + θ2(n+ 1/a)− 2

n∑i=1

xiθ)

∝ exp−12(n+ 1/a)

(θ − 1

n+ 1/a

n∑i=1

xi

)2

ossia

π(dθ|x(n)) = N( 1n+ 1/a

n∑i=1

xi,1

n+ 1/a

)(dθ).

Media e varianza a posteriori sono:

E[θ|ξ = x(n)] =1

n+ 1/a

n∑i=1

xi

V ar[θ|ξ = x(n)] =1

n+ 1/a.

Esercizio 1. Si consideri

Xn = R, Θ = R

π(dθ) =1√2πa

exp− 12a

(θ − η)2dθ = N (η, a)(dθ).

f(x|θ) =1√

2πσ2exp− 1

2σ2(x− θ)2

(σ,η ed a noti). Dimostrare che

π(dθ|x(n)) = N((η

a+

1σ2

n∑i=1

xi)/(a−1 + n/σ2),σ2a/n

σ2/n+ a

)(dθ).

1.7 Elementi di teoria delle decisioni

La teoria delle decisioini e un ampio settore della statistica. Essa e utiliz-zata sia in ambito frequentista che in ambito classico. Qui introduciamoalcuni elementi minimali di teoria delle decisioni per far campire come essa

Page 38: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

38 CAPITOLO 1. CONCETTI FONDAMENTALI

possa essere utilmente usata in ambito bayesiano per guidare le scelte dellostatistico.

Si legga il paragrafo 2.5 di Ghosh et al. [6].

Schematicamente nella teoria delle decisioni si hanno

• A: spazio delle azioni.

• D: spazio delle decisioni , ossia un insieme di funzioni (misurabili) daX in A.

• L: funzione di danno. L : Θ×A → R+, tale per cui L(θ, a) rappresentala perdiata alla quale va in contro lo statistico che sceglie a quando ilparametro e θ.

Nel seguito poniamo supponiamo che

X = Rn

e assumiamo che

f(x1, . . . , xn|θ) =n∏i=1

f(xi|θ).

A partire dalla verosimiglianza f e dalla funzione di danno L, per ognidecisione δ si possono definire vari costi.

Costo medio di una decisione δ:

Rn(θ, δ) := E[L(θ, δ(ξ(n)))|θ = θ] =∫

Rn

L(θ, δ(x(n)))f(x(n)|θ)dx1 . . . dxn.

Costo iniziale di una decisione δ:

Rn(δ) :=∫

ΘRn(θ, δ)π(dθ) = E[L(θ, δ(ξ(n)))].

Costo finale di una decisione δ:

ψn(δ(ξ(n)) := E[L(θ, δ(ξ(n)))|ξ(n)] =∫

ΘL(θ, δ(ξ(n)))π(θ|ξ(n))dθ.

Bayes estimator. Una scelta Bayesiana ottima a posteriori e definitacome un elemento δn di D tale che

ψn(δn(ξ(n))) = minδ∈D

ψn(δ(ξ(n)))

Page 39: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

1.7. ELEMENTI DI TEORIA DELLE DECISIONI 39

per ogni realizzazione di ξ(n).

Chiaramete E(ψn(δ(ξ(n))) = E(E[L(θ, δ(ξ(n)))|ξ(n)]) = Rn(δ).

A questo punto si verifica facilmente (farlo per esercizio) che ogni sceltabayesiana ottima a posteriori minimizza Rn(δ). (Si veda il Thm.2.7 in Ghoshet al. [6].)

Esempio 18 (Stima puntuale-costo quadratico). In questo caso

A = Θ = R

eL(θ, a) = |θ − a|2.

AlloraRn(θ, δ) =

∫Rn

|θ − δ(x(n))|2f(x1, . . . , xn|θ)dx

e l’errore quadratico medio. Lo stimatore Bayesiano e in questo caso lamedia a posteriori, infatti

argminδE[|θ − δ(ξ(n))|2|ξ(n)] = E[θ|ξ(n)].

Esempio 19 (Tests). In questo caso

A = 0, 1

dove 0 = accetto H0 = θ ∈ Θ0 e 1 = rifiuto H0, ossia vale H1 = θ ∈ Θ1,dove Θ0 ∪Θ1 = Θ. Se

L(θ, a) = IΘa(θ),

Rn(θ, δ) risulta uguale all’errore di primo tipo se θ appartiene a Θ0 a quellodi secondo tipo se θ appartiene a Θ1.

Page 40: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

40 CAPITOLO 1. CONCETTI FONDAMENTALI

Page 41: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 2

Modelli Statistici Dominati

Questo capitolo e puramente tecnico. Ha lo scopo di introdurre l’apparatomatematico minimale necessario per poter trattare i problemi di statisticausando la teroria della probabilita astratta.

2.1 Dominanti

Prima di introdurre il concetto di modello dominato, sono opportune alcunedefinizioni preliminari.

Una misura µ su (X,X ) si dice σ-finita se esiste una successione Akk≥1

di elementi di X per i quali si ha:

(i) ∪k≥1Ak = X.

(ii) µ(Ak) < +∞ ∀ k.

Una misura di probabilita ν su (X,X ) si dice assolutamente continuarispetto ad una misura σ-finita µ sullo stesso spazio misurabile se per ogniA in X vale

µ(A) = 0 ⇒ ν(A) = 0.

In simboli, ν << µ.

In questo caso esiste (teorema di Radon-Nikodym) una funzione misura-bile f : X → [0,+∞), detta funzione di densita , tale che

ν(B) =∫Bf(x)µ(dx) ∀ B ∈ X (2.1)

41

Page 42: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

42 CAPITOLO 2. MODELLI STATISTICI DOMINATI

o, in breve,ν(dx) = f(x)µ(dx).

In generale, f non e unica, ma se f∗ e un’altra densitadi ν rispetto a µ,allora µ(f 6= f∗) = 0.

Nota. La classe delle f che soddisfano la (2.1) e la derivata di RadonNikodym di ν rispetto µ, denotata solitamente con dν

dµ .

La trattazione matematica dei procedimenti inferenziali risulta general-mente semplificata quando tutti gli elementi di M sono misure di probabilitaassolutamente continue rispetto ad una stessa misura σ-finita su (X,X ).

Un modello (X,X , Pθ, θ ∈ Θ) si dice dominato se esiste una misuraσ-finita µ su (X,X ) tale che Pθ << µ per ogni θ in Θ. La misura µ si dicemisura dominante.

In altri termini, Pθ ammette una densitafθ rispetto a µ, ossia

Pθξ ∈ B = Pθ(B) =∫Bfθ(x)µ(dx) ∀ B ∈ X .

In genere, nelle applicazioni si presenta il caso di modelli dominati dallamisura di conteggio o dalla misura di Lebesgue, per i quali valgono,rispettivamente e per ogni B in X ,

Pθ(B) =∑x∈B

fθ(x)

ePθ(B) =

∫Bfθ(x)dx.

Esempio 20. (Misura di conteggio.) Per X numerabile la misura di con-teggio µ su (X,X ) e definita da

µ(x) = 1 ∀ x ∈ X.

Quindiµ(B) =

∑x∈B

1 ∀ B ∈ X .

Inoltre, poiche X = ∪x∈Xx, µ e σ-finita.

Esempio 21. (Misura di Lebesgue.) Per X = Rd e X = B(X), notevole ela misura µ che ad ogni rettangolo ×dk=1(ak, bk] associa il volume

∏dk=1(bk−

ak). La misura cosı caratterizzata e la misura di Lebesgue in d dimensioni.Poiche µ(Rd) = +∞, µ non e finita, essa e pero σ-finita.

Page 43: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

2.1. DOMINANTI 43

Esempio 22. (Modello non dominato I.) Si consideri X = R, X = B(R)(σ-algebra di Borel), Θ = R Pθ = δθ, dove δa(B) = 1 se a ∈ B e δa(B) = 0altrimenti. Data una qualunque misura σ-finita µ su (R,B(R)), i punti xdi R per cui vale µ(x) > 0 formano un insieme numerabile e, per cio ,esiste un punto x0 ∈ R tale che µ(x0) = 0. Supponiamo che µ sia unadominante e che fθ sia la relativa denista, allora

1 = Px0x0 =∫x0

fx0(x)µ(dx) = fx0(x0)µ(x0)

che e chiaramente un’assurdo dato che µ(x0) = 0.

Esempio 23. (Modello non dominato II.) Si estrae una pallina da un’urnache contiene un certo numero di palline, meta marcate con il numero (θ−1)e meta con il numero (θ+1), con θ numero reale incognito. Non disponendodi altre informazioni si deve assumere X = R, X = B(R) (σ-algebra diBorel) e Θ = R. Inoltre, indicata con ξ il numero con cui e contrassegnatala pallina estratta, si ha

Pθξ = θ − 1 = Pθξ = θ + 1 = 1/2

ovvero, per B ∈ B(R),

Pθ(B) = 1/2δθ−1(B) + 1/2δθ+1(B),

dove δa(B) = 1 se a ∈ B e δa(B) = 0 altrimenti. Data una qualunquemisura σ-finita µ su (R,B(R)), i punti x di R per cui vale µ(x) > 0formano un insieme numerabile e, per cio , esiste un punto x0 ∈ R taleche µ(x0) = 0. Ponendo θ = x0 − 1 si ha Px0−1(ξ = x0) = 1/2 e,poiche almeno un punto come x0 puo essere determinato per qualsiasi misuraσ-finita, si ricava immediatamente che il modello in esame non e dominato.

Teorema 2.1. Il modello M = (X,X , Pθ, θ ∈ Θ) e dominato se e solo seesiste una misura di probabilita π su (X,X ) che lo domina.

Dimostrazione La sufficienza e ovvia. Per dimostrare la necessita, siassuma che µ sia una misura σ-finita su (X,X ) dominante per il modello.Allora esiste una partizione numerabile (An)n≥1 di X, con A ∈ X , tale che0 < µ(An) < +∞ ∀ n. Inoltre

f(x) :=∞∑k=1

12kµ(Ak)

1Ak(x) x ∈ X

Page 44: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

44 CAPITOLO 2. MODELLI STATISTICI DOMINATI

e una funzione reale strettamente positiva e misurabile rispetto a σ(A1, A2, . . .) ⊂X . Si noti che ∫

Xfdµ = 1.

Pertanto la funzione π definita come

π(B) =∫Bfdµ ∀ B ∈ X

e una misura di probabilita su (X,X ). Inoltre, se π(B) = 0, la positiva stret-ta di f implica che sia µ(B) = 0. Ossia, λ domina il modello.

2.2 Dominanti Privilegiate

Dato un modello (X,X , Pθ) : θ ∈ Θ, una misura di probabilita π chelo domina viene detta dominante privilegiata se e definita come combi-nazione convessa di una sottofamiglia numerabile di elementi di M = pi :θ ∈ Θ, ossia

π =∑i≥1

aiPθi

per opportuni θi in Θ e ai ≥ 0 tali che∑

i ai = 1. La dominante privilegiatanon e unica.

Se π e una dominate privilegiata e µ e una qualsiasi altra dominante, siha ovviamente π << µ. Ossia, esiste una funzione di densita di probabilitaf∗ tale per cui

dµ(x) = f∗(x) ∀ x ∈ X.

Una densita di Pθ rispetto alla dominante privilegiata puo essere ricavatanel modo seguente. Posto N = f∗ = 0, vale

π(N) =∫Nf∗(x)µ(dx) = 0

e, indicata con fθ una qualsiasi densita di Pθ rispetto a µ, si deduce che

f∗θ (x) :=fθ(x)f∗(x)

1Nc(x)

soddisfaPθ(B) =

∫Bf∗θ (x)π(dx) ∀ B ∈ X .

Page 45: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

2.2. DOMINANTI PRIVILEGIATE 45

Questo risultato e conseguenza diretta del calcolo sulle derivate di Radon-Nikodym. In particolare, poiche

π(dx) = f∗(x)µ(dx),

per ogni funzione π–integrabile h∫Nc

h(x)π(dx) =∫h(x)f∗(x)µ(dx) =

∫Nc

h(x)f∗(x)µ(dx)

e quindi , scegliendo h(x) = f∗θ (x)1B(x),∫Bf∗θ (x)π(dx) =

∫B∩Nc

fθ(x)f∗(x)

π(dx) =∫B∩Nc

fθ(x)µ(dx) = Pθ(B).

Negli esempi seguenti vengono presentate dominanti privilegiate per al-cuni modelli statistici notevoli.

Esempio 24. (Modello Bernoulliano.) La misura dominante nell’ Esempio6 e la misura di conteggio. Fissato θ0 ∈ (0, 1) si ricava, per ogni B ⊂ 0, 1n,

Pθ0(B) = 0 ⇐⇒ B = ∅

e quindiPθ(B) = 0 ∀ θ ∈ Θ = [0, 1].

Ossia, Pθ0 e una dominante privilegiata e, posto sn = x1 + · · · + xn, unadensita di Pθ rispetto a tale misura di probabilita e data da

fθ:θ0(x) =θsn(1− θ)n−sn

θsn0 (1− θ0)n−sn

=(θ

θ0

)sn(

1− θ

1− θ0

)n−sn

∀ x ∈ 0, 1n.

Esempio 25. (Modello Poissoniano.) La misura dominante nell’ Esempio7 e la misura di conteggio su Nn. Una densita rispetto a tale misura e

fθ(x1, . . . , xn) =n∏i=1

θxi

xi!e−θ.

Con un ragionamento analogo a quello dell’esempio precedente, fissato θ0 >0, Pθ0 e una dominante privilegiata e, posto sn = x1 + · · ·+ xn, una densitadi Pθ rispetto a tale misura di probabilita e data da

fθ:θ0(x) =(θ

θ0

)sn

exp−n(θ − θ0) ∀ x ∈ Nn.

Page 46: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

46 CAPITOLO 2. MODELLI STATISTICI DOMINATI

Esempio 26. (Modello Gaussiano.) La misura dominante nell’ Esempio 8e la misura di Lebesgue in n dimensioni, indicata con µ, inoltre una densitarispetto a tale misura e data da

fm,σ2(x1, . . . , xn) =1

(2πσ2)n/2exp

− 1

2σ2

n∑i=1

(xi −m)2.

Si noti che, per B ∈ B(Rn),∫Bfm,σ2(x1, . . . , xn)µ(dx1 · · · dxn) = 0 ⇐⇒ µ(B) = 0

per ogni possibile valore del parametro θ = (m,σ2) ∈ Θ := R×R+. Pertanto,∀ B ∈ B(Rn) e fissato θ0 = (m0, σ

20) ∈ Θ, la misura di probabilita Pθ0 definita

da

Pθ0(B) =∫B

1(2πσ2

0)n/2exp

− 1

2σ20

n∑i=1

(xi −m0)2µ(dx1 · · · dxn)

e una dominante privilegiata. Una densita di Pθ rispetto a Pθ0 e data da

fθ:θ0(x) =(σ2

0

σ2

)n/2 exp− 1

2σ2

∑ni=1(xi −m)2

exp

− 1

2σ20

∑ni=1(xi −m0)2

∀ x ∈ Rn.

Nel caso in cui uno dei due parametri sia noto, si ottiene un risultato deltutto analogo considerando come dominante privilegiata la misura di proba-bilita ottenuta dalla famiglia Gaussiana per un fissato valore del parametroincognito.

Esempio 27. (Modello uniforme discreto.) Si considerino n osservazionii.i.d. provenienti dal seguente modello parametrico:

M = (Nn,P(Nn), Pθ) : θ ∈ N

dove P(N) rappresenta l’insieme di tutte le parti di N e

Pθξ1 = x1, . . . , ξn = xn =1θn

n∏i=1

11,...,θ(xi)

La misura di probabilita definita da

π(B) =∑k≥1

12kPk(B) ∀ B ⊂ Nn

domina il modello e, poiche e chiaramente combinazione convessa di tuttigli elementi del modello, e dominante privilegiata.

Page 47: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

2.2. DOMINANTI PRIVILEGIATE 47

Esempio 28. (Modello uniforme continuo.) Si consideri uno schema anal-ogo a quello dell’esempio precedente ma in ambito continuo. Vale a dire

M = (Rn+,B(Rn

+), Pθ) : θ ∈ N

dove

Pθ(B) =∫B

n∏i=1

1θ1[0,θ](xi)µ(dx1, . . . , dxn) ∀ B ∈ B(Rn

+)

con µ che denota la misura di Lebesgue in n dimensioni (dominante per M).La misura di probabilita definita da

π(B) =∑k≥1

12kPk(B) ∀ B ⊂ B(Rn

+)

e combinazione convessa degli elementi di una sottoclasse numerabile delmodello considerato e ammette la seguente densita rispetto a µ

f∗(x) =∑k≥1

1(2k)n

n∏i=1

1[0,k](xi) ∀ x ∈ Rn+.

Dal fatto che f∗(x) > 0 ∀ x segue che, se π(B) = 0 per qualche B ∈ B(Rn+),

deve risultare µ(B) = 0. Ossia, π e dominante privilegiata.

Il teorema seguente enuncia un risultato relativo all’esistenza di domi-nanti privilegiate per modelli dominati.

Teorema 2.2. Ogni modello statistico dominato ammette una dominanteprivilegiata.

Dimostrazione Si considerino il modello statistico (X,X , P ) : P ∈ Me una sua dominante µ. Grazie al risultato del Teorema 2.1, si puo assumereche µ sia una misura di probabilita senza perdere in generalita. Si indichicon conv(M) l’insieme di tutte le misure di probabilita su (X,X ) che sonoespresse come combinazioni convesse di elementi di M e con C l’insieme ditutti gli elementi A ∈ X di misura µ non nulla e per i quali esiste almenouna misura di probabilita PA ∈ conv(M) strettamente positiva su A e condensita fA rispetto a µ, tale che

∫A fA(x)µ(dx) = 1. [Attenzione non e detto

che fA = dP/dµ per qualche P in M , poiche PA e a priori una combinazione

Page 48: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

48 CAPITOLO 2. MODELLI STATISTICI DOMINATI

convessa di elementi di M .] Infine, sia Cnn≥1 una successione di elemen-ti di C tale per cui la corrispondente successione µ(Cn)n≥1 converge asupC∈C µ(C).

Si puo costruire una misura di probabilita P0 appartenente a conv(M)ponendo

C0 = ∪n≥1Cn

f0(x) =∑k≥1

1Ck(x)

12kfCk

(x) ∀ x ∈ X

P0(B) =∫Bf0(x)µ(dx) ∀ B ∈ X .

Si tratta ora di dimostrare che P0 domina il modello. Per come l’insieme Ce stato costruito, f0(x) > 0 ∀ x ∈ C0 e µ(C0) > 0. Ossia

C0 ∈ C e µ(C0) = supC∈C

µ(C) = 0. (2.2)

InoltreP0(B) = 0 ⇒ µ(B ∩ C0) = 0 ∀ B ∈ X .

Si consideri ora, per ogni P ∈ M la misura di probabilita 12(P + P0). Essa

appartiene a conv(M) e, poiche C0 = f0 > 0, si ricava che C0 ⊂ (f+f0) >0. Questo fatto, unitamente alla proprieta di massimalita di C0 descrittanella (2.2) e all’appartenenza di f + f0 > 0 a C, permette di ricavare

µ(f + f0 > 0 ∩ Cc0) = 0

da cui segue

P (Cc0) =∫Cc

0f(x)µ(dx) =

∫f+f0>0∩Cc

0

f(x)µ(dx) = 0.

Infine, per ogni B ∈ X per cui P0(B) = 0, si ottiene

P (B) = P (B ∩ C0) + P (B ∩ Cc0)

=∫B∩C0

f

f0dP0 + P (B ∩ Cc0)

= P (B ∩ Cc0)≤ P (Cc0) = 0.

Resta pertanto dimostrato che P0 domina il modello.

Page 49: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

2.3. CALCOLO DI SPERANZE CONDIZIONALI: UN LEMMA 49

2.3 Calcolo di speranze condizionali: un lemma

Se Pθ : θ ∈ Θ e un modello statistico dominato da una misura di proba-bilita µ e fθ una densita per Pθ rispetto a µ si ha ovviamente

Eθ[h(ξ)] =∫Xh(x)Pθ(dx) =

∫Xh(x)fθ(x)µ(dx) = Eµ[h(ξ)fθ(ξ)] (2.3)

per ogni funzione Pθ integrabile h.

Osservazione. Ricordiamo che in accordo con quanto prescritto nelparagrafo 1.3, usiamo Eµ[φ(ξ)] per indicare

∫X φ(x)µ(dx). Si noti che la

notazione e lecita proprio perchee abbiamo scelto una dominante che siauna misura di probabilita.

Enunciamo e dimostriamo un lemma tecnico che ci sara utile in seguito.

Lemma 2.3. Sia µ una misura di probabilita dominante per il modello para-metrico (X,X , Pθ) : θ ∈ Θ e siano Y (·) e t(·) due funzioni misurabilidefinite su (X,X ), con Y a valori reali non negativi e limitata. Si denotinocon g(1)

θ (ξ) e g(2)θ (ξ) una versione di Eµ(fθ(ξ)Y (ξ) | t(ξ)) e, rispettivamente,

di Eµ(fθ(ξ) | t(ξ)). Si definisca infine la variabile aleatoria

mθ(ξ) =

g(1)θ (ξ)

g(2)θ (ξ)

se g(2)θ (ξ) 6= 0

ψ(ξ) se g(2)θ (ξ) = 0

dove ψ e una funzione misurabile rispetto alla σ-algebra generata da t. Alloravalgono i seguenti risultati:

(i) Pθg(2)θ (ξ) = 0 = 0 ∀ θ ∈ Θ.

(ii) mθ(ξ) e una versione di Eθ(Y (ξ) | t(ξ)).

Informalmente

Eθ(Y (ξ)|t(ξ)) =Eµ(fθ(ξ)Y (ξ)|t(ξ))Eµ(fθ(ξ)|t(ξ))

.

Page 50: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

50 CAPITOLO 2. MODELLI STATISTICI DOMINATI

Dimostrazione. Posto Nθ = x ∈ X : g(2)θ (x) = 0 si deve dimostrare

che Pθ(N) = 0. Usando (2.3) si ottiene

Pθ(Nθ) = Eθ(1Nθ(ξ))

= Eµ(1Nθ(ξ)fθ(ξ))

= Eµ[Eµ(1Nθ(ξ)fθ(ξ) | t(ξ))].

Si noti che ξ ∈ Nθ e un elemento della σ-algebra generata da t(ξ) e g(2)θ (ξ),

essendo versione di una speranza condizionale rispetto a t(ξ), e misurabilerispetto alla suddetta σ-algebra. Segue dunque

Eµ[Eµ(1Nθ(ξ)fθ(ξ) | t(ξ))] = Eµ[1Nθ

(ξ)Eµ(fθ(ξ) | t(ξ))]

= Eµ[1Nθ(ξ)g(2)

θ (ξ)]= 0.

Resta da dimostrare il punto (ii). Essendo mθ(ξ) evidentemente misurabilerispetto alla σ-algebra generata da t(ξ), e sufficiente dimostrare che il suointegrale coincide con quello di Y (ξ) su ogni elemento B di tale σ-algebra.A questo scopo si consideri la seguente catena di uguaglianze

Eθ(1B(ξ)mθ(ξ)) = Eθ

(1B∩Nc

θ(ξ)

g(1)θ (ξ)

g(2)θ (ξ)

)

= Eµ

(1B∩Nc

θ(ξ)

g(1)θ (ξ)

g(2)θ (ξ)

fθ(ξ)

)

= Eµ

[Eµ

(1B∩Nc

θ(ξ)

g(1)θ (ξ)

g(2)θ (ξ)

fθ(ξ) | t(ξ)

)]

= Eµ

[1B∩Nc

θ(ξ)

g(1)θ (ξ)

g(2)θ (ξ)

Eµ (fθ(ξ) | t(ξ))

]= Eµ

[1B∩Nc

θ(ξ)Eµ(fθ(ξ)Y (ξ) | t(ξ))

]= Eµ(1B∩Nc

θ(ξ)fθ(ξ)Y (ξ))

= Eθ(1B(ξ)Y (ξ)) = Eθ(Eθ(1B(ξ)Y (ξ)|t(ξ)))= Eθ(1B(ξ)Eθ(Y (ξ)|t(ξ))).

Riscrivendo si ottiene

E[1B(ξ)mθ(ξ)− Eθ(Y (ξ) | t(ξ))] = 0 ∀ B ∈ σ(t)

Page 51: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

2.4. ESERCIZI 51

e, poiche l’integranda e σ(t)-misurabile,

mθ(ξ) = Eθ(Y (ξ) | t(ξ)) Pθ − q.c..

2.4 Esercizi

Esercizio 2. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con legge co-mune esponenziale di parametri (a, λ) ∈ R × R+, indicata con Exp(a, λ),ossia con comune densita di probabilita

fα,λ(xi) = λI(a,+∞)(xi)e−λ(xi−a).

Dimostrare cheνn := minξ1, . . . , ξn

ha legge Exp(nλ, a).

Esercizio 3. Una variabile Gamma(α, λ) ha densita

f(x) =λα

Γ(α)xα−1e−λxI(0,+∞)(x)

con

Γ(u) =∫ +∞

0xu−1e−xdx (u > 0).

Sia (ξn)n≥1 una successione di variabili aleatorie indipendenti ed identica-mente distribuite con comune legge Gamma(1, λ). Dimostrare che

∑ni=1Xi

ha legge Gamma(n, λ) [suggerimento: usare le funzioni caratteristiche.]

Esercizio 4. Sia X una variabile aleatoria Gamma(α, λ) Dimostrare che

E(Xk) =1λk

Γ(α+ k)Γ(α)

.

Esercizio 5. Sia T distribuita come una Gamma(n, θ). Calcolare E( 1T )

[ θn ]

Page 52: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

52 CAPITOLO 2. MODELLI STATISTICI DOMINATI

Page 53: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 3

Verosimiglianza.

Si anticipano in questo capitolo alcuni concetti legati alla nozione di rias-sunto del campione che verra trattata in dettaglio nel capitolo successivo.

Iniziamo introducendo il concetto di Verosimiglianza, che sta alla basedi buona parte della statistica frequentista.

3.1 Il Processo di Verosimiglianza

Sia (X,X , Pθ) : θ ∈ Θ un modello statistico in forma parametrica, domi-nato da una misura µ e sia fθ la generica funzione di densita di Pθ rispettoa µ. Tale densita definisce una variabile aleatoria

ω 7→ fθ(ξ(ω)) ∀ θ ∈ Θ. (3.1)

Si puo quindi considerare il processo stocastico

V (ω) := fθ(ξ(ω)) : θ ∈ Θ

detto anche processo di verosimiglianza, dove ogni traiettoria

θ 7→ fθ(ξ)

e una funzione da Θ in R nota come funzione di verosimiglianza delcampione ξ. Al su detto processo stocastico e dunque associata, in modonaturale, la funzione

v : X → RΘ

53

Page 54: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

54 CAPITOLO 3. VEROSIMIGLIANZA.

che, in corrispondenza di ogni realizzazione campionaria ξ, definisce la fun-zione di verosimiglianza θ 7→ vξ(θ) := fθ(ξ).

Espressioni della funzione di verosimiglianza per alcuni modelli notevolivengono presentate nei successivi esempi.

Esempio 29. (Modello Bernoulliano).Si consideri il modello bernoulliano definito nell’Esempio 6. Per ogni cam-pione osservato x = (x1, . . . , xn) in 0, 1n, la funzione di verosimiglianza edel tipo

vx(θ) = θP

i xi(1− θ)n−P

i xi

con θ ∈ [0, 1]. Si ricorda che per dominante si e presa la misura di conteggio.

Esempio 30. (Modello Poissoniano).Si consideri il modello poissoniano definito nell’Esempio 7. Prendendocome dominante nuovamente la misura di conteggio si ha, per ogni x =(x1, . . . , xn) ∈ Nn

0 ,

vx(θ) =1∏n

i=1 xi!θ

Pi xie−nθ.

Esempio 31. (Modello Gaussiano).Si consideri il modello gaussiano definito nell’Esempio 8. Prendendo comedominante la misura di Lebesgue in n dimensioni, per ogni x = (x1, . . . , xn) ∈Nn e per ogni θ = (µ, σ2) ∈ R× R+ si ha

vx(θ) =1

(2πσ2)n/2exp

− n

2σ2(s2 + (µ− x)2)

dove x := 1

n

∑ni=1 xi e s2 :=

∑ni=1

(xi−x)2n .

Esempio 32. (Regressione gaussiana).Si consideri il modello di regressione lineare definito nell’Esempio 11 cond = 2, θ = (α, β), zi = (zi,1, 1), ossia gθ(t) = αt + β. Prendendo comedominante la misura di Lebesgue in n dimensioni, per ogni x = (x1, . . . , xn)in Rn e per ogni θ = (α, β) in R× R si ha

vx(θ) =1

(2πσ2)n/2exp

− 1

2σ2

n∑i=1

(xi − αzi,1 − β)2

3.2 Il Principio di Verosimiglianza

Come gia detto l’impostazione frequentista della statistica fa dipenderel’inferenza esclusivamente dal campione osservato, quindi, nell’ipotesi che

Page 55: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

3.2. IL PRINCIPIO DI VEROSIMIGLIANZA 55

l’informazione contenuta nella n-upla di osservazioni ξ = (ξ1, . . . , ξn) siatrascurabile rispetto all’informazione contenuta in una certa funzione

t = t(ξ1, . . . , ξn),

ogni inferenza dovrebbe dipendere da t soltanto. Ossia, l’inferenza rica-vata da due differenti campioni dovrebbe essere la stessa se sono identicii valori assunti dalla funzione t in corrispondenza di entrambi i campioni.Piu formalmente cio si esprime affermando che la distribuzione condizionaledi (ξ1, . . . , ξn) rispetto a t, sotto una generica misura di probabilita Pθ, eindipendente da θ.

Si consideri un modello statistico dominato ed espresso in forma para-metrica. Nella sezione precedente e stato introdotto come particolare rias-sunto del campione la funzione aleatoria V (ω) = V (ξ1, . . . , ξn), che ad ognirealizzazione campionaria ξ associa la funzione di verosimiglianza vξ(θ). Sivuole argomentare nel seguito che tale funzione aleatoria e sufficiente perfare inferenza, come enunciato nel

Principio di verosimiglianza. La conoscenza di V (ξ1, . . . , ξn) equiv-ale, ai fini dell’inferenza su θ, alla conoscenza di (ξ1, . . . , ξn). Pertan-to, le inferenze statistiche ammissibili devono esprimersi come funzioni diV (ξ1, . . . , ξn).

Si tratta dunque di dimostrare che la distribuzione condizionale di (ξ1, . . . , ξn)rispetto a V (ξ1, . . . , ξn) e indipendente dal parametro.

Teorema 3.1. Sia µ una misura di probabilita dominante per (X,X , Pθ) :θ ∈ Θ. Allora per ogni B ∈ X esiste una versione di Pθξ ∈ B |V (ξ1, . . . , ξn) indipendente da θ.

Dimostrazione. Per ogni B ∈ X , sia γµ(B;x1, . . . , xn) una versione diµ(B | V (x1, . . . , xn)).

Applichiamo il Lemma 2.3 con

t(ξ) = V (ξ1, . . . , ξn)Y (ξ) = 1B(ξ1, . . . , ξn).

PoicheEµ(fθ(ξ)1B(ξ) | V (ξ)) = fθ(ξ)µ(B | V (ξ))

(dove l’uguaglianza deriva dal fatto che fθ e σ(V )-misurabile) una g(1)θ (ξ)

versione di Eµ(fθ(ξ)1B(ξ) | V (ξ)) e data da fθ(ξ)γµ(B; ξ). Del tutto analoga-mente, la g(2)

θ (ξ) puo essere identificata con fθ(ξ). Infine, scegliendo come

Page 56: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

56 CAPITOLO 3. VEROSIMIGLIANZA.

funzione ψ(ξ) proprio γµ(B; ξ) su fθ(ξ) = 0, come diretta conseguen-za dell’applicazione del Lemma 2.3 si ha che una versione di Pθξ ∈ B |V (ξ1, . . . , ξn) e data da γµ(B; ξ). La tesi segue poiche quest’ultima nondipende da θ.

Teorema 3.2. Siano X uno spazio polacco, X la sua σ-algebra di Borel eµ una misura di probabilita dominante per (X,X , Pθ) : θ ∈ Θ. Allora,per ogni θ ∈ Θ, sotto Pθ esiste una distribuzione condizionale regolare di(ξ1, . . . , ξn) rispetto a V (ξ1, . . . , ξn) che e indipendente da θ.

Dimostrazione. Il risultato segue dal teorema sull’esistenza di una dis-tribuzione condizionale regolare e dal Teorema 3.1.

3.3 Stimatori di massima verosimiglianza

Il termine verosimiglianza (traduzione di likelihood usato da Fisher) sarebbecoerente con la seguente interpretazione: i valori di θ in corrispondenza aiquali vξ(θ) risulta piu elevata sarebbero da ritenersi vicini al vero in quantoin corrispondenza ad essi risulterebbe elevata la probabilita (o la densita) associata a ξ. E’ sembrato lecito (a partire da Fisher) proporre comemetodo per stimare il vero parametro incognito di scegliere un valore θ chemassimizzi

θ 7→ vξ(θ).

Tale stimatore e comunemente chiamato

stimatore di massima verosimiglianza.

Come dimostrano i seguenti esempi puo essere comodo determinare ilminimo di θ 7→ − log vx(θ) al posto del massimo di θ 7→ vx(θ).

Esempio 33. (Modello Poissoniano).Si consideri il modello poissoniano definito nell’Esempio 7 derivando e im-mediato determinare che il massimo di

θ 7→ log(vx(θ)) =n∑i=1

xi log(θ)− nθ − log(n∏i=1

xi!)

e raggiunto in∑n

i=1 xi/n, ossia lo stimatore di massima verosimiglianza diθ basato su (ξ1, . . . , ξn) e

θn =1n

n∑i=1

ξi.

Page 57: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

3.4. ESERCIZI 57

Esempio 34. (Modello Gaussiano).Si consideri il modello gaussiano definito nell’Esempio 8. Ancora per derivazionee facile vedere che lo stimatore di massima verosimiglianza di (m,σ) e datoda

mn =1n

n∑i=1

ξi σ2n =

1n

n∑i=1

(ξi − mn)2.

Esempio 35. (Modello di regressione gaussiano).Si consideri il modello di regressione definito nell’Esempio 32 con varianzanota σ2. Osserviamo che massimizzare log(vx(θ)) equivale a minimizzare

n∑i=1

|xi − β − αzi,1|2

e quindi lo stimatore di massima verosimiglianza di (α, β) coincide, in questocaso particolare, alla stima ai minimi quadrati vista nell’Esempio 13.

3.4 Esercizi

Esercizio 6. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con legge co-mune Gamma di parametri (α, 1/λ), con λ > 0, α > 0, ossia con comunedensita di probabilita

fα,1/λ(x) = I(0,+∞)(x)xα−1

λαΓ(α)e−x/λ.

Supposto noto α determinare lo stimatore di massima verosimiglianza λn diλ basato sul campione ξ1, . . . , ξn e calcolare E(λn).

Esercizio 7. Siano ξ1, . . . , ξn v.a. indipendenti con comune legge di Poissondi parametro λ > 0, i.e. tali che

Pξi = k =λke−λ

k!(k ≥ 0).

1. Determinare lo stimatore di massima verosimiglianza λn di λ basatosul campione ξ1, . . . , ξn

2. Calcolare E(λn).

Page 58: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

58 CAPITOLO 3. VEROSIMIGLIANZA.

Esercizio 8. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con legge co-mune Weibull di parametri (α, λ), α > 0 e λ > 0, ossia con comune densitadi probabilita

fα,λ(x) = I(0,+∞)(x)αxα−1

λe−x

α/λ.

1. Supposto noto α determinare lo stimatore di massima verosimiglianzaλn di λ basato sul campione ξ1, . . . , ξn;

2. calcolare E(λn).

Esercizio 9 (Cfr. Esercizi 12 e 14). Sia (ξn)N≥1 una successione di i.i.d.con comune densita di probabilita

fλ,a(x) = λaλ1

xλ+1I(a,+∞)(x) (a > 0, λ > 0).

Si ponga Yi = log(ξi/a) e Tn =∑n

i=1 Yi.

1. Dimostrare che Yi ha legge esponenziale di parametro λ.

2. Dimostrare che

E(1Tn

) =λ

n− 1.

3. Noto λ determinare lo stimatore di massima verosimiglianza di a.

4. Noto a determinare lo stimatore di massima verosimiglianza di λ.

Esercizio 10 (Cfr. Esercizi 11 e 13). Sia (ξn)n≥1 una successione di i.i.d.con comune legge esponenziale di parametri (a, λ).

1. Si scriva la verosimiglianza delle prime n osservazioni.

2. Si mostri che noto a lo stimatore di massima verosimiglianza di λ edato da

λn :=n∑n

i=1(ξi − a)

e cheE(λn) =

n

n− 1λ.

Page 59: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

3.4. ESERCIZI 59

3. Si mostri che noto λ lo stimatore di massima verosimiglianza di a edato da

νn := minξ1, . . . , ξn

e cheE(νn) =

1λn

+ a.

Page 60: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

60 CAPITOLO 3. VEROSIMIGLIANZA.

Page 61: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 4

Sufficienza e Completezza.

In questo capitolo studieremo alcune proprieta fondamentali di una statisti-ca. Tali proprieta, oltre ad essere significative in se stesse, risulteranno utilinella determinazione di stimatori puntuali di funzioni di θ.

4.1 Statistiche Sufficienti.

Siano (X,X , Pθ : θ ∈ Θ) uno modello statistico (con X polacco e X = B(X))e t : (X,X , P ) → (T, T ) una funzione misurabile a valori in un genericospazio misurabile. Come gia ricordato qualunque funzione del campione ξ eusualmente chiamata statistica o riassunto del campione.

La prima caratteristica di cui tratteremo e la sufficienza. Il concettodi sufficienza in statistica e molto intuitivo: si tratta di definire quandouna statistica, che di per se rappresenta una forma di riduzione dei dati,non comporti perdita di informazione nel contesto di un modello statisticoPθ, θ ∈ Θ. Come gia ricordato nel capitolo precedente cio avviene quandola distribuzione condizionale di ξ dato t = t(ξ) non dipende da θ.

Una statistica t e detta sufficiente se esiste un nucleo di transizioneN·(·) : T × X → R, indipendente da θ, tale che, per ogni θ, Nt(·)(·) sia unaversione della distribuzione condizionale regolare di Pθ dato t, in formule

Nt(ξ)(A) = Pξ ∈ A|t(ξ) = Eθ[1A(ξ)|t(ξ)] ∀A ∈ X Pθ q.c.

61

Page 62: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

62 CAPITOLO 4. SUFFICIENZA E COMPLETEZZA.

In modo equivalente, t e sufficiente se e solo se per ogni φ misurabile elimitata esiste una ψφ (indipendente da θ) tale che

Eθ(φ(ξ)|t(ξ)) = ψφ(t(ξ))

Pθ quasi certamente per ogni θ in Θ. Il Teorema 3.1 mostra che il proces-so di verosimiglianza e una statistica sufficiente per un modello dominato.Tuttavia tale statistica e relativamente scomoda, trattandosi per l’appuntodi un processo stocastico. Vedremo in seguito come determinare statistichepiu trattabili.

Esempio 36. a) Nell’Esempio 6 si consideri t(x) =∑n

i=1 xi =: |x|. Dalmomento che

Pθ(ξ1 = x1, ..., ξn = xn||ξ| = s) =

0 se s 6= |ξ|Pθ(ξ=x1,...,ξn=xn)

Pθ(|ξ|=s) = 1/( ns)

se s = |ξ|,(4.1)

segue facilmente che il nucleo di tranzizione

Ns(A) :=1( ns)cardx ∈ A : |x| = s (4.2)

e una distribuzione condizionale regolare di Pθ dato |x|. D’altra parte talenucleo e indipendente da θ, dunque |x| e una statistica sufficiente.

b) Nell’Esempio 7 si ponga t(x) =∑n

i=1 xi =: |x|. Si ha

Pθ(ξ = x1, ..., ξn = xn||ξ| = s) =

0 se s 6= |ξ|Pθ(ξ=x1,...,ξn=xn)

Pθ(|ξ|=s) = s!Qni=1 xi!

1ns se s = |ξ|.

(4.3)Ne segue che

Ns(A) :=s!ns

∑x∈A:|x|=s

1/n∏i=1

xi!, (4.4)

e una distribuzione condizionale regolare di P dato |x|. Anche in questocaso essa non dipende da θ e dunque |x| e una statistica sufficiente.

In questi due esempi il fatto che esista una dominante privilegiata giocaun ruolo fondamentale nel riconoscere una statistica sufficiente. In effetti sie sfruttato il fatto che esiste una densita di Pθ rispetto ad una dominanteprivilegiata funzione della statistica. Questo fatto ha validita generale, comeveremo nel prossimo teorema.

Page 63: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

4.1. STATISTICHE SUFFICIENTI. 63

Nel seguito si supporra il modello Pθ : θ ∈ Θ dominato da una misuraσ-finita µ. Indicheremo come al solito con π la dominante privilegiata e lerelative densita con

fθ :=dPθdµ

,

f∗θ :=dPθdπ

.

Teorema 4.1. Sia (X,X , Pθ : θ ∈ Θ) uno modello statistico dominato.Una statistica t e sufficiente se e solo se per ogni θ ∈ Θ esiste una variabilealeatoria

φ∗θ : (T, T ) → (R+,B(R+))

tale che x 7→ φ∗θ(t(x)) e una versione di x 7→ f∗θ (x).

Informalmente

t e sufficiente ⇔ dPθdπ

(x) = Φ∗θ(t(x)).

Dim. Per semplicita di notazione omettiamo la dipendenza da ξ. Suffi-cienza. Usando Lemma 2.3, con µ = π e Y = IA si ha che

Eθ(IA|t) =Eπ(IAf∗θ |t)Eπ(f∗θ |t)

=

=Eπ(IAφ∗θ(t)|t)Eπ(φ∗θ(t)|t)

=φ∗θ(t)Eπ(IA|t)

φ∗θ(t)

= Eπ(IA|t) Pθ − q.c.

(4.5)

e dunque Eπ(IA|t) e una versione di Eθ(IA|t).

Necessita. Sia Nt(·)(·) come nella definizione di statistica sufficiente.Prima di tutto osserviamo che per ogni A in X

Nt(A) = Eπ(IA|t).

Infatti, Nt(A) e ovviamente σ(t)–misurabile e inoltre, poiche π e dominanteprivilegiata, i.e. π =

∑i αiPθi

, per ogni B in σ(t) si ha

Eπ[Nt(A)IB] =∑i

αiEθi[Nt(A)IB] =

∑i

αiEθi[IAIB] = Eπ[IAIB].

Page 64: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

64 CAPITOLO 4. SUFFICIENZA E COMPLETEZZA.

A questo punto, usando anche la precedente identita, osserviamo che perogni A in X

Eπ(IAf∗θ ) = Pθ(A) = Eθ(Eθ(IA|t)

)= Eθ(Nt(A)) =

= Eπ(Nt(A)f∗θ ) == Eπ

(Eπ(Nt(A)f∗θ |t)

)= Eπ

(Nt(A)Eπ(f∗θ |t)

)=

= Eπ(Eπ(IA|t)Eπ(f∗θ |t)

)= Eπ

[Eπ(IAEπ(f∗θ |t)|t

)]=

= Eπ(IAEπ(f∗θ |t)

),

(4.6)

ossia per ogni A in X

Eπ(IAf∗θ ) = Eπ(IAEπ(f∗θ |t)

).

Se ne deduce che f∗θ = Eπ(f∗θ |t) π − q.c., e dunque che f∗θ e σ(t) misurabilee per tanto e una funzione di t.

Il precedente teorema e di qualche utilita per l’individuazione di unastatistica sufficiente. Tuttavia la sua applicazione richiede il calcolo di unadensita rispetto ad una dominante privilegiata, mentre generalmente e piufacile si disponga di densita rispetto ad una dominante generica. In questocaso, un risultato analogo al precedente e stabilito da un classico teoremadi Neyman.

Teorema 4.2 (di fattorizzazione di Neyman). Sia (X,X , Pθ : θ ∈ Θ)uno modello statistico dominato. Una statistica t : (X,X , P ) → (T, T ) esufficiente se e solo se per ogni θ ∈ Θ esiste una variabile aleatoria

φθ : (T, T ) → (R+,B(R+))

ed una variabile aleatoria (indipendente da θ)

h : (X,X ) → (R+,B(R+))

tale che x 7→ φθ(t(x))h(x) sia una versione di x 7→ fθ(x).

Informalmente

t e sufficiente ⇔ fθ(x) =dPθdµ

(x) = Φθ(t(x))h(x).

Dim. Sia µ la dominante σ-finita. Sia µ la misura di probabilita dom-inante associata alla misura µ, vedi Teorema 2.1. Dimostriamo il teorema

Page 65: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

4.1. STATISTICHE SUFFICIENTI. 65

inizialmente per µ. Dimostrato il teorema per µ, poiche una tale misuraesiste e si puo scegliere assolutamente continua rispetto alla dominante µ, siconclude facilmente.

Sufficienza. Per ogni A ∈ X si ha:

Eµ(1A(ξ)fθ(ξ)|t(ξ)) = φθ(t(ξ))Eµ(1A(ξ)h(ξ)|t(ξ)), (4.7)

e

Eµ(fθ(ξ)|t(ξ)) = φθ(t(ξ))Eµ(h(ξ)|t(ξ)). (4.8)

Per concludere e sufficiente applicare il Lemma 2.3 ed ottenere che unaversione regolare di Pθξ ∈ A|t(ξ) e data da

Eµ(1A(ξ)h(ξ)|t(ξ))Eµ(h(ξ)|t(ξ))

.

Con cio si conclude che t e sufficiente. Per essere piu formali, oltre acontrollare insiemi di misura nulla dove il denominatore si annulla, oc-corre anche mostrare che il lemma implica il fatto che la versione ottenu-ta e una distribuzione condizionale regolare. Sia, per tanto, v(ξ, A) unaversione σ-additiva di Eµ(1A(ξ)h(ξ)|t(ξ)). 1 Tenuto conto del fatto chePθx : φθ(t(x)) = 0 = 0 per ogni θ, dal Lemma 2.3 segue che, scelta unaqualunque ψ funzione σ(t)− misurabile, una versione di Pθξ ∈ A|t(ξ) edata da

v(ξ,A)v(ξ,X)

se v(ξ,X) > 0

ψ(ξ) ∀x : se v(ξ,X) = 0.(4.9)

Chiaramente, poiche si e scelta v σ–additiva, tale versione e anche regolare.

Necessita. Per il Teorema 12.1 esiste φθ(·) tale che φθ t = dPθ/dπ.Quindi

dPθdµ

=dPθdπ

ha una versione nella forma voluta.

1Tale versione esiste in virtu del fatto che, date le ipotesi, in valore atteso condizionatodi Eµ(1Ah|t) si puo scrivere come integrale di 1A(x)h(x) rispetto alla legge condizionaledi ξ dato t(ξ). Si veda l’Appendice.

Page 66: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

66 CAPITOLO 4. SUFFICIENZA E COMPLETEZZA.

4.2 Sufficienza Minimale

Una statistica sufficiente U : (X,X ) → (U,U) per un modello (X,X , Pθ : θ ∈Θ) e detta minimale se per ogni statistica sufficiente T : (X,X ) → (T, T )esiste una funzione misurabile g tale che U = g(T ) Pθ quasi certamente perogni θ.

Una statistica minimale e detta anche necessaria. Infatti essa rapp-resenta il risultato della riduzione massima per l’osservazione campionariacompatibile con il soddisacimento del principio di verosimiglianza.

4.3 Statistiche complete.

Dati il generico modello statistico parametrico (X,X , Pθ) : θ ∈ Θ e lastatistica t : (X,X ) → (T , T ) si ha il modello indotto

(T, T , Pθ,t) : θ ∈ Θ

dovePθ,t(B) = Pθx : t(x) ∈ B = Pθt(ξ) ∈ B ∀ B ∈ T

e la misura di probabilita immagine di Pθ attraverso t. Come si e gia vistonella trattazione della sufficienza le proprieta della misura di probabilitaindotta forniscono una caratterizzazione delle statistiche. Una statistica t sidice completa se per ogni funzione φ : (T, T ) → (R,B(R)) Borel-misurabile,integrabile rispetto a Pθ,t e che soddisfa∫

Tφ(y)Pθ,t(dy) = Eθ[φ(t(ξ))] = 0 ∀ θ ∈ Θ

risulta

Pθ,t(y : φ(y) = 0) = Pθφ(t(ξ) = 0 = 1 ∀ θ ∈ Θ. (4.10)

Una statistica t si dice l-completa se per ogni funzione φ : (T, T ) →(R,B(R)) Borel-misurabile limitata che soddisfa∫

Tφ(y)Pθ,t(dy) = Eθ[φ(t(ξ))] = 0 ∀ θ ∈ Θ

Page 67: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

4.3. STATISTICHE COMPLETE. 67

risulta

Pθ,t(y : φ(y) = 0) = Pθφ(t(ξ) = 0 = 1 ∀ θ ∈ Θ. (4.11)

Esempio 37. Sia (ξ1, . . . , ξn) un campione i.i.d. relativo al modello uni-forme continuo dell’Esempio 28. Si dimostra che la statistica

t(ξ) := ξ(n) = maxξ1, . . . , ξn,

la cui legge e data da

Pθ,t(−∞, u] = Pθξi ≤ u, i = 1, . . . , n

=

1 u ≥ θ(uθ

)n 0 ≤ u < θ0 u < 0

e completa per tale modello. Si noti che la misura di Lebesgue su R, denotatacon λ, e dominante per il modello di partenza ed anche per quello indotto daξ(n). Per ogni funzione φ che soddisfi le condizioni richieste dalla definizionedi completezza valgono le uguaglianze

0 =∫

Rφ(y)Pθ,t(dy)

=∫ θ

0φ(y)

nyn−1

θndy

=∫ θ

0φ+(y)

nyn−1

θndy −

∫ θ

0φ−(y)

nyn−1

θndy (∀ θ > 0).

Da queste seguono∫ θ0 φ

+(y)yn−1dy =∫ θ0 φ

−(y)yn−1dy θ > 0=⇒ λφ+(y)yn−1 6= φ−(y)yn−1 = 0=⇒ λ0 6= φ(y) = φ+(y)− φ−(y) = 0=⇒ Pθ,t0 6= φ(y) = 0 ∀ θ > 0.

Esempio 38. (Completezza e l-completezza) Ogni statistica completa e an-che l-completa; non vale in genere il viceversa.

Sia t una statistica relativa al modello (X,X , Pθ) : θ ∈ (0, 1) e sia(T, T , Pθ,t) : θ ∈ (0, 1) il modello indotto, dove T = −1, 0, 1, 2, . . . e

Pθ,t(y) =θ y = −1(1− θ)2θy y = 0, 1, 2, . . . .

Page 68: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

68 CAPITOLO 4. SUFFICIENZA E COMPLETEZZA.

Per verificare la completezza di t si deve verificare che ogni funzione φsoluzione di

∞∑k=−1

φ(k)Pθ,t(k)

sia Pθ,t-q.c. nulla. Equivalentemente∑k≥0

φ(k)(1− θ)2θk + φ(−1)θ = 0

=⇒∑

k≥0 φ(k)θk = −φ(−1)θ ddθ

11−θ

= −φ(−1)θ ddθ

∑j≥0 θ

j

= −φ(−1)∑

k≥1 kθk.

Le soluzioni di tale equazione devono quindi soddisfare φ(0) = 0, φ(1) =−φ(−1), φ(2) = −2φ(−1), . . . e basta assumere φ(−1) 6= 0 per avere unasoluzione non nulla su un insieme di probabilita Pθ,t positiva. Pertanto tnon e completa; e pero l-completa, in quanto tutte le soluzioni non nullePθ,t-q.c. sono illimitate.

4.4 Completezza e sufficienza

Teorema 4.3. (Bahadur). Se U : (X,X ) → (Rk,B(Rk) e una statisticasufficiente e l-completa per il modello dominato (X,X , Pθ) : θ ∈ Θ, alloraU e sufficiente minimale.

Dimostrazione Per ipotesi U = (U1, . . . , Uk). Si ponga Vi(U) = 1/(1 +exp(Ui)). Chiaramente Vi e biettiva e limitata. Poniamo

Hi(t) = Eθ[Vi(U)|T = t] Li(u) = Eθ[Hi(T )|U = u].

Osserviamo che Hi e Li non dipendono da θ perche T ed U sono sufficientied inoltre sono limitate poiche Vi e limitata. Per come abbiamo definito Hi

e Li, si ottiene

Eθ[Vi(U(ξ))] = Eθ[Hi(T (ξ))] = Eθ[Li(U(ξ))]

per ogni θ. Dal momento che Vi e limitata e U e l-completa ne segue che

PθVi(U) = Li(U) = 1

Page 69: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

4.4. COMPLETEZZA E SUFFICIENZA 69

per ogni θ. Di conseguenza

Eθ[Li(U)|T ] = Hi(T ).

A questo punto, ricordando che date due variabili aleatorie η, ζ si ha V ar(η) =E[V ar(η|ζ)] +V ar(E[η|zeta]), usando anche le relazioni appena dimostrate,si ottiene

V arθ(Hi(T )) = Eθ[V arθ(Hi(T )|U)] + V arθ(Li(U))V arθ(Li(U)) = Eθ[V arθ(Li(U)|T )] + V arθ(Hi(T )).

Dal precedente sistema si conclude che

Eθ[V arθ[Li(U)|T ]] = −Eθ[V arθ[Hi(T )|U ]]

e quindi V arθ[Li(U)|T ] = 0 Pθ q.c.. Poiche Li(U) = Vi(U) q.c., segue cheV arθ[Vi(U)|T ] = 0 Pθ q.c. e dunque Vi(U) = Eθ[Vi(U)|T ] = Hi(T ) Pθ q.c..Cio conclude la dimostrazione perche risulta Ui = V −1

i (Hi(T )).

Si noti che la dimostrazione si estende a qualunque statistica a valori inRN.

Una statistica t si dice libera per il modello (X,X , Pθ) : θ ∈ Θ se lasua legge e indipendente da θ.

Teorema 4.4. (Basu). Siano t1 e t2 rispettivamente una statistica suffi-ciente l-completa e libera per il modello (X,X , Pθ) : θ ∈ Θ. Allora t1 e t2sono stocasticamente indipendenti rispetto a Pθ per ogni θ ∈ Θ.

Dimostrazione Se t1 e sufficiente per definizione esiste una versione diPθ(· | t1) indipendente dal parametro, diciamo γt1(·). Inoltre indichiamocon γ la legge di t2, anche’essa indipendente da θ. Per A nella σ-algebra diarrivo di t2,

0 = Pθt2 ∈ A − Eθ (γt1t2 ∈ A)= Eθ (γ(A)− γt1t2 ∈ A) .

L’ultima uguaglianza vale per ogni θ ∈ Θ e, poiche t1 e l-completa, essaimplica

γ(A) = γt1(t2 ∈ A) q.c.− Pθ.

Page 70: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

70 CAPITOLO 4. SUFFICIENZA E COMPLETEZZA.

Pertanto, per B ∈ T , indicata con Pθ,t1 la legge immagine di Pθ tramite t1,si ha

Pθt2 ∈ A, t1 ∈ B =∫BPθt2 ∈ A | t1 = xPθ,t1(dx)

=∫Bγ(A)Pθ,t1(dx)

= Pθt2 ∈ APθt1 ∈ B.

Page 71: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 5

Famiglia esponenziale

Veniamo ora a studiare una famiglia di modelli statistici molto importanti.

5.1 Famiglia esponenziale

Un modello X,X , Pθ : θ ∈ Θ e detto famiglia esponenziale se esisteuna funzione misurabile t : X → Rk, una misura σ–finita µ su (X,X ) e unafunzione misurabile η : Θ → Rk tale che

Pθ(B) :=∫B

exp(η(θ), t(x))− ψ(θ)µ(dx) (B ∈ X ) (5.1)

dove (v, w) indica il prodotto scalare in Rk e, per ipotesi,

ψ(θ) := log∫X

exp(η(θ), t(x))µ(dx) < +∞

per ogni θ in Θ.

Esempio 39. Consideriamo il modello di Poisson dell’Esempio 7. Talemodello puo essere visto come famiglia esponenziale. In questo caso µ e lamisura la cui densita rispetto alla misura di conteggio su Nn e data da

1∏ni=1 xi!

,

k risulta essere pari ad 1, t(x) =∑n

i=1 xi, η(θ) = log(θ), Θ = R+ eψ(θ) = nθ. Introduciamo ora una riparametrizzazione del precedente mod-ello ponendo H = η(Θ) = R e riparametrizzando Pθ : θ ∈ Θ come Qη :=

71

Page 72: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

72 CAPITOLO 5. FAMIGLIA ESPONENZIALE

Peη : η ∈ R. Si noti che il nuovo modello e una reale riparametrizzazionein quanto la funzione log e biettiva da R+ in R. Il nuovo modello e carat-terizzato dalla misura di probabilita Qη(B) :=

∫B expηt(x) − ψ(η)µ(dx),

ossia e ancora una famiglia esponenziale in cui, tuttavia, la funzione η el’identita.

L’esempio precedente suggerisce che, talvolta, un modello esponenzialeX,X , Pθ : θ ∈ Θ puo essere riparametrizzato come X,X , Qη : η ∈ H,dove H = η(Θ), e Qη(B) :=

∫B exp(η, t(x))− ψ(η)µ(dx).

Data una funzione misurabile t : X → Rk e una misura σ–finita µ su(X,X ) si puo sempre definire una famiglia esponenziale definendo

H := η ∈ Rk : ψ(η) := log∫X

exp(η, t(x))µ(dx) < +∞

e per ogni η in H ponendo

Qη(B) :=∫B

exp(η, t(x))− ψ(η)µ(dx) (B ∈ X ). (5.2)

Se la famiglia esponenziale si presenta nella forma (5.2) viene detta canon-ica. Da una qualunque famiglia esponenziale si ottiene sempre una famigliacanonica, tuttavia non e detto che quest’ultima sia una riparametrizzazionedella famiglia originaria, ossia non e detto che η(Θ) = H sia biettiva. Nonsolo, in generale, presa una famiglia esponenziale in forma canonica non edetto che X,X , Pη : η ∈ H sia un modello identificabile.

Indicata con µt la misura immagine su Rk di µ tramite t, ossia µt(A) =µt−1(A) per ogni A in B(Rk), nel seguito supporremo che l’interno delconvessificato del supporto di µt sia non vuoto.

Ricordiamo che il supporto di una misura ν su i boreliani di uno spaziotopologico U con topologia U e definito come l’insieme di tutti i punti u diU tali per cui ogni intorno di u ha misura positiva. In formule

supp(ν) := u ∈ U : per ogni N ∈ U tale che u ∈ N allora ν(N) > 0

Prima di proseguire osserviamo che chiaramente

exp(ψ(η)) =∫X

exp(η, t(x))µ(dx) =∫

Rk

exp(η, y))µt(dy).

Lemma 5.1. ψ e una funzione convessa da H in R e H e un sottoinsiemeconvesso di Rk.

Page 73: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

5.1. FAMIGLIA ESPONENZIALE 73

Dim. Per ogni ε in (0, 1) la disuguaglianza di Holder fornisce∫u(y)v(y)µt(dy) ≤

(∫u(y)

1εµt(dy)

)ε(∫v(y)

11−εµt(dy)

)1−ε

da cui prendendo i logaritmi

log∫u(y)v(y)µt(dy) ≤ ε log

(∫u(y)

1εµt(dy)

)+(1−ε) log

(∫v(y)

11−εµt(dy)

).

Scegliendo ora u(y) = expε(η1, y) e v(y) = exp(1− ε)(η2, y) si ha che

ψ(εη1 + (1− ε)η2) ≤ εψ(η1) + (1− ε)ψ(η2).

Da cui segue immediatamente la tesi.

Come gia detto, il modello X,X , Pη : η ∈ H e detto famiglia espo-nenziale in forma canonica e quandoH ha interno non vuoto tale famigliasi dice regolare. Si noti che, ovviamente, una famiglia esponenziale e unmodello dominato (per costruzione) da µ e da ogni elemento della famiglia.

Come conseguenza immediata del teorema di fattorizzazione si ha chet e una statistica sufficiente per il modello. Prima di dimostrare che talestatistica e anche completa enunciamo la seguente notevole

Proposizione 5.2. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica, allora per ogni (i1, . . . , ik) in Nk ed ogni ηappartenente all’interno di H si ha

Eη[t1(ξ)i1 . . . tk(ξ)ik ] = e−ψ(η) ∂i1+···+ik

∂ηi11 . . . ∂ηikkeψ(η)

Poicheeψ(η) =

∫X

exp(η, t(x))µ(dx)

la dimostrazione della precedente proposizione consiste nel giustificare loscambio fra le derivate e l’integrale. Per la dimostrazione completa si vedail paragrafo 2.2.2 in [9].

Ad esempio, se H ⊂ R,

Eη(t(ξ)) = ψ(η)

Eη(t2(ξ)) = ψ(η)2 + ψ(η)

V arη(t(ξ)) = ψ(η).

Page 74: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

74 CAPITOLO 5. FAMIGLIA ESPONENZIALE

In generale se Y = (Y1, . . . , Yn) e un vettore aleatorio, porremo

E[Y ] := (E[Y1], . . . , E[Yn])

eV ar(Y ) = [Cov(Yi, Yj)]ij

Dalla precedente proposizione segue che

Proposizione 5.3. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica, ed η0 appartenga all’interno di H, allora

Eη0 [t(ξ)] = ∇ψ(η0)

eV arη0 [t(ξ)] = Hess[ψ(η0)]

dove ∇ψ(η0) = ( ∂ψ∂η1 (η0), . . . , ∂ψ∂η1 (η0)) e Hess[ψ(η0)] = [ ∂2ψ∂ηi∂ηj

(η0)]ij.

5.2 Completezza per famiglie esponenziali in fom-ra canonica

Dimostriamo ora che t e anche una statistica completa.

Proposizione 5.4. Sia X,X , Pη : η ∈ H una famiglia esponenzialeregolare in forma canonica, allora t e una statistica completa.

Dim. Fissato un valore η0 nell’interno di H si ha

Pη(A) =∫A

exp(η−η0, t(x))−ψ(η)+ψ(η0) exp(η0, t(x))−ψ(η0)µ(dx) A ∈ X

dove z = (η − η0) varia, per opportuna scelta di η in H, in un intornoI0 dell’origine di Rk. Sia φ una funzione che soddisfa le condizioni delladefinizione di statistica completa. In particolare E(|φ(t(ξ))|) < +∞ perogni η in H e

0 =∫Xφ(t(x)) exp(η, t(x))− ψ(η)µ(dx)

=∫Xφ+(t(x)) exp(η − η0, t(x))− ψ(η) + ψ(η0)Pη0(dx)

−∫Xφ−(t(x)) exp(η − η0, t(x))− ψ(η) + ψ(η0)Pη0(dx).

Page 75: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

5.2. COMPLETEZZA PER FAMIGLIE ESPONENZIALI IN FOMRA CANONICA75

Per tale φ, si ha quindi, ricordando che z = η − η0,∫Xφ+(t(x)) exp(z, t(x))Pη0(dx) =

∫Xφ−(t(x)) exp(z, t(x))Pη0(dx) z ∈ I0.

Ponendo z = 0 si ottiene

Z :=∫Xφ+(t(x))Pη0(dx) =

∫Xφ−(t(x))Pη0(dx).

Se Z = 0 si ha che φ+(t(x)) = φ−(t(x)) Pη0–quasi certamente. Poiche Pη0domina il modello,

φ+(t) = φ−(t) q.c.-Pη ∀ η

e quindiPη,t0 = φ = φ+ − φ− = 1 ∀ η

e la dimostrazione e conclusa. Se invece Z > 0 si ha che∫X

exp(z, t(x)) φ+(t(x))Pη0(dx)∫X φ

+(t(s))Pη0(ds)=∫X

exp(z, t(x)) φ−(t(x))Pη0(dx)∫X φ

−(t(s))Pη0(ds).

L’ultima uguaglianza puo essere vista come uguaglianza su I0 di due funzionigeneratrici dei momenti di due leggi, Q+ e Q−, che, per il corrispondenteteorema di unicita, devono coincidere. Le due leggi in questione sono

Q+(A) =∫XIA(t(x))

φ+(t(x))Pη0(dx)∫X φ

+(t(s))Pη0(ds),

Q−(A) =∫XIA(t(x))

φ−(t(x))Pη0(dx)∫X φ

−(t(s))Pη0(ds).

Pertanto∫It(x) ∈ Aφ+(t(x))Pη0(dx) =

∫It(x) ∈ Aφ−(t(x))Pη0(dx) ∀ A ∈ X

e, quindi, φ+(t) = φ−(t) q.c.-Pη0 . Nuovamente, poiche Pη0 domina il mod-ello,

Pη,t0 = φ = φ+ − φ− = 1 ∀ η.

Ossia, t e completa.

Page 76: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

76 CAPITOLO 5. FAMIGLIA ESPONENZIALE

Esempio 40. (Modello Gaussiano).Un caso particolare di modello esponenziale e rappresentato dal modelloGaussiano di parametro θ = (θ1, θ2) ∈ (−∞,+∞) × [0,+∞). Si veda l’E-sempio 8. Ponendo η1 = θ1

θ2e η2 = −1

2θ2si ottiene una densita (rispetto alla

misura di Lebesgue su Rn) riparametrizzata come

expη1

n∑i=1

xi + η2

n∑i=1

x2i − ψ(η1, η2)

dove η = (η1, η2) ∈ (−∞,+∞) × (−∞, 0] e (x1, . . . , xn) ∈ Rn e il vettoredi osservazioni. La statistica sufficiente e completa e quindi data da t =(t1, t2) = (

∑ni=1 ξi,

∑ni=1 ξ

2i ).

Modificando i parametri e ponendo θ1 = θ > 0 e θ2 = θ2 il modellonon e piu esponenziale e t non e piu statistica completa, pur essendo ancorasufficiente. La sufficienza si ricava dal teorema di fattorizzazione applicatoalla densita

fθ(x1, . . . , xn) =

(θ0

θ

)nexp

θ − θ0

2(θθ0)2[(θ + θ0)t2 − 2(θθ0)t1]

calcolata rispetto ad una dominante privilegiata. La non completezza eevidente considerando la funzione

φ(t) = 2t21 − (n+ 1)t2

che ha speranza matematica nulla ma e diversa da 0 su un insieme diprobabilita Pθ,t positiva.

Esempio 41. (Regressione gaussiana).Si consideri il modello di regressione lineare definito nell’Esempio 32 e persemplicita di notazione si ponga zi,1 = zi. In altri termini

ξi = αzi + β + εi.

Si noti che, posto θ = (α, β, σ2), la densita (rispetto alla misura di Lebesgue)di (ξ1, . . . , ξn) puo essere riscritta come

fθ(x) =1

(2πσ2)n/2exp

− 1

2σ2

n∑i=1

(xi − αzi − β)2

= exp

−n

2log(2πσ2)− 1

2σ2

n∑i=1

(αzi + β)2

exp

− 1

2σ2

n∑i=1

x2i +

β

σ2

n∑i=1

xi +α

σ2

n∑i=1

zixi

Page 77: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

5.3. RANGO E PARAMETRIZZAZIONE 77

e quindi e una famiglia esponenziale con k = 3,

η(θ) = (− 12σ2

σ2,α

σ2)

e

t(x) = (n∑i=1

x2i ,

n∑i=1

xi,n∑i=1

zixi).

Per tanto

(n∑i=1

ξ2i ,n∑i=1

ξi,n∑i=1

ziξi)

risulta essere una statistica sufficiente e completa. Per ottenere la formacanonica e sufficiente riparametrizzare Θ come

(η1, η2, η3) = (− 12σ2

σ2,α

σ2).

5.3 Rango e parametrizzazione

Una famiglia esponeziale regolare in forma canonica si dice di rango k set(x) = (t1(x), . . . , tk(x)) e, per qualche η in H, si ha

Pηk∑j=1

ajtj(ξ) = ak+1 = Pηx :k∑j=1

ajtj(x) = ak+1 < 1

per ogni a1, . . . , ak+1 reali tali che aj 6= 0 per almeno un j = 1, . . . , k + 1.

Enunciamo senza dimostrare il seguente risultato.

Proposizione 5.5. Sia X,X , Pη : η ∈ H una famiglia esponenziale re-golare in forma canonica con t(x) = (t1(x), . . . , tk(x)) e H aperto. Allorasono equivalenti

1. la famiglia e di rango k;

2. η e un parametro, ossia Pη : η ∈ H e identificabile;

3. V arη(t(ξ)) e definita positiva;

4. ψ e strettamente convessa.

5. ∇ψ e ben definita in H ed e un’applicazione iniettiva su H

Per la dimostrazione si veda Bickel-Doksum Thm. 1.6.4.

Page 78: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

78 CAPITOLO 5. FAMIGLIA ESPONENZIALE

5.4 Stimatori di massima verosimiglianza

Proposizione 5.6. Sia X,X , Pη : η ∈ H una famiglia esponenziale rego-lare in forma canonica di rango k con H aperto. Sia x0 il valore osservatodei dati e si ponga t0 = t(x0). Se

Pη0(t(ξ)− t0, c) > 0 > 0 ∀ c 6= 0 (5.3)

(per qualche η0, e quindi per tutti gli η) allora esiste un’unico stimatore dimassima verosimiglianza η(x0). Inoltre tale stimatore e soluzione di

∇ψ(η) = t0. (5.4)

Vicecersa, se t0 non soddisfa (5.3) allora allora lo stimatore di massimaverosimiglianza (per t0) non esiste e l’equazione (5.4) non ha soluzione.

Dim. Prima di tutto riscriviamo il modello come segue

Pη(dx) = Pη0(dx) exp(t(x)− t0, η − η0)− ψ(η)

conψ(η) = log

(∫exp((t(x)− t0, η − η0)Pη0(dx)

).

Inoltreψ(η) = −(t0, η − η0) + ψ(η)− ψ(η0).

Di conseguenza

log(vx0(η)) = log(f∗η (x0)) = (t(x0)− t0, η − η0)− ψ(η) = −ψ(η).

Dalla Proposizione 5.5 sappiamo che ψ e strettamente convessa e continuain H. Per concludere l’esistenza di un’unico massimo resta da dimostrareche data una qualunque successione (ηn)n che non contenga punti di accu-mulazione in H allora − log(vx0(ηn + η0)) → +∞.

Dimostriamo l’ultima affermazione distinguendo due casi. Scriviamo

ηn = λnun

con λn = ‖ηn‖ e un = ηn/‖ηn‖. Ci sono solo due possibilia o (a) supn λn <+∞ oppure (b) supn λn = +∞.

Valga (a). Consideriamo una generica sottosuccessione di n, diciamo n′.Dato che stiamo supponendo che ηn non contenga punti di accumulazione

Page 79: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

5.4. STIMATORI DI MASSIMA VEROSIMIGLIANZA 79

in H possiamo estrarre una sotto-sottosuccessione nk tale che λnk→ λ e,

contemporaneamente, unk→ u. Chiaramente deve accadere che λu 6∈ H.

Per tale sottosuccessione

lim infk

Eη0 [eλnk(t(ξ)−t0,unk

)] ≥ Eη0 [eλ(t(ξ)−t0,u)] = eλ(t0,u)Eη0 [e(t(ξ),λu)] = +∞

poiche λu 6∈ H. Questo dimostra che limn expψ(ηn + η0) = +∞ e dunquelimn−ψ(ηn + η0) = −∞.

Valga (b). Consideriamo una generica sottosuccessione di n, diciamo n′.Questa volta possiamo estrarre una sotto-sottosuccessione tale che λnk

→+∞ e, contemporaneamente, unk

→ u. Ora notiamo

lim supk

expψ(ηnk+ η0) = lim sup

k

∫Pη0(dx)e

(t(x)−t0,ηnk)

≥ lim supk

eδλnk Pη0(t(ξ)− t0, unk) > δ

= lim supk

Pη0(t(ξ)− t0, u) > δeδλnk = +∞

poiche per ipotesi, per qualche δ > 0, Pη0(t(ξ)− t0, u) > δ > 0. Anche inquesto caso, data l’arbitrarieta della sotto-successione iniziale, concludiamofacilmente che limn−ψ(ηn+η0) = −∞. La dimostrazione della prima partesi conclude facilmente perche, stabilito esistenza ed unicita del massimo diuna funzione differenziabile definita su un’aperto, tale punto di massimodeve essere necessariamente un punto stazionario.

Per la seconda parte, supponiamo che (5.3) sia falsa. Allora, per opportu-ni c 6= 0 ed η0, Pη0(t(ξ)−t0, c) ≤ 0 = 1. Di conseguenza Eη[(t(ξ)−t0, c)] ≤0 per ogni η. Se η esistesse, essendo tale η necessariamente un punto in H(aperto), dovrebbe essere un punto stazionario e quindi dovrebbe esseresoluzione di (5.4), ossia Eηt(ξ) − t0 = 0, che implica Eη(t(ξ) − t0, c) = 0 equindi Pηx : (t(x)− t0, c) = 0 = 1 che contraddice l’ipotesi che la famigliasia di rango k. La non solubilita di (5.4) e ovvia dal momento che un pun-to stazionario e necessariamente un punto di minimo essendo la funzione ψconvessa.

Proposizione 5.7. Sia X,X , Pη : η ∈ H una famiglia esponenziale rego-lare in forma canonica di rango k con H aperto. Sia x0 il valore dei datiosservato e si ponga t0 = t(x0). Lo stimatore di massima verosimiglian-za per x0 esiste se e solo se t0 appartiene all’interno del convessificato delsupporto della distribuzione di t(ξ).

Page 80: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

80 CAPITOLO 5. FAMIGLIA ESPONENZIALE

Dim. Sia C il convessificato del supporto della legge di t(ξ). E’ sufficienteosservare che per definizione di interno di un convesso, t0 appartine all’inter-no di C se e solo se per ogni d 6= 0 in Rk, gli insiemi y : (y− t0, d) > 0∩Ce y : (y − t0, d) < 0 ∩ C sono non vuoti. La tesi segue quindi dallaProposizione 5.6 e dalla definizione di supporto di una misura.

Proposizione 5.8. Sia X,X , Pη : η ∈ H una famiglia esponenziale re-golare in forma canonica di rango k con H aperto tale che Pη sia assolu-tamente continua rispetto alla misura di lebesgue. Allora lo stimatore dimassima verosimiglianza esiste con probabilita uno.

Dim. La tesi segue immediatamente dal fatto che la frontiera di uninsieme convesso ha misura di lebesgue nulla.

5.5 Famiglie esponenziali per campioni i.i.d.

Un’altra buona proprieta delle famiglie esponenziali e che un prodotto difamiglia esponenziali e ancora una famiglia esponenziale. In altri terminise consideriamo un modello statistico in cui le osservazioni (ξ1, ξ2, . . . , ξn)sono variabili aleatorie indipendenti ed identicamente distribuite a valoriin (X,X ) con comune legge appartenente ad una famiglia esponenziale de-scritta da (µ, t, η,Θ), allora il modello statistico associato al campione n-dimensionale e ancora una famiglia esponenziale. In particolare la misuraPθ per il modello n-dimensionale sara

Pθ(A) =∫A

exp( n∑

i

t(x), η(θ))− nψ(θ)

µ(dx1) . . . µ(dxn) (A ∈ X n).

Si noti che Θ rimane invariato cosı come η, mentre la nuova statistica suffi-ciente e completa sara

∑ni=1 t(x), la nuova funzione ψ sara nψ(θ) e la nuova

misura di riferimento sara il prodotto delle µ, ossia dµ⊗n. Posto

Tn(x) =1n

n∑i=1

t(xi)

la forma canonica e utile scriverla come

dQηdµ⊗n

(x) = exp(nTn, η)− nψ(η)

Page 81: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

5.6. ESERCIZI 81

conψ(η) = log

∫X

exp(t(x1), η)dµ(x1).

In questo modo l’equazione per gli stimatori di massima verosimiglianza(5.4) diventa

nTn(x0) = n∇ψ(η)

ossia, se x0 = (x0,1, . . . , x0,n),

1n

n∑i=1

t(x0,i) = ∇ψ(η) = Eη[t(ξ1)].

5.6 Esercizi

Esercizio 11. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con legge co-mune esponenziale di parametri (a, λ), ossia con comune densita di proba-bilita

fa,λ(xi) = λI(a,+∞)(xi)e−λ(xi−a) (a > 0, λ > 0).

Si denoti, inoltre, con Pa,λ la misura di probabilita di (ξ1, . . . , ξn)

1. Scrivere la densita di (ξ1, . . . , ξn).

2. Il modello Rn,B(Rn), Pa,λ : λ ∈ R+ e una famiglia esponenziale? Ilmodello Rn,B(Rn), Pa,λ : a ∈ R+, λ ∈ R+ e una famiglia esponen-ziale?

3. Noto a mostrare che∑n

i=1 xi e una statistica sufficiente e completaper λ.

4. Noto λ mostrare che νn e una statistica sufficiente e completa per a.

Esercizio 12. Siano ξ1, . . . , ξn variabili aleatorie indipendenti con leggecomune di pareto di parametri (a, λ), ossia con comune densita di probabilita

fλ,a(x) = λaλ1

xλ+1I(a,+∞)(x) (a > 0, λ > 0).

Si denoti, inoltre, con Pa,λ la misura di probabilia di (ξ1, . . . , ξn)

1. Scrivere la densita di (ξ1, . . . , ξn).

Page 82: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

82 CAPITOLO 5. FAMIGLIA ESPONENZIALE

2. Il modello Rn,B(Rn), Pa,λ : λ ∈ R+ e una famiglia esponenziale? Ilmodello Rn,B(Rn), Pa,λ : a ∈ R+, λ ∈ R+ e una famiglia esponen-ziale?

3. Noto a mostrare che∑n

i=1 log(xi) e una statistica sufficiente e com-pleta per λ.

4. Noto λ mostrare che νn e una statistica sufficiente e completa per a.

Page 83: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 6

Stimatori a VarianzaUniformemente Minima.

La sufficienza, unitamente alla completezza, si rivela una proprieta fonda-mentale per la ricerca di stimatori ottimali di funzioni dei parametri incog-niti. Preliminari all’illustrazione di questo punto sono alcuni concetti legatialla nozione di stimatore puntuale di un parametro.

Nel seguito si supponga fissata una funzione

τ : Θ → R.

Se lo spazio dei parametri e R l’esempio piu classico di τ e l’ identita.

In questo capitolo considereremo statistiche che siano stimatori di τ(θ),per tanto statistiche a valori reali:

t : (X,X ) → (R,B(R)).

Per valutare la bonta di uno stimatore puntuale si considerano simultane-amente due aspetti: la capacita di avvicinarsi al valore vero della quantitada stimare e la variabilita intorno a tale valore. Piuprecisamente, e possibilevalutare l’errore (o scarto) quadratico medio (EQM) di un genericostimatore t calcolando

EQM(t, θ) := Eθ[(t(ξ)− τ(θ))2

](6.1)

= [Eθ(t(ξ)− τ(θ))]2 + V arθ(t(ξ)) (6.2)

Tra tutti i possibili stimatori per τ(θ) si vorrebbe quindi cercare quelloche minimizza sia lo scarto medio dal valore vero di τ che la varianza. In

83

Page 84: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

84CAPITOLO 6. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA.

generale, data l’ampiezza della classe degli stimatori ammissibili, non sitrova uno stimatore ottimale unico sulla base di questo criterio. Pertanto eopportuno restringere la ricerca all’interno della classe degli stimatori nondistorti per τ(θ).

Uno stimatore t si dice non distorto per τ(θ) se vale

Eθ(t(ξ)) = τ(θ) ∀ θ ∈ Θ.

Dalla (6.1) e chiaro che, considerando soltanto stimatori non distorti, ilconfronto va fatto sulla base della varianza. Per far cio e naturale restringersialla classe degli stimatori con varianza finita.

Nel seguito denotiamo con Uτ l’insieme degli stimatori non distorti avarianza finita di τ , ossia

Uτ : = t : (X,X ) → (R,B(R)) : V arθ(t(ξ)) < +∞,

Eθ(t(ξ)) = τ(θ) ∀θ ∈ Θ.

Come gia detto si puo pensare che piu uno stimatore abbia varianzapiccola piu sia buono. Tuttavia, dal momento che vi e la dipendenza dalparametro θ, incognito, non e ovvio cosa intendere per varianza piccola.Potrebbe accadere che uno stimatore per certi valori di θ abbia variazabassa mentre per altri valori di θ lo stesso stimatore abbia varianza moltoalta. Generalmente si e portati a considerare migliore uno stimatore cheminimizzi uniformemnte la varianza nell’ ambito degli stimatori non distorticon varianza finita.

Uno stimatore t∗ appartenente a Uτ e detto stimatore non distorto avarianza uniformemente minima (in inglese UMVUE) se

V arθ(t∗(ξ)) ≤ V arθ(t(ξ)) ∀ t ∈ Uτ , ∀ θ ∈ Θ.

Se non vengono fatte ipotesi sul campione e sulla funzione da stimarenon e detto che tali stimatori esistano. Vedremo ora sotto quali condizionie possibile costruire uno stimatore a varianza uniformemente minima. Suf-ficienza e completezza forniscono risultati utili per la ricerca di stimatoriottimali. Un primo importante risultato in tale direzione e il seguente

Lemma 6.1. (Kolmogorov, Blackwell, Rao).Siano M = (X,X , Pθ) : θ ∈ Θ un modello statistico, t1 una statisticasufficiente per M e t2 uno stimatore non distorto per τ(θ). Allora:

Page 85: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

85

(i) Esiste una versione t3(ξ) di Eθ(t2(ξ)|t1(ξ)) indipendente da θ e taleche Eθt3(ξ) = τ(θ).

(ii) V arθt3(ξ) ≤ V arθt2(ξ) ∀ θ ∈ Θ.

Dimostrazione Dalla sufficienza di t1 segue (si veda il Teorema A.2) cheesiste una versione (che indichiamo con t3(ξ)) di Eθ(t2(ξ)|t1(ξ)) indipendenteda θ. Si ha che

Eθ(t3(ξ)) = Eθ[Eθ(t2(ξ)|t1(ξ))] = Eθ(t2(ξ)) = τ(θ). (6.3)

La disuguaglianza di Jensen per le speranze condizionali implica che

t3(ξ)2 = (Eθ[t2(ξ)|t1(ξ)])2 ≤ Eθ[t22(ξ)|t1(ξ)] (6.4)

e quindiEθ(t23(ξ)) ≤ Eθ(t22(ξ)).

Questo teorema non ci assicura che t3 sia a varianza uniformemente min-ima, ma ci fornisce una tecnica per migliorare uno stimatore non distortosfruttando la conoscenza di una statistica. Per ottenere uno stimatore a var-ianza uniformemente minima dobbiamo rinforzare le ipotesi sulla statisticarispetto alla quale si condiziona. Un risultato fondamentale e il seguenteclassico

Teorema 6.2. (Lehmann, Scheffe).Siano soddisfatte le condizioni del precedente Lemma e si assuma inoltre chet1 sia completa. Allora t3 e stimatore UMVUE per τ(θ).

Dimostrazione Sia u′(ξ) uno stimatore non distorto di τ(θ) tale che

V arθ(u′(ξ)) ≤ V arθ(t3(ξ))

per un certo θ ∈ Θ. Grazie al lemma precedente si ha che esiste una versionet′(ξ) di Eθ(u′(ξ)|t1(ξ)) tale che

V arθ(t′(ξ)) ≤ V arθ(u′(ξ)) ≤ V arθ(t3(ξ))

D’altro canto si ha che t3(ξ) = φ t1(ξ) e t′(ξ) = φ′ t1(ξ) per opportuneφ e φ′. Poiche t1 e completa e t′ e t3 sono stimatori non distorti di τ(θ), nesegue che t3 = t′ Pθ-q.c.. Dunque V arθ(u′(ξ)) = V arθ(t3(ξ))

Page 86: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

86CAPITOLO 6. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA.

Il signficato dei due risultati appena esposti e che lo stimatore UMVUE,se esiste, va cercato tra gli stimatori non distorti che siano funzioni di statis-tiche sufficienti e complete. Si noti che la statistica t1 dei precedenti teo-remi non necessariamente e una statistica a valori reali. Come illustratodal seguente esempio e spesso utile condizionare a statistiche che assumonovalori in Rk.

Esempio 42 (Modello Gaussiano). Si consideri modello gaussiano dell’e-sempio 8. In altri termini

X = Rn, X = B(Rn), Θ = R× (0,+∞) θ = (µ, σ2)

e

fθ(x) =n∏k=1

1(σ22π)1/2

exp− 1

2σ2(xk − µ)2

x = (x1, . . . , xn) ∈ Rn.

Si vuole stimare τ(θ) = Eθξ1 = θ. Come gia visto quando si e trattata lafamiglia esponenziale, si ha che t1(ξ) = (

∑ni=1 ξi,

∑ni=1 ξ

2i ) e una statistica

sufficiente e completa per tale modello, almeno scritto in forma canonica.E’ immediato dedurre che lo e anche per il medesimo modello scritto comesopra, perche in questo caso la forma canonica e una reale riparametriz-zazione del modello sopra scritto. Si osservi ora che la media campionariamn = 1

n

∑ni=1 ξi e uno stimatore non distorto per τ(θ) = µ ed inoltre e

funzione di t1. Applicando il Teorema 6.2 si ha quindi che mn e stimatoreUMVUE per µ. In maniera analoga si consideri

sn(ξ) :=1

n− 1

n∑i=1

(ξ − mn)2 =1

n− 1(n∑i=1

ξ2 − nm2n).

Semplici conti porgono Eθ(sn(ξ)) = σ2, quindi sn e uno stimatore non dis-torto di τ(θ) = σ2, inoltre poiche e funzione di t1 esso e e uno stimatoreUMVUE per σ2.

Esempio 43 (Regressione lineare Gaussiana). Si consideri modello di re-gressione lineare gaussiana dell’Esempio 41. In altri termini

X = Rn, X = B(Rn), Θ = R× R× (0,+∞) θ = (α, β, σ2)

e

fθ(x) =1

(σ22π)n/2exp

− 1

2σ2

n∑i=1

(xi − αzi − β)2

x = (x1, . . . , xn) ∈ Rn.

Page 87: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

6.1. ESERCIZI 87

Ragionando come nell’esempio precedente si dimostra che

t1(ξ) = (n∑i=1

ξ2i ,

n∑i=1

ξi,

n∑i=1

ξizi)

e una statistica per il modello in forma canonica ma anche per il modelloscritto come sopra. Consideriamo ora gli stimatori ai minimi quadrati di αe β

αn(ξ) =1σ2

1,n

( 1n

n∑i=1

ξizi −m1,n1n

n∑i=1

ξi

)

β(ξ) =1n

n∑i=1

ξi −m1,n

σ21,n

( 1n

n∑i=1

ξizi −m1,n1n

n∑i=1

ξi

)dove

m1,n =1n

n∑i=1

zi, σ21,n =

1n

n∑i=1

z2i −m2

1,n

si veda Esempio 13. Semplici conti mostrano che Eθ[α(ξ)] = α e Eθ[β(ξ)] =β. Poiche α e β risultano funzioni di t1 essi sono stimatori UMVUE.

6.1 Esercizi

Esercizio 13. [Vedi Esercizio 11] Siano ξ1, . . . , ξn variabili aleatorie in-dipendenti con legge comune esponenziale di parametri (a, λ), ossia concomune densita di probabilita

fα,θ(xi) = λI(a,+∞)(xi)e−λ(xi−a).

1. Noto a determinare uno stimatore UMVUE di λ.

[Usare l’Esercizio 11 e il fatto che se Z e una variabile aleatoria conlegge Gamma(n, θ) allora E(1/Z) = θ/(n− 1)]

[soluzione: (n− 1)/∑n

i=1(xi − a)]

2. Noto λ determinare uno stimatore UMVUE di a.

[soluzione: νn − 1/nλ]

Page 88: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

88CAPITOLO 6. STIMATORI A VARIANZA UNIFORMEMENTE MINIMA.

Esercizio 14. [Vedi Esercizio 12] Siano ξ1, . . . , ξn variabili aleatorie in-dipendenti con legge comune di pareto di parametri (a, λ), ossia con comunedensita di probabilita

fλ,a(x) = λaλ1

xλ+1I(a,+∞)(x) (a > 0, λ > 0).

1. Noto a determinare uno stimatore UMVUE di λ. [Usare l’Esercizio12 e il fatto che se Z e una variabile aleatoria con legge Gamma(n, θ)allora E(1/Z) = θ/(n− 1)]

2. Noto λ determinare uno stimatore UMVUE di a.

Esercizio 15. Siano ξ1, . . . , ξn variabili indipendenti aleatorie con comunelegge di Poisson di parametro θ. Determinare uno stimatore non distorto avarianza uniformemente minima per

τ(θ) := Pθξ1 = 0 = e−θ.

[Suggerimento: si ricordi che∑n

i=1 ξ1 e una statistica sufficiente e com-pleta per tale modello. Trovare una statistica semplice che sia stimatore nondistorto di τ(θ). Applicare il Teorema di Lehmann-Scheffe.]

Page 89: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 7

Informazione di Fisher edapplicazioni

Risale a Ronald A. Fisher (1890-1962) il primo tentativo di quantificare ilcontenuto d’informazione di un processo di osservazione e, in particolare,di una statistica. In questo capitolo considereremo solo modelli parametricicon Θ ⊂ R.

Si supporranno soddisfatte le condizione seguenti

H1 Θ e un intervallo aperto di R. Il modello e dominato da una misuraσ-finita µ. La densita di Pθ rispetto a µ sara indicata con fθ.

H2 X+ := x ∈ X : fθ(x) > 0 non dipende da θ.

H3 θ 7→ fθ(x) e una funzione derivabile con continuita su Θ, per ogni x inX.

H4 Per ogni θ in ΘEθ[∂θ log(fθ(ξ))1X+(ξ)] = 0.

H5 Per ogni θ in Θ

[(∂θ log(fθ(ξ)))

2 1X+(ξ)]< +∞.

La condizione H2 implica che Pθ0 domina il modello, comunque sia sceltoθ0. Infatti, da Pθ0(A) = 0 segue che

0 =∫Afθ0(x)µ(dx) =

∫A∩X+

fθ0(x)µ(dx)

89

Page 90: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

90 CAPITOLO 7. INFORMAZIONE DI FISHER ED APPLICAZIONI

ovvero µ(A ∩X+) = 0 e, quidni,

0 =∫A∩X+

fθ(x)µ(dx) =∫A∩X+

fθ(x)µ(dx) +∫A∩(X+)c

fθ(x)µ(dx) = Pθ(A)

per ogni θ in Θ. Naturalmente Pθ0 e una dominante privilegiata del modello.La H4 vale certamente quando

θ 7→∫Xfθ(x)µ(dx)

e derivabile sotto il segno di integrale. In tal caso infatti, poiche∫X fθ(x)µ(dx) =

1 per ogni θ, si ha

0 =d

∫X+

fθ(x)µ(dx) =∫X+

∂θfθ(x)µ(dx) =∫X+

∂θ log(fθ(x))Pθ(dx).

Dalla seconda uguaglianza delle precedenti si deduce che H5 puo essereriformulata, in modo espressivo, come

I(θ) := V arθ(∂θ log(fθ(ξ))) < +∞.

Va osservato che I(θ) e una funzione di Pθ e non dipende da µ ne dalla ver-sione scelta di fθ, per tanto e giustificata la denominazione di informazionesecondo Fisher relativa al modello. Per convincersi del fatto che I(θ)dipenda solo da Pθ, e sufficiente osservare che

fθ(x) =dPθdPθ0

(x)dPθ0dµ

(x)

µ quasi ovunque, e quindi

∂θ log(fθ(x)) = ∂θ log(dPθdPθ0

(x))

µ quasi ovunque. In altri termini

I(θ) = V arθ

(∂θ log

(dPθdPθ0

(ξ))

1X+(ξ)).

Per concludere questo paragrafo introduttivo osserviamo che l’informazionedi Fisher gode di una proprietata di additivita nel caso di successioni diosservazioni indipendenti. Supponiamo che X = X1 × · · · ×Xn, e che

Pθ(A1 × . . . An) = p(1)θ (A1)× . . . p

(n)θ (An)

Page 91: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

7.1. LA DISUGUAGLIANZA DI FISHER-CRAMER-RAO 91

per ogni A1, . . . An in X1, . . .Xn, con p(i)θ : θ ∈ Θ famiglia di misure di

probabilita su Xi per i = 1, . . . , n. Si vede facilmente che Pθ : θ ∈ Θsoddisfa H1-H5 se p(i)

θ : θ ∈ Θ soddisfa le corrispondenti proprieta perogni i = 1, . . . , n. Inoltre, posto

I(i)(θ) = V arθ(∂θ log(f (i)θ (ξ))1f (i)

θ (ξi)) > 0),

con f (i)θ una densita per p(i)

θ rispetto ad una dominante µ(i) σ–finita su Xi,si ha

I(θ) =n∑i=1

I(i)(θ).

Infatti

I(θ) = V arθ(∂θ log(fθ(ξ))1X+(ξ)) = V arθ(n∑i=1

∂θ log(f (i)θ (ξi))1X+(ξ))

=n∑i=1

V arθ(∂θ log(f (i)θ (ξi))1f (i)

θ (ξi)) > 0) =n∑i=1

I(i)(θ).

7.1 La disuguaglianza di Fisher-Cramer-Rao

Consideriamo una statistica Y tale che Eθ(Y (ξ)) = τ(θ) per ogni θ in Θ,dove τ e una data funzione a valori reali, il cui valore si sia interessati astimare.

Un modello statistico in forma parametrica si dice regolare se, oltre alleH1-H5 del paragrafo precedente, soddisfa

d

dθEθ[Y (ξ)] = Eθ[Y (ξ)∂θ log(fθ(ξ))1X+(ξ)] (7.1)

per ogni funzione misurabile a valori reali definita su (X,X ) con Eθ(Y 2(ξ)) <+∞ per ogni θ in Θ. Si osservi che la precedente condizione e verificatasicuramente se

θ 7→∫XY (x)fθ(x)µ(dx)

e derivabile sotto il segno d’integrale, per ogni Y come nella definizione datasopra.

Page 92: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

92 CAPITOLO 7. INFORMAZIONE DI FISHER ED APPLICAZIONI

Teorema 7.1. Se il modello introdotto e regolare e se I(θ) > 0 per ogni θin Θ, allora

V arθ(Y (ξ)) ≥ (τ(θ))2

I(θ)

per ogni θ in Θ ed ogni stimatore non distorto Y di τ .

Dimostrazione Dalla condizione (7.1) si ha che

τ(θ) = Eθ(Y ∂θ log fθ(ξ)1X+)= Covθ(Y, ∂θ log(fθ(ξ))1X+) [per la H4]

e per la disuguaglianza di Cauchy-Schwartz

[Covθ(Y, ∂θ log(fθ(ξ))1X+)]2 ≤ V arθ(Y )I(θ)

7.2 L’informazione di Fisher come misura del con-tenuto d’informazione

Per poter apprezzare il ruolo di I come misura del contenuto d’informazionerealtivo ad un processo d’osservazione, conviene soffermarsi sul suo compor-tamento rispetto alla sostituzione dell’osservazione con una statistica chene dipenda. Considerata, nella solita notazione, la statistica t : (X,X ) →(T, T ), si definiscano il modello statistico indotto (T, T ), Pθ,t : θ ∈ Θ,dove Pθ,t(B) := Pθt(ξ) ∈ B per ogni B in T , e la misura µt su (T, T )indotta da t, µt(B) := µx : t(x) ∈ B per ogni B in T . Se µ e assegantacome in H2, allora µt domina Pθ,t : θ ∈ Θ. Infatti, se µt(B) = 0, alloraµx : t(x) ∈ B = 0 e quindi, poiche µ domina il modello, Pθt(ξ) ∈ B = 0e, dunque, Pθ,t(B) = 0. Si denoti, d’ora in avanti, con fθ,t una versione didPθ,t/dµt.

Proposizione 7.2. Sotto le condizioni H1,H2,H3,H4 e H5 e la notazionifin qui adottate, se µ e una misura di probabilita, si ha

fθ,t(y) = Eµ[fθ(ξ)|t(ξ) = y] q.c.− µt.

Page 93: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

7.2. L’INFORMAZIONE DI FISHER COME MISURA DEL CONTENUTO D’INFORMAZIONE93

Dimostrazione. Per ogni B in T , valgono le seguenti uguaglianze∫BEµ[fθ(ξ)|t(ξ) = y]µt(dy) = Eµ[1t(ξ) ∈ BEµ[fθ(ξ)|t(ξ)]]

= Eµ[1t(ξ) ∈ Bfθ(ξ)]

= Pθ,t(B) =∫Bfθ,t(y)µt(dy).

Teorema 7.3. Si supponga che i modelli (X,X ), Pθ : θ ∈ Θ e (T, T ), Pθ,t :θ ∈ Θ soddisfino H1-H5, e si denoti l’informazione relativa al secondomodello con It. Allora

It(θ) = 0 ∀ θ ∈ Θ (7.2)

se e solo se t e una statistica libera.

Dimostrazione. Se vale (7.2), allora V arθ(∂θ log fθ,t(t(ξ))1fθ,t(t(ξ) > 0) =0 e, per la H4,

∂θ log fθ,t(t(ξ)) = 0 q.c. Pθ.

Posto Nθ = x : ∂θ log fθ,t(t(x)) 6= 0 e N = ∪Θ∩QNθ, si ha Pθ0(N) = 0 perogni θ0 in Θ. Quindi, grazie a H3, ∂θ log fθ,t(t(x)) = 0 per ogni θ in Θ e perogni x in N c. Percio fθ,t e indipendente da θ. Viceversa, se quest’ultimacircostanza si verifica, allora ∂θ log fθ,t(t(x)) = 0 e, percio, It(θ) = 0, perogni θ.

Teorema 7.4. Si supponga che i modelli (X,X ), Pθ : θ ∈ Θ e (T, T ), Pθ,t :θ ∈ Θ soddisfino H1-H5, e sia t una statistica sufficiente per il primo.Allora,

It(θ) = I(θ) per ogni θin Θ.

Dimostrazione. La sufficienza di t implica (si veda il Teorema 12.1) che

f∗θ (x) :=dPθdPθ0

(x) = ψθ(t(x))

Pθ0 quasi certamente. Dalla Proposizione 7.2 segue che la densita f∗θ,t di trispetto a Pθ0,t soddisfa

f∗θ,t(y) = Eθ0 [f∗θ (ξ)|t(ξ) = y] = ψθ(y)

Page 94: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

94 CAPITOLO 7. INFORMAZIONE DI FISHER ED APPLICAZIONI

Pt,θ quasi certamente. Quindi,

I(θ) =∫X+

(∂θ logψθ(t(x)))2 Pθ(dx)

=∫y∈T :ψθ(y)>0

(∂θ logψθ(y))2 Pθ,t(dy)

= It(θ).

Per dimostrare l’inversa ci poniamo nella condizione piu restrittiva dimodelli regolari.

Teorema 7.5. I modelli (X,X ), Pθ : θ ∈ Θ e (T, T ), Pθ,t : θ ∈ Θ sianoregolari. Allora

It(θ) ≤ I(θ)

per ogni θ in Θ e l’uguaglianza vale per ogni θ se e solo se t e sufficiente.

Dimostrazione. Dimostriamo prima di tutto che

∂θ log fθ,t(y)1fθ,t(y) > 0 = Eθ[∂θ log fθ(ξ)1X+ |t(ξ) = y] (7.3)

Pθ,t quasi certamente per ogni θ in Θ. Per dimostrare questa prima af-fermazione consideriamo una variabile aleatoria Y (x) σ(t) misurabile, ossiaY (x) = Y ∗(t(x)) per qualche Y ∗, e con momento secondo finito. Applicando(7.1) si ottiene

d

dθEθ(Y ) =

∫X+

Y (x)∂θ log fθ(x)Pθ(dx)

=∫XY ∗(t(x))Eθ[∂θ log fθ(ξ)1X+ |t(ξ) = t(x)]Pθ(dx).

D’altro canto,

d

dθEθ(Y ) =

d

∫X+

Y ∗(t(x))fθ(x)µ(dx)

=d

∫fθ,t(y)>0

Y ∗(y)fθ,t(y)µt(dy)

=∫fθ,t(y)>0

Y ∗(y)∂θ(log fθ,t(y))Pθ,t(dy)

=∫fθ,t(t(x))>0

Y ∗(t(x))∂θ(log fθ,t(t(x)))Pθ(dx)

Page 95: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

7.2. L’INFORMAZIONE DI FISHER COME MISURA DEL CONTENUTO D’INFORMAZIONE95

e quindi, per l’arbitrarieta di Y , vale (7.3). Ora, applicando l’uguaglianzadi Jensen e l’uguaglianza appena dimostrata,

I(θ) = Eθ[Eθ[(∂θ log fθ(ξ))21X+(ξ)|t]]≥ Eθ[Eθ[∂θ log fθ(ξ)1fθ,t(t(ξ))>0|t]2]= Eθ[(∂θ log fθ,t(t(ξ)))1fθ,t(t(ξ))>0)

2]

= It(θ)

per ogni θ in Θ. Resta da dimostrare che se It(θ) = I(θ) per ogni θ allora te sufficiente. Se vale la precedente uguaglianza per ogni θ allora

∂θ log fθ(ξ) = Eθ[∂θ log fθ(ξ)|t(ξ)] Pθ − q.c. (7.4)

per ogni θ. Infatti se Y e una variabile aleatoria a quadrato sommabile, siha

E[X2|Y ] = E[(X − E[X|Y ])2|Y ] + (E[X|Y ])2 ≥ (E[X|Y ])2

quasi certamente. Inoltre l’uguaglianza vale se e solo se E[(X−E[X|Y ])2|Y ] =0 quasi certamente, ossia se e solo se X = E[X|Y ] quasi certamente. Da(7.4), si deduce che per ogni θ esiste una funzione gθ : T → R tale che

∂θ log fθ(ξ) = gθ(t(ξ))

Pθ quasi certamente. Argomentando come nella dimostrazione del Teorema7.3 si dimostra che esiste un insieme N misurabile, con Pθ(N) = 0 per ogniθ, tale che

∂θ log fθ(x) = gθ(t(x))

vale per ogni θ in Θ e per ogni x in N c. Fissato allora θ0 in Θ, usando ilfatto che θ 7→ log(fθ(x)) e una funzione C1 e usando la precedente identitasi ottiene, per ogni x in N c,

log(fθ(x))− log(fθ0(x)) =∫ θ

θ0

∂τ log fτ (x)dτ

=∫ θ

θ0

gτ (t(x))dτ (x ∈ N c, θ ∈ Θ)

e, quindi, per mezzo del teorema di fattorizzazione, la sufficienza di t

I teoremi precedenti asseriscono proprieta che, intuitivamente, ci si at-tenderebbero soddisfatte da una misura di informazione. La prima parte delTeorema 7.5 stabilisce, infatti, che l’informazione di Fisher relativa al mod-ello di partenza e uniformemente (rispetto a θ) non inferiore a quella del

Page 96: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

96 CAPITOLO 7. INFORMAZIONE DI FISHER ED APPLICAZIONI

modello indotto da una qualunque statistica. La seconda parte dello stessoe il Teorema 7.4 pongono in evidenza che la sufficienza di tale statistica el’unica condizione che possa assicurare l’uguaglianza dell’informazione nelmodello iniziale e in quello derivato. Con cio resta confermato il significa-to della proprieta di sufficienza riguardo alla non alterazione del contenutod’informazione nel passaggio dai dati ad un riassunto esaustivo degli stessi.Una situazione opposta si ha, come fissa il Teorema 7.3, con le statistichelibere; in accordo, ancora una volta, con l’intuizione.

Page 97: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 8

Stimatori M e Z.

Come sempre supponiamo di avere a che fare con un modello statistico(X,X , Pθ : θ ∈ Θ). In questo capitolo e nel successivo restringeremo lanostra attenzione a modelli in cui

• X := (Rd)N e X e la σ-algebra dei boreliani di X.

• Θ e uno spazio metrico (denoteremo con d(·, ·) la relativa metrica).

• Pθ : θ ∈ Θ e una famiglia di misure prodotto tale che ogni Pθ rendaindipendenti e identicamente distribuite le variabili aleatorie ξi. Inaltri termini Pθ := ⊗∞i=1pθ ove pθ e una misura di probabilita suiboreliani di Rd, ossia

Pθ(A1 × . . . An × (Rd)+∞) =∫A1×...An

pθ(dx1) . . . pθ(dxn)

Ai ∈ B(Rd), i = 1 . . . n.

Parlando di variabili aleatorie a valori in Θ si sottointendera scelta su Θla σ-algebra dei boreliani.

Infine si avra ξ = (ξ1, . . . , ξn, . . . ).

8.1 Il metodo di sostituzione

In ambito frequentista, come gia ricordato, si suppone implicitamente l’e-sistenza di un parametro θ0 tale che la distribuzione ′′reale′′ di ξ sia Pθ0 .

97

Page 98: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

98 CAPITOLO 8. STIMATORI M E Z.

Sebbene non sappiamo quale sia questo parametro θ0 sappiamo che essoesiste.

Indicheremo con Fθ la funzione di ripartizione in Rd relativa a pθ, percui pθ(dx) = dFθ(x), misura di Lebesgue-Stiltjes.

Abbiamo gia avuto modo di vedere che in molti casi non si e interessatia fare dell’inferenza direttamente sul parametro θ0 (ossia direttamente supθ0) ma, piuttosto, su un funzionale di pθ0 .

Per semplicita supponiamo che Θ ⊂ F, dove F indica l’insieme dellefunzioni di ripartizione su Rd (dotato della metrica della convergenza de-bole). Un funzionale di pθ e semplicemente una funzione T : F0 → T, dovetipicamente T ⊂ Rk e Θ ⊂ F0 ⊂ F.

Ecco alcuni esempi importanti con d = 1.

Media p:

T (F ) = Meanp(F ) :=∫

RxpdF (x);

Varianza:

T (F ) = V ar(F ) :=∫

R(x−

∫RydF (y))2dF (x);

Quantile:T (F ) = Qp(F ) := F−1(p) = infx : F (x) ≥ p;

Skewness:

T (F ) = k(F ) =

∫R(x−

∫R ydF (y))3dF (x)

[∫

R(x−∫

R ydF (y))2dF (x)]3/2;

Funzione di ripartizione in x:

T (F ) = F (x).

Infine vediamo un esempio di funzionale definito su un sottoinsieme dellefunzioni di ripartizioni doppie, ossia per d = 2.

Correlazione:

T (F ) = ρ(F ) =

∫R2 [(x−

∫R tdF1(t))(y −

∫R tdF2(t))]dF (x, y)

([∫

R(x−∫

R tdF1(t))2dF1(x)][∫

R(y −∫

R tdF2(t))2dF2(y)])1/2,

dove F1(x) =∫(−∞,x]×R dF (t, y) e F2(y) =

∫R×(−∞,y] dF (x, t).

Page 99: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

8.2. STIME M E Z 99

Il metodo di sostituzione consiste nel considerare come stimatore di unfunzionale T (F ) il funzionale medesimo calcolato nella funzione di ripar-tizione empirica assocaita alle prime n osservazioni, i.e. T (Fn), a patto cheFn appartenga a F0.

Ricordiamo che la funzione di ripartizione empirica associata a(ξ1, . . . , ξn) e definita come

Fn(x) = Fn,ξ(x) :=1n

n∑k=1

1ξk≤x,

ove ξk ≤ x significa (ξk)i ≤ (x)i, i = 1, ..., d. Si noti che fissata una real-izzazione di ξ in X (ossia una traiettoria), x 7→ Fn,ξ(x) e una funzione diripartizione, viceversa, fissato x in Rd, ξ 7→ Fn,ξ(x) e una variabile aleatoria.In altri termini Fn(·) e un processo stocastico.

Ricordiamo anche che, grazie al teorema di Glivenko Cantelli, si ha

supx∈Rk

|Fn(x)− F (x)|

P−q.c.→ 0.

Questa osservazione giustifica euristicamente il metodo di sostituzione,infatti ci si puo aspettare che, per n grande, T (Fn) sia vicino a T (F ), almenose T e un funzionale in qualche senso continuo.

8.2 Stime M e Z

Nei capitoli precedenti abbiamo visto che due buone proprieta di uno sti-matore sono che esso sia non distorto e che sia a varianza uniformementeminima. Tuttavia tali proprieta non sono le uniche significative, inoltre, nonsempre e possibile determinare agevolmente stimatori non distorti a varianzauniformemente minima. E’ per tanto interessante determinare strategie checonducano a costruire stime sensate, anche se magari non ottimali dal puntodi vista della varianza. Le stime di massima verosimiglianza constituisconoun primo ed importante esempio in questa direzione.

Un metodo per determinare classi abbastanza generali di stimatori equello di ottenere uno stimatore minimizzando (o massimizzando) oppor-tune funzioni del parametro e delle osservazioni. Descriviamo una classe distimatori ottenuti in questo modo. Si consideri una funzione

ρ : Rd ×Θ → R

Page 100: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

100 CAPITOLO 8. STIMATORI M E Z.

tale che per ogni θ ∈ Θ l’applicazione

x 7→ ρ(x, θ)

sia misurabile ed inoltre

−∞ < Eθ0ρ(ξ1, θ0) =∫

Rd

ρ(x, θ0)dFθ0(x) <∫

Rd

ρ(x, θ)dFθ0(x) = Eθ0ρ(ξ1, θ)

per ogni θ 6= θ0. Si definisca quindi

M(θ) :=∫

Rd

ρ(x, θ)dFθ0(x). (8.1)

Notiamo che M dipende da θ0 ma che

argminθ∈ΘM(θ) = θ0.

Se conoscessimo M , per determinare θ0 sarebbe quindi sufficiente minimiz-zare la suddetta funzione, tuttavia per conoscere M dovremmo conoscereθ0, il che e ovviamente tautologico. Si puo pero procedere sostituendo ad Muna sua approssimazione, diciamo Mn, che dipenda dal campione osservatoma non da θ0, e scegliere come stima di θ0 il minimo di Mn.

A questo punto, ragionando come nel paragrafo precedente, viene natu-rale scegliere

Mn(θ) :=∫

Rd

ρ(x, θ)dFn(x)

come approssimazione di M(θ).

Osserviamo subito che

Mn,ξ(θ) =1n

n∑k=1

ρ(ξk, θ)

e che ξ 7→ Mn,ξ(θ) e misurabile. Quindi come stima di θ0 si puo scegliere

θn = argminθ∈ΘMn(θ). (8.2)

Spesso invece di voler stimare direttamente il parametro θ si e inter-essati solo ad “una parte” di tale parametro, ossia ad una funzione τ(·)di θ. In questo caso un criterio per determinare una stima di τ(θ0), con

Page 101: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

8.2. STIME M E Z 101

τ : Θ → Y funzione a valori in uno spazio metrico (Y, d), puo essere quellodi minimizzare

h→ Mn(τ−1(h)),

ossia scegliere come stimatore di t(θ0)

hn := argminh∈τ(Θ)Mn(τ−1(h)). (8.3)

Qui occorre osservare che τ−1 in generale non e iniettiva e che per tantoh 7→ Mn(τ−1(h)) potrebbe non essere ben definita. Per questo motivo puoconvenire considerare semplicemente come nuovo spazio dei parametri τ(Θ),e su questo spazio costruire una funzione di discrepanza

M(h) :=∫

Rd

ρ∗(x, h)dFθ(x),

con ρ∗ definita su X × τ(Θ) in modo che

argminh∈τ(Θ)M(h) = τ(θ0).

Di conseguenza si puo scegliere

Mn(h) =1n

n∑k=1

ρ∗(ξk, h)

e quindihn := argminh∈τ(Θ)Mn(h).

Osservazione. Naturalmente non e detto che i punti di massimo ominimo di cui si e discusso fin qui esistano. Inoltre, se anche viene garantital’esistenza di una successione di applicazioni da X in Θ che soddisfi (8.2) none affatto detto che gli elementi di tale successione siano variabili aleatorie,ossia siano misurabili.

Ovviamente quanto detto puo anche essere riletto dicendo che per ot-tenere una stima di θ0 si deve massimizzare

θ 7→Mn(θ) := −Mn(θ),

per questo motivo stimatori come quelli fin qui discussi sono spesso denom-inati stimatori M – dove M sta per “max”.

Notiamo che se Θ = Rk e θ → M(θ) e una funzione sufficientementeregolare, allora θ0 e un punto di Rk dove si annulla

Z(θ) := ∇M(θ).

Page 102: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

102 CAPITOLO 8. STIMATORI M E Z.

Pertanto si puo pensare di ottenere uno stimatore di θ0 cercando una soluzionedi

0 = ∇Mn(θ) =: Zn(θ).

Stimatori di questo tipo sono talvolta chiamati stimatori Z– dove Z staper “zero”. Va rilevato che vi sono stimatori ottenuti cercando le soluzionidi equazioni del tipo Zn(θ) = 0 dove tuttavia Zn non e necessariamente ilgradiente di una funzione.

In generale siaψ : Rd ×Θ → (R)k

una funzione tale che per ogni θ ∈ Θ l’applicazione x 7→ ψ(x, θ) sia misura-bile ed inoltre tale che θ0 sia l’unica soluzione del sistema di equazioni inθ ∫

Rd

ψi(x, θ)dFθ0(x) = 0, i = 1, . . . , k, (8.4)

ossia ∫Rd

ψi(x, θ0)dFθ0(x) = 0 i = 1, . . . , k,

e(∫

Rd

ψ1(x, θ)dFθ0(x), . . . ,∫

Rd

ψk(x, θ)dFθ0(x)) 6= (0, 0, . . . , 0)

per ogni θ 6= θ0.

Una successione di variabili aleatorie θn e detta successione di stimatoriZ per θ0 se

1n

n∑j=1

ψi(ξj , θn) = 0 i = 1, . . . , k, (8.5)

Pθ0 quasi certamente per ogni n ≥ 1.

8.3 Minima discrepanza

I metodi M possono essere spesso visti come metodi di minima discrepaza.Nei metodi di minima discrepanza si considera una funzione di discrepanzaD fra funzioni di ripartizione (o fra misure), tale che sia definita suD×D, conD sottoinsieme dello spazio delle funzioni di ripartizione (o delle misure) taleche Fθ : θ ∈ Θ ⊂ D. Per essere una discrepanza D deve essere tale che cheθ 7→ M(θ) := D(Fθ, Fθ0) sia una funzione con un solo minimo in θ0. Ancorasi puo sostituire ad M una sua approssimazione, diciamo Mn, che dipenda

Page 103: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

8.3. MINIMA DISCREPANZA 103

dal campione osservato ma non da θ0, e scegliere come stima di θ0 il minimodi Mn. Per determinare un’approssimazione di M , in generale, si cerca discegliere D in modo che contenga, per ogni n, la funzione di ripartizioneempirica associata a (ξ1, . . . , ξn) per ogni realizzazione di (ξ1, . . . , ξn). Sipuo quindi scegliere come approssimazione di M

θ 7→ D(Fθ, Fn) =: Mn(θ).

8.3.1 Le divergenze come esempio di discrepanze

Si assuma che p e q siano due misure di probabilita su (X,X ), e si ponga pae ps per la parte assolutamente continua e la parte singolare di p rispetto aq, da cui p = pa + ps.

La cosiddetta g–divergenza fra p e q si definisce come

Dg(p, q) =∫X\X∗

g(l(x)

)q(dx) + gp(X∗), (8.6)

dove

• g e una funzione convessa a valori in [0,+∞), con limx→+∞ x−1g(x) =g e g(1) = 0;

• l = dpa/dq e X∗ e un insieme di misura pa nulla tale che per ogniinsieme misurabile A, ps(A) = ps(A ∩X∗).

Se X e uno spazio discreto con cardinalita k e p = (p1, . . . , pk), q =(q1, . . . , qk) sono due vettori di probabilita allora

Dg(p, q) =k∑j=1

[I(0,+1](qj) g(pjqj

)qj + I0(qj)gpj ]. (8.7)

E’ facile verificare che la scelta g(x) = |x − 1|/2 implica che Dg(p , q)coincida con la distanza in variazione fra p e q, ossia

dTV (p, q) =12

∫X|fp(x)− fq(x)|µ(dx)

= supA∈X

|q(A)− p(A)|

dove fp e fq sono densita di p e q rispetto ad una misura σ–finita µ. Si puoscegliere µ = p+ q.

Page 104: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

104 CAPITOLO 8. STIMATORI M E Z.

Ecco altre forme importanti di g–divergenze.

Divergenza di Kullback–Leibler:

dKL(p, q) := ∫

X log(fp(x)/fq(x))fp(x)µ(dx) se p e assolutamente continua rispetto a q+∞ altrimenti.

distanza χ2:

dχ2(p, q) := ∫

X(fq(x)− fp(x))2fq(x)−1µ(dx) se p e assolutamente continua rispetto a q+∞ altrimenti.

distanza di Hellinger (al quadrato):

d2H(p, q) :=

∫X

(√fp(x)−

√fq(x)

)2µ(dx).

Questi indici possono essere ottenuti da Dg scegliendo g(x) = x log x,g(x) = (x− 1)2 e g(x) = (

√x− 1)2.

8.4 Esempi

Esempio 44 (Media). Si supponga di disporre di un campione di variabilialeatorie reali (ξ1, . . . , ξn) delle quali si sia interessati a stimare la media

τ(θ) = Eθ(ξ1).

Si puo notare cheτ(θ0) = argminm∈RM(m)

conM(m) = Eθ0 |ξ1 −m|2.

Applicando il principio di sostituzione otteniamo

Mn(m) =1n

n∑i=1

|ξi −m|2

e quindi abbiamo che una stima M di τ(θ) e data dalla media empirica

1n

n∑i=1

ξi.

Page 105: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

8.4. ESEMPI 105

Esempio 45 (Mediana). Nelle ipotesi dell’esempio precedente si suppongadi voler stimare una mediana di Pθ0 (per semplicita supponiamo che talemediana sia unica). Ancora si puo notare che

τ(θ0) := Med(Pθ0) = argminm∈RM(m)

conEθ0 |ξ1 −m|.

Applicando il principio di sostituzione otteniamo

Mn(m) =1n

n∑i=1

|ξi −m|

e quindi abbiamo che una stima di τ(θ) e data dalla mediana empirica, chenel caso di un campione di dimensione dispari e data da ξ(m), con m =(n− 1)/2 + 1.

Esempio 46. Un esempio di funzione di discrepanza fra funzioni di ripar-tizione e dato da

M(θ) =∫

R|Fθ(x)− Fθ0(x)|2dFθ0(x).

In questo caso

Mn(θ) =1n

n∑i=1

|Fθ(ξi)−1n|2.

Esempio 47 (Metodo dei momenti). Si supponga che il modello statisticopossa essere parametrizzato da un parametro θ tale che

θ = (θ1, . . . , θd) = (Eθ(g1(ξ1)), . . . , Eθ(gd(ξ1))).

Classicamente gi(x) = xi. Il metodo dei momenti, visto come metodo Z,consiste nel considerare

ψ(ξ1, θ)i =∫gi(x)dFθ(x)− gi(ξ1)

e quindi determinare θn come soluzione di∫gj(x)dFθn

(x) =1n

n∑k=1

gj(ξk) j = 1, . . . , d.

Page 106: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

106 CAPITOLO 8. STIMATORI M E Z.

8.5 Stimatori di Massima Verosimiglianza comestimatori M

Nel quadro generale degli stimatori M rientra una classe importantissima distimatori, gli Stimatori di Massima Verosimiglianza.

Supponiamo il modello statistico in esame sia dominato da una misuraσ-finita µ, inoltre poniamo fθ := dpθ

dµ .

Proposizione 8.1. Se µ(fθ > 04fθ0 > 0

)= 0, allora

maxθ∈Θ

∫Rd

log(fθ(x))dFθ0(x) =∫

Rd

log(fθ0(x))dFθ0(x). (8.8)

Scegliendo ρ(x, θ) := − log(fθ(x)), si ha che una scelta ammissibile didiscrepanza e

M(θ) = −∫

Rd

log(fθ(x))dFθ0(x).

Quindi per stimare θ0, occorre minimizzare

Mn(θ) := − 1n

n∑i=1

log(fθ(ξ)

)= − 1

nlog(

n∏i=1

fθ(ξi)).

Il che equivale a massimizzare la cosiddetta funzione di verosimiglianza delcampione n-dimensionale θ 7→

∏ni=1 fθ(ξi), ove

∏ni=1 fθ(ξi) e la densita n-

dimensionale di P θ.

Dim. della Prop. 8.1.

Sfruttando la disuguaglianza

x > log(1 + x) x 6= 0,

si ha ∫R

(log fθ0(x)− log fθ(x)

)fθ0(x)µ(dx) =

=∫x:fθ0

(x)>0,fθ(x)>0− log

( fθ(x)fθ0(x)

)fθ0(x)µ(dx) =

=∫x:fθ0

(x)>0,fθ(x)>0− log

(1 +

fθ(x)fθ0(x)

− 1)fθ0(x)µ(dx) =

≥−∫x:fθ0

(x)>0,fθ(x)>0

( fθ(x)fθ0(x)

− 1)fθ0(x)µ(dx).

(8.9)

Page 107: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

8.5. STIMATORI DI MASSIMA VEROSIMIGLIANZA COME STIMATORI M107

La disuguaglianza e stretta se Pθ0fθfθ0−1 6= 0 > 0, ossia si ha l’uguaglian-

za solo se Pθ0fθ = fθ0 = 1.

Page 108: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

108 CAPITOLO 8. STIMATORI M E Z.

Page 109: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 9

Consistenza

In questo capitolo ci occuperemo di una proprieta fondamentale degli sti-matori puntuali, la cosiddetta consistenza.

9.1 Stimatori consistenti

Abbiamo visto che una proprieta che spesso si richiede ad uno stimatore eche sia non distorto. Un’altra proprieta che e stata studiata e la varianzadi uno stimatore. In questo capitolo gli stimatori saranno studiati sotto ilprofilo della consistenza. In questo caso si suppone di avere a disposizioneuna successione (teoricamente infinita) di osservazioni, ossia X = ×i≥1Xi, esi richiede che al divergere della dimensione del campione il metodo di stimaconsiderato fornisca una risposta esatta.

Una successione di stimatori Tn(ξ)n di τ(θ) e detta successione de-bolmente consistente per τ(θ) se converge in probabilita Pθ a τ(θ), ossia

limn→∞

Pθd(Tn(ξ), τ(θ)) > ε = 0 ∀ε > 0.

Una successione di stimatori Tn(ξ)n di τ(θ) e detta successione forte-mente consistente per τ(θ) se converge Pθ-q.c. a τ(θ), ossia

Pθ limn→∞

Tn(ξ) = τ(θ) = 1.

109

Page 110: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

110 CAPITOLO 9. CONSISTENZA

Nel seguito ragioneremo sullo spazio canonico, ossia (Ω,F ,Pθ) = (X,X , Pθ)e ξ(ω) = x se ω = x.

9.2 Consistenza degli stimatori M

Il principale problema che ci poniamo in questo capitolo e di stabilire quan-do una successione (θn)n≥1 = (θn(x))n≥1 di stimatori M sia debolmenteconsistente per θ0, ossia quando (θn)n≥1 converga in probabilita a θ0, informule

limn→+∞

Pθ0x : d(θn, θ0) > ε

= 0 ∀ε > 0.

Se non si dispone di una successione di stimatori misurabili e ragionevolechiedersi quando

limn→+∞

P ∗θ0x : d(θn, θ0) > ε

= 0 ∀ε > 0,

ove P ∗θ e la misura esterna, ossia

P ∗θ (A) := infPθ(B) : A ⊂ B,B ∈ X.

In tutto il capitolo considereremo fissato il vero valore del parametro, di-ciamo θ0, e al posto di Pθ0 (Eθ0 , rispettivamente) scriveremo semplicementeP (E, rispettivamente) .

Un utile strumento per dimostrare la convergenza di una successione distimatori M e il seguente

Teorema 9.1. Siano N : Θ → R una funzione e Nn : X × Θ → R unasuccessione di applicazioni tali che siano misurabili le seguenti applicazioni:

x 7→ Nn(x, θ), ∀n ∈ N, ∀θ ∈ Θ,

x 7→ supθ∈Θ

|Nn(x, θ)−N(θ)| ∀n ∈ N.

Se

a) supθ∈Θ|Nn(x, θ)−N(θ)| converge in probabilita a zero (ripetto a P )per n→∞;

b) θn e una successione di applicazioni θn : X → Θ tali che

Nn(x, θn(x)) ≥ Nn(x, θ) + oP (1)

Page 111: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

9.3. CONSISTENZA DEGLI STIMATORI Z 111

per ogni θ ∈ Θ.

c)sup

θ:d(θ,θ0)>εN(θ) < N(θ0) ∀ε > 0;

alloralim

n→+∞P ∗d(θn, θ0) > ε = 0 ∀ε > 0.

Osservazione. Qualora θn siano misurabili nella tesi si puo sostituireP a P ∗.

Dim. Grazie a b) si ha

Nn(x, θn(x)) ≥ N(θ0) +Nn(x, θ0)−N(θ0) + oP (1), (9.1)

d’altra parte per a) si ha che

Nn(x, θ0)−N(θ0) = oP (1), (9.2)

e quindiNn(x, θn(x)) ≥ N(θ0) + oP (1). (9.3)

Di conseguenza

N(θ0)−N(θn(x)) ≤ Nn(x, θn(x))−N(θn(x)) + oP (1) ≤≤ sup

θ∈Θ|Nn(x, θ)−N(θ)|+ oP (1) := Rn(x) = oP (1). (9.4)

Per c) dato ε > 0 si ha che esiste η > 0 tale che se d(θ, θ0) > ε alloraN(θ0) > N(θ) + η. Dunque

x : d(θn(x), θ0) > ε ⊂ x : N(θ0)−N(θn(x)) > η ⊂ x : Rn(x) > η.(9.5)

Poiche si e visto che Rn(x) converge in probabilita a zero si ha anche la tesi.

9.3 Consistenza degli Stimatori Z

Come nel caso degli stimatori M e interessante determinare quando uno sti-matore Z e consistente. Per semplificare la trattazione, in questo paragrafosupporremo Θ ⊂ R, invece che Θ ⊂ Rk.

Un criterio puo essere dedotto dal seguente teorema, ponendo Ψ(θ) =∫Rd ψ(y, θ)dF (y), Ψn(ξ, θ) = 1

n

∑nk=1 ψ(ξk, θ).

Page 112: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

112 CAPITOLO 9. CONSISTENZA

Teorema 9.2. Siano Ψ : Θ ⊂ R → Rd una funzione misurabile e Ψn :X × Θ → Rd una successione di applicazioni tali che per ogni n ∈ N e perogni θ ∈ Θ ξ 7→ Ψn(ξ, θ) sia misurabile. Sia θn una successione di stimatori(misurabili). Supponiamo inoltre che

a) supθ∈Θ‖Ψn(ξ, θ)−Ψ(θ)‖ converga in probabilita a zero per n→∞;

b) esista θ∗ ∈ Θ tale che

infθ:d(θ,θ∗)>ε

‖Ψ(θ)‖ > ‖Ψ(θ∗)‖ = 0 ∀ε > 0;

c) ‖Ψn(ξ, θ∗)‖ − ‖Ψn(ξ, θn(ξ))‖ = oP (1),

alloraθn

P→ θ∗.

Dim. Poniamo Nn(ξ, θ) := −‖Ψn(ξ, θ)‖ e N(θ) := −‖Ψ(θ)‖. Vogliamoapplicare il Teorema 9.1, di cui verifichiamo le ipotesi. In primo luogo

supθ∈Θ

|Nn(ξ, θ)−N(θ)| = supθ∈Θ

∣∣‖Ψn(ξ, θ)‖ − ‖Ψ(θ)‖

∣∣ (9.6)

ma l’ ultimo termine converge a zero in probabilita per ipotesi. In secondoluogo

supθ:d(θ,θ∗)>ε

N(θ) = supθ:d(θ,θ∗)>ε

(−‖ψ(θ)‖) = infθ:d(θ,θ∗)>ε

‖Ψ(θ)‖ > 0 =

= ‖Ψ(θ∗)‖ = N(θ∗).(9.7)

Infine

Nn(ξ, θ(ξ)) = −‖Ψn(ξ, θn(ξ))‖ = Nn(ξ, θ∗) + ‖Ψn(ξ, θ∗)‖+− ‖Ψn(ξ, θn(ξ))‖ ≥ Nn(ξ, θ∗) + oP (1).

(9.8)

Sono quindi verificate tutte le ipotesi del Teorema 9.1.

Una variante del precedente teorema e il seguente.

Teorema 9.3. Siano Ψ : Θ ⊂ R → R una funzione misurabile e Ψn :X × Θ → R una successione di applicazioni tali che per ogni n ∈ N e perogni θ ∈ Θ ξ 7→ Ψn(ξ, θ) sia misurabile. Sia θn una successione di stimatori(misurabili). Se:

a) Ψn(ξ, θ) → Ψ(θ) in probabilita per ogni θ;

Page 113: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

9.3. CONSISTENZA DEGLI STIMATORI Z 113

b1) θ 7→ Ψn(ξ, θ) e continua per ogni ξ con un solo zero in θn,

oppure

b2) θ 7→ Ψn(ξ, θ) e monotona non decrescente per ogni ξed inoltre Ψn(ξ, θn(ξ)) = oP (1);

ed infine

c) ∃θ0 : Ψ(θ0 − ε) < 0 < Ψ(θ0 + ε) ∀ε;

alloraθn(ξ)

P→ θ0

Dim. Supponiamo che valga b1). Grazie ad a) si ha che

PΨn(ξ, θ0 − ε) < 0,Ψn(ξ, θ0 + ε) > 0 P→ 1, (9.9)

d’altro canto

Ψn(ξ, θ0 − ε) < 0,Ψn(ξ, θ0 + ε) > 0 ⊂ θ0 − ε < θn(ξ) < θ0 + ε, (9.10)

e quindi

PΨn(ξ, θ0− ε) < 0,Ψn(ξ, θ0 + ε) > 0 ≤ Pθ0− ε < θn(ξ) < θ0 + ε (9.11)

che insieme a (9.9), data l’arbitrarieta di ε implica la tesi.

Supponiamo ora b2). Osserviamo che

An1 := θn(ξ) ≤ θ0 − ε,Ψn(ξ, θ0 − ε) < −η ⊂⊂ Ψn(ξ, θn(ξ)) < −η =: Bn

1 ,(9.12)

ed analogamente

An2 := θn(ξ) ≥ θ0 + ε,Ψn(ξ, θ0 − ε) > η ⊂ Ψn(ξ, θn(ξ)) > η =: Bn2 .

(9.13)E quindi, grazie al fatto che Ψn(ξ, θn(ξ)) = oP (1),

P (An1 ∪An2 ) ≤ P (Bn1 ∪Bn

2 ) → 0. (9.14)

Sia oraCn := Ψn(ξ, θ0 − ε) < −η,Ψn(ξ, θ0 − ε) > η, (9.15)

allora

P (Cn) = P(Cn ∩ θ0 − ε < θn < θ0 + ε

)+

+ P(Cn ∩ (θn ≥ θ0 + ε ∪ θn ≤ θ0 − ε)

),

(9.16)

Page 114: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

114 CAPITOLO 9. CONSISTENZA

ma il secondo membro del termine di destra dell’uguaglianza tende a zerograzie a (9.14), e quindi

P (Cn) ≤ Pθ0 − ε < θn < θ0 + ε+ o(1). (9.17)

Se scegliamo η := minΨ(θ0 + ε),−Ψ(θ0 − ε), sfruttando anche a) e c), siconclude facilmente.

Esempio 48. Sia ξii≥1 una successione di v.a. i.i.d. con funzione diripartizione F0 con una sola mediana, in θ0. Poniamo

Ψn(θ) :=1n

n∑i=1

sign(θ − ξi).

Sia poiΨ(θ) := E

(sign(θ − ξ1)

)= F0(θ − 0) + F0(θ)− 1.

Naturalmente Ψ(θ0) = 0. Per la legge forte dei grandi numeri

Ψn → Ψ q.c..

Poiche abbiamo supposto che F ha una sola mediana, ne segue che

Ψ(θ0 − ε) < 0 < ψ(θ0 + ε).

Quindi possiamo applicare il teorema con

θn(ξ) :n∑i=1

sign(θn(ξ)− ξi) = 0.

Page 115: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 10

Distribuzioni asintotiche

Consideriamo una successione (θn)n≥1 di stimatori Z, ossia una successione(θn)n≥1 tale che

1n

n∑i=1

ψ(ξi, θn) = 0. (10.1)

Per semplificare la trattazione supponiamo inizialmente che Θ ⊂ R.

Supponiamo, inoltre, cha valgano le seguenti ipotesi:

(i) ψ sia tale cheEθ0ψ(ξ1, θ0) = 0 (10.2)

con Eθ0 |ψ(ξ1, θ0)|2 < +∞;

(ii) θ 7→ ψ(x, θ) sia una funzione differenziabile con continuita in unintorno di θ0 per ogni x in Rd e che

Eθ0 |ψ(ξ1, θ0)| < +∞Eθ0ψ(ξ1, θ0) 6= 0;

(10.3)

Se sviluppiamo con Taylor θ 7→ 1n

∑ni=1 ψ(ξi, θ) in un intorno di θ0 da

(10.4) ricaviamo

0 =1n

n∑i=1

ψ(ξi, θn) =1n

n∑i=1

ψ(ξi, θ0) +1n

n∑i=1

ψ(ξi, θ0)(θn− θ0) +Rn(θn− θ0)

dove

Rn =1n

n∑i=1

[ψ(ξi, θ∗n)− ψ(ξi, θ0)]

115

Page 116: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

116 CAPITOLO 10. DISTRIBUZIONI ASINTOTICHE

e un termine di resto e θ∗n = θ∗n(ξ1, . . . , ξn) e tale che |θ∗n − θ0| ≤ |θn − θ0|.Per tanto

√n(θn − θ0) =

1√n

∑ni=1 ψ(ξi, θ0)

1n

∑ni=1 ψ(ξi, θ0) +Rn

dove stiamo supponendo non nullo

1n

n∑i=1

ψ(ξi, θ0) +Rn.

Ora il teorema centrale del limite implica che la convergenza in legge di1√n

∑ni=1 ψ(ξi, θ0) ad una gaussiana di media nulla e varianza

σ2 := Eθ0 [ψ2(ξ1, θ0)],

mentre la legge dei grandi numeri implica che 1n

∑ni=1 ψ(ξi, θ0) converge in

probabilita a Eθ0 [ψ(ξ1, θ0)]. Se Rn converge in probabilita a zero, applicandoil teorema di Slutski, si ha che

√n(θn−θ0) converge in legge ad una gaussiana

di media nulla e varianza

σ20 :=

σ2

[Eθ0(ψ(ξ1, θ0))]2.

Questa e in essenza la dimostrazione della successiva proposizione in cui:Θ ⊂ Rk, ψ(x, θ) indica lo Jacobiano di θ 7→ ψ(x, θ), | · | indica la normaeuclidea in Rk o la nomra di matrice e Eθ(Y ), dove Y = [Yi,j ] e una ma-trice, indica la matrice delle speranze componente per componente, ossia lamatrice [Eθ(Yi, j))]ij .

Proposizione 10.1. Supponiamo che valgano le seguenti ipotesi

(i) ψ sia tale cheEθ0ψ(ξ1, θ0) = 0 (10.4)

con Eθ0 |ψ(ξ1, θ0)|2 < +∞;

(ii) θ 7→ ψ(x, θ) sia una funzione differenziabile con continuita in unintorno di θ0 per ogni x in Rd e che

Eθ0 |ψ(ξ1, θ0)| < +∞det(Eθ0ψ(ξ1, θ0)) 6= 0;

(10.5)

(iii) θn sia una successione di stimatori Z che soddisfa (10.4) e tale cheθn converge in Pθ0-probabilita a θ0 (consistenza);

Page 117: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

117

(iv)

sup| 1n

n∑i=1

[ψ(ξi, θ)− ψ(ξi, θ0)]|; θ : |θ − θ0| ≤ εn

converge a zero in Pθ0-probabilita per ogni successione εn convergente a zeroin Pθ0-probabilita.

Allora√n(θn − θ0) converge in legge (rispetto a Pθ0) ad una variabile

aleatoria gaussiana di media nulla e matrice di covarianza

σ20 = [Eθ0(ψ(ξ1, θ0))]−1Eθ0 [ψ(ξ1, θ0)ψ(ξ1, θ0)T ][Eθ0(ψ(ξ1, θ0))T ]−1

= [Eθ0(ψ(ξ1, θ0))]−1V arθ0(ψ(ξ1, θ0))[Eθ0(ψ(ξ1, θ0))T ]−1

Dimostrazione. [traccia] Lo sviluppo di Taylor implica che

0 =1n

n∑i=1

ψ(ξi, θn) =1n

n∑i=1

ψ(ξi, θ0)+1n

n∑i=1

ψ(ξi, θ0)·(θn−θ0)+Rn ·(θn−θ0)

con

Rn =1n

n∑i=1

[ψ(ξi, θ∗n)− ψ(ξi, θ0)]

dove |θ∗n − θ0| ≤ |θn − θ0|. Definiamo ora la matrice stocastica Mn

Mn :=1n

n∑i=1

ψ(ξi, θ0)

e osserviamo che la legge forte dei grandi numeri e (ii) implica che Mn

converge fortemente alla matrice (non aleatoria) non singolare Eθ0ψ(ξi, θ0).Da (iii) e (iv) segue che Rn tende alla matrice zero in probabilita. Infine ilteroema centrale del limite multidimensionale, unitamente alla (i), implicache il vettore

Zn = [1√n

n∑i=1

ψ(ξi, θ0)]

converge in legge ad una variabile aleatoria Z con legge gaussiana di vettoremedia nullo e di matrice varianza covarianza

V arθ0(ψ(ξ1, θ0)) = Eθ0 [ψ(ξ1, θ0)ψ(ξ1, θ0)T ].

A questo punto osserviamo che

[1n

n∑i=1

ψ(ξi, θ0) +Rn]√n(θn − θ0) = [

1√n

n∑i=1

ψ(ξi, θ0)].

Page 118: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

118 CAPITOLO 10. DISTRIBUZIONI ASINTOTICHE

ossia(An +Mn)

√n(θn − θ0) = Zn.

La dimostrazione si conclude applicando il seguente risultato, che non di-mostreremo.

Sia zn una successione di vettori aleatori di lunghezza k, sia Bn unasuccessione di matrici aleatorie k×k, e xn una successione di vettori aleatoridi lunghezza k tale che per ogni n ≥ 1 valga

Bnxn = zn.

Se zn converge in legge ad una vettore z e Bn converge in probabilita aduna matrice non aleatoria B con det(B) 6= 0, allora xn converge in legge alvettore aleatorio B−1z.

Si noti che se ad esempio θ 7→ ψ(x, θ) e lipshitziana per ogni x concostante di Lipshitz L(x) e se Eθ0 |L(ξ1)| la (iv) e vera (dimostrarlo peresercizio).

10.1 Normalita asintotica degli MLE

Un caso particolarmente interessante e quello in cui

ψ(x, θ) = ∂θ log(fθ(x)),

ossia quello degli stimatori di massima verosimiglianza. Si noti che proce-dendo formalmente, supponendo per semplicita Θ ⊂ R,

ψ(x, θ) = ∂2θ log(fθ(x)) =

(∂2θfθ(x))fθ(x)− (∂θfθ(x))2

f2θ (x)

.

Se il modello e regolare (si veda Capitolo 6), e se∫X+

1

∂2θfθ0(x)µ(dx) = 0

si avraEθ0(ψ(ξ1, θ0)) = −I(θ0).

Resta pertanto dimostrata la seguente

Page 119: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

10.1. NORMALITA ASINTOTICA DEGLI MLE 119

Proposizione 10.2. Sia (θn)n≥1 una successione di stimatori di massi-ma verosimiglianza debolmente consistente. Supponiamo che il modello siaregolare e che inoltre ∫

X+1

∂2θfθ0(x)µ(dx) = 0.

Se

sup| 1n

n∑i=1

[R(ξi, θ)−R(ξi, θ0)]|; θ : |θ − θ0| ≤ εn,

dove R(x, θ) = ∂2θ log(fθ(x)), converge a zero in probabilita per ogni succes-

sione εn convergente a zero in probabilita e I(θ0) 6= 0, allora√n(θn − θ0)

converge in legge ad una variabile aleatoria gaussiana di media nulla e divarianza

I−1(θ0).

Page 120: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

120 CAPITOLO 10. DISTRIBUZIONI ASINTOTICHE

Page 121: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 11

Cenni al test di Ipotesi

bla bla

121

Page 122: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

122 CAPITOLO 11. CENNI AL TEST DI IPOTESI

Page 123: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 12

Mathematical formalizationof Bayesian Paradigm

tratto da lezioni di Eugenio Regazzini

Quello che segue e liberamente tratto di alcune parti degli appunti di unciclo di lezioni tenute a Stanford nel periodo di Luglio-Agosto 2001 dal Prof.Eugenio Regazzini. Tali appunti esistono solo in versione mansoscritta. Inparticolare quello che segue e la versione ridotta e semplificata delle Sezioni2.2-2.3-2.4-2.5 di quegli appunti.

12.1 Bayes-Laplace Paradigm

Consider a family M = qθ : θ ∈ Θ of probability measures on a Polishspace (X,X ), X being the Borel σ–field. Usually, θ is said parameter, andwe assume that the parameter space Θ is also a Polish space, equipped withits Borel σ–field L.

As far as the definition of M is concerned, it is assumed that qθ 6= qθ′ ,whenever θ 6= θ′ and that the function

(θ,A) 7→ qθ(A)

of Θ×X in [0, 1] is a transition probability kernel, i.e.:

• A 7→ qθ(A) is a probability measure on (X,X ) for every θ in Θ;

123

Page 124: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

124CAPITOLO 12. MATHEMATICAL FORMALIZATION OF BAYESIAN PARADIGM

• θ 7→ qθ(A) is L–measurable for every A in X .

Under these conditions, M is said to be a statistical model.

Introduce now the product space (Ω,F) = (X × Θ,X ⊗ L). In thissetting, the functions ξ and θ defined on Ω by

ξ(ω) = x, θ(ω) = θ (ω = (x, θ))

are random elements called observation and parameter, respectively.

The Bayes–Laplace paradigm is characterized by the fact that probabil-ity distributions on (Ω,F) are assigned as follows. One fixes a probabilitymeasure π on (Θ,L), the so–called prior probability distribution (p.d.) ofθ, and then defines a probability measure P on F by setting

P (C) =∫

Θqθ(Cθ)π(dθ) (C ∈ F) (12.1)

with Cθ := x ∈ X : (x, θ) ∈ C.

In point of fact, the set function P defined by (12.1) is a probabilitymeasure on (Ω,F). Furthermore, it is the unique probability measure on(Ω,F) such that

P (A×B) =∫Bqθ(A)π(dθ) (A ∈ X , B ∈ L).

See Section A.7 in the Appendix.

Let us stress another important fact.

Lemma 12.1. The family qθ(A) : θ ∈ Θ, A ∈ X can be viewed as a regularconditional p.d. of ξ given θ, with respect to P .

Proof. Let γθ denote a version of the conditional p.d. of ξ given θ. Then,

Pξ ∈ A, θ ∈ B =∫Bqθ(A)π(dθ) =

∫Bγθ(A)π(dθ)

holds for every B in L. Therefore, in view of the L–measurability of qθand γθ, we get qθ(A) = γθ(A) for π almost all θ. In other words, qθ(A) isa version of the conditional probability of ξ ∈ A given θ, and the thesisfollows from the assumtpion according to which A 7→ qθ(A) is a probabilitymeasure on (X,X ) for each θ in Θ.

Page 125: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

12.2. SEQUENCES OF CONDITIONALLY INDEPENDENT AND IDENTICALLY DISTRIBUTED OBSERVATIONS125

12.2 Sequences of conditionally independent andidentically distributed observations

Classical statistics prevalently deals with sequences of observations that canbe infinite when the process of observation is potentially infinitely prolonge-able.

In what follows we shall assume that

X = ×∞i=1Xi and X = ⊗∞i=1Xiwhere (Xi,Xi) = (X0,X0) for every i ≥ 1, with (X0,X0) Polish. The lastimportant assumption is that

qθ(A) = p∞θ (A) (A ∈ X ),

which means that

qθ(A1 ×A2 . . . An ×X∞0 ) =

n∏i=1

pθ(Ai)

for every n and every (A1, . . . , An) in X n0 . Again we are assuming that

(x,A) 7→ pθ(A) is a transition kernel.

In this setting, the Bayes-Laplace postulate reads

P (A×B) =∫Bp∞θ (A)π(dθ), (A ∈ X , B ∈ L)

i.e.

P (A1 ×A2 . . . An ×X∞0 ×B) =

∫B

n∏i=1

pθ(Ai)π(dθ)

for every B in L, for every n and every (A1, . . . , An) in X n0 . Hence,

ρ(A) := Pξ ∈ A =∫

Θp∞θ (Ai)π(dθ) (A ∈ X ),

that is

Pξ1 ∈ A1, . . . , ξn ∈ An = ρ(A1 ×A2 . . . An ×X∞0 ) =

∫Θ

n∏i=1

pθ(Ai)π(dθ)

for every n and every (A1, . . . , An) in X n0 .

In other words, given θ, (ξi)i≥1 are conditionally independent and identi-cally distributed random variables with common distribution pθ. Moreover,p∞θ

is a regular conditional probability distribution of ξ>n := (ξn+1, . . . ) given(ξ(n), θ), where ξ(n) := (ξ1, . . . , ξn). See Lemma 12.1.

Page 126: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

126CAPITOLO 12. MATHEMATICAL FORMALIZATION OF BAYESIAN PARADIGM

12.3 Posterior and predictive distributions

In what follows, we shall denote by ρ(n) the law of ξ(n).

A version of the conditional distribution of θ given ξ(n) is called posteriordistribution given ξ(n). Recall that a conditional distribution of θ given ξ(n)is a transition kernel π·(·) such that∫

Aπy(B)ρ(n)(dy) = E[IA(ξ(n))πξ(n)(B)] = Pθ ∈ B, ξ(n) ∈ A

for every A in X n0 and every B in L. Hence a posterior distribution of θ given

ξ(n) will be denoted by πξ(n)(·). A version of the conditional distribution ofξ>n given ξ(n) is called predictive distribution and will be denoted by ρξ(n).Again recall that in this case the kernel ρ·(·) is such that∫

A1

ρy(A2)ρ(n)(dy) = E[IA1(ξ(n))ρξ(n)(A2)] = Pξ(n) ∈ A1, ξ>n ∈ A2

for every A1 in X n0 and every A2 in X∞

0 . Clearly one can choose

ρy(A) :=∫

Θp∞θ (A)πy(dθ). (12.2)

Indeed, using also the fact that p∞θ

is a regular conditional probabilitydistribution of ξ>n given (ξ(n), θ), one gets∫A1

∫Θp∞θ (A2)πy(dθ)ρ(n)(dy) = E[IA1(ξ(n))

∫Θp∞θ (A2)πξ(n)(dθ)]

= E[IA1(ξ(n))E[p∞θ

(A2)|ξ(n)]]

= E[IA1(ξ(n))E[E[Iξ>n ∈ A2|ξ(n), θ]|ξ(n)]]= E[E[IA1(ξ(n))Iξ>n ∈ A2|ξ(n)]]= Pξ(n) ∈ A1, ξ

>n ∈ A2.

From (12.2) it is clear that A 7→ ρξ(n)(A) is a symmetric probability measure,hence

Pξn+k ∈ An+k|ξ(n) = ρξ(n)(X0 × · · · ×An+k ×X∞0 )

= ρξ(n)(An+k ×X∞0 ) = Pξn+1 ∈ An+k|ξ(n)

for every An+k ∈ X0 ρn a.e. for every k ≥ 1.

Page 127: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

12.4. DOMINATED MODELS AND BAYES THEOREM 127

12.4 Dominated Models and Bayes theorem

Let us recall that a statistical model M := qθ : θ ∈ Θ on (X,X ) is said tobe dominated by a σ–finite measure ν on (X,X ) if each qθ in M is absolutelycontinuous with respect to ν. Hence, in our framework, let us assume thatpθ is dominated by σ–finite measure µ on (X0,X0). This yields that for eachθ in Θ, there is a positive function x 7→ fθ(x) which is X0/B(R)–measurablesuch that

pθ(A) =∫Afθ(x)µ(dx) (A ∈ X0). (12.3)

Teorema 12.2 (Bayes theorem). Let pθ : θ ∈ Θ be a dominated statisticalmodel on (X0,X0) for which – given θ ∈ Θ – the density fθ in (12.3) canbe fixed in such a way that (x1, θ) 7→ fθ(x1) is measurable1. Moreover, let(x(n), B) 7→ φ(x(n), B) be any transition probability measure of Xn

0 ×Θ in[0, 1]. Then, for every n in N, N0 := x(n) ∈ Xn

0 :∫Θ

∏ni=1 fθ(xi)π(dθ) = 0

is a ρ(n)–null set and πx(n)(B), defined by

πx(n)(B) :=

φ(x(n), B) if x(n) ∈ N0∫

B

∏ni=1 fθ(xi)π(dθ) 1R

Θ

Qni=1 fθ(xi)π(dθ)

if x(n) ∈ N c0

is a posterior p.d. for θ given ξ(n).

Proof. Fubini-Tonelli theorem yields that, for every (A(n), B) ∈ X n0 ×L,

P(ξ(n), θ) ∈ A(n)×B =∫B

∫A(n)

n∏i=1

fθ(xi)µ(dxi)π(dθ)

=∫A(n)

∫B

[n∏i=1

fθ(xi)π(dθ)]⊗ni=1 µ(dxi).

In particular

ρn(N0) = P(ξ(n), θ) ∈ N0 ×Θ

=∫N0

∫Θ[n∏i=1

fθ(xi)π(dθ)]⊗ni=1 µ(dxi) = 0.

1This is always possible for a Polish space

Page 128: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

128CAPITOLO 12. MATHEMATICAL FORMALIZATION OF BAYESIAN PARADIGM

Now∫Aπy(n)(B)ρ(n)(dy(n)) =

∫A∩Nc

0

∫B

∏ni=1 fθ(yi)π(dθ)∫

Θ

∏ni=1 fu(yi)π(du)

∫Θ

n∏i=1

fv(yi)π(dv)⊗ni=1 µ(dyi)

=∫A∩Nc

0

∫B

n∏i=1

fθ(yi)π(dθ)⊗ni=1 µ(dyi)

= Pξ(n) ∈ A, θ ∈ B

Page 129: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 13

Exchangeable sequences ofobservations

tratto da lezioni di Eugenio Regazzini

Quello che segue e tratto da alcune parti degli appunti di un ciclo dilezioni tenute a Stanford nel periodo di Luglio-Agosto 2001 dal Prof. Eu-genio Regazzini. Tali appunti esistono solo in versione mansoscritta. Inparticolare quello che segue e la versione ridotta del Capitolo 3 di quegliappunti. A differenza del capitolo precedente questo e piu aderente agliappunti suddetti.

Io ho aggiunto solo due note (in italiano nel testo) e l’ultima sezione.

Ricordo che in questo capitolo come nel precedente si lavora sullo spaziocanonico (e non su un generico spazio (Ω,F , P )), ossia (Ω,F) = (X×Θ,X ⊗L). In questo contesto il processo di osservazione ξ e il parametro aleatorioθ sono definiti da

ξ(ω) = x, θ(ω) = θ (ω = (x, θ)).

Come gia piu volte specificato questa scelta non e restrittiva. Viene quiadottata solo per essere piu fedeli agli appunti originali da cui sono trattiquesti capitoli.

129

Page 130: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

130CAPITOLO 13. EXCHANGEABLE SEQUENCES OF OBSERVATIONS

13.1 Preliminaries

Let (X0,X0) be a measurable space and let (X,X ) denote the product spacewith X = X∞

0 and X = ⊗n≥1X0. As usual, (ξn)n≥1 will stand for thesequence of the coordinate variables of X. Here we want to give a precisemeaning to the sentence “the p.d. ρ of ξ turns out to be a mixture of lawsof sequences of i.i.d. random variables with values in X0”. In a formal way,we write

Pξ ∈ A = ρ(A) =∫Pp∞(A)γ(dp) (A ∈ X∞

0 )

where p∞ denotes the p.d. of ξ which makes the ξi i.i.d. with distribution p,and γ indicates a probability on the class P of all probability measures on(X0,X0). As a matter of fact, such an expression is the most general formof exchangeable probability distribution. In order to prove this basic result,it will be necessary to give a precise meaning to the integral

∫P p

∞(B)γ(dp).The problem is to define a suitable σ–algebra, of subsets of P, to be con-sidered as the domain of γ. This σ–algebra may be fixed as a Borel classafter introducing a topology for P, under the assumption that X0 is a metricspace.

Define C(X0) to be the family of all bounded real–valued continuousfunctions onX0, and consider the family of sets of the form V (µ; f1, . . . , fk, ε1, . . . , εk) :=ν ∈ P : |

∫fidν −

∫fidµ| ≤ εii = 1, . . . , k| as f1, . . . , fk vary in C(X0), µ

in P and ε1, . . . , εk in (0,+∞) with k = 1, 2, . . . . It is easy to verify thatthis family is a basis for a topology on P. Such topology is called topologyof weak convergence. A sequence (pn)n will converege, in such a topology,to a p in P if and only if ∫

X0

fdpn →∫X0

fdp

for every f in C(X0).

As usual, B(P) will denote the Borel σ–field on P with respect to theweak topology.

Proposizione 13.1. 1. P can be metrized as a separable space if andonly if X0 is separable.

2. If X0 is separable, then there is a sequence of uniformly continu-ous, bounded real–valued functions (un)n defined on X0, that deter-mines weak convergence, i.e. pn converges weakly to p if and only if∫X0ukdpn →

∫X0ukdp for every k.

Page 131: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

13.1. PRELIMINARIES 131

3. If X0 is a separable metric space and E is a countable subset of X0,dense in X0, then the set of all probabilities whose supports are finitesubsets of E is dense in P.

4. If X0 is separable the P is topologically complete if and only if X0 isso.

5. P can be metrized as a compact metric space if and only if X0 is acompact metric space.

[See, e.g., [8]]

We are now in a position to discuss the notion of random probabilitymeasure. Let (Ω,F) be a measurable space, and let P be the space of allprobability measure on (X0,X0), an arbitrary measurable space. Equip Pwith the σ–algebra generated by the evaluation maps: eB : p 7→ p(B), withB varying in X0 and p in P, and denote by P such a σ–algebra. Then, anyfunction p form Ω into P, which is F/P–measurable, is said to be a randomprobability measure. This definition does not involve topological restriction.But, if X0 is a metric space, with X0 = B(X0), and if P is endowed with thetopology of weak convergence, it will be interesting to analyze measurabilityof random probability measure with respect to F/B(P).

Let X0 be a metric space with X0 = B(X0). Consider P in the topologyof the weak convergence, and denote the corresponding Borel σ–filed byB(P). Then P = B(P).

Assume that γ is a probability measure on (P,P) and consider the set

M = A ∈ X : p 7→ p∞(A) is P–measurable.

By definition of P, p 7→ p(A1) and, therefore, p 7→∏ni=1 p(Ai) are P–

measurable functions for every A1, . . . , An in X0 (n = 1, . . . ,). Hence, Mincludes the π–class of all cylinders, with rectangular bases, which generatesX . Moreover, since p∞ is a probability measure on (X,X ) for each p in P,it is easy to show that M is a monotone class. Thus, by the monotone classtheorem X ⊂M. At this stage, as a consequence of Theorem A.12, we canformulate the following basic proposition.

Lemma 13.2. If γ is a probability measure on (P,P), then∫Pp∞(A)γ(dp) (13.1)

Page 132: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

132CAPITOLO 13. EXCHANGEABLE SEQUENCES OF OBSERVATIONS

is well–defined for every A in X and

ρ(A) :=∫Pp∞(A)γ(dp) (A ∈ X )

defines a probability measure on X . Moreover, ρ is the unique probabilitymeasure on X such that

ρ(A1 × · · · ×An ×X0 ×X0 . . . ) =∫P

n∏i=1

p(Ai)γ(dp)

for every A1, . . . , An in X0 and for every n.

If p is a random probability measure such that

γ(C) = Pp ∈ C (C ∈ P),

then (13.1) can be re-written according to∫Pp∞(A)γ(dp) =

∫Ωp∞(A;ω)dP (ω) = E[p∞(A)].

Now if we assume that (X0,X0) is Polish, according to Lemma 12.1, itfollows that p∞ is a regular conditional distribution of ξ given p. Note that,in this case, taking Θ = P, L = P, qθ = p∞ (with θ = p), all the conditionsof Section 12.1 are satisfied. Note that in particular, given p, (ξn)n areindependent with common probability p.

13.2 Definition of exchangeability

Let (X0,X0) be a measurable space and let (X,X ) denote the product spacewith X = X∞

0 and X = ⊗n≥1X0. As usual, (ξn)n will stand for the sequenceof the coordinate variables of X. The sequence (ξk)k is said to be exchange-bale , if (ξ1, . . . , ξn) has the same probability distribution as (ξσ(1), . . . , ξσ(n)),for every permutation σ of (1, . . . , n) and for every n. In other words,

Pξ1 ∈ A1, . . . , ξn ∈ An = Pξσ(1) ∈ A1, . . . , ξσ(n) ∈ An

for every A1, . . . , An in X0, for every permutation σ and for every n.

At this stage, it is plain to check that, for any probability measure γ on(P,P),

A 7→∫Pp∞(A)γ(dp) (A ∈ X )

Page 133: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

13.3. STRONG LAW OF LARGE NUMBERS AND CONVERGENCE OF EMPIRICAL PROCESS133

defines an exchangebale probability measure on (X,X ). Indeed

Pξ1 ∈ A1, . . . , ξn ∈ An =∫P

n∏i=1

p(Ai)γ(dp)

which is clearly invariant under permutations.

13.3 Strong law of large numbers and convergenceof empirical process

In the notation of the previous sections, say n–symmetric a measurablefunction f : (X,X ) 7→ (R,B(R)) such that, for each permutation π of(1, · · · , n),

f(x1, . . . , xn, xn+1, . . . ) = f(xπ(1), . . . , xπ(n), xn+1, . . . )

holds true for every x = (x1, x2, . . . ) in X.

Let Sn ⊂ X be the σ–field generated by all n–symmetric functions.Clearly, Sn+1 ⊂ Sn for every n, and S := ∩n≥1Sn is the smallest σ–algebramaking functions, which are n–symmetric for every n, measurable.

Teorema 13.3. Let (ξn)n≥1 be an exchangeable sequence, and φ be a mea-surable function of (X0,X0) into (R,B(R)) such that E|φ(ξ1)| < +∞. Thenthere is a random variable φ : (X,X ) → (R,B(R)) such that

1n

n∑i=1

φ(ξi) → φ

ρ–almost surely and in mean. Moreover, φ is a version of E[φ(ξ1)|S].

Proof. Let f be any bounded n–symmetric function. Then, for any j in1, . . . , n, one has

E[φ(ξj)f(ξ)] = E[φ(ξ1)f(ξj , . . . , ξj−1, ξ1, ξj+1, . . . )][by exchangeability]

= E[φ(ξ1)f(ξ)][by symmetry of f ].

Page 134: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

134CAPITOLO 13. EXCHANGEABLE SEQUENCES OF OBSERVATIONS

Hence, for any A in Sn and f = IA, the previous equality gives

E[IA(ξ)1n

n∑i=1

φ(ξi)] = E[IA(ξ)φ(ξ1)]

but, by definition of conditional expectation,

E[IA(ξ)φ(ξ1)] = E[IA(ξ)E(φ(ξ1)|Sn)].

Hence,

E[IA(ξ)1n

n∑i=1

φ(ξi)] = E[IA(ξ)E(φ(ξ1)|Sn)]

and, since 1n

∑ni=1 φ(ξi) is clearly Sn–measurable, we obtain

1n

n∑i=1

φ(ξi) = E[φ(ξ1)|Sn] (a.e.).

At this stage, the well–known Levy’s martingale convergence theorem (seeTheorem A.11) gives the thesis. ♦

Let B be any element of X0, setting φ = IB, the previous theorem yieldsthat

en(B) = en(B; ξ(n)) :=1n

n∑j=1

δξj (B)

converges a.s. and in mean to E[IB(ξ1)|S]. This remark induce to wonderwhether en(·) converges weakly to some random probability measure, a.s., asn→ +∞. Before proceeding, let us stress that en(·) is a random probabilitymeasure. In fact, for any A in X0 and B in B(R), the set

C∗ : =

x ∈ X :1n

n∑j=1

δxj (·) ∈ p ∈ P : p(A) ∈ B

=

x ∈ X :1n

n∑j=1

δxj (A) ∈ B

turns out to be a union of a finite class of finite intersections of measurablesets of the form x ∈ X : xk ∈ A or x ∈ X : xk 6∈ A. Hence, C∗ belongsto X , and the thesis follows form the fact that p ∈ P : p(A) ∈ B generatesP.

Page 135: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

13.3. STRONG LAW OF LARGE NUMBERS AND CONVERGENCE OF EMPIRICAL PROCESS135

Now observe that if C belongs to the tail σ–field of ξ then it belongs alsoto S. That is the tail σ–field T of ξ is contained in S. Hence,

E(IB(ξ1)|T ) = E(E(IB(ξ1)|S)|T ) = E(p1(B)|T ) = p1(B) a.e.

where p1(B) is any S–measurable real valued version of E(IB(ξ1)|S), in par-ticular if X0 is Polish we can take p1 to be a regular conditional distributionof ξ given S.

Teorema 13.4. Let X0 be a complete separable metric space. If ξ is anexchangeable sequence then there is a random probability measure p1 suchthat en converges weakly P–almost surely to p1 as n goes to +∞. Thisrandom probability is a regular conditional p.d. for ξ1 given S, or T .

Proof. Let p1 to be a regular conditional distribution of ξ given S andlet (uk)k be the sequence of uniformly continuous and bounded real–valuedfunctions which determine weak convergence on (X0,X0). See Proposition13.1. An application of Theorem 13.3, since (uk)k are numerable, gives∫

X0

uk(x)en(dx; ξ(n)) =1n

n∑j=1

uk(ξj) → E[uk(ξ1)|S] k = 1, . . .

almost surely. Disintegration theorem gives that a version of E[uk(ξ1)|S] is∫X0uk(x)p1(dx). This completes the proof. ♦

NOTA 1: Il senso del precedente teorema e che esiste un insieme diprobabilita uno, Ω0 ⊂ X∞

0 , tale che, per ogni x in Ω0, si ha

en(dx;ω) ⇒ p1(x, ω)

(dove en(dx;ω) indica en(dx; ξ(n))). Ossia per ogni funzione continua elimitata f da X0 in R e per ogni ω in Ω0,∫

X0

f(x)en(dx;ω) →∫X0

f(x)p(dx;ω).

Questa convergenza non e la convergenza debole della legge di en alla leggedi p1, che sarebbe

E[F (en)] → E[F (p1)] (13.2)

per ogni F : P → R continua e limitata (dove assumiamo P spazio metricocon una metrica che metrizza la convergenza debole). Anche in spazi polac-chi (come nel nostro caso P) vale il fatto che la convergenza q.c. implica la

Page 136: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

136CAPITOLO 13. EXCHANGEABLE SEQUENCES OF OBSERVATIONS

convergenza in legge, quindi la convergenza dimostrata nel precedente teo-rema implica (fra le altre cose) la convergenza debole della legge di en allalegge di p1, ossia la (13.2).

NOTA2: Il precedente teorema puo essere applicato anche nel caso par-ticolare in cui la successione ξ sia una successione di v.a. i.i.d. con comunelegge p. In questo caso, ripercorrendo la dimostrazione, quando si applicala LFGN si ha che il limite non e un elemento aleatorio p1 ma semplice-mente p (misura di probabilita non aleatoria). Ossia nel caso di osservazionii.i.d. con comune legge p il processo empirico converge quasi certamente al-la misura di probabilita (non aleatoria) p. Per quanto osservato in NOTA1questo implica che se su X = X∞

0 consideriamo la misura p∞ la successionedi misura di probabilita su P definite da

p∞x : en(·;x) ∈ ·

converge debolmente in P alla misura di p (vista come misura di probabilitaaleatoria degenere, ossia non aletoria), e quindi

p∞x : en(·;x) ∈ · ⇒ δp(·).

13.4 de Finetti Representation Theorem

The de Finetti representation theorem establish that the mixture determinedby (13.1) represents the most general form of an exchangeable p.d. whenX0 mets some mild topological conditions.

Teorema 13.5. If X0 is a Polish space and X0 is its Borel σ–algebra, thenthe following propositions are equivalent:

(i) The sequence of the coordinate random variable ξ = (ξ1, . . . , ξn, . . . ) isexchangeable.

(ii) In the notation of Theorem 13.4, p∞1 represents a regular conditionalp.d. for ξ given p1.

(iii) There exists a probability measure γ on (P,P) such that

Pξ ∈ A =∫Pp∞1 (A)γ(dp1) (A ∈ X ).

The measure γ – called de Finetti’s measure – defined on (P,B(P)) isuniquely determined.

Page 137: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

13.4. DE FINETTI REPRESENTATION THEOREM 137

The random measure p1 is usually called directing measure of ξ.

Proof. We begin by proving that (i) yields (ii). Let p1 be defined like inTheorem 13.4, and let A1, A2, . . . be measurable subsets of X0. Then,

k∏i=1

p1(Ai) = E[k∏i=1

p1(Ai)|p1]

= E[k∏i=1

limn→+∞

en(Ai)|p1] (see Theorem 13.3)

= limn→+∞

E[k∏i=1

en(Ai)|p1] (by dominated convergence).

(13.3)

Consider now the set C of all ordered samples with replacement of k elementsdrawn form 1, . . . , n and denote by D the subset of C, whose elements areall the samples with distinct units. Hence,

k∏i=1

en(Ai) =k∏i=1

1n

n∑j=1

δξj (Ai)

=1nk

∑D

k∏i=1

δξj(i)(Ai) +∑C\D

k∏i=1

δξj(i)(Ai)

where (j(1), . . . , j(k)) in D stands for an ordered sample of distinct units,while (j(1), . . . , j(k)) in C \D stands for any ordered sample with repetition.Now

1nk

∑C\D

k∏i=1

δξj(i)(Ai) ≤1nknk − n(n− 1) · · · (n− k + 1) → 0 as n→ +∞.

Therefore,

limn

k∏i=1

p1(Ai) = limn

1nk

∑DE[

k∏i=1

δξj(i)(Ai)|p1]

= limn

1nkn(n− 1) · · · (n− k + 1)Pξ1 ∈ A1, . . . , ξk ∈ Ak|p1 from exchangeability,

= Pξ1 ∈ A1, . . . , ξk ∈ Ak|p1,

Page 138: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

138CAPITOLO 13. EXCHANGEABLE SEQUENCES OF OBSERVATIONS

that isk∏i=1

p1(Ai) = Pξ1 ∈ A1, . . . , ξk ∈ Ak|p1 (13.4)

almost surely. Define p to be a regular conditional probability distributionfor ξ given p1. Then, from the first part of the proof, p(A1×· · ·Ak×X∞

0 ) =∏ki=1 p1(Ai) a.s.. Since X0 is (by separability of X0) countably generated,

there is N in X with ρ(N) = 0, such that (13.4) holds true for every x in N c

and for a suitable countable family of cylinders of the form A1×· · ·Ak×X∞0 ,

which generates X . Hence, for every x in N c we get p = p∞1 .

(ii) ⇒ (iii) Set γ for the p.d. of p1. Then, for any A in X ,

Pξ ∈ A = ρ(A) = E[E[IA(ξ)|p1]] = E(p∞1 (A)) =∫Pp∞1 (A)γ(dp1)

The implication (iii) ⇒ (i) is obvious.

To prove the uniqueness of γ, let γ∗ be any probability measure on (P,P)such that

ρ(A) =∫Pp∞1 (A)γ(dp1) =

∫Pp∞1 (A)γ∗(dp1) (A ∈ X ).

In view of the convergence of the empirical processes for i.i.d. observations(vedi NOTA2) and the Alexandrov (portmantrau) theorem, see TheoremA.6, for any closed F ⊂ P, we have,

lim supn

p∞1 en(·, x(n)) ∈ F ≤ δp1(F )

and, therefore,

lim supn

Pen ∈ F = lim supn

∫Pp∞1 en(·, x(n)) ∈ Fγ∗(dp1)

by the representation theorem

≤∫P

lim supn

p∞1 en(·, x(n)) ∈ Fγ∗(dp1)

by Fatou’s lemma≤ γ∗(F ).

That is

lim supn

Pen ∈ F ≤ γ∗(F ) for every closed F ⊂ P.

Page 139: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

13.5. MERGING OF PREDICTIVE AND EMPIRICAL MEANS 139

These inequalities, combined with the portmanteau theorem, establish that(en)n converges in distribution to a random probability measure whose p.d.is γ∗. Thus, γ∗ must coincide with the p.d. of p1, which is the limit indistribution of (en)n, that is γ. ♦

13.5 Merging of predictive and empirical means

Let (ξn)n≥1 be an exchangeable sequence of random variables taking val-ues in a polish space (X0,X0). Given any bounded measurable real–valuedfunction f defined on (X0,X0) set

γn = E[f(ξn+1)|ξ(n)].

First of all note thatγn = E[f(ξn+k)|ξ(n)].

ρn almost surely for any k > 1. It is easy to see that (γn)n≥1 is a martingalewith respect to σ(ξ(n))n≥1, indeed

E[γn+1|ξ(n)] = E[E[f(ξn+2)|ξ(n+ 1)]|ξ(n)] = E[f(ξn+2)|ξ(n)] = γn.

Moreover, (γn)n≥1 is clearly uniformly integrable, hence (see Theorem A.10)there exists a random variable γ∞, σ(ξ1, . . . , ξn, . . . )–measurable, such that

γn = E[γ∞|ξ(n)] → γ∞

almost surely and in L1. Now we prove that h∞ =∫X0f(x)p1(dx) almost

surely. Take B in σ(ξ(n)) and write

E[IBγ∞] = E[IBE[γ∞|ξ(n)]] = E[IBγn]

E[IBE[f(ξn+1)|ξ(n)]] = E[IB1N

N∑k=1

E[f(ξn+k)|ξ(n)]] =

= E[IB1N

N∑k=1

f(ξn+k)].

Now, form Theorem 13.3, one has that 1N

∑Ni=1 f(ξi) converges almost surely

and in L1 to∫X0f(x)p1(dx), and hence also 1

N

∑Nk=1 ξn+k converges almost

surely to∫X1f(x)p1(dx). By monotone convergence one gets

E[IBγ∞] = limN→+∞

E[IB1N

N∑k=1

f(ξn+k)] = E[IB∫X1

f(x)p1(dx)].

Page 140: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

140CAPITOLO 13. EXCHANGEABLE SEQUENCES OF OBSERVATIONS

Since n is arbitrary, one gets that for every B in σ(ξ1, . . . , ξn, . . . ),

E[IBγ∞] = E[IB∫X1

f(x)p1(dx)].

Now∫X1f(x)p1(dx) is clearly σ(ξ1, . . . , ξn, . . . )–measurable, and hence γ∞ =∫

X1f(x)p1(dx) (a.s.). In other words we have that

1n

n∑i=1

f(ξi)− E[f(ξn+1)|ξ(n)]

converges almost surely and in L1 to zero. This means that the predictivemean E[f(ξn+1)|ξ(n)] and the empirical mean merge as n goes to +∞.

Page 141: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 14

Famiglie esponenziali nellaStatistica Bayesiana

Prima di vedere il ruolo della famiglia esponenziale nella statistica bayesiana,ricordiamo che se pθ : θ ∈ Θ e una famiglia esponenziale su (X0,X0) alloraPθ(dx) :=

∏Ni=1 pθ(dxi) : θ ∈ Θ e una famiglia esponenziale su (XN

0 ,XN0 ).

Infatti se

pθ(B) :=∫B

exp(η(θ), t(x))− M(θ)µ(dx) (B ∈ X0) (14.1)

per opportune (η, t, M , µ), ovviamente

Pθ(B′) :=∫B′

exp(η(θ),N∑i=1

t(xi))− M(θ) ⊗Ni=1 µ(dxi) (B′ ∈ XN0 ).

(14.2)

In altri termini se (ξn)n≥1 e una successione di v.a. i.i.d. a valori inuno spaizio misurabile (X0,X0) con comune legge pθ dove pθ appartiene aduna famiglia esponenziale, allora anche (ξ1, . . . , ξN ) e un vettore la cui leggeappartiene ad una famiglia esponeziale.

Esempio 49. (Modello Gaussiano). Un caso particolare di modello espo-nenziale e rappresentato dal modello Gaussiano di parametro θ = (θ1, θ2) ∈(−∞,+∞)× [0,+∞). In questo caso, X0 = R,

Pθ(A1 × · · · ×AN ) =N∏i=1

pθ(Ai)

141

Page 142: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

142CAPITOLO 14. FAMIGLIE ESPONENZIALI NELLA STATISTICA BAYESIANA

con

pθ(A) =∫A

1√2πθ2

e− 1

2θ22(x−θ1)2

dx (A ∈ B(R)).

Ponendo η1 = θ1θ2

e η2 = −12θ2

si ottiene unda densita (rispetto alla misuradi Lebesgue su RN ) riparametrizzata come

expη1

N∑i=1

xi + η2

N∑i=1

x2i −M(η1, η2)

dove η = (η1, η2) ∈ (−∞,+∞) × [0,+∞) e (x1, . . . , xN ) ∈ RN e il vettoredi osservazioni.

14.1 La famiglia esponenziale nella statisitca Bayesiana

In accordo con il paradigma Bayesiano, consideraimo prima di tutto modellistatistici in cui pθ sia una famiglia esponenziale in forma canonica la cuistatistica sufficiente e completa sia l’identita . Per accordare le notazionicon la prima parte delle dispense iniziamo a considerare il caso in cui ilparametro sia quello canonico, indicato con η.

In altri termini consideriamo il caso in cui X0 = Rk,

pη(A) =∫Ae(x,η)−M(η)µ(dx) (A ∈ B(Rk)) (14.3)

eH = η ∈ Rk : exp(M(η)) :=

∫Rk

e(x,η)µ(dx) < +∞,

con µ misura σ–finita su Rk e tale per cui l’interno del convessificato delsuo supporto (d’ora in poi indicato con CS(µ)) sia non vuoto. Infine,supponiamo di che H sia un aperto non vuoto.

Siamo qui interessati a determinare una famiglia coniugata di distribuzioniiniziali per il modello esponenziale. Osserviamo che il modello statisticoBayesiano in questo caso diventa

P (A×B) =∫Bp∞η (A)π(dη)

per ogni A in B(R∞) e B in B(H).

Page 143: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

14.1. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA143

In generale, diremo che una famiglia di m.d.p. πλ : λ ∈ Λ su (H,B(H))e detta famiglia coniugata per una famiglia di m.d.p. pη : η ∈ H se perogni λ in Λ, πλξ(n) appartiene ρ quasi certamente a Λ, ossia se πλξ(n) = πλn(ξ(n))

per un’opportuna funzione λn : Xn0 → Λ.

Ora, data la famiglia esponenziale (14.3), scegliamo come distribuzioneiniziale su (H,B(H)) la seguente misura di probabilita:

πn0,x0(dη) = exp(n0x0, η)− n0M(η)− φ(n0, x0)dη

dove

φ(n0, x0) := log[∫

Hexp(n0x0, η)− n0M(η)dη

].

Naturalmente, perche πn0,x0 sia ben definita, dovremo dimostrare che exp(φ(n0, x0)) <+∞. Rinviamo per il momento questo controllo e, prendendo per buona lalimitatiezza del precedente integrale, osserviamo che per il teorema di Bayessi ha

πn0,x0

x(n) (dη) =exp(

∑ni=1 xi, η)− nM(η) exp(n0x0, η)− n0M(η)− φ(n0, x0)dη

(∫

Rk exp(∑n

i=1 xi, u)− nM(u) exp(n0x0, u)− n0M(u)− φ(n0, x0))du)

= exp

(n∑i=1

xi + n0x0, η

)− (n+ n0)M(η)− φ

(n0 + n,

n0x0 +∑n

i=1 xin0 + n

)dη.

E’ possibile giustificare i precedenti passaggi con con la prossima propo-sizione, in cui poniamo

U := πn0,x0(dη) := exp(n0x0, η)−n0M(η)−φ(n0, x0)dη;x0 ∈ CS(µ), n0 ∈ (0,+∞).

Proposizione 14.1 (Diaconis-Ylvisaker). Se n0 > 0 e x0 ∈ CS(µ) e H eun aperto non vuoto, allora

expφ(n0, x0) < +∞.

Inoltre, U e una famiglia coniugata di prior per la famiglia esponenziale(14.3). In particolare

πn0,x0

x(n) (dη) = πn+n0,

n0x0+Pn

i=1 xin0+n (dη).

Dimostrazione. Sia A un sottoinsieme convesso e compatto di CS(µ).Dimostriamo prima di tutto che µ(A) < +∞. Fissiamo η 6= 0 in H.

Page 144: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

144CAPITOLO 14. FAMIGLIE ESPONENZIALI NELLA STATISTICA BAYESIANA

Chiaramente IA = infx∈A e(x,η) > 0, quindi µ(A)IA ≤∫A e

(x,η)µ(dx) ≤∫X0e(x,η)µ(dx) < +∞ e quindi µ(A) <

∫X0e(x,η)/IA < +∞. Di conseguen-

za, per ogni A convesso e compatto possiamo definire una mdp µA nelseguente modo

B 7→ µA(B) =µ(A ∩B)µ(A)

e porre poi xA :=∫xµA(dx). Applicando la disuguaglianza di Jensen alla

funzione x 7→ exp(x, η), otteniamo

exp(−M(η)) =1∫

e(x,η)µ(dx)≤ 1

(∫e(x,η)µA(dx))µA

≤exp(−(η,

∫xµA(dx)))

µA,

ossiae−M(η) ≤ 1

µ(A)e−(η,xA). (14.4)

Ora sia D l’insieme di tutti i punti di CS(µ) ⊂ Rd che si possono scriverecome

x =d∑j=1

λjxAj

dove

• Aj sono sottoinsiemi covessi e compatti di CS(µ),

• λj > 0 per j = 1, . . . , d+ 1 e∑d+1

j=1 λj = 1,

• xA1 , . . . , xAd+1non giacciono in alcun iperspazio d− 1 dimensionale.

Si puo dimostrare che D e denso in CS(µ). Omettiamo la dimostrazionedettagliata, limitandoci a sottolineare i punti salienti: (i) Ogni punto x diCS(µ) puo essere scritto come x =

∑d+1j=1 λjxj con xj in nel supporto di µ,∑d+1

j=1 λj = 1, λj ≥ 0 e con x1, . . . , xd+1 che non giacciono in alcun iperpianod − 1 dimensionale; (ii) il sottoinsieme di punti x =

∑dj=1 λjxj come sopra

dove pero λj > 0 per ogni j e denso in CS(µ); (iii) i punti del tipo xA sonodensi nel supporto di µ.

Una volta appurato che D e un sottoinsieme denso di CS(µ), dimostri-amo prima di tutto il teorema per n0 > 0 e x0 ∈ D. Supponiamo quindi

Page 145: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

14.1. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA145

che x0 =∑d

j=1 λjxAj . Possiamo decomporre H come unione di una par-tizione H1, . . . ,Hd+1 (insiemi disgiunti tali che H = ∪Hi) in modo che se ηappartiene ad Hk allora

(η, xAk− xAj ) ≥ 0 j 6= k.

Usando (14.4) possiamo quindi scrivere∫Hen0((x0,η)−M(η))dη =

d+1∑k=1

∫Hk

en0((x0,η)−M(η))dη

≤d+1∑k=1

1µ(Ak)n0

∫Hk

en0(x0−xAk,η)dη

=d+1∑k=1

1µ(Ak)n0

∫Hk

e−n0

Pd+1j=1 λj(xAk

−xAj,η)dη

Si noti che su Hk si ha (xAk− xAj , η) ≥ 0 per ogni j. Per concludere che

per ogni k gli integrali che compaiono nell’ultima espressione sono integralidi esponenziali negativi e quindi finiti, non ci resta che fare un semplicecambiamento di variabili. Su Hk consideriamo il cambiamento di base Lkdato da lkj := (η, xAk

− xAj ) per j = 1, . . . , k − 1, k + 1, . . . , d + 1. Dalmomento che i punti xAj non giacciono su un iperpiano d− 1 dimensionalesi ha che |JLk| 6= 0, quindi un semplice cambio di variabili fornisce∫

Hk

e−n0

Pd+1j=1 λj((xAk

−xAj),η)dη

=∫Lk(Hk)∩lkj≥0

e−n0P

j 6=k λj lkj

1|JLk|

⊗j 6=k dlkj < +∞.

Ora se x = εx1 + (1 − ε)x2 e combinazione convessa di due punti x1 ex2 appartenenti a D, la disuguaglianza di Holder implica che φ(n0, x) ≤εφ(n0, x1) + (1 − ε)φ(n0, x2) < +∞. Quindi per ogni punto x di CS(µ),φ(n0, x) < +∞.

E’ immediato rienuciare il precedente risultato nel caso in cui

pη(A) =∫Ae(t(x),η)−M(η)µ(dx) (A ∈ B(Rk)). (14.5)

eH = η ∈ Rk : exp(M(η)) :=

∫Rk

e(t(x),η)µ(dx) < +∞.

Page 146: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

146CAPITOLO 14. FAMIGLIE ESPONENZIALI NELLA STATISTICA BAYESIANA

In questo caso supporremo che l’interno del convessificato del supporto diµt sia non vuoto, e lo indicheremo con CS(µt). Posto

φ(n0, t0) := log[∫

Hexp(n0t0, η)− n0M(η)dη

]si ha che

U := πn0,t0(dη) := exp(n0t0, η)−n0M(η)−φ(n0, t0)dη; t0 ∈ CS(µt), n0 ∈ (0,+∞)

e una famiglia coniugata per (14.5).

Molto importante e il seguente risultato.

Proposizione 14.2. Se H e un aperto di Rk allora, per ogni n0 > 0 e perogni t0 in CS(µt) ∫

H∇M(η)πn0,t0(dη) = t0.

Proof. Si veda l’articolo citato.

In particolare, grazie al fatto che∫Rk

t(x)pη(dx) = ∇M(η)

otteniamo il seguente utile corollario.

Corollario 14.3. Se H e un aperto di Rk,∫H

[∫Rk

t(x)pη(dx)]πn0,t0ξ(n) (dη) = E[t(ξn+1)|ξ(n)] =

n0t0 +∑n

i=1 t(ξi)n0 + n

.

In altri termini, la media a posteriori di t(·) e una combinazione convessadella media a priori e della media empirica.

Infine, supponiamo che

pθ(A) =∫Ae(t(x),η(θ))−M(θ)µ(dx) (A ∈ B(Rk)) (14.6)

eΘ = θ ∈ Rk : exp(M(θ)) :=

∫Rk

e(t(x),η(θ))µ(dx) < +∞

con η : Θ → H biettiva e misurabile e con Θ ⊂ Rk aperto non vuoto. Ancorasupponiamo che l’interno del convessificato del supporto di µt sia non vuoto.

Page 147: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

14.1. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA147

Osserviamo che M(θ) = M(η(θ)). Definiamo infine dη(θ) come la misuraσ–finita su Θ tale che ∫

Adη(θ) =

∫η(A)

dη.

Allora, posto

φ(n0, t0) := log[∫

Θexp(n0t0, η(θ))− n0M(η(θ))dη(θ)

],

si ha che

U := πn0,t0(dθ) := exp(n0t0, θ)−n0M(η)−φ(n0, t0)dη(θ); t0 ∈ CS(µt), n0 ∈ (0,+∞)

e una famiglia coniugata per (14.6). Infatti∫Θ

exp(n0t0, η(θ))− n0M(η(θ))dη(θ) =∫H

exp(n0t0, η)− n0M(η)dη.

In particolare per ogni t0 ∈ CS(µt) e n0 ∈ N risulta φ(n0, t0) < +∞ e

πn0,t0x(n) (dθ) = π

n+n0,n0t0+

Pni=1 t(xi)

n0+n (dθ).

Esempio 50 (Binomiale-Beta). Consideriamo il classico modello binomiale,ossia

Θ = (0, 1) X0 = R µ(dx) := δ0(dx) + δ1(dx)

pθ(dx) = θx(1− θ)1−xµ(dx) = explog(1− θ) + x log(θ/(1− θ))µ(dx)

Chiaramente in questo caso

t(x) = x;η(θ) = log(θ/(1− θ)) H = R;

M(θ) = − log(1− θ).

Di conseguenza, poiche η′(θ) = (θ(1− θ))−1,

πn0,x0(dθ) =θn0x0−1(1− θ)n0−1

B(n0x0, n0)dθ

con n0 > 0, x0 ∈ (0, 1) = CS(µ) e

B(a, b) =∫ 1

0θa−1(1− θ)b−1dθ.

Page 148: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

148CAPITOLO 14. FAMIGLIE ESPONENZIALI NELLA STATISTICA BAYESIANA

Ossia la famiglia coniugata risulta essere la famiglia di distribuzioni beta.La posteriori risulta essere

πn0,t0x(n) (dθ) = B

(n0x0 +

n∑i=1

xi, n0 + n−n∑i=1

xi

)−1

I(0,1)(θ)θn0x0+Pn

i=1 xi−1(1−θ)n0+n−Pn

i=1 xi−1dθ

Esempio 51 (Poisson-Gamma). Consideriamo il modello di Poisson. Inquesto caso

Θ = R+ X0 = R µ(dx) :=∑k≥0

δk(dx)

pθ(dx) =1x!e−θθxµ(dx) = exp− log(x!)− θ + (log θ)xµ(dx).

Chiaramente in questo caso

t(x) = x;η(θ) = log(θ) H = R;

M(θ) = θ.

Di conseguenza, poiche η′(θ) = (θ)−1,

πn0,x0(dθ) =θn0x0−1e−n0θ

Γ(n0x0)nn0x0

0 dθ

con n0 > 0, x0 ∈ R+ = CS(µ). Ossia la famiglia coniugata risulta essere lafamiglia di distribuzioni gamma.

Esempio 52 (Normale-Normale). Consideriamo ora una likelihood normaledi media incognita e precisione nota λ. Ossia

X0 = R, Θ = R

pµ(dx) = dx

√λ

2πe−

λ2(x−µ)2 =

dx√λ√

2πe−λx

2/2 expλµx− λµ2/2.

Ossiat(x) = λx M(µ) = λµ2/2.

Poiche t0 = λx0 si ha

πn0,λx0(dµ) ∝ expn0x0λµ− n0λµ2/2dµ

= exp−n0λ

2(µ− x0)2

√n0λ

2πdµ.

Page 149: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

14.1. LA FAMIGLIA ESPONENZIALE NELLA STATISITCA BAYESIANA149

In altre parole πn0,λx0 = N (x0,1n0λ

). Quindi la gaussiana e una famigliaconiugata per la gaussiana con media incognita e precisione nota. In parti-colare la distribuzione a posteriori e

πn0,λx0

x(n) = N (n0x0 +

∑ni=1 xi

n0 + n,

1λ(n0 + n)

).

Page 150: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

150CAPITOLO 14. FAMIGLIE ESPONENZIALI NELLA STATISTICA BAYESIANA

Page 151: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 15

Un teorema di esistenza edunicita per m.d.p. aleatorie

di

Eugenio Regazzini

Quello che segue e la riproduzione (con minimi cambiamenti tipografici edi notazione) del Paragrafo 7 di ′′Impostazione non parametrica di problemid’inferenza statistica bayesiana′′ di Eugenio Regazzini. Il testo integrale ereperibile on–line all’indirizzo:

http://www.mi.imati.cnr.it/iami/abstracts/96-21.html

Io ho aggiunto solo le note.

15.1 Proprieta delle leggi di dimensione finita diuna m.d.p. aleatoria

Supponiamo che p1 sia una m.d.p. aleatoria definita su (Ω,F , P ). Iniziamocon qualche osservazione -fondamentale per il resto della trattazione- sulleproprieta delle leggi di dimensione finita del processo p1(A0) : A0 ∈ X0.

Data una k-upla ordinata di elementi distinti di X0, diaciamo (A1, . . . , Ak),definiamo qA1,...,An come

qA1,...,Ak(C) = P(p1(A1), . . . , p1(Ak)) ∈ C (C ∈ B([0, 1]k))

151

Page 152: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

152CAPITOLO 15. UN TEOREMA DI ESISTENZA ED UNICITA PER M.D.P. ALEATORIE

e denotiamo con Q la classe di tutte le qA1,...,Akottenute al variare di

(A1, . . . , Ak) e di k. Tale classe gode di alcune proprieta notevoli:

(Q1) per ogni permutazione π di (1, . . . , k)

qA1,...,Ak(C1×· · ·×Ck) = qAπ(1),...,Aπ(k)

(Cπ(1)×· · ·×Cπ(k)) (Ci ∈ B([0, 1]), i = 1, . . . , k; k ≥ 1);(15.1)

(Q2)qX0 = δ1; (15.2)

(Q3) per ogni C in B([0, 1]k), per ogni k-upla (A1, . . . , Ak) di elementidistinti di X0 e per ogni partizione finita (B1, . . . , Bm) di X0 non meno finedi quella generata da (A1, . . . , Ak)

qA1,...,Ak(C) = qB1,...,Bm(x ∈ [0, 1]m : (

∑(1)xj , . . . ,

∑(k) xj) ∈ C) (15.3)

con∑

(i) che denota la somma estesa agli indici j per cui Bj ⊂ A i;

(Q4) se An ∈ X0 per ogni n e se An ↓ ∅, allora

qAn ⇒ δ0 (n→ +∞). (15.4)

Nel presente paragrafo si affronta il problema di esistenza e unicita che sipresenta quando si voglia assegnare concretamente una misura di probabilitasu (P,P): “data una famiglia Q di leggi di probabilita di dimensione finitache goda delle proprieta (Q1)−(Q4), esiste una misura di probabilita aleato-ria p1 tale che (p1(A1), . . . , p1(Ak)) ammetta qA1,...,Ak

come distribuzione,per ogni k-upla ordinata di elementi distinti di X0 e per ogni k ≥ 1? In casoaffermativo, se p2 e un’altra misura di probabilita aleatoria con la stessaproprieta, la sua distribuzione coincide con quella di p1?”

Come al solito si assume X0 spazio polacco, X0= σ-algebra di Borelsu X0. Quindi, si dimostra che Q determina (univocamente) una misuradi probabilita su ([0, 1]X0 , (B[0, 1])X0). Successivamente, si verifica che unap1 con le proprieta richieste esiste. Per questo conviene ricordare alcuneconseguenze quasi immediate delle (Q1)− (Q4). 1

1Nel seguito, spesso, un vettore di [0, 1]M sara indicizzato invece che con degli intericon degli insiemi distinti di X0, ossia useremo notazioni del tipo

(xA1 , . . . , xAM ),

al posto dell’usuale (x1, . . . , xM ). Questo si giustifica perche il nostro obiettivo e definireuna legge su [0, 1]X0 , e quindi l’insieme naturale di indici e proprio X0.

Page 153: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

15.2. UN TEOREMA DI ESISTENZA ED UNICITA PER M.D.P. ALEATORIE153

(Q5) Se (C1, . . . , Cn) e una n-upla ordinata, senza ripetizioni, di elemen-ti di X0 e se (A1, . . . , Ak) e una k-upla ordinata estratta dalla precedenteconservando l’ordine, allora

qA1,...,Ak(B) = qC1,...,Cn((xC1 , . . . , xCn) ∈ [0, 1]n : (xA1 , . . . , xAk

) ∈ B)

per ogni B in B([0, 1]k).

Per dimostrare (Q5), si consideri la partizione (B1, . . . , Bm) generata da(C1, . . . , Cn). Allora, per la (Q3):

qC1,...,Cn((xC1 , . . . , xCn) ∈ [0, 1]n : (xA1 , . . . , xAk) ∈ B)

= qB1,...,Bm((xB1 , . . . , xBm) ∈ [0, 1]m : (∑

j:Bj⊂Ai

xBj , . . . ,∑

j:Bj⊂Ak

xBj ) ∈ B)

= qA1,...,Ak(B).

15.2 Un teorema di esistenza ed unicita per m.d.p.aleatorie

Le (Q1) e (Q5) dicono che gli elementi di Q sono compatibili nel senso diKolmogorov e quindi, essendo [0,1] spazio polacco, il teorema di estensionedi Kolmogorov [cfr. Teorema A.5] porge

(Q6) Assegnata Q, esiste una ed una sola misura di probabilita q∗ su([0, 1]X0 , (B[0, 1])X0) tale che

q∗(x ∈ [0, 1]X0 : (xA1 , . . . , xAk) ∈ B) = qA1,...,Ak

(B)

per ogni k-upla ordinata (A1, . . . , Ak) di elementi distinti di X1, per ogni Bin B([0, 1]k) e per ogni k ≥ 1 2 .

D’ora in poi indicheremo con ZA : A ∈ X0 il processo delle coordinatecorrispondente a ([0, 1]X0 , (B[0, 1])X0)3.

2In altre parole abbiamo dimostrato che assegnata una famiglia Q possiamo sempredefinire un processo stocastico indicizzato da X0 a valori in [0, 1]X0 con legge q∗. Sarainfatti sufficiente considerare come processo il processo delle cordinate.

3Ossia ZA : [0, 1]X0 → [0, 1] con ZA(e) = e(A) per ogni e in [0, 1]X0 . Notiamo che, comevariabile aleatoria (processo), ZA : A ∈ X0 assume valori in uno spazio molto piu grande

Page 154: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

154CAPITOLO 15. UN TEOREMA DI ESISTENZA ED UNICITA PER M.D.P. ALEATORIE

A proposito del processo delle coordinate, valgono le seguenti:

q∗(ZA ≥ 0) = 1 per ogni A ∈ X0;q∗(ZX0 = 1) = 1;q∗(ZA + ZAc = 1) = 1 per ogni A ∈ X0;

q∗(ZA =∑k<N

ZAk) = 1 per ogni partizione numerabile di A

con con N ∈ 2, . . . ,+∞ e Ak in X0 per ogni k

(15.5)

Le prime due proprieta sono diretta conseguenza della definizione di q∗ edella (15.2). Per quanto concerne la terza, la seconda delle (15.5) e la (15.3)porgono

1 = q∗(ZX0 = 1) = qX0(1) = qA,Ac(x ∈ [0, 1]2 : X0 + x2 = 1)= q∗(ZA + ZAc = 1).

Infine, per la quarta, si consideri A = X0 e si prenda n < N ; quindi,

I[1,+∞)(x) = q∗(ZX0 ≤ x) (x ∈ R)

= qA1,...,An,Sn

1 Akc(x ∈ [0, 1]n+1 : x1 + · · ·+ xn+1 ≤ x) [per la (Q3)]

= q∗(ZA1 + · · ·+ ZAn + ZSn

1 Akc ≤ x) per ognin.

Ora, ZSn1 Akc tende in q∗–probabilita a 0 per n → N grazie alla (15.4),

mentre∑n

k=1 ZAktende q∗–quasi certamente a

∑k<N ZAk

. Percio,

I[1,+∞)(x) = limn→N

q∗(ZA1 + · · ·+ ZAn + ZSn

1 Akc ≤ x)

= q∗

(∑k<N

ZAk≤ x

)per ognix in R

dello spazio delle m.d.p.. Ovviamente P ⊂ [0, 1]X0 e si puo dimostrare che in generaleP 6∈ (B[0, 1])X0 . La situazione e analoga a quanto accade quando si vuole costruire ilMoto Browniano a partire dal teorema di Kolmogorv. In quel caso l’insieme degli indicie R+ e si vuole costruire un processo a valori in C[0, 1], tuttavia assegnado le leggi finitodimensionali ed usando il teorema di estensione di Kolmogorov si finisce per costruire un

processo a valori in RR+. C[0, 1] non e nemmeno un misurabile per la σ-algebra dei cilindri

B(R)R+. Nel nostro caso vorremmo costruire un processo A 7→ p1(A) ma finiamo in uno

spazio troppo grosso. Per questo motivo prima di arrivare a dimostrare l’esistenza di unprocesso a valori m.d.p. occorre un po’ di lavoro supplementare

Page 155: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

15.2. UN TEOREMA DI ESISTENZA ED UNICITA PER M.D.P. ALEATORIE155

e la proprieta e dimostrata per A = X0. Se A & X0, dal precedente risultatodiscende

q∗(ZAc + ZA1 + ZA2 + . . . = 1) = 1

ovveroq∗(ZA1 + ZA2 + . . . = 1− ZAc) = 1

dove, per la terza di (15.5), q∗(1− ZAc = ZA) = 1.

Osservazione. Dalle (15.5) discende immediatamente che, data una par-tizione finita C1, . . . , CN di X0 con Ci in X0 (i = 1, . . . , N), esiste N in(B[0, 1])X0 con q∗(N ) = 0 tale che

ZCi(ω) ≥ 0 (ω ∈ N c, i = 1, . . . , N)ZC1(ω) + . . .+ ZCN

(ω) = 1 (ω ∈ N c).

Quindi, per ω in N c, ZC1(ω), . . . , ZCN(ω) determinano una misura di proba-

bilita ν(·, ω) sull’algebra A = A(C1, . . . , CN ) generata dalla partizione data.Inoltre, per ogni intero positivo n e per ogni ω in N c, resta anche determina-ta una ed una sola misura di probabilita sull’algebra prodotto An, νn(·, ω),tale che

νn(A1 × . . .×An, ω) = ν(A1, ω) . . . ν(An, ω) = ZA1(ω) . . . ZAn(ω) (15.6)

per ogni Ak in A con k = 1, . . . , n. Quindi, per m < n:

νn(A1 × . . .×Am ×Xn−m0 ) = ν(A1, ω) . . . ν(Am, ω) (15.7)

= νm(A1 × . . .×Am).

Ora, per dimostrare che esiste una misura di probabilita aleatoria com-patibile con Q, si puo procedere nel modo seguente:1. per il tramite di Q si fissa una legge scambiabile su (X,X );2. si dimostra, poi, che la (unica) misura di de Finetti di tale legge ammettegli elementi di Q come leggi di dimensione finita.

Teorema 15.1 (Teorema dell’esistenza di una misura di probabilita aleato-ria). Siano X0 uno spazio polacco e X0 la sua σ-algebra di Borel, P l’insiemedi tutte le misure di probabilita su (X0,X0) con la topologia della convergen-za debole e P la sua σ-algebra di Borel. Allora, data Q con le proprieta(Q1) − (Q4), esiste una misura di probabilita aleatoria p1 : (X∞

0 ,X∞0 ) →

(P,P) tale che (p1(A1), . . . , p1(An)) si distribuisce secondo qA1,...,An, perogni n-upla ordinata (A1, . . . , An) di elementi distinti di X e per ogni n ≥ 1.

Page 156: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

156CAPITOLO 15. UN TEOREMA DI ESISTENZA ED UNICITA PER M.D.P. ALEATORIE

Dimostrazione. Per ogni n e per ogni n-upla (A1, . . . , An) di elementi diX0, si pone

µn(A1 × . . .×An) =∫

[0,1]X0

ZA1 . . . ZAndq∗.

Dato poi un elemento qualunque A(n) dell’algebra An generata dai rettangolimisurabili A1 × · · · × An, si estende µn nel modo seguente: essendo A(n)

unione finita e disgiunta di rettangoli misurabili (A(n) = R1 ∪ . . . ∪ Rm), sipone

µn(A(n)) =m∑k=1

µn(Rk).

Cio premesso, si considera la classe C(An) dei cilindri aventi base in An esi definiscono l’algebra C = ∪∞n=1C(An) e la funzione µ : C → [0, 1] come

µ(C(A(n))) = µn(A(n))

essendo C(A(n)) il cilindro con base A(n) in An (n ≥ 1). Si verifica che µ eben definita e che e una probabilita finitamente additiva su C. In effetti, seC(A(n)) = C(A(m)), allora A(n) = A(m) se m = n e A(n) = A(m) × Xn−m

0

se m < n. In questo secondo caso, si tenga presente che A(m) e unionefinita e disgiunta di rettangoli m-dimensionali e che esiste una partizionefinita C1, . . . , CN di X0 tale che ciascuno di tali rettangoli e unione finitae disgiunta di rettangoli del tipo Ci(1)×· · ·×Ci(m). In virtu della precedenteOsservazione, esiste νm con le proprieta ivi descritte tale che

µm(Ci(1) × · · · × Ci(m)) =∫

[0,1]X0

ZCi(1)· · ·ZCi(m)

dq∗

=∫

[0,1]X0\Nνm(Ci(1) × · · · × Ci(m), ω)q∗(dω)

e quindi

µm(A(m)) =∫

[0,1]X0\Nνm(A(m), ω)q∗(dω)

=∫

[0,1]X0\Nνn(A(m) ×Xn−m

0 , ω)q∗(dω) [per la (15.7)]

= µn(A(m) ×Xn−m0 ) = µn(A(n)).

Page 157: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

15.2. UN TEOREMA DI ESISTENZA ED UNICITA PER M.D.P. ALEATORIE157

Cio dimostra che µ e ben definita. Inoltre,

µ(X) = µ(C(X0))

= µ1(X0) =∫

[0,1]X0

ZX0dq∗ = 1 [per la seconda di (15.5)].

Dati i cilindri C(A(n)), C(B(n)), possiamo determinare una partizione finitaC1, . . . , CN di X0 in modo che A(n) e B(n) possano scriversi come unionifinite e disgiunte di rettangoli del tipo Ci(1) × · · · × Ci(n). Quindi,

νn(A(n) ∪B(n), ω) = νn(A(n), ω) + νn(B(n), ω) q.c.− q∗,

µn(A(n)) + µ(B(n)) =∫

[0,1]X0\Nνn(A(n), ω)q∗(dω)

+∫

[0,1]X0\Nνn(B(n), ω)q∗(dω)

=∫

[0,1]X0\Nνn(A(n) ∪B(n), ω)q∗(dω) = µn(A(n) ∪B(n))

e da questo segue l’additivita finita di µ. Poiche µ e anche, ovviamente, nonnegativa, allora essa e una probabilita su C.

Per ogni i ≥ 1, la funzione mi definita come

B 7→ mi(B) := µ(Xi−10 ×B ×X) (B ∈ X0)

e una misura di probabilita su (X0,X0). Alla luce delle precedenti consid-erazioni, basta far vedere che mi e continua. Infatti, se Bn ∈ X0 per ogni ne se Bn ↓ ∅ per n→ +∞, allora

mi(Bn) = µi(Xi−10 ×Bn)

=∫

[0,1]X0

ZBndq∗

=∫

[0,1]xqBn(dx) → 0 (n→ +∞) [per la (15.4)].

Ovviamente,mi = m1 (i = 1, 2, . . .). PoicheX0 e polacco, allora (X0,X0,m1)e perfetto [per ogni funzione f X0-misurabile, e per ogni E ⊂ R tale chef−1(E) ∈ X0, esiste un boreliano B tale che B ⊂ E e m1(f−1(E)) =m1(f−1(B))] e, per un teorema di estensione di Sazonov [cfr. Sazonov

Page 158: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

158CAPITOLO 15. UN TEOREMA DI ESISTENZA ED UNICITA PER M.D.P. ALEATORIE

(1962), Teorema 6], esiste una ed una sola misura di probabilita µ su (X,X ) =(X0

∞,X′∞) tale che µ(A) = µ(A) per ogni A in C [si noti, infatti, che X egenerata da C]. Dalla definizione di µn segue immediatamente che µ e scam-biabile. Percio, esiste una ed una sola misura di probabilita γ su (P,P) taleche

µ(C) =∫

P1

p∞(C)γ(dp) (C ∈ X )

e γ e la distribuzione di una misura di probabilita aleatoria p1 che e il limite[nel senso della convergenza debole] quasi certo di (

∑nk=1 δξk/n)n≥1. Cfr.

Theorem 13.4 e 13.5. Infine, se A1, . . . , Ak sono elementi distinti di X0, vale

E(p1(A1)n1 . . . p1(Ak)nk)= µ(A1 × . . .×A1︸ ︷︷ ︸

n1 fattori

×A2 × . . .×A2︸ ︷︷ ︸n2 fattori

× . . .×Ak × . . .×Ak︸ ︷︷ ︸nk fattori

×X∞0 )

(nj ≥ 0, j = 1, . . . , k, n1 + · · ·+ nk = n, n ≥ 0)

= µn(A1 × . . .×A1︸ ︷︷ ︸n1 fattori

× . . .×Ak × . . .×Ak︸ ︷︷ ︸nk fattori

)

=∫

[0,1]X0

Zn1A1· · ·Znk

Akdq∗

=∫

[0,1]kxn1

0 · · ·xnkk qA1,...,Ak

(dx0 . . . dxk)

per ogni nj ≥ 0 (j = 1, . . . , k) tale che n1 + · · ·+nk = n per ogni n ≥ 0. Daun ben noto teorema sul problema dei momenti e dal precedente sistema direlazioni, concernente i momenti di (p1(A1), . . . , p1(Ak)), segue che questovettore e distribuito secondo qA1,...,Ak

.

Per quanto riguarda la dimostrazione dell’esistenza di p1, va notato che ilruolo giocato dal teorema di rappresentazione di de Finetti e “strumentale”e nulla ha a che fare col significato di tale teorema in relazione alla logicainduttiva.

Dal punto di vista pratico, la tesi del Teorema di esistenza afferma che,per assegnare la distribuzione iniziale in un problema non parametrico, op-pure per assegnare una legge scambiabile, possiamo procedere fissando Qcon le proprieta (Q1)-(Q4) e, con questo, resta individuata una misura diprobabilita γ su (P,P) compatibile con la classe Q assegnata.

Page 159: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

15.2. UN TEOREMA DI ESISTENZA ED UNICITA PER M.D.P. ALEATORIE159

Teorema 15.2. Teorema di unicita della misura di probabilita compatibilecon Q. Nelle stesse ipotesi del teorema precedente, e unica la misura diprobabilita su (P,P) compatibile con Q.

Dimostrazione. Se γ1 e γ2 sono distinte misure di probabilita su (P,P)compatibili con Q, esistono due distinte leggi scambiabili µ1, µ2 aventirispettivamente γ1 e γ2 come leggi di de Finetti. Ora, affinche µ1 e µ2

siano distinte e necessario e sufficiente che distinte siano le leggi di dimen-sione finita. Questo, pero, non e possibile perche tali leggi di dimensionefinita sono determinate da Q [cfr. la parte finale della dimostrazione delteorema precedente].

Page 160: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

160CAPITOLO 15. UN TEOREMA DI ESISTENZA ED UNICITA PER M.D.P. ALEATORIE

Page 161: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 16

Processo diFerguson-Dirichlet

16.1 Distribuzione di Dirichlet sul simplesso

Ricordiamo che una variabile aleatoria Z con distribuzione Gamma(a, θ) ecaratterizzata dalla densita (rispetto alla misura di Lebesgue)

ga,θ(x) = I(0,+∞)(x)1

θaΓ(a)xa−1e−x/θ. a > 0, θ > 0

Inoltre la funzione caratteristica di una tale v.a. e

t 7→ (1− iθt)−a.

Convenzionalmente se a = 0 definiamo la variabile aleatoria di leggeGamma(0, θ)come una variabile degenere concentrata su 0. Grazie all’espressione dell fun-zione caratteristica e immediato verificare che se (Z1, . . . , Zn) sono variabilialeatorie con Zi con legge Gamma(ai, θ) allora

∑ni=1 Zi e una variabilie

aleatoria con legge Gamma(∑n

i=1 ai, θ). Introduciamo ora la classica dis-tribuzione di Dirichlet con parametro (a1, . . . , ak). Tale distribuzione puoessere caratterizzata come la legge del vettore

∆ = (∆1, . . . ,∆k) := (Z1/Nk, . . . , Zk/Nk)

dove le Zi sono indipendenti con distribuzioneGamma(ai, 1) eNk =∑k

i=1 Zi.Chiaramente ∆ assume valori nel sottoinsieme di Rk

(x1, . . . , xk) : xi > 0, i = 1, . . . , k,k∑i=1

xi = 1

161

Page 162: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

162 CAPITOLO 16. PROCESSO DI FERGUSON-DIRICHLET

poiche ∆k = 1 −∑k−1

i=1 ∆i, quindi non ha densita rispetto alla misura dilebesgue k–dimensionale. Tuttavia la legge di (∆1, . . . ,∆k−1), se ai > 0per ogni i = 1, . . . , k, ammette densita rispetto alla misura di lebesgue(k − 1)–dimensionale e, piu precisamente, la sua densita e

Γ(∑k

i=1 ai)∏ki=1 Γ(ai)

(k−1∏i=1

xai−1i

)(1−

k−1∑i=1

xi

)ak−1

ISk−1(x)

dove

Sk−1 = (x1, . . . , xk−1) : xi > 0, i = 1, . . . , k − 1,k−1∑i=1

xi < 1

e il simlesso k-dimensionale.

Dimostrarlo per esercizio.

Traccia: Si consideri la trasformazione

T :=k∑i=1

Zi, ∆i := Zi/T

con (Z1, . . . , Zk) variabili indipendenti con distribuzione Gamma(ai, 1). Ladensita di (Z1, . . . , Zk) e facile da scrivere

f(z1, . . . , zk) =k∏i=1

I(0,+∞)(zi)1

Γ(ai)xai−1e−x.

A questo punto si puo facilmente calcorale la densita di (T,∆1, . . . ,∆k−1):

g(t, d1, . . . , dk−1) = f(φ(t, d1, . . . , dk−1))|Jφ(t, d1, . . . , dk−1|,

dove φ e la trasformazione inversa φ(t, d1, . . . , dk−1) = (z1, . . . , zk), ossia

z1 = d1t, . . . , zk−1 = dk−1t, zk = t(1−k−1∑i=1

Zi)

il cui Jacobiano e tk−1 (verificarlo). Dopo aver scritto esplicitamente ladensita di (T,∆1, . . . ,∆k−1) si osservi che si ottiene anche l’interessantefatto che T e (∆1, . . . ,∆k−1) sono stocasticamente indipendenti.

Page 163: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

16.1. DISTRIBUZIONE DI DIRICHLET SUL SIMPLESSO 163

La distribuzione di Dirichlet con parametro (a1, . . . , ak) puo essere scirtta(quando ai > 0 per ogni i) come

dir(a1, . . . , ak;A) =Γ(∑k

i=1 ai)∏ki=1 Γ(ai)

∫A∩Sk−1

k−1∏i=1

xai−1i 1−

k−1∑i=1

xiak−1dx1 . . . dxk−1

(16.1)per ogni A in (B(R) ∩ [0, 1])k, essendo

A = (x1, . . . , xk−1) : (x1, . . . , xk−1, 1−k−1∑i=1

xi) ∈ A.

Inoltre, poniamo

dir(1;A) = δ1(A) (A ∈ R ∩ [0, 1])

Si noti che se (∆1,∆2) e distribuito con legge dir(a, b) allora ∆1 e una v.a.con legge Beta(a, b).

Nel seguito, se sara chiaro dal contesto, scriveremo direttamente dir(a1, . . . , ak; A)al posto di dir(a1, . . . , ak;A). InoltreDa1,...,ak

sara la funzione di ripartizionedi (∆1, . . . ,∆k−1), ossia

Da1,...,ak(y1, . . . , yk−1) = dir(a1, . . . , ak; x1, . . . , xk−1 : xi ≤ yi, i = 1, . . . , k)

=Γ(∑k

i=1 ai)∏ki=1 Γ(ai)

∫ y1

0· · ·∫ ∫ yk−1

0k−1∏i=1

xai−1i 1−

k−1∑i=1

xiak−1dx1 . . . dxk−1

Vediamo ora alcune propireta di dimostrazione immediata che useremo.

Lemma 16.1. Sia (∆1, . . . ,∆k) distribuito con legge dir(α1, . . . , αk). Siano(C1, . . . , Cm) una partizione disgiunta di 1, . . . , k e si ponga a =

∑kj=1.

Allora

1. (∑

i∈C1∆i, . . . ,

∑i∈Cm

∆i) e un vettore aleatorio con legge dir(∑

i∈C1αi, . . . ,

∑i∈Cm

αi).

2. ∆i e una variabile aleatoria con legge Beta(αi, a − αi), per ogni i =1, . . . , k e, qunindi,

E(∆i) = αi/a E(∆2i ) = αi(1 + αi)/(a(a+ 1)).

3. Per i 6= j

E(∆i∆j) =αiαj

a(a+ 1).

Page 164: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

164 CAPITOLO 16. PROCESSO DI FERGUSON-DIRICHLET

4. Infine∫x1≤y1,...xk−1≤yk−1

xidDα1,...,αk(x1, . . . , xk−1) =

αiaDα1,...,αi+1,...,αk

(x1, . . . , xk−1)

16.2 Processo di Ferguson–Dirichlet

In questa sezione ci proponiamo di introdurre la distribuzione di FergusonDirichlet per una misura aleatoria. Per fare cio vogliamo usare il Teorema(di esistenza) 15.1 e come prima cosa dobbiamo definire una famiglia Q dileggi finitodimensionali consistente.

Assumiamo come sempre (X0,X0) polacco e consideriamo una misurafinita α tale che α(X0) = a > 0. Quindi, per ogni partizione finita e mis-urabile di X0, (C1, . . . , Ck) con k ≥ 2 e tale che α(Ci) > 0 (i = 1, . . . , k),definiamo la m.d.p. qC1,...,Ck

(·) su (B(R) ∩ [0, 1])k ponedno

qC1,...,Ck= dir(α(C1), . . . , α(Ck)).

Infine, data una qualunque n-upla ordinata (A1, . . . , An) di elementi distintidi X0 e indicata con (C1, . . . , Ck) la partizione generata da (A1, . . . , An),se α(Ci) > 0 per ogni i = 1, . . . , k, denotiamo con qA1,...,An la misura diprobabilita su (B(R) ∩ [0, 1])n definita da

qA1,...,An(B) = dir(α(C1), . . . , α(Ck);B∗). (16.2)

dove

B∗ =

(x1, . . . , xk) : (∑

i:Ci⊂A1

xi, . . . ,∑

i:Ci⊂An

xi) ∈ B

(B ∈ (B(R)∩[0, 1])n).

Invece se α(Ci) = 0 per qualche i, consideriamo la k′-upla (C

′1 , . . . , C

k ′)

ottenuta da (C1, . . . , Ck) eliminando i Ci con α(Ci) = 0. Quindi, poniamoper ogni B ∈ (B(R) ∩ [0, 1])n

qA1,...,An(B) = dir(α(C′1), . . . , α(C ′k′);B

∗) (16.3)

dove

B∗ =

(x1, . . . , xk ′ ) :

∑i:C ′

i ⊂A1

xi, . . . ,∑

i:C ′i ⊂An

xi

∈ B

,

Page 165: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

16.2. PROCESSO DI FERGUSON–DIRICHLET 165

∑i:C

′i ⊂Aj

xi := 0 se i : C′i ⊂ Aj = ∅,

e, come gia ricordato,

dir(α(C); ·) = δ1(·) se α(C) = a.

A questo punto abbiamo definito Q. Usando la definizione di Q e ilLemma 16.1 e immediato verificare che Q soddisfa Q1, Q2 e Q3 del capitoloprecedente. Resta da dimostrare Q4.

Assumiamo che An ↓ ∅ per An in X0 (n ≥ 1). Se α(AN ) = 0, allora pern ≥ N e B in B(R) ∩ [0, 1]:

qAn(B) = qAn,Acn((y1, y2) : y1 ∈ B) = δ0(B)

e quindi qAn ⇒ δ0 (n→ +∞). Se a > α(An) > 0 ∀n, allora

qAn(B) =∫B

Γ(a)Γ(α(An))Γ(α(Acn))

xα(An)−1(1−x)α(Acn)−1dx (B ∈ B(R)∩[0, 1])

e, per x in (0, 1), dalla disuguaglianza di Markov segue

qAn((x, 1]) ≤ 1x

∫ 1

0

Γ(a)Γ(α(An))Γ(α(Acn))

tα(An)(1− t)α(Acn)−1dt

=1x

α(An)a

→ 0 (n→ +∞).

Quindi, poiche qAn((−∞, 0)) = 0 per ogni n, si ha qAn([0, x]) → 1 pern→ +∞ (x > 0) e cio implica

qAn ⇒ δ0 (n→ +∞).

Cosı dal teorema di esistenza di una misura di probabilita aleatoria (Teorema15.1) deduciamo che esiste una misura di probabilita aleatoria p1 su (X0,X0),con distribuzione compatibile con la famiglia Q definita da (16.2) e (16.3),che diremo misura di Ferguson-Dirichlet perche introdotta da Ferguson nel1973 in base alla gia citata proprieta additiva della distribuzione di Dirichlet.Abbiamo cosı dimostrato il seguente

Teorema 16.2 (Esistenza del processo di Ferguson–Dirichelt). Sia (X0,X0)polacco e α una misura finita tale che α(X0) = a > 0. Allora, esiste una

Page 166: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

166 CAPITOLO 16. PROCESSO DI FERGUSON-DIRICHLET

m.d.p. aleatoria dα, a valori in P(X0), tale che per ogni partizione finita emisurabile di X0, (C1, . . . , Ck) con k ≥ 2 e α(Ci) > 0 (i = 1, . . . , k),

Pdα(C1), . . . ,dα(Ck) ∈ B = qC1,...,Ck(B) = dir(α(C1), . . . , α(Ck);B)

per ogni B in (B(R) ∩ [0, 1])k.

Indicheremo con Dα la distribuzione di probabilita di una misura diFerguson-Dirichlet e con dα la generica misura di probabilita aleatoria dis-tribuita secondo Dα. La misura α e detta parametro di Dα.

Una prima conseguenza della definizione di Dα e che, se (ξn)n≥1 unasuccessione scambiabile su (Ω,F , P ) a valori in (X∞

0 ,X∞0 ), avente Dα come

misura di de Finetti (ovvero le ξn sono i.i.d. condizionatamente alla misuradi probabilita aleatoria dα) allora

Pξn ∈ A = Pξ1 ∈ A = E[Iξ1 ∈ A|dα] = E[dα(A)] = α(A)/a (A ∈ X0).(16.4)

Dove l’ultima identita scende dal punto 2 del Lemma 16.1.

16.3 Distribuzione finale di un processo di Ferguson-Dirichlet

Teorema 16.3 (di Ferguson sulla distribuzione finale). Sia (ξn)n≥1 unasuccessione scambiabile su (Ω,F , P ) avente Dα come misura di de Finetti,ovvero: le ξn sono i.i.d. condizionatamente alla misura di probabilita aleato-ria dα. Allora, Dαn con αn = α+

∑ni=1 δξi e una distribuzione finale di dα

dato (ξ1, . . . , ξn) per ogni n.

Dimostrazione. Fissiamo n = 1 e una partizione A1, . . . , Ak di X0 conα(Ai) > 0 per ogni i. Allora, posto Bi1 := B ∩Ai, Bi0 = Bc ∩Ai, si ha

P (p1(A1) ≤ y1, . . . , p1(Ak−1) ≤ yk−1, ξ1 ∈ B)

=k∑i=1

P (p1(A1) ≤ y1, . . . , p1(Ak−1) ≤ yk−1, ξ1 ∈ Bi1)

e, posto

A∗ = p1(A1) ≤ y1, . . . , p1(Ak−1) ≤ yk−1= p1(B1,1) + p(B1,0) ≤ y1, . . . , p1(Bk−1,1) + p1(Bk−1,0) ≤ yk−1

Page 167: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

16.3. DISTRIBUZIONE FINALE DI UN PROCESSO DI FERGUSON-DIRICHLET167

si ha

Pp1(A1) ≤ y1, . . . , p1(Ak−1) ≤ yk−1, ξ1 ∈ Bi1

= E[IA∗E[Iξ1 ∈ Bi,1|p1(B1,0), p1(B1,1), . . . , p1(Bk−1,0), p1(Bk−1,1)]

]

= E[IA∗p1(Bi,1)

].

Ora l’ultimo valore attesto non e altro che

· α(Bi1)α(X1)

C

∫x10+x11≤y1,...,xk−1,0+xk−1,1≤yk

xα(B10)−110 x

α(B11)−111 · · ·xα(Bi1)

i1 · · ·

· · ·xα(Bk−1,0)−1k−i,0 x

α(Bk−1,1)−1k−1,1 (1− x10 − · · · − xk−1,1)α(Ak)−1dx1,0 . . . dxk−1,1

dove

C =Γ(α(X1) + 1)

Γ(α(B10))Γ(α(B11)) . . .Γ(α(Bi1) + 1) . . .Γ(α(Bk−1,0))Γ(α(Bk−1,1))Γ(α(Ak))

che grazie alla 4. del Lemma 16.1, puo essere riscritto come

α(Bi1)α(X1)

C

∫x1≤y1,··· ,xk−1≤yk−1

xα(A1)−11 · · ·xα(Ai)

i · · ·xα(Ak−1)−1k−1 ·

· (1− x1 · · ·xk−1)α(Ak)dx1 · · · dxk−1,

=α(Bi1)α(X1)

Dα(A1),...,α(Ai−1),α(Ai)+1,α(Ai+1),...,α(Ak)(y1, . . . , yk−1)

Senza ledere la generalita del ragionamento si e supposto α(Bi1) > 0 eα(Bi0) > 0 per ogni i. Quindi,

P (p1(A1) ≤ y1, . . . , p1(Ak−1) ≤ yk−1, ξ1 ∈ B)

=k∑i=1

α(Bi1)α(X1)

Dα(A1),...,α(Ai−1),α(Ai)+1,α(Ai+1),...,α(Ak)(y1, . . . , yk−1).(16.5)

Page 168: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

168 CAPITOLO 16. PROCESSO DI FERGUSON-DIRICHLET

Ora

k∑i=1

α(Bi1)α(X0)

D(α(A1),...,α(Ai)+1,...,α(Ak))(y1, . . . , yk−1)

=k∑i=1

∫Bi1

D(α(A1),...,α(Ai)+1,...,α(Ak))(y1, . . . , yk−1)α(dx)α(X1)

=k∑i=1

∫Bi1

D(α(A1)+δx(A1),...,α(Ak)+δx(Ak))(y1, . . . , yk−1)α(dx)α(X0)∫

X0

D(α(A1)+δx(A1),...,α(Ak)+δx(Ak))(y1, . . . , yk−1)α(dx)α(X0)

.

Ma, grazie a (16.4), sappiamo che α(·)/a e la legge marginale di ξ1, quindi∫X0

D(α(A1)+δx(A1),...,α(Ak)+δx(Ak))(y1, . . . , yk−1)α(dx)α(X0)

=E[D(α(A1)+δξ1 (A1),...,α(Ak)+δξk(Ak))(y1, . . . , yk−1)].

Riassumendo abbiamo mostrato che

P (p1(A1) ≤ y1, . . . , p1(Ak−1) ≤ yk−1, ξ1 ∈ B)= E[D(α(A1)+δξ1 (A1),...,α(Ak)+δξk

(Ak))(y1, . . . , yk−1)].

Quindi

P (p1(A1) ≤ y1, . . . , p1(Ak−1) ≤ yk−1|ξ1)= D(α(A1)+δξ1 (A1),...,α(Ak)+δξk

(Ak))(y1, . . . , yk−1).

Quindi, la tesi e dimostrata per n = 1. Per n = 2, osserviamo che glielementi di (ξi)i≥2 sono scambiabili condizionatamente a ξ1 con misura dide Finetti Dα+δξ1

. Si conclude quindi facilmente per induzione.

Infatti se indichiamo con Pα la misura di probabilita tale che

Pαξ ∈ A, p ∈ B =∫Bp∞(A)Dα(dp)

da quanto appena dismostrato ed usando la scambiabilita abbiamo che

Pαp1 ∈ B|ξ1 = x = Pαp1 ∈ B|ξk = x = Dα+δx(B) = Pα+δxp1 ∈ B.

Page 169: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

16.3. DISTRIBUZIONE FINALE DI UN PROCESSO DI FERGUSON-DIRICHLET169

Quindi

Pαξ2 ∈ A, p1 ∈ B|ξ1 = x

=∫BPαξ2 ∈ A|p1 = p, ξ1 = xPαp1 ∈ dp|ξ1 = x

=∫Bp(A)Pα+δxp1 ∈ dp = Pα+δxξ2 ∈ A, p1 ∈ B.

(16.6)

Usando la precedente si ottiene cosı

Pαξ1 ∈ A1ξ2 ∈ A2, p1 ∈ B =∫A1

Pαp1 ∈ B, ξ2 ∈ A2|ξ1 = xPαξ1 ∈ dx

=∫A1

Pα+δxξ2 ∈ A2, p1 ∈ BPαξ1 ∈ dx

=∫A1

∫A2

Pα+δxp1 ∈ B|ξ2 ∈ dx2Pα+δxξ2 ∈ dx2Pαξ1 ∈ dx

=∫A1

∫A2

Pα+δx+δx2p1 ∈ BPα+δxξ2 ∈ dx2Pαξ1 ∈ dx

=∫A1×A2

Dα+δx+δx2(B)Pαξ2 ∈ dx2|ξ1 = xPαξ1 ∈ dx

=∫A1×A2

Dα+δx+δx2(B)Pαξ1 ∈ dx, ξ2 ∈ dx2.

Il fatto che una versione della legge di (p1|ξ1, . . . , ξn) sia ancora di Ferguson-Dirichlet con parametro α+

∑n1 δξi rende dα particolarmente attraente dal

punto di vista del calcolo esplicito di inferenze statistiche.

Applicando il teorema precedente abbiamo che (ξi)i≥n+1 sono scambiabilicondizionatamente a ξ(n) con misura di de Finetti Dα+

Pn1 δξ1

, e immediato(usando la (16.4)) determinare la distribuzione predittiva di una successionecon misura di definitetti Ferguson–Dirichlet.

Proposizione 16.4 (predittiva). Sia (ξn)n≥1 una successione scambiabilesu (Ω,F , P ) avente Dα come misura di de Finetti, ovvero: le ξn sono i.i.d.condizionatamente alla misura di probabilita aleatoria dα. Allora, dato

Page 170: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

170 CAPITOLO 16. PROCESSO DI FERGUSON-DIRICHLET

(ξ1, . . . , ξn) per ogni n.

Pξn+1 ∈ A|ξ(n) =a

a+ n

α(A)a

+n

a+ n

1n

n∑j=1

IA(ξj) (A ∈ X0).

16.4 Costruzione alla Sethuraman

Sia (ζn)n≥1 una successione di variabili aleatorie i.i.d. come comune legge αdefinite su (Ω,F , P ) a valori in uno spazio misurabile (X,X ). Sia (un)n≥1

una successione di v.a. i.i.d. con legge comune concentrata su (0, 1) taliche E[| log(1− ui)|] < +∞ definite su (Ω,F , P ). Si supponga che (ζn)n≥1 e(un)n≥1 siano stocasticamente indipendenti. Si ponga

p1 := u1, pn := un

n−1∏i=1

(1− ui) n ≥ 2.

Se si dimostra che ∑n≥1

pn = 1 q.c.

chiaramente ne segue che ∑n≥1

pnδζn(·)

e una misura di probabilita aleatoria. Si osservi prima di tutto che

n∑i=1

qi = 1−(1−u1)+(1−u1)u2+· · ·+(1−u1) · · · (1−un−1)un = 1−n∏i=1

(1−ui).

Quindi ∑n≥1

pn = limn→+∞

[1− exp(n∑i=1

log(1− ui))].

Per la legge dei grandi numeri si ha che∑n

i=1 log(1 − ui)) converge quasicertamente a −∞ e quindi

∑n≥1 pn = 1 q.c..

Si puo dimostrare il seguente teorema.

Teorema 16.5. Sia (ζn)n≥1 una successione di variabili aleatorie i.i.d.come comune legge α definite su (Ω,F , P ) a valori in uno spazio misura-bile (X,X ). Sia (un)n≥1 una successione di v.a. i.i.d. con comune legge

Page 171: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

16.4. COSTRUZIONE ALLA SETHURAMAN 171

Beta(1, a) definite su (Ω,F , P ). Si supponga che (ζn)n≥1 e (un)n≥1 sianostocasticamente indipendenti. Si ponga α = aα e

p1 := u1, pn := un

n−1∏i=1

(1− ui) n ≥ 2.

Allorap1(·) :=

∑n≥1

pnδζn(·)

e una m.d.p. aleatoria a valori in P(X0), tale che per ogni partizione finitae misurabile di X0 (C1, . . . , Ck), con k ≥ 2 e α(Ci) > 0 (i = 1, . . . , k),

Pp1(C1), . . . , p1(Ck) ∈ B = qC1,...,Ck(B) = dir(α(C1), . . . , α(Ck);B)

per ogni B in (B(R)∩ [0, 1])k. In altri termini p1 e un processo di Ferguson–Dirichlet di parametro α = aα.

Si noti che il teorema vale senza alcuna ipotesi di tipo topologico sul-lo spazio X0. Non ripostiamo la dimostrazione, il lettore interessato puoleggerla su [? ].

Vediamo alcune semplici conseguenze della costruzione di Sethuraman,anche nota come stick breaking construction.

Supponiamo che X0 = R. Allora se E[|∫

R f(x)p1(dx)|] < +∞, si ottieneimmediatamente che

E[∫

Rf(x)p1(dx)] = E[E[

∑j≥1

f(Zj)pj |(pj)j≥1]] = E[f(Z1)]E∑j≥1

pj = E[f(Z1)]

Se vogliamo calcolare

EV ar(p1) = E[ ∫

Rx2p1 −

(∫Rxp1

)2]possiamo osservare che

EV ar(p1) = E[∫

Rx2p1]− E[

(∫Rxp1

)2] = E(Z2

1 )− E[(∫

Rxp1

)2].

Non ci resta che calcolare

E(∫

Rxp1)2 =

∑i≥1

∑j≥1

E[E[ZiZjpipj

∣∣∣(pj)j≥1

]]=∑i≥1

∑j≥1

E[Z2j ]E[p2

i ] +∑i6=j

E[Zi]E[Zj ]E[pipj ]

= E[Z21 ]∑i≥1

E[p2i ] + E[Z1]2

∑i6=j

E[pipj ].

Page 172: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

172 CAPITOLO 16. PROCESSO DI FERGUSON-DIRICHLET

Ora ∑i≥1

E[p2i ] =

∑i≥1

Eu21(E[(1− u1)2])i−1

e poiche Eu21 = 2

(a+2)(a+1) e E[(1− u1)2] = aa+2 si ottiene che

∑i≥1

E[p2i ] =

1a+ 1

.

Infine∑i6=j

E[pipj ] = 2∑i≥1

∑j≥1

Eqiqj+i

= 2∑i≥1

∑j≥1

E((1− u1)2 · · · (1− ui−1)2ui(1− ui)(1− ui+1) · · · (1− ui+j−1)ui+j

)e poiche E(u1) = 1

a+1 e E(1− u1)u1 = a(a+1)(a+2) si ottiene∑

i6=jE[pipj ] =

a

a+ 1.

Mettendo assieme quanto fin ora visto otteniamo che

E[V ar(p1)] =a

a+ 1V ar(Z1).

Page 173: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Capitolo 17

Bayesian computations:non–parametric case

17.1 Parameter Estimation

Let P0 be a subset of the set P of all probability measures on (X0,X0) andt : P0 → Θ be a parameter of interest, Θ being a suitable parameter space.Let us recall the decision theoretic formulation of a Bayesian estimationstatistical problem.

Usually one assumes that the statistician has a set D of decision rulesat his disposal and that these rules are defined, for any n ≥ 1, as functionsfrom Xn

0 to some set A of actions. Then one considers a loss function L, i.e.a positive real–valued function on Θ × A, such that L(θ, a) represents theloss when the value of t(p) is θ and the statistician chooses action a. It issupposed that

rN (δ(ξ(n))) := E[L(t(p), δ(ξ(n)))|ξ(n)]

is finite for any δ in D and rN (·) is said to be the a posteriori Bayes risk ofδ(ξ(n)). Moreover, a Bayes rule is defined to be any element δn of D suchthat

rN (δn(ξ(n))) = minδ∈D

rN (δ(ξ(n)))

for any realization of ξ(n). We shall call such a Bayes rule Bayes estimator.

Few simple examples will hopefully clarify the point. In all the exampleswe shall present, we consider real valued observations, that is (X0,X0) =

173

Page 174: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

174CAPITOLO 17. BAYESIAN COMPUTATIONS: NON–PARAMETRIC CASE

(R,B(R)), moreover the space of actions is R or R+ and the loss functionis the quadratic loss, i.e. L(x, y) = |x − y|2. It is clear that, under thesehypotheses,

δn(ξ(n)) = E[t(p)|ξ(n)].

Esempio 53 (Estimation of the mean). Suppose the statistician has to es-timate the mean under the squared error loss, i.e. the functional of interestis t(p) :=

∫R xp(dx). The Bayes estimator is

µn := E[ξn+1|ξ(n)]

Esempio 54 (Estimation of the variance). Suppose the statistician has toestimate the variance under the squared error loss. In this case the space ofactions is R+ and t(p) =

∫R x

2p(dx)− (∫

R xp(dx))2. The Bayes estimator is

σ2n := s2n − c1,2,n

where

s2n := E[ξ2n+1|ξ(n)] and c1,2,n := E[ξn+1ξn+2|ξ(n)].

Esempio 55 (Estimation of the distribution function). For a given t in R,suppose that statistician has to estimate t(p) = Fp(t) = p(−∞, t]. Underthe square loss function the Bayes estimator is

E(I(−∞,t](ξn+1)|ξ(n)).

Esempio 56 (Estimation of the mean difference). Suppose the statisticianhas to estimate

t(p) = ∆(p) =∫

R2

|x− y|p(dx)p(dy)

under the squared error loss. Then the Bayes estimator is

E(|ξn+1 − ξn+2||ξ(n)).

17.2 Applicazioni della distribuzione di Ferguson-Dirichlet a problemi elementari d’inferenzastatistica

Vediamo qualche applicazione della distribuzione di Ferguson-Dirichlet aproblemi elementari d’inferenza statistica.

In tutti gli esempi seguenti si assume che p1 = dα.

Page 175: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

17.2. APPLICAZIONI DELLA DISTRIBUZIONE DI FERGUSON-DIRICHLET A PROBLEMI ELEMENTARI D’INFERENZA STATISTICA175

Esempio 57 (Estimation of the mean). Consideriamo il problema dell’E-sempio 53. Dato il segmento iniziale ξ(n) = (ξ1, . . . , ξn) di una successionescambiabile avente Dα come misura di de Finetti, ci si propone di sti-mare t(p1) = M(p1) =

∫X0xp1(dx) nella ipotesi che

∫X0xp1(dx) sia una

variabile aleatoria finita. Quest’ultima circostanza si verifica se e solo se∫R log(s+ |x|)α(dx) < +∞ per qualche s > 0; cfr. Feigin e Tweedie (1989),

Cifarelli e Regazzini (1994). Come visto nell’esempio citato, dobbiamocalcolare E[ξn+1|ξ(n)], e grazie a Proposizione 16.4 si ha che

M(ξ(n)) =a

a+ n

∫Rxα(dx)a

+1

a+ n

n∑k=1

ξk.

Esempio 58 (Estimation of the variance). Riprendiamo l’Esempio 54. Se∫R log(1 + x2)α(dx) < +∞, allora

∫R x

2p1(dx) e finito con probabilita uno.Conservando tutte le altre condizioni del caso precedente, vogliamo stimaret(p1) = σ2(p1) :=

∫R x

2dp1− (∫

R xdp1)2, in presenza della funzione di dannoquadratica. Lo stimatore e quindi dato da E(σ2(p1)|ξ(n)). Per calcolarloricordiamo che se Y e una variabile aleatoria con funzione di ripartizione G

V ar(Y ) = E(Y 2)− [E(Y )]2

= 2∫ +∞

0t[1−G(t)]dt− 2

∫ 0

−∞tG(t)dt−

(∫ +∞

0[1−G(t)]dt−

∫ 0

−∞G(t)dt

)2

= 2∫ +∞

0t[1−G(t) +G(−t)]dt−

(∫ +∞

0[1−G(t)−G(−t)]dt

)2

= 2∫ +∞

0t[1−G(t) +G(−t)]dt−

∫ +∞

0

∫ +∞

0[1−G(t)−G(−t)][1−G(v)−G(−v)]dtdv.

= 2∫ +∞

0t[1−G(t) +G(−t)]dt− 2

∫ +∞

0

∫ +∞

v[1−G(t)−G(−t)][1−G(v)−G(−v)]dtdv.

Poniamo F1(t) = p1(−∞, t]. e

A∗n(x) =a

a+ n

α((−∞, x])a

+1

a+ n

n∑k=1

I(−∞, x](ξk).

Usando il teorema di Fubini, la precedente espressione per la varianza, il

Page 176: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

176CAPITOLO 17. BAYESIAN COMPUTATIONS: NON–PARAMETRIC CASE

Teorema 16.3 e il Lemma 16.1, si ottiene

E[σ2(p1)|ξ(n)] = E[2∫ +∞

0t(1− F1(t) + F1(−t))dt|ξ(n)]

− E[∫ +∞

0

∫ +∞

0[1− F1(v)− F1(−v)][1− F1(t)− F1(−t)]dtdv|ξ(n)]

= 2∫ +∞

0tE[(1− F1(t) + F1(−t))|ξ(n)]dt

− 2∫ +∞

0

∫ +∞

vE[[1− F1(v)− F1(−v)][1− F1(t)− F1(−t)]|ξ(n)]dtdv

= 2∫ +∞

0t[1−A∗n(t)−A∗n(−t)]dt

−2∫ +∞

0

∫ +∞

vE[[1− F1(v)− F1(−v)][1− F1(t)− F1(−t)]|ξ(n)]dtdv

Ora con semplici conti si ottiene∫ +∞

0

∫ +∞

vE[[1− F1(v)− F1(−v)][1− F1(t)− F1(−t)]|ξ(n)]dtdv =∫ +∞

0

∫ +∞

vE[(p1(v, t) + p1(t,+∞))p1(t,+∞)− p1(v,+∞)p1(−∞,−t)

− p1(−∞,−v)p1(t,+∞) + (p1(−v,−t) + p1(−∞,−v))p1(−∞,−v)|ξ(n)]dtdv= I1 + I2 + I3 + I4,

dove usando sempre il teorema di Fubini, il Teorema 16.3 e il Lemma 16.1,si ha che

I1 =∫ +∞

0

∫ +∞

vE[(p1(v, t) + p1(t,+∞))p1(t,+∞)|ξ(n)]

=∫ +∞

0

∫ +∞

v

(a+ n

a+ n(1−A∗n(v))(1−A∗n(t)) +

1a+ n+ 1

(1−A(t)))dtdv

=a+ n

a+ n+ 1

∫ +∞

0

∫ +∞

v(1−A∗n(t))(1−A∗n(v))dtdv +

a+ n

a+ n+ 1

∫ +∞

0t(1−A(t))dt

e con conti analoghi

I2 + I3 =a+ n

a+ n+ 1

∫ +∞

0

∫ +∞

v(1−A∗n(v))A

∗n(−t)dtdv

+a+ n

a+ n+ 1

∫ +∞

0

∫ +∞

v(1−A∗n(t))A

∗n(−v)dtdv

I4 =a+ n

a+ n+ 1

∫ +∞

0

∫ +∞

vA∗n(−v)A∗n(−t)dtdv +

a+ n

a+ n+ 1

∫ +∞

0tA∗n(−t)dt.

Page 177: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

17.2. APPLICAZIONI DELLA DISTRIBUZIONE DI FERGUSON-DIRICHLET A PROBLEMI ELEMENTARI D’INFERENZA STATISTICA177

Quindi

E[σ2(p1)|ξ(n)] =a+ n

a+ n+ 1∫x2dA∗n − (

∫xdA∗n)

2 =a+ n

a+ n+ 1V ar(A∗n).

Lo stesso risultato poteva essere dedotto piu velocemente usando lacostruzione di Sethuraman, si veda ultima parte di Sezione 16.4.

Esempio 59 (Estimation of the mean difference). Si faccia riferimento al-l’Esempio 56. Ossia si vuole stimare la differenza media ∆ =

∫R2 |x −

y|p1(dx)p1(dy), in presenza della funzione quadratica di danno. Lo stimatoree dato da

E(∆|ξ(n)) = E

(2∫

RF1(x)1− F1(x)dx

∣∣∣ξ(n)

)= 2

∫R

Γ(a+ n)Γ((a+ n)A∗(x))Γ((a+ n)(1−A∗n(x)))

·

· Γ((a+ n)A∗n(x) + 1)Γ((a+ n)(1−A∗n(x)) + 1)Γ(a+ n+ 2)

dx

=2

(a+ n+ 1)(a+ n)

∫R(a+ n)2A∗n(x)1−A∗n(x)dx

=a+ n

a+ n+ 12∫

RA∗n(x)1−A∗n(x)dx =

a+ n

a+ n+ 1∆(A∗n).

Esempio 60 (Stima della funzione di ripartizione). Ci proponiamo di de-terminare la stima bayesiana di F1 per la funzione di danno∫

RF1(x)− F (x; ξ(n))2η(dx)

essendo η una misura finita su B(R). La stima cercata e data da

E(F1(·)|ξ(n)) = A∗n(·).

Esempio 61 (Stima di un quantile). Definiamo come quantile ν-esimo diF1 il numero tν = infx ∈ R : F1(x) ≥ ν (ovviamente ν ∈ (0, 1)). Vogliamostimare tν in presenza della funzione di danno

p(tν − tν(ξ(n))) se tν ≥ tν(1− p)(tν(ξ(n))− tν) se tν < tν

dove p e una costante in (0, 1).

Page 178: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

178CAPITOLO 17. BAYESIAN COMPUTATIONS: NON–PARAMETRIC CASE

Si puo verificare che il p-esimo quantile della distribuzione condizionaledi tν dato ξ(n) tν(ξ(n)) = infx ∈ R : P (tν ≤ x|ξ(n)) ≥ p minimizza ilrischio; dimostrarlo per esercizio. Abbiamo

P (tν > x|ξ(n)) = P (inft ∈ R : F1(t) ≥ ν > x|ξ(n)) = P (F1(x) < ν|ξ(n))

e quindi

P (tν ≤ x|ξ(n))

=Γ(a+ n)

Γ((a+ n)A∗n(x))Γ((a+ n)(1−A∗n(x)))

∫ 1

νt(a+n)A∗n(x)−1(1− t)(a+n)(1−A∗n(x))−1dt.

Consideriamo adesso l’equazione in y ∈ (0, 1)

Γ(a+ n)Γ((a+ n)y)Γ((a+ n)(1− y))

∫ 1

νt(a+n)y−1(1− t)(a+n)(1−y)−1dt = p.

Il membro di sinistra e funzione crescente di y e percio l’equazione ha un’u-nica soluzione y(p, ν, a). Abbiamo quindi che per A∗n(x) = y(p, ν, a) si haP (tν ≤ x|ξ(n)) = p da cui segue facilmente che la stima del ν-esimo quantilee

tν = infx : A∗n(x) ≥ y(p, ν, a)

che coincide col quantile di A∗n al livello y(p, ν, a).

Page 179: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Appendice A

Appendice

A.1 Richiami sulle probabilita condizionali

Leggere paragrafo 10.2 di [5] e il Capitolo 23 di [7].

Ricordiamo che una variabile aleatoria Y definita su uno spazio di prob-abilita (Ω,F , P ) a valori inuno spazio di misura (L,L), i.e. Y : (Ω,F , P ) →(L,L), e misurabile rispetto ad una sotto σ-algebra G di F se per ogni B inL l’insieme ω : ω ∈ Y (ω) ∈ B appartiene a G.

Siano ora (X,X ), (T, T ) due spazi di misura. Si consideriono due vari-abili aleatorie ξ, η definite su (Ω,F , P ) a valori in X e T rispettivamente.

Avremo spesso a che fare con la σ-algebra generata da una variabilealeatoria η, in simboli G = σ(η), che e definita come σ(η) = A = η−1(C) :C ∈ T . Ossia ogni A in σ(η) e del tipo A = ω : η(ω) ∈ C per un’op-portuno C in T . Si puo dimostrare che Y e σ(η)-misurabile se e solo seY (ω) = Φ(η(ω)) per un’opportuna funzione misurabile Φ : (T, T ) → (L,L).

Data una funzione a valori reali f definita suX, tale che E(|f(ξ)|) < +∞,indicheremo con E(f(ξ)|η)(ω) : (Ω,F) → R (una versione del) la speranzacondizionale di f(ξ) dato η.

Ricordiamo che (una versione di) E(f(ξ)|η) e una variabile aleatoria

E(f(ξ)|η)(·) : (Ω,F) → (R,B(R))

caratterizzata dalle seguenti due proprieta

• E(f(ξ)|η) e σ(η)–misurabile;

179

Page 180: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

180 APPENDICE A. APPENDICE

• per ogni A in σ(η)

E(IAf(ξ)) = E(IAE(f(ξ)|η)).

Poniamo Y = f(ξ) e supponiamo che E|f(ξ)| < +∞. In generale datauna sotto σ–algebra G di F la speranza condizionale E(Y |G) e una variabilealeatoria E(Y |G)(·) : (Ω,F) → (R,B(R)) caratterizzata dalle seguenti dueproprieta

• E(Y |G) e G–misurabile;

• per ogni A in GE(IAY )) = E(IAE(Y |G)).

L’esistenza della speranza condizionale E(f(ξ)|η) puo essere dimostrataricordando che il teorema di Radon Nikodym garantisce l’esistenza delladerivata di Radon Nikodym di B 7→ µf (B) =

∫B f(x)P (dx) fatta rispetto a

P|σ(η), dove P (B) = Pξ ∈ B.

Tale definizione non e tuttavia minimamente costruttiva. Non solo, ingenerale si vorrebbe disporre di un metodo semplice per esprimre E(f(ξ)|η)al variare di f , rimanendo η fissata. A tal fine torna utile il concetto didistribuzione condizionale.

Un nucleo di transizione su T ×X e una funzione

K(·, ·) : T ×X → R,

tale che∀A ∈ X u 7→ K(u,A), e T misurabile (A.1)

∀u ∈ T A 7→ K(u,A) e una m.d.p. suX . (A.2)

Se esiste un nucleo tale che

∀A ∈ X ∀B ∈ T

Pξ ∈ A, η ∈ B =∫BK(u,A)P(η)(du)

(A.3)

dove P(η)(B) := Pη ∈ B (B ∈ T ), esso e detto legge condizionaleregolare di ξ dato η, o distribuzione condizionale di ξ dato η. A volte condistribuzione condizionale di ξ dato η si intende la misura aleatoria K(η, ·).

Poiche nel corso si fara largo uso dele leggi condizionali, prima di pros-eguire occorre avere chiaro il legame fra le leggi condizionali e le probabilita

Page 181: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

A.1. RICHIAMI SULLE PROBABILITA CONDIZIONALI 181

condizionali introdotte con la derivata di Radon Nikodym. Fissato A ∈ Xesiste la speranza condizionale dell’indicatrice IA(ξ) rispetto η, detta ancheprobabilita condizionale di ξ ∈ A dato η, ed indicata solitamente conE(1A(ξ)|η) o con Pξ ∈ A|η. Naturalemnte tale derivata e una classe difunzioni e vi e unicita solamente a meno di P|σ(η)-equivalenze. In particolareosserviamo che la funzione u 7→ K(u,A) e un rappresentante ammissibiledi Pξ ∈ A|η, nel senzo che, fissato A, ω 7→ K(η(ω), A) e una versione diω 7→ Pξ ∈ A|η(ω).

A priori, fissato ω, l’applicazione A 7→ E(1A(ξ)|η)(ω) = Pξ ∈ A|η(ω),potrebbe non essere σ-additiva, e per tanto non essere una misura di prob-abilita. Per quanto visto e pero possibile scegliere per ogni A ∈ X unaversione di Pξ ∈ A|η(ω) in modo che A 7→ Pξ ∈ A|η(ω) sia una misuradi probabilita su X quasi ceramente in ω. E’ infatti sufficiente scegliere comeversione di Pξ ∈ ·|η(ω) la misura aleatoria K(η(ω), ·).

Teorema A.1. Se (X,X ) e uno spazio Polacco esiste una legge condizionaleregolare di ξ dato η.

[si veda Thm. 10.2.2 [5]].

Ricordiamo un teorema classico che sara spesso utilizzato.

Teorema A.2. Supponiamo esista una distribuzione condizionale regolaredi ξ dato η, indicata con K(·, ·). Allora per ogni funzione f : (X,X ) →(R,B(R)) t.c. E(|f(ξ)|) <∞ si ha:

E(f(ξ)|η)(ω) =∫Xf(x)K(η(ω), dx) q.c. (A.4)

Inoltre, per ogni funzione g : (X×T,X⊗T ) → (R,B(R)), tale che E(|g(ξ, η)|) <+∞, si ha

E(g(ξ, η)) =∫T

∫Xg(x, u)K(u, dx)P(η)(du).

[si veda Thm. 10.2.5 [5]].

In buona parte delle dispense usiamo η = t(ξ) per una certa t.

In generale sia (Ω,F , P ) uno spazio di probabilita, ξ una variabile aleato-ria a valori in uno spazio Polacco X, e G una sotto σ–algebra di F . Alloraeisite una probabilita condizionale di ξ dato G, ossia un nucleo

Q(·, ·) : Ω×X → R,

Page 182: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

182 APPENDICE A. APPENDICE

tale che∀A ∈ X ω 7→ Q(ω,A), e G misurabile (A.5)

∀ω ∈ Ω A 7→ Q(ω,A) e una m.d.p. suX . (A.6)

e

∀A ∈ X ∀B ∈ FE[Iξ ∈ A|G] = Q(ω,A) (q.c.).

(A.7)

Si veda [si veda Thm. 10.2.2 [5]].

Ricordiamo che spesso si indica K(u,A) con

Pξ ∈ A|η = u = PA|η = u = E(IA(ξ)|η = u)

e anche si scriveE[f(ξ)|η = u]

per indicare∫f(x)K(u, dx). La cosa e parzialmente giustificata dalle suc-

cessive due situazioni.

A) Caso discreto

Si supponga che la legge di η sia portata da una successione di puntisi di T tale che, per ogni i, l’insieme η = si sia un evento misurabile dimisura positiva. Allora

K(si, A) = P (ξ ∈ A|η = si),

ove P (ξ ∈ A|η = si) := P (ξ∈A∩η=si)P (η=si) .

B) Caso assolutamente continuo.

Si supponga che (ξ, η) abbia legge congiunta (su X × T ) assolutamentecontinua rispetto al prodotto (indipendente) di due misure σ-finite σ1 ⊗ σ2.Indichiamo con g la relativa densita e con gη(·) la densita marginale di η,ossia gη(s) :=

∫g(x, s)σ1(dx). Si noti che gη non e altro che la densita di

P(η) rispetto σ2. Con queste posizoni e facile verificare che

K(u,A) =∫A

g(x, u)gη(u)

σ1(dx).

Nelle dispense abbiamo utilizzato molte volte la speranza condizionale.Richiamiamo qui alcune proprieta che sono state usate, rinviando a [7] o a[5] per dimostrazioni ed ulteriori approfondimenti.

Se Y e Z sono variabili aleatorie definite su (Ω,F , P ) tale che E|Y | <+∞, E|Y Z| < +∞,E|Z| < +∞, allora

Page 183: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

A.2. MISURE PRODOTTO σ–FINITE SU SPAZI PRODOTTO 183

• Se Z e G misurabile allora

E[Y Z|G] = ZE[Y |G]

• Se Z e indipendente da G

E[Z|G] = E[Z]

• Si haE[E[Y |G]] = E[Y ]

• (Jensen) Se φ e una funzione convessa e E|φ(Y )| < +∞ allora

φ(E[Y |G]) ≤ E[φ(Y )|G]

A.2 Misure prodotto σ–finite su spazi prodotto

Siano (X,X , ρ) e (Y,Y, ν) due spazi di misrua, con ν e ρ misure σ–additive eσ–finite. La piu piccola σ–algebra che contiene A si dice σ–algebra prodottoe si indica con X ⊗ Y.

Si dice insieme dei rettangoli l’insieme

R = R = A×B : A ∈ X , B ∈ Y.

L’unione finita di rettangoli disgiunti e detto plurirettangolo, l’insieme ditutti i plurirettangoli e un algebra, indicata con A.

Si pongaµ∗(A×B) := ρ(A)ν(B)

eµ∗(∪ni=1(Ai ×Bi)) :=

∑i

ρ(Ai)ν(Bi)

per ogni plurirettangolo ∪ni=1(Ai×Bi) (n.b. Ai×Bi ∩Aj ×Bj = ∅ per ognii 6= j).

Teorema A.3. Se ρ e ν sono σ–finite allora µ∗ si estende in modo unicoad una misura σ–finita µ su X ⊗ Y.

[Cfr. Thm 4.4.4 in [5]]

Il tutto si estende in modo ovvio a prodotti finiti di spazi misurabili.

Si usa indicare la misura prodotto di ν e ρ con ν⊗ρ. La misura prodottodi n misure uguali ν sullo spazio prodotto X ×X · · · ×X si indica con ν⊗

n.

Page 184: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

184 APPENDICE A. APPENDICE

A.3 Misure di probabilita prodotto

Sia (Xn,Xn, ρn)n una collezione numerabile di spazi di probabilita.

Un cilindro in X := ×n≥1Xn e un insieme del tipo

C = A1 ×A2 × · · · ×Ak ×Xk+1 ×Xk+2 ×Xk+3 · · · ⊂ X

con Ai in Xi. In altri termini e un prodotto cartesiano infinito di insiemimisurabili, di cui solo un numero finito e diverso dagli spazi Xi.

Per ogni cilindro C si puo porre

ρ∗(A) :=k∏

n=1

ρn(An).

Si denota con X := ⊗n≥1Xn la piu piccola σ–algebra di X che contengatutti i cilindri.

Teorema A.4. Esiste un’unica m.d.p. ρ che estende ρ∗ su tutta X .

[Cfr. Thm 8.2.2 in [5]]

Sia (Ω,F , P ) uno spazio di probabilita e sia ξ = (ξn)n una successionedi v.a. definite su (Ω,F , P ) a valori in (X,X ) = (×n≥1Xn,⊗n≥1Xn). Se,con le notazioni precedenti, per ogni cilindro C, Pξ1 ∈ C =

∏kn=1 ρn(An)

allora la legge di ξ e ρ e le v.a. ξn sono indipendenti. Infine se Xn = X0,Xn = X0 e ρn = ρ0 per ogni n ≥ 1, allora la successione e i.i.d. Inoltre siusa indicare la relativa ρ con p∞0 .

A.4 Teorema di estensione di Kolmogorov

Sia T un insieme (qualunque) di indici. Sia E0 uno spazio Polacco conrelativa σ–algebra di Borel E0. Consideriamo lo spazio prodoto ET0 e notiamoche esso puo essere visto come l’insieme di tutte le applicazioni (funzioni)da T in E0, ossia

ET0 = T 3 t 7→ e(t) ∈ E0.Lo spazio ET0 e naturalmente abbinato alla σ–algebra generata dai cilindri.Un cilindro di base (t1, . . . , tk;A1, . . . , Ak) con k ≥ 1, ti ∈ T e Ai ∈ E0,i = 1, . . . , k, e definito come

C(t1, . . . , tk;A1, . . . , Ak) = e ∈ ET0 : e(t1) ∈ A1, . . . , e(tk) ∈ Ak.

Page 185: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

A.5. CONVERGENZA DEBOLE DI MISURE SU SPAZI POLACCHI185

La piu piccola σ–algebra che contiene tutti i cilindri e denotata con (X0)T .Le funzioni e 7→ e(t) sono dette funzioni coordinate.

Sia Q una famiglia di misure di probabilita indicizzate da vettori le cuicomponenti varino in T , ossia

Q := qt1,...,tk(·) : m.d.p su Ek0 ; k ≥ 1, (t1, . . . , tk) ∈ T k.

Una famiglia Q e detta consistente se

qt1,...,tk(A1 × . . . Ak) = qtπ(1),...,tπ(k)(Aπ(1) × . . . Aπ(k))

qt1,...,tk(A1 × · · · ×Ak−1 × E0) = qt1,...,tk−1(A1 × · · · ×Ak−1)

per ogni permutazione π di 1, . . . , k, per ogni k ≥ 2, per ogni (t1, . . . , tk) ∈T k e per ogni (A1, . . . , Ak) in Ek0 .

Teorema A.5 (Kolmogorov). Se Q e una famiglia di m.d.p. consistenteesiste una m.d.p. q∗ definita su (X0)T tale che

q∗(C(t1, . . . , tk;A1, . . . , Ak)) = qt1,...,tk(A1 × . . . Ak).

Per la dimostrazione si veda ad esempio [3].

In altre parole il processo delle cordinate su (XT0 , (X0)T , q∗) ha leggi finito

dimensionali Q.

A noi serve il caso in cui T = B(X0) e E = [0, 1].

Si noti che le condizioni di consistenza sono naturali, infatti se t 7→e(t;ω) e un processo a valori in XT

0 ben definito su uno spazio di probabilita(Ω,F , P ) chiaramente

Pe(t1) ∈ A1, . . . , etk ∈ Ak = Pe(tπ(1)) ∈ Aπ(1), . . . , e(tπ(k)) ∈ Aπ(k)

ed analogamente

Pe(t1) ∈ A1, . . . , etk−1) ∈ Ak−1 = Pe(t1) ∈ A1, . . . , etk−1

) ∈ Ak−1, e(tk) ∈ E0.

A.5 Convergenza debole di misure su spazi Polac-chi

Sia X uno spazio metrico separabile e completo, i.e. Polacco, e sia X la σ–algebra di Borel, ossia la piu piccola σ–algebra che contiene tutti gli aperti

Page 186: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

186 APPENDICE A. APPENDICE

di X. Indichiamo con Cb(X) l’insieme di tutte le funzioni continue e limitatesu X a valori in R e con UCb(X) l’insieme di tutte le funzioni uniformementecontinue e limitate su X a valori in R.

Una successione (pn)n≥1 di m.d.p. su X si dice convergere debolmentead una m.d.p. p su X , in simboli pn ⇒ p se

limn→+∞

∫Xf(x)pn(dx) =

∫Xf(x)p(dx) ∀f ∈ Cb(X).

Teorema A.6 (del Portmanteau (Alexandrov)). Siano (pn)n≥1 e p m.d.psu uno spazio metrico X allora sono equivalenti

1. pn ⇒ p;

2. limn→+∞∫X f(x)pn(dx) =

∫X f(x)p(dx) per ogni f ∈ UCb(X);

3. lim infn→+∞ pn(U) ≥ p(U) per ogni aperto U (s.c.i.);

4. lim supn→+∞ pn(F ) ≤ p(F ) per ogni chiuso F (s.c.s. );

5. limn→+∞ pn(A) = p(A) per ogni boreliano A con p(∂A) = 0.

[cfr Thm 11.1.1 [5]]

Teorema A.7. Se X = Rk allora sono equivalenti

1. pn ⇒ p

2. limn→+∞ Fn(x0) = F (x0) per ogni x0 punto di continuita di x 7→ F (x),dove F (x) := p(−∞, x] e Fn(x) := pn(−∞, x];

3. per ogni t in Rk

limn→+∞

φn(t) :=∫

Rk

ei(t,x)pn(dx) = φ(t) :=∫

Rk

ei(t,x)p(dx).

[cfr Thm 11.1.2 [5]]

Teorema A.8 (Prohorov). Sia X uno spazio Polacco, e sia F una famigliadi m.d.p su X. Allora F e tight, i.e. per ogni ε esiste un compatto Kε taleche

p(K) ≥ 1− ε ∀ p ∈ F ,

se e solo se per ogni successione (pn)n contenuta in F esiste una sottosuc-cesione (pn′)n′ ed una m.d.p. p su X tale che pn′ ⇒ p.

Page 187: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

A.6. MARTINGALE 187

Sia (Ω,F , P ) uno spazio di probabilita e sia (ξn)n una successione di v.a.definite su (Ω,F , P ) a valori in (X,X ) spazio Polacco. La misura immaginedi ξn e la m.d.p. su X definita da

pn(A) := Pξn ∈ A (A ∈ X ).

Si dice che la successione (ξn)n converge in legge (o in distribuzione) a unavariabile aleatoria ξ definita su (Ω,F , P ) a valori in (X,X ) se la successione(pn)n converge debolemte alla misura immagine di ξ. In simboli ξn

l→ ξ.

Un altro tipo di risultati di cui faremo uso in seguito concerne la conver-genza in distribuzione di successioni (h(ξn))n≥1 dove (ξn)n≥1 e una succes-sione di elementi aleatori convergente in legge a ξ. Piu precisamente, ξn conn ≥ 1 e ξ saranno elementi aleatori da (Ω,F , P ) in (X,X ) e h una funzionemisurabile da (X,X ) in (Y,Y), con X,Y spazi metrici e X ,Y le rispettiveclassi di Borel. Indicato con Dh l’insieme dei punti di discontinuita di h,vale il

Teorema A.9 (Applicazione Continua). L’insieme ω ∈ Ω : X(ω) ∈ Dhappartiene a F . Inoltre, se ξn

l→ ξ e se P (ξ ∈ Dh) = 0, allora h(ξn)l→

h(ξ).

Per la dimostrazione del precedente teorema si veda [3].

A.6 Martingale

Una successione di variabili aleatorie (ξn)n≥1 definite su uno spazio di prob-abilita (Ω,F , P ) a valori in R e detta martingala rispetto ad una filtrazionecrescente di sotto σ–algebre (Gn)n≥1 di F se

E[ξn+k|Gn] = ξn

e E[|ξk|] < +∞ per ogni n, k ≥ 1 .

Ricordiamo che filtrazione crescente vuol dire che Gn ⊂ Gn+1 per ogni n.Indichiamo con G∞ la piu piccola σ–algebra che contiene tutte le Gn.

Ricordiamo anche che una successione (ξn)n≥1 di variabili aleatorie realisi dice uniformemente integrabile se

limM→+∞

supnE[|ξn|I|ξn|≥M ] = 0.

Page 188: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

188 APPENDICE A. APPENDICE

Teorema A.10. Sia (ξn)n≥1 una martingala rispetto ad una filtrazione cres-cente (Gn)n≥1. Se (ξn)n≥1 e uniformemente integrabile allora esiste una v.a.ξ∞, G∞–misurabile, tale che

ξn = E[ξ∞|Gn],

inoltre (ξn)n≥1 converge q.c. ed in L1 a ξ∞.

[Cfr. Corol 10.5.2 in [5]]

Sia ora (Gn)n una successione decrescente di sotto-σ–algebre di F , i.e.Fn+1 ⊂ Fn ⊂ F per ogni n ≥ 1. Sia F−∞ := ∩n≥1Fn.

Teorema A.11. Sia ξ0 una v.a. tale che E|ξ0| < +∞. Allora E[ξ0|Fn]converge quasi certamente ed in L1 a E[ξ0|F−∞].

[Cfr. Thm 10.6.1 in [5]]

A.7 Measure theoretic preliminaries

Let E = E1 × E2 with (E1, E1) and (E2, E2) measurable spaces. Fix aprobability measure q(1) on (E1, E1). Take a transition probability measureon E1 × E2, say q·(·), i.e.

• B 7→ qe1(B) is a probability measure on (E2, E2) for every e1 in E1;

• e1 7→ qe1(B) is E1–measurable for every B in E2.

Define a set function P on E = E1 ⊗ E2 by setting

P (C) =∫E1

qe1(Ce1)q(1)(de1) (C ∈ E) (A.8)

with Ce1 := e2 ∈ E2 : (e1, e2) ∈ C.

Teorema A.12. The set function P defined by (12.1) is a probability mea-sure on (E, E). Furthermore, it is the unique probability measure on (Ω,F)such that

P (A×B) =∫Aqe1(B)p(1)(de1) (A ∈ E1, B ∈ E2). (A.9)

Page 189: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

A.7. MEASURE THEORETIC PRELIMINARIES 189

Proof. Since P is positive and P (E1 × E2) = 1, it remains to checkthe σ–additivity. Consider any sequence (Cn)n≥1 of pairwise disjoint sets inX ⊗ L. For it, we get

P (∪nCn) =∫E1

qe1((∪nCn)e1)q(1)(de1)

=∫E1

qe1(∪n(Cn)e1)q(1)(de1)

by elementary properties of sections

=∫E1

∑n

qe1((Cn)e1)q(1)(de1)

by σ–additivity of pθ

=∑n

∫E1

qe1((Cn)e1)q(1)(de1)

from the B.Levi monotone convergence theorem

=∑n

P (Cn).

Finally, if P ′ is any probability measure on E1 ⊗ E2 such that P ′(A× B) =P (A× B) for all measureable rectangles, then P = P ′ on E1 ⊗ E2 since theclass of all measurable rectangles is closed with respect to finite intersectionand generates E1 ⊗ E2. ♦

Assume that E1 = ×n≥1E1,n and E1 = ⊗n≥1E1,n, hence Theorem A.12is still valid with

P (A1 × . . . ,×An × E1,n+1 · · · ×B) =∫A1×...,×An×E1,n+1

qe1(B)p(1)(de1).

(A.10)for every n ≥ 1 for every Ai ∈ E1,i and B ∈ E2 in the place of (A.9).

Page 190: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

190 APPENDICE A. APPENDICE

Page 191: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

Bibliografia

[1] J.M. Bernardo and A. F. M. Smith. Bayesian theory. Wiley Se-ries in Probability and Mathematical Statistics: Probability andMathematical Statistics. John Wiley & Sons Ltd., Chichester, 1994.

[2] Peter J. Bickel and Kjell A. Doksum. Mathematical statistics. Holden-Day Inc., San Francisco, Calif., 1976. Basic ideas and selected topics,Holden-Day Series in Probability and Statistics.

[3] P. Billingsley. Probability and measure. Wiley Series in Probabilityand Mathematical Statistics. John Wiley & Sons Inc., New York, thirdedition, 1995. A Wiley-Interscience Publication.

[4] Persi Diaconis and Donald Ylvisaker. Conjugate priors for exponentialfamilies. Ann. Statist., 7(2):269–281, 1979.

[5] R. M. Dudley. Real analysis and probability, volume 74 of Cam-bridge Studies in Advanced Mathematics. Cambridge University Press,Cambridge, 2002. Revised reprint of the 1989 original.

[6] J. K. Ghosh, M. Delampady, and T. Samanta. An introduction toBayesian analysis. Springer Texts in Statistics. Springer, New York,2006. Theory and methods.

[7] J. Jacod and P. Protter. Probability essentials. Universitext. Springer-Verlag, Berlin, second edition, 2003.

[8] K. R. Parthasarathy. Probability measures on metric spaces. AMSChelsea Publishing, Providence, RI, 2005. Reprint of the 1967 original.

[9] Mark J. Schervish. Theory of statistics. Springer Series in Statistics.Springer-Verlag, New York, 1995.

191

Page 192: Indice - Dipartimento di Matematica - Università di Paviabassetti/didattica/statmat/statmat2011-12.pdf · aleatorie con distribuzione Gaussiana di media nulla e varianza (nota o

192 BIBLIOGRAFIA

[10] J. Shao. Mathematical statistics. Springer Texts in Statistics. Springer-Verlag, New York, second edition, 2003.

[11] Aad W. van der Vaart and Jon A. Wellner. Weak convergence andempirical processes. Springer Series in Statistics. Springer-Verlag, NewYork, 1996. With applications to statistics.