Gruppo1-2 INFN FIRENZE - Stima dei...

36
Stima dei parametri I parametri di una pdf sono costanti che caratterizzano la sua forma r.v. Assumiamo di avere un campione di valori parameter Vogliamo una funzione dei dati che permette di stimare i parametri:: si scrive con il cappello L’ “estimatore” è la funzione x 1 , ..., x n ; Una “stima” è il valore dell’estimatore su un campione. 1

Transcript of Gruppo1-2 INFN FIRENZE - Stima dei...

Page 1: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Stima dei parametriI parametri di una pdf sono costanti che caratterizzano la sua forma

r.v.

Assumiamo di avere un campione di valori

parameter

Vogliamo una funzione dei dati che permette di stimare i parametri::

← si scrive con il cappello

L’ “estimatore” è la funzione x1, ..., xn;Una “stima” è il valore dell’estimatore su un campione.

1

Page 2: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Proprietà degli estimatoriSe si ripetono le misure, la stima avrà una sua pdf

“biased”grandevarianza

migliore

Vogliamo piccolo bias (errore sistematico)

E piccola varianza (errore statistico):

2

Page 3: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Un estimatore per la media

Parametero:

Estimatore:

Vale:

(‘media sul campione’)

3

Page 4: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

La funzione di verosimiglianza (likelihood)

Supponiamo che la pdf congiunta per i dati x sia una funzione che dipende dai parametri θ:

Calcoliamo la funzione con i dati ottenuti e vediamola come una funzione dei parametri. Questa è la funzione di likelihood:

(x costante)

4

Page 5: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

La funzione likelihood per n osservazioni indipendenti

Consideriamo n osservazioni independenti di x: x1, ..., xn, conx distribuita secondo f (x; θ). La pdf congiunta del campione è :

E la funzione likelihood:

(xi constanti)

5

Page 6: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Estimatore di maximum likelihoodSe θ è vicino al valore vero, ci aspettiamo una probabilità elevata di ottenere i dati che osserviamo

Definiamo l’estimatore “maximum likelihood” (ML) il valore dei parametri per cui la likelihood è massima.

6

Page 7: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Esempio di ML: pdf esponenziale

Data la pdf

supponiamo di avere osservato i valori

La likelihood è

Prendiamo il logaritmo (funzione log-likelihood):

7

Page 8: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Troviamo il massimo ponendo

Test Monte Carlo: 50 valori generati con τ = 1:

Si trova:

Notare che non è necessario costruire un istogramma con i dati(quella mostrata è solo una rappresentazione grafica)

Esempio di ML: pdf esponenziale (2)

8

Page 9: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Varianza di un estimatore: metodo Monte Carlo È legata all’ “errore statistico”

Possiamo simulare l’esperimento molte volte con un Monte Carlo e guardare la varianza dell’estimatore ML sui campioni

Nel nostro esempio esponenziale:

Si noti che la distribuzione è all’incirca Gaussiana − (quasi) sempre vero per la ML nel limite di grandi campioni.

9

Page 10: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Varianza con la disuguaglianza RCFFissa un limite inferiore alla varianza di ogni estimatore(non solo ML):

Spesso il bias b è piccolo e l’uguaglianza è esatta o una buona approssimazione

Si calcola prendendo la derivata 2a di ln L al massimo

10

Page 11: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Varianza dell’estimatore: metodo graficoEspandiamo ln L (θ) intorno al massimo:

Utilizzando RCF (assumendo l’uguaglianza):

cioè

→ si ottiene variando θ da finchè ln L decresce di 1/2.

11

Page 12: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Esempio di varianza con il metodo grafico

ML con esponenziale:

ln L non è parabolico (campione piccolo: n = 50).

12

Page 13: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Esempio di ML con 2 parametriConsideriamo la distribuzione di un angolo di scattering x = cos θ,

o se xmin < x < xmax, si deve sempre normalizzare in modo che

Esempio: α = 0.5, β = 0.5, xmin = −0.95, xmax = 0.95, si generano n = 2000 eventi con un Monte Carlo.

13

Page 14: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Esempio di ML con 2 parametri (2)Si trova il massimo di ln L(α, β) con MINUIT

N.B. Non c’è bisogno di un istogramma per il fit data for fit,ma aiuta a stimare la bontà del fit (‘ad occhio’ o con il χ2).

(Co)varianza (routine HESSE in MINUIT)

14

Page 15: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Fit a 2 parametri: studio MCSi ripete il ML fit per 500 esperimenti, tutti con n = 2000 eventi:

Media delle stime ~ valori veri;(Co)varianza vicina alle stime precedenti;pdf marginali approssimativamente Gaussiane.

15

Page 16: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Il contorno ln Lmax − 1/2

Per n grande, ln L assume una forma quadratica vicino al massimo:

Il contorno è una ellisse

16

Page 17: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

(Co)varianze dal contorno di ln L

→ Linee tangenti al contorno corrispondono alle deviazioni standard→ L’angolo dell’ellisse φ è legato alla correlazione:

La correlazione tra gli estimatori causa un aumento della loro deviazione standard (errore statistico).

Piano α, β per il primo campione MCMC

17

Page 18: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

ML estesaSe n non è fisso, ma piuttosto una variabile di Poisson, con media ν.

Il risultato dell’esperimento è allora: n, x1, ..., xn.

La funzione likelihood (estesa) è:

Se dalla teoria ν = ν(θ), allora la log-likelihood è

dove C representa i termini che non dipendono da θ.

18

Page 19: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

ML estesa (2)

ML estesa usa più informazione → errori minori per

Esempio: numero aspettato di eventi

Se ν non dipende da θ, la ML estesa dà:

19

Page 20: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Esempio di ML estesaDue tipi di eventi (segnale e fondo) ognuno con una pdf per x: fs(x) e fb(x).Poniamo frazione segnale = θ, numero totale di eventi aspettato = ν, totale osservato = n.

20

Page 21: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Esempio di ML estesa (2)

Massimizzando la likelihood per µs and µb:

Esempio Monte Carlo con esponenziale e Gaussiana:

Gli errori riflettono sia le fluttuazioni del totale sia della proporzione di segnale/fondo

21

Page 22: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Esempio di ML estesa: una stima non-fisicaUna fluttuazione dei dati nella regione del picco può portare a meno eventi di quanti aspettati con il solo fondo

La stima per µs in questo caso è negativa (non-fisica).

22

Page 23: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Esempio di ML estesa: una stima non-fisicaL’estimatore è unbiased e la stima deve comunque essere riportata perchè la media di un numero grande di stime converge al valore vero

Se si ripete l’esperimento MC molte volte si vede che stime non-fisiche sono possibili

23

Page 24: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Relazione tra ML e estimatori BayesianiNella statistica Bayesiana, sia θ che x sono variabili aleatorie:

Metodo Bayesiano:

Probabilità soggettiva per l’ipotesi (θ);

probabilità a priori prima dell’esperimento π(θ);si usa il teorema di Bayes per correggere la probabilità con i dati:

pdf a posteriori (pdf condizionale per θ dato x)

24

Page 25: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

ML ed estimatori Bayesiani (2)Bayesiani puri: p(θ | x) contiene tutte le nostre conoscenze su θ.

Bayesiani pragmatici: p(θ | x) può essere complicata,

→ riassumiamo usando un estimatore

la moda di p(θ | x) , (oppure la media)

Che cosa usiamo per π(θ)? È soggettivo!π(θ) = constante representa l’ ‘ignoranza a priori’, e in quel caso

Ma... se usiamo un parametro diverso, λ = 1/θ,e πθ(θ) è costante, allora πλ(λ) non lo è!

‘Completa ignoranza a priori’ non è ben definita!

25

Page 26: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Metodo dei minimi quadratiMisuriamo N valori, y1, ..., yN, independenti con distribuzione Gaussiana tale che

Siano noti i valori delle variabili x1, ..., xN e le varianze

La likelihood è

Vogliamo stimare θ, cioè fare un fit della curva ai punti

26

Page 27: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Metodo dei minimi quadrati (2)La log-likelihood diventa

Massimizzare la likelihood è equivalente a minimizzare

Il minimo è l’estimatore “least squares” (LS)

Spesso si minimizza il χ2 in modo numerico (MINUIT).

27

Page 28: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Varianza dell’estimatore LSCome per ML, nel caso di LS abbiamo

e quindi

ovvero con il metodo grafico coincide con prendere il valore per cui

1.0

28

Page 29: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Goodness-of-fit con LSIl valore del χ2 al minimo è una misura dell’accordo dati-ipotesi

È una statistica di goodness-of-fit per verificarela forma funzionale ipotizzata λ(x; θ)N.B.: da non confondere con l’errore statistico sul fit!

Se l’ipotesi è corretta la statistica t = χ2min segue la pdf del χ2

con nd = numero di punti - numero di parametri del fit

29

Page 30: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

LS con istogrammi

30

Page 31: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

LS con istogrammi (2)

31

Page 32: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

LS con istogrammi — normalizzazione

32

Page 33: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

LS normalization example

33

Page 34: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Using LS to combine measurements

34

Page 35: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Combining correlated measurements with LS

35

Page 36: Gruppo1-2 INFN FIRENZE - Stima dei parametrihep.fi.infn.it/ciulli/Site/Analisi_Dati_09_10_files/...Un estimatore per la media. Parametero: Estimatore: Vale: (‘media sul campione’)

Example: averaging two correlated measurements

36