Test statistici - INFN Cagliari - Gruppo di Fisica...

1Alessandro De Falco, INFN Cagliari 8/19/09

Test statisticiLo scopo di un test statistico è stabilire con quale accuratezza un set di dati sperimentali è in accordo con una ipotesi

Ipotesi

Statstica di test

Livello di significatività

Un esempio con la selezione di particelle

Il lemma di Nyman-Pearson

Costruzione di una statistica di test: discriminante di Fisher

Test di bontà del fit

Significatività del segnale osservato

Test del 2


Ipotesi e statistica di testSupponiamo che il risultato di una misura sia dove le xi sono proprietà dell'evento: es.

x1: molteplicità delle particelle carichex2: posizione del vertice primariox3: energia trasversa........

La distribuzione di probabilità congiunta di x sarà caratteristica dell'evento prodotto

La distribuzione di probabilità congiunta è specificata da una IPOTESI H0, solitamente confrontata con ipotesi alternative

Ipotesi semplice: completamente specificata

Ipotesi composita: data con non noto.

Solitamente è complicato trattare la x multidimensionale

Per valutare l'accordo di una data ipotesi coi dati, si costruisce una statistica di test t(x), solitamente di dimensione minore in modo da compattare i dati senza perdere la capacità di discriminazione

x=x1, x2,. .. , xn

es. p p J / , p phadrons , ...

f x∣H 0 , f x∣H 1...f x

f x ,


La statistica t avrà pdf

Si formula una affermazione sulla compatibilità tra dati e ipotesi in termini della decisione di accettare o rigettare l'ipotesi H0

Rigettiamo gli eventi se appartengono a una regione critica (es. t>tcut ) in cui è improbabile che H0

sia verificato

Probabilità di rigettare H0 quando è vero (errore di 1a specie):

Probabilità di accettare H0 se è vero H1 (errore di 2a specie):

gt∣H 0 , gt∣H1...

=∫t cut

∞

g t∣H 0dt Livello di significatività

=∫−∞

tcut

gt∣H 1dt (1)=potere di reiezione

Regione critica


Esempio: selezione di particelleDobbiamo identificare n particelle distinguendo il segnale dato dagli elettroni dal fondo dovuto ai pioni, mediante la misura di perdita di energia in una camera a deriva. (suppongo noto l'impulso). Definiamo:

t: media troncata delle misure.

H0: segnale (elettroni)

H1: fondo (pioni)

Definiamo un taglio t<tCUT che ci permette di selezionare gli elettroni:

la scelta di tCUT sarà un compromesso tra il valore più alto di e e il più

basso per . Se la frazione ae di elettroni non è nota, il problema diventa una stima

di parametri: t sarà distribuita secondo la:

e=∫−∞

tCUT

g t∣edt=1− efficienza di selezione per elettroni

=∫−∞

t CUT

gt∣dt= efficienza di selezione per pioni

f t ; ae=ae gt∣e1−aegt∣ a=1−ae


Il numero di particelle accettate sarà:

Mediante il teorema di Bayes possiamo determinare la probabilità h(e|t) ( h(|t) ) che la particella considerata sia un elettrone (o un pione) per un determinato valore di t:

(nota: secondo l'approccio bayesiano h(e|t) è la probabilità soggettiva, secondo l'approccio frequenzistico è la frazione di elettroni ad un dato t)

La purezza del campione selezionato è data da:

he∣t =ae gt∣e

ae gt∣eag t∣h∣t = agt∣

ae g t∣eagt∣

pe=ne con ttCUT

nall con ttCUT

=∫−∞

t CUT

ae g t∣edt

∫−∞

tCUT

ae gt∣e1−aegt∣dt

=∫−∞

tCUT

h t∣e f t dt

∫−∞

t CUT

f t dt

N acc=e N e N=e N eN tot−N e N e=N acc− N tot

e−


Il lemma di NeymanPearsonConsideriamo una statistica di test

Cerchiamo la scelta ottimale dei tagli che permettono di selezionare il segnale H0 dal fondo H1, ovvero che

permettono di rendere i più piccoli possibile sia α che β.

Il lemma di Neyman-Pearson asserisce che per ottenere la purezza più alta per una determinata efficienza, si deve definire la regione di accettanza nello spazio delle t in modo che:

dove c è una costante che determina l'efficienza della selezione, che va fissata opportunamente per la misura specifica

t=t1, t 2,. .. , t n

gt∣H 0

gt∣H 1c


Test di Neyman Pearson: un esempioDiversi siti producono due varietà di diossido di silicio:

Opale: Quarzo:

Misuriamo la densità con una risoluzione di 0.2 g/cm3

Per quali siti è opportuno eseguire ulteriori scavi?

Ipotizziamo che il campione sia opale.

La probabilità è descritta da una gaussiana con µ=2.2, σ=0.2

Per l'ipotesi alternativa la pdf è ancora gaussiana con µ=2.6, σ=0.2

Il rapporto tra le gaussiane è:

Il rapporto cresce con x; un taglio su x permette la determinazione ottimale di β, fissato α

Se accettiamo solo i campioni con ρ<2.53 (1.64 σ sopra la media) α=5%: ignoriamo il 5% dei campioni utili; β=36%: analizziamo inutilmente il 36% dei depositi di quarzo.

Selezioni diverse possono essere effettuate a seconda della necessità

=2.6 gcm3

e− x−2.62/2 2

e− x−2.2 2 /2 2 ∝e10x

=2.2 gcm3


Costruzione di una statistica di testEsempio:

Mi occorre conoscere generatore Monte Carlo

Genero degli eventi, e per ciascuno costruisco x con cui riempio un istogramma n-dimensionale. Se per ogni dimensione ho M bins, il numero totale di celle è Mn

Approssimo f(x|H) con la probabilità nella cella singola, determinando gli Mn parametri.

Per n grande, il numero di celle cresce tanto da rendere impossibile una generazione MC con sufficiente statistica

H 0=e e− WW adroni 4 jetsH1=e e− qqadroni 2 jets x=x1, x2,. .. , xn

misuro

t x =f x∣H 0

f x∣H1taglio su t per selezionare WW.

f x∣H 0 , f x∣H1


Una soluzione di compromesso consiste nel

definire una funzione t(x) con meno parametri

Determinare i parametri col Monte Carlo per ottenere la migliore discriminazione tra H0 e H1

Es.:

scelgo le ai che massimizzano la separazione tra g(t|H0) e g(t|H1)La media e la covarianza per le componenti di x sono:

per t(x):

Richiedo: grande piccoli (pdf concentrate intorno alle medie)

t x =∑i=1

n

ai x i=aTx

k i=∫ x i f x∣H k d x

V k ij=∫ x−k i x−k j f x∣H k d xk=0,1i,j=1,2,...,n

k=∫ t gt∣H k dt=aTk

k2=∫ t−k

2 gt∣H k dt=aT V k a

∣0−1∣

02 ,1

2


Discriminante lineare di FisherDefiniamo come misura della separazione

cerco le ai che massimizzano J:

Nota: ho usato non l'informazione completa su f(x|H0), f(x|H1) (n-dimensioni*M bins) ma solo i valori medi e le varianze

J a=0−1

2

021

2

0−12=∑

i , j=1

n

ai a j 0−1i 0−1 j=∑i , j=1

n

ai a j Bij=aT Ba

021

2=∑

i , j=1

n

ai a j V 0V 1ij=aT W a

J a= aT BaaT W a

∂ J∂ai

=0 a∝W−1 0−1

DISCRIMINANTE LINEAREDI FISHER (determinato a menodi una costante)


Posso generalizzare t(x):

Uso una scala arbitraria e l'offset a0 per fissare 0, .

In questo caso la massimizzazione di:

corrisponde alla minimizzazione di:

t x =a0∑i=1

n

ai xi

J a=0−1

2

021

2

021

2=E0 [t−0

2]E1[t−1

2]


Test statisticiSupponiamo che l'ipotesi H predica f(x|H) per qualche vettore di dati x=(x1,x2,....,xn)

Osserviamo un solo punto: xOBS. Che cosa possiamo dire della validità di H alla luce dei dati?

Decidiamo quale parte nello spazio delle x rappresenta una minore compatibilità con H rispetto a xOBS.


Solitamente si costruisce una statistica di test il cui valore riflette il livello di compatibilità tra x e H, ovvero:

A bassi valori di t corrispondono dati PIU' compatibili con H

Ad alti valori di t corrispondono dati MENO compatibili con H

Supposta nota la p.d.f. f(x|H), si può determinare g(t|H)

Esprimiamo la bontà del fit fornendo un valore che viene chiamato LIVELLO DI SIGNIFICATIVITA' o P-value.

P è la probabilità di osservare i dati x (o t(x)) che hanno uguale o minore compatibilità con H rispetto a xOBS.P non è la probabilità che H sia vero.

Nell'approccio classico non si prova a dare una probabilità che H sia vero, dato che un'ipotesi non è trattata come una variabile casuale

Nell'approccio bayesiano:

è necessario fare un'ipotesi su P(H)

PH∣t = P t∣HP H

∫P t∣H PH dHP(H): probabilità a priori di H


Un esempio:La probabilità di osservare nT teste in N lanci di una moneta è:

Usiamo la statistica per verificare la bontà dell'ipotesi Supponiamo di lanciare la moneta 20 volte e ottenere 17 volte testa

La regione dello spazio delle t con compatibilità uguale o minore è t>=7

Ciò non ci dice che l'ipotesi H è falsa, ma ci dà solo la probabilità di ottenere un livello di incompatibilità con l'ipotesi H maggiore o uguale rispetto a quello osservato.

f nT , N =N !

nT ! N−nT !PT

nT1−PT

N−nT

PT=0.5

t=∣nT−N /2∣

Ipotesi H:

tOBS=7

P−value=Pt≥7=P nT=0,1,2,3,17,18,19,20=0.0026


Significatività di un segnale osservatoSupponiamo di avere n eventi che possono essere:

nB eventi da processi noti, che costituiscono il fondo

nS eventi da processi nuovi, che costituiscono il segnale

Se nB e nS sono poissoniane con medieB e s, anche n = nB + nS

è poissoniana con B + s

Supponiamo di osservare nOBS=5 con B=0.5. Possiamo affermare di avere osservato l'evidenza per una scoperta?Ipotesi H: s=0, ovvero c'è solo fondo.

Questa quantità NON è P(s=0), ma la probabilità di ottenere 5 o

più eventi, supposto s=0.

Pn ;S ,B=SB

n

n!e−SB

P−value=Pn≥nOBS = ∑n=nOBS

∞

P n ;S=0,B=1− ∑n=0

nOBS−1b

n

n!e−B=1.7⋅10−4


Una nota:

Spesso il risultato di una misura è dato come il valore stimato ± la sua deviazione standard. In questo caso abbiamo

Se sottraiamo il fondo, pari a 0.5, otteniamo 4.5 ± 2.2 Ovvero solo 2 deviazioni standard dallo 0.

Questo è fuorviante perchè in questo modo il risultato dà l'impressione che non ci sia una grande incompatibilità con l'osservazione di zero eventi, mentre il P-value suggerisce il contrario.

Ciò che ci serve in questo caso è la probabilità che il fondo, con valore medio 0.5, fluttui fino a 5, e non la probabilità che una variabile con valore medio 5 fluttui fino a 0.5 o meno.

5±5


Nota: normalmente B avrà un'incertezza. Se fosse B=0.8, avremmo:

un ordine di grandezza più alto del precedente.

E' dunque necessario quantificare l'incertezza sistematica dovuta al fondo.

La procedura corretta consisterebbe dunque nel riportare un range di valori di P per una variazione ragionevole di B.Non esistono delle convenzioni fissate.

P−value=Pn≥nOBS = ∑n=nOBS

∞

P n ;S=0,B=0.8=1.4⋅10−3


Estrazione di un segnale da un picco.

Supponiamo di misurare per ogni evento una grandezza x, e di sapervalutare il fondo, indicato con la curvatratteggiata.

Ciò significa che abbiamo effettivamente visto il segnale?

Non sappiamo a priori dove aspettarci il picco. Se il numero di bins è alto ci saranno delle fluttuazioni che simuleranno delle discrepanze rispetto all'andamento atteso (tratteggiato in figura)

✔ Quale è la probabilità di osservare una discrepanza altrettanto improbabile quanto il picco osservato in due bin adiacenti qualunque dell'istogramma?

11 eventi osservati nei duebin del picco. Il fondo stimato è pari a B=3.2 eventiPn≥11 ;B=3.2,S=0=5.0⋅10−4


Test del

Test per confrontare i dati osservati ni con i valori di

aspettazione i.Tracciamo in un istogramma di N bins una variabile x con una distribuzione determinata. Supponiamo che i conteggi nel bin i-mo siano ni , e il valore

aspettato i .Se le ni sono poissoniane con valori medi i e ni>~5, la variabile:

seguirà una distribuzione del con n gradi di libertà (indipendentemente dalla distribuzione di x). La richiesta ni>5 equivale a richiedere che la distribuzione delle ni sia approssimabile a una gaussiana.

Maggiore è il maggiore la discrepanza col valore attesoIl P-value sarà:

2=∑

i=1

n ni−i2

i

P=∫

2

∞

f x ; ndx distribuzione del con n gradi di libertàE(x)=n


Nel caso in cui il numero di eventi per bin è piccolo, non si può più assumere che le ni siano approssimativamente gaussiane, e la variabile così costruita non seguirà più una distribuzione del con n gradi di libertà, ma dipenderà dalla pdf della variabile x. Nel caso della figura, 2=29.8, n.d.f.=20, ma in quasi tutti i bins n<5.

Il P-value può essere ottenuto determinando la distribuzione della statistica col Monte Carlo:

Genero le nI poissoniane con valore medio

i

Calcolo il 2 Reitero il processo N volte fino ad ottenere una distribuzione del 2 Monte CarloIntegro questa distribuzione per ottenere il P-value

In questo modo ottengo P=0.11 (con la distribuzione del 2 avrei ottenuto P=0.073)

In questo caso il test del non fornisce l'evidenza per la presenza di un picco.

Test statistici - INFN Cagliari - Gruppo di Fisica...

Documents

Transcript of Test statistici - INFN Cagliari - Gruppo di Fisica...