Test statistici - INFN Cagliari - Gruppo di Fisica...
Transcript of Test statistici - INFN Cagliari - Gruppo di Fisica...
1Alessandro De Falco, INFN Cagliari 8/19/09
Test statisticiLo scopo di un test statistico è stabilire con quale accuratezza un set di dati sperimentali è in accordo con una ipotesi
Ipotesi
Statstica di test
Livello di significatività
Un esempio con la selezione di particelle
Il lemma di Nyman-Pearson
Costruzione di una statistica di test: discriminante di Fisher
Test di bontà del fit
Significatività del segnale osservato
Test del 2
2Alessandro De Falco, INFN Cagliari 8/19/09
Ipotesi e statistica di testSupponiamo che il risultato di una misura sia dove le xi sono proprietà dell'evento: es.
x1: molteplicità delle particelle carichex2: posizione del vertice primariox3: energia trasversa........
La distribuzione di probabilità congiunta di x sarà caratteristica dell'evento prodotto
La distribuzione di probabilità congiunta è specificata da una IPOTESI H0, solitamente confrontata con ipotesi alternative
Ipotesi semplice: completamente specificata
Ipotesi composita: data con non noto.
Solitamente è complicato trattare la x multidimensionale
Per valutare l'accordo di una data ipotesi coi dati, si costruisce una statistica di test t(x), solitamente di dimensione minore in modo da compattare i dati senza perdere la capacità di discriminazione
x=x1, x2,. .. , xn
es. p p J / , p phadrons , ...
f x∣H 0 , f x∣H 1...f x
f x ,
3Alessandro De Falco, INFN Cagliari 8/19/09
La statistica t avrà pdf
Si formula una affermazione sulla compatibilità tra dati e ipotesi in termini della decisione di accettare o rigettare l'ipotesi H0
Rigettiamo gli eventi se appartengono a una regione critica (es. t>tcut ) in cui è improbabile che H0
sia verificato
Probabilità di rigettare H0 quando è vero (errore di 1a specie):
Probabilità di accettare H0 se è vero H1 (errore di 2a specie):
gt∣H 0 , gt∣H1...
=∫t cut
∞
g t∣H 0dt Livello di significatività
=∫−∞
tcut
gt∣H 1dt (1)=potere di reiezione
Regione critica
4Alessandro De Falco, INFN Cagliari 8/19/09
Esempio: selezione di particelleDobbiamo identificare n particelle distinguendo il segnale dato dagli elettroni dal fondo dovuto ai pioni, mediante la misura di perdita di energia in una camera a deriva. (suppongo noto l'impulso). Definiamo:
t: media troncata delle misure.
H0: segnale (elettroni)
H1: fondo (pioni)
Definiamo un taglio t<tCUT che ci permette di selezionare gli elettroni:
la scelta di tCUT sarà un compromesso tra il valore più alto di e e il più
basso per . Se la frazione ae di elettroni non è nota, il problema diventa una stima
di parametri: t sarà distribuita secondo la:
e=∫−∞
tCUT
g t∣edt=1− efficienza di selezione per elettroni
=∫−∞
t CUT
gt∣dt= efficienza di selezione per pioni
f t ; ae=ae gt∣e1−aegt∣ a=1−ae
5Alessandro De Falco, INFN Cagliari 8/19/09
Il numero di particelle accettate sarà:
Mediante il teorema di Bayes possiamo determinare la probabilità h(e|t) ( h(|t) ) che la particella considerata sia un elettrone (o un pione) per un determinato valore di t:
(nota: secondo l'approccio bayesiano h(e|t) è la probabilità soggettiva, secondo l'approccio frequenzistico è la frazione di elettroni ad un dato t)
La purezza del campione selezionato è data da:
he∣t =ae gt∣e
ae gt∣eag t∣h∣t = agt∣
ae g t∣eagt∣
pe=ne con ttCUT
nall con ttCUT
=∫−∞
t CUT
ae g t∣edt
∫−∞
tCUT
ae gt∣e1−aegt∣dt
=∫−∞
tCUT
h t∣e f t dt
∫−∞
t CUT
f t dt
N acc=e N e N=e N eN tot−N e N e=N acc− N tot
e−
6Alessandro De Falco, INFN Cagliari 8/19/09
Il lemma di NeymanPearsonConsideriamo una statistica di test
Cerchiamo la scelta ottimale dei tagli che permettono di selezionare il segnale H0 dal fondo H1, ovvero che
permettono di rendere i più piccoli possibile sia α che β.
Il lemma di Neyman-Pearson asserisce che per ottenere la purezza più alta per una determinata efficienza, si deve definire la regione di accettanza nello spazio delle t in modo che:
dove c è una costante che determina l'efficienza della selezione, che va fissata opportunamente per la misura specifica
t=t1, t 2,. .. , t n
gt∣H 0
gt∣H 1c
7Alessandro De Falco, INFN Cagliari 8/19/09
Test di Neyman Pearson: un esempioDiversi siti producono due varietà di diossido di silicio:
Opale: Quarzo:
Misuriamo la densità con una risoluzione di 0.2 g/cm3
Per quali siti è opportuno eseguire ulteriori scavi?
Ipotizziamo che il campione sia opale.
La probabilità è descritta da una gaussiana con µ=2.2, σ=0.2
Per l'ipotesi alternativa la pdf è ancora gaussiana con µ=2.6, σ=0.2
Il rapporto tra le gaussiane è:
Il rapporto cresce con x; un taglio su x permette la determinazione ottimale di β, fissato α
Se accettiamo solo i campioni con ρ<2.53 (1.64 σ sopra la media) α=5%: ignoriamo il 5% dei campioni utili; β=36%: analizziamo inutilmente il 36% dei depositi di quarzo.
Selezioni diverse possono essere effettuate a seconda della necessità
=2.6 gcm3
e− x−2.62/2 2
e− x−2.2 2 /2 2 ∝e10x
=2.2 gcm3
8Alessandro De Falco, INFN Cagliari 8/19/09
Costruzione di una statistica di testEsempio:
Mi occorre conoscere generatore Monte Carlo
Genero degli eventi, e per ciascuno costruisco x con cui riempio un istogramma n-dimensionale. Se per ogni dimensione ho M bins, il numero totale di celle è Mn
Approssimo f(x|H) con la probabilità nella cella singola, determinando gli Mn parametri.
Per n grande, il numero di celle cresce tanto da rendere impossibile una generazione MC con sufficiente statistica
H 0=e e− WW adroni 4 jetsH1=e e− qqadroni 2 jets x=x1, x2,. .. , xn
misuro
t x =f x∣H 0
f x∣H1taglio su t per selezionare WW.
f x∣H 0 , f x∣H1
9Alessandro De Falco, INFN Cagliari 8/19/09
Una soluzione di compromesso consiste nel
definire una funzione t(x) con meno parametri
Determinare i parametri col Monte Carlo per ottenere la migliore discriminazione tra H0 e H1
Es.:
scelgo le ai che massimizzano la separazione tra g(t|H0) e g(t|H1)La media e la covarianza per le componenti di x sono:
per t(x):
Richiedo: grande piccoli (pdf concentrate intorno alle medie)
t x =∑i=1
n
ai x i=aTx
k i=∫ x i f x∣H k d x
V k ij=∫ x−k i x−k j f x∣H k d xk=0,1i,j=1,2,...,n
k=∫ t gt∣H k dt=aTk
k2=∫ t−k
2 gt∣H k dt=aT V k a
∣0−1∣
02 ,1
2
10Alessandro De Falco, INFN Cagliari 8/19/09
Discriminante lineare di FisherDefiniamo come misura della separazione
cerco le ai che massimizzano J:
Nota: ho usato non l'informazione completa su f(x|H0), f(x|H1) (n-dimensioni*M bins) ma solo i valori medi e le varianze
J a=0−1
2
021
2
0−12=∑
i , j=1
n
ai a j 0−1i 0−1 j=∑i , j=1
n
ai a j Bij=aT Ba
021
2=∑
i , j=1
n
ai a j V 0V 1ij=aT W a
J a= aT BaaT W a
∂ J∂ai
=0 a∝W−1 0−1
DISCRIMINANTE LINEAREDI FISHER (determinato a menodi una costante)
11Alessandro De Falco, INFN Cagliari 8/19/09
Posso generalizzare t(x):
Uso una scala arbitraria e l'offset a0 per fissare 0, .
In questo caso la massimizzazione di:
corrisponde alla minimizzazione di:
t x =a0∑i=1
n
ai xi
J a=0−1
2
021
2
021
2=E0 [t−0
2]E1[t−1
2]
12Alessandro De Falco, INFN Cagliari 8/19/09
Test statisticiSupponiamo che l'ipotesi H predica f(x|H) per qualche vettore di dati x=(x1,x2,....,xn)
Osserviamo un solo punto: xOBS. Che cosa possiamo dire della validità di H alla luce dei dati?
Decidiamo quale parte nello spazio delle x rappresenta una minore compatibilità con H rispetto a xOBS.
13Alessandro De Falco, INFN Cagliari 8/19/09
Solitamente si costruisce una statistica di test il cui valore riflette il livello di compatibilità tra x e H, ovvero:
A bassi valori di t corrispondono dati PIU' compatibili con H
Ad alti valori di t corrispondono dati MENO compatibili con H
Supposta nota la p.d.f. f(x|H), si può determinare g(t|H)
Esprimiamo la bontà del fit fornendo un valore che viene chiamato LIVELLO DI SIGNIFICATIVITA' o P-value.
P è la probabilità di osservare i dati x (o t(x)) che hanno uguale o minore compatibilità con H rispetto a xOBS.P non è la probabilità che H sia vero.
Nell'approccio classico non si prova a dare una probabilità che H sia vero, dato che un'ipotesi non è trattata come una variabile casuale
Nell'approccio bayesiano:
è necessario fare un'ipotesi su P(H)
PH∣t = P t∣HP H
∫P t∣H PH dHP(H): probabilità a priori di H
14Alessandro De Falco, INFN Cagliari 8/19/09
Un esempio:La probabilità di osservare nT teste in N lanci di una moneta è:
Usiamo la statistica per verificare la bontà dell'ipotesi Supponiamo di lanciare la moneta 20 volte e ottenere 17 volte testa
La regione dello spazio delle t con compatibilità uguale o minore è t>=7
Ciò non ci dice che l'ipotesi H è falsa, ma ci dà solo la probabilità di ottenere un livello di incompatibilità con l'ipotesi H maggiore o uguale rispetto a quello osservato.
f nT , N =N !
nT ! N−nT !PT
nT1−PT
N−nT
PT=0.5
t=∣nT−N /2∣
Ipotesi H:
tOBS=7
P−value=Pt≥7=P nT=0,1,2,3,17,18,19,20=0.0026
15Alessandro De Falco, INFN Cagliari 8/19/09
Significatività di un segnale osservatoSupponiamo di avere n eventi che possono essere:
nB eventi da processi noti, che costituiscono il fondo
nS eventi da processi nuovi, che costituiscono il segnale
Se nB e nS sono poissoniane con medieB e s, anche n = nB + nS
è poissoniana con B + s
Supponiamo di osservare nOBS=5 con B=0.5. Possiamo affermare di avere osservato l'evidenza per una scoperta?Ipotesi H: s=0, ovvero c'è solo fondo.
Questa quantità NON è P(s=0), ma la probabilità di ottenere 5 o
più eventi, supposto s=0.
Pn ;S ,B=SB
n
n!e−SB
P−value=Pn≥nOBS = ∑n=nOBS
∞
P n ;S=0,B=1− ∑n=0
nOBS−1b
n
n!e−B=1.7⋅10−4
16Alessandro De Falco, INFN Cagliari 8/19/09
Una nota:
Spesso il risultato di una misura è dato come il valore stimato ± la sua deviazione standard. In questo caso abbiamo
Se sottraiamo il fondo, pari a 0.5, otteniamo 4.5 ± 2.2 Ovvero solo 2 deviazioni standard dallo 0.
Questo è fuorviante perchè in questo modo il risultato dà l'impressione che non ci sia una grande incompatibilità con l'osservazione di zero eventi, mentre il P-value suggerisce il contrario.
Ciò che ci serve in questo caso è la probabilità che il fondo, con valore medio 0.5, fluttui fino a 5, e non la probabilità che una variabile con valore medio 5 fluttui fino a 0.5 o meno.
5±5
17Alessandro De Falco, INFN Cagliari 8/19/09
Nota: normalmente B avrà un'incertezza. Se fosse B=0.8, avremmo:
un ordine di grandezza più alto del precedente.
E' dunque necessario quantificare l'incertezza sistematica dovuta al fondo.
La procedura corretta consisterebbe dunque nel riportare un range di valori di P per una variazione ragionevole di B.Non esistono delle convenzioni fissate.
P−value=Pn≥nOBS = ∑n=nOBS
∞
P n ;S=0,B=0.8=1.4⋅10−3
18Alessandro De Falco, INFN Cagliari 8/19/09
Estrazione di un segnale da un picco.
Supponiamo di misurare per ogni evento una grandezza x, e di sapervalutare il fondo, indicato con la curvatratteggiata.
Ciò significa che abbiamo effettivamente visto il segnale?
Non sappiamo a priori dove aspettarci il picco. Se il numero di bins è alto ci saranno delle fluttuazioni che simuleranno delle discrepanze rispetto all'andamento atteso (tratteggiato in figura)
✔ Quale è la probabilità di osservare una discrepanza altrettanto improbabile quanto il picco osservato in due bin adiacenti qualunque dell'istogramma?
11 eventi osservati nei duebin del picco. Il fondo stimato è pari a B=3.2 eventiPn≥11 ;B=3.2,S=0=5.0⋅10−4
19Alessandro De Falco, INFN Cagliari 8/19/09
Test del
Test per confrontare i dati osservati ni con i valori di
aspettazione i.Tracciamo in un istogramma di N bins una variabile x con una distribuzione determinata. Supponiamo che i conteggi nel bin i-mo siano ni , e il valore
aspettato i .Se le ni sono poissoniane con valori medi i e ni>~5, la variabile:
seguirà una distribuzione del con n gradi di libertà (indipendentemente dalla distribuzione di x). La richiesta ni>5 equivale a richiedere che la distribuzione delle ni sia approssimabile a una gaussiana.
Maggiore è il maggiore la discrepanza col valore attesoIl P-value sarà:
2=∑
i=1
n ni−i2
i
P=∫
2
∞
f x ; ndx distribuzione del con n gradi di libertàE(x)=n
20Alessandro De Falco, INFN Cagliari 8/19/09
Nel caso in cui il numero di eventi per bin è piccolo, non si può più assumere che le ni siano approssimativamente gaussiane, e la variabile così costruita non seguirà più una distribuzione del con n gradi di libertà, ma dipenderà dalla pdf della variabile x. Nel caso della figura, 2=29.8, n.d.f.=20, ma in quasi tutti i bins n<5.
Il P-value può essere ottenuto determinando la distribuzione della statistica col Monte Carlo:
Genero le nI poissoniane con valore medio
i
Calcolo il 2 Reitero il processo N volte fino ad ottenere una distribuzione del 2 Monte CarloIntegro questa distribuzione per ottenere il P-value
In questo modo ottengo P=0.11 (con la distribuzione del 2 avrei ottenuto P=0.073)
In questo caso il test del non fornisce l'evidenza per la presenza di un picco.