Banchi di template per la rivelazione di onde ... della metrica attorno ad una soluzione nota. Come...

52
UNIVERSITÀ DEGLI STUDI DI PISA FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI CORSO DI LAUREA IN FISICA BANCHI DI TEMPLATE PER LA RIVELAZIONE DELLE ONDE GRAVITAZIONALI: UN’APPLICAZIONE DELL’INFORMATION GEOMETRY TESI DI LAUREA TRIENNALE Presentata da: RICCARDO BUSCICCHIO Relatore: Dott. GIANCARLO CELLA Controrelatore: Prof. ANGELA DI VIRGILIO Anno Accademico 2011 – 2012

Transcript of Banchi di template per la rivelazione di onde ... della metrica attorno ad una soluzione nota. Come...

UNIVERSITÀ DEGLI STUDI DI PISA

FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI

CORSO DI LAUREA IN FISICA

BANCHI DI TEMPLATE PER LA RIVELAZIONE DELLEONDE GRAVITAZIONALI: UN’APPLICAZIONE

DELL’INFORMATION GEOMETRYTESI DI LAUREA TRIENNALE

Presentata da:

RICCARDO BUSCICCHIO

Relatore:

Dott.

GIANCARLO CELLA

Controrelatore:

Prof.

ANGELA DI VIRGILIO

Anno Accademico 2011 – 2012

Ai miei genitori

Indice

1 Introduzione 11.1 Il problema fisico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 Propagazione nel vuoto . . . . . . . . . . . . . . . . . . . . . . . 21.1.2 Accoppiamento al detector . . . . . . . . . . . . . . . . . . . . . 41.1.3 Formazione di onde gravitazionali . . . . . . . . . . . . . . . . . 7

1.2 La rivelazione delle onde gravitazionali . . . . . . . . . . . . . . . . . . 81.2.1 Statistica sugli eventi . . . . . . . . . . . . . . . . . . . . . . . . 91.2.2 Il lemma di Neyman-Pearson . . . . . . . . . . . . . . . . . . . . 101.2.3 L’approccio GLRT . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Il modello statistico: un approccio geometrico 122.1 Metrica di Fisher e disuguaglianza di Cramér-Rao . . . . . . . . . . . . . 122.2 Divergenze sui modelli statistici: un esempio . . . . . . . . . . . . . . . 14

2.2.1 La divergenza KL e l’entropia relativa . . . . . . . . . . . . . . . 14

3 Una applicazione: rivelazione di coalescenze binarie a VIRGO 183.1 Il rumore a VIRGO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.2 Il segnale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2.1 La varietà fisica . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.3 Template placement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3.1 Overlap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3.2 Struttura geometrica del modello statistico . . . . . . . . . . . . . 253.3.3 Divergenza di Kullback . . . . . . . . . . . . . . . . . . . . . . . 26

3.4 Ottimizzazione della griglia . . . . . . . . . . . . . . . . . . . . . . . . . 283.4.1 Densità di template e metrica efficace . . . . . . . . . . . . . . . 35

i

3.4.2 Costo computazionale . . . . . . . . . . . . . . . . . . . . . . . 373.5 Conclusioni e sviluppi futuri . . . . . . . . . . . . . . . . . . . . . . . . 39

A Il segnale nella fase di inspiral 40

B Implementazione nel dominio in frequenza 43

ii

Elenco delle figure

1.1 Posizioni relative di un set di masse campione prima e durante l’arrivo diun’onda gravitazionale . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Antenna pattern per le due polarizzazioni ×,+ . . . . . . . . . . . . . . 51.3 Transito di un’onda gravitazionale sul cammino di un fotone . . . . . . . 6

3.1 Curva di sensibilità di VIRGO . . . . . . . . . . . . . . . . . . . . . . . 193.1 Evoluzione dell’ampiezza caratteristica dell’onda gravitazionale, per sis-

temi binari NS-NS e BH-BH, confrontata con la sensibilità dei rivelatoriinterferometrici attuali e delle prossime generazioni. . . . . . . . . . . . . 21

3.2 Output del filtro di Wiener per phase matching e amplitude matching . . . 223.3 Esempio di spazio dei template fisici per mmin = 0.25M� e mmax = 10M�. 243.1 Varietà dei segnali normalizzati e sottovarietà dei segnali fisici . . . . . . 293.1 Ottimizzazione della griglia di template . . . . . . . . . . . . . . . . . . 303.2 Banco di template T . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.3 Banco di template T ′ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

iii

Capitolo 1

Introduzione

1.1 Il problema fisico

La relatività generale è basata sul presupposto che la gravità sia un fenomeno di naturageometrica. Generalizzando la relatività ristretta si suppone che l’intervallo invarianteinfinitesimo si possa scrivere in coordinate generali xα nella forma

ds2 = gαβdxαdxβ (1.1)

dove gαβ è la metrica. A partire da questa si può definire la connessione di Levi-Civita

Γαβγ =1

2gαε (∂βgγε + ∂γgεβ − ∂εgβγ) (1.2)

che permette di costruire il tensore di Riemann

Rµνρσ = ∂σΓµρν − ∂ρΓµσν + ΓµαρΓ

ασν − ΓµασΓαρν (1.3)

contenente tutte le informazioni sulla curvatura intrinseca dello spazio tempo. Contraendoil tensore di Riemann si ottiene il tensore di Ricci

Rµν = Rαµαν (1.4)

e la curvatura scalareR = Rµ

µ (1.5)

1

La relazione fondamentale della teoria, che permette di determinare allo stesso tempo lametrica e l’evoluzione dinamica del sistema fisico è l’equazione di Einstein, una uguaglian-za tra il tensore di Einstein Gµν (legato al tensore di Ricci e alla curvatura scalare) e iltensore energia impulso Tµν associato al sistema,

Gµν = Rµν −1

2Rgµν =

8πG

c4Tµν (1.6)

La (1.6) è equivalente a un sistema di dieci equazioni differenziali non lineari, ed èmolto difficile trovare delle soluzioni esatte, a meno di non imporre al problema partico-lari simmetrie. In questa tesi saremo interessati ad una serie di problematiche legate allarivelazione delle onde gravitazionali, che possono essere viste come piccole perturbazionidella metrica attorno ad una soluzione nota. Come vedremo brevemente queste pertur-bazioni si comportano come onde propagandosi alla velocità della luce, e sono generateda variazioni della distribuzione della massa e dell’energia. In altre parole Tµν può esserevista come la loro sorgente.

1.1.1 Propagazione nel vuoto1

Supponiamo che lo spaziotempo non perturbato sia descritto dalla metrica di Minkowskyη = diag(−1, 1, 1, 1), che è una particolare soluzione della (1.6) quando Tµν = 0, cioè nelvuoto. Se assumiamo che la metrica gµν , nuovamente soluzione della (1.6) nel vuoto, sipossa scrivere come una perturbazione hµν di questa , cioè

gµν = ηµν + hµν (1.7)

possiamo considerare nella (1.6) i contributi a ordini successivi di hµν .Definendo hµν = hµν − 1

2ηµνh

αα con un cambio di coordinate

xα → x′α = xα + ξα (1.8)

è sempre possibile fare in modo che hµν soddisfi la condizione ∂αhαβ = 0, detta gauge diLorentz. All’ordine lineare nella perturbazione la (1.6) si riscrive allora nella forma

1Di qui in poi useremo unità geometriche ponendo G = c = 1

2

Gµν = −1

2∂ρ∂

ρhµν = −1

2�hµν = 8πT µν (1.9)

Nel vuoto, dall’annullamento di Tµν segue

�hµν = 0 (1.10)

che è un’equazione d’onda la cui soluzione può essere scritta come sovrapposizione dionde piane.

Alcuni gradi di libertà residui non fisici devono ancora essere fissati. Possiamo conun’ulteriore trasformazione di coordinate del tipo (1.8) imporre nel vuoto altre due con-dizioni, che insieme a quelle di Lorentz definiscono la gauge TT (transverse-traceless):

Gauge TT :

∂αhαβ = 0 gauge di Lorentz

h0α = 0 solo componenti spaziali

hαα = 0 traccia nulla

Contando i gradi di libertà residui si trova che un’onda piana con fissata direzione dipropagazione può avere due polarizzazioni indipendenti, entrambe trasverse alla direzionedi propagazione. Fissato il versore u sorgente-detector, che coincide con la direzione dipropagazione dell’onda, potremo scegliere come stati di polarizzazione indipendenti

ε×ij (u) = pipj − qiqj (1.11)

ε+ij (u) = piqj + pjqi (1.12)

dove p,q,u formano una terna cartesiana destrorsa. Potremo quindi scrivere una genericaonda gravitazionale piana di frequenza angolare ω e direzione u nella forma

hij (u, ω) =[h+ε

+ij (u) + h×ε

×ij (u)

]eiω(u·r−t) + c.c. (1.13)

dove h+ e h× sono le ampiezze delle due polarizzazioni. Notare che abbiamo utilizzatoindici latini corrispondenti alle componenti spaziali di hαβ , le uniche differenti da zero ingauge TT . I due stati così definiti sono rappresentati in Figura 1.1.

3

Figura 1.1: L’effetto di un’onda gravitazionale polarizzata. In figura sono rappresentate leposizioni relative di un set di masse campione prima e durante l’arrivo di un’onda gravi-tazionale che si propaga perpendicolarmente al piano della pagina. Gli assi corrispondonoai versori p e q, e le masse campione sono disposte circolarmente in assenza di onde grav-itazionali. A sinistra è rappresentata la deformazione indotta dalla polarizzazione +, adestra quella della polarizzazione ×.

1.1.2 Accoppiamento al detector

Il detector sarà sensibile a una combinazione lineare delle due polarizzazioni (1.11) e (1.12),

h (t) = D+h+ +D×h× (1.14)

che in generale si può scrivere come contrazione di hij sul detector tensor

h (t) = Dijhij (1.15)

definito in modo da tenere conto dell’orientazione segnale-detector e della forma geo-metrica dei bracci dell’interferometro. Se n, m sono le direzioni dei due bracci, per uninterferometro nella configurazione geometrica di VIRGO, si ha

Dij = ninj −mimj (1.16)

4

Confrontando la (1.14) e la (1.15) vediamo che D+ e D× sono date dalla contrazionedi Dij sui tensori di polarizzazione ε× e ε+. A polarizzazione fissata, la mappa scalarecosì fornita prende il nome di antenna pattern. Fissando coordinate sferiche nel centro deldetector (θ, φ) e definendo l’orientamento di n,m rispetto a p,q con un angolo ψ si puòdare una espressione esplicita per i due antenna pattern + e × nella forma

D+ (t) =1

2

(1 + cos2 θ

)cos 2φ cos 2ψ − cos θ sin 2φ sin 2ψ (1.17)

D× (t) =1

2

(1 + cos2 θ

)cos 2φ sin 2ψ + cos θ sin 2φ cos 2ψ (1.18)

Riportiamo in Figura 1.2 una rappresentazione grafica di questa mappa, che dà infor-mazioni sulla sensibilità direzionale di un rivelatore interferometrico.

Figura 1.2: Antenna pattern per le due polarizzazioni ×,+(ψ = 0). Il quadrato di D+ eD× è dato in coordinate polari, in funzione della direzione di arrivo dell’onda.

A titolo descrittivo, osserviamo la linea di universo di un fotone che viaggia tra duepunti A e B che corrispondono alle posizioni di due masse di test. Possiamo scrivere

5

l’annullamento dell’intervallo spazio temporale

ds2 = (ηµν + hµν) dxµdxν = −dt2 + dxidxj (δij + hij) = 0 (1.19)

Figura 1.3: Transito di un’onda gravitazionale sul cammino di un fotone

Perciò se il fotone viaggia in direzione x, e l’onda si propaga in direzione z, comein 1.3 e al primo ordine nella perturbazione vale

dt =√dx2 + dxidxjhij = dx

√1 + hij

dxi

dx

dxj

dx' dx

(1 +

1

2hxx

)(1.20)

che integrata sull’intero cammino rivela l’effetto dell’onda gravitazionale

T =

B∫A

dx

(1 +

1

2hxx

)= LAB + ∆LGW (1.21)

Notare che in gauge TT le coordinate di una massa libera in quiete non cambiano all’arrivodell’onda, e quindi gli estremi di integrazione si possono considerare fissati. Analogo

6

ragionamento può esser fatto lungo la direzione y. È chiaro quindi che istante per istantela (1.16) descrive la sensibilità dell’interferometro alle differenze di cammino ottico lungodue direzioni prescelte n,m.

h (t) ∝(∆LGWx −∆LGWy

)(1.22)

1.1.3 Formazione di onde gravitazionali

Discutiamo a conclusione di questa sezione la soluzione radiativa dell’equazione di Ein-

stein. Nella (1.6) se Tµν ha delle componenti non nulle, la perturbazione hµν che la risolvenon è scrivibile completamente in gauge TT . Tuttavia la componente radiativa di hµν(ovvero quella dominante a grandi distanze dalla sorgente) continua a essere scrivibile ingauge TT , e soddisferà sempre in approssimazione lineare l’equazione

�hµν = −16πTµν (1.23)

Per questo motivo è lecito considerare la sola parte spaziale di hµν . Nei casi che ci inter-esseranno in questa tesi sono inoltre applicabili alcune approssimazioni legate ai parametriadimensionali seguenti:

• il rapporto βs = vs/c � 1 tra la tipica velocità della materia alla sorgente e lavelocità della luce (approssimazione post-newtoniana)

• il rapporto λ/as � 1 tra la lunghezza d’onda della radiazione gravitazionale e la di-mensione caratteristica della sorgente, (approssimazione multipolare della sorgentedi materia)

• i rapporti as/R � 1 e λ/R � 1 tra dimensione caratteristica della sorgente olunghezza d’onda della radiazione e distanza dal detector R (approssimazione dizona di radiazione)

In queste condizioni la sorgente produce essenzialmente radiazione in proporzione allavariazione del suo momento di quadrupolo di massa. Più esattamente la perturbazionemetrica hij in gauge TT si scriverà come funzione del suo momento di quadrupolo nellaforma

hTTij =2G

c4RPijab (n)

{( ..

Qab

)rit

+O(

1

c

)}+O

(1

R2

)(1.24)

7

dove:

• Pijab (n) è l’operatore di proiezione nello spazio dei tensori a due indici, a traccianulla e trasversi rispetto alla congiungente n tra rivelatore e sorgente

Pijab = PiaPjb −1

2δijPijPab (1.25)

Pij = δij − ninj (1.26)

• Qij (t) è il momento di quadrupolo della sorgente

Qij (t) =

∫S

d3xρ (x, t)

(xixj −

1

3δijx

2

)(1.27)

Integrando su tutti gli angoli si ottiene la potenza totale emessa (istantanea), e ristabilendole dimensioni otteniamo l’espressione per la luminosità gravitazionale totale

L =G

5c5

⟨...

Qab

...

Qab +O(

1

c2

)⟩(1.28)

Il fattore G/c5 ∼ 10−53 W−1 nella (1.28) mostra che per ottenere una luminosità apprez-zabile è necessario aver a che fare con

...

Q(t) abbastanza elevati, possibili solo per sorgentidi natura astrofisica.

1.2 La rivelazione delle onde gravitazionali

Nella situazione concreta l’output del rivelatore è il segnale definito dalla (1.15) sovrap-posto a rumore additivo di varia natura. Più precisamente il detector produrrà una serietemporale di dati2

si (t) = hi (t) + ni (t) ∀i = 1, . . . , N

nei quali ci chiediamo se sia presente o meno il segnale cercato. Il rumore presente non cipermette di prevedere, instante per istante, la serie temporale che giungerà al detector. Neiprossimi paragrafi si illustra in maniera astratta un approccio statistico al problema, ovvero

2Una descrizione dettagliata dei due termini verrà data nel Capitolo 3

8

una ricetta per mettere insieme in maniera coerente la conoscenza statistica del rumore ela descrizione del segnale.

1.2.1 Statistica sugli eventi

Il problema della rivelazione consiste nella decisione, a partire da un dato input X ∈ X ,sulla verità di più ipotesi Hi. In altre parole, definire un test di rivelazione equivale aseparare lo spazio dei possibili input in sottoinsiemi Xi tali che

∀i X ∈ Xi ⇒ il test decideHi vera

Questa suddivisione per un test deterministico, ovvero il cui risultato sia unico per ognidato input, produce una partizione P di X .

Consideriamo in particolare un test a due ipotesi, che nel nostro caso sono la presenzadi un segnale (ipotesi H1) o la sua assenza (ipotesi H0). Supponiamo di poter associare aogni evento, sotto entrambe le ipotesi, una coppia di probabilità condizionate p (X | H0) ep (X | H1). Restano definite su X quindi due distribuzioni di probabilità. Nel nostro caso,esse saranno legate alla descrizione statistica del rumore, e alla forma del segnale.

La scelta di quale test impiegare, che soddisfi i precedenti requisiti, è del tutto arbitraria.Si possono però introdurre due quantità che tengono conto della capacità di un dato test discegliere correttamente tra due ipotesi:

PD la probabilità di rivelazione (detection probability). E’ la probabilità che vengadecisa la presenza del segnale, nell’ipotesi che esso ci sia veramente.

PFA la probabilità di falso allarme (false alarm probability). E’ la probabilità chevenga decisa la presenza del segnale, nell’ipotesi che esso non sia realmentepresente.

Dalle definizioni si ricava

PD =∑

{Xi}∈X1

P (X|H1) (1.1)

PFA =∑

{Xi}∈X1

P (X|H0) (1.2)

9

1.2.2 Il lemma di Neyman-Pearson

Il nostro intento è quello di ottenere la massima PD, tenendo fisso il valore di PFA. L’e-sistenza di questo test ottimale è garantita dal lemma di Neyman-Pearson. Il test che mas-simizza PD , per un dato valore di PFA, è quello che assegna X all’insieme X1 tutte e solele volte in cui

P (X|H1)

P (X|H0)> γ (1.3)

dove la soglia γ è legata a PFA dalla (1.2)Una dimostrazione del teorema, che fa sostanzialmente uso dei moltiplicatori di La-

grange, può essere trovata in [Kay-II]. Si osservi che il teorema non soltanto dimostral’esistenza di un test ottimo, ma ne dà anche una ricetta costruttiva.

1.2.3 L’approccio GLRT

In alcuni casi la conoscenza incompleta del sistema da sottoporre a test, ovvero la scarsaquantità di informazioni sullo stesso, non ci permette di costruire una adeguata distribuzionedi probabilità per gli eventi. Questo può accadere ad esempio se non sappiamo descriverel’esatto segnale che ci aspettiamo di rivelare. Il segnale conterrà in questi casi dei parametriliberi (si pensi ad esempio alla rivelazione di un segnale di forma nota che però inizia aun tempo indeterminato). Il test (1.3) non è più applicabile. Si può superare questo limiterealizzando un test di tipo GLRT, oppure adottando un approccio Bayesiano. Noi seguire-mo la prima soluzione, poiché si presta bene alla rielaborazione che seguirà nel Capitolo 2.Inserendo nelle distribuzioni di probabilità uno o più parametri liberi θ, si può formulareun test analogo al (1.3)

Definizione 1 (Generalized likelihood ratio test). Il test GLRT decideH1 se

P(X; θ|H1

)P(X; θ|H0

) > γ (1.4)

doveP(X; θ|Hi

)= max

θ∈ΘP (X; θ|Hi) (1.5)

10

indica la massima probabilità dell’evento X (assumendo veraHi) al variare di θ su tutto lospazio dei parametri Θ.

Seppur il test (1.4) perda ottimalità rispetto a (1.3), si può dimostrare che asintotica-mente (cioè per un numero N molto grande di dati osservati) le performance non sonodegradate. Per approfondimenti sul tema si può consultare [Kay-I]. Nel capitolo che segueintrodurremo alcuni concetti della teoria dell’informazione, e illustreremo un problemaelementare per mettere in luce gli aspetti geometrici di nostro interesse.

11

Capitolo 2

Il modello statistico: un approcciogeometrico

Nella Sezione 1.2.3 abbiamo introdotto una parametrizzazione Ξ : θ → p (x; θ) peruna famiglia di distribuzioni di probabilità. Chiameremo Ξ, o equivalentemente S =

{p (x; θ)}θ∈Θ, un modello statistico. Se Ξ è sufficientemente regolare, il modello statisticoè una varietà differenziabile.

2.1 Metrica di Fisher e disuguaglianza di Cramér-Rao

È utile dotarci di una misura della bontà di un modello statistico, ovvero della quantità diinformazioni che attraverso di esso si possono ricavare sui parametri liberi di un sistema.Per farlo definiamo

Definizione 2 (Metrica di Fisher). Dato un modello S = {pθ|θ ∈ Θ} la matrice di infor-

mazione di Fisher

gij (θ)def= E [∂i log p (x; θ) ∂j log p (x; θ)]

=

∫∂i log p (x; θ) ∂j log p(x; θ)p (x; θ) dx (2.1)

definisce una metrica Riemanniana, ovvero un prodotto interno tra i generatori degli spazitangenti

〈∂i, ∂j〉 = gij (2.2)

12

Ci chiediamo se una diversa scelta della variabile casuale per il modello influisca sullaqualità dello stesso. Ad esempio, dato un certo modello S = {p (x; θ)} ci chiediamo se(oppure sotto quali condizioni) la scelta di un altro modello mantenga inalterata la bontàdegli stimatori1 corrispondenti. Una statistica che soddisfa questo requisito è detta statis-

tica sufficiente. Il Teorema 3 dà una condizione necessaria e sufficiente per caratterizzarela sufficienza di una statistica, mentre il Teorema 4 lega la metrica di Fisher agli stimatoridi un dato modello:

Teorema 3. Sia SF = {q (y; θ)} il modello indotto attraverso la mappa F : x → y, tale

che

p (x; θ) = q (F (x) ; θ) r (x) (2.3)

allora la matrice gF (θ)− g (θ) è semidefinita positiva, e vale

gF (θ)− g (θ) = 0⇔ F è una statistica sufficiente

Teorema 4 (Cramér-Rao Bound). Se Vθ[θ]

è la matrice di covarianza di uno stimatore

non distorto θ, allora Vθ[θ]− g (θ)−1 è semidefinita positiva.

Il Teorema 3 ci permette di stabilire se una diversa parametrizzazione di un sistemacomporta o meno perdita di informazione sullo stesso. Nel caso in cui ciò avvenga, ilTeorema 4 ce ne fornisce una stima.

In altre parole i Teoremi 3 e 4 garantiscono che la stima dei parametri non venga degra-data dall’introduzione di una statistica sufficiente, e stabiliscono un upper-bound alla co-varianza degli stimatori. Infine, si può dimostrare che se il numero di osservazioni (ovverola dimensione del modello) tende a +∞, esiste una successione di stimatori θN che asin-toticamente soddisfa l’uguaglianza del teorema 4. Una dimostrazione dei fatti esposti sitrova in [Amari].

1In statistica le stime che un modello fornisce per i parametri liberi θ sono dette stimatori, e liindicheremo d’ora in poi con il simbolo θ)

13

2.2 Divergenze sui modelli statistici: un esempio

Possiamo arricchire un modello statistico introducendo una funzione (simile a una distan-za) D (·‖·) : S × S → R tale che

D (p‖q) ≥ 0 e D (p‖q) = 0⇔ p = q (2.1)

(in generale questa funzione non soddisfa la disuguaglianza triangolare, ne è simmetrica).Estendendo opportunamente le definizioni2 si può indurre (canonicamente a partire da D)una metrica Riemanniana su S

G(D)ij

def= D [∂i∂j‖·] : p→ D (∂i∂jp‖p)

Definizione 5. Se G(D)ij è definita positiva, allora D è una divergenza su S, e G ne dà

l’approssimazione al secondo ordine, nel senso della norma ‖∆θ‖2

D (p‖q) =1

2G

(D)ij (q) ∆θi∆θj + o

(‖∆θ‖2

)si può inoltre mostrare che all’ordine successivo la divergenza è determinata dai coeffici-enti della connessione affine Γij,k

D (p‖q) =1

2G

(D)ij (q) ∆θi∆θj +

1

6Γij,k (q) ∆θi∆θj∆θk + o

(‖∆θ‖3

)2.2.1 La divergenza KL e l’entropia relativa

La Definizione 5 permette di costruire arbitrariamente delle divergenze su un modellostatistico, e a partire da esse costruire le metriche che ne approssimano gli sviluppi a ordinisuccessivi. Nel nostro caso utilizziamo la

Definizione 6 (Divergenza di Kullback-Leibler). Si definisce divergenza di Kullback-Leibler

2la notazione con le parentesi [] indica il campo tensoriale ristretto alla diagonale di S × S

D [∂i‖·] : p→ D((∂i)p ‖p

)

14

D(KL) la quantità

D(KL) (p‖q) =

∫p (x) log

p (x)

q (x)dx (2.2)

inoltre la metrica che approssima D(KL) al secondo ordine in ∆θ è quella di Fisher,e vale

D(KL) (p‖q) =1

2gij(θ)∆θi∆θj +

1

6Γij,k (q) ∆θi∆θj∆θk + o

(‖∆θ‖3

)(2.3)

In letteratura ci si riferisce spesso a D(KL) come all’entropia relativa. Essa è additiva sulprodotto di due modelli

D(KL) (p (x1, x2) ‖q (x1, x2)) = D(KL) (p (x1) ‖q (x1)) +D(KL) (p (x2) ‖q (x2)) (2.4)

Nel caso in cui fosse di nostro interesse soltanto la divergenza tra punti di una sottova-rietà S ′ del modello statistico S, lo sviluppo (2.3) sarà utile per descrivere l’immersione diS ′ in S.

A titolo riassuntivo segue un esempio di detection astratto, per riassumere il ruolo deglioggetti matematici introdotti finora.

Esempio. Poniamo di voler determinare la presenza o meno di un segnale si (i = 1, · · ·N )in una serie temporale osservata del tipo

hi = λsi + ni (2.5)

dove ni è il rumore del rivelatore, che supponiamo Gaussiano, a media nulla e descritto dauna matrice di correlazione

ninj = Cij (2.6)

La distribuzione di probabilità per la serie osservata si ottiene facilmente da quella delrumore del rivelatore

• In assenza di segnale (si = 0)

dP0 = N exp

{−1

2

[C−1

]ijninj

}∏i

dni (2.7)

15

• In presenza di segnale (ni = hi − λsi)

dP1 = N exp

[−1

2Kij (hi − si) (hj − sj)

]∏i

dhi (2.8)

e il rivelatore di Neyman-Pearson associato è

dP1

dP0

= exp

{−1

2

[C−1

]ij

(si − λhi) (sj − λhj) +1

2

[C−1

]ijsisj

}= exp

{−λ

2

2

[C−1

]ijhihj + λ

[C−1

]ijhisj

}> γ (2.9)

ossia da3

Γ ≡[C−1

]ijhisj > γ′ (2.10)

In altre parole Γ è una statistica sufficiente rispetto alla (2.7).Dato che Γ è una variabile gaussiana sarà completamente caratterizzata dalla media e

dalla varianza. Abbiamo

Γ =[C−1

]ijsihj =

0 in assenza di segnale

λ [C−1]ij sisj in presenza di segnale

e

Γ2 =[C−1

]ij

[C−1

]klsiskhjhl

=

[C−1]ij [C−1]kl sisknjnl in assenza di segnale

[C−1]ij [C−1]kl sisk(nj + λsj) (nl + λsl) in presenza di segnale

=

[C−1]ij sisj in assenza di segnale

[C−1]ij sisj +(λ [C−1]ij sisk

)2

in presenza di segnale

e di conseguenzaΓ2 − Γ

2=[C−1

]ijsisj (2.11)

3È possibile riassorbire l’ampiezza λ del segnale nella soglia, quindi per calcolare la statistica sufficientenon è necessario conoscerla.

16

Fissando la normalizzazione della sequenza di riferimento si a

[C−1

]ijsisj = 1 (2.12)

abbiamo Γ = λ e Γ2 − Γ2

= 1.In realtà abbiamo a che fare non con un unico template hi, ma con un opportuno in-

sieme. Introduciamo un set di N − 1 coordinate xµ che parametrizzano la varietà di tuttele sequenze normalizzate secondo la

[C−1

]ijsi (x) sj (x) = 1 (2.13)

ed un altro set di coordinate ya che parametrizzano l’insieme dei template normalizzati“fisici” a cui siamo interessati, un sottoinsieme del precedente,

[C−1

]ijsi (x(y)) sj (x(y)) = 1 (2.14)

Il problema di detection sarà quello di decidere se il segnale descritto da uno dei possi-bili template “fisici” è presente all’interno della sequenza. Per fare questo utilizzeremo ildetector

maxy

Γ (x(y)) > γ (2.15)

dove la statistica sufficiente è definita da

Γ (x) =[C−1

]ijsi (x)hj (2.16)

17

Capitolo 3

Una applicazione: rivelazione dicoalescenze binarie a VIRGO

In questo capitolo discuteremo in dettaglio una applicazione del formalismo introdottoalla rivelazione di una particolare classe di segnali con l’interferometro VIRGO. NellaSezione 3.1 si descrivono le caratteristiche rilevanti e i principali contributi del rumore.Nella Sezione 3.2 si descrive la forma del segnale di interesse, che assume la forma di unchirp, cioè di una funzione quasi periodica con frequenza ed ampiezza lentamente variabili.Infine nella Sezione 3.3 si discute, con gli strumenti del Capitolo 2, il problema di detectionnel caso specifico. In particolare viene esposto un metodo che, tramite l’introduzione diuna metrica effettiva, rende possibile ridurre il costo computazionale dell’algoritmo.

3.1 Il rumore a VIRGO

Il segnale da rivelare è sostanzialmente sepolto in rumore additivo di diverse origini (ru-more termico, rumore ottico ad alte frequenze e rumore sismico a basse frequenze).

Per motivi di semplicità lavoreremo nell’ipotesi di rumore Gaussiano e stazionario.In questo caso la densità spettrale è sufficiente per una descrizione completa in terministatistici. Fisicamente, le sorgenti di rumore più importanti sono:

• Rumore sismico per f . 5Hz

• Rumore termico del pendolo 5Hz . f . 50Hz

18

Spend(Hz) Smirror(Hz) Sshot(Hz) fcut(Hz)1.2× 10−36 3.6× 10−43 3.5× 10−46 500

Tabella 3.1: Parametri di fit per la curva di rumore di VIRGO[Canitrot et al.]

• Rumore termico degli specchi 50Hz . f . 500Hz

• Rumore shot per f & 500Hz

In questo lavoro si considera il modello analitico descritto in [Canitrot et al.], riassuntodall’Equazione (3.1). I valori dei parametri corrispondenti alla sensibilità di VIRGO sonoriportati nella Tabella 3.1 ed il grafico relativo in Figura 3.1.

Sn(f) = Spendf−5 + Smirrorf

−1 + Sshot

[1 +

(f

fcut

)2]

(3.1)

Figura 3.1: Fit dello spettro di rumore di VIRGO (in rosso) e vari con-tributi (nero, azzurro e blu). In verde è riportata la curva di sensibilità teori-ca completa, ottenuta da una modellizzazione dettagliata delle diverse sorgenti dirumore. (https://wwwcascina.virgo.infn.it/senscurve/)

19

3.2 Il segnale

Il segnale che intendiamo rivelare è quello proveniente da sistemi binari coalescenti. Sitratta di coppie di oggetti astrofisici - stelle a neutroni (NS), buchi neri (BH) o nane bianche(WD)1 - in rotazione su un piano orbitale fisso (al nostro ordine di approssimazione).L’evoluzione di questi sistemi attraversa tre stadi:

• Inspiral: i due corpi ruotano reciprocamente, emettendo radiazione gravitazionale.Il sistema perde energia, la fase e la frequenza della rotazione cambiano nel tempoattraversando la banda in frequenza di maggiore sensibilità dei detector.

• Merger: il trasporto di materia tra i due corpi è tale da fonderli insieme in un unicosistema. Per sistemi BH-BH la frequenza di merging rimane nella regione spettraledi maggior sensibilità, mentre per NS-NS la frequenza è troppo elevata.

• Ringdown: il corpo risultante attraversa una fase di lento rilassamento.

Nella fase di inspiral è possibile calcolare la forma del segnale utilizzando metodiperturbativi. Nell’Appendice A sono riportate le espressioni dei segnali per le due polariz-zazioni (Equazioni (1.11) e (1.12)), calcolate fino all’ordine (v/c)4, ovvero fino al secondoordine post-Newtoniano (di seguito 2PN) [Blanchet et al.].

Sarà conveniente implementare l’algoritmo in DFT (discrete Fourier Transform), per-ciò usiamo piuttosto la parametrizzazione in frequenza [Canitrot et al.]:

h(f ;M, η) = f−7/6 exp i{−π

4− Φl + 2πftl + Ψ (f ;M, η)

}(3.1)

dove solo la fase è espansa a ordini PN successivi, mentre l’ampiezza è lasciata a quellopiù basso. Dal punto di vista della rivelazione le correzioni all’ampiezza sono molto menoimportanti di quelle alla fase. Come visto nell’Esempio 2.2.1 discusso precedentemente,la statistica sufficiente (Equazione (2.16)) è essenzialmente un integrale nel tempo delprodotto tra template e segnale. Per evitare cancellazioni è quindi essenziale che la fasedel template sia il più possibile esatta.

I parametri rimasti liberi nella fase al netto della normalizzazione fissata sono 2:

1La rivelazione di WD binarie o di sistemi composti NS-WD avviene a frequenze troppo basse (∼10−4Hz) per gli attuali rivelatori interferometrici, che sarebbero tuttavia accessibili ad un interferometrospaziale simile a LISA.

20

Figura 3.1: Evoluzione dell’ampiezza caratteristica dell’onda gravitazionale, per sistemibinari NS-NS e BH-BH, confrontata con la sensibilità dei rivelatori interferometrici attualie delle prossime generazioni.

21

Figura 3.2: Output del filtro di Wiener. Il segnale dell’esempio è del tipo s (t) =A (t) sin (φ (t)). Una descrizione incompleta della fase degrada notevolmente le per-formance del detector, mentre una descrizione incompleta dell’ampiezza non influiscesull’andamento globale.

• La massa totale M del sistema

• Il rapporto η tra la massa ridotta e la massa totale

Tale sarà la dimensione della varietà fisica. Scegliendo una parametrizzazione adimension-ale tramite le quantità

θ1 =5

128(πMf0)−5/3 η−1 (3.2)

θ2 =π

4(πMf0)−2/3 η−1 (3.3)

22

possiamo scrivere la fase che compare nell’Equazione (3.1) nella forma

Ψ (f ; θ1, θ2) =3

5θ1

(f

f0

)− 53

+

[743

2016

(25

2π2

) 13

θ131 θ

232 +

θ1

θ2

](f

f0

)−1

− 3

2θ2

(f

f0

)− 23

+

[617π2

384

θ1

θ22

+5429

5376

(25π

2

) 13 θ

131

θ132

+15293365

10838016

(5

4π4

) 13 θ

432

θ131

](f

f0

)− 13

(3.4)

3.2.1 La varietà fisica

Non tutti i possibili valori dei parametri θ1 e θ2 appena introdotti corrispondono a segnalireali. Per esempio la massa di una tipica stella a neutroni è compresa tra una e due massesolari. Di conseguenza solo un sottoinsieme della varietà fisica sarà di interesse. EssendoM e η simmetriche per scambio delle due masse, possiamo fissare m1 ≤ m2 e tracciarela carta (θ1, θ2) della parte rilevante della varietà fisica. I bordi saranno definiti dai vincolimmin ≤ m1 ≤ m2 ≤ mmax. Un esempio è riportato in Figura 3.3.

A questo punto siamo in possesso delle parametrizzazioni giuste per il rumore e per ilsegnale. Discutiamo il problema concreto della rivelazione.

3.3 Template placement

Dal risultato per il detector GLRT, è chiaro che la massimizzazione (2.15) non può essereeseguita analiticamente. Quindi è necessario valutare questa quantità su un certo numerodi scelte possibili, ovvero di campioni dello spazio dei parametri. Per quantificare questonumero si introduce il concetto di overlap.

23

Figura 3.3: Esempio di spazio dei template fisici per mmin = 0.25M� e mmax = 10M�.

3.3.1 Overlap

Supponiamo che nei dati sia presente un segnale sα corrispondente al template normalizza-to sα2. Se calcoliamo la statistica sufficiente utilizzando un template diverso sβ otteniamoun valore della statistica sufficiente ridotto rispetto al caso ideale α = β di un fattore

ρ (α, β) =[C−1

]ijsαi s

βj ≡ Kij s

αi s

βj (3.1)

che chiameremo overlap. Chiaramente

ρ(α, β) ≤ 1 (3.2)

a causa della condizione di normalizzazione, ed inoltre

ρ (α, β) = 1⇔ α = β (3.3)

Possiamo quindi pensare di richiedere che il numero di statistiche sufficienti da cal-

2d’ora in poi si indicano con s i template, con s il segnale eventualmente presente nelle misure

24

colare sia abbastanza grande da ricoprire lo spazio dei parametri con una densità tale daavere

maxα

minβρ (α, β) > 1− ε (3.4)

dove

• il minimo è calcolato su tutti i possibili parametri β che possono corrispondere adun segnale

• il massimo su tutti i parametri α presenti sulla griglia

Il fattore ε appena introdotto sarà legato alla perdita di performance che siamo dispostiad accettare. Ai fini delle approssimazioni che introdurremo, sarà utile prendere ε il piùpossibile vicino a 1 (indicativamente ε ∼ 97%− 99%).

3.3.2 Struttura geometrica del modello statistico

Possiamo introdurre nello spazio di tutte le possibili distribuzioni di interesse alcune strut-ture geometriche. Sappiamo già che lo spazio delle distribuzioni di probabilità a cui siamointeressati è quello delle distribuzioni multivariate del tipo

dP(α,A) = N exp

[−1

2Kij (hi − Asαi )

(hj − Asαj

)]∏i

dhi (3.5)

dove abbiamo indicato separatamente l’ampiezza del segnale A e l’insieme degli altriparametri α che caratterizzano lo spazio. Notiamo che l’insieme delle distribuzioni diprobabilità associate alle possibile serie temporali di dimensione N è uno spazio vettori-ale di dimensione N . Lo spazio di tutte le distribuzioni di probabilità di interesse sarà unsottospazio di dimensione uguale al numero dei parametri (A,α).

Consideriamo anche lo spazio delle distribuzioni di probabilità per una data statisticasufficiente. Dato che

Xβ = Kijhisβj (3.6)

si tratta delle distribuzioni Gaussiane con media

Eξ[Xβ]

= Eξ

[Kijhis

βj

]= AKij s

αi s

βj (3.7)

25

e varianza

[(Xβ − AKij s

αi s

βj

)2]

= Eξ

[(Kijhis

βj − AKij s

αi s

βj

(Klmhls

βm − AKlms

αl s

βm

)]= Kij s

βjKlms

βmEξ [(hi − Asαi ) (hl − Asαl )]

= Kij sβi s

βj = 1 (3.8)

3.3.3 Divergenza di Kullback

Consideriamo lo spazio S delle distribuzioni di probabilità per i segnali normalizzati adA = 1. La metrica di Fisher si calcola facilmente come restrizione di quella vista prece-dentemente,

gab = Kij∂sαi∂αa

∂sαj∂αb

(3.9)

Valutiamo la divergenza di Kullback nel nostro caso

[log

PβPα

]=

1

2KijEβ

[(hi − sαi )

(hj − sαj

)−(hi − sβi

)(hj − sβj

)]=

1

2KijEβ

[(hi − sβi + sβi − sαi

)(hj − sβj + sβj − sαj

)−(hi − sβi

)(hj − sβj

)]=

1

2KijEβ

[2(hi − sβi

)(sβj − sαj

)+(sβi − sαi

)(sβj − sαj

)]=

1

2Kij

(sβi − sαi

)(sβj − sαj

)= 1−Kij s

βi s

αj (3.10)

Si tratta quindi della quantità appropriata per quantificare la riduzione dell’efficienza deldetector per una data griglia. Dato che nel nostro caso il risultato è simmetrico nondistingueremo D(1) e D(−1) e scriveremo semplicemente

D (α || β) = 1−Kij sβi s

αj (3.11)

26

Se α ' β possiamo sviluppare la quantità precedente in funzione di δ = β − α, ottenendoal terzo ordine

D (α || β) = 1−Kij

(sαi +

∂sαi∂αi

δi +1

2

∂2sαi∂αi∂αk

δiδk +1

6

∂2sαi∂αi∂αk∂αl

δiδkδl

)sαj

= 1−Kij sαi s

αj +Kij

∂sαi∂αp

sαj δp +Kij1

2

∂2sαi∂αp∂αq

sαj δpδq

+Kij1

6

∂2sαi∂αp∂αq∂αr

sαj δpδqδr (3.12)

Derivando la condizione di normalizzazione otteniamo le identità

Kij∂sαi∂αp

sαj = 0 (3.13)

Kij∂2sαi∂αp∂αq

sαj +Kij∂sαi∂αp

∂sαj∂αq

= 0 (3.14)

Kij∂3sαi

∂αp∂αq∂αrsαj +Kij

Dijpqr︷ ︸︸ ︷(∂2sαi∂αp∂αr

∂sαj∂αq

+∂2sαi∂αp∂αq

∂sαj∂αr

+∂2sαi∂αq∂αr

∂sαj∂αp

)= 0 (3.15)

che permettono di riscrivere la divergenza nella forma

D (α || β) = 1−Kij

(sαi +

∂sαi∂αi

δi +1

2

∂2sαi∂αi∂αk

δiδk +1

6

∂2sαi∂αi∂αk∂αl

δiδkδl

)sαj

=1

2Kij

∂sαi∂αp

∂sαj∂αq

δpδq +1

6KijDijpqrδpδqδr

=1

2gpqδpδq +

1

6hpqrδpδqδr (3.16)

Quindi la metrica di Fisher offre naturalmente la possibilità di stimare la riduzione diefficienza di un detector GLRT in termini del numero di template a disposizione. InfattidateN statistiche sufficienti queste andranno distribuite con densità omogenea, intendendocon questo che dovrà essere

ρ(α) = ρ0

√det g (3.17)

27

Il parametro ρ0 è determinato dalla relazione

N =

∫ρ(α)

∏i

dαi = ρ0

∫ √det g

∏i

dαi (3.18)

cioè è il rapporto tra N e il volume covariante V della regione di interesse.La massima riduzione di efficienza ε sarà proporzionale alla distanza media tra tem-

plate. Infatti

ε = 1−maxα

minβρ (α, β)

= 1−maxα

minβKij s

αi s

βj

= maxα

minβD (α || β)

∝(

1

ρ0

)2/D

(3.19)

dove D è la dimensione dello spazio dei parametri.A titolo illustrativo riportiamo in Figura 3.1 la varietà dei segnali normalizzati S e la

sottovarietà S ′ (con codimensione N − 3) dei segnali fisici. Il detector è sensibile a unvolume tipico di area ε della varietà, e il suo centro è posto su S ′3.

3.4 Ottimizzazione della griglia

Data una varietà corrispondente all’insieme di tutti template normalizzati, sappiamo che lagiusta metrica per misurare le distanze è quella di Fisher4.

Possiamo introdurre in questo spazio delle coordinate che indichiamo con un indicegreco xµ. Consideriamo adesso la sottovarietà dei template fisici, parametrizzata da un setdi coordinate (ad esempio i parametri liberi) ya. Ci poniamo il problema di spostarci daun punto sulla varietà fisica xµ (y0) in modo da rendere massimo l’overlap del template

3La figura in questo senso è fuorviante, poiché nel caso reale i punti interni in S ′ non lo sono per S4Nelle figure che seguono lo spazio ambiente è da considerarsi quello dei segnali normalizzati S ′. Questo

permette di rappresentare la curvatura di immersione dei segnali fisici in S ′. Si faccia particolare attenzioneall’impiego di indici latini maiuscoli per sequenze temporali generiche (ad esempio KIJ ), greci minuscoliper segnali normalizzati (per cui la metrica è gµν), e latini minuscoli per la parametrizzazione dei segnalifisici (per cui la metrica è gab).

28

Figura 3.1: Varietà (N − 1)−dimensionale dei segnali normalizzati con la metrica diFisher gab (in nero), con la sottovarietà 2−dimensionale dei segnali fisici (in blu). Lasottovarietà possiede essa stessa una curvatura estrinseca di immersione nella sfera SN .

associato. In altre parole vogliamo determinare δµ in modo tale da rendere massimo

Γ (δ) =

∫ √det gabΘ [ε−D (xµ (y0) + δµ ‖ xµ (y))]

∏c

dyc (3.1)

Se ε è abbastanza piccolo la regione nella quale la funzione Θ non si annulla è un intornoabbastanza piccolo di xµ (y0), e quindi potremo approssimare la divergenza ottenendo

Γ (δ) =

∫ √det gabΘ

[ε− 1

2gµν`

µ`ν]∏

c

dyc (3.2)

29

dove`µ = xµ (y0) + δµ − xµ (y) (3.3)

Figura 3.1: Massimizzazione dell’overlap per un dato template. La varietà fisica (in blu,con parametrizzazione ya) è immersa in SN (in nero, con la metrica di Fisher “normaliz-zata” gµν). Un template (in verde) è posizionato con centro sulla varietà fisica. La massimaregione di overlap su quest’ultima si ottiene con il template ottimizzato (in rosso). La lineatratteggiata indica lo spostamento del centro δµ.

A questo punto è conveniente usare, per il resto della derivazione, coordinate u normali

`µ = xµ (u0) + δµ − xµ (u) (3.4)

per cui δµ è ortogonale al template fisico, ossia ∀c si deve avere

∇cxµδµ = 0 (3.5)

30

In queste coordinate cerchiamo il massimo vincolato della regione di overlap

Γ (δ) =

∫ √det gabΘ

[ε− 1

2gµν`

µ`ν]∏

c

duc (3.6)

Attraverso il tensore di Riemann possiamo espandere l’integrando in un intorno di u0 (conδu = u− u0)

gab(u) = δab −1

3Racbdδu

cδud +O(δu3)

(3.7)

`µ = δµ − ∂xµ

∂uaδua − 1

2

∂2xµ

∂ua∂ubδuaδub (3.8)

Sostituendo la (3.7) nel determinante

det gab = exp Tr log

[δab −

1

3Rabcdδu

cδud]

= 1− 1

3Ra

cadδucδud (3.9)

la regione di overlap si riscrive

Γ (δ) =

∫Θ

[ε− 1

2gµν

(δµ − ∂axµδua −

1

2∂abx

µδuaδub)

(δν − ∂cxνδuc −

1

2∂cdx

νδucδud)][

1− 1

6Ra

cadδucδud

]∏c

duc (3.10)

=

∫Θ

[ε− 1

2gµνδ

µδν + gµνδµ∂cx

νδuc +1

2(gµνδ

µ∂acxν − δac) δuaδuc

[1− 1

6Ra

cadδucδud

]∏c

duc (3.11)

Il termine contenente il tensore di curvatura è trascurabile, perché introduce correzionia ordini superiori a δu3. Il massimo che cerchiamo quindi è il volume di un’ellissoide ilcui bordo è definito dalla

ε− 1

2gµνδ

µδν =1

2

(δac − gµνδµ

∂2xν

∂ua∂uc

)δuaδuc − gµνδµ

∂xν

∂ucδuc (3.12)

Dato che stiamo usando coordinate normali possiamo scrivere la (3.12) in forma covariante

31

a vista

ε− 1

2gµνδ

µδν =1

2(gac − gµνδµ∇a∇cx

ν) δuaδuc − gµνδµδuc∇cxν (3.13)

Il volume da massimizzare sarà quindi

Γ =πn/2

Γ(n2

+ 1)√[2ε− gµνδµδν + (gac − δµ∇a∇cxµ)−1 δαδβ∇axα∇cxβ

]ndet (gac − δµ∇a∇cxµ)

(3.14)

Equivalentemente possiamo massimizzare

A︷ ︸︸ ︷[2ε− gµνδµδν + gacδαδβ∇ax

α∇cxβ]

exp

{− 1

nTr log (gac − δµ∇a∇cx

µ)

}(3.15)

Estraiamo dal logaritmo un fattore costante

A exp

{− 1

nTr log gab −

1

nTr log

(δbc − δµgbd∇d∇cx

µ)}

(3.16)

che omettiamo perché irrilevante. In ciò che resta

A exp

{− 1

nTr log

(δbc − δµgbd∇d∇cx

µ)}

(3.17)

espandiamo al secondo ordine il logaritmo

A exp

{− 1

nTr[−δµgbd∇d∇cx

µ +1

2δµg

bd∇d∇exµδνg

ef∇f∇cxν

]}(3.18)

e calcoliamo la traccia, ottenendo

A exp

{1

nδµg

cd∇d∇cxµ − 1

2nδµg

cd∇d∇exµδνg

ef∇f∇cxν

}(3.19)

32

A questo punto possiamo sviluppare in serie l’esponenziale

A{

1 +1

nδµg

cd∇d∇cxµ − 1

2nδµg

cd∇d∇exµδνg

ef∇f∇cxν

+1

2n2

(δµg

cd∇d∇cxµ)2}

(3.20)

Infine eliminiamo i termini di ordine superiore al secondo rimasti

ε+ε

nδµg

cd∇d∇cxµ − ε

2nδµg

cd∇d∇exµδνg

ef∇f∇cxν +

ε

2n2

(δµg

cd∇d∇cxµ)2

−1

2gµνδ

µδν +1

2gacδαδβ∇ax

α∇cxβ (3.21)

Questa è l’espressione che deve essere massimizzata. Inserendo il vincolo di ortogonalitàattraverso dei moltiplicatori di Lagrange λc:

O = ε+ε

nδµg

cd∇d∇cxµ − ε

2nδµg

cd∇d∇exµδνg

ef∇f∇cxν

2n2

(δµg

cd∇d∇cxµ)2 − 1

2gµνδ

µδν

+1

2gacδαδβ∇ax

α∇cxβ + λc∇cx

µδµ (3.22)

Deriviamo rispetto a δλ e eguagliamo a zero:

gµλ

( εngcd∇d∇cx

µ − λc∇cxµ)

=[gρλ − gacgαλgβρ∇ax

α∇cxβ

ngµλgνρg

cdgef∇d∇exµ∇f∇cx

ν

− ε

n2

(gµρg

cd∇d∇cxµ) (gνλg

ef∇f∇exν)]δρ (3.23)

Equivalentemente dovrà essere soddisfatta la relazione

Bγ︷ ︸︸ ︷( εngcd∇d∇cx

γ − λc∇cxγ)

=[δγρ − gµρgac∇ax

γ∇cxµ +

( εngcdgefgµρ

×(∇d∇ex

γ∇f∇cxµ − 1

n∇d∇cx

µ∇f∇exγ

)]δρ (3.24)

ma a quest’ordine possiamo omettere il termine in ε al secondo membro, ottenendo

33

Bγ =(δγρ − gµρgac∇ax

γ∇cxµ)δρ (3.25)

Notiamo che a destra si ha il proiettore nello spazio normale alla varietà fisica. Sarà quin-di sufficiente scegliere i parametri λc in modo che anche il primo membro sia normale.Questo significa che deve essere

gγρ∇exρBγ = 0 (3.26)

ossiagγρ∇ex

ρ∇cxγλc =

ε

ngγρ∇ex

ρgcd∇d∇cxγ (3.27)

λe =ε

ngγρ∇ex

ρgcd∇d∇cxγ (3.28)

λf =ε

ngefgµρ∇ex

ρgcd∇d∇cxµ (3.29)

Sostituendo ed omettendo il proiettore dato che il risultato è automaticamente normaleabbiamo

δγ =( εngcd∇d∇cx

γ − λf∇fxγ)

(3.30)

δγ =ε

n

(δγµ − gefgµρ∇fx

γ∇exρ)gcd∇d∇cx

µ (3.31)

Veniamo adesso all’ellissoide sulla varietà fisica,i cui bordi sono diventati

ε− 1

2gµνδ

µδν =1

2

(δac − gµνδµ

∂2xν

∂ua∂uc

)δuaδuc − gµνδµ

∂xν

∂ucδuc (3.32)

Dato che δµ è normale possiamo semplificare:

ε− 1

2gµνδ

µδν =1

2

(δac − gµνδµ

∂2xν

∂ua∂uc

)δuaδuc (3.33)

poniamolo in forma covariante

ε− 1

2gµνδ

µδν =1

2(gac − gµνδµ∇a∇cx

ν) δuaδuc (3.34)

34

ε =1

2ε(gac − gµνδµ∇a∇cx

ν)

ε− 12gµνδµδν

δuaδuc (3.35)

All’ordine in ε a cui stiamo lavorando

ε =1

2(gac − gµνδµ∇a∇cx

ν) δuaδuc (3.36)

3.4.1 Densità di template e metrica efficace

Consideriamo ora la posizione reciproca di N statistiche sufficienti (di un banco di tem-

plate T ) sulla varietà fisica. Fissata l’efficienza minima del detector 1− ε:

• la (3.19) fornisce la densità ρ0 delle statistiche di T

• La (3.17) e la (3.18) forniscono il numero di statistiche N richieste.

Figura 3.2: Banco di template T con i template sulla varietà (in verde) e ottimizzati (inrosso).

Costruendo il banco di template T ′ delle statistiche con centri xµ = xµ (y0) + δµ, og-nuna di esse avrà una regione di overlap Γ(δ) maggiore di quella della sua corrispondente

35

nel banco T . Presa una coppia di template, essendo

maxα

minβKIJ s

αI s

βJ > 1− ε

le rispettive regioni di overlap saranno sovrapposte. In linea di principio, per garantirel’efficienza del detector 1 − ε, sarebbe sufficiente una densità minore di statistiche nelbanco T di partenza. In altre parole, possiamo definire una metrica efficace g sulla varietàfisica in modo tale che, con una densità ρ0 (nel senso della nuova metrica), sia il banco T ′agarantire l’efficienza richiesta.

Figura 3.3: Banco di template T ′. Con la metrica efficace g la densità di template fisicilascia delle regioni scoperte, ed è la griglia ottimizzata a garantire il minimo overlap (siosservi il riquadro in basso).

Quindi la metrica “efficace” sarà

gab = gab −ε

n

(gµν − gefgµρgγν∇fx

γ∇exρ)gcd∇d∇cx

µ∇a∇bxν (3.37)

36

Notiamo che la quantità precedente ha una interpretazione intuitiva. Anzitutto

∇axµ = ∂ax

µ (3.38)

perché rispetto a trasformazioni delle coordinata ya della varietà fisica xµ è invariante, equindi si comporta come uno scalare. La quantità

tb = gba∂axµ = gba∇ax

µ

è un vettore appartenente allo spazio tangente alla varietà fisica. Di conseguenza la suaderivata covariante (che questa volta differisce da quella normale) una volta proiettata nellospazio normale è la seconda forma fondamentale che misura la curvatura estrinseca dellavarietà fisica. In altre parole la metrica efficace differirà da quella di partenza per terminiproporzionali al quadrato della curvatura estrinseca della varietà fisica: solo dove questasarà diversa da zero si avrà un guadagno in termini computazionali.

3.4.2 Costo computazionale

Da un punto di vista computazionale, la difficoltà principale consiste nel confronto delleosservazioni con l’elevato numero di template che compongono il detector. Sappiamod’altronde che N è proporzionale al volume covariante della varietà fisica. È interessantequindi stimare il numero N ′ dei template che compongono T ′ (ovvero il volume covari-ante nel senso della metrica g), per determinare il guadagno in termini computazionaliintrodotto dall’ottimizzazione della griglia. Per farlo occorrerà conoscere il determinantedella nuova metrica

det gab = det[gab −

ε

n

(gµν − gef∇fxν∇exµ

)gcd∇d∇cx

µ∇a∇bxν]

= det gab det[δhb −

ε

n

(gµν − gef∇fxν∇exµ

)ghagcd∇d∇cx

µ∇a∇bxν]

37

Il secondo determinante è quello importante, e lo possiamo scrivere come

exp Tr log[δhb −

ε

n

(gµν − gef∇fxν∇exµ

)ghagcd∇d∇cx

µ∇a∇bxν]

= exp -Tr[εn

(gµν − gef∇fxν∇exµ

)ghagcd∇d∇cx

µ∇a∇bxν]

= exp -[εn

(gµν − gef∇fxν∇exµ

)gbagcd∇d∇cx

µ∇a∇bxν]

= 1− ε

n

(gµν − gef∇fxν∇exµ

)gbagcd∇d∇cx

µ∇a∇bxν (3.39)

Riconosciamo ancora una volta che il guadagno computazionale è proporzionale al quadra-to della curvatura estrinseca.

Attraverso la (3.39) possiamo quindi misurare il volume e il numero di template nec-essari per la copertura ottimale richiesta.

V =

∫dNy

√det |gab| (3.40)

N =V·V

(3.41)

e

V =

∫dNy

√det |gab| (3.42)

N =V·V

(3.43)

dove N è la dimensione della parametrizzazione (nel caso in questione N = 2) mentre∆V è il volume medio di un template. La stima per N è comunque conservativa, poichénon tiene conto degli effetti di spill-over5 sul bordo della varietà.

Il guadagno, in termini di numero di template, può essere quindi stimato come ilrapporto

G =

(N − NN

)=V − VV

(3.44)

In Appendice B sono riportate le quantità rilevanti ai fini del calcolo di G nel caso concreto.

5L’effetto per cui nell’implementazione concreta, la pavimentazione regolare della varietà non tiene contodella presenza dei bordi.

38

3.5 Conclusioni e sviluppi futuri

Il linguaggio della geometria differenziale, che abbiamo introdotto in questo lavoro, haconsentito di riorganizzare in un’altra prospettiva alcuni contenuti classici della detection(il filtro di Wiener, il minimo overlap, etc.). Questo grazie all’impiego dei concetti didivergenza e metrica su varietà riemanniane.

L’applicazione di concetti legati alla geometria differenziale a problemi statistici o ingenerale legati all’analisi dei segnali e alle problematiche della rivelazione, che si puòconsiderare un capitolo della cosiddetta information geometry [Amari], si sta rivelando inquesti ultimi anni particolarmente fruttuosa.

Nel problema specifico che abbiamo considerato, specializzando questo linguaggio alcaso del modello statistico di interesse, è stato possibile descrivere in modo ragionevolee del tutto intuitivo un possibile upgrade della strategia di rivelazione sotto esame. Senzale peculiarità del linguaggio geometrico sarebbe stato meno agevole motivarne le sceltecostruttive, e dare una esposizione facilmente generalizzabile a situazioni più complesse.

In particolare è da sottolineare che una interpretazione geometrica dei concetti legatialla rivelazione ha permesso una comprensione intuitiva del risultato raggiunto prima dellasua dimostrazione formale. Ci aspettiamo che questo possa accadere più in generale epossa condurre a progettare tecniche più efficienti e meno costose di rivelazione e stimadei parametri.

39

Appendice A

Il segnale nella fase di inspiral

L’espansione completa del segnale vale

h×,+ =2Gmη

c20r

(Gmω

c30

) 23{H

(0)+,× + x

12H

( 12)

+,× + xH(1)+,× + x

32H

( 32)

+,× + x2H(2)+,×

}(A.1)

Si tiene conto della frequenza orbitale ω del sistema attraverso la variabile x = (Gmω/c30)

2/3,mentre i termini H(n)

+ e H(n)× dipendono per ciascuna polarizzazione:

• dalle due masse del sistema binario, attraverso le parametrizzazioni m = m1 +m2 ,δm = m1 −m2 e η = m1m2/m

2

• dall’angolo i tra la normale al piano orbitale e la congiungente n attraverso c ≡ cos i

e s ≡ sin i

• dalla fase dell’orbita φ (φ = 0 se il corpo 1 è sul nodo ascendente)

Tenendo conto della reazione della sorgente all’emissione di radiazione, si può inserire ladipendenza temporale della fase, e della frequenza dell’orbita:

φ (t) = φc −1

η

{Θ5/8 +

(3715

8064+

55

96η

)Θ3/8 − 3π

4Θ1/4+

}(A.2)

ω (t) =c30

8Gm

{1

Θ38

+( 7432688

+ 1132η)

Θ58

− 3π

10

1

Θ34

+( 185509914450688

+ 56975258048

η + 3712048

η2)

Θ78

}(A.3)

40

doveΘ =

c30η

5Gm(tc − t) (A.4)

e φc è la fase al tempo tc, ovvero alla coalescenza.Le quantità H+fino all’ordine 2PN valgono:

H(0)+ = −

(1 + c2

)cos 2ψ (A.5)

H(1/2)+ = −s

8

δm

m

[(5 + c2) cosψ − 9(1 + c2) cos 3ψ

](A.6)

H(1)+ =

1

6

[(19 + 9c2 − 2c4)− η(19− 11c2 − 6c4)

]cos 2ψ

−4

3s2(1 + c2)(1− 3η) cos 4ψ (A.7)

H(3/2)+ =

s

192

δm

m

{[(57 + 60c2 − c4)− 2η(49− 12c2 − c4)

]cosψ

−27

2

[(73 + 40c2 − 9c4)− 2η(25− 8c2 − 9c4)

]cos 3ψ

+625

2(1− 2η)s2(1 + c2) cos 5ψ

}− 2π(1 + c2) cos 2ψ (A.8)

H(2)+ =

1

120

[(22 + 396c2 + 145c4 − 5c6) +

5

3η(706− 216c2 − 251c4 + 15c6)

−5η2(98− 108c2 + 7c4 + 5c6)

]cos 2ψ

+2

15s2

[(59 + 35c2 − 8c4)− 5

3η(131 + 59c2 − 24c4)

+5η2(21− 3c2 − 8c4)

]cos 4ψ

−81

40(1− 5η + 5η2)s4(1 + c2) cos 6ψ

+s

40

δm

m

{[11 + 7c2 + 10(5 + c2) ln 2

]sinψ − 5π(5 + c2) cosψ

−27

[7− 10 ln(3/2)

](1 + c2) sin 3ψ + 135π(1 + c2) cos 3ψ

}(A.9)

Mentre le H× valgono (sempre allo stesso ordine):

41

H(0)× = −2c sin 2ψ (A.10)

H(1/2)× = −3

4scδm

m

[sinψ − 3 sin 3ψ

](A.11)

H(1)× =

c

3

[(17− 4c2)− η(13− 12c2)

]sin 2ψ

−8

3(1− 3η)cs2 sin 4ψ (A.12)

H(3/2)× =

sc

96

δm

m

{[(63− 5c2)− 2η(23− 5c2)

]sinψ

−27

2

[(67− 15c2)− 2η(19− 15c2)

]sin 3ψ

+625

2(1− 2η)s2 sin 5ψ

}− 4πc sin 2ψ (A.13)

H(2)× =

c

60

[(68 + 226c2 − 15c4) +

5

3η(572− 490c2 + 45c4)

−5η2(56− 70c2 + 15c4)

]sin 2ψ

+4

15cs2

[(55− 12c2)− 5

3η(119− 36c2) + 5η2(17− 12c2)

]sin 4ψ

−81

20(1− 5η + 5η2)cs4 sin 6ψ

− 3

20scδm

m

{[3 + 10 ln 2

]cosψ + 5π sinψ

−9

[7− 10 ln(3/2)

]cos 3ψ − 45π sin 3ψ

}(A.14)

42

Appendice B

Implementazione nel dominio infrequenza

Per valutare il guadagno

G =V − VV

(B.1)

occorre conoscere i rispettivi volumi covarianti della varietà dotata delle due metriche gabe gab. Scegliendo la parametrizzazione in frequenza del segnale

s (f ; θ1, θ2) = f−7/6 exp i{−π

4− Φl + 2πftl + Ψ (f ; θ1, θ2)

}abbiamo il notevole vantaggio di poter usare una metrica KIJ diagonale, corrispondente alreciproco dello spettro di rumore. Questa è una conseguenza dell’ipotesi di stazionarietàdel rumore dell’apparato, equivalente alla assenza di correlazione tra componenti di Fouri-er di frequenza diversa. Infatti nel limite del continuo (ovvero in trasformata di Fourier)possiamo effettuare la sostituzione

Kff ′ →1

Sn (f)δ (f − f ′)

Pertanto la somma sugli indici latini può essere sostituita da un integrale nelle frequen-ze. Ad esempio, la norma di una data statistica sufficiente s (f ; θ1, θ2) sarà 1

1La scelta delle frequenze di cutoff fl, furichiede un’analisi dettagliata delle ulteriori riduzioni diperformance.

43

〈s (f ; θ1, θ2)〉 =

∫1

Sn (f)δ (f − f ′) s (f ; θ1, θ2) s (f ′; θ1, θ2)df

La metrica gab diventa

g (θ1, θ2)ab =

∫∫1

Sn (f)δ (f − f ′) ∂s (f ; θ1, θ2)

∂θa

∂s (f ′; θ1, θ2)

∂θbdfdf ′

=

∫1

Sn (f)

∂s (f ; θ1, θ2)

∂θa

∂s (f ; θ1, θ2)

∂θbdf

La dipendenza dai parametri è contenuta esclusivamente nella fase (reale) del segnale, chemoltiplicata per il proprio complesso coniugato si cancella nell’integrale. Pertanto, a parteuna fase moltiplicativa globale che non contribuisce alla curvatura della varietà, si puòvalutare la metrica conterrà solo le derivate della fase

g (θ1, θ2)ab =

∫1

Sn (f)f−

73∂Ψ (f ; θ1, θ2)

∂θa

∂Ψ (f ; θ1, θ2)

∂θbdf

≡∫

df

f 7/3Sn (f)Ψ,aΨ,b

L’integrazione nello spazio dei parametri porta banalmente al volume covariante

V =

∫∫ θmax

θmin

dV =

∫∫ θmax

θmin

√det

[∫df

f 7/3Sn (f)Ψ,aΨ,b

]dθ1dθ2

Per il calcolo della metrica efficace occorre prima valutare le connessioni associate allametrica g (θ1, θ2)

Γabc (θ1, θ2) =1

2

[gad(∂gcd∂θb

+∂gdb∂θc− ∂gbc∂θd

)](B.2)

dove le derivate (con ovvia notazione) agiscono sulla fase producendo ad esempio

gab,c =

∫df

f 7/3Sn (f)(Ψ,acΨ,b + Ψ,aΨ,bc)

44

A questo punto possiamo valutare la metrica efficace (tenendo conto che gµν porta unaintegrazione con una δ di Dirac). Compariranno due nuove strutture del tipo

gµν∇d∇cxµ∇a∇bx

ν ≡ Cabcd

→∫df

1

Sn(f)

(∂dcs(f) + Γedc

∂s(f)

∂θe

)(∂abs(f) + Γmab

∂s(f)

∂θm

)=

∫df

1

Sn(f)(iΨ,cd −Ψ,cΨ,d + iΓedcΨ,e) (−iΨ,ab −Ψ,aΨ,b − iΓmabΨ,m)

e

gµρ∇exρ∇d∇cx

µ ≡ Iedc

→∫df

1

Sn(f)∂es(f)

(∂dcs(f) + Γmcd∂ms(f)

)=

∫df

1

Sn(f)(Ψ,eΨ,cd−iΨ,eΨ,cΨ,d + ΓmcdΨ,eΨ,m)

che si riducono ad integrali valutabili numericamente. In termini di queste la metricaefficace si scrive semplicemente nella forma

gab = gab −ε

ngcd[Cabcd − gefIedcIfab

](B.3)

Analogamente il fattore (3.39) che quantifica il guadagno computazionale si può scriverecome

Q = 1− ε

ngbagcd

[Cabcd − gefIfabIedc

](B.4)

dato che

V ′ =∫∫ θmax

θmin

√QdV (B.5)

45

Bibliografia

[GWexp] Informazioni aggiornate sui rivelatori attuali di onde gravitazionali pos-sono essere reperite nei siti dei relativi esperimenti: http://www.virgo.infn.it(VIRGO), http://www.ligo.caltech.edu (LIGO), http://www.geo600.uni-hannover.de (GEO600), http://tamago.mtk.nao.ac.jp (TAMA).

[Kay-I] Steven M. Kay, “Fundamentals of statistical signal processing - (VolumeI) Estimation Theory”, Upper Saddle River (New Jersey) : Prentice Hall,c1993-1998

[Kay-II] Steven M. Kay, “Fundamentals of statistical signal processing - (VolumeII) Detection Theory”, Upper Saddle River (New Jersey) : Prentice Hall,c1993-1998

[Amari] Shun-ichi Amari, Hiroshi Nagaoka, “Translations of mathematical mono-graphs - Volume 191 - Methods of information geometry”, OxfordUniversity Press

[Schutz] Bernard F. Schutz, “Geometrical methods of mathematical physics”,Cambridge University Press, 1980

[Schutz2] Bernard F.Schutz, “A first course in general relativity”, CambridgeUniversity Press, 1985

[Blanchet] Luc Blanchet, “Gravitational Radiation from Post-Newtonian Sources andInspiralling Compact Binaries”, Living Rev. Relativity 9, (2006), 4. URL(citato in data 02/05/2012): http://www.livingreviews.org/lrr-2006-4

46

[Blanchet et al.] Luc Blanchet et al., ”Gravitational waveforms from in-spiralling compact binaries to second post-Newtonianorder”,(Feb,1996),http://arxiv.org/abs/gr-qc/9602024

[Bonazzola et al.] S. Bonazzola, et al., “Gravitational Waves from Neutron Stars”, (May,1996), http://www.arxiv.org/abs/astro-ph/9605187

[Canitrot et al.] P. Canitrot et al., “Computational costs for coalescing binaries detectionin VIRGO using matched filters”,(May, 2000), Virgo internal note

47