1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8...
-
Upload
cleto-poggi -
Category
Documents
-
view
215 -
download
1
Transcript of 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8...
1
LHCb Computing
Angelo Carbone, INFN-CNAF CSN1, 21/9/06
Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06
2
Aggiornamento TDR Tier-1
MSi2k*year 2007 2008Online Farm 0.00 0.90CERN T0 + T1 0.11 0.28Tier1s 0.52 1.31Tier2s 1.82 4.55Total 2.46 7.04
Disk (TB) 2007 2008Online Farm 0 0CERN T0 + T1 140 350Tier1s 410 1025Tier2s 4 9Total 554 1385
Tape (TB) 2007 2008Online FarmCERN T0 + T1 253 631Tier1s 344 860Tier2sTotal 596 1491
Primo anno di presa dati 2008 Statistica acquisita 2.5 volte
inferiore alla norma. 4.42 MSi2k·year CPU Tier-1s TDR 1.31 MSi2k·year Risorse al Tier-1 CNAF
1/6 delle risorse Tier-1s totali 0.1 MSi2k·year nel 2007 0.2 MSi2k·year nel 2008.
LHCb non prevede di richiedere un aumento di risorse Tier-1 nel 2007 e 2008.
3
Tier2 LHCb
I Tier-2 di LHCb servono per la produzione di eventi Monte Carlo.
Secondo il computing TDR la potenza di CPU a regime deve essere tale da permettere di produrre ogni anno una statistica di 4*108 eventi, uguale alla statistica raccolta in un anno di presa dati.
Eventi Monte Carlo generati ogni anno: 4*109 Eventi Monte Carlo che superano il trigger 1/10 La frazione della potenza di CPU nei Tier-2 corrispondente
all’Italia è del 15% A regime la potenza di CPU del Tier-2 di LHCb equivale a quella
impiegata da LHCb nel Tier-1 per ricostruzione, selezione ed analisi (vedi oltre).
4
Aggiornamento TDR Tier-2
È richiesta nel 2007 la produzione di 50*106 eventi Monte Carlo a varie luminosità, per studi del sistema di trigger e per il Physics Book.
Al CNAF è richiesta una potenza di CPU di 300 kSi2k*year Nel 2008 totale CPU Tier-2s previste dal TDR
7.65 MSi2k·year Fattore di riduzione 2.5 della statistica. Il tempo di calcolo per produrre un evento Monte Carlo risulta
maggiore del 50% rispetto al TDR Il totale della CPU necessaria è pertanto di 4.55 MSi2k·year
Al Tier-2 del CNAF la CPU necessaria è prevista essere del 15% 4.55 * 0.15 = 0.7 MSi2k·year
Al Tier-2 CNAF secondo TDR erano 1.15 MSi2k·year
>> La nostra richiesta per il 2007 e’ di acquisire 300 Ksi2k
5
DC06 Obiettivi
Obiettivo del DC06 è di collaudare il modello di calcolo dell’esperimento impiegando i servizi LCG.
In particolare ci si propone di collaudare il sistema nelle realizzazione delle seguenti fasi:
La simulazione degli eventi impiegando le risorse LCG disponibili Produzione di dati solo RAW
La ricostruzione degli eventi RAW presso i centri Tier-1 e al CERN con produzione degli eventi rDST.
La pre-selezione degli eventi rDST presso i centri Tier-1 e al CERN con produzione degli eventi DST.
Il trasferimento La distribuzione dei dati RAW dai siti di produzione MC al CERN La distribuzione dei dati RAW dal CERN a tutti i centri Tier-1. La distribuzione degli eventi DST da ciascun centro Tier-1 ad almeno
3 centri Tier-1 (compreso CERN) per la successiva fase di analisi. I centri Tier-1 di LHCb che partecipano al DC06 sono:
CERN, CNAF, NIKHEF, GridKa, PIC, IN2P3, RAL
6
DC06 Simulazione MC
CERN
CNAF PIC RAL IN2P3 GRIDKA NIKHEF
Tier-0
Tier-1
Tier-2
Produzione MC
Produzione MC
Produzione MC
DIGI (RAW)
LHCb usa tutte le risorse LCG disponibile. Quando i job di simulazione terminano i dati (RAW) vengono mandati al T0
Questa fase è stata collaudata con successo
7
DC06 Simulazione MC
CERN
CNAF
RAL Le variazioni osservabili sono
dovute alla allocazione dinamica delle risorse operata dagli scheduler che implementano l’algoritmo di fair-share
Circa 5000 job di simulazione attivi in media con picchi di 7000 job durante l’ultimo mese.
Tutti i siti
8
Simulazione per sito(da maggio 2006)
SiteEvents
(%) Events
LCG.CERN.ch 18.5926,773,75
2
LCG.CNAF.it 11.1816,105,76
0
LCG.RAL.uk 10.6015,264,77
5
LCG.LPC.fr 5.81 8,372,270
LCG.Manchester.uk 4.76 6,853,250
LCG.QMUL.uk 4.69 6,754,999
LCG.GRIDKA.de 4.10 5,910,519
LCG.USC.es 3.07 4,420,500
LCG.NIKHEF.nl 2.82 4,055,101
DIRAC.Lyon.fr 2.64 3,807,749
LCG.Barcelona.es 2.37 3,417,810
LCG.Liverpool.uk 2.27 3,269,500
Eventi prodotti in totale su ~100 siti 144M
9
Simulazione per nazione(da maggio 2006)
SiteEvents
(%) Events
UK 29.0041,777,30
0
CERN 19.7528,437,62
2
IT 15.5722,429,76
0
FR 10.2814,799,83
0
ES 6.9910,065,22
9
GR 5.24 7,552,039
DE 5.00 7,206,019
NL 2.89 4,156,350
PL 1.80 2,584,749
RU 1.60 2,305,570
BG 0.77 1,108,510
Numero totale di eventi MC prodotti 144M
10
Eventi prodotti vs attesi ai Tier-1
DC06 (da Maggio 2006)
Site Events (%) Events Expected(%)
CERN 18.59 26,773,752 14.4
CNAF 11.18 16,105,760 13.3
RAL 10.60 15,264,775 10.3
GRIDKA 4.10 5,910,519 19.9
NIKHEF 2.82 4,055,101 7.7
Lyon 2.94 4,313,180 11.3
PIC 1.12 1,718,864 2.6
11
DC06 Ricostruzione
CERN
CNAF PIC RAL IN2P3 GRIDKA NIKHEF
T0&T1
DIGI (RAW)
Per simulare la presa dati, i RAW vengono distribuiti dal T0 ai T1 Se il trasferimento è avvenuto con successo sul sito Tier-1 (copia su
tape e registrazione nel catalogo) automaticamente viene lanciato un job di ricostruzione sul sito Tier-1 corrispondente
L’ouput (rDST) è salvato sul sito Tier-1 pronto per essere processato dagli algoritimi di pre-selezione
Questa fase è stata collaudata con successo su 4 Tier-1 PIC , CERN, IN2P3, RAL CNAF, GRIDKA, NIKHEF hanno avuto dei problemi (dettagli in seguito)
T1
12
DC06 Ricostruzione: risultati
Site
Low lumi jobs
Low lumi
eventsHigh
lumi jobs
High lumi
eventsLumi+Hig
h
CERN 305 3.05M 288 2.88M 25%
CNAF - - 14 0.14M <1%
GRIDKA - - 28 0.30M 1%
IN2P3(DIRAC) 464 4.64M 251 2.51M 30%
NIKHEF/SARA - - - - -
PIC 178 1.78M 273 2.73M 19%
RAL 282 2.82M 281 2.81M 24%
TOTAL 12.3M 11.3M
GRIDKA: sovraccarico del gridFTP server, risolto da poco NIKHEF: problema di connessione tra data storage e WN (NIKHEF-SARA), si aspetta
un versione patched di dcache per aggirare il problema CNAF: problemi di stabilità di Castor-2, sono stati fatti molti progressi per rendere il
sistema il più stabile possibili, pronti per testarlo
13
DC06 Pre-selezione
CERN
CNAF PIC RAL IN2P3 GRIDKA NIKHEF
T0&T1
DST
Quando sul sito sono presenti sufficienti quantità di dati rDST, automaticamente sul sito Tier-1 viene inviato un job di pre-selezione
I dati rDST sono analizzati dove prodotti L’output (DST) delle preselezione viene distribuito ai T1 in modo da
avere su “disco” 3 copie Questa fase non è ancora stata realizzata, manca ancora un parte di
codice per effettuare la pre-selezione Tecnicamente è del tutto analoga a qualla di ricostruzione, non ci
aspettiamo particolari problemi
dati pre-selezionati DST distribuiti tra i vari T1T1
14
Trasferimento dati
La verifica delle capacità di trasferimento dei dati dai centri di produzione al CERN e successivamente dal CERN ai Tier-1 (per la ricostruzione e selezione) è un obiettivo del DC06.
Dati simulati: i file DIGI prodotti nei centri Tier-1 eTier-2 sono stati trasferiti direttamente al CERN dal job di produzione MC.
Reconstruzione e pre-selezione: per simulare il flusso dei dati reali i file DIGI sono stati distributi ai Tier-1 mediante FTS (gLite File Transfer Service)
15
Trasferimento dati RAW dai siti di
produzione al CERN I trasferimenti dei dati RAW dai siti di produzione al
CERN avviene ad un rate di ~8MB/s
16
Trasferimento dati RAW dai siti di
produzione al CERN
Se il CERN non è disponibile altri Tier-1 sono usati momentaneamente come Tier-0
17
Distribuzione dei dati RAW dal CERN
ai centri Tier-1 (ultimo mese)
Dal CERN
Dal CERN ai Tier-1
Il sistema di trasferimento dei RAW è stato collaudato ad un basso rate
Proveremo ad aumentare i rate
18
DC06 al CNAF Il sito Tier-1 ha contribuito alla produzione di dati
RAW con successo, secondo le richieste della collaborazione LHCb
Prodotto 11% di eventi MC La fase di ricostruzione ha presentato difficoltà
dovute a Castor-2 LHCb ha provato ad eseguire in due mesi alcuni job di
ricostruzione In simultanea non sono mai stati eseguiti più di 10 job In due mesi sono terminati con successo 14 job di
ricostruzione (<1% di tutti i job di ricostruzione terminati con successo da LHCb)
Ciascun job di ricostruzione richiede poche connessioni rfio_open() aperte per l’accesso ai dati (con basso I/O)
Il carico dovuto al trasferimento dei dati dal CERN (che può sovrapporsi con la ricostruzione) è comunque stato ridotto ad alcuni MB/s
L’attività di produzione MC (in continua attività in questa fase) non ha alcuna interferenza con la fase di ricostruzione non accedendo a Castor-2
19
DC06 al CNAF
Il CNAF, in collaborazione con i referenti degli esperimenti, ha individuato e risolti alcuni problemi
Numero di diskserver inadeguato Aggiunto un diskserver per LHCb
Tuning di alcuni parametri dello scheduler LSF di Castor-2
Instabilità del DB di Castor Bugs fixed dal supporto CERN Ottimizzazione del DB
Upgrade del software (client e server) all’ultima versione
L’ultimo intervento di upgrade del software è stato completato ieri
20
Conclusioni DC06 di LHCb è stato condotto con risultati soddisfacenti
negli ultimi 3 mesi I risultati DC06 sono stati presentati alla Collaborazone LHCb
Le varie fasi previste sono state attuate con successo (eccetto la pre-selezione)
Produzione MC Procede regolarmente da mesi Sono stati prodotti circa 144M di eventi da maggio
Ricostruzione Il meccanismo di trasferimento dei dati RAW dal CERN ai Tier-
1 e di esecuzione automatica di job di ricostruzione sta funzionando su 4 dei 7 siti Tier-1 di LHCb previsti
I siti mancanti hanno provveduto a proporre delle soluzioni, la cui efficacia deve essere verificata
Pre-selezione Tecnicamente molto simile alla ricostruzione, non ancora iniziata
DC06 continuerà nei prossimi mesi con lo scopo di completare la ricostruzione degli eventi MC prodotti e la pre-selezione
LHCb continuarà a colladuare le soluzioni proposte per rendere il sistema Castor2 al CNAF operativo