1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8...

20
1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06

Transcript of 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8...

Page 1: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

1

LHCb Computing

Angelo Carbone, INFN-CNAF CSN1, 21/9/06

Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06

Page 2: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

2

Aggiornamento TDR Tier-1

MSi2k*year 2007 2008Online Farm 0.00 0.90CERN T0 + T1 0.11 0.28Tier1s 0.52 1.31Tier2s 1.82 4.55Total 2.46 7.04

Disk (TB) 2007 2008Online Farm 0 0CERN T0 + T1 140 350Tier1s 410 1025Tier2s 4 9Total 554 1385

Tape (TB) 2007 2008Online FarmCERN T0 + T1 253 631Tier1s 344 860Tier2sTotal 596 1491

Primo anno di presa dati 2008 Statistica acquisita 2.5 volte

inferiore alla norma. 4.42 MSi2k·year CPU Tier-1s TDR 1.31 MSi2k·year Risorse al Tier-1 CNAF

1/6 delle risorse Tier-1s totali 0.1 MSi2k·year nel 2007 0.2 MSi2k·year nel 2008.

LHCb non prevede di richiedere un aumento di risorse Tier-1 nel 2007 e 2008.

Page 3: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

3

Tier2 LHCb

I Tier-2 di LHCb servono per la produzione di eventi Monte Carlo.

Secondo il computing TDR la potenza di CPU a regime deve essere tale da permettere di produrre ogni anno una statistica di 4*108 eventi, uguale alla statistica raccolta in un anno di presa dati.

Eventi Monte Carlo generati ogni anno: 4*109 Eventi Monte Carlo che superano il trigger 1/10 La frazione della potenza di CPU nei Tier-2 corrispondente

all’Italia è del 15% A regime la potenza di CPU del Tier-2 di LHCb equivale a quella

impiegata da LHCb nel Tier-1 per ricostruzione, selezione ed analisi (vedi oltre).

Page 4: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

4

Aggiornamento TDR Tier-2

È richiesta nel 2007 la produzione di 50*106 eventi Monte Carlo a varie luminosità, per studi del sistema di trigger e per il Physics Book.

Al CNAF è richiesta una potenza di CPU di 300 kSi2k*year Nel 2008 totale CPU Tier-2s previste dal TDR

7.65 MSi2k·year Fattore di riduzione 2.5 della statistica. Il tempo di calcolo per produrre un evento Monte Carlo risulta

maggiore del 50% rispetto al TDR Il totale della CPU necessaria è pertanto di 4.55 MSi2k·year

Al Tier-2 del CNAF la CPU necessaria è prevista essere del 15% 4.55 * 0.15 = 0.7 MSi2k·year

Al Tier-2 CNAF secondo TDR erano 1.15 MSi2k·year

>> La nostra richiesta per il 2007 e’ di acquisire 300 Ksi2k

Page 5: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

5

DC06 Obiettivi

Obiettivo del DC06 è di collaudare il modello di calcolo dell’esperimento impiegando i servizi LCG.

In particolare ci si propone di collaudare il sistema nelle realizzazione delle seguenti fasi:

La simulazione degli eventi impiegando le risorse LCG disponibili Produzione di dati solo RAW

La ricostruzione degli eventi RAW presso i centri Tier-1 e al CERN con produzione degli eventi rDST.

La pre-selezione degli eventi rDST presso i centri Tier-1 e al CERN con produzione degli eventi DST.

Il trasferimento La distribuzione dei dati RAW dai siti di produzione MC al CERN La distribuzione dei dati RAW dal CERN a tutti i centri Tier-1. La distribuzione degli eventi DST da ciascun centro Tier-1 ad almeno

3 centri Tier-1 (compreso CERN) per la successiva fase di analisi. I centri Tier-1 di LHCb che partecipano al DC06 sono:

CERN, CNAF, NIKHEF, GridKa, PIC, IN2P3, RAL

Page 6: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

6

DC06 Simulazione MC

CERN

CNAF PIC RAL IN2P3 GRIDKA NIKHEF

Tier-0

Tier-1

Tier-2

Produzione MC

Produzione MC

Produzione MC

DIGI (RAW)

LHCb usa tutte le risorse LCG disponibile. Quando i job di simulazione terminano i dati (RAW) vengono mandati al T0

Questa fase è stata collaudata con successo

Page 7: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

7

DC06 Simulazione MC

CERN

CNAF

RAL Le variazioni osservabili sono

dovute alla allocazione dinamica delle risorse operata dagli scheduler che implementano l’algoritmo di fair-share

Circa 5000 job di simulazione attivi in media con picchi di 7000 job durante l’ultimo mese.

Tutti i siti

Page 8: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

8

Simulazione per sito(da maggio 2006)

SiteEvents

(%) Events

LCG.CERN.ch 18.5926,773,75

2

LCG.CNAF.it 11.1816,105,76

0

LCG.RAL.uk 10.6015,264,77

5

LCG.LPC.fr 5.81 8,372,270

LCG.Manchester.uk 4.76 6,853,250

LCG.QMUL.uk 4.69 6,754,999

LCG.GRIDKA.de 4.10 5,910,519

LCG.USC.es 3.07 4,420,500

LCG.NIKHEF.nl 2.82 4,055,101

DIRAC.Lyon.fr 2.64 3,807,749

LCG.Barcelona.es 2.37 3,417,810

LCG.Liverpool.uk 2.27 3,269,500

Eventi prodotti in totale su ~100 siti 144M

Page 9: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

9

Simulazione per nazione(da maggio 2006)

SiteEvents

(%) Events

UK 29.0041,777,30

0

CERN 19.7528,437,62

2

IT 15.5722,429,76

0

FR 10.2814,799,83

0

ES 6.9910,065,22

9

GR 5.24 7,552,039

DE 5.00 7,206,019

NL 2.89 4,156,350

PL 1.80 2,584,749

RU 1.60 2,305,570

BG 0.77 1,108,510

Numero totale di eventi MC prodotti 144M

Page 10: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

10

Eventi prodotti vs attesi ai Tier-1

DC06 (da Maggio 2006)

Site Events (%) Events Expected(%)

CERN 18.59 26,773,752 14.4

CNAF 11.18 16,105,760 13.3

RAL 10.60 15,264,775 10.3

GRIDKA 4.10 5,910,519 19.9

NIKHEF 2.82 4,055,101 7.7

Lyon 2.94 4,313,180 11.3

PIC 1.12 1,718,864 2.6

Page 11: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

11

DC06 Ricostruzione

CERN

CNAF PIC RAL IN2P3 GRIDKA NIKHEF

T0&T1

DIGI (RAW)

Per simulare la presa dati, i RAW vengono distribuiti dal T0 ai T1 Se il trasferimento è avvenuto con successo sul sito Tier-1 (copia su

tape e registrazione nel catalogo) automaticamente viene lanciato un job di ricostruzione sul sito Tier-1 corrispondente

L’ouput (rDST) è salvato sul sito Tier-1 pronto per essere processato dagli algoritimi di pre-selezione

Questa fase è stata collaudata con successo su 4 Tier-1 PIC , CERN, IN2P3, RAL CNAF, GRIDKA, NIKHEF hanno avuto dei problemi (dettagli in seguito)

T1

Page 12: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

12

DC06 Ricostruzione: risultati

Site

Low lumi jobs

Low lumi

eventsHigh

lumi jobs

High lumi

eventsLumi+Hig

h

CERN 305 3.05M 288 2.88M 25%

CNAF - - 14 0.14M <1%

GRIDKA - - 28 0.30M 1%

IN2P3(DIRAC) 464 4.64M 251 2.51M 30%

NIKHEF/SARA - - - - -

PIC 178 1.78M 273 2.73M 19%

RAL 282 2.82M 281 2.81M 24%

TOTAL 12.3M 11.3M

GRIDKA: sovraccarico del gridFTP server, risolto da poco NIKHEF: problema di connessione tra data storage e WN (NIKHEF-SARA), si aspetta

un versione patched di dcache per aggirare il problema CNAF: problemi di stabilità di Castor-2, sono stati fatti molti progressi per rendere il

sistema il più stabile possibili, pronti per testarlo

Page 13: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

13

DC06 Pre-selezione

CERN

CNAF PIC RAL IN2P3 GRIDKA NIKHEF

T0&T1

DST

Quando sul sito sono presenti sufficienti quantità di dati rDST, automaticamente sul sito Tier-1 viene inviato un job di pre-selezione

I dati rDST sono analizzati dove prodotti L’output (DST) delle preselezione viene distribuito ai T1 in modo da

avere su “disco” 3 copie Questa fase non è ancora stata realizzata, manca ancora un parte di

codice per effettuare la pre-selezione Tecnicamente è del tutto analoga a qualla di ricostruzione, non ci

aspettiamo particolari problemi

dati pre-selezionati DST distribuiti tra i vari T1T1

Page 14: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

14

Trasferimento dati

La verifica delle capacità di trasferimento dei dati dai centri di produzione al CERN e successivamente dal CERN ai Tier-1 (per la ricostruzione e selezione) è un obiettivo del DC06.

Dati simulati: i file DIGI prodotti nei centri Tier-1 eTier-2 sono stati trasferiti direttamente al CERN dal job di produzione MC.

Reconstruzione e pre-selezione: per simulare il flusso dei dati reali i file DIGI sono stati distributi ai Tier-1 mediante FTS (gLite File Transfer Service)

Page 15: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

15

Trasferimento dati RAW dai siti di

produzione al CERN I trasferimenti dei dati RAW dai siti di produzione al

CERN avviene ad un rate di ~8MB/s

Page 16: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

16

Trasferimento dati RAW dai siti di

produzione al CERN

Se il CERN non è disponibile altri Tier-1 sono usati momentaneamente come Tier-0

Page 17: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

17

Distribuzione dei dati RAW dal CERN

ai centri Tier-1 (ultimo mese)

Dal CERN

Dal CERN ai Tier-1

Il sistema di trasferimento dei RAW è stato collaudato ad un basso rate

Proveremo ad aumentare i rate

Page 18: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

18

DC06 al CNAF Il sito Tier-1 ha contribuito alla produzione di dati

RAW con successo, secondo le richieste della collaborazione LHCb

Prodotto 11% di eventi MC La fase di ricostruzione ha presentato difficoltà

dovute a Castor-2 LHCb ha provato ad eseguire in due mesi alcuni job di

ricostruzione In simultanea non sono mai stati eseguiti più di 10 job In due mesi sono terminati con successo 14 job di

ricostruzione (<1% di tutti i job di ricostruzione terminati con successo da LHCb)

Ciascun job di ricostruzione richiede poche connessioni rfio_open() aperte per l’accesso ai dati (con basso I/O)

Il carico dovuto al trasferimento dei dati dal CERN (che può sovrapporsi con la ricostruzione) è comunque stato ridotto ad alcuni MB/s

L’attività di produzione MC (in continua attività in questa fase) non ha alcuna interferenza con la fase di ricostruzione non accedendo a Castor-2

Page 19: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

19

DC06 al CNAF

Il CNAF, in collaborazione con i referenti degli esperimenti, ha individuato e risolti alcuni problemi

Numero di diskserver inadeguato Aggiunto un diskserver per LHCb

Tuning di alcuni parametri dello scheduler LSF di Castor-2

Instabilità del DB di Castor Bugs fixed dal supporto CERN Ottimizzazione del DB

Upgrade del software (client e server) all’ultima versione

L’ultimo intervento di upgrade del software è stato completato ieri

Page 20: 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

20

Conclusioni DC06 di LHCb è stato condotto con risultati soddisfacenti

negli ultimi 3 mesi I risultati DC06 sono stati presentati alla Collaborazone LHCb

Le varie fasi previste sono state attuate con successo (eccetto la pre-selezione)

Produzione MC Procede regolarmente da mesi Sono stati prodotti circa 144M di eventi da maggio

Ricostruzione Il meccanismo di trasferimento dei dati RAW dal CERN ai Tier-

1 e di esecuzione automatica di job di ricostruzione sta funzionando su 4 dei 7 siti Tier-1 di LHCb previsti

I siti mancanti hanno provveduto a proporre delle soluzioni, la cui efficacia deve essere verificata

Pre-selezione Tecnicamente molto simile alla ricostruzione, non ancora iniziata

DC06 continuerà nei prossimi mesi con lo scopo di completare la ricostruzione degli eventi MC prodotti e la pre-selezione

LHCb continuarà a colladuare le soluzioni proposte per rendere il sistema Castor2 al CNAF operativo