CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008...

Post on 01-May-2015

214 views 0 download

Transcript of CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008...

CCRC08 Common Computing Readiness Challenge

CSA08 Computing Software and Analysis Challenge of 2008

● Test Trasferimenti T1→T2● Test Trasferimenti T2→T1● Esercizio di Fisica: Fase 1 (5-16 Maggio) attività organizzate centralmente● Esercizio di Fisica: Fase 2 (19-25 Maggio) sottomissione caotica di jobs● CSA08

Padova 10 Giugno 2008 Massimo Biasotto – Ezio Torassa

Test Trasferimenti T1->T2 ● Test trasferimenti con Phedex nell’istanza di Produzione di grandi dataset (~ TB) al posto

degli usali tests nell’istanza di Debug con piccoli dataset campione (LoadTest)

● Rotazione ciclica di tutti i link T1->T2 commissionati– per Legnaro tutti i T1s eccetto ASGC

● Goal metrica:– Velocità del transferimento >= 100% degli obbiettivi definit in ‘CMS megatable’

(23.1 MB/s da CNAF , 22.9 MB/s da FNAL ecc.)

– latenza: almeno il 95% dei dataset trasferiti in 24 ore

– Metrica facilmente raggiunta da gran parte dei T2

Traffico del trasferimetno di pacchetti CNAF->LNL

Saturazione 1Gb/sIl collegamento verra’ presto portatato a 2 Gb/s

Test trasferimenti T2->T1

● Trasferimento continuo a 5 MB/s (LoadTest nell’istanza di Debug)● Per ogni T2 sono testati solo i collegamenti con i T1 regionali

Phedex velocità di trasferimento da Legnaro a CNAF (ultime 2 settimane)

5 MB/s

Esercizio di fisca: Fase 1

● Sono stati definiti 3 “fake physics groups” : ‘fake Higgs’ , ‘fake EWK’ , ‘fake QCD’ ogni T2 è stato associato ad un gruppo di fisica simulando

una attività realistica di fisica● Tutti i jobs sono stati sottomessi centralmente mediante 2

Crab Servers, uno a Legnaro (gruppi ‘fake Higgs’ and ‘fake EWK’ ) ed uno a Pisa (gruppo ‘fake QCD’)

● Legnaro è stato associato al gruppo ‘fake Higgs’ (utilizzato per lo stage-out remoto per gli output dei jobs)

● L’attività si è svolta dal 5 al 16 Maggio, sovrapponendosi con la produzione MonteCarlo.

● Sono stati sottomessi 4488 jobs a Legnaro , si sono avuti 106 jobs “aborted” a causa di un temporaneo problema di configurazione

Esercizio di Fisica: Fase 1

● Statistics from Crab Analysis Server in Legnaro– all jobs submitted in ‘fake Higgs’ and ‘fake EWK’ groups, from May-5

to May-16

Legnaro Roma Bari

Esercizio di Fisica: Fase 1

ASGC /tW_inclusive/CMSSW_1_6_7-CSA07-1195471738/RECO 1.1 TB

CERN /Njet_6j_180_250-alpgen/CMSSW_1_6_7-CSA07-1200561266/RECO 1.1 TB

CNAF /Njet_3j_20_80-alpgen/CMSSW_1_6_7-CSA07-1201165638/RECO 1.5 TB

CNAF /Njet_3j_80_140-alpgen/CMSSW_1_6_7-CSA07-1201165693/RECO 1.5 TB

FNAL /Njet_4j_20_100-alpgen/CMSSW_1_6_7-CSA07-1200559608/RECO 2.9 TB

FZK /WW_incl/CMSSW_1_6_7-CSA07-1196178448/RECO 2.2 TB

IN2P3 /Njet_2j_20_80-alpgen/CMSSW_1_6_7-CSA07-1199459756/RECO 1.0 TB

IN2P3 /Njet_2j_80_140-alpgen/CMSSW_1_6_7-CSA07-1200571375/RECO 1.3 TB

PIC /Njet_5j_100_160-alpgen/CMSSW_1_6_7-CSA07-1197355780/RECO 1.7 TB

RAL /Wenu/CMSSW_1_6_7-CSA07-1197047869/RECO 2.2 TB

(copiati a Legnaro)

Dataset usati per la CCRC08 (CMSSW_1_6_7)

Esercizio di Fisica: Fase 2

● Sottomissione di jobs con stage-out in un Tier-2 differente da quello in cui risiedono i dataset.

Si simula la situazione del computing model in cui ogni utente utilizza un Tier-2 di riferimento per lo stage-out usando come input dataset distributi in diversi Tier-2.

CSA08

CSA08 Simulation Data for Analyses● Focus on 2 scenarios for 2008 data-taking:

– S43: 43×43 bunches, L~2×1030, 6g, 1pb-1, O(150M) events

– S156: 156×156 bunches, L~2×1031, 6g , 10pb-1, O(150M) events

● Conditions:– No pile-up

– Assume a complete detector

– Zero suppression (review whether HCAL requires no zero supp.)

● These samples will be produced using the CMSSW_2.0 release

Bunches * Ib Luminosity Occupancy /BX

Interaction Rate

1 x 1 18 1010 1027 Low 55 Hz

43 x 43 18 3 x 1010 3.8 x 1029 0.05 20 kHz

43 x 43 4 3 x 1010 1.7 x 1030 0.21 90 kHz

43 x 43 2 4 x 1010 6.1 x 1030 0.76 340 kHz

156 x 156 4 4 x 1010 1.1 x 1031 0.38 600 kHz

156 x 156 4 9 x 1010 5.6 x1031 1.9 3 MHz

156 x 156 2 9 x 1010 1.1 x1032 3.9 6 MHz

LHC start-up

CSA08 Dataset

√s = 10 TeV allineamento 10 pb-1

CSA08: dataset transfer● Transfer to Legnaro and analysis of the following datasets

– Located at T1 ASGC:

● /Upsilon/CSA08_CSA08_S156_v1 (116 GB)● /Wmunu/CSA08_CSA08_S156_v1 (140 GB)● /JPsi/CSA08_CSA08_S156_v1 (370 GB)● /Zmumu/CSA08_CSA08_S156_v1 (9 GB)

– Located at T1 RAL:

● /MuonPT11/CSA08_CSA08_S156_v1 (5.7 TB)

● The transfer of the large MuonPT11 sample took a very long time to complete, ~1 week: “tail transfer problem” (see next slide)

CSA08: dataset transfer

● Most of the data transferred in short time, but missing files distributed in all blocks -> very few blocks completed and registered in DBS -> very few blocks available for analysis even if most data already transferred

● Problem seen in many transfers, Phedex developers investigating and improvements expected in near future (Phedex algorithm optimized to complete blocks)

Transfer rate of /MuonPT11 from RAL to Legnaro

Last 0.5 TB stuck in tape at RAL (manual intervention of RAL admins required)

CSA08: analysis

● Analysis jobs submitted by Alessandra Fanfani

● Performance issue in skimming jobs of MuonPt11: very slow jobs due to inefficient I/O access to the local storage (running time ~5x than expected)

● Problem due to a combination of causes:

● skimming jobs using a dCache feature, “read-ahead” buffer, not used before (new in CMSSW 2.X?):

– default buffer value too large for skimming -> job reads ~10x more data than needed

– effect seen at several sites

– further tests with reduced value of read-ahead buffer seem to show a 3-4x performance improvement

CSA08: analysis● inefficient distribution of data among the disk-servers:

– most of data were written on the new storage system put in production at beginning of May (the only one with empty disks and all the others almost full)

● network bottlenecks inside the T2:– only 1Gb/s between new disk-server and most of the WNs

– known in advance, new network configuration was scheduled for next T2 downtime in June, when all machines will be moved to new rack infrastructure

– but already added new links to remove the worst bottleneck

1 Gb/s link between new storage and WNs saturated by skimming jobs