CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008...

14
CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1→T2 Test Trasferimenti T2→T1 Esercizio di Fisica: Fase 1 (5-16 Maggio) attività organizzate centralmente Esercizio di Fisica: Fase 2 (19-25 Maggio) sottomissione caotica di jobs CSA08 Padova 10 Giugno 2008 Massimo Biasotto – Ezio Torassa

Transcript of CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008...

Page 1: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

CCRC08 Common Computing Readiness Challenge

CSA08 Computing Software and Analysis Challenge of 2008

● Test Trasferimenti T1→T2● Test Trasferimenti T2→T1● Esercizio di Fisica: Fase 1 (5-16 Maggio) attività organizzate centralmente● Esercizio di Fisica: Fase 2 (19-25 Maggio) sottomissione caotica di jobs● CSA08

Padova 10 Giugno 2008 Massimo Biasotto – Ezio Torassa

Page 2: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

Test Trasferimenti T1->T2 ● Test trasferimenti con Phedex nell’istanza di Produzione di grandi dataset (~ TB) al posto

degli usali tests nell’istanza di Debug con piccoli dataset campione (LoadTest)

● Rotazione ciclica di tutti i link T1->T2 commissionati– per Legnaro tutti i T1s eccetto ASGC

● Goal metrica:– Velocità del transferimento >= 100% degli obbiettivi definit in ‘CMS megatable’

(23.1 MB/s da CNAF , 22.9 MB/s da FNAL ecc.)

– latenza: almeno il 95% dei dataset trasferiti in 24 ore

– Metrica facilmente raggiunta da gran parte dei T2

Traffico del trasferimetno di pacchetti CNAF->LNL

Saturazione 1Gb/sIl collegamento verra’ presto portatato a 2 Gb/s

Page 3: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

Test trasferimenti T2->T1

● Trasferimento continuo a 5 MB/s (LoadTest nell’istanza di Debug)● Per ogni T2 sono testati solo i collegamenti con i T1 regionali

Phedex velocità di trasferimento da Legnaro a CNAF (ultime 2 settimane)

5 MB/s

Page 4: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

Esercizio di fisca: Fase 1

● Sono stati definiti 3 “fake physics groups” : ‘fake Higgs’ , ‘fake EWK’ , ‘fake QCD’ ogni T2 è stato associato ad un gruppo di fisica simulando

una attività realistica di fisica● Tutti i jobs sono stati sottomessi centralmente mediante 2

Crab Servers, uno a Legnaro (gruppi ‘fake Higgs’ and ‘fake EWK’ ) ed uno a Pisa (gruppo ‘fake QCD’)

● Legnaro è stato associato al gruppo ‘fake Higgs’ (utilizzato per lo stage-out remoto per gli output dei jobs)

● L’attività si è svolta dal 5 al 16 Maggio, sovrapponendosi con la produzione MonteCarlo.

● Sono stati sottomessi 4488 jobs a Legnaro , si sono avuti 106 jobs “aborted” a causa di un temporaneo problema di configurazione

Page 5: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

Esercizio di Fisica: Fase 1

● Statistics from Crab Analysis Server in Legnaro– all jobs submitted in ‘fake Higgs’ and ‘fake EWK’ groups, from May-5

to May-16

Legnaro Roma Bari

Page 6: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

Esercizio di Fisica: Fase 1

ASGC /tW_inclusive/CMSSW_1_6_7-CSA07-1195471738/RECO 1.1 TB

CERN /Njet_6j_180_250-alpgen/CMSSW_1_6_7-CSA07-1200561266/RECO 1.1 TB

CNAF /Njet_3j_20_80-alpgen/CMSSW_1_6_7-CSA07-1201165638/RECO 1.5 TB

CNAF /Njet_3j_80_140-alpgen/CMSSW_1_6_7-CSA07-1201165693/RECO 1.5 TB

FNAL /Njet_4j_20_100-alpgen/CMSSW_1_6_7-CSA07-1200559608/RECO 2.9 TB

FZK /WW_incl/CMSSW_1_6_7-CSA07-1196178448/RECO 2.2 TB

IN2P3 /Njet_2j_20_80-alpgen/CMSSW_1_6_7-CSA07-1199459756/RECO 1.0 TB

IN2P3 /Njet_2j_80_140-alpgen/CMSSW_1_6_7-CSA07-1200571375/RECO 1.3 TB

PIC /Njet_5j_100_160-alpgen/CMSSW_1_6_7-CSA07-1197355780/RECO 1.7 TB

RAL /Wenu/CMSSW_1_6_7-CSA07-1197047869/RECO 2.2 TB

(copiati a Legnaro)

Dataset usati per la CCRC08 (CMSSW_1_6_7)

Page 7: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

Esercizio di Fisica: Fase 2

● Sottomissione di jobs con stage-out in un Tier-2 differente da quello in cui risiedono i dataset.

Si simula la situazione del computing model in cui ogni utente utilizza un Tier-2 di riferimento per lo stage-out usando come input dataset distributi in diversi Tier-2.

Page 8: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

CSA08

Page 9: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

CSA08 Simulation Data for Analyses● Focus on 2 scenarios for 2008 data-taking:

– S43: 43×43 bunches, L~2×1030, 6g, 1pb-1, O(150M) events

– S156: 156×156 bunches, L~2×1031, 6g , 10pb-1, O(150M) events

● Conditions:– No pile-up

– Assume a complete detector

– Zero suppression (review whether HCAL requires no zero supp.)

● These samples will be produced using the CMSSW_2.0 release

Bunches * Ib Luminosity Occupancy /BX

Interaction Rate

1 x 1 18 1010 1027 Low 55 Hz

43 x 43 18 3 x 1010 3.8 x 1029 0.05 20 kHz

43 x 43 4 3 x 1010 1.7 x 1030 0.21 90 kHz

43 x 43 2 4 x 1010 6.1 x 1030 0.76 340 kHz

156 x 156 4 4 x 1010 1.1 x 1031 0.38 600 kHz

156 x 156 4 9 x 1010 5.6 x1031 1.9 3 MHz

156 x 156 2 9 x 1010 1.1 x1032 3.9 6 MHz

LHC start-up

Page 10: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

CSA08 Dataset

√s = 10 TeV allineamento 10 pb-1

Page 11: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

CSA08: dataset transfer● Transfer to Legnaro and analysis of the following datasets

– Located at T1 ASGC:

● /Upsilon/CSA08_CSA08_S156_v1 (116 GB)● /Wmunu/CSA08_CSA08_S156_v1 (140 GB)● /JPsi/CSA08_CSA08_S156_v1 (370 GB)● /Zmumu/CSA08_CSA08_S156_v1 (9 GB)

– Located at T1 RAL:

● /MuonPT11/CSA08_CSA08_S156_v1 (5.7 TB)

● The transfer of the large MuonPT11 sample took a very long time to complete, ~1 week: “tail transfer problem” (see next slide)

Page 12: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

CSA08: dataset transfer

● Most of the data transferred in short time, but missing files distributed in all blocks -> very few blocks completed and registered in DBS -> very few blocks available for analysis even if most data already transferred

● Problem seen in many transfers, Phedex developers investigating and improvements expected in near future (Phedex algorithm optimized to complete blocks)

Transfer rate of /MuonPT11 from RAL to Legnaro

Last 0.5 TB stuck in tape at RAL (manual intervention of RAL admins required)

Page 13: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

CSA08: analysis

● Analysis jobs submitted by Alessandra Fanfani

● Performance issue in skimming jobs of MuonPt11: very slow jobs due to inefficient I/O access to the local storage (running time ~5x than expected)

● Problem due to a combination of causes:

● skimming jobs using a dCache feature, “read-ahead” buffer, not used before (new in CMSSW 2.X?):

– default buffer value too large for skimming -> job reads ~10x more data than needed

– effect seen at several sites

– further tests with reduced value of read-ahead buffer seem to show a 3-4x performance improvement

Page 14: CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio.

CSA08: analysis● inefficient distribution of data among the disk-servers:

– most of data were written on the new storage system put in production at beginning of May (the only one with empty disks and all the others almost full)

● network bottlenecks inside the T2:– only 1Gb/s between new disk-server and most of the WNs

– known in advance, new network configuration was scheduled for next T2 downtime in June, when all machines will be moved to new rack infrastructure

– but already added new links to remove the worst bottleneck

1 Gb/s link between new storage and WNs saturated by skimming jobs