Post on 01-May-2015
CCRC08 Common Computing Readiness Challenge
CSA08 Computing Software and Analysis Challenge of 2008
● Test Trasferimenti T1→T2● Test Trasferimenti T2→T1● Esercizio di Fisica: Fase 1 (5-16 Maggio) attività organizzate centralmente● Esercizio di Fisica: Fase 2 (19-25 Maggio) sottomissione caotica di jobs● CSA08
Padova 10 Giugno 2008 Massimo Biasotto – Ezio Torassa
Test Trasferimenti T1->T2 ● Test trasferimenti con Phedex nell’istanza di Produzione di grandi dataset (~ TB) al posto
degli usali tests nell’istanza di Debug con piccoli dataset campione (LoadTest)
● Rotazione ciclica di tutti i link T1->T2 commissionati– per Legnaro tutti i T1s eccetto ASGC
● Goal metrica:– Velocità del transferimento >= 100% degli obbiettivi definit in ‘CMS megatable’
(23.1 MB/s da CNAF , 22.9 MB/s da FNAL ecc.)
– latenza: almeno il 95% dei dataset trasferiti in 24 ore
– Metrica facilmente raggiunta da gran parte dei T2
Traffico del trasferimetno di pacchetti CNAF->LNL
Saturazione 1Gb/sIl collegamento verra’ presto portatato a 2 Gb/s
Test trasferimenti T2->T1
● Trasferimento continuo a 5 MB/s (LoadTest nell’istanza di Debug)● Per ogni T2 sono testati solo i collegamenti con i T1 regionali
Phedex velocità di trasferimento da Legnaro a CNAF (ultime 2 settimane)
5 MB/s
Esercizio di fisca: Fase 1
● Sono stati definiti 3 “fake physics groups” : ‘fake Higgs’ , ‘fake EWK’ , ‘fake QCD’ ogni T2 è stato associato ad un gruppo di fisica simulando
una attività realistica di fisica● Tutti i jobs sono stati sottomessi centralmente mediante 2
Crab Servers, uno a Legnaro (gruppi ‘fake Higgs’ and ‘fake EWK’ ) ed uno a Pisa (gruppo ‘fake QCD’)
● Legnaro è stato associato al gruppo ‘fake Higgs’ (utilizzato per lo stage-out remoto per gli output dei jobs)
● L’attività si è svolta dal 5 al 16 Maggio, sovrapponendosi con la produzione MonteCarlo.
● Sono stati sottomessi 4488 jobs a Legnaro , si sono avuti 106 jobs “aborted” a causa di un temporaneo problema di configurazione
Esercizio di Fisica: Fase 1
● Statistics from Crab Analysis Server in Legnaro– all jobs submitted in ‘fake Higgs’ and ‘fake EWK’ groups, from May-5
to May-16
Legnaro Roma Bari
Esercizio di Fisica: Fase 1
ASGC /tW_inclusive/CMSSW_1_6_7-CSA07-1195471738/RECO 1.1 TB
CERN /Njet_6j_180_250-alpgen/CMSSW_1_6_7-CSA07-1200561266/RECO 1.1 TB
CNAF /Njet_3j_20_80-alpgen/CMSSW_1_6_7-CSA07-1201165638/RECO 1.5 TB
CNAF /Njet_3j_80_140-alpgen/CMSSW_1_6_7-CSA07-1201165693/RECO 1.5 TB
FNAL /Njet_4j_20_100-alpgen/CMSSW_1_6_7-CSA07-1200559608/RECO 2.9 TB
FZK /WW_incl/CMSSW_1_6_7-CSA07-1196178448/RECO 2.2 TB
IN2P3 /Njet_2j_20_80-alpgen/CMSSW_1_6_7-CSA07-1199459756/RECO 1.0 TB
IN2P3 /Njet_2j_80_140-alpgen/CMSSW_1_6_7-CSA07-1200571375/RECO 1.3 TB
PIC /Njet_5j_100_160-alpgen/CMSSW_1_6_7-CSA07-1197355780/RECO 1.7 TB
RAL /Wenu/CMSSW_1_6_7-CSA07-1197047869/RECO 2.2 TB
(copiati a Legnaro)
Dataset usati per la CCRC08 (CMSSW_1_6_7)
Esercizio di Fisica: Fase 2
● Sottomissione di jobs con stage-out in un Tier-2 differente da quello in cui risiedono i dataset.
Si simula la situazione del computing model in cui ogni utente utilizza un Tier-2 di riferimento per lo stage-out usando come input dataset distributi in diversi Tier-2.
CSA08
CSA08 Simulation Data for Analyses● Focus on 2 scenarios for 2008 data-taking:
– S43: 43×43 bunches, L~2×1030, 6g, 1pb-1, O(150M) events
– S156: 156×156 bunches, L~2×1031, 6g , 10pb-1, O(150M) events
● Conditions:– No pile-up
– Assume a complete detector
– Zero suppression (review whether HCAL requires no zero supp.)
● These samples will be produced using the CMSSW_2.0 release
Bunches * Ib Luminosity Occupancy /BX
Interaction Rate
1 x 1 18 1010 1027 Low 55 Hz
43 x 43 18 3 x 1010 3.8 x 1029 0.05 20 kHz
43 x 43 4 3 x 1010 1.7 x 1030 0.21 90 kHz
43 x 43 2 4 x 1010 6.1 x 1030 0.76 340 kHz
156 x 156 4 4 x 1010 1.1 x 1031 0.38 600 kHz
156 x 156 4 9 x 1010 5.6 x1031 1.9 3 MHz
156 x 156 2 9 x 1010 1.1 x1032 3.9 6 MHz
LHC start-up
CSA08 Dataset
√s = 10 TeV allineamento 10 pb-1
CSA08: dataset transfer● Transfer to Legnaro and analysis of the following datasets
– Located at T1 ASGC:
● /Upsilon/CSA08_CSA08_S156_v1 (116 GB)● /Wmunu/CSA08_CSA08_S156_v1 (140 GB)● /JPsi/CSA08_CSA08_S156_v1 (370 GB)● /Zmumu/CSA08_CSA08_S156_v1 (9 GB)
– Located at T1 RAL:
● /MuonPT11/CSA08_CSA08_S156_v1 (5.7 TB)
● The transfer of the large MuonPT11 sample took a very long time to complete, ~1 week: “tail transfer problem” (see next slide)
CSA08: dataset transfer
● Most of the data transferred in short time, but missing files distributed in all blocks -> very few blocks completed and registered in DBS -> very few blocks available for analysis even if most data already transferred
● Problem seen in many transfers, Phedex developers investigating and improvements expected in near future (Phedex algorithm optimized to complete blocks)
Transfer rate of /MuonPT11 from RAL to Legnaro
Last 0.5 TB stuck in tape at RAL (manual intervention of RAL admins required)
CSA08: analysis
● Analysis jobs submitted by Alessandra Fanfani
● Performance issue in skimming jobs of MuonPt11: very slow jobs due to inefficient I/O access to the local storage (running time ~5x than expected)
● Problem due to a combination of causes:
● skimming jobs using a dCache feature, “read-ahead” buffer, not used before (new in CMSSW 2.X?):
– default buffer value too large for skimming -> job reads ~10x more data than needed
– effect seen at several sites
– further tests with reduced value of read-ahead buffer seem to show a 3-4x performance improvement
CSA08: analysis● inefficient distribution of data among the disk-servers:
– most of data were written on the new storage system put in production at beginning of May (the only one with empty disks and all the others almost full)
● network bottlenecks inside the T2:– only 1Gb/s between new disk-server and most of the WNs
– known in advance, new network configuration was scheduled for next T2 downtime in June, when all machines will be moved to new rack infrastructure
– but already added new links to remove the worst bottleneck
1 Gb/s link between new storage and WNs saturated by skimming jobs