Federico Ruggieri Riunione CSN1 PISA 22 Giugno 2004 Il Progetto TIER1 Status Update.

Post on 03-May-2015

215 views 3 download

Transcript of Federico Ruggieri Riunione CSN1 PISA 22 Giugno 2004 Il Progetto TIER1 Status Update.

Federico Ruggieri

Riunione CSN1PISA 22 Giugno 2004

Il Progetto TIER1 Status Update

Indice

• Infrastrutture• Risorse• DC esperimenti LHC e non• Previsione 2005• Novità nell’immediato.

Infrastrutture• Nuova Sala Macchine da 1000 mq.• Gruppo Elettrogeno 1250 KVA ed UPS 800 KVA.• Gruppo Frigorifero 550 KW e Sistema di

Condizionamento con: Unità di Trattamento Aria (Temperatura + Umidità) da 110 KW e Unità Locali.

• Sistema di alimentazione via Blindo-sbarre con corrente trifase ed alimentatori/sezionatori nei Racks.

• Sistema rivelazione incendi e spegnimento (gas FM200).• Trasmissione Dati completata con cablatura interna

(UTP e FO) ed esterna (FO Mono e Multi-modo); in corso di completamento l’attestazione GARR (è realizzata temporaneamente con delle FO fra le due sale macchine).

• 60 Racks: 35 con power switch a controllo remoto dell’accensione e spegnimento.

• Consolle remota con apparati di switch KVM (tastiera, Video, Mouse) analogici e digitali (via IP) in uso.

Infrastrutture da completare

• Sistema di allarmistica integrato per i sistemi infrastrutturali e per i sistemi di calcolo.

• Sistema di controllo comprendente un insieme di telecamere ad accesso remoto.

• Sono previste per il futuro ulteriori interventi infrastrutturali come: – duplicazione del sistem UPS per avere ridondanza

completa anche in caso di manutenzione; – eventuale acquisto di un secondo gruppo frigo per

avere totale ridondanza anche sull’impianto di raffrescamento.

Personale• Personale di ruolo (5):

– Pietro Matteuzzi: Responsabile Servizi di Calcolo del CNAF e Tier1

– Luca Dell’Agnello: Responsabile servizi LCG e Sicurezza.– Andrea Chierici: Responsabile LCG Operations, Site

Manager GRID.– Stefano Zani: Storage e Rete– Alessandro Italiano: Sistemistica ed Installazione, Robotica

e Libreria, VideoConferenze, Site Manager GRID.• Personale a Contratto (7):

– Daniele Bonacorsi (A.R.) Supporto SW Esp. (CMS)– Donato De Girolamo (Art. 15) Sistemistica, Allarmistica e

Sicurezze.– Giuseppe Lo Re (A.R.) Supporto SW Esp. (ALICE)/CASTOR– Barbara Martelli (Borsa) Sviluppo SW, DB e GRID (RLS).– Guido Negri (A.R.) Supporto SW Esp. (ATLAS)– Pier Paolo Ricci: (Art.23) CASTOR, Storage, Robotica.– Felice Rosso: (Art. 15) Monitoring, Sistemistica ed

installazione.

Personale (2)

• Altro personale su attività collegate:– Massimo Donatelli: (Art.15) Sistemistica,

AFS, NFS, KERBEROS.

• Nuovo Personale– 3 Assegni di Ricerca (2 già espletati).– 2 Posti Tecnologo (uno in espletamento).– 1 Posto di Tecnico (concorso in

espletamento).– 1 AR LCG per supporto CASTOR al CERN.

Personale (3)

• Supporto operazioni sistemistiche durante orario di lavoro (9-17).

• Da fine Giugno:– Supporto orario esteso (8-20)– Reperibilità per problemi gravi (20-8 +

sabato e festivi).

• Sono necessarie almeno 8 persone per turnare senza problemi (ferie, malattie, permessi, ecc.).

Il Tier1 multiutenza• Viene assegnato in maniera statica

solo un massimo del 50% delle risorse.• L’altro 50% è acceduto dinamicamente

sulla base delle richieste in coda con opportune priorità.

• GRID permette un accesso trasparente ad entrambe le tipologie di risorse.

• Si sta studiando un sistema di scheduling che permetta di evitare anche l’allocazione statica del primo 50%.

Risorse HW attualiTipo Descrizione Capacità

Farm 320 biprocessori 0.8 - 3Ghz 608 KSI2K

+55 Babar+48 CDF+30 LHCb

Disco Dischi FC, IDE, SCSI, NAS 82 TB Raw RAID5 +35 TB

NastriRobot L180 STK 18 TB / 36 TB (comp.)

118/236 TBRobot L5500 STK

100 TB / 200 TB (comp.)

Rete

14 Switch periferici (Rack) 48 FE UTP + 2 GE FO672 FE UTP 48 GE UTP 132 GE FO

2 Switch Periferici 24 GE UTP + 4 GE FO

2 Core Switch 96 GE FO

Farm Babar

Farm CDF PoP GARR-G

Statistiche PBS 1/3-10/6Group #jobs days Percent

ALICE 30361 8696.21 37.03ATLAS 858 87.8 0.37CMS 9529 555.71 2.37LHCb 20773 9002.56 38.34CDF 1346 48.79 0.21AMS 2682 2663.82 11.34ARGO 18 0.05 0MAGIC 3193 2396.41 10.21VIRGO 24 0 0dteam 44615 24.69 0.112688 4783 5.3 0.02tier1 1 0 0TOTAL 118183 23481.34 100

ALICE

CNAF

LCGCNA

F

Ultima settimana

Ultimi 12 mesi

CMS

Nuove Risorse 2004

• CPU: 700 KSI2K (350 macchine biproc. Pentium Xeon 3GHz, 4 GB memoria). In consegna 21/6/04.

• Disco: 150 TB tecnologia FC/ATA (IBM FAStT900): in consegna 25/6/04.

• Core Switch di Rete da 128 porte Gb + 2 porte 10Gb: Gara in approvazione alla GE.

Le Capacità Richieste

• Per ogni Tier 1 Multi-esperimento :

– Mass Storage: 1 - 3 PB/anno -> 8-20%– disk: 1.5 PB -> 10 %– CPU: 10 MSPECint2000 -> 10%

• Networking Tier 0 (CERN) --> Tier 1: 2-10 Gbps -> 10-50%

Piano 2005 (Risorse)

• CPU: 0.7-1.5 MSPECint2000 (+CDF+BaBar?)– 350-700 Dual CPU

• Disco: 300-500 TB (+ CDF+BaBar ?)– 700-1200 Dischi da 400 GB

• Nastri: 500 TB– 2500 nastri da 200 GB– Espansione dell’attuale libreria da 2000 a

5000 cassette già prevista nella gara di acquisto.

Piano 2004-2005 (Attività)

• Completamento della configurazione della FARM secondo un meccanismo di scheduling “fair share” combinato con Priorità e riserva di risorse.

• Portale con servizi:– informativo sulle risorse in uso;– Ticket system per tracciamento e gestione

problemi– Supporto agli esperimenti.

Performance Linpack

Rpeak Rmax/ PosizioneN Type Clock (GHz) Flop/Cycle (Gflops) Rpeak Rmax TOP500320 Xeon 2.4 2 1536 51.00% 783 170700 Xeon 3 2 4200 51.00% 2142 341020 5736 2925 20

CPU

Le prestazioni quotate non sono misurate ma calcolate sulla base di sistemi equivalenti e

consideranol’uso di interconnessioni a bassa latenza (es Myrinet).

Che posizioni avrebbero le attuali Farm nella classifica dei TOP500

Test FARM per HPC• 16-32 biprocessori Xeon @3 GHz con:

– 4 GB memoria– 2 dischi 80-120 GB– 2 Gigabit Ethernet on-board– Interfaccia InfiniBand 4X (10Gbps) su PCI-X 64 bit @ 133

MHz

• Switch InfiniBand 16-32 porte.• Software MPI ottimizzato (SCALI ?)• Sistema Operativo Linux (RH ?).• Costo previsto “chiavi in mano”: circa 50 K€

(fondi Tier1).• Sperimentazioni di applicazioni “Teoriche” e di

sistemi di server per Analisi dati con File System distribuito (tipo Lustre).

Prestazioni di InfiniBand

489 MB/s con Dual Link

Scali MPI Connect Features

Message latency is measured as half the round-trip delay (ping-pong-half) of a zero length MPI message.

Interconnect Latency Sustained Bandwidth

Myrinet® <9 µsec 480 MByte/sec

GbE with TCP/IP <50 µsec

222 MByte/sec

GbE with DET <27 µsec

226 MByte/sec

SCI <4 µsec 385 MByte/sec

InfiniBand® <6.4 µsec

768 MByte/sec

Bandwidth InfiniBand

Latenza Infiniband

Prodotti InfiniBand

Switch 96 Porte

Scheda PCI-X 2x10Gbps

www.Mellanox.com

PCI Express

Conclusioni

• Il Centro Regionale Tier1 al CNAF:– sta partecipando attivamente ai Data

Challenge degli esperimenti LHC;– Supporta l’attività di altri esperimenti:

CDF, BaBar, VIRGO, AMS, MAGIC (ARGO).

• Una piccola farm di 16-32 nodi servirà a sperimentare le soluzioni per le farm di analisi.