Progettazione ed implementazione di un sistema di calcolo distribuito ibrido...

Progettazione ed implementazione di un sistema di calcolo distribuito ibrido multithread/multiprocesso

per HPC:applicazione all’imaging medico

Presentata da:Omar Schiaraturaschiarat@csr.unibo.ithttp://wwwfn.csr.unibo.it/

Relatore:Chiar.mo Prof. Renato Campanini

Correlatore:Dott. Matteo Roffilli

Omar Schiaratura schiarat@csr.unibo.it19/06/2003 1

OBBIETTIVI

Gli obbiettivi del lavoro svolto sono stati:

Implementazione HW di un sistema per il calcolo ad alte prestazioni con componentistica comune

Implementazione e studio di metodologie per l’ottimizzazione di programmi

Applicazione delle metodologie studiate ad un sistema computerizzato di diagnosi del tumore al seno (CAD)

PROBLEMATICHE

Sistemi reali come il CAD a cui sono state applicate le metodologieStudiate presentano caratteristiche quali:

- Dimensioni delle immagini da elaborare elevate

- Preprocessing dell’immagine computazionalmente oneroso

Questo comporta:

-Tempo di elaborazione non idoneo all’utilizzo tipico dell’applicazione

CLUSTER : Progettazione 1 - HW

Il cluster è stato implementato sul seguente HW:

- Nodi slave biprocessore

- Doppia rete 100 baseTX

- Nodo master biprocessore

- Nodi slave diskless

Fault-tolerance, responsività elevata

Comunicazioni veloci tra processori affiniOttimizzazioni SMP del codiceLibrerie di MP ottimizzate per SMP

Diminuzione dei guastiAmministrazione semplificata

Minor conflitto di pacchettiAmministrazione separata dai dati in transito

CLUSTER : Progettazione 2 - SW

I servizi di rete, tutti configurati sul nodo master comprendono:

- TFTP

- DHCP

- ClusterNFS server

Fornisce gli indirizzi IP delle 2 reti E servizio di risoluzione dei nomi

Fornisce il kernel per il sistema operativo degli slave

Fornisce il FS dei client

Il software di sviluppo e per il clustering comprende:

- Suite GCC

- MPICH

- openMosix

- Mosixtools

Tool di sviluppo e di debugging

Schedulazione statica e MP

SSI, migrazione dei processi e fault-tolerance

Gestione centralizzata e monitoring del cluster

CLUSTER : Progettazione 3 - schema

Caratteristica BEOWULF OpenMOSIX

FS distribuito NO SI

Migrazione processi in esecuzione

Solo con software aggiuntivo

Esecuzione BATCH su più nodi

Solo con software aggiuntivo

Limitatamente alle risorse di rete

Fault tollerance Solo con software aggiuntivo

Assegnazione statica delle risorse

SI, ogni porzione di programma viene eseguita su un processore diverso

Overhead Nelle trasmissioni Trasmissioni, system-call e migrazione

Controllo selettivo dei nodi SI In parte

Beowulf Vs openMosix

ClusterMPI

MPI(8 CPU)

43 4.94

Cluster + openMosix

IPC(8 CPU)

49 3.33

Speed-upTempo(sec.)OttimizzazioneArchitettura

Valutazioni latenza trasmissioni all’aumentare dei dati

0 200 400 600 800 1.000 1.200

MB trasmessi

OTTIMIZZAZIONI

Disponendo di un cluster di nodi SMP con processori a tecnologia SSEsi hanno a disposizione le seguenti ottimizzazioni:

- SWAR

Tipiche dei DSPUtilizzo di istruzioni SSE su processori x86

Processori con memoria condivisaUtilizzo di thread

Supportata da tutte le architetture HPCUtilizzo di librerie MPI

OTTIMIZZAZIONI : SSE 1

OPCODE DST,SRC

OTTIMIZZAZIONI : Processi Vs Thread

clone() clone()

THREAD

PROCESSI THREAD

Ottimizzazioni : Schema algoritmo

THREAD

OUTPUT

CPU2CPU1

Ottimizzazioni – schema flusso dati

Test e valutazioni finali – applicazione CAD

Architettura SSE SMP (Thread)

MPI (4+1 nodi)

#CPU Tempo (sec.)

Speed-up

Speed-up SSE

AMD Athlon 1 6509 1

AMD Athlon X 1 4905 1.33 1

AMD Athlon X 2 3540 1.84

AMD Athlon X X 2 2740 2.37 1.79

Cluster A X 4+1 2256 2.88

Cluster A X X 4+1 1850 3.52 2.65

Cluster B X X 8+1 1582 4.11

Cluster B X X X 8+1 1379 4.72 3.564.72

CONCLUSIONI E SVILUPPI FUTURI

In definitiva è stato realizzato:

- Un sistema HW a basso costo (€5000,00)

- Uno studio sull’ottimizzazione a più livelli dell’architettura implementata

Le tecnologie studiate durante il lavoro di tesi trovano la loro naturale evoluzione sia HW che SW:

- Embedded - DSP

- Porting su SSE di tutti i calcoli FP

- altre tecnologie SWAR

- Porting su SSE2

- Kernel

“A multi-level optimization architecture for a fast SVM classifier”

12-th Euromicro Conference on Parallel, Distributed and Network based Processing

sottomesso a:

A Coruña - Spain PDP2004 February, 11-13, 2004

Da questo lavoro di tesi ne è stato tratto il seguente articolo:

Progettazione ed implementazione di un sistema di calcolo distribuito ibrido multithread/multiprocesso

per HPC:applicazione all’imaging medico

Presentata da:Omar Schiaraturaschiarat@csr.unibo.ithttp://wwwfn.csr.unibo.it/

Relatore:Chiar.mo Prof. Renato Campanini

Correlatore:Dott. Matteo Roffilli

Progettazione ed implementazione di un sistema di calcolo distribuito ibrido...

Documents

Transcript of Progettazione ed implementazione di un sistema di calcolo distribuito ibrido...

Toric | Toriche...Toric | Toriche Ø 4 - 20 EM 3345 HPC 45 35 P M S K 63 4 1xD 38 Ø 4 - 20 EM 3445 HPC 45 35 P M S K 65 4 38 Ø 3 - 20 EM 3444 HPC 45 37 P M S K 67 4 0,5xD 40 Ø 4

CRESCO – Kick-off meeting LA II – 23 maggio 2006 CRESCO–Infrastruttura HPC– ENEA 03 aprile 2008 migliori@enea.it quintiliani@casaccia.enea.it Il Progetto.

GAMMA COMPRESSORI A PISTONI PISTON COMPRESSORS … · COMPRESSORI BICILINDRICI MONOSTADIO CON TRASMISSIONE A CINGHIA BELT DRIVEN SINGLE STAGE TWIN CYLINDER COMPRESSORS HPC 100C 2

Computing on Demand HPC as a Service - Welcome to Penguin Computing

HPC Scientific programming: tools and techniques · HPC Scientiﬁc programming: tools and techniques G. Amati P. Lanucara V. Ruggiero CINECA Roma - SCAI Department Roma, 9-11 April

Franco’BocciaFORUM_2014_05...(Computer Aided Engineeering) e dell' HPC (Supercalcolo), può, anzi dovrebbe, essere largamente impiegata per l'Innovazione spinta e ‘robusta’dei

Supercalcolo: mercato, sfide, trend e sistemi HPC

HPC per IA e BIG DATACLOUD HPC 112 nodi Intel BDW 2x18 cores, 2.3 GHz 128 GB RAM/CN Ethernet 25 Gbit Marconi 3188 nodi Intel SKL 2x24 cores, 2.1 GHz 192 GB RAM/CN Intel Omnipath MEUCCI

La programmazione orientata agli oggetti - HPC-Forge Autumn... · Orientata agli oggetti Orientata agli eventi Orientata agli aspetti... 2 Paradigmi di programmazione/2 ... La programmazione

Python for computational science - hpc-forge.cineca.it · molto interessante per lo sviluppo rapido di applicazioni, ... PHP): stando ad indicare ... • ambiente completamente open

76 INFRASTRUTTURA DI RETE A SUPPORTO DELLE FACILITY HPC DI CRESCO4 Sito Brindisi Sito Portici Il progetto TEDAT insiste principilamente su due siti ENEA:

Prestazioni computazionali di OpenFOAM sul sistema … · Prestazioni computazionali di OpenFOAM sul sistema HPC CRESCO di ENEA GRID NOTA TECNICA ENEA GRID/CRESCO: NEPTUNIUS PROJECT

Eurotech HPC day Innova-FVG 2015

G. Bracco – LAB-TOUR 2014 - Casaccia 18 Giugno 2014 LAB-TOUR 2014 Casaccia 18 giugno 2014 UTICT-HPC : Calcolo scientifico ad alte prestazioni IN ENEA G.Bracco.

07 Costrutti condizionali e iterativi - HPC-Forge · Permettono di ripetere un insieme di istruzioni finchè una certa condizione non si verifica. •Ciclidefinitioiterativi: Il numero

Benvenuti - Welcome to HPC-Forge | HPC-Forge · 2014-12-17 · Benvenuti Materiale del corso Paolo%D’Onorio%De%Meo% p.donoriodemeo@cineca.it

Riunione CRESCO 3-4-2007migliori@enea.it Infrastruttura HPC Cresco Analisi Preliminare.

Tecniche di ottimizzazione del codice - HPC-Forge · Ottimizzare un codice Perché ottimizzare? • Per sfruttare al massimo le risorse hardware a nostra disposizione • Per ottenere

Brochure - Sistemi Costruttivi, Sistemi per ponti di nuova ... - Ponti e... · mix design del calcestruzzo ad alte prestazioni (HPC – 69 MPa). Era richiesta un'eccellente ﬁnitura

Catalogo prodottiand...Phase 3 * MVU Energy e˜cient Il futuro della saldatura è qui La più avanzata attrezzatura per la saldatura multiprocesso sul mercato X8 MIG Welder le copre