Grigle: tecnologie ed opportunita’ per la medicinaInternet, networks GRID : l’idea 6 [Conferenza...
Transcript of Grigle: tecnologie ed opportunita’ per la medicinaInternet, networks GRID : l’idea 6 [Conferenza...
Grigle: tecnologie ed opportunita’per la medicina
Mario Reale, [email protected]
GARR GRID
EGEE SA2
[Conferenza IRCCS-Roma-12 Dicembre 2007]
2 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Contenuti
�1.”La GRID”: definizioni e concetti introduttivi
�2.Le Grid o Griglie
– Health Grids• Service Oriented Architecture / Web Services
�3.EGEE - il progetto e la struttura
�4.gLite: il middleware di EGEE– Componenti di gLite di maggior interesse per la medicina
�5.Progetti di medicina che usano la GRID:– qualche esempio
�6.Conclusioni
1. “The Grid”
3 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
La Grid: una definizione
�The Grid - un’ idea:Un insieme di risorse distribuite
(calcolo, storage, dati, documenti ) appartenenti a domini amministrativi diversi(non soggette a controllo centralizzato) cheattraverso l’utilizzo di protocolli ed interfacce aperti, standard, forniscono a gruppi diutenti con esigenze comuni (organizzati in Virtual Organizations) funzionalita’ e qualita’di servizio specifiche per lo svolgimento delleloro attivita’.
�Una check list di 3 punti (I.Foster): La Grid e’ un sistema che:
–Coordina risorse che non sono soggette a controllo centralizzato…
– ..utilizzando protocolli ed interfacce standard aperti e general-purpose...
–…per fornire una qualita’ di serviziocomplessivamente elevata• L’utilita’ del sistema complessivo e’ maggioredella somma delle utilita’ delle singole componenti
4 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
La Grid: l’idea
�Una rete informatica distribuita, accessibile daovunque, user-friendly, che consenta l’accessoa enormi risorse di calcolo,storage,dati
�Onnipresente e “plug & play” come e’ oggi la rete elettrica (da cui il nome Grid)
�Che esponga agli utenti interfacce semplici e facili da usare, che nascondono l’eterogeneita’e la complessita’ delle strutture sottostanti
�Uno strumento per collaborare e avvicinare la soluzione dei problemi alle persone e le persone tra di loro - nel raggiungimento di unoscopo – integrando funzionalmente risorseeterogenee
�Se la rete tra risorse e dominii diversidiventasse infinitamente veloce non saremmo piu’ capaci di distinguere i link interni sul nostro PC da quelli esterni, checi connettono a risorse distribuite nelmondo. Avremmo cosi’ accesso ad unastruttura globale, distribuita, universale dipotenza di calcolo, dati, risorse distorage.
5 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
G
R
I
D
M
I
D
D
L
E
W
A
R
E
Visualising
Workstation
Mobile Access
Supercomputer, PC-Cluster
Data-storage, Sensors, Experiments
Internet, networks
GRID : l’idea
6 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
La GRID fondamento dell’e-Science
La Grid: centri di processamento deidati interconnessi dalla rete e componenti middleware come collante tra risorse.
I ricercatori svolgono le loro attivita’indipendentemente dalla lorolocazione geografica, interagisconocon i colleghi, accedono ai dati e licondividono.
Gli strumenti scientifici e gliesperimenti forniscono un enormequantita’ di dati.
7 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
La Grid: due caratteristiche importanti
�No SPF–Nell’architettura di Grid non puo’ esistere un punto di criticita’/singolarita’ (Single Point of Failure)• La Grid e’ una struttura intrinsecamentedistribuita
�Single Sign-on–Ci si collega alla Grid con un unico processodi log in, una volta che si possiedono le credenziali necessarie.• Una grande varieta’ di risorse diventa accessibile
� Virtual Organization (VO): comunita’ di utenti con le stessefinalita’/esigenze che mettono in comune risorse Grid
� Middleware (m/w) : strato software di implementazione dellaGRID – sopra il sistema operativo e sotto le applicazioni
� Certification Authority (CA): Autorita’ che certifica l’identita’ degliutenti rilasciando certificati elettronici
� Computing Element (CE): una coda batch accessibile attraversola Grid
� Storage Element (SE): un insieme di risorse di storage accessibiletramite la Grid (puo’ essere basato su Local Filesystem, Disco o suMass Storage)
� Worker Node (WN): una macchina appartenente ad un CE dove effettivamente avviene l’esecuzione del job
� Virtual Organization Management System (VOMS): sistema diautenticazione ed autorizzazione degli utenti sulle risorse di Grid. Rilascia proxy files per l’autorizzazione dell’utente sulle risorse
� Proxy: certificato di durata limitata contenente le credenziali dell’utente,utilizzato per l’autorizzazione sulle risorse.
Qualche termine importante
8 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Il ruolo delle Virtual Organizations
ComputeCenter
ComputeCenter
VO
Service
slide based on presentation given by Carl Kesselman at GGF Summer School 2004
2. Le Grid (Griglie)
9 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Le Grids (Le Griglie)
�Implementazioni dell’idea della “Grid”
�Sono infrastrutture:– CPU, Storage, Dati, Rete, Centri di Calcolo
�Sono organizzazioni / progetti ICT
�Sono distribuzioni di middleware e software– Implementano funzionalita’ per gli utenti
• Computation Grid / Data Grid / Utility Grids
�Sono ormai davvero numerose:– Diversita’ di comunita’ di utenti e scopi
• Applicazioni di riferimento
– Diversita’ di middleware
– Diversita’ di distribuzione geografica
10 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Funzionalita’ delle Grid
Consentire un uso ottimale e sicuro
delle sue risorse
Fornire agli utenti e a se stessauna descrizione delle sue
risorse costitutive
Autorizzare gli utenti su risorsedi dominii amministrativi diversi
Autenticare gli utenti
Gestire i job degli utenticome gli utenti preferiscono
Consetire livelli differenziati
di delega sull utilizzo delle risorse-Fa tutto l’ utente-Fa tutto la GRID
Fornire agli utenti e a se stessaInformazioni sull’ utilizzo
delle sue risorse
Attribuire un ruolo
agli utenti per determinare il livellodi autorizzazione sulle risorse
Gestire i dati degli utenticome gli utenti preferiscono
Workload ManagementEsecuzione e management dei jobs
sottomissione / esecuzione monitor / restituzione dell output
cancellazione
Data Management
trasferimento di files prodotti, registrazione su cataloghi distribuiti
replicazione
Information SystemsFornire informazioni sulla struttura della Grid
agli utenti e alla Grid stessaFornire informazioni sull’utilizzo delle risorse
di Gridper consentire un uso ottimale
delle risorse stesse Per consentire un budget model
accounting
AAA
Authentication/Authorization/Accounting
Autenticazione:
sapere chi vuole usare una data risorsaAutorizzazione:
sapere che cosa quell’utente e’ autorizzato a fareSicurezza:
ridurre la vulnerabilita’ globale del sistemaNon-ripudiabilita’: sapere chi ha fatto cosa
11 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Uso di una GRID e del suo middleware
� Quando si usa un PC o unaworkstation:
– Login usando username & password (“Authentication”)
– Si dispone di certi diritti(“Authorisation”)
– Si eseguono programmio jobs
– Si gesticono files: Si creano, leggono o scrivono, si listanodirectories
� Le varie componenti sonocollegate da un bus
� Si sta usando il sistemaoperativo
� C’e’ un solo dominioamministrativo
� Quando si usa la GRID:
– Si effettua la log-in utilizzando credenzialidigitali – single sign-on (“Authentication”)
– Si dispone di certi diritti(“Authorisation”)
– Si eseguono programmio jobs
– Si gestiscono files…
� Componenti e servizi sonocollegati tramite internet
� Si sta usando il GRID Middleware
� Ci sono tanti dominiamministrativi differenti
12 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Open Grid Forum (OGF)
�OGF : Open Grid ForumOrganizzazione mondiale che si occupa delladefinizione e promozione di standard comuni per le Grid (www.ogf.org)
Produce 4 tipi di documenti:
- Informativi
- Sperimentali
- Community Practice
- Raccomandazioni
13 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
La rete globale
14 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
� Enabling Grids for E-sciencE (worldwide) : EGEE� Open Science Grid ( USA) OSG� Nordic Data Grid Facility (Scandinavia) NDGF� Nordugrid (Scandinavia) NORDUGRID� NAREGI (Japan) NAREGI� TeraGrid (USA) TeraGrid� PRAGMA (Pacific Rim) PRAGMA� Distributed European Infrastructure for Supercomputing Applications
(Europe) DEISA� National Grid Service (UK) NGS , D-GRID (D), Grid-5000 (F), INFNGRID(I)� Australian Partnership for Advanced Computing (Australia) APAC� China National GRID CNG� Progetti di collaborazione tra EU e paesei terzi:
– EuChinaGRID– EELA– EuMedGRID– EuIndiaGRID
� Infrastruttura Europea permanente : EGI http://www.eu-egi.org• FP 7
I maggiori progetti GRID al mondoNordugrid
NDGF
15 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Un Riassunto : cosa sono le GRID
� Le GRID permettono Virtual Computing tra dominiiamministrativi diversi
– Le risorse condividonoautorizzazione e autenticazione
– Si accede alle risorseattraverso le lorointerfaccie astratte
� Motivazioni per le GRID:
– Collaborazioni di ricerca, diagnostica, ingegneria, servizi publici..
– Uso delle risorse e lorocondivisione
Network
infrastructure
& Resource
centres
Opera
tions, S
upport
and
train
ing
Collaboration
Grid
16 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Health Grids
�Infrastrutture Grid integrate a servizispecialistici – Integrano i dati sul paziente alle tecnologiebiomediche emergenti ed a nuovi protocolli• Porteranno ad una medicina personalizzata
– Piu’ vicina a pazienti e a medici
– Piu’ accessibile
– Piu’ capace, veloce, distribuita
– In fase di grande sviluppo nell’ UE ed in USA
–Si basano generalmente su architettureservice oriented (SOA) basate sui Web Services
17 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Service Oriented Architecture
�Service Oriented Architecture (SOA) e’ una nuova architettura per lo sviluppo di applicazioni distribuite ( loosely coupled )
�In effetti SOA e’ un insieme di diversi serviziin rete
�Questi servizi comunicano tra loro
�La comunicaizone implica – scambio di dati
– coordinamento tra i servizi
�La SOA si basa sul paradigma dei Web Services
18 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Il paradigma dei Web Services
� Un Web Service e’ un unita’ di codice gestito che puo’ essere chiamato da remoto usando HTTP, puo’ essere cioe’ attivato utilizzando richiesteHTTP
� I Web Services sono publicati, trovati ed utilizzati attraverso il web.
� Sono– Componenti di applicazioni– Che comunicano utilizzando protocolli aperti– Sono autodescrittivi e self-contained– Si localizzano utilizzando UDDI– Si basano su XML
� La piattaforma di base per I Web Services e’ HTML e XML.
� Elementi costitutivi sono– SOAP (Simple Object Access Protocol) – UDDI (Universal Description, Discovery and Integration) – WSDL (Web Services Description Language)
19 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Vantaggi dei Web Services
�Pubblicare le funzionalita’ in rete�Connettere applicazioni diverse e differenziate�Utilizzo di protocolli standard�Basso costo del processo di comunicazione�Supporto per altri metodi di comunicazione
– (p.esFTP, non solo SOAP su HTTP)
�Applicazioni Loosely Coupled�I Web Services supportano tecnologie diverse�I Web Services sono autodescrittivi
– Facile svilupparci applicazioni sopra
�Automatic Discovery– Facile per I clients trovare I servizi di cui hanno bisogno
�Business Opportunity– Facile connettersi con I clienti di un business potenziale
3. EGEEEnabling Grids for E-SciencE
20 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
EGEE: Enabling Grids for E-SciencE
�EGEE e’ il maggior progetto Europeo di Grid
(esistono molti progetti ad esso correlati)
(EU FP6/IST)
�Attualmente in fase 2 (EGEE-II: 2006-2008)
– 91 partners
– 32 paesi
– Budget: 52 Milioni di
Euro totali (37 dall’ UE)
– Infrastruttura
di circa 50 000 CPUs
- http://www.eu-egee.org Distribuzione mondiale di EGEE e dei progetti correlati
Obiettivi del progetto:
Gestire una infrastruttura di larga scala, diqualità elevata, da sistema di produzione, per la e-Science
Attirare nuove risorse ed utenti sia dalmondo scientifico che da quellodell’industria
Migliorare e gestire il middleware gLite
Promuovere l’inter-operabilità con gli altriprogetti di Grid esistenti
Disseminare il know-how ed educare alla Grid studenti e ricercatori
Parner EGEE-II in USA:• Univ. Chicago
• Univ. South. California
• Univ. Wisconsin
• RENCI
21 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Le applicazioni & gli utenti diEGEE
� Applicazioni ed utenti da numerosi settori:
– Astrofisica
– Chimica Computazionale
– Scienze della Terra
– Simulazione Finanziaria
– Fisica della Fusione Nucleare
– Geofisica
– Fisica delle Alte Energie (HEP)
– Scienze della vita/Biologia
– Multimedia
– Scienza dei Materiali
– …
Libro degli abstracts: http://doc.cern.ch//archive/electronic/egee/tr/egee-tr-2006-005.pdf
EGEE: La Struttura�Joint Research Activities (JRA)
– JRA-1: sviluppo del middleware di EGEE: gLite
– gLite: attualmente in versione 3.1 in rilascio • download da http://cern.ch/glite• OS: Scientific Linux CERN 4 e Linux compatibili(RHAS,Centos,..)
�Network Activities (NA) �Service Activity (SA)
– SA-2: network
22 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Progetti UE legati ad EGEE
OMII
Health
ICEAGE
BIOINFOGRID
BELIEF
ETICS
eIRGSP
ISSeG
EUMedGRID
EUChinaGRID
EELA
BalticGrid
Name
23 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Risorse dell’infrastruttura EGEE
Region Countries Sites CPU
CERN 5 12 6400
UK/I 2 25 8384
Fr 2 12 7238
De/CH 2 15 4413
It 1 34 4341
NE 9 30 3289
SEE 8 38 2727
CE 7 24 2588
SWE 2 18 1938
A-P 8 20 1884
Ru 2 15 738
Totals 48 243 44040
23
Da Ian Bird - EGEE'07
EGEE: ~250 siti, >45000 CPU
24% delle risorse provengono da gruppi esterni al progetto EGEE
~>20k jobs simultanei in esecuzione permanentemente
24 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Health Grids: alcuni risultati esemplari
� La prima BioMedical Data Challenge
– WISDOM : World-wide In-Silico Docking on Malaria
• http://public.eu-egee.org/files/battles-malaria-grid-wisdom.pdf• Sull’infrastruttura EGEE: 11/7-19/8/2005
� Parametri biologici significativi
– Due applicazioni di molecular
docking (Autodock and FlexX)
– Selezionati un milione di leganti
– Ricerca di proteine legate al
responsabile della malaria
� Numeri importanti :
– Trattati 46 milioni di leganti in
6 settimane
– Prodotto 1 TB di dati.
– Piu di 1000 computers in 15 paesi
usati contemporaneamente
per un totale di 80 anni-CPU
80 anni di lavoro per un PC standard
Domain distribution of Flexx run jobs
es; 5122
fr; 7580
gr; 2004 il; 263 it; 3687
nl; 3356
tw; 827
uk; 8106
bg; 597 com; 1072
de; 715 cy; 383
pl; 1877
ru; 218
ro; 337
http://wisdom.eu-egee.fr/malaria/
4. gLiteil middleware prodotto da EGEE
e le sue componenti di maggior interesse per la medicina
25 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Struttura del Middleware di gLitecriteri progettuali
� Le applicazioni hanno accessoa entrambi i servizi di alto livello ed il middleware di base
� I servizi Grid di alto livelloservono a supportare gli utentie le loro infrastrutture ma non sono obbligatori
� Il middleware di base vieneinstallato su tuttal’infrastruttura EGEE
– Funzionale e robusto,
– Deve consentirel’interoperabilita’ con altreinfrastrutture Grid
– Non deve dipendere daiservizi di alto livello (chesono opzionali )
Foundation Grid Middleware
(Middleware di base)Security model and infrastructure
Computing (CE) and Storage Elements (SE)
Accounting
Information and Monitoring
Higher-Level Grid Services
(Servizi Grid di alto livello)
Workload Management
Replica Management
Visualization
Workflow
Grid Economies
...
Applications
(Applicazioni)
26 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Workload ManagementData Management
SecurityInformation & Monitoring
Access
API
ComputingElement
WorkloadManagement
MetadataCatalog
StorageElement
DataMovement
File & ReplicaCatalog
Authorization
Authentication
Information &Monitoring
Application
MonitoringAuditing
JobProvenance
PackageManager
CLI
Accounting
Site Proxy
Descrizione: http://doc.cern.ch//archive/electronic/egee/tr/egee-tr-2006-001.pdf
Il middleware gLite
27 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
I costituentidel middleware
� Servizi di Base
– Computing Element (CE)
– Storage Element (SE)
• Storage Resource Manager (SRM) Interface
– Information and Monitoring Service (BD-II, R-GMA)
– Authentication/Authorization/Auditing-Security
User Interface
&PortaleWeb
� Servizi Grid di alto livello
– Workload Managament Service/Server (WMS/RB)
– Logging&Bookkeeping (LB)
– File Transfer Service (FTS)
– File Catalogs (LFC, FireMan )– Metadata Catalogs ( AMGA )
– Encrypted Data Storage (EDS)
– Accounting
SOA
Globus (VDT)GridFTP / GSI
Condor PKI X.509 LDAP, MySQL, OpenSSL,..
28 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Componenti di base di gLiteper la medicina
�CE: Computing Element– Esegue i job degli utenti / Basato su Globus e Condor
• Dotato di un interfaccia WS per la parte di IS
�SE: Storage Element– Per la storage dei dati
• SRM 2.2 interfaccia WS unica per i Mass Storage Systems e il disk storage
�LFC: LCG file catalog– Per mappare logical file names dei file in Site-URLs (PFN) attraverso i GUID • Con interfaccia WS
�AMGA: ARDA metadata Grid Application Catalog �EDS: Encrypted Data Storage �GFAL: GRID File Access Library (POSIX-like)�BD-II information system
29 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Monitoring: GridMap
http://gridmap.cern.ch/gm/
4.Progetti di medicina che utilizzano la Grid
Esempi.
30 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Progetti di medicina che usano la Grid
�Esistono innumerevoli esempi di progetti diMedicina e BioInformatica che usano le Grid
–E’ un successo per la Grid ☺– E’ assolutamente impensabile (e forse anche inutile)
pensare di descriverli tutti in questo talk (di 30 minuti) �
�Riporto qui – Alcuni progetti in EGEE
– L’ iniziativa HealthGrid
– un paio di progetti specifici interessanti, a titoloesemplificativo• NeuroInf / BioInfo LAB
• Health-e-Child
31 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Progetti di medicina in ambito EGEE NA4 (Applicazioni)
� Cardiologia– Caviar
• Simulazione 3D del moto del cuore• Uso di MPI su Grid: guadagno in CPUtime lineare col n.dei nodi
– Processing di sequenze immagini 3D: svariate ore di CPU su un processore singolo:
- 2 minuti di CPU per istante di segmento 3D- 20 ore di CPU for 1603 motion estimation
� Cura del cancro/Adroterapia– ThIS
• Simulazione dell’irradiazione dafasci di fotoni,protoni e ioni pesanti
Hugues BENOIT-CATTINEGEE 07 conference
32 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
HealthGrid
�Iniziativa europea di coordinamento per la promozione della Grid in medicina
–http://www.healthgrid.org
–Si occupa di promuovere standard comuniper l’interfacciamento di applicazionimediche e protocolli utilizzati in ambitomedico alla Grid
–Definire le priorita’ di svilippo nella stesura diuna roadmap europea verso una Grid medica
integrata
33 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Portale NeuroInf (Analisi SPMA)
� Portale Grid per la diagnosi del morbo di Alzheimer attraverso la Statistical Parametric Mapping Analysis (SPMA)
� Motivazioni– L’accuratezza delle mappe di ipoperfusione e’ legata strettamente al numero di
casi normali confrontati con l’immagine di test– Servono percio’ molte immagini di casi normali
MA problemi etici e costi elevati riducono drasticamente il numero di acquisizionidi volumi PET di casi normali.
� La riservatezza e la sicurezza sono fondamentali nei sistemi informativi delle Health Grids
I neurologi che lavorano in piccoli ospedali non hanno a disposizione un grande campione di casi normali e non hanno un modo di accedere in maniera sicura databases remoti di immagini, percio’ di fatto non possono eseguire analisi SPM sui loro casi sospetti di AD
�
[ Ivan Porro - BioLab Univ. Genova - EGEE 07 conference ]
34 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
�Acquisizione della immagine di testsullo user node
�Trasferimento dell’immagine di prova sulmanagement node
�Query al catalogo delle immagini normaliper trovarne di utili per il confronto (con quella di test)
Trasferimento di un eseguibile software (leggero)per l’estrazione dell’informazione sui nodi repository�Estrazione dalle immagini normali dell’informazionenecessaria per l’analisi statistica
�Trasferimento dell’informazioneestratta sul nodo di management
�Esecuzione dell’analisi statisticasul nodo di management
�Trasferimento dei risultati dell’analisiSPM sullo user node
35 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Analisi delle immagini PET-SPECT
Analisi SPM:
•Statistical Parametric Mapping Analysis (SPM) package
�Creato dal Functional Imaging Lab (FIL) presso il Wellcome Department of Imaging Neuroscience (London University College)O
�Usato ampiamente nella comunita’ di ricerca dei neurologi per l’analisi voxel-based di studi PET per la diagnosi precoce del morbo di Alzheimer (AD)
� L’algoritmo principale:- confronto tra I valori di perfusione in immagini PET per pazienti sospetti di AD
Ei valori in un database di immagini PER per casi normali
� Risultato finale dell’analisi SPM:
pattern di ipoperfusione per differenziare i casi di AD da casi di altri tipi di malattie mentali
Pattern ipometabolici (glucosio)
36 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
JOB submission & Data management
ZOPE
Portal Engine
Job submission
xrootd
GFAL
Upload image and select
User node
• Job submission and management
• Remote file access• Remote processing
Management node
gLiteUser Interface
SPMApplication
AliEnUser Interface
ZOPE Portal Engine
AliEn server
File and MetadataCatalogue
TaskQueue
Repository node
AliEnComputing Element
AliEnStorage Element
Repository node
gLiteComputing Element
gLiteStorage Element
MyProxyServer
LCG/gLite services
ResourceBroker
AMGA
LFC
37 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Progetto dell’applicazione Grid
�Registrazione e storage dei data files (PET images) sugli SE disponibili usando lcg_utils che interagisce con LFC ed AMGA
�Sviluppo di un programma C (usando le API C di GFAL) per – Accedere alle immagini distribuite usando il loro LFN e senza copiarle fisicamente sui Worker Nodes
– Estrarre l’informazione necessaria all’analisi SPM
�Job Submission: sottomissione di uno o piu’ file JDL in parallelo a seconda del numero delle slice
�Analisi statistica: esecuzione dell’analisi SPM sui risultati ottenuti dalla sottomissione dei job. L’analisi statistica viene effettuata fuori dalla Grid.
gLite tools utilizzati:
� Data Management and File Access tools (lcg_utils and GFAL):per accedere ai dati remoti dalla User Interface
utilizzando i Logical File Names (LFN)O
� LCG File Catalog (LFC):per registrare i dati nel catalogo
� AMGA Metadata Catalog:per aggiungere metadati ai dati
� Workload Management System:per sottomettere e monitorare I job
38 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Perche’ creare un portale ?
�L’accesso remoto all’analisi SPM puo’ fornire ai medici di ospedali periferici un tool utilissimo per eseguire l’analisi da remoto utilizzando una semplice interfaccia web
�Non servono ne risorse H/W particolari ne grande esperienza di computing
�Per evitare errori nell’analisi, solo utenti selezionati devono poter accedere ai servizi
http://www.http://www.neuroinfneuroinf.it.it
http://www.neuroinf.ithttp://www.neuroinf.it
39 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Query al metadata catalog AMGA
40 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Selezione di soggetti normalie sottomissione job
41 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Risultati dell’analisi SPM
La validazione dei risultati sta venendo eseguita all’ospedale San Raffaele aMilano (usando 20 immagini)O (Risultati in Locale = Risultati GRID & Portale Web )
[ Iva
nP
orro
-B
ioLa
bU
niv.
Gen
ova
-E
GE
E 0
7 co
nfer
ence
]
42 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Motivazioni per il progetto
� La domanda clinica di integrazione e utilizzo di informazione biomedica eterogenea– In dimensione verticale : molte sorgenti di dati diverse– In dimensione orizzontale : molti siti diversi
� Il bisogno di piattaforme generiche e scalabili– Integrando risorse tradizionali ed emergenti– Per supportare i processi decisionali– Accesso ubiquitous a knowledge repository nella routine clinica
– Mettere in comunicazione gli stakeholders nella ricerca clinica
� Bisogno di modelli strutturati e complessi per le malattie– costruendo holistic views del corpo umano– Diagnosi precoce delle malattie utilizzando informazione in vitro
– Diagnosi, terapia e decorso personalizzati
Health-e-Child
43 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Obiettivi del progetto Health-e-Child
� Costruire servizi e strumenti chiave per migliorare la qualita’ della cura e ridurre I costi con– Modelli integrati delle malattie– Sistemi di supporto alle decisioni guidati da DB– Fusione dell’informazione da modalita’ diverse
e data mining per acquisire conoscenza
� Attuare un’ integrazione multi-sito, verticale e longitudinale, di dati, informazione e conoscenza
� Sviluppo di una piattaforma basata su Grid, supportata da una ricerca approfondita, ottimizzazione e confronti
Healthy Child
Dec
isio
n S
uppo
rt
Sys
tem
s
Integrated Disease Modeling
Know
ledge Discovery
AugmentAugment
GuidanceGuidanceGuidanceGuidanceEnrichEnrich
RealReal--time time alertalert
OnOn--line line learninglearning
Obs
erva
tion
Pro
cess
Sen
sors
Imaging
Genomics
Lab Data
ProteomicsDemographics
Physician Notes
Life Style
Time
Organ
Tissue
Cell
Molecule
PopulationIndividual
Ver
tical
D
ata
Inte
grat
ion
Integrated Integrated
Medical Medical
DatabaseDatabase
Cosa ha di speciale il progetto Health-e-Child ?
� Pediatria:
– La componente temporale
– Alcuni concetti validi per gli adulti non si possono applicare :modelli esistenti possono essere misleading
– Gli esami e le cure sono diverse, alcune non possono essere usate
� Intergrazione Verticale:
– Si collezionano, rappresentano e presentano l’ informazione ed il knowledge in maniera integrata
– L’integrazione e’ un nuovo modo di fare diagnosi e classificazione
� Estrema eterogeneita’:
– Malattie, modalita’ , standard, interessi….
Pediatria: malattie infantili / dipartimenti clinici / modalita’
� Tre malattie infantili con cause almeno parzialmente sconosciute, classification and/or treatment outcomes– Malattie cardiache (Right Ventricular Overload,
Cardiomyopathy) – Malattie infiammatorie (Juvenile Idiopathic Arthritis) – Tumore al cervello (Gliomas)
� Molti dipartimenti medici– Cardiologia– Reumatologia– (Neuro-)Oncologia– Radiologia– Lab (Genetica, Proteomics)– Amministrazione, IT
� Modalita’ principali / Sorgenti di dati:– Imaging (MR, US/echocardiography, CT, x-ray)– Cliniche(Patient information, Lab results etc)– Genetica & Proteomics
44 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Distribuzione geografica
GOSH
NECKER
UWE
CERN
IGG
SIEMENS
ASPER
UOA
INRIA
LYNKEUS
UCL
EGF
FGG
MAAT
Sito clinico
Sito di R&D
45 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
HeC System Overview
Grid Infrastructure
databases, resource and user management, data security
HeC Gateway
HeC specific models and Grid services like query processing, security
Heart Disease
Applications
Inflammatory
Diseases
Applications
Brain Tumour
Applications
Common Client Applications
user interface for authentication, viewing, editing, similarity search
46 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
– Uno strato di accesso intermedio per disaccoppiare le applicazioni client dalla complessita’ della Grid
– Verso un implementazione indipendente dalla piattaforma
– Per aggiungere funzionalita’ specifiche non fornite dal middleware
Health-e-Child gateway
Stato√ SOA architecture
and design√ impementation of
privacy and security modules
47 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
� La tecnologia Grid (gLite3.0) come infrastruttura di fondo:– Una piattaforma distribuita per condividere storage e computing
� Requirements specifici HeC– Supporto per immagini mediche (DICOM)
– Alta responsivita’ per l’utilizzo nella routine clinica
– Bisogno di garantire la privacy del paziente:� access rights management
�Storage dei dati sul paziente anonimizzati
Architettura
√ Testbed installation da Maggio 2006
√ HeC Certificate Authority√ HeC Virtual Organisation√ Security Prototype (clients &
services)√ Logging Portal
Stato:
48 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
File storage� Non strutturati (file-based)
– DICOM • Images (MRI, CT, x-ray)• Movies (US)
– Molecular/Genetics data
� Semi-strutturati– Derivati– Dati clinici– Patient history– Diagnostica– Terapie
� Annotazioni semantiche– Annotazioni sulle immagini– Annotazioni sul caso, diagnosi– Links a risorse esterne
Dati Health-e-Child
5.Conclusioni
49 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Conclusioni �Le Grid sono (ormai da qualche anno) definitivamenteuscite dalla fase di prototipo per diventare ormaitecnologia affermata e diffusa, costituendoinfrastrutture di produzione ( in certi casi molto estese, come EGEE)
�L’approccio architetturale piu’ importante per le tecnologie Grid e’ quello delle Service Oriented Architectures e dei protocolli basati sui Web Services– Approccio raccomandato da HealthGrid
�Le Grid sono gia’ ampiamente utilizzate con successoin Medicina ed in BioInformatica– In Silico experiments
– Algoritmi molto complessi di ottimizzazione
– Analisi di immagini Bio-Mediche ( PEM,Mammografia, TAC..)
� I vantaggi dell’ uso delle Grid in medicina sono molti:– Enorme boost nella potenza di calcolo disponibile per molte strutture ed utenti che non hanno a disposizione un centro di supercalcolo in locale
– Accesso distribuito e condivisione di risorse mediche ( dati sui pazienti, strumenti di misura, cartelle cliniche ) fornito ai medici e personale specializzato per le diagnosi e la definizione delle cure
– Interfacciamento a sistemi PACS / standard DICOM
� Nei prossimi anni la roadmap HealthGrid vedra’ l’ ulteriore integrazione ditools medici e protocolli associati con il middleware delle Grid, nel suoparadigma della Service Oriented Architecture
� La comunita’ GARR e’ chiamata a partecipare in maniera naturale all’evolversie l’ulteriore affermarsi delle teconologie Grid per tutti i suoi utenti, includendoquindi la medicina in generale e gli IRCCS in particolare
� La rete GARR (GARR-G oggi, GARR-X domani) terra’ chiaramente in mente le esigenze degli utenti Grid, del middleware e delle applicazioni affinche’ essesiano soddsfatte:– High Bandwitdth– Premium IP e allocazione di banda riservata– Anche i servizii associati alle Grid - a cominciare dall’ INFN e GARR Certification Authorities gia’ in funzione
Ringraziamenti
� Ivan Porro (Univ.Genova / BioLab )
� David Manset (Maat-G / Health-e-Child)
� Tamás Hauer (Health-e-Child )
� Claudio Grandi ( EGEE JRA-1 )
� Johan Montagnat ( EGEE NA4 )
� Ian Bird ( EGEE SA-1 )
� Reggie Cushing (EuMedGrid)
50 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Appendice: le componenti di gLite
51 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Service Oriented Architecture� gLite si basa su una Architettura Service
Oriented (SOA)
– Per facilitare l’interoperabilita’ tra i serviziGrid
– Per essere compatibile con gli standard emergenti presenti e futuri
– I servizi collaborano in maniera coerentema possono anche essere installati ed utilizzati indipendentemente, permettendoil loro utilizzo in contesti differenziati
�I servizi comunicano scambiandosimessaggi– Stanno venendo tutti dotati di interfacceWeb Services
– Esistono in realta’ diverse specifice che I WS e uno standard e’ necessario
– Le attivita’ sono svolte in ambito OGF-GIN (interoperabilita’)http://www.ogf.org/gf/group_info/view.php?group=gin-cg
GIN
52 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Il Computing Element (CE)
Il Computing Element
� accetta batch jobs (e richieste di job control) utilizzando il gatekeeper
�LCG-CE (GT2 GRAM + GSI-enabled Condor)
�gLite-CE (GSI-enabled Condor-C)
�CREAM (WS-I based interface)
� Svolge le funzionalita’ AAA e mappa su un utente locale
�usando LCAS/LCMAPS e GRAM oglexec
� Passa il job allo strato che interagisce col LRMS
� Monitora lo stato del job e lo restituisce al client
�Condor
�CEMon (in CREAM)
• Interfaccia Web service
Client
LRMSWN
MonitoringComputing
Element
AAA andlocal mapping
JobController
Grid
Site
53 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Lo Storage Element (SE)
� Gli storage elements (SE) sono le componenti per la memorizzazione dei datiin files nella Grid.
� Si possono basare su disco o nastro e sono visti attraverso un interfacciastandard : lo Storage Resource Manager
� Lo Storage Resource Manager (SRM)
– Nasconde l’implementazione dello storage system (disk o active tape)
– Controlla l’autorizzazione allo storage system ed ai files
– Gestisce sia SFNs che PFNs (converte SFN in PFN)
– disk-based: DPM, dCache; tape-based: Castor, dCache
� File I/O: Accesso posix-like ai files dai nodi locali o dalla Grid
�GFAL
54 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Il Workload Management System
� Resource brokering, workflow management, I/O data management
�Interfaccia Web Service : WMProxy
– Task Queue: tiene in archivio I job che non-matching
– Information SuperMarket: cache dell’ information system
– Match Maker: assegna i job alle varie risorse in base ai requirements degli users
– Job submission & monitoring
�Condor-G
�ICE (to CREAM)
– Interagisce con:
• Information System
• Data Catalogs
• Logging&Bookkeeping
• Policy Management system (G-PBox)
55 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Il File transfer Service� FTS: File transfer affidabile, scalabile e customizzabile
– Multi-VO service, usato per bilanciare l’uso delle site resources rispettando gli SLA definiti tra un sito e le VO che supporta
– Interfaccia WS, supporto di ruoli differenziati per utenti e admin (VOMS)
– Gestisce i trasferimenti utilizzando canali
• mono-directional network pipes tra due siti
– I vari file transfers sono gestiti come job
• Prioritizzazione
• Retry in caso di failure
– Automatic discovery dei servizi
� Progettato per gestire transfer di applicazioni data intensive
– Collaudato a 1 GB/s continuativo
– Piu’ di 9 petabytes trasferiti negli ultimi 6 mesi (> 10 milioni di files)
56 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
LCG File Catalog� LFC mappa LFNs in SURLs
– Logical File Name (LFN): user file name
• nel namespace della VO, aliases consentiti
– Glbally Unique IDentifier (GUID)
• Stringa univoca assegnata dal sistema al file
– Site URL (SURL): identifica una replica specifica• Uno SE ed il LFN del file che contiene
� GSI security: utilizza le ACLs (basate su VOMS)
– Ad ogni gruppo/ruolo VOMS corrisponde un virtual group identifier
– Supporto per secondary groups
� Interfaccaia Web Service di query: Data Location Interface (DLI)
� Namespace gerarchico
� Supporta le sessions e le bulk operations
LFC
GUIDSURL 1
SURL 2
ACL
LFN 1
LFN 2
lfc-ls –l /grid/vo/ /grid/vo/data
fileLFC
DLI
lfc-getacl /grid/vo/data
57 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
AMGA Metadata Catalog� AMGA e’ un metadata catalog general purpose
– Contiene informazioni sui dati scritti nei files
– Usato da diversi tipi di applicazioni– Interfaccia SOAP– VOMS authorization– Shell-like client– Browser grafico (Python)
� Performance comparabili all’accesso diretto a DB– C++, TCP streaming protocol, sessioni SSL
molto veloci� LHCb (HEP VO use case)
– 100 Milioni di entries– 150GB di dati– 105 entries/day rate di inserimento– 10 entries/sec rate di lettura
Authenticate with X509 Cert VOMS-Cert
with Group & Role information
VOMS-Cert
Resource management
AMGAOracle
VOMS
�http://cern.ch/amga
58 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Encrypted Data Storage� Per VOs con requirements forti di riservatezza
– Per esempio la comunita’ medica
• Anonimita’ (i dati sul paziente sono tenuti separatamente)
• fine grained access control (solo alcuni individui possono accedere)
• Privacy (nemmeno gli amministratori degli SE possono leggere i dati)
� Interfaccia DICOM (Digital Image and COmmunication in Medicine)� Hydra keystore
– Memorizza le keys per l’encryption dei dati
– N istanze: per le menoM<N servono per la decryption
• Sicuro ed affidabile
AMGAHydra gridftp SRM I/O
DPM
DICOMTrigger 0. retrieve
image
0. storeencrypted
image&ACL
0. storekeys&ACL
0. storepatientdata
&ACL
1. patient look-up2. retrievekeys 3. get
TURL
4. read
59 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Job Management Services
Computing Element Storage Element
Site X
Information System
submit
submit
query
retrieve
retrieve
Workload ManagementLogging & Bookkeeping
User Interface
publishstate
File and ReplicaCatalogs
AuthorizationService
query
updatecredential publish
state
discoverservices
60 [Conferenza IRCCS, Roma, 12-12-2007 - M.Reale]
Information Systems
� Generic InformationProvider (GIP)
– Fornisce informazione
LDIF su un servizio
Grid utilizzando lo
schema GLUE
� BDII: Information system in gLite 3.0
– LDAP database aggiornato
da un processo di update
– Si usa piu’ di un DB, separati
in lettura e scrittura
– Per selezionare il DB si usa il
port forwarding
2171LDAP
2172LDAP
2173LDAP
2170Port Fwd
Update DB&
Modify DB
2170Port Fwd
Swap DBs
GIP Provider
ConfigFile
LDIF File
Plugin
Cache