Kickoff Progetto...

31
www.crs4.it Kickoff Progetto DaSSIA 29 Settembre 2014

Transcript of Kickoff Progetto...

Page 1: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

www.crs4.it

Kickoff Progetto DaSSIA29 Settembre 2014

Page 2: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Ordine del giorno

• Breve Presentazione del CRS4

• CRS4 & Big Data

• Il Progetto DaSSIA

– Sviluppo di un caso test paradigmatico– L'Attività di Formazione

• Discussione

2

Page 3: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Ordine del giorno

• Breve Presentazione del CRS4

• CRS4 & Big Data

• Il Progetto DaSSIA

– Sviluppo di un caso test paradigmatico– L'Attività di Formazione

• Discussione

3

Page 4: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

CRS4: Sintesi• Organismo di ricerca operativo dal 1991• Compiti istituzionali

– Ricerca e sviluppo• ICT e scienze computazionali

• Tecnologie abilitanti e focalizzazione su tematiche prioritarie

– Infrastruttura• HPC: uno dei maggiori centri in Italia, peculiarità importanti a

livello Europeo (sistemi ibridi, visualizzazione, …)

• NextGen Seq: maggior centro italiano, tra i primi internazionali

– Supporto al territorio• Cooperazione e integrazione (CNR, UNI, SRT, PCR, …)

• Alta formazione, impatto sociale e trasferimento tecnologico

• Visione internazionale, ricadute locali

4

Page 5: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

CRS4: Focalizzazione su ICT e Scienze Computazionali• Ruolo rilevante del CRS4

sin dall’inizio• Tematiche di lavoro

estremamente attuali– ICT Pervasiva– Paradigma anytime, anywhere, for

anybody, on any device

– Computing– universal enabler scientifico e

industriale

– Big Data– Data-driven science & technology

5

Industrial Leadership

Excellent Science

Societal Challenges

ICT

Industrial Leadership

Industrial Leadership

Excellent ScienceExcellent Science

Societal Challenges

Societal Challenges

ICTICT

Page 6: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

CRS4: Ricerca e sviluppo • Esempi recenti (2013):

– ICT per la biomedicina: metodi scalabili per l’analisi massiva di dati sequenziamento

• completamento dell’acquisizione di uno dei database più estesi (oltre 2’500 campioni) e maggiormente caratterizzati geneticamente e clinicamente al mondo (con CNR-IRGB);

• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare metodi innovativi di terapia genica (con TIGET) e a comprendere meglio i meccanismi genetici di regolazione della risposta immunitaria delle cellule (con CNR-IRGB).

– ICT per il cultural heritage: Nuovi metodi scalabili per l’acquisizione di forma e colore• Applicazione ai beni culturali [Digital Heritage Award – miglior lavoro internazionale 2013]

– ICT per l'industria: Primo applicativo di ecografia sismica data-driven • Sensibile accorciamento del ciclo di elaborazione progettuale [CRS4-ENI]

– ICT per l'industria: Primo sistema per la piena tracciabilità di processo clinico• Tracciamento end-to-end di processo clinico (flebotomia) [CRS4-INPECO]

• … e molto altro…

6

Page 7: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

CRS4: Infrastrutture

• Risorse computazionali– Tra le prime in Italia, vasta gamma di configurazioni

ibride (GPU, FPGA, …), connessioni con multiple 10GbE verso Rete Regionale della Ricerca e GARR

– 70% utilizzato da comunità scientifica regionale

• Strumentazione sperimentale avanzata– Il più grande centro di Next Generation Sequencing in

Italia– capacità di 5’400 GigaBasi/mese

– Tra i centri più avanzati per tecnologie e beni culturali– 2013: I metodi applicati al complesso di Mont’e Prama sono

all’avanguardia a livello internazionale

Page 8: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Ordine del giorno

• Breve Presentazione del CRS4

• CRS4 & Big Data

• Il Progetto DaSSIA

– Sviluppo di un caso test paradigmatico– L'Attività di Formazione

• Discussione

8

Page 9: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Big Data @ CRS4• Risultati di ricerca e sviluppo

– General purpose tools and libraries [pydoop, 2010]

– Tool specifici di dominio [biodoop, 2008, seal 2012]

– Sistemi integrati [biobank 2014]

• Infrastrutture specializzate– Il più grande cluster map-reduce in Italia (fino a 400 nodi)

• Allocazione dinamica delle risorse tra hadoop e sistema standard di gestione delle code

• File system di 4PBytes ad alte prestazioni condiviso

– File system parallelo (HDFS server) dedicato• 400TB su 40 commodity nodes

– Clusters sperimentali/valutazione specializzati

• Spark, Impala, Hive, Hbase,....– Specialized experimental/evaluation clusters

● Nel loop tecnologico– Contributi Open source (pydoop, seal, ...)

– Connessioni Industriali (Cloudera, Isilon, intel, ...)

Page 10: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Ordine del giorno

• Breve Presentazione del CRS4

• Big Data @ CRS4

• Il Progetto DaSSIA

– Sviluppo di un caso test paradigmatico– L'Attività di Formazione

• Discussione

10

Page 11: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

www.crs4.it

Big Data: un problema o un'opportunità ?

Page 12: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

www.crs4.it

Page 13: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

www.crs4.it

DaSSIAData Scalable Solutions for Industrial Applications

● Il Progetto ha l'obiettivo di trasferire know how sul trattamento dei Big Data dal CRS4 alle aziende partecipanti al cluster.

● Si articola in due attività principali:― Sviluppo di un caso test di interesse comune. Le

problematiche incontrate nella sua realizzazione vengono discusse all'interno di un wiki accessibile per il cluster

― Attività di formazione su alcune tra le tecnologie più utilizzate nel trattamento dei Big Data

Page 14: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Ordine del giorno

• Breve Presentazione del CRS4

• Big Data @ CRS4

• Il Progetto DaSSIA

– Sviluppo di un caso test paradigmatico– L'Attività di Formazione

• Discussione

14

Page 15: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

www.crs4.it

Sviluppo di un Caso Test Paradigmatico

Principali passi:● Raccolta dei dati e prima analisi in realtime degli stessi● Scrittura su filesystem distribuito hdfs● Analisi batch dei dati

A cui si possono aggiungere altri task:● Visualizzazione di statistiche sui dati acquisiti● Meccanismo di controllo e correzione degli errori nel trasporto dei dati● etc

Caso Test Paradigmatico: Dati sulle prestazioni (memoria, cpu, processi, temperature, ecc) provenienti da un cluster di quasi 400 computer

Page 16: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Ordine del giorno

• Breve Presentazione del CRS4

• Big Data @ CRS4

• Il Progetto DaSSIA

– Sviluppo di un caso test paradigmatico– L'Attività di Formazione

• Discussione

16

Page 17: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

● Illustrare il fenomeno/problema Big Data

● Tracciare un quadro generale dell'ecosistema

Hadoop (lo standard/ecosistema industriale)

● Fornire un modello architetturale per la

gestione dei Big Data

● Accompagnare le aziende nell'apprendimento

di alcune tra le più usate tecnologie per i Big

Data

Obiettivi dell'attività formativa

Page 18: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

N Data Titolo Ore

1 Metà Ottobre Big Data e Hadoop 6

2 Fine Novembre Scripting e DataWarehouse sui Big Data 6

3 Fine Gennaio Scalable NoSQL Databases 6

4 Metà Marzo Data Collection from Big Data Sources 6

Calendario preliminare dell'attività formativa

Page 19: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Modello Architetturale

DistributedFile System

MapReduce

ETL

DataWarehouse

DistributedDB

Page 20: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Prima Giornata

Tema: BigData e Hadoop

● Cosa si intende con BigData ?

● Hadoop― HDFS

― MapReduce

● Pydoop

DistributedFile System

MapReduce

Page 21: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Alla fine della prima giornata i partecipanti:

● Sapranno interagire con il file system HDFS

● Avranno appreso il paradigma della programmazione

mapreduce

● Sapranno scrivere semplici job mapreduce in java e

python

● Sapranno utilizzare le viste di controllo fornite dalle

interfacce web dei servizi

Page 22: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Seconda Giornata

Tema: Scripting e DataWarehouse su Big Data

● PIG, un linguaggio di scripting che ci libera

dalle complessità di MapReduce

● Hive, come fare DataWarehouse su BigData

sfruttando la nostra esperienza con l'SQL

● Shark, DataWarehouse superveloce...

DistributedFile System

MapReduce

Page 23: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Alla fine della seconda giornata i partecipanti:

● Avranno imparato a scrivere semplici script in Pig

per la realizzazione dei job

● Sapranno importare i propri dati da HDFS su Hive

● Sapranno effettuare query sql-like con Hive

● Avranno preso coscienza dell'esistenza del concetto

di "in memory computing" e di MR2

● Sapranno eseguire semplici query con l'utilizzo di

shark

Page 24: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Terza Giornata

Tema: Scalable NoSQL Databases

● Come passare da dati RAW a dati

semi-strutturati?

● Verranno illustrate diverse

tecnologie NoSQL― Hbase

― Cassandra

― MongoDB

DistributedFile System

MapReduce

ETL

DataWarehouse

DistributedDB

Page 25: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Alla fine della terza giornata i partecipanti:

● Conosceranno le principali differenze tra HBase,

Cassandra e MongoDB per il trattamento dei propri

dati

● Sapranno importare i propri dati da HDFS a HBase

● Sapranno eseguire semplici query su HBase

Page 26: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Quarta Giornata

Tema: Data Collection from Big Data Sources

● Come costruire un meccanismo

che alimenti di continuo il sistema

di processing ?

● Verranno illustrate delle tecnologie in grado di raccogliere

dati provenienti da sorgenti diverse ed inserirli nel

sistema di Big Data Management

DistributedFile System

MapReduce

ETL

DataWarehouse

DistributedDB

Page 27: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Alla fine della quarta giornata i partecipanti:

● Avranno appreso le modalità in cui è possibile

utilizzare Flume per l'aggregazione dei log e il loro

import sull'HDFS

● Avranno preso conoscenza dell'esistenza di ulteriori

aggregatori di dati disponibili (es. Sqoop, Tika) e

degli aspetti caratterizzanti di ognuno di essi

● Sapranno scrivere un semplice file di configurazione

di Flume

Page 28: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Pre-requisiti

● Conoscenza superficiale di Linux

● Capacità di utilizzo di una macchina virtuale

VmWare

● Conoscenza di un linguaggio di programmazione

(In particolare Java e/o Python)

e per le giornate successive alla prima:

● Ripasso della lezione della prima giornata

Page 29: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Qualche Informazione Finale ● Al momento non è ancora stata scelta la sede per lo

svolgimento delle giornate di formazione

● All'indirizzo http://dassia.crs4.it è presente il sito pubblico del progetto. All'interno dalla sezione “Private Area” si accede al sito privato riservato alle sole aziende partecipanti al cluster: https://redz.crs4.it/projects/dassia

● All'interno del sito privato saranno inserite le lezioni, scaricabili dopo il loro svolgimento, in modo da poter ripassare il materiale visto

● Nel sito privato vi sarà anche un wiki sul caso test paradigmatico e la possibilità di chiedere aiuto sugli argomenti discussi nelle lezioni o nel wiki

Page 30: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Grazie dell'attenzione

Page 31: Kickoff Progetto DaSSIAdassia.crs4.it/wp-content/uploads/2014/10/2014-09-29-dassia-kickoff_zag_v2.pdf• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare

CRS4, 29 Settembre 2014

Presentazione delle Aziende E Discussione