Progetto Operativo LABORATORIO BIGOPENDATA v2015 09 · 2016-11-11 · 2! 1.&...

7
Referenti Devis Bianchini Stefano Calza Raffaele Miniaci Paola Zuccolotto Big & Open Data Innovation Laboratory Progetto operativo – settembre 2015

Transcript of Progetto Operativo LABORATORIO BIGOPENDATA v2015 09 · 2016-11-11 · 2! 1.&...

Page 1: Progetto Operativo LABORATORIO BIGOPENDATA v2015 09 · 2016-11-11 · 2! 1.& Lineeguidaseguiteperladefinizionedeirequisitidibase ! I referenti del progetto operativo hanno definito

 

 

 

   

 

 

 

 

 

 

 

         Referenti  Devis  Bianchini    Stefano  Calza    Raffaele  Miniaci    Paola  Zuccolotto    

 

Big  &  Open  Data  Innovation  Laboratory    

Progetto  operativo  –  settembre  2015    

Page 2: Progetto Operativo LABORATORIO BIGOPENDATA v2015 09 · 2016-11-11 · 2! 1.& Lineeguidaseguiteperladefinizionedeirequisitidibase ! I referenti del progetto operativo hanno definito

   

2  

1.   Linee  guida  seguite  per  la  definizione  dei  requisiti  di  base  I   referenti   del   progetto   operativo   hanno   definito   i   requisiti   di   base   di   cui   il   Laboratorio  dovrebbe  essere  dotato,  al  fine  di  essere  idoneo  agli  scopi  per  cui  viene  allestito.  

L’obiettivo  principale  è  stato  quello  di  creare  una  infrastruttura  con  metodi  e  strumenti  per  la  gestione  dei  dati  in  maniera  multidisciplinare  e  multimediale,  con  tecniche  per  condivisione  e  cooperazione,  quali   tecniche  Linked  Data  (http://lod-­‐cloud.net/)  e  social  networking  e  sono  state  considerate  prioritarie  le  seguenti  finalità  generali:  

a) sostenere  e  potenziare  il  sistema  della  ricerca  e  dello  sviluppo  di  soluzioni  innovative  all’interno  dell’Ateneo  e  il  trasferimento  tecnologico  verso  la  PA  e  il  mondo  produttivo,  consentendo   gestione   efficace   di   grandi   volumi   di   dati   digitali   di   qualità,  informazioni,   conoscenza   utilizzabili   dai   gruppi   di   ricerca   attivi   negli   ambiti   delle  tecnologie   mediche,   ingegneristiche,   economiche,   finanziarie,   aziendali,   sociali   e  giuridiche  di  Health  &  Wealth;    

b) sviluppare  una  infrastruttura  federata,  basata  su  tecnologie  Semantic  e  Social  Web,  con  modelli,   metodi   e   strumenti   innovativi   utili   per   l’organizzazione,   la  classificazione,   l’integrazione,   la   ricerca,   l’analisi   e   la   presentazione  di   enormi,  eterogenee   e   complesse   collezioni   di   dati   digitali   (big   data),   anche   in   formato  aperto   (open   data),   prodotti   da   enti   privati   e   pubblici   –   al   fine   di   consentire,   nel  rispetto   delle   norme   etiche   e   legali   che   il   loro   utilizzo   comporta,   l’estrazione   e   la  generazione   di   conoscenza,   favorire   i   processi   decisionali   privati   e   le   politiche  pubbliche,  secondo  il  moderno  paradigma  di  “innovazione  guidata  dai  dati”.    

Nell’ambito   delle   finalità   generali   complessive,   sono   state   valutate   le   seguenti   attività  caratterizzanti,  la  cui  definizione  è  derivata  dal  confronto  con  i  vari  gruppi  di  ricerca  operanti  all’interno  dell’Ateneo:    

• definizione  di  un’architettura  di  infrastruttura  federata,  basata  su  tecnologie  Semantic  Web   e   Social  Web,   con   tecniche   e   strumenti   avanzati   per   classificare   e   raggruppare,  sulla   base   della   semantica   dei   contenuti   informativi,   big&open   data   provenienti   da  fonti  diverse  

• sviluppo   di   modelli   e   metodi   avanzati   di   modellazione   della   conoscenza,   processing  semantico   basato   su   ontologie,   ragionamento   in   condizioni   di   incompletezza   e   di  incertezza,   inferenza   logica,   pianificazione,   ragionamento   automatico   e,   in   generale,  elaborazione  efficiente  orientata  al  problem-­‐solving  

• sviluppo   di   modelli   matematici   e   statistici   dei   dati,   metodi   e   strumenti   di   indagine  statistica,  data  mining,  knowledge  discovery  e  machine  learning,  analisi  e  valutazione,  simulazione  avanzata  e  ottimizzazione  

• progetto  di  modelli,  metodi  e  strumenti  evoluti  per   la  condivisione  e  cooperazione  in  contesti  caratterizzati  da  un  background  informativo  di  grandi  dimensioni  (big&open  data)  

• integrazione  del  Lab  con  piattaforme  big  data  e  open  data  esistenti.  

Page 3: Progetto Operativo LABORATORIO BIGOPENDATA v2015 09 · 2016-11-11 · 2! 1.& Lineeguidaseguiteperladefinizionedeirequisitidibase ! I referenti del progetto operativo hanno definito

   

3  

2.    Progetto  operativo  Nel  definire  le  dotazioni  di  base  da  assicurare  al  Laboratorio  si  è  tenuto  conto  che  esso  potrà  disporre  di  alcune   risorse  già  disponibili,  ma   il   cui  utilizzo  è   comune  anche  ad  altre  attività  dell’Ateneo.  E’  stata  quindi  valutata  la  presenza  in  Ateneo  di:  

• risorse   documentali:   il   patrimonio   del   sistema   bibliotecario   è   tale   soddisfare   le  necessità  del  Laboratorio  senza  integrazioni  rilevanti;  

• banche  dati:  l’Università  già  fornisce  accesso  alle  maggiori  banche  dati  necessarie  per  coprire   i   temi   in   oggetto,   ma   sono   comunque   stati   previsti   alcuni   investimenti   di  adeguamento   in   banche   dati   non   attualmente   disponibili,   in   accordo   con   il   Sistema  Bibliotecario  di  Ateneo,  di  interesse  per  progetti  afferenti  al  laboratorio;  

• risorse   informatiche:   le   attività   del   laboratorio   possono   in   parte   beneficiare   della  struttura   informatica   dell'Ateneo,  ma   anche   in   questo   ambito   si   ritengono   necessari  alcuni  ulteriori  investimenti.  

Nel  laboratorio  restano  dunque  da  pianificare  investimenti  relativi  a:  

1. HW  e  servizi  di  storage  ad  alta  capacità  ed  elevati  throughput;  HW  e  servizi  di  super-­‐calcolo  (e.g.,  cluster  e  High  Performance  PC  multiprocessore  con  acceleratori  GPU)  

2. Reti  ad  alta  velocità  3. SW  e  relative  licenze  specifiche  per  i  temi  in  oggetto  4. Personale  5. Banche  dati  specifiche  per  i  temi  in  oggetto  6. Gestione  ordinaria  

Di   seguito,  verrà   fornita  una  stima  dei   costi  per  ciascuno  degli   investimenti   ipotizzati  e  una  valutazione  finale  in  relazione  al  budget  assegnato  al  laboratorio.  

2.1   Hardware,  servizi  di  storage  e  super-­‐calcolo,  reti  ad  alta  velocità  (punti  1  e  2)  Di  seguito  il  dettaglio  degli  investimenti  in  HW  e  servizi  di  storage  e  super-­‐calcolo  previsti  per  il   laboratorio.   È   richiesto  uno   spazio  presso   il   CSMT  dove   installare   le  postazioni   (circa  mq  30),  con  prese  di  rete  a  muro  e  accesso  alla  rete  WiFi  di  ateneo.  I  server  verranno  installati  in  apposite  sale  server  già  esistenti  nell’Ateneo.  

Descrizione   Unità   Costo  stimato  (IVA  inclusa)  HPC  2x  Intel  Xeon  8-­‐Core,  2.4  GHz,  128GB  RAM,  HDD  18TB,  Linux  OS   2   €  17.000,00  circa  

PC  Intel  Core  i7,  3.6GHz,  display  24”  LED,  DRAM  DDR3  a  doppio  canale  8GB,  HDD  1TB  SATA3,  Scheda  Grafica  Nvidia  GeForce  GTx745  2GB,  Windows  7/8.1,  kit  tastiera,  mouse  wireless  

3   €  4.000,00  circa  

TOTALE   €  21.000,00  circa    

Si   prevede   l’utilizzo   di   servizi   di   data   storage   e   di   calcolo   in   outsourcing   presso   CINECA  definita   da   una   convenzione   che   parta   da   una   base   fissa   definita   come   di   seguito,   ma   che  contempli  la  possibilità  di  cofinanziamento  al  50%  delle  risorse  sia  di  calcolo  che  di  storage  da  parte   di   CINECA   su   specifici   progetti   di   comune   interesse   (ad   esempio  

Page 4: Progetto Operativo LABORATORIO BIGOPENDATA v2015 09 · 2016-11-11 · 2! 1.& Lineeguidaseguiteperladefinizionedeirequisitidibase ! I referenti del progetto operativo hanno definito

   

4  

bioinformatica/genomica)   con  possibilità  quindi  di   aumentare   considerevolmente   le   risorse  disponibili   senza   incidere   sul   budget   a   carico   dell’Ateneo.   La   convenzione   potrà   prevedere  una   struttura   modulare   tale   da   permettere   una   certa   flessibilità   nell’arco   del   biennio  sull’allocazione   delle   risorse:   spazio   vs   calcolo.   Saranno   altresì   messe   a   disposizione   della  convenzione  le  nuove  macchine  TIER-­‐0  in  via  di  installazione  presso  il  CINECA  (previste  per  2016),  con  ulteriori  evoluzioni  previste  circa  ogni  9  mesi.  

Descrizione   Periodo   Costo  stimato  Storage  Big  Data  CINECA  -­‐  300€  a  TB/anno  per  storage  su  area  WORK,    200€  a  TB/anno  per  storage  DRES,  80€  a  TB/anno  per  storage  su  nastro,  per  archiviazione  a  medio/lungo  termine  

2  anni   €  90.000,00  circa  

Super-­‐calcolo  CINECA  -­‐  15.000€  per  300.000  ore  standard  CPU/anno   2  anni   €  30.000,00  circa  

TOTALE   €  120.000,00  circa    

2.2   Software  (punto  3)  Di  seguito  viene  elencato  il  software  da  installare  nel  laboratorio.  Visti  i  limiti  di  budget,  per  il  momento  si  è  deciso  di  prediligere,  nel  caso  di  software  con   licenze  non  gratuite,  prodotti  a  maggiore   diffusione,   capaci   di   soddisfare   le   richieste   di   più   gruppi   di   ricerca   all’interno  dell’Ateneo.   Nel   caso   invece   di   software   con   licenze   non   gratuite,   ma   per   i   quali   esiste  un’alternativa  open  source  o  gratuita,  la  scelta  verte  su  quest’ultima.    

Tipologia   Descrizione   Periodo   Costo  stimato  (IVA  inclusa)  

Software  di  analisi  statistica  

STATA  14  MP6  –  5  nuove  licenze  di  tipo  

Educational  Network  (6  core)  

one  time   €  6.000,00  circa    

Software  generico  per  il  calcolo   R   one  time   Licenza  open  source  GNU  general  

Public  License  Software  per  la  gestione  di  basi  di  dati  relazionali  

PostgreSQL   one  time   Licenza  libera  (licenza  BSD)  

MySQL   one  time   Licenza  open  source  GNU  general  Public  License  

Software  per  la  gestione  di  dati  non/semi-­‐strutturati  (NoSQL,  NewSQL)  

Hadoop  2.0  (common  libraries,  HDFS,  YARN,  

MapReduce)  one  time   Licenza  open  source  (Apache  

License  2.0)  

Document-­‐oriented  NoSQL  DBMS  (e.g.,  MongoDB,  CouchDB,  

OrientDB)  

one  time   Licenze  libere  

Graph-­‐based  NoSQL  DBMS  (e.g.,  MapGraph,  Neo4j,  OrientDB)  

one  time   Licenze  libere  

Key-­‐value  store  NoSQL  DBMS  (e.g.,  REDIS)   one  time   Licenze  libere  

Altri  NoSQL  DBMS  (e.g.,  column-­‐oriented  DBMS,   one  time   Licenze  libere  

Page 5: Progetto Operativo LABORATORIO BIGOPENDATA v2015 09 · 2016-11-11 · 2! 1.& Lineeguidaseguiteperladefinizionedeirequisitidibase ! I referenti del progetto operativo hanno definito

   

5  

MonetDB)  

Software  GIS  

GRASS  GIS  –  Usato  soprattutto  per  

modellistica  e  analisi  one  time   Licenza  open  source  GNU  general  

Public  License  

QUANTUM  GIS  –  Applicazione  desktop  con  interfaccia  grafica  

molto  intuitiva  

one  time   Licenza  open  source  GNU  general  Public  License  

SAGA  GIS  –  Usato  per  editare  dati  spaziali   one  time   Licenza  open  source  GNU  general  

Public  License  Software  per  simulazioni  del  traffico  

MATSim  (the  Multi-­‐Agent  Transport  Simulation  Toolkit)  

one  time   Licenza  libera  open  source  

Software  per  la  simulazione  del  routing  

Diverse  soluzioni  open  source  disponibili  (e.g.,  GNU  –  General  Network  Simulator,  NetKit)  

one  time   Licenze  libere  

Altro  software   Gaussian  –  Licenza  site  level   one  time   €  6.000,00  circa  

TOTALE   €  12.000,00  circa    

2.3   Personale  (punto  4)  Si   prevede   il   finanziamento   di   3   assegni   di   ricerca   biennali   (che   possono   essere   utilizzati  anche   come   cofinanziamento  di   borse  di  dottorato),   per  un   totale  di   circa  €  150.000,00.     I  profili  degli  assegnisti  di  ricerca  sono  dettagliati  di  seguito.  

N.1  assegno  di  ricerca  biennale  (area  scienze  ingegneristiche)  

Competenze   professionali   ritenute   preferenziali:   competenze   informatiche   nell’utilizzo   di  metodi  e  strumenti  per   la  gestione,    organizzazione,  analisi,   classificazione  e   integrazione  di  dati,   nello   sviluppo   di   applicazioni   con   DBMS   relazionali   e   NoSQL/NewSQL,   conoscenza   di  tecnologie  Semantic  Web  e  Social  Web.  

N.1  assegno  di  ricerca  biennale  (area  medica)  

Competenze   richieste:   Competenze   informatiche   di   gestione   di   basi   dati   e  di  programmazione,  conoscenza  di  metodi  e  modelli  per  analisi  statistiche  multivariate  e  relativi  software   anche   open   source,   con   applicazioni   in   ambito   medico   e   biologico,  competenza  informatica   nell'accesso   a   basi   di   dati   online   di   natura   biomedica,   conoscenza   di  metodi   di  simulazione   e  ottimizzazione   e   relativi  software,   conoscenze   almeno   basilari   di   concetti   di  biologia  e  genetica.

N.1  assegno  di  ricerca  biennale  (area  economia  e  management)  

Competenze   richieste:   Competenze   informatiche   di   gestione   di   basi   dati   e  di  programmazione,   conoscenza   di   metodi   per   analisi   statistiche,   di   simulazione   e  ottimizzazione,   e   relativi   software   per   applicazioni   nell'ambito  dell'economia   e   del  management  .  

Page 6: Progetto Operativo LABORATORIO BIGOPENDATA v2015 09 · 2016-11-11 · 2! 1.& Lineeguidaseguiteperladefinizionedeirequisitidibase ! I referenti del progetto operativo hanno definito

   

6  

Nell’ambito  del  Laboratorio,  gli  assegnisti  saranno  impegnati  nella  realizzazione  di  strumenti  per   la   gestione   e   organizzazione   di   dati,   creazione   delle   basi   documentali   e   statistiche   dei  progetti,   nonché   nell'individuazione   delle   metodologie   necessarie,   nella   creazione   della  modellistica  e  nella  stesura  dei  rapporti  di  ricerca.  Agli  assegnisti  sarà  richiesta  l’interazione  e  la   collaborazione   con   ricercatori   e   docenti   in   ambiti   disciplinari   eterogenei,   nonché  l’interazione   e   la   collaborazione   con   gli   altri   Laboratori,   data   la   possibile   eterogeneità   dei  progetti   di   interesse   per   il   Laboratorio   e   il   carattere   profondamente   trasversale   delle  competenze  portate  dal   Laboratorio   stesso.  A   titolo  di   esempio,   si   riportano   alcuni   contesti  applicativi:  

• valutazione  economica  delle  tecnologie  sanitarie,  agro-­‐alimentari  e  farmaceutiche;  • sviluppo  di  un  modello  di  valutazione  per  la  gestione  dei  flussi,  la  generazione  di  report  

sullo   stato   del   sistema   e   la   valutazione   periodica   e   attesa   (nel   lungo   periodo)   degli  impatti  in  termini  di  sicurezza  alimentare  e  di  salute  nelle  popolazioni  target;  

• analisi  di  accessibilità  ed  equità  dei  servizi  sanitari;  • progettazione  e  valutazione  delle  riforme  del  sistema  sanitario;  • studio  delle  preferenze,  delle  scelte  e  dei  comportamenti  dei  consumatori,  dei  pazienti,  

delle  imprese  e  dei  fornitori  di  servizi  socio-­‐sanitari;  • progettazione   e   valutazione   degli   incentivi,   dei   sistemi   di   rimborso   e   dei   modelli  

organizzativi;  • progettazione   e   valutazione   dei   sistemi   di   assicurazione   sociale,   dei   contratti  

assicurativi  privati  e  delle  modalità  alternative  di  finanziamento  di  progetti;  • studio   degli   aspetti   legali   su   questioni   di   discriminazione,   di   privacy,   procurement,  

sicurezza  alimentare,  ambientale  e  dei  dati;    • life  insurance,  healthcare  management;  • sviluppo  di  strumenti  per  pianificazione  e  gestione  delle  attività  diagnostiche  in  reparti  

ospedalieri;  • sviluppo  di  strumenti  informatici  avanzati  (basati  su  tecniche  di  intelligenza  artificiale  

e  ingegneria  della  conoscenza)  a  supporto  della  qualità  della  prassi  clinica.  

2.4   Banche  dati  (punto  5)  A   integrazione   delle   banche   dati   già   gestite   dal   Servizio   Bibliotecario   di   Ateneo   (SBA),   €  97.000,00  circa  saranno  da  destinarsi  all'acquisizione,  in  accordo  con  lo  SBA,  di  nuove  banche  dati,   da   decidersi   a   fronte   delle   tematiche   di   interesse   nell'ambito   di   progetti   afferenti   al  laboratorio.  A  titolo  di  esempio,  di  seguito  si  fornisce  un  possibile  elenco  di  banche  dati  (non  esaustivo)  tra  cui  scegliere.  

Descrizione   Periodo  HGMD  and  Genome  Trax   2  anni  

Bloomberg  professional   2  anni  

Bankscope  -­‐  Ver.  World  +  Ownership   2  anni  

Zephyr   2  anni  

Medtrack   2  anni    

Page 7: Progetto Operativo LABORATORIO BIGOPENDATA v2015 09 · 2016-11-11 · 2! 1.& Lineeguidaseguiteperladefinizionedeirequisitidibase ! I referenti del progetto operativo hanno definito

   

7  

2.5   Gestione  ordinaria  (punto  6)  Fuori  budget  vanno  considerati  i  costi  di  manutenzione  ordinaria.  

3.    Valutazione  finale  degli  investimenti  proposti  Il  preventivo  di  spesa  relativo  ai  punti  1-­‐5  si  attesta  intorno  a  circa  €  400.000  ed  è  coerente  con   il   budget   stanziato  per   il   Laboratorio.  Di   seguito  viene   fornito  un  prospetto   riassuntivo  degli  investimenti  da  pianificare.  

Descrizione   Costo  stimato  (IVA  inclusa)  Punto1)  HW  e  servizi  di  super-­‐calcolo  (cluster  e  High  Performance  PC  multiprocessore  con  acceleratori  GPU)   €  21.000,00  circa  

Punto  2)  Servizi  di  storage  e  super-­‐calcolo  ad  alta  capacità  ed  elevati  throughput  (per  2  anni)   €  120.000,00  circa  

Punto  3)  Licenze  software  (per  2  anni)   €  12.000,00  circa  

Punto  4)  Personale  (n.3  assegni  di  ricerca  biennali)   €  150.000,00  circa  

Punto  5)  Banche  dati  (da  acquisire  nell'ambito  di  progetti  afferenti  al  laboratorio)   €  97.000,00  circa  

TOTALE   €  400.000,00  

BUDGET  PREVISTO   €  400.000,00