Framework tecnologici per i Big Data: Data Lake & Data River

15
Workshop Framework tecnologici per i Big data Andrea Gioia 27/6/2016 Osservatorio Big Data del Politecnico di Milano

Transcript of Framework tecnologici per i Big Data: Data Lake & Data River

Workshop Framework tecnologici per i Big data

Andrea Gioia

27/6/2016

Osservatorio Big Data del Politecnico di Milano

Il mondo che conosciamo

EAI: SOA (WS + ESB)

Data storage: Relazionali (OLAP + DWH)

Landscape applicativo: Applicazioni mature e consolidate nel tempo

Il futuro non è più (solo) quello di una volta

Persone (Social)

Organizzazioni (Data Monetization, Open Data)

Cose (IoT)

Chi produce i dati?Lungo quali dimensioni cresce la complessità?

Il mondo che verrà

EAI: Microservices

Data storage: Relazionali (OLAP + DWH)

Landscape applicativo: In continua evoluzione

Un mondo ricco di opportunità…

…per chi sa coglierle

Martec’s Law

Rimanere fermi è un rischio

Le nuove tecnologie sebbene spesso immature crescono a ritmi esponenziali (technologytrigger). Se ben impiegate possono garantire un incremento incredibile di vantaggio competitivo (disruptive innovation)

Le vecchie tecnologie sebbene consolidate crescono poco (plateau of productivity). Anche se utilizzate al meglio garantiscono un incremento marginale di vantaggio competitivo (incrementalinnovation)

L’esempio (negativo) di Kodak

Come gestire la complessità

Data Bus (es.Kafka)

Data System

Data System

Data System

Data System

App App

Spaghetti Architecture Data Bus Architecture

Data lake e data river

Senza un data river il data lake diventa ben presto una palude

Il data lake e il dwh

Data Lake1. Dati non aggregati2. Dati Strutturati e non3. Computazione batch

DWH1. Dati aggregati2. Dati Strutturati 3. Computazione online

Uno non sostituisce l’altro.

Data Bus

Data Lake

DWH

Data governance

• L’importanza della qualità del dato rimane centrale (l’ETL non è morto)

• Metadati nel data river per l’interazione tra le componenti (schema registry) e data lineage

• Metadati nel DL per il data discovery(informed data lake)

Conclusioni

• Non rimanere fermi

• Data platform (data bus e data governance)

• Processo agile (iterazioni corte, MVC e non temere di svoltare quando serve)

• Sperimentare nuove strade (disruptive innovation vs incremental innovation)

• Selezionare con cura i propri compagni di viaggio

GRAZIE!