Operational Data Store vs Data Lake

Operational Data Storevs

Data Lake

Cosa serve alla vostra organizzazione

Quanti dati?• Una cosa non manca alla aziende: dati

• Flussi dei sensori• Sentiment sui social• Log dei server• App mobile

• Analisti stimano una crescita del volume di dati del 40% annuo, 90% dei quali non strutturati.

• Le tecnologie tradizionali (alcune disegnate 40 anni fa) non sono sufficienti

La Promessa del “Big Data”• Scoprire informazioni collezionando ed analizzando i dati porta

la promessa di• Un vantaggio competitivo• Risparmio economico

• Un esempio diffuso dell’utilizzo della tecnologia Big Data è la “Single View”: aggregare tutto quello che si conosce di un cliente per migliorarne l’ingaggio e i ricavi

• Il tradizionale EDW scricchiola sotto il carico, sopraffatto dal volume e varietà dei dati (e dall’alto costo).

Classica Struttura DWH

Limiti• Alto forzo implementativo

• la trasformazione e la standardizzazione dei dati iniziali in un modello dei dati armonico rappresenta il cuore del concetto del DWH. Questo porta ad un alto livello di difficoltà implementativa

• Rigidità• Il modello definito è rigido e difficilmente espandibile ed integrabile con fonti di

dati esterne.• No Dati Grezzi

• lo scopo del DWH è la standardizzazione in modo da semplificare le analisi.

• Volume dei Dati• DWH possono avere a che fare con volume di dati enormi ma hanno bisogno di

database dedicati e hardware ottimizzato.

Nuovo Concetto?• Il concetto del Data Lake serve per porre rimedio a queste

limitazioni mettendo a disposizione tutti i dati necessari alle analisi in un unico posto centralizzato e senza cambiare il formato dei dati

• Successivamente solo una porzione dei dati sarà usata per le analisi

Struttura del Data Lake

Funzionamento• I dati dei sistemi sorgente sono caricati cosi’ come sono dentro

ad un layer di dati grezzi senza nessuna trasformazione logica• La tecnologia non è basata su un DB relazionale ma su

struttura di file system (HDFS di Hadoop ad esempio)• Le query vengono eseguite direttamente sui dati grezzi ma

sono molto più complesse da eseguire in quanto devono contenere anche la logica di armonizzazione e consolidamento dei dati

• L’aggiunta di nuove fonti di dati è molto semplice

Comparazione Data Lake vs DWH • Mappatura 1:1 con il sistema

sorgente• Dati persistenti per lungo tempo• Diverse tecnologie (hadoop,

NoSQL)• Query complesse• Preparazione dei dati al volo• Scalabilità lineare• Sviluppo Agile

• Dati armonizzati e standardizzati

• Dati Originali non disponibili• Staging area temporanea• Mappatura relazionale• Studio completo del data model• Scalabilità su HW speciale• Sviluppo orientato all’immagine

target

La Nascita dei Data Lake• Molte aziende hanno iniziato a guardare verso un’architettura

Data Lake:• Piattaforma per gestire i dati in modo flessibile• Per aggregare e correlare i dati cross-silos in un unico posto• Permette l’esplorazione di tutti i dati

• La piattaforma più in voga in questo momento è Hadoop:• Permette la scalabilità orizzontale su hardware commodity• Permette una schema di dati variegati ottimizzato in lettura• Include strati di lavorazione dei dati in SQL e linguaggi comuni• Grandi referenze (Yahoo e Google in primis)

Perché Hadoop?• Hadoop Distributed FileSystem è disegnato per scalare su

grandi operazioni batch• Fornisce un modello write-one read-many append-only • Ottimizzato per lunghe scansione di TB o PB di dati• Questa capacità di gestire dati multi-strutturati è usata:

• Segmentazione dei clienti per campagne di marketing e recommendation

• Analisi predittiva• Modelli di Rischio

Hadoop è la risposta a tutto?• Nel nostro mondo guidato ormai dai dati, i millisecondi sono

importanti.• Ricercatori IBM affermano che il 60% dei dati perde valore alcuni

millisecondi dopo la generazione• Ad esempio identificare una transazione di borsa fraudolenta può

essere inutile dopo alcuni minuti• Gartner predice che il 70% delle installazioni di Hadoop fallirà

per non aver raggiunto gli obiettivi di costo e di incremento del fatturato.

I Data Lake vanno bene per tutto?• I Data Lake sono disegnati per fornire l’output di Hadoop alle

applicazioni online. Queste applicazioni hanno dei requisiti tra cui:

• Latenza di risposta in ms• Accesso random su un sottoinsieme di dati indicizzato• Supporto di query espressive ed aggregazioni di dati• Update di dati che cambiano valori frequentemente in real-time

Data Lake con MongoDB?• MongoDB può risolvere questi problemi aggiungendo un layer

operazionale che permetta di:• Mantenere una storia di breve più breve• Eseguire query su porzioni di dati ridotte• Eseguire query puntuali• Interagire con tool di BI

• Integrazione con Hadoop• MongoDB ha un connettore per interagire con HDFS

Diverso Approccio ai dati• I dati sono la linfa vitale delle aziende • Deliverare i giusti dati alle varie business unit è spesso molto

complesso

Operational Data Store• Una soluzione migliore alle complicate ed inefficienti transazioni

ad hoc è di posizionare un ODS tra i database legacy e il EDWH e BI

• ODS è una copia consistente, transazionale e in tempo reale dei sistemi legacy di produzione eterogenei.

• ODS diventa il repository centrale a cui i data marts si appoggiano per consumare dati.

Schema ODS

Che Cosa è un ODS?• ODS è un costrutto architetturale che

• E’ orientato al soggetto (spesso il cliente)• Integrato• Volatile• Valori storici limitati• Dati interni dettagliati

• Non è un’alternativa al DWH

ODS con MongoDB?• Customer centricity: la modellazione dei dati flessibile di

MongoDB permette di creare uno schema orientato al cliente senza I problemi di armonizzazione e standardizzazione del DWH

• Permette una replicazione in near real time dal database legacy (meno di un secondo di latenza)

• Permette di rispondere a molteplici casi d’uso

Vantaggi dell’ODS con MongoDB• Schema flessibile permette l’aggiunta di nuove informazioni e

nuovi flussi con semplicità• La scalabilità di MongoDB permette di poter gestire applicazioni

moderne sia web che mobile e di poter crescere l’infrastruttura in modo incrementale con il crescere dell’utilizzo

• Per questi motivi l’ODS con MongoDB è usato per l’offloading dei sistemi di produzione (Riduzione MIPS è il caso più frequente).

Schema di esempio

ODS

Data Marts

Mobile

Web

Batch e Real Time

Ultimi 12 mesi

CDC e trasformazione

DL

External Data Source

Batch

Raw Data

Reports

Analytics

Data Scientist

DB Legacy

Ricapitolando• ODS

• Flexible Schema• Real Time/Batch• Read Optimized Schema• Offload della Produzione

• DL• Schema on Read• Batch• Dati Grezzi• Esplorazione dei Dati

Grazie!

Operational Data Store vs Data Lake

Data & Analytics

Transcript of Operational Data Store vs Data Lake