Post on 21-Apr-2017
Operational Data Storevs
Data Lake
Cosa serve alla vostra organizzazione
Quanti dati?• Una cosa non manca alla aziende: dati
• Flussi dei sensori• Sentiment sui social• Log dei server• App mobile
• Analisti stimano una crescita del volume di dati del 40% annuo, 90% dei quali non strutturati.
• Le tecnologie tradizionali (alcune disegnate 40 anni fa) non sono sufficienti
La Promessa del “Big Data”• Scoprire informazioni collezionando ed analizzando i dati porta
la promessa di• Un vantaggio competitivo• Risparmio economico
• Un esempio diffuso dell’utilizzo della tecnologia Big Data è la “Single View”: aggregare tutto quello che si conosce di un cliente per migliorarne l’ingaggio e i ricavi
• Il tradizionale EDW scricchiola sotto il carico, sopraffatto dal volume e varietà dei dati (e dall’alto costo).
Classica Struttura DWH
Limiti• Alto forzo implementativo
• la trasformazione e la standardizzazione dei dati iniziali in un modello dei dati armonico rappresenta il cuore del concetto del DWH. Questo porta ad un alto livello di difficoltà implementativa
• Rigidità• Il modello definito è rigido e difficilmente espandibile ed integrabile con fonti di
dati esterne.• No Dati Grezzi
• lo scopo del DWH è la standardizzazione in modo da semplificare le analisi.
• Volume dei Dati• DWH possono avere a che fare con volume di dati enormi ma hanno bisogno di
database dedicati e hardware ottimizzato.
Nuovo Concetto?• Il concetto del Data Lake serve per porre rimedio a queste
limitazioni mettendo a disposizione tutti i dati necessari alle analisi in un unico posto centralizzato e senza cambiare il formato dei dati
• Successivamente solo una porzione dei dati sarà usata per le analisi
Struttura del Data Lake
Funzionamento• I dati dei sistemi sorgente sono caricati cosi’ come sono dentro
ad un layer di dati grezzi senza nessuna trasformazione logica• La tecnologia non è basata su un DB relazionale ma su
struttura di file system (HDFS di Hadoop ad esempio)• Le query vengono eseguite direttamente sui dati grezzi ma
sono molto più complesse da eseguire in quanto devono contenere anche la logica di armonizzazione e consolidamento dei dati
• L’aggiunta di nuove fonti di dati è molto semplice
Comparazione Data Lake vs DWH • Mappatura 1:1 con il sistema
sorgente• Dati persistenti per lungo tempo• Diverse tecnologie (hadoop,
NoSQL)• Query complesse• Preparazione dei dati al volo• Scalabilità lineare• Sviluppo Agile
• Dati armonizzati e standardizzati
• Dati Originali non disponibili• Staging area temporanea• Mappatura relazionale• Studio completo del data model• Scalabilità su HW speciale• Sviluppo orientato all’immagine
target
La Nascita dei Data Lake• Molte aziende hanno iniziato a guardare verso un’architettura
Data Lake:• Piattaforma per gestire i dati in modo flessibile• Per aggregare e correlare i dati cross-silos in un unico posto• Permette l’esplorazione di tutti i dati
• La piattaforma più in voga in questo momento è Hadoop:• Permette la scalabilità orizzontale su hardware commodity• Permette una schema di dati variegati ottimizzato in lettura• Include strati di lavorazione dei dati in SQL e linguaggi comuni• Grandi referenze (Yahoo e Google in primis)
Perché Hadoop?• Hadoop Distributed FileSystem è disegnato per scalare su
grandi operazioni batch• Fornisce un modello write-one read-many append-only • Ottimizzato per lunghe scansione di TB o PB di dati• Questa capacità di gestire dati multi-strutturati è usata:
• Segmentazione dei clienti per campagne di marketing e recommendation
• Analisi predittiva• Modelli di Rischio
Hadoop è la risposta a tutto?• Nel nostro mondo guidato ormai dai dati, i millisecondi sono
importanti.• Ricercatori IBM affermano che il 60% dei dati perde valore alcuni
millisecondi dopo la generazione• Ad esempio identificare una transazione di borsa fraudolenta può
essere inutile dopo alcuni minuti• Gartner predice che il 70% delle installazioni di Hadoop fallirà
per non aver raggiunto gli obiettivi di costo e di incremento del fatturato.
I Data Lake vanno bene per tutto?• I Data Lake sono disegnati per fornire l’output di Hadoop alle
applicazioni online. Queste applicazioni hanno dei requisiti tra cui:
• Latenza di risposta in ms• Accesso random su un sottoinsieme di dati indicizzato• Supporto di query espressive ed aggregazioni di dati• Update di dati che cambiano valori frequentemente in real-time
Data Lake con MongoDB?• MongoDB può risolvere questi problemi aggiungendo un layer
operazionale che permetta di:• Mantenere una storia di breve più breve• Eseguire query su porzioni di dati ridotte• Eseguire query puntuali• Interagire con tool di BI
• Integrazione con Hadoop• MongoDB ha un connettore per interagire con HDFS
Diverso Approccio ai dati• I dati sono la linfa vitale delle aziende • Deliverare i giusti dati alle varie business unit è spesso molto
complesso
Operational Data Store• Una soluzione migliore alle complicate ed inefficienti transazioni
ad hoc è di posizionare un ODS tra i database legacy e il EDWH e BI
• ODS è una copia consistente, transazionale e in tempo reale dei sistemi legacy di produzione eterogenei.
• ODS diventa il repository centrale a cui i data marts si appoggiano per consumare dati.
Schema ODS
Che Cosa è un ODS?• ODS è un costrutto architetturale che
• E’ orientato al soggetto (spesso il cliente)• Integrato• Volatile• Valori storici limitati• Dati interni dettagliati
• Non è un’alternativa al DWH
ODS con MongoDB?• Customer centricity: la modellazione dei dati flessibile di
MongoDB permette di creare uno schema orientato al cliente senza I problemi di armonizzazione e standardizzazione del DWH
• Permette una replicazione in near real time dal database legacy (meno di un secondo di latenza)
• Permette di rispondere a molteplici casi d’uso
Vantaggi dell’ODS con MongoDB• Schema flessibile permette l’aggiunta di nuove informazioni e
nuovi flussi con semplicità• La scalabilità di MongoDB permette di poter gestire applicazioni
moderne sia web che mobile e di poter crescere l’infrastruttura in modo incrementale con il crescere dell’utilizzo
• Per questi motivi l’ODS con MongoDB è usato per l’offloading dei sistemi di produzione (Riduzione MIPS è il caso più frequente).
Schema di esempio
ODS
Data Marts
Mobile
Web
Batch e Real Time
Ultimi 12 mesi
CDC e trasformazione
DL
External Data Source
Batch
Raw Data
Reports
Analytics
Data Scientist
DB Legacy
Ricapitolando• ODS
• Flexible Schema• Real Time/Batch• Read Optimized Schema• Offload della Produzione
• DL• Schema on Read• Batch• Dati Grezzi• Esplorazione dei Dati
Grazie!