Operational Data Store vs Data Lake

Operational Data Storevs

Data Lake

Cosa serve alla vostra organizzazione

Quanti dati?• Una cosa non manca alla aziende: dati

• Flussi dei sensori• Sentiment sui social• Log dei server• App mobile

• Analisti stimano una crescita del volume di dati del 40% annuo, 90% dei quali non strutturati.

• Le tecnologie tradizionali (alcune disegnate 40 anni fa) non sono sufficienti

La Promessa del “Big Data”• Scoprire informazioni collezionando ed analizzando i dati porta

la promessa di• Un vantaggio competitivo• Risparmio economico

• Un esempio diffuso dell’utilizzo della tecnologia Big Data è la “Single View”: aggregare tutto quello che si conosce di un cliente per migliorarne l’ingaggio e i ricavi

• Il tradizionale EDW scricchiola sotto il carico, sopraffatto dal volume e varietà dei dati (e dall’alto costo).

Classica Struttura DWH

Limiti• Alto forzo implementativo

• la trasformazione e la standardizzazione dei dati iniziali in un modello dei dati armonico rappresenta il cuore del concetto del DWH. Questo porta ad un alto livello di difficoltà implementativa

• Rigidità• Il modello definito è rigido e difficilmente espandibile ed integrabile con fonti di

dati esterne.• No Dati Grezzi

• lo scopo del DWH è la standardizzazione in modo da semplificare le analisi.

• Volume dei Dati• DWH possono avere a che fare con volume di dati enormi ma hanno bisogno di

database dedicati e hardware ottimizzato.

Nuovo Concetto?• Il concetto del Data Lake serve per porre rimedio a queste

limitazioni mettendo a disposizione tutti i dati necessari alle analisi in un unico posto centralizzato e senza cambiare il formato dei dati

• Successivamente solo una porzione dei dati sarà usata per le analisi

Struttura del Data Lake

Funzionamento• I dati dei sistemi sorgente sono caricati cosi’ come sono dentro

ad un layer di dati grezzi senza nessuna trasformazione logica• La tecnologia non è basata su un DB relazionale ma su

struttura di file system (HDFS di Hadoop ad esempio)• Le query vengono eseguite direttamente sui dati grezzi ma

sono molto più complesse da eseguire in quanto devono contenere anche la logica di armonizzazione e consolidamento dei dati

• L’aggiunta di nuove fonti di dati è molto semplice

Comparazione Data Lake vs DWH • Mappatura 1:1 con il sistema

sorgente• Dati persistenti per lungo tempo• Diverse tecnologie (hadoop,

NoSQL)• Query complesse• Preparazione dei dati al volo• Scalabilità lineare• Sviluppo Agile

• Dati armonizzati e standardizzati

• Dati Originali non disponibili• Staging area temporanea• Mappatura relazionale• Studio completo del data model• Scalabilità su HW speciale• Sviluppo orientato all’immagine

target

La Nascita dei Data Lake• Molte aziende hanno iniziato a guardare verso un’architettura

Data Lake:• Piattaforma per gestire i dati in modo flessibile• Per aggregare e correlare i dati cross-silos in un unico posto• Permette l’esplorazione di tutti i dati

• La piattaforma più in voga in questo momento è Hadoop:• Permette la scalabilità orizzontale su hardware commodity• Permette una schema di dati variegati ottimizzato in lettura• Include strati di lavorazione dei dati in SQL e linguaggi comuni• Grandi referenze (Yahoo e Google in primis)

Perché Hadoop?• Hadoop Distributed FileSystem è disegnato per scalare su

grandi operazioni batch• Fornisce un modello write-one read-many append-only • Ottimizzato per lunghe scansione di TB o PB di dati• Questa capacità di gestire dati multi-strutturati è usata:

• Segmentazione dei clienti per campagne di marketing e recommendation

• Analisi predittiva• Modelli di Rischio

Hadoop è la risposta a tutto?• Nel nostro mondo guidato ormai dai dati, i millisecondi sono

importanti.• Ricercatori IBM affermano che il 60% dei dati perde valore alcuni

millisecondi dopo la generazione• Ad esempio identificare una transazione di borsa fraudolenta può

essere inutile dopo alcuni minuti• Gartner predice che il 70% delle installazioni di Hadoop fallirà

per non aver raggiunto gli obiettivi di costo e di incremento del fatturato.

I Data Lake vanno bene per tutto?• I Data Lake sono disegnati per fornire l’output di Hadoop alle

applicazioni online. Queste applicazioni hanno dei requisiti tra cui:

• Latenza di risposta in ms• Accesso random su un sottoinsieme di dati indicizzato• Supporto di query espressive ed aggregazioni di dati• Update di dati che cambiano valori frequentemente in real-time

Data Lake con MongoDB?• MongoDB può risolvere questi problemi aggiungendo un layer

operazionale che permetta di:• Mantenere una storia di breve più breve• Eseguire query su porzioni di dati ridotte• Eseguire query puntuali• Interagire con tool di BI

• Integrazione con Hadoop• MongoDB ha un connettore per interagire con HDFS

Diverso Approccio ai dati• I dati sono la linfa vitale delle aziende • Deliverare i giusti dati alle varie business unit è spesso molto

complesso

Operational Data Store• Una soluzione migliore alle complicate ed inefficienti transazioni

ad hoc è di posizionare un ODS tra i database legacy e il EDWH e BI

• ODS è una copia consistente, transazionale e in tempo reale dei sistemi legacy di produzione eterogenei.

• ODS diventa il repository centrale a cui i data marts si appoggiano per consumare dati.

Schema ODS

Che Cosa è un ODS?• ODS è un costrutto architetturale che

• E’ orientato al soggetto (spesso il cliente)• Integrato• Volatile• Valori storici limitati• Dati interni dettagliati

• Non è un’alternativa al DWH

ODS con MongoDB?• Customer centricity: la modellazione dei dati flessibile di

MongoDB permette di creare uno schema orientato al cliente senza I problemi di armonizzazione e standardizzazione del DWH

• Permette una replicazione in near real time dal database legacy (meno di un secondo di latenza)

• Permette di rispondere a molteplici casi d’uso

Vantaggi dell’ODS con MongoDB• Schema flessibile permette l’aggiunta di nuove informazioni e

nuovi flussi con semplicità• La scalabilità di MongoDB permette di poter gestire applicazioni

moderne sia web che mobile e di poter crescere l’infrastruttura in modo incrementale con il crescere dell’utilizzo

• Per questi motivi l’ODS con MongoDB è usato per l’offloading dei sistemi di produzione (Riduzione MIPS è il caso più frequente).

Schema di esempio

Data Marts

Mobile

Batch e Real Time

Ultimi 12 mesi

CDC e trasformazione

External Data Source

Raw Data

Reports

Analytics

Data Scientist

DB Legacy

Ricapitolando• ODS

• Flexible Schema• Real Time/Batch• Read Optimized Schema• Offload della Produzione

• DL• Schema on Read• Batch• Dati Grezzi• Esplorazione dei Dati

Grazie!

Operational Data Store vs Data Lake

Data & Analytics

Transcript of Operational Data Store vs Data Lake

Lake Sport Garda Trentino - senza ricettività

Operational Transformation su documenti strutturati Transformation su... · SCUOLA DI SCIENZE Corso di Laurea in Informatica Operational Transformation su documenti strutturati ...

PRESENTAZIONE DEL PROGETTO LAKE ONTARIO Cecconi Maddalena 758770 maddalenacecconi@gmail.com 3452164098 Farese Denise 759938 denise.farese@gmail.com 3331256661.

XXI Convegno Nazionale Information Systems Auditing · Responsabilità dei vertici aziendali 2. Il piano considera le “major operational disruptions” ... conformità alle norme

LA “VETRINA” DEI TITOLI EDILIZI (Promenade: LA “VETRINA” DEI TITOLI EDILIZI (Promenade: Musorgsky – Emerson – Lake – Palmer ) Seminario Collegio Geometri.

Lake of Iseo - Tourism Into

Ricerca Operativa - CNRliuzzi/RO2019/lezione_intro.pdf · 2019. 9. 27. · Ricerca Operativa e la traduzione letterale dell’inglese (britannico) \operational research" o (americano)

ISEO LAKE XPRESS Smart Tourist Shuttle Service on demand

2 ottobre - Lake Como

Lake Sport Garda Trentino

impa idro 05 7-12-2005 16:56 Pagina 2 · Il lago d’Idro é situato geograficamente tra il ... Lake Idro is situated between Lake Garda and Lake Iseo.The River Chiese flows into

Politici Publicepoliticipublice.ro/.../Adresa_infiintare_gradinita... · Proiect cofinantat din Programul Operational Capital Uman 2014 — 2020 "Dezvoltare integrata in Cudalbi,

MICROCHILLER - Веб-студия POLSKOY · 2017. 4. 20. · MICROCHILLER Manuale di uso per l’accesso alle funzioni User manual operational functions Controllo a microprocessore

Fame - kwizera.it · Ferrarini Nicoletta (LAKE ANGELS) Ghilotti Martino (Resp. Kwizera Nord Italia ) Gonnelli Alessandro (LAKE ANGELS) Lemetti Duse (Insegnante) Marchi Baldi Liana

LUXURY HOTEL IL SERENO 5***** LAKE COMO - (LAGO DI COMO) · 2017. 12. 26. · LUXURY HOTEL "IL SERENO" 5***** LAKE COMO - (LAGO DI COMO) Appartenente alla catena SERENO HOTELS (con

Televisione Interattiva Operational Planning Roma, 15 marzo 2002 Riservata Personale Dott. Bondi BOZZA.

Particolari tecnici, estetici, finiture o altro possono essere … · SQUARE Operational Office furniture system with alu-minium structure connected with aluminium fusion joints.Table

Lake Maggiore - The Lake

Iseo, A Lake Into the Heart

LAKE STONE - Ceramiche Supergres · Lake Stone un prodotto ceramico che si ispira alle pietre naturali estratte da oltre 400 anni nel cuore della regione inglese del Lakeland. La

LUXURY HOTEL IL SERENO 5* LAKE COMO - (LAGO DI COMO) · 2017. 12. 26. · LUXURY HOTEL "IL SERENO" 5* LAKE COMO - (LAGO DI COMO) Appartenente alla catena SERENO HOTELS (con