Architettura dati moderna con Apache™ Hadoop® · Fig. 1 Architettura dati moderna con Apache...

of 10 /10
Architeura da moderna con Apache™ Hadoop® Presentato da Hortonworks® e Talend Architeura da moderna con Apache™ Hadoop®

Embed Size (px)

Transcript of Architettura dati moderna con Apache™ Hadoop® · Fig. 1 Architettura dati moderna con Apache...

  • Architettura dati moderna con Apache HadoopPresentato da Hortonworks e Talend

    Architettura datimoderna con Apache Hadoop

  • Architettura dati modernacon Apache Hadoop

    www.talend.com

    Sintesi

    Il data center non stato trasformato da Apache Hadoop, ma dai dati stessi.

    Subito dopo che le funzioni IT aziendali allinterno delle organizzazioni hanno adottato sistemi di gestione dei dati su larga scala, le strutture EDW (Enterprise Data Warehouse) si sono affermate come ambiente logico da utilizzare per tutti i dati aziendali. Attualmente ogni azienda dispone di un data warehouse che consente di modellare e acquisire lessenza delle attivit aziendali direttamente dai propri sistemi.

    Lesplosione di nuovi tipi di dati negli anni recenti, da fonti quali il Web e i dispositivi connessi o semplicemente da grandi volumi di record, ha esercitato una notevole pressione sui sistemi EDW.

    In risposta a questa trasformazione, un numero sempre crescente di aziende ha adottato Apache Hadoop per gestire lenorme aumento di dati mantenendo nel contempo la coesione del data warehouse.

    Nel presente documento vengono illustrati Apache Hadoop e le funzionalit di cui dispone come piattaforma dati, nonch il modo in cui in grado di integrarsi con Talend Big Data per offrire progetti di integrazione 10 volte pi rapidi rispetto allesecuzione manuale di MapReduce.

    Talend semplifica lintegrazione dei Big Data in modo che siate in grado di rispondere alle esigenze aziendali senza dover scrivere o gestire codice Apache Hadoop complesso. Grazie a Talend Big Data, potete integrare facilmente tutte le origini dati per casi di utilizzo diversi, ad esempio lottimizzazione del data warehouse, la sentiment analysis, lanalisi dei file di log dei siti Web, lanalisi predittiva, il rilevamento delle frodi o la creazione di un data lake aziendale.

    Per unorganizzazione, un data lake caratterizzato dai vantaggi di base seguenti:

    Nuove efficienze per larchitettura dati grazie a costi di archiviazione notevolmente ridotti e allottimizzazione dei carichi di lavoro di elaborazione dei dati, quali trasformazione e integrazione.

    Nuove opportunit per le aziende grazie a un accesso flessibile di tipo schema in lettura a tutti i dati aziendali e a unelaborazione per pi usi e pi carichi di lavoro degli stessi set di dati, dallelaborazione in batch a quella in tempo reale.

    La tecnologia alla base di Apache Hadoop costituita dai componenti seguenti:

    Hadoop Distributed File System. Il file system HDFS, basato su Java, un sistema di archiviazione dei dati scalabile e affidabile concepito appositamente per essere utilizzato su cluster di commodity server di grandi dimensioni.

    Apache Hadoop YARN. YARN un sistema modulare e di gestione delle risorse per motori di elaborazione dati in grado di interagire con dati archiviati in HDFS.

    Per unanalisi indipendente di Hortonworks Data Platform, scaricare il documento Forrester Wave: Big Data Hadoop Solutions,Q1 2014 di Forrester Research.

    1

    http://www.talend.com

  • Architettura dati modernacon Apache Hadoop

    www.talend.com

    Trasformazione dei dati

    Le funzioni IT aziendali allinterno delle organizzazioni affrontano ormai da anni le problematiche legate ai dati su larga scala. La maggior parte dei dati allinterno delle organizzazioni deriva da sistemi ERP (Enterprise Resource Planning), sistemi CRM (Customer Relationship Management) e altri sistemi di grandi dimensioni che supportano una funzione aziendale specifica. Subito dopo che questi sistemi di record sono diventati lo strumento per svolgere le attivit aziendali, il data warehouse si affermato come lambiente logico per i dati estratti da tali sistemi al fine di sfruttare le applicazioni di business intelligence, favorendo la nascita di un nuovo settore. Attualmente ogni azienda dispone di un data warehouse per modellare e acquisire lessenza delle attivit aziendali direttamente dai propri sistemi.

    La sfida dei nuovi tipi di dati

    La comparsa e lesplosione di nuovi tipi di dati negli ultimi anni hanno esercitato una notevole pressione su tutti i sistemi di dati allinterno dellorganizzazione. Questi nuovi tipi di dati nascono da sistemi di coinvolgimento, ad esempio siti Web, o dalla crescita dei dispositivi connessi.

    I dati che derivano da tali fonti sono dotati di un certo numero di caratteristiche che ne rendono problematica la gestione in un data warehouse:

    Crescita esponenziale. Si prevede che il valore stimato pari a 2,8 ZB di dati nel 2012 crescer fino al valore di 40 ZB entro il 2020. Si prevede inoltre che una percentuale pari all85% di tale crescita derivi da nuovi tipi, con un aumento dei dati generati dal computer stimato intorno a 15 volte entro il 2020. (Fonte: IDC)

    Natura diversa. I dati in ingresso possono essere poco strutturati o non esserlo affatto o possono comunque essere caratterizzati da una struttura che cambia troppo frequentemente per la creazione di uno schema affidabile al momento dellinserimento.

    Valore nei volumi elevati. Se considerati come gruppi di record singoli o di dimensioni ridotte, i dati in ingresso possono avere un valore minimo o addirittura inesistente, mentre nei volumi elevati o nel caso di prospettive pi a lungo termine, i dati possono essere ispezionati per ricavarne schemi e utilizzati per applicazioni avanzate di analisi.

    Crescita di Apache Hadoop

    Problematiche di acquisizione e archiviazione a parte, la combinazione di dati aziendali esistenti con il valore contenuto nei nuovi tipi di dati ormai collaudata da numerose aziende in molti settori, dalla vendita al dettaglio al settore sanitario, dalla pubblicit al settore energetico.

    La tecnologia che si affermata come strumento per affrontare la sfida e concretizzare il valore dei Big Data Apache Hadoop, il cui slancio stato descritto come inarrestabile da Forrester Research in Forrester Wave: Big Data Hadoop Solutions, Q1 2014.

    La crescita di Apache Hadoop negli ultimi anni ha ampliato le sue funzionalit, trasformandola da semplice soluzione di elaborazione dati per set di dati di grandi dimensioni a una piattaforma dati completamente sviluppata e dotata dei servizi necessari per lorganizzazione, dalla sicurezza alla gestione delle operazioni e cos via.

    Per ulteriori informazioni su questi nuovi tipi di dati, visitate il sito Web allindirizzo

    Hortonworks.com

    Clickstream

    Social media

    File log di server

    Georilevazione

    Computer e sensori

    Informazioni su HadoopApache Hadoop una tecnologia open source nata dallesperienza di societ con utenti in ambito Web, ad esempio Yahoo, Facebook e altre, che sono state le prime a confrontarsi con lesigenza di archiviare ed elaborareenormi quantit di dati digitali.

    2

    http://www.talend.comhttp://Hortonworks.com

  • www.talend.com 3

    Architettura dati modernacon Apache Hadoop

    Hadoop e i sistemi di dati esistenti: unarchitettura dati moderna

    Da un punto di vista architetturale, lutilizzo di Hadoop come complemento ai sistemi di dati esistenti estremamente interessante, trattandosi di una tecnologia open source pensata per essere eseguita su numeri elevati di commodity server. Caratterizzato da un approccio allarchiviazione e allelaborazione dei dati con scalabilit orizzontale e di costo ridotto, Hadoop in grado di adeguarsi alle esigenze delle propriet Web di maggiori dimensioni nel mondo.

    Fig. 1 Architettura dati moderna con Apache Hadoop integrato in sistemi di dati esistenti con soluzioni Talend Big Data

    Hortonworks particolarmente impegnata nella realizzazione di Hadoop come componente chiave del data center e, grazie alla stretta collaborazione con alcuni dei maggiori fornitori di data warehouse, abbiamo osservato numerose opportunit ed efficienze rilevanti che Hadoop riserva alle aziende.

    http://www.talend.com

  • www.talend.com 4

    Architettura dati modernacon Apache Hadoop

    Nuove opportunit per lanalisi

    Larchitettura di Hadoop comporta nuove opportunit per lanalisi dei dati:

    Schema in lettura. A differenza dei sistemi EDW, in cui i dati vengono trasformati in uno schema specificato al momento del caricamento nel data warehouse, con la necessit di applicare uno schema in scrittura, Hadoop vi consente di archiviare i dati non elaborati in modo che gli analisti possano creare lo schema pi adatto alle esigenze delle proprie applicazioni nel momento in cui scelgono di analizzare i dati, realizzando pertanto uno schema in lettura. In questo modo vengono risolti i problemi correlati alla mancanza di struttura ed possibile procedere allelaborazione dei dati quando il valore iniziale dei dati in ingresso opinabile. Elaborazione dati per pi usi e pi carichi di lavoro. Grazie al supporto di pi metodi di accesso (batch, real-time, streaming, in memory e cos via) a un set di dati comune, Hadoop consente agli analisti di trasformare e visualizzare i dati in numerosi modi e con schemi diversi, al fine di ottenere analisi a ciclo chiuso ottimizzando il time-to-insight.

    Nuove efficienze per larchitettura dati

    Oltre alle opportunit per lanalisi dei Big Data, Hadoop offre numerose efficienze in unarchitettura dati:

    Costi di archiviazione ridotti. Per progettazione, Hadoop viene eseguito su commodity server di costo ridotto e su sistemi di archiviazione collegati direttamente, consentendo in tal modo una significativa diminuzione dei costi complessivi. In particolare, se si fa un confronto con reti SAN (Storage Area Network) di fascia alta di fornitori diversi, ad esempio EMC, la possibilit di utilizzare Hadoop per eseguire calcolo e archiviazione di tipo commodity con scalabilit orizzontale rappresenta unalternativa estremamente valida, che consente di aumentare le risorse hardware solo in base alle esigenze di crescita dei dati. Questa flessibilit nei costi permette di archiviare, elaborare, analizzare e accedere a una quantit di dati pi elevata rispetto a quelle precedenti. Ottimizzazione dei carichi di lavoro di un data warehouse. Lambito delle attivit da eseguire in un sistema EDW aumentato in modo considerevole tra funzioni di estrazione, trasformazione e carico (ETL, Extract, Transform, Load), analisi e altre operazioni. La funzione ETL rappresenta un carico di lavoro di calcolo a valore relativamente basso che pu essere eseguito con costi ancora pi ridotti. Molti utenti affidano questa funzione a Hadoop, in cui i dati vengono estratti, trasformati e successivamente caricati

    Elementi critici, come i cicli della CPU e lo spazio di archiviazione, vengono di conseguenza resi disponibili e possono essere dedicati allesecuzione di funzioni effettivamente importanti, ad esempio analisi e operazioni, che sfruttano meglio le funzionalit avanzatedi Hadoop

    http://www.talend.com

  • www.talend.com 5

    Architettura dati modernacon Apache Hadoop

    Enterprise Hadoop con Hortonworks Data Platform

    Per realizzare appieno il valore del vostro investimento in Big Data, potete utilizzare il progetto per integrare Enterprise Hadoop con il sistema EDW e i sistemi di dati correlati. La creazione di unarchitettura dati moderna consente alla vostra organizzazione di archiviare e analizzare su larga scala i dati aziendali pi rilevanti, di estrarre informazioni approfondite di importanza critica per lazienda da tutti i tipi di dati e da qualsiasi fonte e, in definitiva, di migliorare il vostro vantaggio competitivo sul mercato e di ottimizzare ricavi e fidelizzazione dei clienti. Per ulteriori informazioni, visitate il sito Web allindirizzo http://hortonworks.com/hdp.

    Hortonworks Data Platform la base per unarchitettura dati moderna

    La soluzione Hortonworks Data Platform (HDP) supportata dal sistema Apache Hadoop completamente open source. HDP fornisce tutti i progetti correlati ad Apache Hadoop necessari per integrare Hadoop con un sistema EDW come parte di unarchitettura dati moderna.

    Fig. 12

    Gestione dei dati. Il sistema HDFS (Hadoop Distributed File System) rappresenta la tecnologia di base per unarchiviazione con scalabilit orizzontale efficiente ed progettato per essere eseguito su commodity hardware di costo ridotto. Apache Hadoop YARN costituisce il prerequisito per Enterprise Hadoop poich fornisce le funzioni di gestione delle risorse, nonch unarchitettura modulare in grado di abilitare una vasta gamma di metodi di accesso per operare sui dati archiviati in Hadoop con prestazioni e livelli di servizi prevedibili.

    Accesso ai dati. Apache Hive la tecnologia di accesso ai dati pi largamente adottata, sebbene siano disponibili sul mercato numerosi motori specializzati. Tra le soluzioni offerte, sono disponibili funzionalit di script in Apache Pig, elaborazione in tempo reale in Apache Storm, archiviazione non SQL a colonne in Apache HBase e controllo degli accessi a livello di cella in Apache Accumulo. Grazie a YARN, potete utilizzare tutti questi motori in un unico set di dati e di risorse. YARN inoltre caratterizzato dalla flessibilit necessaria per i metodi di accesso ai dati nuovi ed emergenti, ad esempio framework di ricerca e programmazionecome Cascading.

    http://www.talend.comhttp://hortonworks.com/hdp

  • www.talend.com 6

    Architettura dati modernacon Apache Hadoop

    Governance e integrazione dei dati. Apache Falcon fornisce flussi di lavoro basati su criteri per la governance, mentre Apache Flume e Sqoop consentono una semplice acquisizione dei dati, in modo analogo alle interfacce NFS e WebHDFS per HDFS. Sicurezza. A ogni livello della struttura Hadoop, la sicurezza viene fornita da HDFS, YARN, Hive e dagli altri componenti di accesso ai dati,fino allintero perimetro del cluster tramite Apache Knox.

    Operazioni. Apache Ambari offre linterfaccia e le API necessarie per il provisioning, la gestione e il monitoraggio dei cluster Hadoop e lintegrazione con altro software per le console di gestione.

    Opzioni di distribuzione per Hadoop

    Di seguito vengono indicate le numerose opzioni di distribuzione disponibili in HDP.

    In locale: HDP lunica piattaforma Hadoop che funziona in Linux e Windows.

    Cloud: HDP pu essere eseguito come parte di un servizio IaaS (Infrastructure as a Service) e supporta inoltre Big Data Cloud di Rackspace, il servizio HDInsight di Microsoft, CSC e molti altri.

    Componenti: HDP viene eseguito su commodity hardware per impostazione predefinita e pu inoltre essere acquistato come componente daTeradata.

    http://www.talend.com

  • www.talend.com 7

    Architettura dati modernacon Apache Hadoop

    Talend ed Enterprise Hadoop

    Talend Big Data genera codice Hadoop nativo e ottimizzato e pu caricare, trasformare, ampliare e rifinire i dati in Hadoop per ottenere la massima scalabilit. Lambiente di sviluppo grafico di cui dispone di semplice utilizzo e consente di accelerare le attivit di progettazione, distribuzione e gestione. disponibile il supporto per eseguire trasformazioni semplici, avanzate e personalizzate. Talend Big Data lunica soluzione che applica regole sulla qualit dei dati in modalit nativa e su larga scala in Hadoop per analizzare e rifinire tutti i dati e metterli in corrispondenza tra loro.

    Funzionalit e vantaggi di Talend:

    Oltre 800 componenti e connettori a tutte le fonti dati e applicazioni, ad esempio Big Data e non SQ

    Supporto per ETL ed ELT, nonch per distribuzione in tempo reale e basata su eventi

    Supporto YARN e Hadoop 2.0 per una migliore ottimizzazione delle risorse

    Generazione di codice Talend per scalabilit e portabilit avanzate

    Ottimizzazione visiva dei processi MapReduce prima della produzione per uno sviluppo pi rapido

    Community estremamente collaborativa per il supporto

    Da zero ai Big Data in dieci minuti

    Talend Big Data Sandbox un ambiente virtuale di utilizzo immediato che include Talend Big Data Platform, Hortonworks Data Platform e altri esempi di Big Data. Per scaricare lambiente sandbox gratuito, visitate il sito Web allindirizzo http://www.talend.com/talend-big-data-sandbox

    http://www.talend.comhttp://www.talend.com/talend-big-data-sandbox

  • www.talend.com 8

    Architettura dati modernacon Apache Hadoop

    Case study 1

    Aumentare i ricavi online con Talend

    Un rivenditore globale con un fatturato annuo di 12 miliardi di euro desiderava aumentare i ricavi. La societ stava assistendo a un elevato tasso di abbandono del carrello e non era in grado di modificare rapidamente i prezzi in base a richiesta, disponibilit di magazzino e concorrenza. Nel settore della vendita online altamente competitivo, gli acquirenti possono facilmente confrontare i prezzi e rivolgersi immediatamente alla concorrenza.

    Per il rivenditore si presentava pertanto lesigenza di comprendere meglio lattivit online dei consumatori e di mettere in relazione il loro comportamento con i modelli di acquisto storici. A tale scopo, era necessario analizzare terabyte di dati in tempo reale con la capacit di agire prima che lacquirente abbandonasse il sito Web.

    Il rivenditore ha selezionato Talend Big Data e Hadoop per unire tutte le applicazioni e i silo e i formati di dati relativi al fine di ottenere nuove informazioni approfondite sulle aziende e sul comportamento online degli acquirenti.

    Grazie a Talend, il rivenditore ora in grado di analizzare dati reali e dati clickstream storici (oltre 5 terabyte) e di fornire risposte estremamente tempestive, ad esempio annunci pubblicitari o modifiche dinamiche di prezzo, mentre i clienti sono ancora in fase di acquisto online. Il rivenditore in grado inoltre di prevedere con una percentuale pari al 90% di certezza se un acquirente abbandoner il carrello, nonch di ridurre del 20% la quantit di merce avanzata grazie a unanalisi dei dati pi approfondita e a tecniche di previsione migliori.

    Con Talend e Hadoop,il rivenditore online puprevedere con unapercentuale pari al 90%di certezza se unacquirente abbandoneril carrello

    http://www.talend.com

  • www.talend.com 9

    Architettura dati modernacon Apache Hadoop

    Informazioni su Talend

    In Talend la nostra missione quella di connettere le organizzazioni basate sui dati, in modo che i nostri clienti siano in grado di operare a loro volta in tempo reale con nuove informazioni su clienti, mercati e attivit aziendali. Creato nel 2006, il nostro team globale di esperti di integrazione si basa su tecnologie di innovazione open source per realizzare soluzioni di livello Enterprise che consentano di far emergere pi rapidamente il valore aziendale. Per progettazione, il software di integrazione Talend semplifica il processo di sviluppo, riduce la curva di apprendimento e diminuisce il costo totale di propriet grazie a una piattaforma unificata, aperta e prevedibile. Con il supporto nativo di piattaforme di Big Data moderne, Talend riduce sensibilmente la complessit dei processi di integrazione. Per ulteriori informazioni, visitate il sito Web allindirizzo http://www.talend.com

    Informazioni su Hortonworks

    Hortonworks sviluppa, distribuisce e supporta lunica piattaforma dati completamente open source. Il nostro team composto dal gruppo maggiore di sviluppatori e architetti dellecosistema Hadoop, che rappresentano e gestiscono i requisiti aziendali pi ampi in queste community. La soluzione Hortonworks Data Platform fornisce una piattaforma aperta che si integra perfettamente con gli investimenti IT esistenti e sulla cui base le organizzazioni possono creare e sviluppare applicazioni supportate da Hadoop. Hortonworks mantiene strette relazioni con i partner pi strategici di gestione di data center per consentire ai nostri clienti di sfruttare le opportunit pi ampie rese disponibili da Hadoop. Per ulteriori informazioni, visitate il sito Web allindirizzohttp://www.hortonworks.com.

    http://www.talend.comhttp://www.talend.comhttp://www.hortonworks.comcmaindronTypewritten TextWP195-IT

    cmaindronTypewritten Text

    cmaindronTypewritten Text

    cmaindronTypewritten Text