Piattaforme di Gestione per Big Data - Facoltà di Ingegneria · In effetti dopo Hadoop e il suo...

Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Basi di Dati

Piattaforme di Gestione per Big Data

Anno Accademico 2013/2014 Candidato: Carmen Clemente matr. N46000655

Ai miei genitori, A mia sorella, A Stefano e Sofia, A me stessa.

3

Indice

Indice……………………………………………………………………………………………….III

Introduzione………………………………………………………………………………………….4

Capitolo 1 : Big Data ………………………………………………………………………………...5

1.1 Le quattro V dei Big Data……………………………………………………………………...6

1.2 L’origine dei Big Data…………………………………………………………………………6

1.3 Il potere dei Big Data…………………………………………………………………………..7

1.4 Critiche e rischi dei Big Data ………………………………………………………………….8

Capitolo 2 : Hadoop e Cloudera……………………………………………………………………...9

2.1 La nascita di Hadoop…………………………………………………………………………11

2.2 Le componenti di Hadoop……………………………………………………………………12

2.3 Le proprietà “chiavi” di Hadoop……………………..………………………………………14

2.4 La distribuzione Cloudera ..….….….….….….….…..………………………………………15

2.5 Cloudera e Intel : l’alleanza perfetta…………………..………...……………………………16

Capitolo 3 : Big Data Analytics e le migliori piattaforme….……………………………………….18

3.1 Le piattaforme di gestione dei Big Data...……………………………………………………19

3.2 SAP-HANA e TERADATA…....….….….….….….….….….….….….……………………21

Conclusioni………………………………………………………………………………………….25

Bibliografia………………………………………………………………………………………….30

4

Introduzione

Il presente elaborato intitolato “Piattaforme di Gestione per Big Data” ha ad oggetto

l’analisi delle problematiche relative ai cd “Big Data”, oltre che all’individuazione delle

piattaforme di gestione dati, da cui trae origine il titolo del presente lavoro.

Nel primo capitolo verrà infatti illustrata l’origine dei Big Data e utilizzo di quest’ultimi

sia da parte dell’aziende sia nel settore privato. Gli stessi sono nati con l’obiettivo di

fornire da un lato: uno strumento alle imprese per soddisfare le proprie esigenze

economiche e di mercato e dall’altro ai privati cittadini e alle PA, uno strumento che

consente mediate l’organizzazione, l’analisi e la condivisione di una grande quantità di

dati, il soddisfacimento di uno scopo comune. Sono state inoltre evidenziate le

caratteristiche dei Big Data, note come le “Quattro V", nonché le eventuali criticità e

problematiche ad essi connessi. La gestione di una mole ingente di dati, indubbiamente

mette a rischio la privacy di ogni utente, tanto da spingere nell’ottobre del 2013 al varo

delle linee guida volte alla salvaguardia del diritto alla riservatezza e dei dati personali.

Il secondo capitolo sarà dedicato alla nascita del sistema Hadoop e Cloudera. Infatti la

necessità di smaltire un corpus cospicuo di dati, ha spinto gli ingegneri di Google a creare

un’infrastruttura di elaborazione per la risoluzione di tale problematica, non superabile

con gli strumenti tradizionali: ovvero GFS e MapReduce. Stessa difficoltà è stata

riscontrata da D. Cutting nel 2004 tanto da indurlo a sostituire la raccolta e l’elaborazione

dei dati, basando la sua implementazione su MapReduce, da qui la nascita di Hadoop.

5

Sono state inoltre descritte le sue componenti ovvero HDFS e MapReduce. Gli ultimi

paragrafi del capitolo secondo sono dedicati da una parte: alla nascita d Cloudera nel

2008, la più grande società che ha proposto una distribuzione Hadoop open-source e che

ha permesso alle imprese, grazie ad alcune sue peculiarità, una maggiore competitività di

mercato e dall’altra alla storica collaborazione tra Cloudera e Intel Corporation,

divenendo quest’ultima il più grande azionista e membro del CDA di Cloudera. I due

colossi mondiali offrendo il loro impegno a vantaggio della comunità open source, sono

giunti alla conclusione che lavorando in modo congiunto ed utilizzando in modo corretto

un ingente quantità di dati si potrà consentire alle aziende di individuare le soluzioni più

consone ai loro problemi, ottenendo un vantaggio competitivo rispetto alle loro

concorrenti.

Il terzo ed ultimo capitolo, rappresenta il cuore dell’elaborato, poiché l’attenzione è stata

incentrata sul concetto di Big Data Analytics, e sulla nascita delle diverse piattaforme di

gestione. In effetti dopo Hadoop e il suo HDFS sono state individuate altre piattaforme

che hanno contribuito in maniera efficiente alla gestione dei “grandi dati”. In particolar

modo sono stati tracciati i tratti salienti di due grandi piattaforme ovvero SAP-HANA e

TERADATA, le quali hanno consentito alle società di offrire una nuova prospettiva di

business, attraverso un’analisi e una gestione, in real-time dei dati in loro possesso.

6

Capitolo 1: Big Data

Nella seconda metà del Novecento, i computer hanno consentito di analizzare una serie

di informazioni, ma solo con l’avvento di internet è stato possibile una loro condivisione

da parte di utenti collocati in qualsiasi parte del mondo. Ma l’aspetto più innovativo, può

essere individuato nella capacità da parte dei motori di ricerca, di raccogliere milioni di

dati in database1 consultabili da chiunque. L’evolversi della tecnologia, infatti, oggi, ci

permette di catturare realtà invisibili, consentendoci di analizzare e mettere a confronto

enormi quantità di dati, non eterogenei, dinamici....i cd ”Big Data”

Ma cosa sono realmente i Big Data? E soprattutto perché negli ultimi anni la maggior

1 Database: I database o banche dati sono collezioni (archivi) di dati, tra loro correlati, utilizzati per rappresentare una

porzione del mondo reale. Sono strutturati in modo tale da consentire la gestione dei dati stessi in termini di

inserimento, aggiornamento, ricerca e cancellazione delle informazioni in modo da costituire una base di lavoro per

utenti diversi con programmi diversi.

7

parte delle aziende ne fanno sempre più ricorso?

Il termine Big Data si usa quando le informazioni che si vogliono gestire sono tante, o

quando la dimensione dei dati stessa costituisce parte del problema. Al di là della

problematica dimensionale, i Big Data costituiscono l’occasione per trovare spunti a

nuovi tipi di dati e contenuti, garantendo alle aziende, e non solo, di rispondere in modo

più celere ed efficiente a tutte quelle esigenze che prima non potevano trovare un

riscontro.

Essi, infatti, possono essere definiti come il nuovo “microscopio che rende misurabile la

società”, poiché spingono verso una nuova scienza di dati in grado di diffondere opinioni,

distribuire risorse economiche od energetiche, prevedere crisi economiche e soddisfare

bisogni di mobilità.

1.1 Le quattro V dei Big Data

I Big Data hanno delle caratteristiche peculiari note anche come “le Quattro V”:

-Volume: fa riferimento alla capacità di acquisire, memorizzare ed accedere a grandi

volumi di dati, non gestibili con i database tradizionali;

-Velocità: è riferita al fatto che l’analisi dei dati deve essere effettuata a ritmo sostenuto o

addirittura in tempo reale. Ottenere un vantaggio significa identificare una tendenza o

un’opportunità qualche secondo prima del concorrente.

-Varietà: rappresenta un cambiamento nel modo in cui i dati vengono analizzati e

8

memorizzati, ovvero di diversa natura e non strutturati, come per esempio: audio, video,e-

mail, social media ecc..;

-Veridicità: tutti i dati raccolti rappresentano un valore per le aziende, da essi è possibile

trarne un’opportunità con un grande impatto sulle attività. La veridicità dei dati

rappresenta un requisito fondamentale per alimentare nuove intuizioni ed idee.

1.2 L’origine dei Big Data

Le fonti da cui traggono origine i Big Data sono molteplici, ma tutte possono essere

ricondotte a tre grandi categorie:

informazioni persona-macchina: si tratta della fonte da cui traggono origine la maggior

parte dei dati raccolti, anche molto tempo prima della formulazione del concetto di Big

Data ; sono dati di tipo transazionali, che se prima venivano conservati esclusivamente

per finalità contabili,ora permettono di individuare il “cliente-tipo”,adeguando l’offerta

alla sua esigenza;

informazioni da persona a persona:si tratta di informazioni che nascono dalle intenzioni

umane e che sono scambiate attraverso reti sociali, ad esempio i social network che

possono essere considerati come piazze virtuali;

informazioni macchina a macchina:si tratta di informazioni raccolte da sensori e

trasmessi per diversi motivi ad altri dispositivi elettronici, ad esempio un sensore

collocato all’interno di una calzatura sportiva che invia al nostro smartphone una serie di

informazioni, che analizzate ed elaborate, consentono di individuare un allenamento

adeguato alle caratteristiche personali dell'atleta.

1.3 Il potere dei Big Data

I dati che provengono dal web ricoprono una grande importanza nel mondo dei Big Data,

non solo perché posseggono le quattro caratteristiche peculiari ma anche perché

includono in sé un potenziale informativo particolarmente elevato.

9

Ovvero si fa riferimento ad alcune tipologie di dato, quali pagine HTML, contenuti

Facebook, tweet ecc. In effetti, l’interesse per l’analisi dei dati della clientela ha assunto

particolare importanza in ambito aziendale, poichè attraverso la gestione e l’analisi delle

informazioni provenienti dall’esterno: social network, smartphone ecc.., le grandi società

hanno la possibilità di migliorare alcuni aspetti importanti del proprio di agire.

Affinché le informazioni assumono “valore” occorrono chiavi interpretative in grado di

selezionare i dati, organizzarli ed inserirli in contesti tesi a superare le complessità. In

effetti, tali operazioni permettono alle aziende di:

-analizzare i rischi e le opportunità che il mercato offre, grazie all’individuazione di frode

e di minacce;

-soddisfare le esigenze del cliente, attraverso un’analisi in tempo reale della domanda e

dell’offerta di beni e servizi. In effetti ricerche di mercato mirate, osservazioni del

comportamento spontaneo dei consumatori rappresentano uno strumento di analisi

potentissimo per le aziende. Un esempio emblematico è dato dall’acquisto da parte della

società Wall-Mart, gigante mondiale della distribuzione, della Kosmix, una società di

monitoraggio dei social media,che è stata trasformata nella WallMartLabs. Attraverso

questa acquisizione la Wall-Mart analizza i Big Data del consumo online, cercando di

anticipare le tendenze e soddisfare le esigenze dei consumatori sia nei punti vendita sia

online.

L’utilizzo dei Big Data,infine, negli ultimi anni sta occupando un ruolo primario non solo

nel settore “privato-aziendale”, ma anche in quello pubblico qualora la parola “cliente”

venga sostituita con quella di cittadino. Infatti, l’analisi e l’organizzazione di una grande

quantità di dati garantisce dei benefici per la pubblica amministrazione e di riflesso anche

per la cittadinanza.

Tra i possibili effetti positivi potrebbero rientrare: la razionalizzazione della spesa

pubblica, il miglioramento dei servizi, riduzione degli sprechi, ottimizzazione delle

risorse.

Tali risultati sono stati messi a punto da un team di ricercatori della Columbia University

nel 2010, quando un violento terremoto si abbatté sulla città di Haiti, determinando la

10

fuga di milioni di persone.

Gli studiosi riuscirono a tracciare tutti gli spostamenti della popolazione grazie alle sim

card dei loro cellulari. In seguito, allo scoppiare del colera, utilizzarono la stessa tecnica

per identificare il luogo dove servivano appropriati medicinali, evitando così la diffusione

dell’epidemia.

1.4 Critiche e rischi dei Big Data

I Big Data non posseggono, però, solo caratteristiche positive, ma presentano alcune

criticità che potrebbero vanificare i vantaggi che se ne traggono.

Esse riguardano in primo luogo la qualità, ovvero l’insieme di caratteristiche che ciascun

Big Data deve possedere:

-completezza:la presenza di tutti i dati necessari per descrivere un’entità, in assenza dei

quali potrebbe risultare incompleta;

-consistenza:assenza di contraddizione nei dati;

-accuratezza:riguarda la conformità ai valori reali;

-assenza di duplicazioni:campi, record e tabelle devono presentarsi all’interno dello

stesso sistema oppure in sistemi diversi una sola volta, evitando dunque duplicazioni.

In secondo luogo, alcune perplessità possono essere sollevate in relazione alla privacy.

La raccolta e l’analisi dei dati in enorme banche dati, da parte di più soggetti, può mettere

in serio pericolo la privacy, intesa come “il diritto alla tutela dei dati personali e alla

riservatezza”, che nell’epoca di internet è sempre più difficile far rispettare.

Purtroppo, navigando in rete, talvolta, si corre il rischio di non comprendere il significato

delle nostre condivisioni, accettando con leggerezza condizioni poco chiare che

permettono a terzi di accedere alle nostre informazioni. A tal fine il 9 settembre 2013

sono state ufficialmente pubblicate le Linee guida Privacy OCSE.

Nel preambolo si evidenziano i cambiamenti più significativi del nostro attuale contesto

11

sociale e tecnologico, tra questi sicuramente assume chiaro rilievo il fenomeno dei Big

Data.

Le operazioni su grandi moli di dati, come già evidenziato, senza che siano chiari a priori

i loro molteplici utilizzi, comportano una compressione del diritto alla protezione dei dati

personali così come oggi concepito. In effetti l’assenza da parte dell’interessato di una

conoscenza circa le finalità del trattamento delle informazioni raccolte, talvolta

compromette sin dall’origine la sua liceità, rendendo impossibile sia un’adeguata

informativa, sia uno specifico, consapevole e valido utilizzo dei dati da parte dei soggetti

che ne sono interessati.

12

Capitolo 2: Hadoop e Cloudera

Con la crescente mole di dati che devono essere catturati , archiviati e utilizzati ai fini di

business, si ha la problematica di come e dove memorizzarli. Una sfida molto importante

è dettata anche dalla natura di questi, che cambia di volta in volta, arricchendosi sempre

di più di dati di varia provenienza. Il problema che si riscontra è dovuto principalmente

alla difficoltà di gestirli con database tradizionali, sia in termini di costi, sia dalla

rapidità con cui crescono di volume e velocità.

L’insieme di questi elementi ha portato allo sviluppo di nuovi modelli di elaborazione,

che ha permesso alle aziende di diventare più competitive, sia attraverso una riduzione dei

costi, sia perché i nuovi sistemi, sono in grado di archiviare, spostare e combinare i dati

con maggiore velocità e in maniera agile. Uno dei sistemi più diffusi e conosciuti nel

mondo è Hadoop.

2.1 La nascita di Hadoop

All’inizio del 2000 il motore di ricerca Google iniziava ad affrontare una sfida molto

seria, ovvero organizzare a livello mondiale tutte le informazioni.

13

Con il passare del tempo il numero e le dimensioni dei siti web è cresciuto in maniera

esponenziale ed il servizio Google è diventato ancora più popolare, costringendo la

società a smaltire sempre più rapidamente un corpus cospicuo di dati.

In effetti, nessun software a disposizione era in grado di poter gestire tale ingente mole di

dati, tanto che gli ingegneri di Google progettarono e costruirono un’infrastruttura di

elaborazione per la risoluzione della problematica, ovvero Google File System - GFS e

MapReduce.

Simile problematica fu riscontrata nel 2004 anche da Doug Cutting che, sviluppando la

prima versione di Nutch2, aveva incontrato problemi di scalabilità, ovvero il crawler

3 ed

il generatore di indici funzionavano bene solo per piccole quantità di dati, ma non

riusciva a gestire quelli relativi all’intera struttura del web. Fu così che Cutting decise di

sostituire la raccolta e l’elaborazione dei dati, basando la sua implementazione su

MapReduce.

Tale nuovo sistema fu chiamato Hadoop, da un elefante giocattolo appartenente a suo

figlio, e rappresenta il framework open souce più diffuso nel mondo per la gestione dei

dati strutturati, semi-strutturati e non strutturati.

2.2 Le componenti di Hadoop

Il sistema Hadoop presenta due componenti principali4:

Sistema di gestione distribuita dei dati – Hadoop Distributed File System (HDFS),

Sistema di elaborazione parallela dei dati – MapReduce.

HDFS è stato creato con l’obiettivo principale di memorizzare enormi quantità di dati,

2 Nutch: si tratta di un motore di ricerca open source basato su Java creato da Doug Cutting.

3 I crawler sono componenti dei motori di ricerca che si occupano di navigare il web in modo sistematico recuperando i

contenuti delle pagine e fornendoli al motore di ricerca per l’indicizzazione. 4 Accanto a tali componenti fondamentali se ne collocano altre che aggiungono ulteriori funzionalità alla piattaforma

Hadoop come Hbase:un database utilizzato per la gestione strutturata dei dati sottoforma di tabelle di grandi

dimensioni.

14

distribuendone il contenuto su una rete di server, realizzati con hardware standard di

mercato. In particolare, il file system distribuito chiamato HDFS permette di creare,

cancellare, spostare file ma non modificarli. Questa caratteristica consente di ottenere

ottime prestazioni, senza avere problemi di implementazione dei consueti file system

distribuiti. Infatti, nell’HDFS i file vengono scomposti in blocchi e ogni blocco viene

distribuito in uno o più nodi del cluster. Ciò garantisce sia la tolleranza degli errori (la

perdita di un singolo disco o server non determina la perdita del file), sia delle prestazioni

(qualsiasi dato bloccato può essere letto dai diversi server).

Il cuore del sistema Hadoop è rappresentato però da MapReduce ovvero un framework

per la creazione di applicazioni, in grado di elaborare una grande quantità di dati in

parallelo basate sul concetto di functional programming.

Il modello di calcolo MapReduce deve il suo nome a due celebri funzioni della

programmazione funzionale: Map e Reduce:

Map: il nodo principale prende i dati di ingresso, li suddivide in piccoli sottoproblemi e li

distribuisce agli altri nodi. Ognuno di essi produce il risultato intermedio della funzione

Map sottoforma di coppia, memorizzate su un file distribuito la cui posizione è notificata

al nodo principale alla fine della sua fase.

Reduce: il nodo principale collezione le risposte, combina le coppie con la stessa chiave

e li ordina, terminando l’esecuzione.

15

MapReduce lavora secondo il principio divide et impera ovvero prevede che un problema

complesso, che utilizza una grande quantità di dati, venga suddiviso, insieme ai dati

stessi, in piccole parti processate in modo autonomo, e una volta che ciascuna parte del

problema è stata calcolata, i diversi risultati parziali sono “ridotti” ad un unico risultato

finale. È infatti lo stesso MapReduce che si occupa dei vari task di calcolo, del loro

monitoraggio, della loro esecuzione, nell’ipotesi in cui si verifichino problemi.

2.3 Le proprietà “chiavi” di Hadoop

La creazione di Hadoop e MapReduce ha consentito alle grandi proprietarie del Web di

risolvere un problema di dati, che nessun sistema commerciale o di ricerca era in grado di

superare, in particolare Hadoop offre tre proprietà chiavi :

E’ una piattaforma di archiviazione per tutti i tipi di dati, in quanto offre un nuovo

repository dove tutti i dati strutturati e complessi, si possono facilmente combinare;

Consente un più ampio stoccaggio di dati, ad un costo inferiore rispetto ai sistemi ad oggi

disponibili;

E congiuntamente a MapReduce, sfrutta la distributed storage architecture in HDFS per

fornire servizi scalabili ed affidabili di elaborazione parallela per algoritmi. Gli utenti in

effetti, non si limitano ad utilizzare un piccolo insieme di algoritmi consegnato da un

RDBMS, ma usano i dati attraverso processori collegati direttamente ai dischi in cui

risiedono.

16

2.4 La distribuzione Cloudera

Il progetto di Apache Hadoop ha attirato a se una particolare attenzione, divenendo il

punto di riferimento del fenomeno chiamato Big Data. Nel versante commerciale, il più

importante rivenditore di Hadoop è rappresentato da Cloudera.

Nata nel 2008, è stata la prima grande società a proporre una distribuzione Hadoop

(CDH)5 completa, testata e popolare al mondo essendo open-source, ed acquisendo

clienti del calibro di eBay, Expedia, Nokia e Samsung.

CDH possiede al di là delle caratteristiche fondamentali di Hadoop, ossia lo storage-

scalabile e calcolo distribuito, anche un insieme di componenti aggiuntive: ad esempio

un’interfaccia utente.

Inoltre, CDH permette alle imprese una maggior competitività di mercato, grazie ad

alcune caratteristiche peculiari quali la sicurezza e l’integrazione con una vasta gamma di

soluzioni Hardware e Software. Difatti, CDH possiede alcuni elementi propri:

Flessibile: consente di memorizzare qualsiasi tipo di dato ed eseguire una serie di

operazioni di calcolo quali: elaborazioni di bacht, SQL interattivo, ect;

Integrato: si combina in maniera rapida e celere con la piattaforma Hadoop;

Sicuro: poiché permette di processare e controllare i dati sensibili;

Scalabile ed estensibile: ovvero attivare una vasta gamma di applicazioni;

Alta disponibilità: da la possibilità di eseguire carichi di lavoro di particolare criticità con

la massima sicurezza:

5 CDH è l’acronimo di Cloudera’s Distribution Including Apache Hadoop

17

Aperto: in quanto è possibile beneficiare di una rapida innovazione senza costi elevanti.

essendo al 100% Apache-licenza open source.

Le distribuzioni CDH contengono connettori per database di terze parti (Oracle, Teradata

ect) oltre un tool di gestione del sistema (Cloudera Manager6 ). La distribuzione Cloudera

è disponibile sia nella versione gratuita che enterprise (ovvero in abbonamento). Nella

versione gratuita non sono incluse alcune funzionalità ad esempio: backup, mentre quella

enterprise, è più completa poiché oltre ad offrire Cloudera Manager, dispone anche di

una funzionalità di audit e di gestione degli accessi ed un supporto tecnico su tutta la

piattaforma Hadoop.

2.5 Cloudera e Intel : l’alleanza perfetta

Intel Corporation7 e Cloudera agli inizi del 2014 hanno annunciato una collaborazione

strategica in ambito tecnologico e commerciale, oltre ad un importante investimento

azionario di Intel in Cloudera8, divenendo in questo modo Intel il più grande azionista di

Cloudera e membro del consiglio di amministrazione.

6 Cloudera Manager è la piattaforma di gestione leader di mercato per Cloudera’s Distribution Including Apache

Hadoop.Essa stabilisce lo standard per la distribuzione aziendale, offrendo visibilità granulare e controllo su ogni parte

del CDH; abilita gli operatori a migliorare le prestazioni del cluster, la qualità del servizio, la conformità e soprattutto a

ridurre i costi amministrativi.

7 Intel Corporation ,fondata nel 1968, è la più grande azienda multinazionale produttrice di dispositivi a

semiconduttore (microprocessori, dispositivi di memoria, circuiti di supporto alle telecomunicazioni e alle applicazioni

informatiche) con sede a Santa Clara, California. 8 Intel investirà in Cloudera circa 740 milioni di euro, acquisendo un pacchetto azionario del 18%.

18

Si tratta dell’investimento più importante finora realizzato da Intel nella tecnologia per

data center che permetterà al software Cloudera di essere abbinato all’architettura

all’avanguardia per data center basata sulla tecnologia dei processori Intel.

L’obiettivo principale è quello di individuare soluzioni celeri per i Big Data, consentendo

alle imprese, di qualsiasi dimensione, di ottenere un vantaggio competitivo dai dati

implementando soluzioni Apache Hadoop open-source.

Cloudera intende sviluppare e ottimizzare Cloudera distribution, che include CDH,

considerando Intel come piattaforma preferenziale, oltre all’individuazione di una vasta

gamma di tecnologie di nuova generazione, ad esempio: Intel Fabric.

A sua volta, Intel si impegna a commercializzare e promuovere CDH e Cloudera

Enterprice presso i propri clienti, considerando Hadoop come piattaforma di riferimento.

Le due aziende confermano, in ogni caso, il loro impegno a vantaggio della comunità

open-source, che è stato il fattore trainante di Hadoop. L’obiettivo centrale sarà quello di

adottare strategie congiunte di mercato che consentiranno un rapido aumento dei carichi

di lavoro. Infatti, la conclusione a cui sono giunte questi due colossi, è che utilizzando in

modo corretto i dati a disposizione, un’azienda potrà individuare degli spunti che le

consentano di ottenere un vantaggio competitivo , farle risparmiare denaro e ottimizzare il

lavoro. La combinazione di tutti questi dati (e qui si ritorna ai big data), potrà permettere

ad esempio: ad un negoziante di migliorare le proprie offerte in determinate fasce orarie,

offrendo sconti e promozioni. Quindi tutto è collegato, poiché un buon risultato può

essere raggiunto attraverso l’utilizzo di sistema all’altezza della problematica, ed è per

questo che l’analisi dei Big Data, è divenuto uno dei punti cardini nell’azione promossa

da Intel, che l’ha portato ad investire in Cloudera.

19

Capitolo 3: Big Data Analytics e le migliori piattaforme

Big Data Analytics è un concetto di cui si parla da molti anni e che nasce dall’unione di

due parole, da un lato i “big data” con tutte le problematiche connesse (come abbiamo

già avuto modo di vedere), e dall’altro la“ Business Analytics”. Del modello dimensionale

dei dati e delle nuove applicazioni si parla da più di vent’anni, infatti la Business

Intelligence e la Performance Management sono tra le aree IT che negli ultimi anni

hanno ricevuto particolare attenzione ed investimenti, il Data Minig e le analisi predittive

sono state l’ultima frontiera che ha portato all’affermazione della Business Analytics.

Ad oggi, è molto difficile trovare un’azienda che nella sua vita non abbia almeno una

volta affrontato uno dei termini sopra indicati, ciò che è davvero innovativo è il concetto

di Big Data Analytics. Un’unione di non semplice accostamento poiché Big Data

Analytics implica non solo un’analisi su un grosso volume di dati, ma anche su una

varietà di dati che necessitano di essere trasformati più velocemente possibile.

Gli aspetti più critici in assoluto nell’area dei Big Data Analytics non sono le tecnologie

che hanno comunque un ruolo fondamentale, ma la loro capacità di utilizzarle, soprattutto

nelle attività di analisi predittive, ove occorrono delle competenze multidisciplinari che

spaziano dall’informatica, matematica e marketing.

In effetti, la scelta non si può limitare alla sola piattaforma di gestione, ma all’intero eco-

sistema fatto di varie figure professionali che, dotati di particolari competenze, danno il

loro contributo alle aziende.

In particolare, occorre avvalersi di un supporto tecnico specialistico di elevate qualità e a

costi ragionevoli per non compromettere il risultato economico dei progetti.

20

È dunque inutile raccogliere enormi quantità di dati ed effettuarvi analisi sofisticate se la

loro qualità non è eccellente, ciò vuol dire che prima di avviare progetti di analisi dei big

data occorre rivedere le basi di dati, i processi di aggiornamento, responsabilizzare gli

utenti ed assicurarsi che i sistemi di alimentazione siano affidabili ed efficienti.

3.1 Le piattaforme di gestione dei Big Data

Dopo Hadoop ed il suo file system HDFS, sono stati individuate altre piattaforme di

gestione dati tra le quali è possibile annoverare:

1. Il Database di 1010data : società di New York attiva dal 2000 nel settore dei

servizi Cloud (al momento non presente in Italia), istallato in vari settori

merceologici: P.A., Banche, Grande distribuzione, sanità ecc.

2. Actian: nata nel 2011 dalla Ingres Corportation, è la prima piattaforma end-to-

end di analisi, costruita per funzionare al 100% in modo nativo in Hadoop. Tale

piattaforma fornisce agli utenti altre prestazioni, nonché un accesso interattivo

SQL.

3. Amazon: oltre ad aver allargato la sua gamma di prodotti ad ogni genere di

settore (per chi pensa che sia solo un fornitore di libri è giunta l’ora di

aggiornarsi!) con i suoi servizi Cloud-Amazon ha conquistato una posizione di

21

primo piano nell’area delle piattaforma per big data e big data analytics. Infatti,

offre servizi chiamati Redshift basati sul motore di ParAccel, mentre nell’area

Hadoop dispone di una propria soluzione integrata con Cloudera e MapR.

4. Pivotal: nata nel 2000 all’interno del gruppo CDM9, ha al suo attivo più di cento

progetti realizzati nel settore della media impresa, acquisendo sin dalla nascita

competenze sulle piattaforme Pivotal CRM, ENOVIA e COMBINUM ed

unificandole con l’obiettivo di soddisfare le esigenze proposte dalle aziende

italiane. In particolare Pivotal Italia ha sviluppato un know-how volto a guidare le

aziende italiane sia all’ottimizzazione dei processi di marketing, sia nell’ambito

dei processi legati al ciclo di vita del prodotto.

5. InfiniDB: è il nuovo nome assunto dall’azienda texana operante nel settore dei

database verticali, ovvero Calpont,che offre una serie di soluzioni open-source

scaricabili direttamente dal sito di “infinidb10

”. In particolare, Calpont opera nel

mondo dei big data analytic mediante dei propri tool basati su Hadoop e MySQL.

6. Hortonworks: propone la distribuzione Hortonworks Data Platform

completamente open-source che include componenti come Hadoop, Pig, Hive,

Ambari… La gestione e il monitoraggio del cluster sono effettuati con Apache-

Ambari. Hortonworks presenta alcune caratteristiche come un’alta disponibilità

del sistema sia con Hadoop 1.0 sia con Hadoop 2.0., migliorando le performance

delle query eseguite con HiveQL.

7. MapR: è un punto di riferimento per le piattaforme di gestione Big data ed analisi

predittive, ma come altre non è ancora attiva in Italia, sebbene abbia delle filiali in

Europa. MapR si differenzia sia da Cloudera che da Hortonworks in quanto per le

sue distribuzioni non utilizza il file system distribuito, ma un’apposita

implementazione chiamata MapR-FS. Anche per MapR esiste una distribuzione

gratuita, ovvero M3 ed altre due commerciali come M5 ed M7; quest’ultima si

9 CDM: è una delle principali realtà nel mercato europeo dell’Information Tecnology , che fornisce da oltre 25 anni

soluzioni integrate e servizi di consulenza, implementazioni e supporto dei Sistemi Informativi alle Aziende Italiane e

internazionali. 10

Vedi www.infinitidb.org

22

differenzia dalle altre per la gestione automatizzata di HBase.

3.2 SAP-HANA e TERADATA

SAP : fondata nel 1972 è una multinazionale tedesca che si occupa della produzione di

software, HANA è l’acronimo di “High-Performance Analytic Appliance” ed è uno

strumento creato per svolgere analisi in tempo reale e processi transazionali mediante

tecnologie sviluppate o acquisite.

SAP-HANA offre alle aziende un nuovo modo per sfruttare il valore dei dati strutturati e

non. In particolare Hana consente la ridondanza dei dati, fenomeno che velocizza il

caricamento degli stessi nel database. Infatti, gli utenti hanno una visione dei dati in

tempo reale consentendo di pianificare gli strumenti attraverso, i quali si cerca di ottenere

un determinato risultato di mercato.

Hana è un DBMS basato su un hardware innovativo, classificato come: in-memory,

ovvero i dati sono caricati in memoria centrale anziché in memoria di massa, in modo da

rendere più veloci le operazioni, anche se con l’utilizzo di una mole di dati inferiori;

column-oriented, cioè i dati sono registrati in modo tabellare facilitando l’aggregazione

di dati simili tra loro; relational database management system, ovvero basati sul sistema

relazionale.

La piattaforma SAP-HANA fornisce librerie avanzate per predittività, pianificazione,

elaborazione testi e business analytics, in modo da garantire lo sviluppo di ulteriori

applicazioni tra le diverse fonti dei Big Data.

In definitiva, SAP-HANA fornisce un’interfaccia SQL classica, con l’uso di linguaggio

specifico, consentendo alle aziende di trasformare il loro business sfruttando al meglio le

informazioni in loro possesso in real-time, in quanto tale piattaforma consente di prendere

decisioni intelligenti e rapide, accelerare i principali processi aziendali con funzionalità di

analisi e reporting, creare nuovi modelli e processi di business facendo leva su soluzioni

innovative,nonché ridurre il “Total Cost Ownership” con meno hardware, manutenzione e

23

controllo.

TERADATA Corporation è stata fondata nel 1979, ed è leader nelle piattaforme per

l’analisi dei dati, mediante le sue soluzioni di integrated data warehousing, big data

analytics e business applications.

La necessità di gestire dati strutturati e non, ha spinto le principali aziende ad integrare

Hadoop, di fatti Teradata, con l’acquisizione di Aster Data Systems, ha introdotto degli

strumenti di gestione e di analisi dei dati non strutturati. In particolare, Teradata offre due

tipi di applicazioni: uno contiene l’ecosistema Hadoop, ovvero l’integrazione con la parte

relazionale avviene attraverso SQL-H che consente di interrogare i dati presenti in

quest’ultimo ,ed uno in RDBMS, che consente di gestire carichi di lavoro di diverse

entità.

Quanto al software, l’attuale versione del database è il Teradata Database 14, che presenta

alcune caratteristiche peculiari; infatti, la crescente pervasività dei big data richiede ai

database un’intelligenza sufficiente per riconoscere e processare automaticamente i dati

caldi o freddi, pertanto il Teradata Database 14, è l’unica soluzione sul mercato che

comprime e decomprime in modo automatico i dati più freddi o meno utilizzati,

riducendo lo spazio di memorizzazione sui dischi, ed offrendo prestazioni ottimali.

Il database Teradata è stato creato per sfruttare a massimo il parallelismo,in quanto

processa un determinato work-load spezzando in piccoli parti distribuiti su processori

virtuali chiamati Acces Module Processor(AMP). Più AMP risiedono su un nodo ed

ognuno di essi è legato ad una parte del database.

Quindi, Teradata permette di accedere ad una nuova prospettiva di business dove tutte le

informazioni di cui si necessita si trovano in un solo posto, consentendo alle aziende

attraverso tecnologie, esperienza, processo e passione per l’innovazione, di prendere

decisioni migliori e veloci rispetto alle concorrenti.

24

Conclusioni

In questo elaborato di tesi, abbiamo visto come i Big Data assumono un’importanza vitale

nella vita di tutti i giorni, e soprattutto come il corretto utilizzo di ingenti quantità di dati

diversi tra loto per volume, varietà ect, consente non solo ai cittadini ma anche alle

imprese di ottenere vantaggi competitivi. I dati provenienti dal Web assumono una

particolare rilevanza nel modo dei Big Data, non solo per le caratteristiche che

posseggono ma perché hanno in sé un potenziale informativo particolarmente levato. In

effetti la gestione di ingenti quantitativi di dati, talvolta molto diversi tra loro, ha da

sempre costituito una grossa problematica non superabile con gli strumenti tradizionali,

ma attraverso nuove frontiere, quale Hadoop: sistema open source in grado di archiviare,

spostare e combinare una mole di dati in maniera rapida e agile. Il rivenditore

commerciale più diffuso al mondo di Hadoop è senza dubbio Cloudera, che al di là delle

caratteristiche proprie del sistema stesso, possiede componenti aggiuntive in grado di

fornire un supporto ultroneo. La sfida lanciata da Hadoop, ovvero creare uno strumento in

grado di gestire “Big Data” è stata negli anni recepita anche da altre grandi società, che

con le loro sedi in tutto il mondo, hanno offerto agli utenti una vasta gamma di servizi,

utenti che sono stati individuati non solo nei cittadini comuni, ma anche nelle grandi

imprese, che quotidianamente si trovano ad affrontare il problema di come e dove gestire

la mole di dati che le pervade. Indubbiamente l’esperienza, la tecnologia, la condivisione

e un pizzico di passione per l’innovazione, consentirà di intraprendere le strade giuste.

25

Bibliografia

[1] Dr. AMR Awadallah, Introducing Apache Hadoop, The Modern Data Opening

System;

[2] Rivista Diritto dell’informazione e dell’informatica, 2012, pp. 135-144.

[3] Mike Olson, Hadoop scalable flexible data storage analysis;

[4] Perego A, Pasini P, Big Data Live: casi di eccellenza, SDA Bocconi 2013;

[5] Perego A, Pasini P, Nuove fonti di conoscenza Aziendale e nuovi modelli di

management, SDA Bocconi, Dicembre 2012;

[6] http://emcgeek.blogspot.it/2013/11/hadoop-di-cosa-si-tratta.html;

[7] http://www.xenialab.it/meo/web/white/internet/cloudera.htm;

[8] http://www.wired.it;

[9] http://www.ilsole24ore.com;

[10] http://www.lescienze.it;

[11] http://www.cloudera.com;

[12] http://www.saphana.com;

[13] http://www.teradata.com;

[14] http:// www.hadoop.com.

26

Ringraziamenti

< < I sogni veri si costruiscono con gli ostacoli. Altrimenti non si trasformano in progetti, ma

restano sogni. La differenza fra un sogno e un progetto è proprio questa: le bastonate. > > A. D’Avenia

E bene si! Eccomi finalmente giunta al mio primo e vero traguardo. Sudato, sperato e sognato da

sempre. Tra alti e bassi alla fine mi sono decisa a scrivere queste “poche righe” di ringraziamenti.

Le uniche vere persone che devo ringraziare sono la mia Mamma e il mio Papà, unico punto di

forza, uniche mie certezze, uniche persone che mi amino per quella che sono, che mi proteggono,

che mi guidano e che mi hanno dato la possibilità, la grinta e l’energia di combattere e vincere

questa piccola sfida. Tanti sono stati i momenti che sono caduta e altrettanti che mi sono rialzata

solo ed esclusivamente grazie a loro.

Un altro grazie speciale va a mia sorella Pina, cuore, anima e mio modello di vita, sempre

presente, la mia migliore e unica amica , che mi ha sempre dato buoni consigli e mi ha sempre

spronato a fare di più, a non abbattermi per le varie difficoltà universitarie e della vita che ho

incontrato. Ma soprattutto grazie per avermi regalato due gioie infinite, Stefano e Sofia, unici

amori della mia vita. E ovviamente grazie anche a mio cognato, che nonostante a volte siamo come

cani e gatti, è il fratello che non ho mai avuto….

Grazie al mio relatore di tesi , Ing. Vincenzo Moscato, per la sua professionalità e disponibilità

che mi ha dimostrato nella stesura di questo elaborato.

Un Grazie va anche all’Ing. Roberto Natella , che il suo prezioso aiuto sono riuscita a superare il

mio ultimo esame. Credo che persone gentili e disponibili come lui ce ne siano davvero poche.

Grazie alle mie zie, seconde mamme, pronte a supportarmi e sopportarmi in ogni circostanza.

Grazie ai miei nonni, che da lassù spero che siano fieri di me e che continueranno a proteggermi e

guidarmi così come fatto fin’ora.

Grazie anche a tutte quelle persone le cui strade hanno attraversato anche solo per un attimo il cammino della mia vita, ma che sono riuscite ugualmente ad ottenere un posto nel mio cuore. Un grazie va soprattutto a tutte quelle persone che nel corso della vita sono “sparite”, perché

anche questi modi di fare ti fanno crescere e capire cosa non vuoi diventare.

Infine un ultimo ringraziamento va a me stessa, perché se sono arrivata a questo punto infondo è

anche merito mio.

………………..Carmen

Piattaforme di Gestione per Big Data - Facoltà di Ingegneria · In effetti dopo Hadoop e il suo...

Documents

Transcript of Piattaforme di Gestione per Big Data - Facoltà di Ingegneria · In effetti dopo Hadoop e il suo...