Download - Big Data - Concetti, Architetture, Prodotti (24!02!2016)

Transcript

7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

1/60

Big Data:

Concetti Generali, Architetture NoSQL,Prodotti Open Source.

Seminario tecnico gratuito 24 febbraio 2016

Information and Communication Technology Internal Use Only1

First TimeBig Data

Second Time

NoSQLThird Time

Products
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

2/60

Big Data

2 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

3/60

Big Data

I Big Data costituiscono un nuovo paradigma per larealizzazione di database.

COME SI COSTRUISCE

UN SISTEMA BIG DATA?

BIG DATA = INGEGNERIA

3 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

4/60

Big Data

I Big Data non nascono da speculazioni teoriche,ma da reali esigenze pratiche.

Come si vedr,Doug Cuttingper supportare il suo lavoro suNutch, un motore di ricerca web open source, fupraticamente costretto ad implementareunapplicazionediMapReduceed unFile Systemdistribuito (HDFS), che unitiinsieme formarono il sistema Hadoop.

BIG DATA = TECNOLOGIA

4 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

5/60

Big Data

CHE COSA SI CERCA DI OTTENERE CON IL NUOVO PARADIGMA

Localit dei dati(evitando i tempi di attesa e di trasferimento).

Assenza di lock e quindi il massimo parallelismo possibile.

Accesso sequenziale ai dati, con velocit prossime al transfer-rate(tempo di trasferimento) massimo consentito dall'hardware ed indipendente dalseek-time (tempo di ricerca).

Assenza di uno schema rigido che consentemaggiore flessibilite riduceil rischio diperditadidati(schema-on-read).

Alto grado di scalabilit e fault-tolerance.

5 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

6/60

Big Data

Paradigma delle 3Vconiato daDoug Laney nel 2001 e

riutilizzato da Russom nel 2011.

Volume

Velocity

Variety

Le maggiori sfide per la

gestione distribuita dei dati.

Si possono trovare altre V odaltre lettere, come le 3W

presenti in figura.

6

Paradigma

Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

7/60

Big Data

La dimensione fa la differenza !

Se si chiede ad un astrofisico quanto grande un chilometro, ci risponder che sitratta di una misura molto piccola.

(1 anno luce1015 m).

Se si chiede ad un fisico nucleare quanto piccolo un millimetro, ci risponder che sitratta di una misura molto grande.

(1 fermi10-15 m).

La scienza ci insegna a definire una scala diriferimento, ununit di misura, per avere unavalutazione coerente nello specifico contestodinteresse.

7 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

8/60

Big Data

Con i Big Data la mole dei dati dell'ordine degli exabyte, ovvero milionidi terabyte(un terabyte un milione di megabyte, che a sua volta un milionedi byte).E,per questo, necessaria una potenza di calcolo parallelonotevole.

Lesperienzainsegna cha gia livello di petabytes opportuno prendere inconsiderazione strutture di tipo Big Data.

8 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

9/60

Volume

Gestire grandi volumi di dati in rapida crescita, risultata una sfida per moltidecenni. In passato, questa sfida stata mitigata da processori sempre piveloci, la cui produzione ha rispettato la Legge di Moore.

Oggi non pi cos:il volume di dati cresce pi velocemente delle risorse dicalcolo. Le velocit di clock delle CPU sono praticamente in fase di stallo,mentre i processori sono in forte espansione, dotati di un numero semprecrescente di core. La prima dimensione dei Big Data il volume.

Legge di Moore: formulata negli anni 70, affermava che la potenza

computazionale sarebbe raddoppiata nel tempo una volta ogni due anni. Lostesso Gordon Moore ha successivamente dichiarato che questo fenomeno sisarebbe fermato, tendendo asintoticamente ad un valore massimo.

9 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

10/60

Volume

Dal 1450 al 1500 furono stampati in Europa circa 8 milioni di libri, unnumero superiore a quelli prodotti dagli amanuensi, in tutti gli anni precedenti.Il patrimonio della conoscenza (rappresentato dai libri) impiegava, in quelperiodo, circa 50 anniper raddoppiare.

Oggi sono sufficienti solo3 anni, per duplicare la quantit di datidisponibili su Internet e questo numero destinato a diminuire.

10 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

11/60

Velocity

La seconda dimensione, con cui si devono fare i conti, la velocit .Pi grande il set di dati da elaborare, pi tempo ci vorr per analizzarlo.Tuttavia, non solo in questo senso,puramente computazionale, che di solitosintendeper velocit, nel contesto dei Big Data.

La velocit legata allacapacit dei dati di fluireverso centri di elaborazione,nelminor tempo possibile, offrendo cos la possibilit di effettuare analisiin tempi brevi ed ottenere informazioni sempre aggiornate.

Ci possono essere situazioni in cui si richiede un risultato immediato. Ad

esempio, se si sospetta che durante una transazione con carta di credito ci siauna possibile frode, dovrebbe essere possibilesegnalare il pericolo primache la transazione sia completata, per impedire cheloperazioneavvenga.

11 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

12/60

Velocity

La necessit di comprimere i tempi di utilizzo deidati, dettata dal fatto che le informazioniinvecchiano molto pi velocemente che inpassato, diventando presto obsolete.

Un settore dove questo aspetto molto sentito, laMeteorologia. Ci sono milioni di sensori,rilevatori e telecamere che raccolgono informazioniin tutto il mondo, per avere un quadro il pipossibile veritiero delle condizioni climatiche.Questi dati, in poche ore, possono diventarecompletamente obsoleti.

Argomenti Correlati:

Sistemi Dinamici Logica Fuzzy

12 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

13/60

Variety

Quando gli esseri umani scambiano informazioni, lo fanno esprimendo unafiorita variet di espressioni linguistiche. La ricchezza e le sfumature dellinguaggio naturale, sono in grado di fornire preziosi significati, spessoindispensabili per la conoscenza. La terza dimensione, con cui ci siconfronta, la variet di formato delle informazioni.

Le macchine, che utilizzano algoritmi, si aspettano di solito dati omogeneie non riescono a capire tali sfumature. Di conseguenza, le informazioni devonoessere categorizzate e strutturate: il primo passodellAnalisi dei Dati.

Si consideri, adesempio, un paziente che ha piprocedure medichein un

ospedale. Si potrebbe creare un record per ogni procedura, un record per ilsoggiorno clinico, un record per le interazioni dellospedale con il paziente ecos via.Eintuitivo, quindi, pensare astrutture tabellariin relazione tra diloro, per contenere tutte le informazioni.

13 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

14/60

Variety

Nel caso di Big Data la variet, ovvero la mancanza di omogeneit nelformato dei dati, una costante o come si preferisce dire:uninvariante.

E prassi comune classificare le diverse tipologie di sorgenti informative, che

confluiscono nei Big Data, in 5 distinte categorie:

1. Web & Social Media data

2. Machine-to-Machine data

3. Big Transaction data

4. Biometric data

5. Human-Generated data

14 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

15/60

Plus

15 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

16/60

Data Science

NUOVE PROSPETTIVE

L'obiettivo della Data Science l'estrazioned'informazioni utili da archivi disponibili.Essa inizia con laraccoltadidati esterniallorganizzazione,oppure dati provenientidai processi di business interni.

Successivamente arriva laraffinatezza: ilprocesso che riduce i dati a informazioniutili che rispondono, cio, a domandespecifiche. Tipicamente, le domandedefiniscono l'approccio da usare perl'estrazione delle informazioni.

16 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

17/60

Data Science

NUOVE PROSPETTIVE

La Data Science sostiene e incoraggia il continuo passaggio concettuale traragionamento deduttivo (ipotesi-based) ed induttivo (pattern-based). Sitratta di un cambiamento fondamentale, che completa gli approcci analiticitradizionali, sicuramente meno dinamici.

LAnalisi Induttiva dei dati fornisce un mezzo efficace per formare operfezionare ipotesi e scoprire nuovi percorsi di conoscenza. La successivainterazione con ilRagionamento Deduttivo, rafforza e consolida i risultati,definendo in modo chiarolintepretazionedefinitiva.

Gli strumenti statistico-matematici e tecnico-informatici fungono damicroscopio ingranditore per la realt, che si cela nella miriadedinformazioniche si accumulano ogni giorno.

17 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

18/60

Data Scientist

NUOVE PROFESSIONI

Cosa fa un Data Scientist?

Un Data Scientist analizza dati per fornire al management leinformazioni utiliper assumere decisioni e disegnare strategie. Per lunghianni si parlato dell'importanza dei dati, ora si sottolinea l'esigenza disaperne fare buon uso.

Perch c' bisogno di Data Scientist?

La risposta in due sostantivi: produttivit ecambiamento. Cambiano imodelli di business delle aziende, cos come cambiano le loro politicheeconomiche ed i mercati. Cambiano gli strumenti tecnici e metodologici. Diconseguenza vige la necessit di migliorare produttivit e profitti.

18 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

19/60

Data Scientist

NUOVE PROFESSIONI

Lobiettivo sempre e comunque uno solo:avere a disposizione informazioni

migliori per prenderedecisioni migliori.

Memorizzare poi questi dati, che arrivano ingran quantit ed in formati eterogenei, instrutture di database che favoriscanoricerche veloci, il passo successivo.

19 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

20/60

NoSQL

20 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

21/60

NoSQL

NoSQL un movimentoche negli ultimi anni si

molto affermato,producendo risultatisoddisfacenti, con la

creazione di progetti ediniziative utilizzate

anche su larga scala.

Tale movimento vuole

rompere la storica lineadei database relazionalisinora adottati.

21 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

22/60

NoSQL

Si cercato e si cercaancora di definire nuove

linee guida, perlimplementazione di

database, che nonutilizzano il linguaggio

dinterrogazione SQL enon siano strettamente

legati ad unadefinizione rigida

dello schema dati.

Il tentativo staproducendo risultati

concreti.

22 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

23/60

NoSQL

Un NoSQL data model pu essere implementato seguendo differentitecniche. Si tratta sempre di un paradigma schemaless, che semplificalorganizzazione del modello, rinunciando alle relazioni e costruendostrutture variabiliin termini di tipo e numero di campi (colonne).

Wide Column Store o Famiglie di Colonne (come per Cassandra eHBase): le informazioni sono memorizzate in colonne, con coppiechiave/valore. Tipicamente sono usati nellambito della memorizzazionedistribuita dei dati.

Document Store(come perMongoDB, OrientDB): le informazioni sonoorganizzate in Documenti e laccesso ai dati avviene attraverso API cheinterrogano veri e propri dizionari. Sono molto usati nello sviluppo di webapplication.

23 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

24/60

NoSQL

Partendo dalla domanda:

Perch avere altri tipi di DBMS se esistono quelli relazionali?

Che cosa si legge sullargomento?

NoSQL abbraccia quasi totalmente la filosofia open-source.

NoSQL pi semplice da usare e non occorre uno specialista diprogettazione come per gli RDBMS. (NON EPROPRIO COSI ...).

I dati sono altamente portabilisu sistemi differenti.

Non si definisce uno schema rigido (schemaless) e non occorretipizzare i campi, per cui non esistono limiti o restrizioni ai datimemorizzati nel database NoSQL.

24 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

25/60

NoSQL

Permette maggiori velocit di esecuzione, in interrogazioni su grossequantit di dati eterogenei e la possibilit di distribuzione su piserver (replica dei dati), con meccanismi totalmente trasparentiallutilizzatore.

I DBMS NoSQL si focalizzano su una scalabilit orizzontale e non

verticale come quelli relazionali.

Dallaltrolato, il paradigma NoSQL non garantisce i requisitiACID su cui sibasano i sistemi relazionali.

La parola ACID deriva dall'acronimo Atomicity, Consistency, Isolation,Durability (Atomicit, Consistenza, Isolamento e Durabilit) ed indica lepropriet che devono avere le transazionielettroniche.

25 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

26/60

NoSQL

Atomicit. La transazione indivisibile nella sua esecuzione e la suaelaborazione deve essere o totale o nulla: non sono ammissibili esecuzioniparziali.

Consistenza. Quando inizia una transazione, il database si trova in uno

stato consistente e quando la transazione termina, il database deverimanere in uno stato altrettanto consistente.

Isolamento. Ogni transazione eseguita in modo isolato edindipendentedalle altre: l'eventuale fallimento di una transazione non deve interferire con lealtre in esecuzione.

Durabilit. Per una transazione che abbia richiesto una commit work, icambiamenti apportati al database non dovranno essere persi.

26 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

27/60

NoSQL

I pi comuni e diffusi RDBMS, istallati su singola macchina, supportanopiuttosto bene le transazioni ACID.

Ma dov il problema, allora?

Nelleradel Web, le applicazioni devono lavorare su bilioni e trilioni di dati

ogni giorno e la scalabilit un concetto che, in tale ambito, ricopre un ruolofondamentale.

27 Information and Communication Technology Internal Use Only

Scalabilit Verticale (Scale Up):possibilit dintervenire su di un singolosistema modificandoloallinternoin modo

specifico.Scalabilit Orizzontale (Scale Out):possibilit dintervenire sulla propriastruttura aggiungendo o eliminandoelementi modulari.
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

28/60

NoSQL

UN TEOREMA IMPORTANTE

Il teorema CAP, noto anche cometeorema di Brewer (Eric Brewer lo haformulato nel 2000), afferma che impossibile, per un sistema informaticodistribuito, fornire simultaneamente le tre seguenti garanzie:

Consistency(Consistenza): tutti i nodi vedono gli stessi dati nello stesso

momento.

Availability(Disponibilit): ogni richiesta ricever una risposta.

Partition Tolerance (Tolleranza a livello di Partizione): il sistema

continua a funzionare nonostante arbitrarie perdite (fault) di messaggi.

Secondo il teorema,un sistema distribuito in grado di soddisfare al massimodue di queste garanzie contemporaneamente, ma non tutte e tre.

28 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

29/60

NoSQL

29 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

30/60

NoSQL

CONSISTENCY-AVAILABILITY (CA)

Elevata coerenza/alta disponibilit. Si tratta del compromesso tipicamenteofferto negli RDBMS tradizionali. Le informazioni sono mantenutein modo coerente. sempre possibile leggere e/o scrivere ed essere sicuri che i

nuovi dati siano propagati correttamente su tutti i nodi del cluster.

Tuttavia, la totale coerenza pu incidere sulle performance (latenza) e sullascalabilit. Inoltre, si possono avere problemi qualora si venisse a formareuna partizione tra nodi distinti. In situazioni limite, possibile che la presenzadi partizioni generi un disallineamento dei dati, di non facile recupero.

30 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

31/60

NoSQL

CONSISTENCY-PARTITION TOLERANCE (CP)

Elevata coerenza/tolleranza nella partizione. Questo compromesso quellopreferito da soluzioni quali MongoDB, HBase, BigTable, Redis. I datisono mantenuti in maniera coerente su tutti i nodi del cluster e viene garantita

la tolleranza a livello di singola partizione.

Tuttavia, si possono avere problemi di disponibilit, perch il sistemadiventa non accessibile quando un nodo va in crash. Quasi tutte questesoluzioni prevedono una configurazione doveun nodo agisce comemasteregli altri come slave. Inoltre, i sistemi prevedono particolari procedure per

"eleggere" un nuovo master, qualora quello in carica non sia piraggiungibile.

31 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

32/60

NoSQL

AVAILABILITY-PARTITION TOLERANCE (AP)

Continua disponibilit/tolleranza nella partizione. Questo compromesso stato scelto da soluzioni qualiApache Cassandra,CouchDB,DynamoDBe Riak. I nodi restano on-line anche nelle situazioni in cui non possono

comunicare tra loro. , poi, compito del processo di risincronizzazionedei dati risolvere eventuali conflitti.

Tuttavia, non possibile avere garanzia che tutti i nodi abbiano gli stessidati, con gli stessi valori, durante la perdita di connessione e la relativarisoluzione del fault. Le soluzioni AP garantiscono migliori prestazioniin

termini di latenza e mostrano una scalabilit pi lineare.

32 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

33/60

NoSQL

Conclusione: se si vogliono dati geograficamente distribuiti e prestazionisoddisfacenti, si costretti a sacrificare o laConsistencyo laAvailability, equindi gli RDBMS non vanno bene.

La globalizzazione informatica e lesigenza di trattare Big Data, spinge a

scalare orizzontalmente i dati usando macchine consumer, replicandole alivello geografico per ragioni di economicit, ,disponibilit, reattivit.

Stanno quindi avanzando paradigmi di memorizzazione che non si basano pisul classico modelloACID, caratteristico degli RDBMS.

Sta emergendo il nuovomodello BASE (BasicallyAvailable Soft-state serviceswithEventual-consistency) cherilassa il concetto di consistenza sicuraversouna CONSISTENZA EVENTUALE.

33 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

34/60

NoSQL

34 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

35/60

Products

35 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

36/60

Products

OPEN SOURCE

DYNAMODB (Amazon)

REDIS (Redis Labs)

CASSANDRA(Facebook)

BIGTABLE (Google)COUCHDB (Apache)

HADOOP (Apache)

HBASE (Apache)

ELASTICSEARCH (Apache)

MONGODB (MongoDB Labs)ORIENTDB (OrientDB Labs)

...

36 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

37/60

Hadoop

Apache Hadoop unframework open source perapplicazioni distribuite

data-intensive, creatoinizialmente da Doug Cutting

per supportare il suo lavoro

su Nutch,un motore diricerca web open source.

Cutting implementunapplicazione di

MapReduce ed un File

Systemdistribuito (HDFS),che uniti insieme formarono

il sistema Hadoop.

37 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

38/60

Hadoop

L'architettura interna di tipo master-slave.

Il master, detto NameNode, ha il compito di conservare e gestire lastruttura del file-system e in generale tutto il sistema di metadati.

Realizza le seguenti funzioni.Organizzazione dei blocchi di dati.

Posizionamento logico/fisico dei file sui nodi dei cluster.

Gestione delle repliche di ogni singolo nodo.

Gestione delle regole di accesso.

Glislave, dettiDataNode, hanno invece il solo compito dimemorizzare iblocchi di dati e consentirne l'accesso in lettura/scrittura alla massimavelocit possibile.

38 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

39/60

MapReduce

HDFSoffre unamemorizzazione di file

poco costosa e affidabile.Tale servizio, da solo,

non sarebbe sufficiente acreare il livello

dinteresse o digiustificare il tasso diadozione, che qualifica

oggi Hadoop.

La seconda componente

principale di Hadoop ilsistema di elaborazioneparallela di dati,

chiamato MapReduce.

39 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

40/60

MapReduce

Il framework nascedallesigenza dimplementarecentinaia di computazioni algiorno, che processano grosse quantit di dati come documenti, log e pagineweb, per ottenere dati strutturati di vario tipo.

Le primitivemapereducesono ispirate alle analoghe feature del linguaggiofunzionaleLISP. La funzione map viene applicata ad ogni record e genera unset dicoppie intermedie chiave-valore, che saranno passate alla funzionereduce. Questa verr applicata a tutte le coppie con la stessa chiave, in mododa processare adeguatamente i dati, raggruppati in precedenza dalla funzionemap.

LISP: dallinglese balbettare, in italiano interpretato liberamente comeacronimo di Lista Infinita di Stupide Parentesi.

40 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

41/60

YARN

Hadoop (che ha circa 10 anni) ha sostenuto, nella prima parte della suaesistenza (Hadoop 1), un unico paradigma di calcolo:MapReduce.Estato ilmodo con cui l'industria di ricerca web ha tenuto il passo con la crescenterichiesta di capacit di elaborazione, da parte del mercato. Il paradigmaMapReduce, si dimostrato particolarmente adatto nelle situazioni risolvibilicon una scalabilit orizzontale.

Ma le soluzioni MapReduce non si sono dimostrate particolarmenteinnovativeeperformanti, perchnon sfruttano al meglio la memoria delle CPU.Egrazie aYarnche Hadoop continuer a svolgere un ruolo fondamentale, neltrattamento dei Big Data in tutti i settori.

41 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

42/60

YARN

Con la nascita di reti pi veloci, core pi elevati, storage allo statosolido e soprattutto, memorie pi capienti, nuovi paradigmi di calcoloparallelo si stanno diffondendo su larga scala. YARN (Yet AnotherResource Negotiator) un framework che consente agli utenti di andareoltre MapReduce e di adottare questi paradigmi emergenti. Nasce cos laseconda vita di Hadoop (Hadoop 2).

MapReducenon sar archiviato: una buona soluzione per molti problemiche non effettuano elaborazioni di algoritmi particolarmente sofisticati e scalaorizzontalmente ancora meglio di ogni altra alternativa attualmente sviluppata.Ma sar, in futuro, solo una componente di uno strumento molto pi esteso,

YARN, che nasce dalle sue ceneri.

42 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

43/60

HBase

HBase un database: ildatabase di Hadoop. E 'spesso descritto come un dbcolumn-family oriented,pensato per l'archiviazione ed il recupero dei daticonaccesso casuale (non supportato in HDFS). In Hbasenessun nodo unico: se una macchina va in crash, sufficiente sostituirla con unaltra od

eliminarla dalla rete, senza perdita di dati.

prevista, inoltre, lamemorizzazione dinformazioninon strutturate:HBase non si preoccupa del tipo e permette un modello di dati dinamico eflessibile, che non costringe a specificare una tipologia di memorizzazione.

Non usa SQL enon forza relazioni all'interno dei dati. Non si preoccupadellintegritreferenziale e non usa join.

43 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

44/60

HBase

HBase un database che memorizza i dati intabelle, contenute in file (HFile).Proprio come quelle di un database relazionale, le tabelle in HBase sonostrutturate in colonne. Ma HBase tratta le colonne diversamente da unRDBMS: esse sono organizzate in gruppi chiamatifamiglie. Una tabella deve

avere, quindi, almeno una famiglia di colonne.

44 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

45/60

Ecosystem

ECOSISTEMA DI HADOOP

Ci sono diversi tools che costituiscono lecosistema di Hadoop. Di seguitoalcuni esempi.

Hive

Pig Impala

Sqoop

Flume

Kafka

Zookeeper

Spark

Mahout

45 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

46/60

Ecosystem

SPARK

Apache Spark un nuovo framework, per la computazione di grandi moli didati su cluster. Viene scherzosamente descritto come quello pi veloce di MapReduce, perch nel confronto con il suo predecessore haprestazioni 10-100

volte maggiori. Spark implementato in Scala, un linguaggio diprogrammazione ad alto livello, che integra caratteristiche sia dei linguaggifunzionalisia dellaprogrammazione orientata agli oggetti.

La compilazione di un programma in Scala producebytecode per la JVM.Spark fornisce leAPIper i linguaggi Scala, Java e Python, ed offre dei preziosi

tool di sviluppo come Spark SQL, per creare delle query direttamente conSpark e MLlib, una libreria ricca di algoritmi e strumenti classici per ilmachine learning.

46 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

47/60

Ecosystem

SPARK

Il vantaggio principale dellutilizzo di Spark, la sua estrema velocitnelleseguire programmi di elaborazione dati. Il motivo di queste prestazionirisiedono in unamiglior gestione della memoria. Spark si integra, anche,molto bene con Hbase. Il suo schema di lavoro, che pu essere iterato pivolte, molto semplice.

Load dei dati da disco locale verso i nodi worker del cluster. Esecuzione della funzione assegnata.

Store dei dati su disco locale.

Ad alto livello, unapplicazioneSpark formata da un driver program, checontiene la funzione main scritta dallutente e da una serie di paralleloperationdefinite nel programma, che saranno eseguite sui vari nodi workerdel cluster.

47 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

48/60

Ecosystem

MAHOUT

Mahout un libreria open source di Apache. Lalgoritmo che implementaricade sotto la definizione dilearning machine(apprendimento automatico)

o collective intelligence, che pu significare molte cose ma, allo statoattuale, il suo uso corrente sinonimo di recommender engine ed operatoredi funzioni di clustering eclassification.

Mathout una parolaHindiche si riferiscea colui che guida elefanti. Hainiziato la sua vita nel 2008 come sottoprogetto di Lucene, motore di

ricerca open source, implementando operazioni di text mining e tecnichedestrazionedelle informazioni.

48 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

49/60

Ecosystem

MAHOUT

I Recommender Engine rappresentano tecniche che sono largamenteutilizzate al giorno doggi. Esempi possono essere trovati su Amazon che

consiglia libri agli utenti,Netflixche consiglia DVD, siti di social network chepossono consigliare affinit tra persone. Facebookne utilizza una variante peridentificare persone che potrebbero essere connesse ad altre.

Estato dimostrato, da organismi accreditati, che lutilizzodi queste tecnicheper scopi commerciali, porta ad un aumento dei ricaviche vadall8al10

per cento.

49 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

50/60

ElasticSearch

DEFINIZIONE

Prima di parlare di ElasticSearch necessario introdurre Apache Lucene,unmotore di ricercafull-text ad alte prestazioni, interamente scritto inJava. Si tratta di una tecnologia adatta a qualsiasi applicazione che richiede la

ricerca full-text, in particolare per architetturecross-platform. Lucene puindicizzare qualsiasi documento convertibile in formato testuale.

Quando Lucene indicizza un documento, lo decompone in una serie ditermini. Quindi memorizza i termini in un file indice, dove ognuno associato ai documenti che lo contengono. Al momentodellesecuzionedi una

query, questa viene elaborata attraverso lo stesso analizzatore che statoutilizzato per costruire l'indice, per cercare il termine desiderato.

50 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

51/60

ElasticSearch

LUCENE

Anche se Lucene uno strumento moltoefficace, per scomodo da usaredirettamente ed offre alcune funzionalit

basate su singolo server.

Elasticsearch dispone di API piintuitive e semplici rispetto a quelle diLucene. Inoltre, fornisce anche lapossibilit di creare uninfrastruttura

scalabile attraverso diversi server.JSON il formato per i documenti,supportato dal prodotto.

51 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

52/60

ElasticSearch

UTILIZZO

Ci sono innumerevoli situazioni in cui Elasticsearch risulta molto utile.

Ricerca allinternodi un gran numero didescrizioni prodotto, per

la migliore corrispondenza nel caso di una frase specifica (ad esempiomacchinafotografica autofocus") e restituendo i risultati migliori.

Ricerca di testo per le parole similiper scrittura o significato.

Auto-completamento disearchbox basato su parole parzialmentetipizzate, sulla base di ricerche precedentemente eseguite, tenendo conto dierrori di ortografia.

Elasticsearch utilizza con efficacia algoritmi di Logica Fuzzy.

52 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

53/60

MongoDB

DOCUMENTI

MongoDB (humongous= gigantesco, mostruoso) un NoSQL open-source scalabile ed altamenteperformante,scritto in C++ con interfaccia Javascript.

Document oriented storage.I dati sono archiviatisotto forma di document in stile JSON (JavascriptObject Notation), con schemi dinamici.

Full Index Support. Qualsiasi attributo pu essere

indicizzato.

Replication & High Availability. La replica deidati assicura fault tolerance ed alta scalabilit.

53 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

54/60

MongoDB

SHARDING E REPLICHE

Meccanismo di partizionamento perMongoDB. Ogni Shard ha le suerepliche. I nodi Master ricevono

tutte le scritture e le inoltrano ainodi Slave, che sono in sola lettura.

Se il nodo Master ha un problema(system crash, network error,

mongodb server crash) i nodi Slavetengono unaelezione(automatica)per scegliere un nuovo Master.

54 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

55/60

MongoDB

INDICI

Geospatial Index

Per supportare query efficienti di dati geospaziali, MongoDB fornisce dueindici speciali, oltre a quelli tradizionali:

2d indexes, che utilizzano algoritmi digeometria pianaper la

localizzazione bidimensionale dei dati sui diversi nodi;

2sphere indexes, che utilizzano algoritmi digeometria sferica, per la

localizzazione tridimensionale dei dati sui nodi.

55 Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

56/60

DEFINIZIONE

OrientDB un prodotto particolarmente interessante, che riunisce in un unicodatabase molte funzionalit e caratteristiche poliedriche.

Ha modalit multiple di storage: document, graph, object, key/value.Utilizza un funzionamento embedded, in memory, client/server.

Fornisce propriet ACID di consistenza delle transazioni (unico NoSQL).

Supporta nativamente JSON e REST.

Escritto in Java.

56

OrientDB

Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

57/60

FORMATI

La modalitDocument una delle pi importanti di OrientDB: su di essainfatti si basano sia la modalit Graph database che Object database.

La definizione di documento molto generica: unentit che raggruppadiversi campi, di qualsiasi tipo: stringhe, date, numeri, dati binari, riferimentiad altri documenti. In questa definizione potrebbero ricadere le tradizionalitabelle di un database relazionale.

C,per, una grossa differenza: un documento non ha necessariamente una

struttura fissa, ma pu contenere un numero variabile di campi.

57

OrientDB

Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

58/60

ARCHITETTURA

Questa estrema libert permette di utilizzare la struttura dati in molti modi, ed proprio ci che succede dietro le quinte di OrientDB.

Nella modalit Object Database ogni oggetto viene salvato in un documento,e le sue propriet in altrettanti campi.

Nella modalit Graph Database i nodi sono documenti che memorizzano neipropri campi i collegamenti verso gli altri nodi.

Ci ha richiesto una complessa progettazione software, ottenuta conlutilizzodi personale altamente qualificato ed esperto.

58

OrientDB

Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

59/60

Focus

59

DatabaseSQL

DataMartSQL

DatabaseNoSQL

Information and Communication Technology Internal Use Only
7/24/2019 Big Data - Concetti, Architetture, Prodotti (24!02!2016)

60/60

relatore

Mauro iciani

progettazione ed ottimizzazionedi sistemi software e basi di dati

Training and Education

Un giorno le macchine riusciranno a risolvere tutti i problemi,ma nessuna di esse potr mai porne uno.

citazione attribuita ad Albert Einstein.

best regards

[email protected] riferimenti su linkedin

f i d C i i h l l O l