Hadoop - Introduzione all’architettura ed approcci applicativi

Introduzione all’architettura ed approcci applicativi

Messina, 21/03/2015 Dario Catalano

Qualcosa su di me…

dario@catalano.email

Google+

Twitter

Di cosa parleremo

• Cos’è Apache Hadoop?

• Un po’ di storia

• L’algoritmo Map-Reduce

• L’architettura

• Cloudera

• Esempio Applicativo

• Configurazione

• Amministrazione

• Sicurezza

• «Estensioni» di

Hadoop

• Bibliografia

Cosa è Hadoop?

FrameworkCluster

BigData

MapReduce

DistribuitedFile System

Fault tollerant

Scalable

Cost effective

Extensible

Flexibile

Un po’ di storia

2003 Google File System

Un po’ di storia

2004 Google Map Reduce

Un po’ di storia

Doug Cutting Mike Cafarella

Un po’ di storia

2006 2011 2013

Map Reduce » Step I

Mapper

Intermediate Datas

Record

Partitionated Datas

Record

Map Tasks

(K1,Va) (K2,Vb)(K3,Vc) (K4,Vd)(K5,Ve) (K6,Vf)

(K1,Vc) (K5,Vc)(K5,Vf) (K2,Vd)(K1,Ve) (K1,Vf)

(K3,Va) (K2,Va)(K1,Vc) (K7,Vd)(K2,Vb) (K3,Vf)

(K4,Va) (K2,Vb)(K8,Vc) (K7,Vf)(K2,Ve) (K5,Vf)

Map Reduce » Step II

Intermediate Datas

(K1,Va) (K2,Vb)(K3,Vc) (K4,Vd)(K5,Ve) (K6,Vf)

(K1,Vc) (K5,Vc)(K5,Vf) (K2,Vd)(K1,Ve) (K1,Vf)

(K3,Va) (K2,Va)(K1,Vc) (K7,Vd)(K2,Vb) (K3,Vf)

(K4,Va) (K1,Vb)(K8,Vc) (K7,Vf)(K2,Ve) (K5,Vf)

K1 Va Ve

K5 Ve Vf Vc Vf

Va Vd Ve Vb

Vc Va Vf

Intermediate DatasShuffle, Partitionig and Sorting

Map Reduce » Step III

K1 Va Ve

K5 Ve Vf Vc Vf

Va Vd Ve Vb

Vc Va Vf

Intermediate Datas

Reducer …Record

Record

Reducer …Record

Record

Reduce Tasks

Record

Output Datas

Map Reduce » Esempio

the, 3brown,2fox, 2how, 1now, 1

quick, 1ate, 1mouse, 1cow, 1

Architettura » Visione ad alto livello

HDFS MapReduce

Java Client

Architettura » HDFS

• Distribuito

• Master/Slave

• Blocchi solitamente >= 64 Mb (grande mole

di dati)

• Ridondante (3 copie)

• Facilmente scalabile

Architettura » HDFS

Architettura » HDFS » NameNode

• Ruolo Master

• Responsabile dei Metadata Struttura directory, file e relativi permessi Posizione dei blocchi Stato dei files Identità dei DataNode caricata al boot Filename dei blocchi nei fs locale dei DataNode

• Dati in memoria

Architettura » HDFS » Scrittura file

Architettura » HDFS » Lettura file

Architettura » HDFS » Secondary NameNode

Architettura » HDFS » Comandi

hadoop fs –cat file:///file2hadoop fs –mkdir /user/hadoop/dir1 /user/hadoop/dir2

hadoop fs –copyFromLocal <fromDir> <toDir>hadoop fs –put <localfile> hdfs://nn.example.com/hadoop/hadoopfile

hadoop fs –ls /user/hadoop/dir1hadoop fs –cat hdfs://nn1.example.com/file1hadoop fs –get /user/hadoop/file <localfile>sudo hadoop jar <jarFileName> <method> <fromDir> <toDir>

Architettura » HDFS » Affidabilità

• DataNode Heartbeat

• Trade-off replicazione blocchi (1 locale e 2 in un altro rack)Fattore di replicazione configurabile per file (in heartbeat)

• Checksum dei blocchi

• Cancellazione: Trash directory (6 ore) » Cancellazione fisica

• NameNode collo di bottiglia in Hadoop 1.xDimensioni dei metadatiMancanza di replicazione

Architettura » Map Reduce v1

• Master / Slave

• TaskTracker:Creazione task slot-based JVM forkHeartbeat

• JobTracker: Responsabile/Gestore del JobColloquia con il NameNodeEffettua recovery di task fallitiPunto debole dell’architettura

Architettura » Master / Slave

• Hdfs e MapReduce nello stesso nodo = minore traffico di rete = maggiore performance

Architettura » YARN

• Container Unità computazionale Controlla CPU e RAM assegnate

• Node Manager Riceve richieste del RS (Slave) Gestisce ciclo vita dei container Gestisce logging e servizi ausiliari

• Resource Manager: Riceve richieste da AM Schedula con politiche variabili

(Fair, Capacity,…)

• Application Master Dipende dal tipo di applicazione Separazione delle responsabilità =

Scalabilità

1. CL -> RM (inizio applicazione)

2. RM -> NM (richiesta nuovo AM)

3. AM -> RM (registrazione)4. AM -> RM (richiesta risorse)5. AM -> NM(s) (avvio

containers)6. CS -> AM (containers

eseguono il codice ed inviano checks)

7. CL -> AM (client chiede stato applicazione)

8. AM -> RM (shutdown)

Hadoop 1.x Hadoop 2.x

Tipo di elaborazione Solo Map Reduce Implementazioni multiple

Gestione delle risorsee delle elaborazioni Unica (JobTracker) Separata (ResourceManager e

Application Master)

Scalabilità di HDFS Singolo NameNode HDFS Federation

Affidabilità di HDFS Singolo NameNode HDFS High Availability

Limite Nodi 4.000 10.000

HostHostProcesso

Modalità di Esecuzione

Singolo Processo

NameNode

JobTracker

TaskTracker

Pseudo Distribuita

DataNode

SecondaryNameNode

Distribuita

Prima del codice…

• Servizi, architetture e formazione su Apache Hadoop

• Apache Main Contributor

• CDH (ClouderaDistribution with Hadoop)

Cloudera Quickstart VM

• CDH 5 è basata su Linux Centos 6.4

• Contiene:HDFS, MapReduce, Hadoop Common, Hbase, Hive, Pig, Oozie, Sqoop, Flume, ZooKeeper, Hue, Whirr, Mahout, Cloudera Manager

• Disponibile per VMWare, KVM, Oracle Virtualbox

• Requisititi Minimi:4 Gb RAM (8 raccomandati)64 bit host OS

• Scaricabile da:http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/

cdh-5-3-x.html

Word Count API «vecchia»

import java.io.IOException;...import org.apache.hadoop.mapred.TextOutputFormat;

public class WordCountOldAPI {public static void main(String[] args) throws Exception {JobConf conf = new JobConf(WordCountOldAPI.class);conf.setJobName("wordcount");conf.setOutputKeyClass(Text.class);conf.setOutputValueClass(IntWritable.class);conf.setMapperClass(MyMapper.class);conf.setCombinerClass(MyReducer.class);conf.setReducerClass(MyReducer.class);conf.setNumReduceTasks(1);conf.setInputFormat(TextInputFormat.class);conf.setOutputFormat(TextOutputFormat.class);FileInputFormat.setInputPaths(conf, new Path(args[0]));FileOutputFormat.setOutputPath(conf, new Path(args[1]));JobClient.runJob(conf);}

Word Count API «vecchia»

public static class MyMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {public void map(LongWritable key, Text value,OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {

output.collect(new Text(value.toString()), new IntWritable(1));}

public static class MyReducer extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {

int sum = 0;while (values.hasNext()) {

sum += values.next().get();}output.collect(key, new IntWritable(sum));

La «nuova» API

• Introdotta con Hadoop 0.20 (2009)

• Nuovo package

• Più concisa e compatta

• Più pulita e leggibile

• Permette un controllo del Job più completo ed accurato

• Non confondere versione API con versione dell’architettura (1.x o 2.x)

Word Count API «nuova»

import java.io.IOException;...import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;public class WordCountNewAPI {

public static void main(String[] args) throws Exception {Job job = Job.getInstance(new Configuration());job.setJarByClass(WordCountNewAPI.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);job.setMapperClass(MyMapper.class);job.setReducerClass(MyReducer.class);job.setInputFormatClass(TextInputFormat.class);job.setOutputFormatClass(TextOutputFormat.class);FileInputFormat.setInputPaths(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));boolean status = job.waitForCompletion(true);if (status) System.exit(0)else System.exit(1);

Word Count API «nuova»

public static class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable> {public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

String w = value.toString();context.write(new Text(w), new IntWritable(1));

public static class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {

int sum = 0;for (IntWritable val : values) {sum += val.get();

}context.write(key, new IntWritable(sum));

E adesso…

…un po’ di pratica

Configurazione

• Configurazione XML per ogni nodo• *‐default.xml nei JAR di Hadoop, *‐site.xml nella cartella di

configurazione• 4 tipi file principali: core‐*.xml hdfs‐*.xml mapred‐*.xml yarn‐*.xml

• Precedenza delle proprietà definite in varie posizioni: Oggetto Job o JobConf all’interno del codice File *‐site.xml all’interno del nodo Client File *‐site.xml all’interno del nodo Slave File *‐default.xml nei JAR (uguali in tutti i nodi)

Amministrazione e Monitoring

• Command Line Interface

• Log files

• Interfacce Web per ogni processo

• YARN REST API

• JMX

• Manager Tools Cloudera Manager Ambari

Sicurezza

• Inizialmente trascurata (solo dati pubblici)• Hadoop solo su reti private• Sviluppo software di terze parti: Cloudera Sentry, IBM InfoSphere Optim Data Masking, Intel's secure Hadoop

distribution, DataStax Enterprise, DataGuise for Hadoop,ecc.• Dalla versione 0.20.x: Autenticazione tra servizi Kerberos Autenticazione Web Console personalizzabile HDFS Permessi ed ACL Autenticazioni Token based per diminuire overhead Possibile crittazione delle connessioni

• Problemi ancora da risolvere HDFS non crittato Difficile integrazione in ambienti non Kerberos Regole di autorizzazione non sufficientemente flessibili Modello complessivo della sicurezza complicato

• Intel Project Rhino

Estensioni

• NoSql Datastore

• Chiavi multidimensionali

• Schema dinamico

• Obiettivo : massime performance

• Visione logica: Tabelle, righe, colonne e famiglie di colonne

• Database

• Data wharehouse e BI

• Linguaggio dichiarativo

• Tabelle -> File su HDFS

• SQL-like query -> MapReduce

• Tabelle (managed ed esterne), viste, partizioni, … = flessibilità organizzativa.

• Scripting

• Data flow e Pipelining

• ETL oriented

• Linguaggio procedurale

• LOAD, FILTER, JOIN, GROUP, STORE,… = controllo del dato step by step

HCatalog

• Integrazione di varie tecnologie Hadoopbased (HIVE, Pig, MapReduce)

• Astrazione per rendere uniformi BI e ETL

• REST API

• Bulk SynchronousParallel

• Yarn-based

• Fasi Processing Exchange

Messages Barrier

Synchronization

• Obiettivo performance(10x più veloce di MR)

• Scala based (Java, Scala, Python API)

• Resilient Distributed Dataset (Scala Seq)

• Hadoop, Mesos, Stand-alone

Mahout

• Machine Learning (IA) Classificazione Clusterizzazione Fuzzy Logic Neural Network …

• Data Mininig

• 2 Fasi Apprendimento Applicazione

Bibliografia

• Libri Pro Hadoop Second Edition, Sameer Wadkar, Madhu Siddalingaiah, Jason Venner , Apress Hadoop: The Definitive Guide Third Edition, Tom White, O’ Reilly

• Web Apache Hadoop Official Site, https://hadoop.apache.org/ What is Hadoop?, http://www-01.ibm.com/software/data/infosphere/hadoop/ Cloudera, http://www.cloudera.com/ Introduzione ad Hadoop, https://paolobernardi.wordpress.com/2011/10/09/introduzione-ad-

hadoop/ Introduction to Hadoop 2.0 and advantages of Hadoop 2.0,

http://www.edureka.co/blog/introduction-to-hadoop-2-0-and-advantages-of-hadoop-2-0/ The New Hadoop API 0.20.x, http://sonerbalkir.blogspot.it/2010/01/new-hadoop-api-020x.html Big Data Security: The Evolution of Hadoop’s Security Model,

http://www.infoq.com/articles/HadoopSecurityModel

Hadoop - Introduzione all’architettura ed approcci applicativi

Engineering

Transcript of Hadoop - Introduzione all’architettura ed approcci applicativi

Principi generali e profili applicativi del nuovo codice ... · Principi generali e profili applicativi . del nuovo codice dei contratti . Avvocato Gianluca Lo Bianco

Schemi di montaggio e particolari applicativi · 2019. 4. 4. · Schemi di montaggio e particolari applicativi Construction drawings and application details Montagepläne und besondere

Raccolta sistematica degli orientamenti applicativi sulle ...

Hug Milano September 2014: Hadoop Summit Europe Impressions

SISMABONUS: ESEMPI APPLICATIVI

Corso Teorico- aspetti tecnici-applicativi e ... · Corso Teorico-pratico: dall’ analisi immunoistochimica dei marcatori predittivi alla FISH, aspetti tecnici-applicativi e armonizzazione

Sviluppo applicativi con Minitab

I programmi applicativi - DiUniTopozzato/informatica/Applicativi.pdf7 Le applicazioni • Il S.O. fa funzionare l’elaboratore, ma gli applicativi lo rendono utile per l’utente

Sistemi GIS: metodologie e casi applicativi - ing.unitn.it · PDF fileSistemi GIS: metodologie e casi applicativiSistemi GIS: metodologie e casi applicativi Paolo Zatelli | Università

Servizi applicativi in Internet Prof. Alfio Lombardo.

I programmi applicativi - personalpages.to.infn.itpersonalpages.to.infn.it/~ferraro/informatica/slides_inf/05... · Facoltà di Farmacia Corso di Informatica 3 Programmi applicativi

Evoluzioni architetturali a partire da Hadoop

Topmedia ned enterprise e pacchetti applicativi

Introduzione all'Architettura del Calcolatore...Corrado Santoro Introduzione all’Architettura del Calcolatore La CPU Fase 2: Interpretazione dell’istruzione Qualora l’istruzione

Valutazione d’azienda: aspetti applicativi - uniba.it · Valutazione d’azienda: aspetti applicativi … METODI FINANZIARI …-Stima del tasso di crescita …La stima del tasso

Introduzione ad Hadoop - dbgroup.unimo.it · 09/01/2013 4 Che cos'è Apache Hadoop? È un sistema distribuito per il salvataggio e l'interrogazione dei dati, scalabile e capace di

INTEGRATORI:Le normative Italiane ed Europee ed i regolamenti applicativi. INTEGRATORI: Le normative Italiane ed Europee ed i regolamenti applicativi.

Distributed and Parallel Architecture, from grid to MapReduce, hadoop

ESEMPI APPLICATIVI PER SISTEMA FOTOVOLTAICO · fotovoltaico sottostrutture e sistemi di ancoraggio esempi applicativi prove di carico statico su staffe mecta40020 — mecta40030 sistema

Protocolli applicativi: FTPweb.taed.unifi.it/alessandromori/applicativi.pdf · Protocolli applicativi: FTP •E’ basato su un modello client-server. •Utilizza due porte: una per