Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning...

Sviluppo di sistemi scalabili con Apache Spark

Alessandro Natilla - 22/10/20161

Outline

● Big Data● Cosa è Apache Spark● Storia di Spark● Spark vs MapReduce● Componenti di Apache Spark● Foundations: RDD e operazioni● Modello di esecuzione● Esempi● Deploying● Riferimenti

● Velocity● Volumes● Variety● Value

Fonti● Social Media● GPS data● IoT● Sensors Networks

Big Data

● Framework per massive parallel computing

● Basato su Direct Acyclic Graph (DAG) computing engine

● in-memory computation○ Hadoop MapReduce svolge operazioni su disco

● Apache Project (spark.apache.org)

Cosa è Apache Spark

● Progetto nato presso l’Università di Berkeley nel 2009

● Progetto Apache dal 2013

● Progetto top-level dal 2014

● I creatori hanno fondati databricks.com

● Giunto alla versione 2.0.1 (last stable)

Storia

● Graysort benchmark, http://sortbenchmark.org/

● Hadoop - 72 minutes / 2100 nodes / datacentre

● Spark - 23 minutes / 206 nodes / AWS

Spark vs Hadoop Mapreduce

Esempio classico: Word Count on Hadoop

Obiettivo

Contare il numero di occorrenze di ciascuna parola in un testo

Logica

Per ogni parola, associarvi il valore intero 1.

Si ottiene una lista di coppie (parola, 1).

Aggregazione delle coppie in base alla parola chiave utilizzando una funzione associativa (somma).

Si ottiene una lista di coppie dove il primo elemento corrisponde alla parola, il secondo elemento coincide con il numero totale di occorrenze nel testo

from pyspark import SparkContext

logFile = "hdfs:///input"sc = SparkContext("spark://spark-m:7077", "WordCount")textFile = sc.textFile(logFile)

wordCounts = textFile.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)

wordCounts.saveAsTextFile("hdfs:///output")

Esempio classico: Word Count su Spark (Python API)

Componenti di Spark

● Analytics (batch / streaming)

● Machine Learning

● ETL (Extract - Transform - Load)

● Datawarehousing

Applicazioni concrete

● RDD = Resilient Distributed Dataset

● Collezione di dati immutabile

● Fault-tolerant

● Parallel

Fondamenti: Resilient Distributed Datasets (RDD)

● Trasformazioni

● Azioni

● Le trasformazioni sono operazioni lazy

● Le trasformazioni vengono compiute dalle azioni

Fondamenti: operazioni

PRONo problemi di concorrenza in contesti di elaborazione distribuitiTutti i nodi lavorano su partizioni differenti dei dati

● map(): trasformazione

● filter(): filtraggio

● flatMap(): trasformazione dati

● sample(): campionamento

● …

RDDs – Trasformazioni vs Azioni

● reduce(): applicazione operazione associativa

● count(): conteggio

● saveAsTextFile()

● …

Modello di esecuzione di Spark

● I jobs sono cittadini di prima classe

● L’invocazione di una azione causa l’esecuzione di un job per evadere una richiesta

● Spark esamina il grafo degli RDD, producendo un piano di esecuzione che tenga conto delle risorse disponibili

● Micro-batches (DStreams of RDDs)

● Disponibile per tutte le componenti (MLLib, GraphX, Dataframes, Datasets)

● Fault-tolerant

● Connettori per TCP Sockets, Kafka, Flume, Kinesis, ZeroMQ, ...

Streaming

● Libreria di astrazione dati

● Idea presa in prestito da Python/R

● Supporto per JSON, Cassandra, HBase, Hive, SQL databases, etc.

● Sintassi più semplice rispetto agli RDD

● Datasets vs Dataframes○ type-safe, interfaccia object-oriented programming○ utilizzano l’ottomizzare nativo○ elaborazione dei dati in-memory

Spark SQL

val sqlContext = new org.apache.spark.sql.SQLContext(new SparkContext())val df = sqlContext.read.json("people.json")

df.show()df.filter(df("age") >= 35).show()

df.groupBy("age").count().show()

Dataframe vs Dataset: contare numero di persone con età > 35

case class Person(name: String, age: Long)

val people = sqlContext.read.json("/people.json").as[Person]

people.filter(_.age >= 35).show()

people.groupBy(_.age).count().show

Dataframe

Datasets

● Componente di Machine Learning

● Include implementazioni per algoritmi quali for NaiveBayes, logistic regression, k-means clustering, ALS, word2vec, random forests, etc.

● ML introduce il concetto di pipelines

● Operazioni su matrici (dense / sparse), fattorizzazioni matriciali, etc.

● Basic statistics

MLLib / ML

http://spark.apache.org/docs/latest/mllib-guide.html 18

● Contiene algoritmi su grafi

● Operazioni su vertici e archi

● Include l’algoritmo PageRank

● Combinabile with Streaming/SparkSQL/MLLib/ML

GraphX

● Standalone

● YARN (Hadoop ecosystem)

● Apache Mesos

Deploying Spark

● Traditional (write code, submit to cluster)

● REPL (write code interactively, backed by cluster)

● Interactive Notebooks (iPython/Zeppelin)

Using Spark

Interactive Notebooks

● spark.apache.org

● databricks.com

● zeppelin.incubator.apache.org

● mammothdata.com/white-papers/spark-a-modern-tool-for-big-data-applications

References

Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning...

Documents

Transcript of Sviluppo di sistemi scalabili con Apache SparkDataframe Datasets 17 Componente di Machine Learning...

TPWLK TPWA TPWP “LOGISTIC” “ACTIVITY” “PROFESSIONAL”hosting.oneweigh.co.uk/Dini_Argeo_Datasheets/TPWK_Product_Man… · TPW series pallet truck scales TPW_03_15.07_EN_U

SPSS Regression Models 12.0

“Logistic Train”: la presentazione di Stefano Robotti e di Linde MHI al Global Logistics del 21 e 22 novembre 2012

Presentazione Log360 - Consulenza Logistica - Logistic Consultant

COPERTURE INDUSTRIALI MOBILI E FISSE SISTEMI DI … · COPERTURE INDUSTRIALI MOBILI E FISSE SISTEMI DI CHIUSURA FLESSIBILI LOGISTIC SOLUTIONS. TUNNEL AUTOPORTANTE TUNNEL AUTOPORTANTE

KANBAN lean supply logistic · kanban riduzione dello stock (aboliremo i codici inutilizzati) materiale sempre pronto a magazzino omogeneita’ degli imballi tutti codificati bar

Da crud a messaggi per app scalabili e manutenibili

DYNAMIC MODELING OF NETWORKS AND LOGISTIC COMPLEX …paduaresearch.cab.unipd.it/238/1/DariaBattini_tesidottorato.pdf · universitÁ degli studi di padova dipartimento di tecnica e

Catalogo | 2017 PLC per l’automazione PLC, pannelli ... · ABB offre una gamma completa di PLC scalabili, robusti pannelli HMI e soluzioni high-availability. Sin dal suo lancio

信息检索与数据挖掘 - USTCstaff.ustc.edu.cn/~network/ir/IR-paper-list.pdf · • 2015 QuickScorer: A Fast Algorithm to Rank Documents with Additive Ensembles of Regression

Chi siamo: La Società è costituita da RPM Logistic System sa e RPM Divisione Italia. Organizza ed esegue trasporti nazionali, internazionali e oltremare,

GREEN LOGISTICS EXPO 2020 - Fiera di Padova · 2018-01-05 · Green Logistic Expo a Fiera di Padova il: luglio 19, 2017 In: Expo - Events Stampa Email Green Logistic Expo a Fiera

Java: vantaggi e applicazioni di un linguaggio …...•Per applicazioni web •API per sviluppo di architetture multi-tier e scalabili, web services, … •Implementati Web Application

· Borra S., Di Ciaccio A. (1996). Introduzione alla Statistica descrittiva - volume e ipermedia - McGraw Hill, Milano 1996. Borra S., Di Ciaccio A. (1998). Non-parametric regression

ETA MAG The logistic manager . Introduzione ETAMAG :: The logistic manager EtaMag è un sistema integrato hardware-software.

Cocoa ean 8 005380805018 Cappuccino ean 8 005380805025 ...incarti.freddi.it/catalogue/inglese/logistic/swisslogistic.pdf · Cocoa ean 8 005380805018 Cappuccino ean 8 005380805025

LOGISTIC DAYS 2014 PRESENTAZIONE TEODORO IVANO CALABRESE DIRETTORE.

logistic engineering ingeniería logística logistica.pdf · soluciones de movilidad, logística e identificación automática mobility, logistic and automatic identification solutions

Slide Set #6 Modello di Regression Lineare · Dipendenza lineare: distribuzione congiunta ... intorno alla media condizionata con una certa dispersione omogenea Cor[X;Y] 6= 0 nella

Fato Logistic Equipments