2. Creare Valore con Architetture Big Data · • I big data • Caratteristiche • Fonti •...

26
Big Data Alessandro Rezzani [email protected] www.dataskills.it

Transcript of 2. Creare Valore con Architetture Big Data · • I big data • Caratteristiche • Fonti •...

Big Data

Alessandro [email protected]

www.dataskills.it

Chi sono?

Agenda

• I big data

• Caratteristiche

• Fonti

• Creare valore con i big data

• Aspetto del businessAspetto del business

• Aspetto finanziario

• Aspetto tecnologico

• Criticità

• Skills

• Qualità dei dati

I BIG DATA

Cosa sono?

Tre caratteristiche

• Volume

Dati non analizzabili su una sola macchina o che non conviene analizzare con

tecnologie tradizionali.

Dati non strutturati difficili da analizzare co un DB relazionale

www.dataskills.it

• Volume• Grandi quantità di dati

• Variety• Varietà di strutture, tipi dato, fonti

• Complessità delle strutture

• Dati destrutturati o semi-strutturati

• Velocity• Velocità con cui sono prodotti

Fonti dati

• Sistemi tradizionali (gestionali, CRM, …)

• DCS (Distributed Control System)

• Apparecchiature Scientifiche /Mediche

• Sistemi di High Frequency trading

www.dataskills.it

• Sistemi di High Frequency trading

• Web 2.0

• IOT

IOT

www.dataskills.it

Le fonti per Volume/complessità

www.dataskills.it

CREARE VALORE DAI BIG DATA

Opportunità/Criticità

• Le opportunità (e criticità) che i big data offrono possono essere viste sotto i seguenti aspetti:

Business Finanziario Tecnologico

Nuovi modelli di

business

Vantaggi competitivi

Incremento ricavi

Riduzione costi

Piattaforme sw

Hardware

Skills

Qualità dati

Creare valore con i Big Data

Cross sellingDati demografici

storia degli acquisti

location / dati social

Proposte mirate

es: «you might also

want» di Amazon

Campagne mirate

Dati geograficiDifferenziazione

www.dataskills.it

Location Based

Mkt

Dati geografici

Dati social

Differenziazione

offerte

Messaggi pubblicitari

in base alla location

CRM

Dati geografici

Dati social

Dati anagrafici

Foto, Documenti

Profilazione

Churn Analysis

Gestion integrata dei

dati

Creare valore con i Big Data

Frau DetectionDati geografici

Dati social

Dati anagrafici

location

Individuazione di

utilizzi fraudolento di

carte di credito

Frodi assicurative

Dati di impianti Individuazione guasti o

www.dataskills.it

Anomaly

Detection

Dati di impianti

industriali

Dati dell'ambiente

Individuazione guasti o

malfunzionamenti

Analisi dati IOT

Sensori

Dati geografici

Dati social

Dati anagrafici

Servizio post vendita

Individuazione guasti

Processo di analisi

Data lake

www.dataskills.it

Generate

dataIngestion Store Analyze

Get Insights

Aspetto finanziario

• La quantificazione dell’impatto economico derivante dall’utilizzo dei big data è un’informazione importante e serve a decidere se realizzare oppure accantonare il progetto stesso.

• Valutiamo l'investimento in termini di ROI:

Fattori di costo Benefici

• Tecnologie Software

• L'ecosistema Hadoop

Tecnologie

www.dataskills.it

• Tecnologie Hardware

• DB Appliances

• Architetture MPP

15

Hadoop

• Hadoop è un sistema di calcolo distribuito basatosu:

• Il file system HDFS (Hadoop Distributed File System)• Distribuito

• Ridondato

www.dataskills.it

• Ridondato

• Il framework di calcolo distribuito MapReduce• Principio "divide et impera"

• Caratteristiche:• Open source

• Fault tolerant

• Scalabile

L'ecosistema Hadoop

MAHOUT R

DATA SERVICESOPERATIONAL

SERVICES

ANALYTICS …GIRAPH

www.dataskills.it

HDFS

AMBARI

YARN

PIGHIVE

HCATALOGSQOOP

FLUME

HBASE

MAP

REDUCETEZ

ZOOKEEPER

OOZIE

CORE SERVICES

Da

ta I

ng

est

ion

Data storing Data organization

Tecnologie Software

www.dataskills.it

Da

ta

Computation/Analysis Integration/Enrichment

Criticità

• Qualità dei dati

• Coerenza

• Veridicità

• Rilevanza e attinenza

www.dataskills.it

Rilevanza e attinenza

• Privacy

• Protezione dei dati

• Acquisizione degli skills

• Il Data Scientist

DATA LAKE ARCHITECTURE

Architettura tradizionale (BI)

ApplicazioniReporting

Business

Analytics

Master dataDWH

www.dataskills.it

Fonti

Gestione

dati

Fonti dati tradizionali

(CRM, ERP,…)

Master data

Data quality

engine

DWH

ETL process

Nuova architettura dati

Gestione dati

On premises

Analisi

DWH

ReportingBusiness

AnalyticsAdvanced

Analytics

Data lakeMaster data

www.dataskills.it

Fonti

On premises

o

Cloud based

Fonti esistenti

(CRM, ERP,…)

Fonti emergenti

(sensori, web, geo,

non strutturati,…)

DWH

ETL

&

Data Ingestion

Data lakeMaster data

Data quality

engineRDBMS - MPP

Data Lake

• Utilizzo di Hadoop accanto alle tecnologie tradizionali:

• Repository a costi ridotti

• Staging area permanente per ogni tipologia di dato.

• Creazione di un unico storage accessibile a varie applicazioni

www.dataskills.it

• Creazione di un unico storage accessibile a varie applicazioni

• Eventuale utilizzo del cloud.

• Dati non strutturati

• Dati con struttura variabile

• "Schema on read"

• Il data lake diventa fonte per l'EDW

Repository a costi ridotti

www.dataskills.it

Fonte: Hortonworks

GRAZIE!GRAZIE!