2. Creare Valore con Architetture Big Data · • I big data • Caratteristiche • Fonti •...
-
Upload
hoangthien -
Category
Documents
-
view
224 -
download
0
Transcript of 2. Creare Valore con Architetture Big Data · • I big data • Caratteristiche • Fonti •...
Agenda
• I big data
• Caratteristiche
• Fonti
• Creare valore con i big data
• Aspetto del businessAspetto del business
• Aspetto finanziario
• Aspetto tecnologico
• Criticità
• Skills
• Qualità dei dati
Cosa sono?
Tre caratteristiche
• Volume
Dati non analizzabili su una sola macchina o che non conviene analizzare con
tecnologie tradizionali.
Dati non strutturati difficili da analizzare co un DB relazionale
www.dataskills.it
• Volume• Grandi quantità di dati
• Variety• Varietà di strutture, tipi dato, fonti
• Complessità delle strutture
• Dati destrutturati o semi-strutturati
• Velocity• Velocità con cui sono prodotti
Fonti dati
• Sistemi tradizionali (gestionali, CRM, …)
• DCS (Distributed Control System)
• Apparecchiature Scientifiche /Mediche
• Sistemi di High Frequency trading
www.dataskills.it
• Sistemi di High Frequency trading
• Web 2.0
• IOT
Opportunità/Criticità
• Le opportunità (e criticità) che i big data offrono possono essere viste sotto i seguenti aspetti:
Business Finanziario Tecnologico
Nuovi modelli di
business
Vantaggi competitivi
Incremento ricavi
Riduzione costi
Piattaforme sw
Hardware
Skills
Qualità dati
Creare valore con i Big Data
Cross sellingDati demografici
storia degli acquisti
location / dati social
Proposte mirate
es: «you might also
want» di Amazon
Campagne mirate
Dati geograficiDifferenziazione
www.dataskills.it
Location Based
Mkt
Dati geografici
Dati social
Differenziazione
offerte
Messaggi pubblicitari
in base alla location
CRM
Dati geografici
Dati social
Dati anagrafici
Foto, Documenti
Profilazione
Churn Analysis
Gestion integrata dei
dati
Creare valore con i Big Data
Frau DetectionDati geografici
Dati social
Dati anagrafici
location
Individuazione di
utilizzi fraudolento di
carte di credito
Frodi assicurative
Dati di impianti Individuazione guasti o
www.dataskills.it
Anomaly
Detection
Dati di impianti
industriali
Dati dell'ambiente
Individuazione guasti o
malfunzionamenti
Analisi dati IOT
Sensori
Dati geografici
Dati social
Dati anagrafici
Servizio post vendita
Individuazione guasti
Aspetto finanziario
• La quantificazione dell’impatto economico derivante dall’utilizzo dei big data è un’informazione importante e serve a decidere se realizzare oppure accantonare il progetto stesso.
• Valutiamo l'investimento in termini di ROI:
Fattori di costo Benefici
• Tecnologie Software
• L'ecosistema Hadoop
Tecnologie
www.dataskills.it
• Tecnologie Hardware
• DB Appliances
• Architetture MPP
15
Hadoop
• Hadoop è un sistema di calcolo distribuito basatosu:
• Il file system HDFS (Hadoop Distributed File System)• Distribuito
• Ridondato
www.dataskills.it
• Ridondato
• Il framework di calcolo distribuito MapReduce• Principio "divide et impera"
• Caratteristiche:• Open source
• Fault tolerant
• Scalabile
L'ecosistema Hadoop
MAHOUT R
DATA SERVICESOPERATIONAL
SERVICES
ANALYTICS …GIRAPH
www.dataskills.it
HDFS
AMBARI
YARN
PIGHIVE
HCATALOGSQOOP
FLUME
HBASE
MAP
REDUCETEZ
ZOOKEEPER
OOZIE
CORE SERVICES
…
Da
ta I
ng
est
ion
Data storing Data organization
Tecnologie Software
www.dataskills.it
Da
ta
Computation/Analysis Integration/Enrichment
Criticità
• Qualità dei dati
• Coerenza
• Veridicità
• Rilevanza e attinenza
www.dataskills.it
Rilevanza e attinenza
• Privacy
• Protezione dei dati
• Acquisizione degli skills
• Il Data Scientist
Architettura tradizionale (BI)
ApplicazioniReporting
Business
Analytics
Master dataDWH
www.dataskills.it
Fonti
Gestione
dati
Fonti dati tradizionali
(CRM, ERP,…)
Master data
Data quality
engine
DWH
ETL process
Nuova architettura dati
Gestione dati
On premises
Analisi
DWH
ReportingBusiness
AnalyticsAdvanced
Analytics
Data lakeMaster data
www.dataskills.it
Fonti
On premises
o
Cloud based
Fonti esistenti
(CRM, ERP,…)
Fonti emergenti
(sensori, web, geo,
non strutturati,…)
DWH
ETL
&
Data Ingestion
Data lakeMaster data
Data quality
engineRDBMS - MPP
Data Lake
• Utilizzo di Hadoop accanto alle tecnologie tradizionali:
• Repository a costi ridotti
• Staging area permanente per ogni tipologia di dato.
• Creazione di un unico storage accessibile a varie applicazioni
www.dataskills.it
• Creazione di un unico storage accessibile a varie applicazioni
• Eventuale utilizzo del cloud.
• Dati non strutturati
• Dati con struttura variabile
• "Schema on read"
• Il data lake diventa fonte per l'EDW