PresentazioneTesiSilviaMarrone1

23
L’impatto di un’architettura Big Data nell’IT Transformation di Octo Telematics Silvia Marrone Pisa, 28 gennaio 2016

Transcript of PresentazioneTesiSilviaMarrone1

Page 1: PresentazioneTesiSilviaMarrone1

L’impatto di un’architettura Big Data nell’IT Transformation di Octo Telematics

Silvia MarronePisa, 28 gennaio 2016

Page 2: PresentazioneTesiSilviaMarrone1

Chi è Octo Telematics

• Pioniera e innovatrice di soluzioni telematiche

• Modello all’avanguardia per ricerca,sviluppo e gestione di applicazioniper le assicurazioni auto

Page 3: PresentazioneTesiSilviaMarrone1

Chi è Octo Telematics

Page 4: PresentazioneTesiSilviaMarrone1

• Abitudini e comportamenti degli automobilisti• Servizi di sicurezza e assistenza per il veicolo e la persona• Analisi e ricostruzione della dinamica e cinematica

dei sinistri stradali• Prodotti assicurativi personalizzati:

"pay per use" e "pay per risk"• Telediagnostica• Traffico in tempo reale • Strade a pedaggio (“road charging”) • Gestione delle flotte• Monitoraggio dell'impatto ambientale dei veicoli in movimento

Che servizi offre

Page 5: PresentazioneTesiSilviaMarrone1

La trasformazione

Page 6: PresentazioneTesiSilviaMarrone1

Obiettivo del tirocinio

Nell’ambito del progetto di IT Transformation parteciperà al disegnodella soluzione Big Data acquisendo competenze in merito allatrasformazione da un’architettura tradizionale basata su RDBMS (Oracle)ad un modello NoSQL basato su Framework Hadoop (Cloudera). Larisorsa sarà inserita in un team di progetto che comprende SoftwareVendor e System Integrator internazionali, con i quali potrà interagire ecollaborare per acquisire le competenze necessarie alla realizzazione diun progetto pilota per la realizzazione di una soluzione NoSQL checonsenta di raccogliere in tempo reale dati telematici non strutturati,necessari ad individuare i comportamenti dei guidatori.

Page 7: PresentazioneTesiSilviaMarrone1

Vantaggi di Hadoop

Page 8: PresentazioneTesiSilviaMarrone1

Architettura e flusso dati

Device Independent ProcessingDevice dependent Processing

Protocol Decoding

Event inference &

filtering

Data acquisition

Data LakeTelematics Data Storage

(TDS)

RADIUS

authentication

Event Enrichment

Realtime Analysis

Administration

Device

Management

Service

InventoryTDM Admin

Service Data availability

TDS Query

Services

Event Dispatching

GGSNGGSNGGSN

OBUOBU

OBD

ExternalSources

ExternalSources

ExternalSources

1

2

4

3

3

5

6

8

7

9 10 13

Enrichment Services

11 12

ELT

Service and Process Infrastructure

Data Transfer

Data Flow

ProducerMFT

Page 9: PresentazioneTesiSilviaMarrone1

Il Telematics Data Storage

Telematics Data Storage

(TDS)

Page 10: PresentazioneTesiSilviaMarrone1

Attività svolta

• Comprensione dati e architettura esistente

• Studio e definizione delle strutture dati distribuite

• Implementazione dei processi di trasferimento

• Data Analysis, un caso di studio

Page 11: PresentazioneTesiSilviaMarrone1

Comprensione dati e architettura esistenteTabella dei Viaggi

INSURANCE_MESSAGE

latitude latitudine di ogni posizione

longitude longitudine di ogni posizione

timestamp data di rilevamento della posizione

speed velocità del veicolo

heading direzione di marcia del veicolo

quality misura della qualità dei dati gps

deltaposdifferenza in metri rispetto alla posizione precedente

deltatimedelta temporale rispetto alla rilevazione precedente

id_panelsessionstato del quadro (quadro acceso, in moto, quadro off)

speed_limit limite di velocità della strada percorsa

country_code identificativo del paese

zip_code codice di avviamento postale

id_locationtypetipologia di strada (urbana, extraurbana, autostrada, ecc.)

Tabella delle Posizioni

INSURANCE_PATH

id_terminal identificativo univoco di ogni dispositivo

start_date data di inizio viaggio

end_date data di fine viaggio

meters metri percorsi nell’intero viaggio

max_speed velocità massima misurata durante l’intero viaggio

tz_offset fuso orario

id_path numero identificativo univoco di ciascun viaggio

Page 12: PresentazioneTesiSilviaMarrone1

Studio e definizione delle strutture dati distribuite

Telematics Data Storage

(TDS)

Page 13: PresentazioneTesiSilviaMarrone1

Implementazione dei processi di trasferimento

Page 14: PresentazioneTesiSilviaMarrone1

Apache HBasecreate 'path_pos_json_name', 'data', 'positions'

create 'path_pos_json', 'd', 'p'

Nomi colonne

Spazio occupato(Mb)

Estesi 89,0

Abbreviati 65,4

create 'path_pos_json', 'd','p'

create 'path_pos_json_gz, 'd', {NAME => 'p',COMPRESSION => GZ}

create 'path_pos_json_snappy', 'd', {NAME => 'p',COMPRESSION => 'SNAPPY'}

create 'path_pos_json_LZ4, 'd', {NAME => 'p',COMPRESSION => 'LZ4'}

Algoritmo di compressione

Spazio occupato(Mb)

Nessuno 65,4

GZ 27,2

Snappy 35,0

LZ4 35,6

Page 15: PresentazioneTesiSilviaMarrone1

Apache HBasecreate 'path_pos_json', 'd','p' create 'path_pos_json_snappy', 'd',

{NAME => 'p',COMPRESSION => 'SNAPPY'}

Device Giorni Righe path_pos_json path_pos_json_snappy

100 7 2370 5 Mb 2 Mb

7500000 365 19 Tb 8 Tb

Device Giorni Righe path_table

100 7 2370 600 Kb

7500000 365 2 Tb

Device Giorni Righe pos_table pos_table_snappy

100 7 56383 34 Gb 7 Gb

7500000 365 124 Tb 26 Tb

create 'path_table', 'd' create 'pos_table', 'p'

create 'pos_table_snappy', {NAME => 'p',COMPRESSION => 'SNAPPY'}

Page 16: PresentazioneTesiSilviaMarrone1

Impala con file Parquet

Tabelle Esterna

positions_parquetpath_parquet

Create table as select

Page 17: PresentazioneTesiSilviaMarrone1

Impala con file Parquet

Device Giorni Righe Spazio occupato

100 7 2370 73 Kb

7500000 365 250 Gb

Device Giorni Righe Spazio occupato

100 7 56383 575 Kb

7500000 365 2 Tb

positions_parquetpath_parquet

Page 18: PresentazioneTesiSilviaMarrone1

Data Analysis, un caso di studio

Vehicle ID: 2760091

From: 2015-11-05 00:00:01

To: 2015-11-12 23:59:59

Differance: Days: 7 | Hours: 23.0 | Minutes: 59.0 | Seconds: 58.0

Overall time running (sec) 10144

Overall time running (min): 169.07

Overall time running (%): 1.47

Overall time parked (sec): 681054.0

Overall time parked (min): 11350.90

Overall time parked (%): 98.53

Vehicle ID: 2760091

From: 2015-11-05 00:00:01

To: 2015-11-12 23:59:59

Differance: Days: 7 | Hours: 23.0 | Minutes: 59.0 | Seconds: 58.0

Road Type: 0

Percentage Km: 48.36 %

Average Speed: 24.4893617021

Road Type: 1

Percentage Km: 1.43 %

Average Speed: 18.3684210526

Road Type: 2

Percentage Km: 50.22 %

Average Speed: 37.6857142857

DayTime: 100.00 %

Night : 0.00 %

Statistiche temporali

Statistiche chilometriche

Page 19: PresentazioneTesiSilviaMarrone1

Data Analysis, un caso di studio5 Nov 2015 Seconds Running: 0

Percentage Running: 0.00 %

Seconds Parked: 86400

Percentage Parking: 34.69 %

Meters Runned: 0

Percentage Meters: 0.00 %

6 Nov 2015 Seconds Running: 1733

Percentage Running: 17.08 %

Seconds Parked: 84667

Percentage Parking: 34.00 %

Meters Runned: 14303

Percentage Meters: 10.82 %

7 Nov 2015 Seconds Running: 0

Percentage Running: 0.00 %

Seconds Parked: 86400

Percentage Parking: 34.69 %

Meters Runned: 0

Percentage Meters: 0.00 %

8 Nov 2015 Seconds Running: 0

Percentage Running: 0.00 %

Seconds Parked: 86400

Percentage Parking: 34.69 %

Meters Runned: 0

Percentage Meters: 0.00 %

9 Nov 2015 Seconds Running: 0

Percentage Running: 0.00 %

Seconds Parked: 86400

Percentage Parking: 34.69 %

Meters Runned: 0

Percentage Meters: 0.00 %

10 Nov 2015 Seconds Running: 0

Percentage Running: 0.00 %

Seconds Parked: 86400

Percentage Parking: 34.69 %

Meters Runned: 0

Percentage Meters: 0.00 %

11 Nov 2015 Seconds Running: 6806

Percentage Running: 67.09 %

Seconds Parked: 79594

Percentage Parking: 31.96 %

Meters Runned: 101787

Percentage Meters: 77.02 %

12 Nov 2015 Seconds Running: 1605

Percentage Running: 15.82 %

Seconds Parked: 84795

Percentage Parking: 34.05 %

Meters Runned: 16061

Percentage Meters: 12.15 %

Vehicle ID: 2760091

From: 2015-11-05 00:00:00

To: 2015-11-12 23:59:59

Total: 7 Days: 23.0 Hours, 59.0 Minutes, 59.0 Seconds

Total Seconds: 691199.0

Total Seconds Running: 10144

Total Meters: 132151

Total Seconds Parked: 249056

Page 20: PresentazioneTesiSilviaMarrone1

Conclusioni

Fattibilità

• Una tabella per viaggi e posizioni• Posizioni JSON (lista di liste)• Compressione Snappy

• Due tabelle• Occupazione di spazio in linea con le aspettative

Page 21: PresentazioneTesiSilviaMarrone1

Sviluppi futuri

• grado di pericolosità delle strade• probabilità di incidenti al variare delle condizioni

atmosferiche• traffico predittivo• integrazione dati del trasporto pubblico:

miglioramento dei tempi di percorrenza, più clienti• riduzione dei costi di manutenzione stradale con

analisi dei volume di traffico.

Page 22: PresentazioneTesiSilviaMarrone1

Ringraziamenti

Roberto Trasarti Edoardo Resseguier

Page 23: PresentazioneTesiSilviaMarrone1

Domande?