Corso di «Basi di dati» Università di Bologna A.A....

63
Data Warehousing e Data Science Corso di «Basi di dati» Università di Bologna A.A. 2018/2019 13/12/2018 Leonardo Bruni Business Analytics Team Leader [email protected] Sara Brolli Business Analytics Specialist [email protected]

Transcript of Corso di «Basi di dati» Università di Bologna A.A....

Page 1: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

Data Warehousing e Data Science

Corso di «Basi di dati»

Università di Bologna

A.A. 2018/2019

13/12/2018Leonardo Bruni

Business Analytics Team Leader

[email protected]

Sara Brolli

Business Analytics Specialist

[email protected]

Page 2: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

INDICE

2

Chi Siamo

Data Platform (cenni)

Location Intelligence

Contesto

Cenni Teorici

Case Study: Riorganizzazione delle Strutture Ospedaliere

Data Science

Analysis vs. Analytics

Data Professions: Data Engineer vs. Data Scientist

Project Lifecycle

Case Study: Water Level Forecasting

Approfondimento: Artificial Neural Networks

Page 3: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

CHI SIAMO

Page 4: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

4

Iconsulting S.p.A. è una società di consulenza specializzata nella progettazione e realizzazione di Sistemi a

Supporto delle Decisioni per i clienti ovvero:

Data Warehouse

Business Intelligence

Performance Management

Big Data

Advanced Analytics

Il nostro obiettivo è realizzare soluzioni uniche per le aziende clienti, con progetti di consulenza realizzati in

modalità “sartoriale”.

….. Ma non solo

Chi è Iconsulting?

Page 5: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

5

La nostra vision

Page 6: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

6

I nostri partner

Page 7: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

DATA PLATFORM

Page 8: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

8

Page 9: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

LOCATION INTELLIGENCEcontesto e cenni teorici

Page 10: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

10

C’era una volta…

Page 11: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

11

Una definizione

“Location Intelligence is the extension of traditional BI systems with the spatial dimension.

It has the capability of managing the typical maps visualizations and interactions combined with all other BI systems information”.

Page 12: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

12

Location Intelligence: cosa non è!

Tabella

Page 13: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

13

Location Intelligence: cosa è!

Page 14: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

14

Medico (1813 – 1858)

La storia di John Snow

Page 15: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

15

Cartografia: concetti base

(44.4970444, 11.354003)

?[WGS84]

Page 16: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

16

Cartografia: concetti base

(5542685.92, 1263921.83)

?[Spherical Mercator Projection]

Page 17: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

17

▪ Problemi di rappresentazione della Terra su una mappa piana

▪ Diverse proiezioni, a seconda dell’utilizzo che se ne deve fare

▪ Per ciascuna proiezione, diversi sistemi di riferimento

– WGS84: gradi di latitudine (equatore) e longitudine (Greenwich)

• Sistema di riferimento utilizzato dal sistema GPS

• Es: 41° 53’ 24″ N , 12° 29’ 32″ E (il Colosseo)

– Gauss-Boaga: metri da un punto di riferimento a Roma

• Proiezione cilindrica

• Es: 600000 , 40000

– Molti altri …

Cartografia: concetti base

Page 18: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

18

Greenwich: il meridiano 0

Page 19: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

19

Proiezioni… una questione di approssimazioni

Spherical Mercator Projection

Page 20: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

20

▪ Due modi di rappresentare il dato spaziale:

– Raster

– Vettoriale

• Geometry

• Style

• Layer

• Map

Cartografia: rappresentazione digitale

Page 21: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

21

▪ Raster

– La posizione geografica è implicitamente codificata dalla posizione nella matrice

• Nessuna coordinata geografica da memorizzare (ad eccezione della sola che indica la posizione

dell’immagine –angolo in basso a sinistra-)

– La risoluzione è fissata dalla dimensione della matrice… con problemi di zoom!

▪ Vector

– Le coordinate geografiche di ogni vertice devono essere codificate esplicitamente

– Dati visualizzabili a qualsiasi risoluzione senza perdita di qualità

▪ La scelta deve quindi tenere in considerazione:

– Pixel vs. Coordinate

– Accurate Scaling

– Client Side vs. Server Side Rendering

Raster vs. Vector

Page 22: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

22

▪ Scommettiamo che avete tutti almeno una volta fatto

un’analisi spaziale su un’«immagine» raster?

▪ «Campo minato» è un perfetto esempio di una

classica «Neighborhood Analysis» su 3x3 celle

– Ogni numero (valore della cella) indica il numero

di bombe presenti nelle celle adiacenti

Spatial Analysis: Raster Analysis

Page 23: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

23

Spatial Analysis: Vector Analysis

Areas

Sites

Rivers

Ro

ads

Source: Pro Oracle Spatial for Oracle Database 11g (Apress)

Page 24: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

24

Architettura: BRIDGE vs. GEO DWH

BI FRONT END GIS FRONT END

BI SERVER GIS SERVERBRIDGE

DWH GIS DB

BI FRONT END

BI SERVERS

DWH

SPATIAL DATA

GIS DB

GEO DWH

CONTRO▪ Impossibilità di query «miste»▪ Basse performance e elevato scambio dati▪ No singolo punto di verità del dato

PROS▪ Possibilità di query «miste»▪ Ottime performance anche per elevate moli

di dati▪ Visione del dato integrata

Page 25: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

25

Architettura

Standard report Maps report(Geo Server)

TSM_ID TSM_DES TME_ID

TME_DES

IMDM_ID

IMDM_DES

ROUTE_ID

ROUTE_DES

TSM_GEO TME_GEO IMDM_GEO

ROUTE_GEO

1 Colchester 11 Colchester

111 Ipswich 1111 Anglia SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

2 Norwich 21 Norwich 111 Ipswich 1111 Anglia SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

3 Barking 31 Barking 222 Romford 1111 Anglia SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

4 Romford 31 Romford 222 Romford 1111 Anglia SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

GEOGRAPHIC DIMENSION

Geographic Identifiers and Descriptions

Geographic shapes

GEO

-DA

TA W

AR

EHO

USE

(tip

ico

Sta

r Sc

he

ma)

COSTDIMENSION

SPEEDDIMENSION

COST FACTTABLE

TRACK GEOMETRYFACT TABLE

TIMEDIMENSION

Page 26: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

26

▪ Integrazione in un unico sistema degli aspetti vincenti della Business Intelligence (dati aziendali), dei Sistemi

Informativi Territoriali (GIS) e di dati esterni, orientati allo sviluppo di strategie di marketing avanzate e analisi

del potenziale sul territorio, basate su valutazioni accurate e puntuali

▪ Strumenti analitici e predittivi a supporto delle decisioni

▪ Migliore comprensione di fenomeni complessi sfruttando:

– Dati con componente spaziale (Clienti, Punti di Vendita, Magazzini)

– Tecniche per «aumentare» l’informazione geografica (Routing, Geocoding)

Location Intelligence: vantaggi

Page 27: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

27

▪ Molti fenomeni e trend dei dati possono essere osservati e interpretati in modo adeguato solo se sono rappresentati

su una mappa (ad esempio, la distribuzione spaziale e l'evoluzione spazio-temporale di un fenomeno).

Location Intelligence: vantaggi

Page 28: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

28

Domini di applicazione

Page 29: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

29

▪ Applicazione degli stessi concetti della Location Intelligence all’analisi di interni

▪ Valutazione delle performance di diverse aree all’interno di un punto vendita

Solution: Indoor Analysis

Page 30: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

LOCATION INTELLIGENCEcase study: riorganizzazione strutture sanitarieanalisi descrittiva e predittiva

Page 31: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

31

Case Study: riorganizzazione strutture sanitarie

Page 32: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

LOCATION INTELLIGENCEcase study: riorganizzazione strutture sanitarieanalisi prescrittiva

Page 33: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

33

Page 34: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

34

Page 35: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

35

Page 36: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

36

Page 37: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

37

Page 38: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

DATA SCIENCE

Page 39: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

39

▪ Analysis

– segmentazione dei dati in parti facilmente analizzabili individualmentere

– analisi sulle relazioni che legano i segmenti individuate

▪ Analytics

– applicazione di ragionamenti logici e computazionali ai componenti ottenuti nell’analysis

– ricerca di pattern e tentativi di forcasting

Analysis vs Analytics

Page 40: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

40

Cosa fa un Data Scientist?

Analisi qualitativa del business

Studio deibusiness case

Reportistica classica (tabellare)

Rappresentazioni grafiche

Dashboards

Passato Presente Futuro

Previsioni sui dati

Data Analytics

Business Analytics

Fonte: https://www.kdnuggets.com

Page 41: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

41

Cosa fa un Data Scientist?

Analisi qualitativa del business

Studio deibusiness case

Passato Presente Futuro

Previsioni sui dati

Data Analytics

Business Analytics

Business Intelligence

Fonte: https://www.kdnuggets.com

Reportistica classica (tabellare)

Rappresentazioni grafiche

Dashboards

Page 42: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

42

Cosa fa un Data Scientist?

Analisi qualitativa del business

Studio deibusiness case

Passato Presente Futuro

Previsioni sui dati

Data Analytics

Business Analytics

Business Intelligence

Data Science

Fonte: https://www.kdnuggets.com

Reportistica classica (tabellare)

Rappresentazioni grafiche

Dashboards

Page 43: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

43

Cosa fa un Data Scientist?

Analisi qualitativa del business

Studio deibusiness case

Passato Presente Futuro

Previsioni sui dati

Data Analytics

Business Analytics

Business Intelligence

Data Science

Machine Learning

Fonte: https://www.kdnuggets.com

Reportistica classica (tabellare)

Rappresentazioni grafiche

Dashboards

Page 44: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

44

Cosa fa un Data Scientist?

Analisi qualitativa del business

Studio deibusiness case

Passato Presente Futuro

Previsioni sui dati

Data Analytics

Business Analytics

Business Intelligence

Data Science

Machine Learning

Advanced Analytics

Fonte: https://www.kdnuggets.com

Reportistica classica (tabellare)

Rappresentazioni grafiche

Dashboards

Page 46: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

46

Top 10 Data Scientists Skills (secondo LinkedIn)

Skill % offerte di lavoro che la richiedono

SQL 56%

Hadoop 49%

Python 39%

Java 36%

R 32%

Hive 31%

Mapreduce 22%

NoSQL 18%

Pig 16%

SAS 16%

Page 47: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

47

▪ RapidMiner

– Inizialmente open-source, ora a proprietario e a pagamento (possibilità di trial gratuito per 14 giorni)

– Flow-based design: algoritmi costruibili come diagrammi a blocchi

– Sito Ufficiale

Interesting Tools (no coding required)

Page 48: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

48

▪ Azure ML Studio (Microsoft)

– Servizio cloud che consente di creare, distribuire e condividere facilmente soluzioni di analisi predittiva.

– Sito Ufficiale

Interesting Tools (no coding required)

Page 49: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

49

▪ Watson Studio (IBM)

– Piattaforma che dà la possibilità di integrare linguaggi opensource (R, Python, Scala, Sparq, Tensorflow…)

con altre componenti (ad es. SPSS Modeler).

– Permette di definire modelli e poi esporli tramite API ad altre applicazioni.

– Mette a disposizione microservizi che rispondono per determinati business-need (es. chatbot)

– Cloud IBM: con utenza free si può approcciare la tecnologia utilizzandone una versione lite

– Sito Ufficiale

Interesting Tools (no coding required)

Page 50: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

50

Data Engineer

Data Engineer vs Data Scientist

Icons design by: https://www.freepik.com/

Data Scientist

▪ Modella i dati per rispondere a

business need specifici.

Struttura i dati a seconda dei

modelli di analisi predittiva a

prescrittiva che intente

implementare.

▪ Tra i suoi compiti spesso c’è

quello di esplorare ed

esaminare dati alla ricerca di

pattern nascosti.

▪ Costruisce, programma, testa e

mantiene architetture quali

database e sistemi

computazionali su larga scala.

▪ Ha a che fare con la

riorganizzazione e

strutturazione di dati grezzi.

▪ Il suo compito consiste

nell’assicurare data reliability,

efficiency e quality.

Fonte: DataCamp

Page 51: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

51

Padronanza del business

Padronanza dei dati

Abilità di pulizia e manipolazione dei dati

Modellazione statistica e machine learning

Reporting e data visualization

Fonte: DataCamp

Data Engineer vs Data Scientist

Icons design by: https://www.freepik.com/

Page 52: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

52

Data science project lifecycle

Identificazione del problema

Identificazione dati disponibili

Ricerca dati non disponibili

Analisi statisticaImplementazione

dei modelli

Comunicazione dei risultati

Manutenzione

1

2

3

45

6

7

Page 53: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

53

Il Consorzio della Bonifica Renana è un ente di diritto pubblico che

riunisce tutti i proprietari di terreni e fabbricati che si trovano all'interno

del suo comprensorio, situato nel bacino del fiume Reno.

La sua funzione principale è garantire, attraverso il proprio reticolo

idrografico artificiale, il corretto deflusso delle acque piovane

provenienti dalle aree agricole ed urbane. Questa attività protegge il

territorio dai rischi di allagamento e alluvione, sempre più elevati a causa

della crescente urbanizzazione.

Il consorzio è interessato a prevedere possibili situazioni di piena

dei fiumi, in modo da intervenire tempestivamente sul flusso delle

acque nei canali di sua competenza.

Water Level Forecasting: Consorzio della Bonifica Renana

Identificazione problema

1

Page 54: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

54

Identificazione dati disponibili

2

Water Level Forecasting: Consorzio della Bonifica Renana

Page 55: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

55

Spesso nei progetti di Data Science non si hanno a disposizione tutti i dati necessari per costruire un modello

accurato. In questi casi è necessario ricercarli da fonti esterne.

Problematiche:

▪ tipo di fonte (affidabilità, disponibilità)

▪ formato (granularità)

▪ tempistiche di ristrutturazione e pulizia del dato

Questo non è il caso di Bonifica Renana: grazie alla fitta rete di sensori, la fine granularità delle rilevazioni e alla

numerosità degli anni disponibili verosimilmente riusciremo a modellare il comportamento delle acque del fiume

Reno.

Possibile evolutiva: inserimento dati meteo.

Water Level Forecasting: Consorzio della Bonifica Renana

Ricerca dati non disponibili

3

Page 56: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

56

Outliers

Valori anomali nelle osservazioni:

▪ forecasting derivanti da campioni contenenti outlier possono essere fuorvianti

▪ Necessaria la loro eliminazione

Cross Correlation Analysis

Tramite semplici metodi statistici (es. matrice di correlazione) è possibile determinare relazioni presenti tra varie componenti dei

dati storici. In base a tali relazioni è possibile orientare la scelta del modello statistico da utilizzare per il forecasting ma anche

valutare i risultati prodotti dal modello scelto.

Imputation

L’imputazione è una risposta al problema dei dati mancanti. Ci sono vari metodi di imputazione, nel nostro caso visto che i sensori

hanno frequenze di rilevazione diverse è stato scelto di considerare le rilevazioni medie al quarto d’ora per ogni sensore.

In caso di quarti d’ora senza rilevazioni, inputeremo usando l’interpolazione lineare i valori mancanti.

Water Level Forecasting: Consorzio della Bonifica Renana

Analisi statistica

4

Page 57: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

57

Quale modello?

Reti Neurali:

- CNN

- RNN: LSTM

Quali tecnologie?

Python: Pandas, Tensorflow, Keras

Water Level Forecasting: Consorzio della Bonifica Renana

Implementazione dei modelli

5

Page 58: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

58

Approfondimento: Reti Neurali

Matematicamente una rete neurale può essere vista come una funzione

f : X → Y ,

definita come composizione di altre funzioni gi(x), le quali possono essere ulteriormente decomposte.

Una composizione comunemente usata è la nonlinear weighted sum:

f(x) = K ( ∑iwigi(x))

dove K è una funzione fissata, solitamente chiamata funzione di attivazione.

Le reti neurali artificiali (Artificial Neural Network – ANN) si compongono di nodi o neuroni posizionati in livelli: ogni livello riceve l’input dal precedente e manda l’output al successivo, formando così reti più o meno profonde. Da qui il termine Deep Learning.

Page 59: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

59

Approfondimento: Reti Neurali

I nodi sono organizzati in livelli, ciascun livello può differire dal precedente in termine di numero di nodi.

Ogni livello è costruito a partire dagli output del livello precedente applicando su di essi i pesi e la funzione di attivazione K.

La dimensione dell’output della rete corrisponderà alla dimensione dell’output dell’ultimo livello.

Input layer

Hidden layers

Output layer

Page 60: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

60

Approfondimento: Reti Neurali - CNN

Le Convolutional Neural Network (CNN) si compongono di un livello di input, uno di output e uno o più hidden layer. Gli hidden layer non necessariamente sono tutti completamente connessi.

Questo tipo di rete si è dimostrato di particolare efficacia nel riconoscimento e nella classificazione di immagini.

Il nostro scopo è utilizzare questo tipo di rete per predire il livello del fiume con dettaglio del singolo sensore, nel singolo quarto d’ora.

Input layerRilevazioni nei 3 giorni precedenti

Hidden layers

Output layerLivello dell’acqua previsto per il sensore X nel quarto d’ora Y

Page 61: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

61

Approfondimento: Reti Neurali - RNN

Le Recurrent Neural Network (RNN) sono reti caratterizzati dalla presenza di uno «stato interno» al neurone, cioè una «memoria» che può essere utilizzata durante l’elaborazione dell’output.

Questo tipo di rete si è dimostrato particolarmente efficace nella previsione di sequenze.

Le reti LSTM sono un tipo particolare di RNN caratterizzato da uno stato interno composto da vari gate. Questa particolare struttura ha permesso alle LSTM di eccellere in forecasting che hanno alla base serie storiche.

Stato interno

Basic RNN

h

LSTM Unit

Page 62: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

62

Una delle skill essenziali per un buon Data Scientist è la capacità di comunicazione.

L’obiettivo è presentare al business i risultati ottenuti in modo consono al business need specifico.

▪ Dashboard

▪ Alert

▪ Data Interpretation (evitare Black Box)

Una buona solution deve:

▪ Affidabile

▪ Scalabile (es. installazione nuovo sensore)

▪ Riutilizzabile (preferibilmente ma non sempre possibile).

Water Level Forecasting: Consorzio della Bonifica Renana

Comunicazione dei risultati

6

Manutenzione

7

Page 63: Corso di «Basi di dati» Università di Bologna A.A. 2018/2019difelice/dbsi/2019/slides/pdf/seminario2.pdf · Source: Pro Oracle Spatial for Oracle Database 11g (Apress) 24 Architettura:

Grazie per l’attenzione!

Leonardo Bruni

Business Analytics Team Leader

[email protected]

Sara Brolli

Business Analytics Specialist

[email protected]