Corso di «Basi di dati» Università di Bologna A.A....

Post on 03-Jun-2020

5 views 0 download

Transcript of Corso di «Basi di dati» Università di Bologna A.A....

Data Warehousing e Data Science

Corso di «Basi di dati»

Università di Bologna

A.A. 2018/2019

13/12/2018Leonardo Bruni

Business Analytics Team Leader

l.bruni@iconsulting.biz

Sara Brolli

Business Analytics Specialist

s.brolli@iconsulting.biz

INDICE

2

Chi Siamo

Data Platform (cenni)

Location Intelligence

Contesto

Cenni Teorici

Case Study: Riorganizzazione delle Strutture Ospedaliere

Data Science

Analysis vs. Analytics

Data Professions: Data Engineer vs. Data Scientist

Project Lifecycle

Case Study: Water Level Forecasting

Approfondimento: Artificial Neural Networks

CHI SIAMO

4

Iconsulting S.p.A. è una società di consulenza specializzata nella progettazione e realizzazione di Sistemi a

Supporto delle Decisioni per i clienti ovvero:

Data Warehouse

Business Intelligence

Performance Management

Big Data

Advanced Analytics

Il nostro obiettivo è realizzare soluzioni uniche per le aziende clienti, con progetti di consulenza realizzati in

modalità “sartoriale”.

….. Ma non solo

Chi è Iconsulting?

5

La nostra vision

6

I nostri partner

DATA PLATFORM

8

LOCATION INTELLIGENCEcontesto e cenni teorici

10

C’era una volta…

11

Una definizione

“Location Intelligence is the extension of traditional BI systems with the spatial dimension.

It has the capability of managing the typical maps visualizations and interactions combined with all other BI systems information”.

12

Location Intelligence: cosa non è!

Tabella

13

Location Intelligence: cosa è!

14

Medico (1813 – 1858)

La storia di John Snow

15

Cartografia: concetti base

(44.4970444, 11.354003)

?[WGS84]

16

Cartografia: concetti base

(5542685.92, 1263921.83)

?[Spherical Mercator Projection]

17

▪ Problemi di rappresentazione della Terra su una mappa piana

▪ Diverse proiezioni, a seconda dell’utilizzo che se ne deve fare

▪ Per ciascuna proiezione, diversi sistemi di riferimento

– WGS84: gradi di latitudine (equatore) e longitudine (Greenwich)

• Sistema di riferimento utilizzato dal sistema GPS

• Es: 41° 53’ 24″ N , 12° 29’ 32″ E (il Colosseo)

– Gauss-Boaga: metri da un punto di riferimento a Roma

• Proiezione cilindrica

• Es: 600000 , 40000

– Molti altri …

Cartografia: concetti base

18

Greenwich: il meridiano 0

19

Proiezioni… una questione di approssimazioni

Spherical Mercator Projection

20

▪ Due modi di rappresentare il dato spaziale:

– Raster

– Vettoriale

• Geometry

• Style

• Layer

• Map

Cartografia: rappresentazione digitale

21

▪ Raster

– La posizione geografica è implicitamente codificata dalla posizione nella matrice

• Nessuna coordinata geografica da memorizzare (ad eccezione della sola che indica la posizione

dell’immagine –angolo in basso a sinistra-)

– La risoluzione è fissata dalla dimensione della matrice… con problemi di zoom!

▪ Vector

– Le coordinate geografiche di ogni vertice devono essere codificate esplicitamente

– Dati visualizzabili a qualsiasi risoluzione senza perdita di qualità

▪ La scelta deve quindi tenere in considerazione:

– Pixel vs. Coordinate

– Accurate Scaling

– Client Side vs. Server Side Rendering

Raster vs. Vector

22

▪ Scommettiamo che avete tutti almeno una volta fatto

un’analisi spaziale su un’«immagine» raster?

▪ «Campo minato» è un perfetto esempio di una

classica «Neighborhood Analysis» su 3x3 celle

– Ogni numero (valore della cella) indica il numero

di bombe presenti nelle celle adiacenti

Spatial Analysis: Raster Analysis

23

Spatial Analysis: Vector Analysis

Areas

Sites

Rivers

Ro

ads

Source: Pro Oracle Spatial for Oracle Database 11g (Apress)

24

Architettura: BRIDGE vs. GEO DWH

BI FRONT END GIS FRONT END

BI SERVER GIS SERVERBRIDGE

DWH GIS DB

BI FRONT END

BI SERVERS

DWH

SPATIAL DATA

GIS DB

GEO DWH

CONTRO▪ Impossibilità di query «miste»▪ Basse performance e elevato scambio dati▪ No singolo punto di verità del dato

PROS▪ Possibilità di query «miste»▪ Ottime performance anche per elevate moli

di dati▪ Visione del dato integrata

25

Architettura

Standard report Maps report(Geo Server)

TSM_ID TSM_DES TME_ID

TME_DES

IMDM_ID

IMDM_DES

ROUTE_ID

ROUTE_DES

TSM_GEO TME_GEO IMDM_GEO

ROUTE_GEO

1 Colchester 11 Colchester

111 Ipswich 1111 Anglia SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

2 Norwich 21 Norwich 111 Ipswich 1111 Anglia SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

3 Barking 31 Barking 222 Romford 1111 Anglia SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

4 Romford 31 Romford 222 Romford 1111 Anglia SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

SDO_GEOM(…)

GEOGRAPHIC DIMENSION

Geographic Identifiers and Descriptions

Geographic shapes

GEO

-DA

TA W

AR

EHO

USE

(tip

ico

Sta

r Sc

he

ma)

COSTDIMENSION

SPEEDDIMENSION

COST FACTTABLE

TRACK GEOMETRYFACT TABLE

TIMEDIMENSION

26

▪ Integrazione in un unico sistema degli aspetti vincenti della Business Intelligence (dati aziendali), dei Sistemi

Informativi Territoriali (GIS) e di dati esterni, orientati allo sviluppo di strategie di marketing avanzate e analisi

del potenziale sul territorio, basate su valutazioni accurate e puntuali

▪ Strumenti analitici e predittivi a supporto delle decisioni

▪ Migliore comprensione di fenomeni complessi sfruttando:

– Dati con componente spaziale (Clienti, Punti di Vendita, Magazzini)

– Tecniche per «aumentare» l’informazione geografica (Routing, Geocoding)

Location Intelligence: vantaggi

27

▪ Molti fenomeni e trend dei dati possono essere osservati e interpretati in modo adeguato solo se sono rappresentati

su una mappa (ad esempio, la distribuzione spaziale e l'evoluzione spazio-temporale di un fenomeno).

Location Intelligence: vantaggi

28

Domini di applicazione

29

▪ Applicazione degli stessi concetti della Location Intelligence all’analisi di interni

▪ Valutazione delle performance di diverse aree all’interno di un punto vendita

Solution: Indoor Analysis

LOCATION INTELLIGENCEcase study: riorganizzazione strutture sanitarieanalisi descrittiva e predittiva

31

Case Study: riorganizzazione strutture sanitarie

LOCATION INTELLIGENCEcase study: riorganizzazione strutture sanitarieanalisi prescrittiva

33

34

35

36

37

DATA SCIENCE

39

▪ Analysis

– segmentazione dei dati in parti facilmente analizzabili individualmentere

– analisi sulle relazioni che legano i segmenti individuate

▪ Analytics

– applicazione di ragionamenti logici e computazionali ai componenti ottenuti nell’analysis

– ricerca di pattern e tentativi di forcasting

Analysis vs Analytics

40

Cosa fa un Data Scientist?

Analisi qualitativa del business

Studio deibusiness case

Reportistica classica (tabellare)

Rappresentazioni grafiche

Dashboards

Passato Presente Futuro

Previsioni sui dati

Data Analytics

Business Analytics

Fonte: https://www.kdnuggets.com

41

Cosa fa un Data Scientist?

Analisi qualitativa del business

Studio deibusiness case

Passato Presente Futuro

Previsioni sui dati

Data Analytics

Business Analytics

Business Intelligence

Fonte: https://www.kdnuggets.com

Reportistica classica (tabellare)

Rappresentazioni grafiche

Dashboards

42

Cosa fa un Data Scientist?

Analisi qualitativa del business

Studio deibusiness case

Passato Presente Futuro

Previsioni sui dati

Data Analytics

Business Analytics

Business Intelligence

Data Science

Fonte: https://www.kdnuggets.com

Reportistica classica (tabellare)

Rappresentazioni grafiche

Dashboards

43

Cosa fa un Data Scientist?

Analisi qualitativa del business

Studio deibusiness case

Passato Presente Futuro

Previsioni sui dati

Data Analytics

Business Analytics

Business Intelligence

Data Science

Machine Learning

Fonte: https://www.kdnuggets.com

Reportistica classica (tabellare)

Rappresentazioni grafiche

Dashboards

44

Cosa fa un Data Scientist?

Analisi qualitativa del business

Studio deibusiness case

Passato Presente Futuro

Previsioni sui dati

Data Analytics

Business Analytics

Business Intelligence

Data Science

Machine Learning

Advanced Analytics

Fonte: https://www.kdnuggets.com

Reportistica classica (tabellare)

Rappresentazioni grafiche

Dashboards

46

Top 10 Data Scientists Skills (secondo LinkedIn)

Skill % offerte di lavoro che la richiedono

SQL 56%

Hadoop 49%

Python 39%

Java 36%

R 32%

Hive 31%

Mapreduce 22%

NoSQL 18%

Pig 16%

SAS 16%

47

▪ RapidMiner

– Inizialmente open-source, ora a proprietario e a pagamento (possibilità di trial gratuito per 14 giorni)

– Flow-based design: algoritmi costruibili come diagrammi a blocchi

– Sito Ufficiale

Interesting Tools (no coding required)

48

▪ Azure ML Studio (Microsoft)

– Servizio cloud che consente di creare, distribuire e condividere facilmente soluzioni di analisi predittiva.

– Sito Ufficiale

Interesting Tools (no coding required)

49

▪ Watson Studio (IBM)

– Piattaforma che dà la possibilità di integrare linguaggi opensource (R, Python, Scala, Sparq, Tensorflow…)

con altre componenti (ad es. SPSS Modeler).

– Permette di definire modelli e poi esporli tramite API ad altre applicazioni.

– Mette a disposizione microservizi che rispondono per determinati business-need (es. chatbot)

– Cloud IBM: con utenza free si può approcciare la tecnologia utilizzandone una versione lite

– Sito Ufficiale

Interesting Tools (no coding required)

50

Data Engineer

Data Engineer vs Data Scientist

Icons design by: https://www.freepik.com/

Data Scientist

▪ Modella i dati per rispondere a

business need specifici.

Struttura i dati a seconda dei

modelli di analisi predittiva a

prescrittiva che intente

implementare.

▪ Tra i suoi compiti spesso c’è

quello di esplorare ed

esaminare dati alla ricerca di

pattern nascosti.

▪ Costruisce, programma, testa e

mantiene architetture quali

database e sistemi

computazionali su larga scala.

▪ Ha a che fare con la

riorganizzazione e

strutturazione di dati grezzi.

▪ Il suo compito consiste

nell’assicurare data reliability,

efficiency e quality.

Fonte: DataCamp

51

Padronanza del business

Padronanza dei dati

Abilità di pulizia e manipolazione dei dati

Modellazione statistica e machine learning

Reporting e data visualization

Fonte: DataCamp

Data Engineer vs Data Scientist

Icons design by: https://www.freepik.com/

52

Data science project lifecycle

Identificazione del problema

Identificazione dati disponibili

Ricerca dati non disponibili

Analisi statisticaImplementazione

dei modelli

Comunicazione dei risultati

Manutenzione

1

2

3

45

6

7

53

Il Consorzio della Bonifica Renana è un ente di diritto pubblico che

riunisce tutti i proprietari di terreni e fabbricati che si trovano all'interno

del suo comprensorio, situato nel bacino del fiume Reno.

La sua funzione principale è garantire, attraverso il proprio reticolo

idrografico artificiale, il corretto deflusso delle acque piovane

provenienti dalle aree agricole ed urbane. Questa attività protegge il

territorio dai rischi di allagamento e alluvione, sempre più elevati a causa

della crescente urbanizzazione.

Il consorzio è interessato a prevedere possibili situazioni di piena

dei fiumi, in modo da intervenire tempestivamente sul flusso delle

acque nei canali di sua competenza.

Water Level Forecasting: Consorzio della Bonifica Renana

Identificazione problema

1

54

Identificazione dati disponibili

2

Water Level Forecasting: Consorzio della Bonifica Renana

55

Spesso nei progetti di Data Science non si hanno a disposizione tutti i dati necessari per costruire un modello

accurato. In questi casi è necessario ricercarli da fonti esterne.

Problematiche:

▪ tipo di fonte (affidabilità, disponibilità)

▪ formato (granularità)

▪ tempistiche di ristrutturazione e pulizia del dato

Questo non è il caso di Bonifica Renana: grazie alla fitta rete di sensori, la fine granularità delle rilevazioni e alla

numerosità degli anni disponibili verosimilmente riusciremo a modellare il comportamento delle acque del fiume

Reno.

Possibile evolutiva: inserimento dati meteo.

Water Level Forecasting: Consorzio della Bonifica Renana

Ricerca dati non disponibili

3

56

Outliers

Valori anomali nelle osservazioni:

▪ forecasting derivanti da campioni contenenti outlier possono essere fuorvianti

▪ Necessaria la loro eliminazione

Cross Correlation Analysis

Tramite semplici metodi statistici (es. matrice di correlazione) è possibile determinare relazioni presenti tra varie componenti dei

dati storici. In base a tali relazioni è possibile orientare la scelta del modello statistico da utilizzare per il forecasting ma anche

valutare i risultati prodotti dal modello scelto.

Imputation

L’imputazione è una risposta al problema dei dati mancanti. Ci sono vari metodi di imputazione, nel nostro caso visto che i sensori

hanno frequenze di rilevazione diverse è stato scelto di considerare le rilevazioni medie al quarto d’ora per ogni sensore.

In caso di quarti d’ora senza rilevazioni, inputeremo usando l’interpolazione lineare i valori mancanti.

Water Level Forecasting: Consorzio della Bonifica Renana

Analisi statistica

4

57

Quale modello?

Reti Neurali:

- CNN

- RNN: LSTM

Quali tecnologie?

Python: Pandas, Tensorflow, Keras

Water Level Forecasting: Consorzio della Bonifica Renana

Implementazione dei modelli

5

58

Approfondimento: Reti Neurali

Matematicamente una rete neurale può essere vista come una funzione

f : X → Y ,

definita come composizione di altre funzioni gi(x), le quali possono essere ulteriormente decomposte.

Una composizione comunemente usata è la nonlinear weighted sum:

f(x) = K ( ∑iwigi(x))

dove K è una funzione fissata, solitamente chiamata funzione di attivazione.

Le reti neurali artificiali (Artificial Neural Network – ANN) si compongono di nodi o neuroni posizionati in livelli: ogni livello riceve l’input dal precedente e manda l’output al successivo, formando così reti più o meno profonde. Da qui il termine Deep Learning.

59

Approfondimento: Reti Neurali

I nodi sono organizzati in livelli, ciascun livello può differire dal precedente in termine di numero di nodi.

Ogni livello è costruito a partire dagli output del livello precedente applicando su di essi i pesi e la funzione di attivazione K.

La dimensione dell’output della rete corrisponderà alla dimensione dell’output dell’ultimo livello.

Input layer

Hidden layers

Output layer

60

Approfondimento: Reti Neurali - CNN

Le Convolutional Neural Network (CNN) si compongono di un livello di input, uno di output e uno o più hidden layer. Gli hidden layer non necessariamente sono tutti completamente connessi.

Questo tipo di rete si è dimostrato di particolare efficacia nel riconoscimento e nella classificazione di immagini.

Il nostro scopo è utilizzare questo tipo di rete per predire il livello del fiume con dettaglio del singolo sensore, nel singolo quarto d’ora.

Input layerRilevazioni nei 3 giorni precedenti

Hidden layers

Output layerLivello dell’acqua previsto per il sensore X nel quarto d’ora Y

61

Approfondimento: Reti Neurali - RNN

Le Recurrent Neural Network (RNN) sono reti caratterizzati dalla presenza di uno «stato interno» al neurone, cioè una «memoria» che può essere utilizzata durante l’elaborazione dell’output.

Questo tipo di rete si è dimostrato particolarmente efficace nella previsione di sequenze.

Le reti LSTM sono un tipo particolare di RNN caratterizzato da uno stato interno composto da vari gate. Questa particolare struttura ha permesso alle LSTM di eccellere in forecasting che hanno alla base serie storiche.

Stato interno

Basic RNN

h

LSTM Unit

62

Una delle skill essenziali per un buon Data Scientist è la capacità di comunicazione.

L’obiettivo è presentare al business i risultati ottenuti in modo consono al business need specifico.

▪ Dashboard

▪ Alert

▪ Data Interpretation (evitare Black Box)

Una buona solution deve:

▪ Affidabile

▪ Scalabile (es. installazione nuovo sensore)

▪ Riutilizzabile (preferibilmente ma non sempre possibile).

Water Level Forecasting: Consorzio della Bonifica Renana

Comunicazione dei risultati

6

Manutenzione

7

Grazie per l’attenzione!

Leonardo Bruni

Business Analytics Team Leader

l.bruni@iconsulting.biz

Sara Brolli

Business Analytics Specialist

s.brolli@iconsulting.biz