Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e...

Data Mining: Introduzione alle nozioni di base

18 Aprile 2019 - PADOVA

RELATORI

Laura MargaraData scientist, BI analyst @bnova

AGENDA:

• Data mining: nozioni di base

• Casi d’uso: Market Basket Analysis

• R&D: Analisi predittiva nel Progetto Manifold

• R&D: Analisi multimodale nel Progetto MUSE

• Q&A

Il data mining è l'insieme delle tecniche e delle metodologie che hanno per oggetto l'estrazione di informazioni utili da grandi quantità di dati attraverso metodi automatici o semi-automatici.

Oggi il data mining ha una duplice valenza:

• estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;

• esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati al fine di scoprire pattern significativi.

Terminologia: cos’è il Data Mining?

Sistemi diSupporto alle Decisioni

VALORE AGGIUNTO

BI: Fasi del processo KDD

http://yourfreetemplates.com

8

Prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo di Knowledge Discovery.

6 fasi:1. Comprensione del business

2. Comprensione dei dati

3. Preparazione dei dati

4. Modellizzazione

5. Valutazione

6. Implementazione

Data Mining – Modello CRISP

Shearer C.,The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.

9

Data Mining – Business & Data understandingBusiness understanding:

Comprensione del contesto aziendale:

• Selezione delle fonti

• Affiancamento con esperti del business

Data understanding:

Comprensione dei dati:

• Semantica dei dati

• Individuazione caratteristiche (es. dipendenze) e

«anomalie» (es. outliers, missing value)

Perché è importante?

• La conoscenza del contesto e dei

dati è fondamentale per capire le

necessità aziendali e la fattibilità

delle richieste per impostare

tutte e sole le analisi utili

su tutti e soli i dati necessari.

10

Data Mining – Data preparation (1)

Perché è importante?

• La definizione di una

struttura corretta ( → più adatta)

porta a

risultati migliori ( → più utili)

delle analisi successive

Preparare i dati significa trasformarli in modo che

assumano la forma più adatta alle analisi

successive.

• Data reduction

• Sampling

• Data cleaning

11

Data Mining – Data preparation (2)• Data reduction:

Si tratta della riduzione della dimensione dei dati. L’idea è di ridurre l’amout dei dati in modo da

ottenere alla fine dell’operazione un set di dati limitato, ma più significativo.

Si applica ad esempio tramite funzioni di aggregazione, filtro su parametri predisposti, …

- Verticale

- Orizzontale

12

Data Mining – Data preparation (3)• Sampling:

Si tratta di tecniche per il campionamento statistico: l’idea è individuare delle logiche a partire

dalle quali suddividere il dataset intero in sotto-dataset diversi e tra loro complemetari.

Tecnica utile per individuare il training set e il test set necessari per applicare tecniche di mining

per la definizione (calcolo) e la valutazione di un modello

- Random sampling

- Stratified sampling

13

Data Mining – Data preparation (4)• Data cleaning:

Processo capace di garantire, con una certa soglia di affidabilità, la correttezza di una grande

quantità di dati (DB, DWH, dataset, ...).

Unificazione delle sorgenti dati

Correzioni degli errori:

- missing value

- outliers

- informazioni irrilevanti o non valide

Data Mining – Modeling: Tipologie di analisi (1)

Data Mining – Modeling: Tipologie di analisi (2)

Data Mining

Data Mining – classificazione degli algoritmi

Data Mining

Alg. Supervisionati Alg. Non Supervisionati

Reinforcement learningClassificazione

Regressione

Clustering

Semi-supervisionati

Data Mining – supervised vs unsupervised

Data Mining – classificazione degli algoritmi

• Base Classifiers

• Decision Tree based Methods

• Regression

• Rule-based Methods

• Nearest-neighbor

• Naïve Bayes and Bayesian Belief Networks

• Support Vector Machines

• Ensemble Classifiers

• Boosting, Bagging, Random Forests

Data Mining – Algoritmi supervisionati

20

Home Owner

Marital Status

Annual Income

Defaulted Borrower

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes 10

Home Owner

MarSt

Income

YESNO

NO

NO

Yes No

Married Single, Divorced

< 80K > 80K

Splitting Attributes

Training Data

Data Mining – Algoritmi supervisionati: Decision tree

https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4

Indice gradimento nelle elezioni USA

Goal

• Measure the sentiment in terms of positive and negative words

• Analysis along geographic and time dimensions

Data

• Twitter and social data

Techniques

• Cleansing and preparation, from unifying records to removing stop words

• Sentiment Analysis and text mining

https://web.stanford.edu/~jesszhao/files/twitterSentiment.pdf

Data Mining – Esempio di classificazione

Tecniche di analisi multivariata dei dati volte alla selezione e

raggruppamento di elementi omogenei in un insieme di dati.

DISTANZA intesa come somiglianza

Data Mining – Algoritmi non supervisionati: Clustering


Data Mining – Clustering: Algoritmo K-means

Data Mining – Esempio di clustering

Driver profiling

Data

• Space-time distribution measures (average distance, time spent)

• Context-aware measures (Distance travelled on highways or inside urbar areas)

• Behavioural measures (e.g. acceleration, speed limit)

Goal

• Create a driving profile of a customer

Methodology

• Hierarchical clustering

https://dl.acm.org/citation.cfm?id=2912148

Association Rule:

Algoritmi per la ricerca di relazioni tra I dati

- Quale sarà il prossimo acquisto di un cliente che ha appena comprato ilprodotto A?

{A} => {B}

TID Items

1 Bread, Milk

2 Bread, Diaper, Beer, Eggs

3 Milk, Diaper, Beer, Coke

4 Bread, Milk, Diaper, Beer

5 Bread, Milk, Diaper, Coke

Beer}{}Diaper,Milk{

4.05

2

|T|

)BeerDiaper,,Milk(===

s

67.03

2

)Diaper,Milk(

)BeerDiaper,Milk,(===

c

Data Mining – Association Rules


Metriche di valutazione

Support (s): percentuale di record che contengono siagli elementi a sinistra sia quelli a destra della regola

Valori considerati buoni in letteratura: 2-10%

Confidence (c): è una probabilità condizionata: rispettoai record che contengono gli elementi di sinistra, sitratta della percentuale di quelli che contengonoANCHE quelli a destra

Valori considerati buoni in letteratura : 80-100%

Few items with high support

Many items with low support

Data Mining – Association Rules (2)


Confusion Matrix

Lift

Cost Matrix

Confronto sulla base di metriche e KPI:• Metrics: accuracy, precision, recall, …

• Speed

• Robustness

• Scalability

• Interpretability

• …

Data Mining – Come si valuta un modello

AGENDA:





• Q&A

Scopo:- Analizzare i comportamenti di

acquisto con lo scopo di individuare dei pattern frequenti

Obiettivi aziendali:- Fare previsioni di acquisto- Dare suggerimenti di acquisto al

cliente- Creare campagne marketing

personalizzate- …

Market Basket Analysis

Analisi predittiva del comportamento dei clienti

Obiettivo: ricerca delle correlazioni tra i prodotti

Supporto alle decisioni per Marketing e Business

• Caratteristiche del processo:- Iterativo- Interattivo- Trasparente

• Approccio ibrido:- Analisi quantitative- Analisi data mining

Market Basket Analysis: l’applicativo (1)

Caratteristiche generali:

• Cambio del punto di vista• Prospettiva cliente• Prospettiva transazione

• Sempre aggiornato perché basato su DWH aziendale con analisi in tempo reale

• Profilazione degli accessi

• Alto livello di personalizzabilità


- Con che frequenza giacche e accessori moda vengono acquistai insieme? Quali modelli in particolare? Ci sono colori o materiali più correlati?

- Che caratteristiche hanno i clienti che acquistano pellicce e orologi? Sono riconducibili ad un pattern comune?

- Il pattern individuato per i clienti europei vale anche per i clienti americani? Quali sono le abitudini di acquisto che hanno in comune e in cosa invece differiscono?


Analisi predittiva e multimodale

18 Aprile 2019 - PADOVA

AGENDA:





• Q&A

• ContestoDefinizione di un sistema industriale per la realizzazione di forme per calzature tramite stampa 3D

• Processo di innovazione• Tempi di produzione ridotti al 50%• Peso delle forme ridotto fino al 40%• Minimizzazione degli sfridi di lavorazione• Controllo delle condizioni ottimali di produzione• Manutenzione predittiva

MANIFOLD –Timeline e Obiettivi

Robot Antropomorfo

Stampante 3D

Servizio di Manutenzione

Predittiva

PiattaformaSensori-

Data Platform

OO1: Progettazione della piattaforma robotica

OO2: Progettazione del robot antropomorfo e del sistema di manutenzione predittiva

OO3: Realizzazione del robot antropomorfo edel sistema di manutenzione predittiva

OO4: Fase di test

MANIFOLD – Metodologie per la Predictive Maintenance

VS

+ Precisione e accuratezza

- Disponibilità di dati storici

- Sbilanciamento tra classi

- Alta dimensionalità dei dati

+ Non necessario un attributo di classificazione

- Complessità della metodologia

- Valutazione delle performance del modello

ClusteringTime-seriesAnomaly Detection

ClassificationNeural NetworkRule-based models

Sup

erv

ise

d

Un

sup

erv

ise

d

MANIFOLD – Maintenance Strategies

SOURCE: Analytics Institute (2016). Predictive Maintenance - taking pro-active measures based on advanced data analytics to predict and avoid machine failure.

MANIFOLD – Keplero: Architettura della piattaforma IoT

MANIFOLD – Predictive Maintenance Architecture

AGENDA:





• Q&A

MUSE, MUltimodal Semantic Extraction:Analisi Multimodale di testi e immagini

MUSE: Analisi combinata Immagini e Testo

Obiettivo:Creare modello per sfruttare le sinergie tra NLP (Natural Language Processing) e CV (Computer Vision)

• Tokenizzazione• Sentence Splitting• PoS-Tagging• Lemmatizzazione

Natural Language Processing Computer vision

• Image recognition• Object detection• Facial analysis• OCR

MUSE: Attori e ruoli

CoLingLabLaboratorio Linguistica

Computazionale

Recupero dati: immagini e

testi

Classificazione

Analisi delleimmagini

Estrazioneembeddings di

tag e labels

Combinazionerisutati analisimultimodale

MUSE: selezione campo di applicazione

MUSE: Recovery, soluzioni e problematiche (1)

Recupero dati: immagini e testi

Classificazione



tag e labels


Pentaho PDI:

11/12/18 → cambio policy



Classificazione



tag e labels


Pentaho PDI:



Classificazione



tag e labels


Problematiche emerse:

• Solo il 10% dei post contengono un’immagine• Scartare i post senza immagine• Analizzare solo i testi → NLP vs Multimodal• …

• Tipologie diverse di immagini• Foto• Articoli giornale• Screenshot• Pubblicità/locandine• …

MUSE: Classificazione delle immagini, soluzioni e problematiche (1)


Classificazione



tag e labels


Fase in sviluppo:• creazione dataset delle immagini su cui addestrare la rete neurale

OCRSemantic analysis

Object DetectionFacial analysis

OCR + Object detection



Classificazione



tag e labels



Foto TestoMiste

Classificatore a 3 classi:



Classificazione



tag e labels



Foto Testo

Classificatore a 2 classi:

MUSE: architettura logica

MODULO INTEGRAZIONE

RISULTATI

MODULO APPLICAZIONE MODELLI VGG-Net OXFORD

MOTORE RECOVERY

MODULO APPLICAZIONE MODELLI NLP STANFORD

PRECLASSIFICATORE

Motori di ricerca

Analisi per tema

Disambiguazione

AGENDA:





• Q&A

GRAZIE

Contatto:

[email protected]

Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e...

Documents

Transcript of Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e...