Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e...
Transcript of Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e...
Data Mining: Introduzione alle nozioni di base
18 Aprile 2019 - PADOVA
RELATORI
Laura MargaraData scientist, BI analyst @bnova
AGENDA:
• Data mining: nozioni di base
• Casi d’uso: Market Basket Analysis
• R&D: Analisi predittiva nel Progetto Manifold
• R&D: Analisi multimodale nel Progetto MUSE
• Q&A
Il data mining è l'insieme delle tecniche e delle metodologie che hanno per oggetto l'estrazione di informazioni utili da grandi quantità di dati attraverso metodi automatici o semi-automatici.
Oggi il data mining ha una duplice valenza:
• estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;
• esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati al fine di scoprire pattern significativi.
Terminologia: cos’è il Data Mining?
Sistemi diSupporto alle Decisioni
VALORE AGGIUNTO
BI: Fasi del processo KDD
http://yourfreetemplates.com
8
Prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo di Knowledge Discovery.
6 fasi:1. Comprensione del business
2. Comprensione dei dati
3. Preparazione dei dati
4. Modellizzazione
5. Valutazione
6. Implementazione
Data Mining – Modello CRISP
Shearer C.,The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.
9
Data Mining – Business & Data understandingBusiness understanding:
Comprensione del contesto aziendale:
• Selezione delle fonti
• Affiancamento con esperti del business
Data understanding:
Comprensione dei dati:
• Semantica dei dati
• Individuazione caratteristiche (es. dipendenze) e
«anomalie» (es. outliers, missing value)
Perché è importante?
• La conoscenza del contesto e dei
dati è fondamentale per capire le
necessità aziendali e la fattibilità
delle richieste per impostare
tutte e sole le analisi utili
su tutti e soli i dati necessari.
10
Data Mining – Data preparation (1)
Perché è importante?
• La definizione di una
struttura corretta ( → più adatta)
porta a
risultati migliori ( → più utili)
delle analisi successive
Preparare i dati significa trasformarli in modo che
assumano la forma più adatta alle analisi
successive.
• Data reduction
• Sampling
• Data cleaning
11
Data Mining – Data preparation (2)• Data reduction:
Si tratta della riduzione della dimensione dei dati. L’idea è di ridurre l’amout dei dati in modo da
ottenere alla fine dell’operazione un set di dati limitato, ma più significativo.
Si applica ad esempio tramite funzioni di aggregazione, filtro su parametri predisposti, …
- Verticale
- Orizzontale
12
Data Mining – Data preparation (3)• Sampling:
Si tratta di tecniche per il campionamento statistico: l’idea è individuare delle logiche a partire
dalle quali suddividere il dataset intero in sotto-dataset diversi e tra loro complemetari.
Tecnica utile per individuare il training set e il test set necessari per applicare tecniche di mining
per la definizione (calcolo) e la valutazione di un modello
- Random sampling
- Stratified sampling
13
Data Mining – Data preparation (4)• Data cleaning:
Processo capace di garantire, con una certa soglia di affidabilità, la correttezza di una grande
quantità di dati (DB, DWH, dataset, ...).
Unificazione delle sorgenti dati
Correzioni degli errori:
- missing value
- outliers
- informazioni irrilevanti o non valide
Data Mining – Modeling: Tipologie di analisi (1)
Data Mining – Modeling: Tipologie di analisi (2)
Data Mining
Data Mining – classificazione degli algoritmi
Data Mining
Alg. Supervisionati Alg. Non Supervisionati
Reinforcement learningClassificazione
Regressione
Clustering
Semi-supervisionati
Data Mining – supervised vs unsupervised
Data Mining – classificazione degli algoritmi
• Base Classifiers
• Decision Tree based Methods
• Regression
• Rule-based Methods
• Nearest-neighbor
• Naïve Bayes and Bayesian Belief Networks
• Support Vector Machines
• Ensemble Classifiers
• Boosting, Bagging, Random Forests
Data Mining – Algoritmi supervisionati
20
Home Owner
Marital Status
Annual Income
Defaulted Borrower
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes 10
Home Owner
MarSt
Income
YESNO
NO
NO
Yes No
Married Single, Divorced
< 80K > 80K
Splitting Attributes
Training Data
Data Mining – Algoritmi supervisionati: Decision tree
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4
Indice gradimento nelle elezioni USA
Goal
• Measure the sentiment in terms of positive and negative words
• Analysis along geographic and time dimensions
Data
• Twitter and social data
Techniques
• Cleansing and preparation, from unifying records to removing stop words
• Sentiment Analysis and text mining
https://web.stanford.edu/~jesszhao/files/twitterSentiment.pdf
Data Mining – Esempio di classificazione
Tecniche di analisi multivariata dei dati volte alla selezione e
raggruppamento di elementi omogenei in un insieme di dati.
DISTANZA intesa come somiglianza
Data Mining – Algoritmi non supervisionati: Clustering
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4
Data Mining – Clustering: Algoritmo K-means
Data Mining – Esempio di clustering
Driver profiling
Data
• Space-time distribution measures (average distance, time spent)
• Context-aware measures (Distance travelled on highways or inside urbar areas)
• Behavioural measures (e.g. acceleration, speed limit)
Goal
• Create a driving profile of a customer
Methodology
• Hierarchical clustering
https://dl.acm.org/citation.cfm?id=2912148
Association Rule:
Algoritmi per la ricerca di relazioni tra I dati
- Quale sarà il prossimo acquisto di un cliente che ha appena comprato ilprodotto A?
{A} => {B}
TID Items
1 Bread, Milk
2 Bread, Diaper, Beer, Eggs
3 Milk, Diaper, Beer, Coke
4 Bread, Milk, Diaper, Beer
5 Bread, Milk, Diaper, Coke
Beer}{}Diaper,Milk{
4.05
2
|T|
)BeerDiaper,,Milk(===
s
67.03
2
)Diaper,Milk(
)BeerDiaper,Milk,(===
c
Data Mining – Association Rules
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4
Metriche di valutazione
Support (s): percentuale di record che contengono siagli elementi a sinistra sia quelli a destra della regola
Valori considerati buoni in letteratura: 2-10%
Confidence (c): è una probabilità condizionata: rispettoai record che contengono gli elementi di sinistra, sitratta della percentuale di quelli che contengonoANCHE quelli a destra
Valori considerati buoni in letteratura : 80-100%
Few items with high support
Many items with low support
Data Mining – Association Rules (2)
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4
Confusion Matrix
Lift
Cost Matrix
Confronto sulla base di metriche e KPI:• Metrics: accuracy, precision, recall, …
• Speed
• Robustness
• Scalability
• Interpretability
• …
Data Mining – Come si valuta un modello
AGENDA:
• Data mining: nozioni di base
• Casi d’uso: Market Basket Analysis
• R&D: Analisi predittiva nel Progetto Manifold
• R&D: Analisi multimodale nel Progetto MUSE
• Q&A
Scopo:- Analizzare i comportamenti di
acquisto con lo scopo di individuare dei pattern frequenti
Obiettivi aziendali:- Fare previsioni di acquisto- Dare suggerimenti di acquisto al
cliente- Creare campagne marketing
personalizzate- …
Market Basket Analysis
Analisi predittiva del comportamento dei clienti
Obiettivo: ricerca delle correlazioni tra i prodotti
Supporto alle decisioni per Marketing e Business
• Caratteristiche del processo:- Iterativo- Interattivo- Trasparente
• Approccio ibrido:- Analisi quantitative- Analisi data mining
Market Basket Analysis: l’applicativo (1)
Caratteristiche generali:
• Cambio del punto di vista• Prospettiva cliente• Prospettiva transazione
• Sempre aggiornato perché basato su DWH aziendale con analisi in tempo reale
• Profilazione degli accessi
• Alto livello di personalizzabilità
Market Basket Analysis: l’applicativo (3)
- Con che frequenza giacche e accessori moda vengono acquistai insieme? Quali modelli in particolare? Ci sono colori o materiali più correlati?
- Che caratteristiche hanno i clienti che acquistano pellicce e orologi? Sono riconducibili ad un pattern comune?
- Il pattern individuato per i clienti europei vale anche per i clienti americani? Quali sono le abitudini di acquisto che hanno in comune e in cosa invece differiscono?
Market Basket Analysis: l’applicativo (4)
Analisi predittiva e multimodale
18 Aprile 2019 - PADOVA
AGENDA:
• Data mining: nozioni di base
• Casi d’uso: Market Basket Analysis
• R&D: Analisi predittiva nel Progetto Manifold
• R&D: Analisi multimodale nel Progetto MUSE
• Q&A
• ContestoDefinizione di un sistema industriale per la realizzazione di forme per calzature tramite stampa 3D
• Processo di innovazione• Tempi di produzione ridotti al 50%• Peso delle forme ridotto fino al 40%• Minimizzazione degli sfridi di lavorazione• Controllo delle condizioni ottimali di produzione• Manutenzione predittiva
MANIFOLD –Timeline e Obiettivi
Robot Antropomorfo
Stampante 3D
Servizio di Manutenzione
Predittiva
PiattaformaSensori-
Data Platform
OO1: Progettazione della piattaforma robotica
OO2: Progettazione del robot antropomorfo e del sistema di manutenzione predittiva
OO3: Realizzazione del robot antropomorfo edel sistema di manutenzione predittiva
OO4: Fase di test
MANIFOLD – Metodologie per la Predictive Maintenance
VS
+ Precisione e accuratezza
- Disponibilità di dati storici
- Sbilanciamento tra classi
- Alta dimensionalità dei dati
+ Non necessario un attributo di classificazione
- Complessità della metodologia
- Valutazione delle performance del modello
ClusteringTime-seriesAnomaly Detection
ClassificationNeural NetworkRule-based models
Sup
erv
ise
d
Un
sup
erv
ise
d
MANIFOLD – Maintenance Strategies
SOURCE: Analytics Institute (2016). Predictive Maintenance - taking pro-active measures based on advanced data analytics to predict and avoid machine failure.
MANIFOLD – Keplero: Architettura della piattaforma IoT
MANIFOLD – Predictive Maintenance Architecture
AGENDA:
• Data mining: nozioni di base
• Casi d’uso: Market Basket Analysis
• R&D: Analisi predittiva nel Progetto Manifold
• R&D: Analisi multimodale nel Progetto MUSE
• Q&A
MUSE, MUltimodal Semantic Extraction:Analisi Multimodale di testi e immagini
MUSE: Analisi combinata Immagini e Testo
Obiettivo:Creare modello per sfruttare le sinergie tra NLP (Natural Language Processing) e CV (Computer Vision)
• Tokenizzazione• Sentence Splitting• PoS-Tagging• Lemmatizzazione
Natural Language Processing Computer vision
• Image recognition• Object detection• Facial analysis• OCR
MUSE: Attori e ruoli
CoLingLabLaboratorio Linguistica
Computazionale
Recupero dati: immagini e
testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
MUSE: selezione campo di applicazione
MUSE: Recovery, soluzioni e problematiche (1)
Recupero dati: immagini e testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
Pentaho PDI:
11/12/18 → cambio policy
MUSE: Recovery, soluzioni e problematiche (2)
Recupero dati: immagini e testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
Pentaho PDI:
MUSE: Recovery, soluzioni e problematiche (3)
Recupero dati: immagini e testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
Problematiche emerse:
• Solo il 10% dei post contengono un’immagine• Scartare i post senza immagine• Analizzare solo i testi → NLP vs Multimodal• …
• Tipologie diverse di immagini• Foto• Articoli giornale• Screenshot• Pubblicità/locandine• …
MUSE: Classificazione delle immagini, soluzioni e problematiche (1)
Recupero dati: immagini e testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
Fase in sviluppo:• creazione dataset delle immagini su cui addestrare la rete neurale
OCRSemantic analysis
Object DetectionFacial analysis
OCR + Object detection
MUSE: Classificazione delle immagini, soluzioni e problematiche (2)
Recupero dati: immagini e testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
Fase in sviluppo:• creazione dataset delle immagini su cui addestrare la rete neurale
Foto TestoMiste
Classificatore a 3 classi:
MUSE: Classificazione delle immagini, soluzioni e problematiche (3)
Recupero dati: immagini e testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
Fase in sviluppo:• creazione dataset delle immagini su cui addestrare la rete neurale
Foto Testo
Classificatore a 2 classi:
MUSE: architettura logica
MODULO INTEGRAZIONE
RISULTATI
MODULO APPLICAZIONE MODELLI VGG-Net OXFORD
MOTORE RECOVERY
MODULO APPLICAZIONE MODELLI NLP STANFORD
PRECLASSIFICATORE
Motori di ricerca
Analisi per tema
Disambiguazione
AGENDA:
• Data mining: nozioni di base
• Casi d’uso: Market Basket Analysis
• R&D: Analisi predittiva nel Progetto Manifold
• R&D: Analisi multimodale nel Progetto MUSE
• Q&A