Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e...

Data Mining: Introduzione alle nozioni di base

18 Aprile 2019 - PADOVA

RELATORI

Laura MargaraData scientist, BI analyst @bnova

AGENDA:

• Data mining: nozioni di base

• Casi d’uso: Market Basket Analysis

• R&D: Analisi predittiva nel Progetto Manifold

• R&D: Analisi multimodale nel Progetto MUSE

• Q&A

Il data mining è l'insieme delle tecniche e delle metodologie che hanno per oggetto l'estrazione di informazioni utili da grandi quantità di dati attraverso metodi automatici o semi-automatici.

Oggi il data mining ha una duplice valenza:

• estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;

• esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati al fine di scoprire pattern significativi.

Terminologia: cos’è il Data Mining?

Sistemi diSupporto alle Decisioni

VALORE AGGIUNTO

BI: Fasi del processo KDD

http://yourfreetemplates.com

Prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo di Knowledge Discovery.

6 fasi:1. Comprensione del business

2. Comprensione dei dati

3. Preparazione dei dati

4. Modellizzazione

5. Valutazione

6. Implementazione

Data Mining – Modello CRISP

Shearer C.,The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.

Data Mining – Business & Data understandingBusiness understanding:

Comprensione del contesto aziendale:

• Selezione delle fonti

• Affiancamento con esperti del business

Data understanding:

Comprensione dei dati:

• Semantica dei dati

• Individuazione caratteristiche (es. dipendenze) e

«anomalie» (es. outliers, missing value)

Perché è importante?

• La conoscenza del contesto e dei

dati è fondamentale per capire le

necessità aziendali e la fattibilità

delle richieste per impostare

tutte e sole le analisi utili

su tutti e soli i dati necessari.

Data Mining – Data preparation (1)

Perché è importante?

• La definizione di una

struttura corretta ( → più adatta)

porta a

risultati migliori ( → più utili)

delle analisi successive

Preparare i dati significa trasformarli in modo che

assumano la forma più adatta alle analisi

successive.

• Data reduction

• Sampling

• Data cleaning

Data Mining – Data preparation (2)• Data reduction:

Si tratta della riduzione della dimensione dei dati. L’idea è di ridurre l’amout dei dati in modo da

ottenere alla fine dell’operazione un set di dati limitato, ma più significativo.

Si applica ad esempio tramite funzioni di aggregazione, filtro su parametri predisposti, …

- Verticale

- Orizzontale

Data Mining – Data preparation (3)• Sampling:

Si tratta di tecniche per il campionamento statistico: l’idea è individuare delle logiche a partire

dalle quali suddividere il dataset intero in sotto-dataset diversi e tra loro complemetari.

Tecnica utile per individuare il training set e il test set necessari per applicare tecniche di mining

per la definizione (calcolo) e la valutazione di un modello

- Random sampling

- Stratified sampling

Data Mining – Data preparation (4)• Data cleaning:

Processo capace di garantire, con una certa soglia di affidabilità, la correttezza di una grande

quantità di dati (DB, DWH, dataset, ...).

Unificazione delle sorgenti dati

Correzioni degli errori:

- missing value

- outliers

- informazioni irrilevanti o non valide

Data Mining – Modeling: Tipologie di analisi (1)

Data Mining – Modeling: Tipologie di analisi (2)

Data Mining

Data Mining – classificazione degli algoritmi

Data Mining

Alg. Supervisionati Alg. Non Supervisionati

Reinforcement learningClassificazione

Regressione

Clustering

Semi-supervisionati

Data Mining – supervised vs unsupervised

Data Mining – classificazione degli algoritmi

• Base Classifiers

• Decision Tree based Methods

• Regression

• Rule-based Methods

• Nearest-neighbor

• Naïve Bayes and Bayesian Belief Networks

• Support Vector Machines

• Ensemble Classifiers

• Boosting, Bagging, Random Forests

Data Mining – Algoritmi supervisionati

Home Owner

Marital Status

Annual Income

Defaulted Borrower

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes 10

Home Owner

Income

Yes No

Married Single, Divorced

< 80K > 80K

Splitting Attributes

Training Data

Data Mining – Algoritmi supervisionati: Decision tree

https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4

Indice gradimento nelle elezioni USA

• Measure the sentiment in terms of positive and negative words

• Analysis along geographic and time dimensions

• Twitter and social data

Techniques

• Cleansing and preparation, from unifying records to removing stop words

• Sentiment Analysis and text mining

https://web.stanford.edu/~jesszhao/files/twitterSentiment.pdf

Data Mining – Esempio di classificazione

Tecniche di analisi multivariata dei dati volte alla selezione e

raggruppamento di elementi omogenei in un insieme di dati.

DISTANZA intesa come somiglianza

Data Mining – Algoritmi non supervisionati: Clustering

Data Mining – Clustering: Algoritmo K-means

Data Mining – Esempio di clustering

Driver profiling

• Space-time distribution measures (average distance, time spent)

• Context-aware measures (Distance travelled on highways or inside urbar areas)

• Behavioural measures (e.g. acceleration, speed limit)

• Create a driving profile of a customer

Methodology

• Hierarchical clustering

https://dl.acm.org/citation.cfm?id=2912148

Association Rule:

Algoritmi per la ricerca di relazioni tra I dati

- Quale sarà il prossimo acquisto di un cliente che ha appena comprato ilprodotto A?

{A} => {B}

TID Items

1 Bread, Milk

2 Bread, Diaper, Beer, Eggs

3 Milk, Diaper, Beer, Coke

4 Bread, Milk, Diaper, Beer

5 Bread, Milk, Diaper, Coke

Beer}{}Diaper,Milk{

)BeerDiaper,,Milk(===

)Diaper,Milk(

)BeerDiaper,Milk,(===

Data Mining – Association Rules

Metriche di valutazione

Support (s): percentuale di record che contengono siagli elementi a sinistra sia quelli a destra della regola

Valori considerati buoni in letteratura: 2-10%

Confidence (c): è una probabilità condizionata: rispettoai record che contengono gli elementi di sinistra, sitratta della percentuale di quelli che contengonoANCHE quelli a destra

Valori considerati buoni in letteratura : 80-100%

Few items with high support

Many items with low support

Data Mining – Association Rules (2)

Confusion Matrix

Cost Matrix

Confronto sulla base di metriche e KPI:• Metrics: accuracy, precision, recall, …

• Speed

• Robustness

• Scalability

• Interpretability

• …

Data Mining – Come si valuta un modello

AGENDA:

• Q&A

Scopo:- Analizzare i comportamenti di

acquisto con lo scopo di individuare dei pattern frequenti

Obiettivi aziendali:- Fare previsioni di acquisto- Dare suggerimenti di acquisto al

cliente- Creare campagne marketing

personalizzate- …

Market Basket Analysis

Analisi predittiva del comportamento dei clienti

Obiettivo: ricerca delle correlazioni tra i prodotti

Supporto alle decisioni per Marketing e Business

• Caratteristiche del processo:- Iterativo- Interattivo- Trasparente

• Approccio ibrido:- Analisi quantitative- Analisi data mining

Market Basket Analysis: l’applicativo (1)

Caratteristiche generali:

• Cambio del punto di vista• Prospettiva cliente• Prospettiva transazione

• Sempre aggiornato perché basato su DWH aziendale con analisi in tempo reale

• Profilazione degli accessi

• Alto livello di personalizzabilità

- Con che frequenza giacche e accessori moda vengono acquistai insieme? Quali modelli in particolare? Ci sono colori o materiali più correlati?

- Che caratteristiche hanno i clienti che acquistano pellicce e orologi? Sono riconducibili ad un pattern comune?

- Il pattern individuato per i clienti europei vale anche per i clienti americani? Quali sono le abitudini di acquisto che hanno in comune e in cosa invece differiscono?

Analisi predittiva e multimodale

18 Aprile 2019 - PADOVA

AGENDA:

• Q&A

• ContestoDefinizione di un sistema industriale per la realizzazione di forme per calzature tramite stampa 3D

• Processo di innovazione• Tempi di produzione ridotti al 50%• Peso delle forme ridotto fino al 40%• Minimizzazione degli sfridi di lavorazione• Controllo delle condizioni ottimali di produzione• Manutenzione predittiva

MANIFOLD –Timeline e Obiettivi

Robot Antropomorfo

Stampante 3D

Servizio di Manutenzione

Predittiva

PiattaformaSensori-

Data Platform

OO1: Progettazione della piattaforma robotica

OO2: Progettazione del robot antropomorfo e del sistema di manutenzione predittiva

OO3: Realizzazione del robot antropomorfo edel sistema di manutenzione predittiva

OO4: Fase di test

MANIFOLD – Metodologie per la Predictive Maintenance

+ Precisione e accuratezza

- Disponibilità di dati storici

- Sbilanciamento tra classi

- Alta dimensionalità dei dati

+ Non necessario un attributo di classificazione

- Complessità della metodologia

- Valutazione delle performance del modello

ClusteringTime-seriesAnomaly Detection

ClassificationNeural NetworkRule-based models

MANIFOLD – Maintenance Strategies

SOURCE: Analytics Institute (2016). Predictive Maintenance - taking pro-active measures based on advanced data analytics to predict and avoid machine failure.

MANIFOLD – Keplero: Architettura della piattaforma IoT

MANIFOLD – Predictive Maintenance Architecture

AGENDA:

• Q&A

MUSE, MUltimodal Semantic Extraction:Analisi Multimodale di testi e immagini

MUSE: Analisi combinata Immagini e Testo

Obiettivo:Creare modello per sfruttare le sinergie tra NLP (Natural Language Processing) e CV (Computer Vision)

• Tokenizzazione• Sentence Splitting• PoS-Tagging• Lemmatizzazione

Natural Language Processing Computer vision

• Image recognition• Object detection• Facial analysis• OCR

MUSE: Attori e ruoli

CoLingLabLaboratorio Linguistica

Computazionale

Recupero dati: immagini e

Classificazione

Analisi delleimmagini

Estrazioneembeddings di

tag e labels

Combinazionerisutati analisimultimodale

MUSE: selezione campo di applicazione

MUSE: Recovery, soluzioni e problematiche (1)

Recupero dati: immagini e testi

Classificazione

tag e labels

Pentaho PDI:

11/12/18 → cambio policy

Classificazione

tag e labels

Pentaho PDI:

Classificazione

tag e labels

Problematiche emerse:

• Solo il 10% dei post contengono un’immagine• Scartare i post senza immagine• Analizzare solo i testi → NLP vs Multimodal• …

• Tipologie diverse di immagini• Foto• Articoli giornale• Screenshot• Pubblicità/locandine• …

MUSE: Classificazione delle immagini, soluzioni e problematiche (1)

Classificazione

tag e labels

Fase in sviluppo:• creazione dataset delle immagini su cui addestrare la rete neurale

OCRSemantic analysis

Object DetectionFacial analysis

OCR + Object detection

Classificazione

tag e labels

Foto TestoMiste

Classificatore a 3 classi:

Classificazione

tag e labels

Foto Testo

Classificatore a 2 classi:

MUSE: architettura logica

MODULO INTEGRAZIONE

RISULTATI

MODULO APPLICAZIONE MODELLI VGG-Net OXFORD

MOTORE RECOVERY

MODULO APPLICAZIONE MODELLI NLP STANFORD

PRECLASSIFICATORE

Motori di ricerca

Analisi per tema

Disambiguazione

AGENDA:

• Q&A

GRAZIE

Contatto:

laura.margara@bnova.it

Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e...

Documents

Transcript of Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e...

Scuola secondaria di Primo grado - Edisco Editore - Home Page · 2018-02-07 · Segue una verifica autocorrettiva con pesercizi pdi riepilogo che permet-te allo studente di verificare

infopemilu.kpu.go.id · Forum Generasi Muda Nababan, Boru, Bere Tapanuli Raya Persatuan Artis Batak (PARBI) Badan Pemenangan Pemilu (BAPILU) DPD PDI Perjuangan Provinsi DKI Jakarta

Il Principio di Indeterminazione PdI - roma1.infn.it PdI - fatto.pdf · Kinematik und Mechanik [Sul contenuto intuitivo della cinematica e della meccanica nella teoria quantistica]

isj.mh.edu.roisj.mh.edu.ro/images/fisiere/pdi/Ilovita.pdf · 2020. 10. 10. · formare profesionalä, Planul Managerial pentru anul scolar 2014 — 2015 are în vedere initierea organizarea

Punto d’Incontro n 2 PUNTO D’INCONTROarxintlaw.com/wp-content/uploads/2017/08/BCC-PDI-n2-2017_web-1.pdf · GIARDINO DEI SOGNI PROGETTO GIOVANI ... EDITORE E STAMPA Tec Artigrafiche

Malattie dell’Apparato Respiratorio · Misura della forza dei MMII 2) Pressione transdiaframmatica: Pdi = Pab – Ppl (La misura è eseguita in respirazione spontanea a livello

Preparazione Diagnostica per Immagini • Urograa · Preparazione Diagnostica per Immagini • TAC con mezzo di contrastoPreparazione Diagnostica per Immagini • Urograa

Manuale d'uso di Pentaho per analisi OLAP in Immunologia · Figura 1: procedura di autenticazione per Pentaho BI Suite N.B. La selezione dell'account utente da utilizzare (Joe, Suzy,

Immagini reali e immagini virtuali - mcurie.edu.it · Immagini reali e immagini virtuali Abbiamo applicato le leggi della riflessione per studiare le immagini che si vengono a creare

Protocolo Subnacional PDI

Guida alla consultazione della reportistica sui risultati ... · Finestra Pentaho . 5 Cliccare nella voce di Menù «Visualizza» e verificare che sia attiva la funzione «Visualizza

Immagini Cattivissime

Unione di immagini - Corel Corporation · Esercitazione : Unione di immagini Pagina 2 di 4 Esercitazione di Corel PHOTO-PAINT Unione delle immagini Unire le immagini. 1 Fare clic

Immagini Insolite

SAPTENZA - Home | Sapienza Università di Roma · BELLAVIA Sonia PDI MARTINO Claudia PIRAS Giorgio P RONCHETTI ... CAMPAN ELLI Maurizio PLO TURCO ... - realizza ed interpreta la documentazione

1 Carlo Cosmelli Commenti, qualche chiarimento, idee e dubbi, e fatti sul PdI di Heisenberg Per poterne discuterne. (sorvolando su alcuni dettagli matematici)

Parlare di immagini, mostrare con le immagini

CNS/CB CENTRALE/DE PDI/348/2008 MESSAGGERO SARDO · nazionale sull’agonia della più antica industria dell’Isola, la pastorizia. ... che rappresenta l’unica voce attiva dell’economia

Programma degli interventi 2016 - 2019 Acque... · 2021. 3. 22. · Programma degli interventi . 2016 - 2019 . RELAZIONE . Aprile 2016. ... elaborazione del PdI 2014-2017 la Regione

Introduzione a Pentaho Data Integration (Kettle)