SdEdI Parte IVb - chesterton.it Parte IVb.pdf · “Imparare” un metodo per prevedere la classe...

18
1 Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Data Mining Definizione “Il Data Mining è un processo atto a scoprire correlazioni, relazioni e tendenze nuove e significative, setacciando grandi quantità di dati immagazzinati nei repository, usando tecniche di riconoscimento delle relazioni e tecniche statistiche e matematiche .” (Gartner Group) Convergenza di diverse discipline: 1. Statistica 2. Intelligenza Artificiale, in particolare Machine Learning 3. Ricerca su algoritmi di Clustering 4. Ricerca su tecniche di Visualizazzione 5. Database In sintesi il data mining può essere visto come la definizione e l’utilizzo di algoritmi per eseguire query molto complesse su grandi quantità di dati Knowledge Discovery in Databases (KDD) Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Data Mining Domini Applicativi • Business marketing, CRM (Customer Relationship Management), telecomunicazioni, sanità, risorse umane, finanza (investimenti), crediti… Pubblica amministrazione e P. sicurezza profilazione evasori fiscali, anti-terrororismo, archivi legali, antiphishing • Scienza bioinformatica, ricerca sui farmaci, astronomia, … • Web e-commerce, motori di ricerca,… Text Mining Gestione documentale, ricerca semantica, gestione compliance…

Transcript of SdEdI Parte IVb - chesterton.it Parte IVb.pdf · “Imparare” un metodo per prevedere la classe...

1

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Data Mining

Definizione“Il Data Mining è un processo atto a scoprire correlazioni, relazioni e tendenze nuove e significative, setacciando grandi quantità di dati immagazzinati nei repository, usando tecniche di riconoscimento delle relazioni e tecniche statistiche e matematiche.” (Gartner Group)

– Convergenza di diverse discipline:

• 1. Statistica

• 2. Intelligenza Artificiale, in particolare Machine Learning

• 3. Ricerca su algoritmi di Clustering

• 4. Ricerca su tecniche di Visualizazzione

• 5. Database � In sintesi il data mining può essere visto come la definizione e l’utilizzo di algoritmi per eseguire query molto complesse su grandi quantità di dati

Knowledge Discovery in Databases (KDD)

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Data Mining

Domini Applicativi

• Business– marketing, CRM (Customer Relationship Management),

telecomunicazioni, sanità, risorse umane, finanza (investimenti), crediti…

• Pubblica amministrazione e P. sicurezza– profilazione evasori fiscali, anti-terrororismo, archivi legali,

antiphishing

• Scienza– bioinformatica, ricerca sui farmaci, astronomia, …

• Web– e-commerce, motori di ricerca,…

• Text Mining– Gestione documentale, ricerca semantica, gestione compliance…

2

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Analisi dei Dati/Data MiningMetodologie

• Metodologie Passive: Analisi dei Dati

– L’utente determina le regole per la ricerca di nuove

informazioni, riservando per sè un ruolo importante ed

assegnando alla macchina un ruolo secondario (passivo)

– L’utente può

• manipolare, navigare (OLAP) e visualizzare dati e

informazioni usando tabelle e grafici

• usare metodi statistici (es. regressione lineare,

regressione logistica) e test di ipotesi per indagare

sulle relazioni tra i dati.

“In statistical analysis, you’ll never find what you ain’t lookin for.”

Dr Poebus Rymes, Professor of Econometrics, University of Pennsylvania

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

• Metodologie Attive: Data Mining e KDD

– L’utente guida le ipotesi iniziali per la ricerca di pattern, lasciando alla macchina il ruolo (attivo) di scoprire nuoveregole e relazioni tra i dati.

– Si dividono in base al grado di intervento da parte dell’utente in metodi

• Supervised

• Unsupervised

Analisi dei Dati/Data MiningMetodologie

“The history of technology shows us that we overestimate what a

technology can do for us in a few years and underestimate what

it can do in a decade or two.” Edward Feigenbaum et al.

A.I. : machine learning

3

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Data Mining

• Supervised (modelli predittivi o di classificazione)

– Implicano la predeterminazione di un modello

che può essere utilizzato per prevedere il

risultato di casi che si presenteranno in futuro.

– Esempi:

• Reti Neurali (Back Propagation)

• Alberi Decisionali

• Sistemi Esperti

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Data Mining

• Unsupervised (modelli esplorativi)

– L’algoritmo per la determinazione del modello

non viene fornito di un risultato da ottenere, ma

esplora i dati alla ricerca di relazioni per

individuarne la struttura

– Esempi:

• Clustering

• Regole di associazione

4

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Regole di Associazione

UnsupervisedSupervised

Induttivo

Deduttivo

Statistico

K-means

Two-Step

Reti Kohonen (SOM)

Naive Bayes

Alberi Decisionali/Regole

Reti Neurali (Back-Prop)

Sistemi Esperti

K-Nearest Neighbour

DescrittiviPredittivi

Modelli di

KDD e

Data Mining

Regressione

– Lineare

– Logistica

MetodoA

pp

r occ

io

Data Mining

Dall’approccio Statistico all’approccio Induttivo

ClusteringCla

ssif

icaz

ione

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

“Imparare” un metodo per prevedere la classe di un istanza a partire da istanze pre-classificate

Molti approcci:

Regressione,

Naïve Bayes,

Alberi Decisionali,

Reti Neurali,

...

Dati due insiemi di punti per le classi

qual’è la classe del punto ?

Data Mining

Classificazione

5

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Regressione Lineare

• Calcola parametri che

minimizzano distanza

dei punti da una

funzione lineare nei

parametri

• Poco flessibile

Data Mining

Classificazione

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

se X > 5 allora blu

altrimenti se Y > 3 allora blu

altrimenti se X > 2 then verde

altrimenti blu

X

Y

52

3

Alberi Decisionali

Data Mining

Classificazione

6

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

• Possono selezionare regioni

più complesse (non lineari)

• Spesso metodo più accurato,

ma attenzione ad overfitting

Reti Neurali

Data Mining

Classificazione

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Unsupervised Data Mining

• Clustering (classificazione)

– Cerca di segmentare i dati in gruppi di individuiche presentano analoghe relazioni nei dati diinput

• Reti Neurali SOM (self-organizing maps): Kohonen

• K-means: n° di cluster definito dall’utente, medie dal modello

• Two Step: intervallo di n° di cluster (min, max) definito dall’utente, n° preciso scelto dal modello

– Esempio: ricerca di classi omogenee di clienti in un database di marketing

7

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Unsupervised Data Mining

• Regole di associazione (modelli predittivi generalizzati)

– Cerca di associare una particolare conclusione ad un insieme di premesse

• Association {X1;X2; … ;Xn}� Y

• Confidenza: prob (Y∈A) dato

({X1;X2; … ;Xn} ∈A)

• Supporto: prob ( (Y∈A) e

({X1;X2; … ;Xn} ∈A) )

– Esempio:

• Analisi clientela di supermercati: se cliente compra pannolini � compra birra (e anche patatine)

1. Quante volte compare la

premessa nel campione?

2. Su queste, quante volte

compare anche la

conclusione

Quante volte

comapiono sia

premessa che

conclusione

nel campione?

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Unsupervised Data Mining

• Regole di associazione (modelli predittivi generalizzati)

– Cerca di associare una particolare conclusione ad un insieme di premesse

• Association {X1;X2; … ;Xn}� Y

• Confidenza: prob (Y∈A) dato

({X1;X2; … ;Xn} ∈A)

• Supporto: prob ( (Y∈A) e

({X1;X2; … ;Xn} ∈A) )

– Esempio:

• Analisi clientela di supermercati: se cliente compra pannolini � compra birra …e anche patatine

1. Quante volte compare la

premessa nel campione?

2. Su queste, quante volte

compare anche la

conclusione

Quante volte

comapiono sia

premessa che

conclusione

nel campione?

8

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Data Mining

Concatenazione

• Clustering può essere un primo modello a

cui concatenare l’applicazione di un altro

modello (tipicamente Supervised) perchè

– problema di interpretazione

• i cluster creati dai modelli possono essere molto

difficili da interpretare

– problema di dimensione

• la dimensione del problema può essere ridotta in

sottoinsiemi a ciascuno dei quali applicare poi

metodi diversi

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

• Marketing: scoprire gruppi di clienti per effettuare

marketing mirato o per riorganizzare approccio

• Astronomia: trovare gruppi simili di oggetti stellari

• Terremoti: Epicentri osservati dovrebbere

raggrupparsi lungo falde continentali

• Genetica: trovare gruppi di geni con caratteristiche

simili

• Text Mining: Analisi dei testi

(Knowledge/Content Management)

Data Mining

Clustering: Esempi di Applicazioni

9

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Data MiningIl Processo

CRISP-DMCross Industry Standard Process for Data Mining

• Processo

– Comprensione del dominio

– Preparazione dei dati

– Scoperta dei pattern

– Valutazione dei modelli

– Utilizzo dei risultati

80%

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Tecniche di Visualizzazione

Multidimensionale

• Riciclaggio di denaro rilevato dall’Ufficio

Italiano Cambi (UIC) nel 1994Ogni flusso rappresenta il

trasferimento di denaro da

un comune ad un altro:

• il colore rappresenta

l’ammontare complessivo

• blu � basso

• rosso � alto

• l’altezza rappresenta il

numero di transazioni

coinvolte

10

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Tecniche di Visualizzazione

Multidimensionale

• Riciclaggio di denaro rilevato dall’Ufficio

Italiano Cambi (UIC) nel 1994

Il flusso giallo evidenziato

dalla freccia (grosso importo

poche transazioni), è

avvenuto tra Palermo ed un

comune molto piccolo!

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Customer Relationship Management

• Un esempio importante di applicazione di metodi

di Data Mining su dati e informazioni trasversali

del sistema informativo aziendale è il CRM

• Obiettivi del CRM

– Fidelizzare il cliente

– Cross Selling

– Marketing one to one (121)

– Credit Scoring

– Scoring Promozionale

– Profilazione Cliente

11

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Customer Relationship Management

• La gestione personalizzata del cliente si

basa su tre attività fondamentali

– Operational CRM

– Analytical CRM

– Collaborative CRM

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Customer Relationship Management

– Operational CRM (raccolta dei dati e delle informazioni)

• Raccolta dei dati da tutte le fonti disponibili:

– Datawarehouse

» System Integration:

Client Data

Procedure bancarie

Web Services

Prezzi di Mercato (per personal finance)

– Marketing Database

– Contact History

– Workflow di vendita

12

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Customer Relationship Management

– Analytical CRM (scoperta della conoscenza �

Knowledge Discovery and Data Mining - KDD)

• Analisi dei dati e delle informazioni

– Ricerca del modello

» Query

» Mining

Web Mining

Data Mining

– Comprensione dei modelli

– Utilizzo del modelli

» Client Analysis

Profiling

Segmentazione comportamentale

Clustering…

– Reporting

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Customer Relationship Management

– Collaborative CRM (comunicazione col cliente)

• Gestione dell campagne di marketing

– Determinare tipologia della campagna (ROI)

– Action planning

– Workflow di composizione dei messaggi promozionali

» Composizione

» Revisione

» Autorizzazione

» Invio

SMS

Web

Portale

Posta

E-mail

Call center

13

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Dove si spende a livello mondiale per il Crm?

Secondo Gartner Group:

o22% dai servizi finanziari

o19% dalle telecomunicazioni

o16% dall'hi-tech

o15% dalle manifatture di prodotto

o7% dalle manifatture di processo

o3% dall'energia e utility

o3% dalla sanità

o3% dalla PA

o12% da altri settori.

Data Mining ApplicatoCustomer Relationship Management

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

“Knowledge Management

is the capability of a

company as a whole to

create new knowledge, disseminate it throughout

the organization and

embody it in products,

services and systems”

Fonte: Nonaka, Takeuchi – “The

Knowledge-Creating Company”,

New York, Oxford University

Press, 1995.

processiprocessiprocessiprocessi

TecnologiaTecnologiaTecnologiaTecnologia

persone

persone

persone

persone

Conoscenza

Conoscenza

Conoscenza

Conoscenza

KM

Knowledge Management

14

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Knowledge Management

1998

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Knowledge Management:

concetti chiaveConoscenza Esplicita Conoscenza Tacita

(Documentata) (Know-how delle persone)

Facilmente codificabile Personale

Immagazzinabile Legata al contesto

Trasferibile Difficile da formalizzare

Facilmente esprimibile e Difficile da catturare/

condivisibile comunicare/condividere

Fonti:

Politiche e procedure Processi aziendali e

aziendali comunicazioni informali

Manuali Esperienze personali

Database e resoconti Comprensione storica

15

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Knowledge Management:

definizioni formali di Fonti

� Fonti strutturate:

fonti che collezionano un insieme di dati organizzati secondo uno

schema esplicito per la definizione univoca della semantica ad essi

associata.

� Fonti non strutturate:

fonti che collezionano informazioni contestualizzate (conoscenza)

tipicamente espresse mediante l’uso del linguaggio naturale e non

organizzate secondo uno schema esplicito ed univoco che ne

definisca la semantica.

� Fonti semi strutturate:

fonti che raccolgono nel loro insieme dati strutturati ed informazioni

contestualizzate.

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Knowledge Management:

il ruolo della tecnologia

ConoscenzaInformazioniDati

Strumenti specifici per la contestualizzazione

delle informazioni:

Natural LanguageProcessing - NLPTecnologie abilitanti:

• Motori di ricerca per keyword

• Groupware

• Digitalizzazione documenti

• …

Infrastruttura IT:• Intranet/Internet

• DBMS

• …

Dipendenza dal contesto

BE

P P

recis

ion

e/C

op

ert

ura

16

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Chiave del KM: NLP

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

NLP: esempio (1/2)

Fonte:

“La gestione del rischio deve

comprendere parametri

espressivi della struttura

organizzativa ed informatica

(rischio operativo). La priorità è

quindi quella di determinare il

rischio incrociando informazioni

sui mercati, sui prodotti finanziari

e sui segmenti di clientela, anche

a causa della minore possibilità

di assorbire le perdite,

determinata dalla riduzione del

margine d'intermediazione.”

gestione

gestione del rischio

parametri

della struttura

organizzativa

della struttura

informatica

specializza

comprende

specializza

specializza

Rappresentazione concettuale:

NLP

17

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Fonte A:

“Tale gestione si esplica

principalmente nella

valutazione dei parametri

caratteristici della struttura

organizzativa e di quella

informatica.”

Fonte B:

“Gestione e controllo degli accessi

� Gestione integrata controllo

accessi fisici-logici

� Gestione sistema di Single

Sign On.”

Ricerca per parola chiave:

� Fonte B(3 occorrenze di “gestione”)

� Fonte A(1 occorrenza di “gestione”)

Ricerca per concetto (NLP):

� Fonte A� gestione

� parametri

� della struttura organizzativa

� della struttura informatica

NLP: esempio (2/2)

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Knowledge Management:

tassonomia di discipline/strumenti

• Business Intelligence

• Knowledge Base

• Collaboration

• Portals

• Customer Relationship Management

• Data Mining

• Workflow Management

• E-Learning

• Search

• Content and Document Management

18

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

• Document Management - for library services such as check-in and checkout, version control, and user and document-level security for business documents

• Document Imaging - for capturing (scanning), profiling, and archiving paper-based content, including forms, facsimiles, engineering drawings, and graphics.

• Records Management - for classifying documents and other content as business records in support of legal or regulatory compliance, archival, and automation of retention policies.

• Web Content Management - for collecting, assembling, and staging content (both graphic and textual) for the purpose of publishing to Web sites or intranets. Content delivery is automated to streamline the process, ensure traceability, and eliminate bottlenecks.

• Document-Centric Team Collaboration - for sharing, organizing, and controlling document-based collaborative processes. Typically, this functionality supports both internal and external team members with a high level of user and document-level security.

• Content Workflow - for routing of content and support of business processes. Capabilities typically include task assignment, automated tracking (audit trail generation), work state communication (in process, completed, bottleneck, etc.), and graphic representation of the workflow itself.

The 'Building Blocks' of Enterprise Content Management

ECM systems are comprised of an integrated suite of content-focused modules that provide the following functionality:

Enterprise Content Management

(tratto da http://www.hummingbird.com)

Sistemi di Elaborazione dell’Informazione

Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese

Hadley C. Taylor

Modello ICT di Knowledge Management

Data/Text

Mining

OLAP

Data Warehouse

Middleware

Enterprise Resource Planning (ERP)

Conoscenza Esplicita

Tiered Knowledge Management Model (TKMM)

Fondamentale per

la buona riuscita di

un progetto di

Knowledge

Management è la

comprensione di

questi quattro

livelli… …a partire

dall’estrazione

dei dati nel

livello uno

tre

Livelli:

due

uno

quattroNLP