SdEdI Parte IVb - chesterton.it Parte IVb.pdf · “Imparare” un metodo per prevedere la classe...
Transcript of SdEdI Parte IVb - chesterton.it Parte IVb.pdf · “Imparare” un metodo per prevedere la classe...
1
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Data Mining
Definizione“Il Data Mining è un processo atto a scoprire correlazioni, relazioni e tendenze nuove e significative, setacciando grandi quantità di dati immagazzinati nei repository, usando tecniche di riconoscimento delle relazioni e tecniche statistiche e matematiche.” (Gartner Group)
– Convergenza di diverse discipline:
• 1. Statistica
• 2. Intelligenza Artificiale, in particolare Machine Learning
• 3. Ricerca su algoritmi di Clustering
• 4. Ricerca su tecniche di Visualizazzione
• 5. Database � In sintesi il data mining può essere visto come la definizione e l’utilizzo di algoritmi per eseguire query molto complesse su grandi quantità di dati
Knowledge Discovery in Databases (KDD)
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Data Mining
Domini Applicativi
• Business– marketing, CRM (Customer Relationship Management),
telecomunicazioni, sanità, risorse umane, finanza (investimenti), crediti…
• Pubblica amministrazione e P. sicurezza– profilazione evasori fiscali, anti-terrororismo, archivi legali,
antiphishing
• Scienza– bioinformatica, ricerca sui farmaci, astronomia, …
• Web– e-commerce, motori di ricerca,…
• Text Mining– Gestione documentale, ricerca semantica, gestione compliance…
2
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Analisi dei Dati/Data MiningMetodologie
• Metodologie Passive: Analisi dei Dati
– L’utente determina le regole per la ricerca di nuove
informazioni, riservando per sè un ruolo importante ed
assegnando alla macchina un ruolo secondario (passivo)
– L’utente può
• manipolare, navigare (OLAP) e visualizzare dati e
informazioni usando tabelle e grafici
• usare metodi statistici (es. regressione lineare,
regressione logistica) e test di ipotesi per indagare
sulle relazioni tra i dati.
“In statistical analysis, you’ll never find what you ain’t lookin for.”
Dr Poebus Rymes, Professor of Econometrics, University of Pennsylvania
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
• Metodologie Attive: Data Mining e KDD
– L’utente guida le ipotesi iniziali per la ricerca di pattern, lasciando alla macchina il ruolo (attivo) di scoprire nuoveregole e relazioni tra i dati.
– Si dividono in base al grado di intervento da parte dell’utente in metodi
• Supervised
• Unsupervised
Analisi dei Dati/Data MiningMetodologie
“The history of technology shows us that we overestimate what a
technology can do for us in a few years and underestimate what
it can do in a decade or two.” Edward Feigenbaum et al.
A.I. : machine learning
3
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Data Mining
• Supervised (modelli predittivi o di classificazione)
– Implicano la predeterminazione di un modello
che può essere utilizzato per prevedere il
risultato di casi che si presenteranno in futuro.
– Esempi:
• Reti Neurali (Back Propagation)
• Alberi Decisionali
• Sistemi Esperti
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Data Mining
• Unsupervised (modelli esplorativi)
– L’algoritmo per la determinazione del modello
non viene fornito di un risultato da ottenere, ma
esplora i dati alla ricerca di relazioni per
individuarne la struttura
– Esempi:
• Clustering
• Regole di associazione
4
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Regole di Associazione
UnsupervisedSupervised
Induttivo
Deduttivo
Statistico
K-means
Two-Step
Reti Kohonen (SOM)
Naive Bayes
Alberi Decisionali/Regole
Reti Neurali (Back-Prop)
Sistemi Esperti
K-Nearest Neighbour
DescrittiviPredittivi
Modelli di
KDD e
Data Mining
Regressione
– Lineare
– Logistica
MetodoA
pp
r occ
io
Data Mining
Dall’approccio Statistico all’approccio Induttivo
ClusteringCla
ssif
icaz
ione
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
“Imparare” un metodo per prevedere la classe di un istanza a partire da istanze pre-classificate
Molti approcci:
Regressione,
Naïve Bayes,
Alberi Decisionali,
Reti Neurali,
...
Dati due insiemi di punti per le classi
qual’è la classe del punto ?
Data Mining
Classificazione
5
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Regressione Lineare
• Calcola parametri che
minimizzano distanza
dei punti da una
funzione lineare nei
parametri
• Poco flessibile
Data Mining
Classificazione
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
se X > 5 allora blu
altrimenti se Y > 3 allora blu
altrimenti se X > 2 then verde
altrimenti blu
X
Y
52
3
Alberi Decisionali
Data Mining
Classificazione
6
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
• Possono selezionare regioni
più complesse (non lineari)
• Spesso metodo più accurato,
ma attenzione ad overfitting
Reti Neurali
Data Mining
Classificazione
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Unsupervised Data Mining
• Clustering (classificazione)
– Cerca di segmentare i dati in gruppi di individuiche presentano analoghe relazioni nei dati diinput
• Reti Neurali SOM (self-organizing maps): Kohonen
• K-means: n° di cluster definito dall’utente, medie dal modello
• Two Step: intervallo di n° di cluster (min, max) definito dall’utente, n° preciso scelto dal modello
– Esempio: ricerca di classi omogenee di clienti in un database di marketing
7
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Unsupervised Data Mining
• Regole di associazione (modelli predittivi generalizzati)
– Cerca di associare una particolare conclusione ad un insieme di premesse
• Association {X1;X2; … ;Xn}� Y
• Confidenza: prob (Y∈A) dato
({X1;X2; … ;Xn} ∈A)
• Supporto: prob ( (Y∈A) e
({X1;X2; … ;Xn} ∈A) )
– Esempio:
• Analisi clientela di supermercati: se cliente compra pannolini � compra birra (e anche patatine)
1. Quante volte compare la
premessa nel campione?
2. Su queste, quante volte
compare anche la
conclusione
Quante volte
comapiono sia
premessa che
conclusione
nel campione?
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Unsupervised Data Mining
• Regole di associazione (modelli predittivi generalizzati)
– Cerca di associare una particolare conclusione ad un insieme di premesse
• Association {X1;X2; … ;Xn}� Y
• Confidenza: prob (Y∈A) dato
({X1;X2; … ;Xn} ∈A)
• Supporto: prob ( (Y∈A) e
({X1;X2; … ;Xn} ∈A) )
– Esempio:
• Analisi clientela di supermercati: se cliente compra pannolini � compra birra …e anche patatine
1. Quante volte compare la
premessa nel campione?
2. Su queste, quante volte
compare anche la
conclusione
Quante volte
comapiono sia
premessa che
conclusione
nel campione?
8
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Data Mining
Concatenazione
• Clustering può essere un primo modello a
cui concatenare l’applicazione di un altro
modello (tipicamente Supervised) perchè
– problema di interpretazione
• i cluster creati dai modelli possono essere molto
difficili da interpretare
– problema di dimensione
• la dimensione del problema può essere ridotta in
sottoinsiemi a ciascuno dei quali applicare poi
metodi diversi
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
• Marketing: scoprire gruppi di clienti per effettuare
marketing mirato o per riorganizzare approccio
• Astronomia: trovare gruppi simili di oggetti stellari
• Terremoti: Epicentri osservati dovrebbere
raggrupparsi lungo falde continentali
• Genetica: trovare gruppi di geni con caratteristiche
simili
• Text Mining: Analisi dei testi
(Knowledge/Content Management)
Data Mining
Clustering: Esempi di Applicazioni
9
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Data MiningIl Processo
CRISP-DMCross Industry Standard Process for Data Mining
• Processo
– Comprensione del dominio
– Preparazione dei dati
– Scoperta dei pattern
– Valutazione dei modelli
– Utilizzo dei risultati
80%
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Tecniche di Visualizzazione
Multidimensionale
• Riciclaggio di denaro rilevato dall’Ufficio
Italiano Cambi (UIC) nel 1994Ogni flusso rappresenta il
trasferimento di denaro da
un comune ad un altro:
• il colore rappresenta
l’ammontare complessivo
• blu � basso
• rosso � alto
• l’altezza rappresenta il
numero di transazioni
coinvolte
10
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Tecniche di Visualizzazione
Multidimensionale
• Riciclaggio di denaro rilevato dall’Ufficio
Italiano Cambi (UIC) nel 1994
Il flusso giallo evidenziato
dalla freccia (grosso importo
poche transazioni), è
avvenuto tra Palermo ed un
comune molto piccolo!
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Customer Relationship Management
• Un esempio importante di applicazione di metodi
di Data Mining su dati e informazioni trasversali
del sistema informativo aziendale è il CRM
• Obiettivi del CRM
– Fidelizzare il cliente
– Cross Selling
– Marketing one to one (121)
– Credit Scoring
– Scoring Promozionale
– Profilazione Cliente
11
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Customer Relationship Management
• La gestione personalizzata del cliente si
basa su tre attività fondamentali
– Operational CRM
– Analytical CRM
– Collaborative CRM
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Customer Relationship Management
– Operational CRM (raccolta dei dati e delle informazioni)
• Raccolta dei dati da tutte le fonti disponibili:
– Datawarehouse
» System Integration:
Client Data
Procedure bancarie
Web Services
Prezzi di Mercato (per personal finance)
– Marketing Database
– Contact History
– Workflow di vendita
12
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Customer Relationship Management
– Analytical CRM (scoperta della conoscenza �
Knowledge Discovery and Data Mining - KDD)
• Analisi dei dati e delle informazioni
– Ricerca del modello
» Query
» Mining
Web Mining
Data Mining
– Comprensione dei modelli
– Utilizzo del modelli
» Client Analysis
Profiling
Segmentazione comportamentale
Clustering…
– Reporting
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Customer Relationship Management
– Collaborative CRM (comunicazione col cliente)
• Gestione dell campagne di marketing
– Determinare tipologia della campagna (ROI)
– Action planning
– Workflow di composizione dei messaggi promozionali
» Composizione
» Revisione
» Autorizzazione
» Invio
SMS
Web
Portale
Posta
Call center
13
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Dove si spende a livello mondiale per il Crm?
Secondo Gartner Group:
o22% dai servizi finanziari
o19% dalle telecomunicazioni
o16% dall'hi-tech
o15% dalle manifatture di prodotto
o7% dalle manifatture di processo
o3% dall'energia e utility
o3% dalla sanità
o3% dalla PA
o12% da altri settori.
Data Mining ApplicatoCustomer Relationship Management
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
“Knowledge Management
is the capability of a
company as a whole to
create new knowledge, disseminate it throughout
the organization and
embody it in products,
services and systems”
Fonte: Nonaka, Takeuchi – “The
Knowledge-Creating Company”,
New York, Oxford University
Press, 1995.
processiprocessiprocessiprocessi
TecnologiaTecnologiaTecnologiaTecnologia
persone
persone
persone
persone
Conoscenza
Conoscenza
Conoscenza
Conoscenza
KM
Knowledge Management
14
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Knowledge Management
1998
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Knowledge Management:
concetti chiaveConoscenza Esplicita Conoscenza Tacita
(Documentata) (Know-how delle persone)
Facilmente codificabile Personale
Immagazzinabile Legata al contesto
Trasferibile Difficile da formalizzare
Facilmente esprimibile e Difficile da catturare/
condivisibile comunicare/condividere
Fonti:
Politiche e procedure Processi aziendali e
aziendali comunicazioni informali
Manuali Esperienze personali
Database e resoconti Comprensione storica
15
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Knowledge Management:
definizioni formali di Fonti
� Fonti strutturate:
fonti che collezionano un insieme di dati organizzati secondo uno
schema esplicito per la definizione univoca della semantica ad essi
associata.
� Fonti non strutturate:
fonti che collezionano informazioni contestualizzate (conoscenza)
tipicamente espresse mediante l’uso del linguaggio naturale e non
organizzate secondo uno schema esplicito ed univoco che ne
definisca la semantica.
� Fonti semi strutturate:
fonti che raccolgono nel loro insieme dati strutturati ed informazioni
contestualizzate.
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Knowledge Management:
il ruolo della tecnologia
ConoscenzaInformazioniDati
Strumenti specifici per la contestualizzazione
delle informazioni:
Natural LanguageProcessing - NLPTecnologie abilitanti:
• Motori di ricerca per keyword
• Groupware
• Digitalizzazione documenti
• …
Infrastruttura IT:• Intranet/Internet
• DBMS
• …
Dipendenza dal contesto
BE
P P
recis
ion
e/C
op
ert
ura
16
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Chiave del KM: NLP
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
NLP: esempio (1/2)
Fonte:
“La gestione del rischio deve
comprendere parametri
espressivi della struttura
organizzativa ed informatica
(rischio operativo). La priorità è
quindi quella di determinare il
rischio incrociando informazioni
sui mercati, sui prodotti finanziari
e sui segmenti di clientela, anche
a causa della minore possibilità
di assorbire le perdite,
determinata dalla riduzione del
margine d'intermediazione.”
gestione
gestione del rischio
parametri
della struttura
organizzativa
della struttura
informatica
specializza
comprende
specializza
specializza
Rappresentazione concettuale:
NLP
17
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Fonte A:
“Tale gestione si esplica
principalmente nella
valutazione dei parametri
caratteristici della struttura
organizzativa e di quella
informatica.”
Fonte B:
“Gestione e controllo degli accessi
� Gestione integrata controllo
accessi fisici-logici
� Gestione sistema di Single
Sign On.”
Ricerca per parola chiave:
� Fonte B(3 occorrenze di “gestione”)
� Fonte A(1 occorrenza di “gestione”)
Ricerca per concetto (NLP):
� Fonte A� gestione
� parametri
� della struttura organizzativa
� della struttura informatica
NLP: esempio (2/2)
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Knowledge Management:
tassonomia di discipline/strumenti
• Business Intelligence
• Knowledge Base
• Collaboration
• Portals
• Customer Relationship Management
• Data Mining
• Workflow Management
• E-Learning
• Search
• Content and Document Management
18
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
• Document Management - for library services such as check-in and checkout, version control, and user and document-level security for business documents
• Document Imaging - for capturing (scanning), profiling, and archiving paper-based content, including forms, facsimiles, engineering drawings, and graphics.
• Records Management - for classifying documents and other content as business records in support of legal or regulatory compliance, archival, and automation of retention policies.
• Web Content Management - for collecting, assembling, and staging content (both graphic and textual) for the purpose of publishing to Web sites or intranets. Content delivery is automated to streamline the process, ensure traceability, and eliminate bottlenecks.
• Document-Centric Team Collaboration - for sharing, organizing, and controlling document-based collaborative processes. Typically, this functionality supports both internal and external team members with a high level of user and document-level security.
• Content Workflow - for routing of content and support of business processes. Capabilities typically include task assignment, automated tracking (audit trail generation), work state communication (in process, completed, bottleneck, etc.), and graphic representation of the workflow itself.
The 'Building Blocks' of Enterprise Content Management
ECM systems are comprised of an integrated suite of content-focused modules that provide the following functionality:
Enterprise Content Management
(tratto da http://www.hummingbird.com)
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Modello ICT di Knowledge Management
Data/Text
Mining
OLAP
Data Warehouse
Middleware
Enterprise Resource Planning (ERP)
Conoscenza Esplicita
Tiered Knowledge Management Model (TKMM)
Fondamentale per
la buona riuscita di
un progetto di
Knowledge
Management è la
comprensione di
questi quattro
livelli… …a partire
dall’estrazione
dei dati nel
livello uno
tre
Livelli:
due
uno
quattroNLP