Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni,...

62
Data Mining Introduzio ne

Transcript of Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni,...

Page 1: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Data Mining

•Introduzione

Page 2: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Definizione

• “Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando grandi quantità di dati immagazzinati nei repository, usando tecniche di riconoscimento delle relazioni e tecniche statistiche e matematiche.” (Gartner Group)

Page 3: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Cos’è il data mining

• Processo di estrazione di conoscenza da banche dati di grandi dimensioni tramite l’applicazione di algoritmi che individuano le associazioni “nascoste” tra le informazioni e le rendono visibili

Page 4: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Base di dati• La possibilità di accedere

ad ampie basi di dati, accumulate nel corso di anni di attività o provenienti da fonti esterne, riguardanti diversi aspetti dell’attività aziendale possono fornire una nuova risposta alle esigenze ed agli obiettivi del management

Page 5: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Base di dati• L’ottimizzazione di una

campagna commerciale, la creazione di nuovi prodotti o servizi, l’apertura di nuovi punti vendita sono problemi affrontati utilizzando la conoscenza del settore, l’esperienza accumulata nel corso degli anni, gli errori fatti nel passato

Page 6: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Base di dati• La novità offerta dalla

nuova tecnologia e dal Data Mining non sta nel rinnegare il tipo tradizionale di conoscenza ma nell’integrare i processi decisionali con regole costruite sintetizzando complessi ed estesi patrimoni informativi

Page 7: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Obiettivo• L’obiettivo è individuare le

informazioni più significative nell’ambito del decision-making

Page 8: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Conoscenza• L’estrazione della

conoscenza avviene tramite l’individuazione delle associazioni, o “patterns”, o sequenze ripetute, o regolarità, nascoste nei dati

Page 9: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Conoscenza• In questo contesto un

“pattern” indica una struttura, un modello, o , in generale, una rappresentazione sintetica dei dati

Nel data mining è il computer che si occupa di trovare modelli per i dati, identificando regole e caratteristiche che li legano

Page 10: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Conoscenza• Il processo di analisi parte da un

insieme limitato e cerca di sviluppare una rappresentazione ottimale della struttura dei dati; durante questa fase il processo acquisisce conoscenza

Una volta che tale conoscenza è acquisita, questa può essere estesa ad un insieme più vasto di dati basandosi sull’assunzione che il largo insieme di dati ha una struttura simile a quello più semplice

Page 11: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Algoritmo• L’algoritmo del data

mining si propone di individuare raggruppamenti impliciti dei dati in maniera automatica, senza una definizione a priori del numero di classi

Page 12: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Algoritmo

• Questo consente da una parte di eliminare qualsiasi arbitrarietà e forzatura esterna, dall’altra di individuare i raggruppamenti più piccoli che spesso sfuggono all’analisi e sono di estremo interesse in quanto possono indicare potenziali di mercato non sufficientemente sviluppati

Page 13: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Algoritmo• Spesso, infatti, i

segmenti di grandi dimensioni sono già noti ed è il manifestarsi dei più piccoli segmenti che fornisce elementi nuovi per le strategie di marketing

Page 14: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Evoluzione

• Anni ’60: sistemi con report standardizzati, con semplici informazioni riassuntive

• Anni ’80: introduzione della possibilità di eseguire interrogazioni differenziate su database, rendendo più facile l’identificazione degli andamenti relativi

Page 15: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Evoluzione

• Anni ’90: lo sviluppo di software di analisi ha puntato sulla possibilità di “scavare” nei propri dati in tempo reale. Avere dati a disposizione infatti non è più un problema, basti pensare alla ricchezza delle sorgenti accessibili dal Web attraverso i vari Datawarehouse aziendali

Page 16: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Evoluzione

• 1960: Raccolta dati “Quanto ho venduto negli ultimi 3 anni?”

• 1980: Accesso ai dati “Quanto ho venduto al Nord lo scorso gennaio?”

Page 17: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Evoluzione

1990: Query a database “Viste le vendite al Nord mostra il dettaglio per città”

Oggi: Data Mining “Perché vendiamo di più in alcune città?”

Page 18: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Gli strumenti del Data Mining

Strumenti di indagine

Page 19: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

La maggior parte degli strumenti d’indagine s’è sviluppata nell’ambito dell’ intelligenza artificiale

•Funzione principale: identificare relazioni e tendenze nei dati

Page 20: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Tale caratteristica permette

Scoprire fenomeni di mercato

Consolidare le conoscenze di base sul proprio business

Aumentare i propri margini di competitività

Page 21: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

I principali strumenti di indagine sono

• Indagine esplorativa

• Alberi decisionali

• Reti neurali

• Analisi cluster

Page 22: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Indagine esplorativa

Sfrutta le comuni doti di percezione come metodo di analisi

Spesso, ciò che i numeri non possono dire può essere rivelato da un grafico od una immagine

Page 23: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Indagine esplorativa

Page 24: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Indagine esplorativaIl cerchio centrale rappresenta un titolo, circondato da altri titoli: la collocazione di questi ultimi evidenzia il loro grado di correlazione con il titolo centrale

Inoltre la loro disposizione, dimensione, etc… indicano cratteristiche come variabilità dei prezzi, la distribuzione,etc..

Page 25: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Indagine esplorativa

Gli strumenti di visualizzazione possono essere usati come strumenti di presentazione: l’analista può infatti divulgare facilmente le sue scoperte usando il linguaggio universale delle immagini

Page 26: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Alberi decisionali

Individuano gruppi che avranno, molto probabilmente, effetti diversi su una variabile obiettivo

Page 27: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Alberi decisionali• Si individuano caratteristiche di gruppi di stakeholders di un progetto ( tipicamente mediante dati di tipo demografico )

• Si scelgono quelli che hanno risposto positivamente ad iniziative analoghe (segmentazione dei dati )

• L’attuazione del progetto avviene in relazione ai gruppi più significativi trovati

Page 28: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Alberi decisionali

Page 29: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Alberi decisionaliEsempi di applicazione degli alberi decisionali sono :

• analisi di attrito sugli ascolti

• ricerca di opportunità su

vendite incrociate

• analisi sulle promozioni

• etc...

Page 30: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Reti neurali

Correggono i parametri del modello per trovare relazioni tra i dati

Sono non lineari per definizione e non fanno nessuna ipotesi sul

modello dei dati

Page 31: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Reti neurali

Page 32: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Reti neuraliIl vantaggio sta nel fatto che non è

necessario avere in mente un tipo di modello quando si esegue un'analisi

Inoltre le reti neurali sono in grado di identificare le interazioni (ad esempio fra sesso ed età), che invece devono essere specificate esplicitamente in altri modelli

Page 33: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Reti neurali Lo svantaggio è che è difficile dare una

spiegazione univoca del modello

Le reti neurali sono quindi utili per analizzare una variabile obiettivo in presenza di forte non linearità e di

interazioni, ma non aiutano molto quando queste caratteristiche dei dati devono

essere spiegate

Page 34: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Reti neurali

Possibili applicazioni possono essere:

• previsioni

• modelli di risposta

• indagini di rischio

• etc...

Page 35: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Analisi cluster

Tecnica di riduzione dei dati che raggruppa casi

o variabili in base a misure di similarità

Page 36: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Analisi cluster

Page 37: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Analisi cluster

Questa tecnica consente di identificare gruppi di clienti basati su caratteristiche demografiche, informazioni finanziarie o comportamenti di acquisto.

Page 38: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

UN ESEMPIO

Page 39: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Un esempio

Un importante centro di ricerca francese nel campo della cosmesi era interessato a conoscere gli sviluppi del cerotto medicale (patch technology). La ricerca di documenti relativi ha portato ad individuare 146 brevetti, depositati nell’arco di 10 anni, in 12 paesi da 105 diverse aziende. L’applicazione dell’algoritmo di D.M. ha consentito di individuare 20 gruppi tematici.

Page 40: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Un esempioLa mappa qui riprodotta ne presenta i primi 12. Ogni cerchio rappresenta un gruppo di documenti ed è caratterizzato da un numero che ne identifica l’importanza in termini di dimensione.

Page 41: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Un esempio

I legami tra gruppi sono rappresentati da linee il cui colore e spessore ne indica la forzaUn insieme di gruppi tra loro collegati rappresenta una macro-tecnologia

Page 42: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Un esempioLa mappa fornisce una prima visione di insieme degli argomenti individuati e delle loro relazioniCon un click sull’argomento di interesse si accede alla descrizione completa del gruppo di documenti

Page 43: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Un esempioLa descrizione del cluster 2 evidenzia i codici di classificazione (e relativa descrizione) che compaiono in questo gruppo di documenti, i nomi delle aziende depositanti, e l’anno di deposito.

L’evoluzione temporale indica il crescente interesse sull’argomento Elettroforesi.Si tratta quindi di una tecnologia in fase di espansione

Page 44: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Un esempio

Questo grafico consente di valutare l’attività di ciascuna azienda nel tempo e in ciascuna area tecnologica. Si nota che , mentre per la BASF si tratta di un settore di ricerca consolidato, per la D.D.S si tratta di un settore nuovo, sul quale sta investendo pesantemente

Page 45: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Un esempio

L’eplorazione dei risultati pùò procedere in varie direzioni, approfondendo il contenuto del secondo cluster, passando ad argomenti correlati ( ad es. il quinto cluster ), tornando alla mappa per selezionare un’altra area tematica oppure analizzando la presenza delle aziende nei diversi cluster e la caratterizzazione temporale di cisacuna area tematica.

Page 46: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

VANTAGGI DELDATA MINING

Page 47: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Perchè usare strumenti DM ?

Oggi il problema non è più raccogliere le informazioni (reperibili in Internet, nel

Data Warehouse aziendale, etc…)

ma è cercare di utilizzare tali dati per estrarre le

informazioni utili all’azienda

Page 48: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Perchè usare strumenti Perchè usare strumenti DM ?DM ?

I dati, relativi all’attività giornaliera dell’azienda, sia che si riferiscono alla clientela, sia che si riferiscono al mercato o alla concorrenza, si presentano in forma

Eterogenea

Ridondante

Non strutturata Questo fa si che solo una piccola parte dei dati venga analizzata

Page 49: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

VantaggiVantaggi

La gestione di grandi quantità di dati finoad ora necessitava di grande potenza di calcolo

(e quindi di costi aggiuntivi per l’azienda)

Gli strumenti tradizionali :

• Analisi statistica• Data retrieval (interrogazione di banche dati)

risultano inadeguati per sfruttare la potenziale ricchezza delle informazioni nascoste

Page 50: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Analisi statistica

• Non operano su grandi quantità di dati

• Richiedono valori di tipo quantitativo

• Non gestiscono i valori mancanti

• Richiedono personale tecnico per l’utilizzo e l’interpretazione dei dati

Page 51: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

• I tempi di risposta aumentano all’aumentare della quantità di dati

• Non sono adatti ad individuare “associazioni nascoste”

Data retrievalData retrieval

Page 52: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Perchè servono i Data Mining

Man mano che si

estraggono dai dati le

informazioni utili per

l’azienda diminuisce

il volume dei dati da

trattare ed aumenta

il valore che questi

hanno per l’azienda

Page 53: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Data Retrieval

1. Quanti sono i clienti di età tra 40 e 50 anni che comprano cellulari

1. Quali sono le caratteristiche dei miei clienti

Data Data MiningMining

Page 54: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Caratteristiche della clientela

Il data retrieval risponde in modo specifico a domande specifiche

Il DM risponde invece a domande generiche (approccio esplorativo e non verificativo)

In questo modo si possono trovare non solo relazioni nascoste e sconosciute, ma che

non avremmo nemmeno ipotizzato potessero esistere

Page 55: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

1. Quanti sono i clienti di età tra 40 e 50 anni che comprano cellulari

1. Quali sono le caratteristiche dei miei clienti

2. Quali documenti contengono la parola “Sanità”

2. Quali sono gli argomenti trattati da un insieme di documenti

Data Data RetrievalRetrieval Data Data

MiningMining

Page 56: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

La ricerca in base ad una parola chiave non sempre porta ad individuare i documenti relativi

all’argomento di interesse

Banca dati di documenti testuali

Gli strumenti DM consentono di raggruppare i documenti per argomento sulla base di tutte

le parole contenute nei documenti stessi

Page 57: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

1. Quanti sono i clienti di età tra 40 e 50 anni che comprano cellulari

2. Quali documenti contengono la parola “Sanità”

1. Quali sono le caratteristiche dei miei clienti

2. Quali sono gli argomenti trattati da un insieme di documenti

3. Quanti brevetti ha depositato Nokia nel 1998

3. Quali sono i miei concorrenti e come evolve la loro attività

Data Data RetrievalRetrieval Data Data

MiningMining

Page 58: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

I Data Mining possono essere applicati anche a banche dati pubbliche on-line

Banche dati on-line

Con gli strumenti tradizionali sono di difficile consultazione a causa del loro volume che rende

lunga e faticosa la ricerca dei dati interessanti per lo scopo

specifico

Page 59: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Data Mining Grazie alle tecniche di indagine

avanzate è possibile

Tutto questo porta a dei vantaggi reali

scoprire informazioni nascoste creare modelli esplicativi identificare relazioni fra le attività correggere gli errori

Page 60: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Vantaggi sulle entrate

• Identificare i clienti migliori, reali e potenziali

• Scoprire opportunità di vendita aggiuntive

• Incrementare la produttività commerciale

• Mantenere la clientela, identificando elementi di fidelizzazione dei clienti

• Individuazione di opportunità in crescita

• Trovare un target clienti più remunerativo

Page 61: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.

Vantaggi

• Trattamento di dati quantitativi, qualitativi e testuali

• Non richiede ipotesi a priori da parte del ricercatore

• Possibilità di elaborare un numero elevato di variabili

• Algoritmi ottimizzati per minimizzare il tempo di

esecuzione

• Semplice interpretazione del risultato

• Valore aggiunto per l’azienda

Page 62: Data Mining Introduzione. Definizione Il data mining è un processo atto a scoprire correlazioni, relazioni, tendenze nuove e significative, setacciando.