2015 06 11 - DM - SAS

5
Data Mining: un nuovo approccio all’analisi dei dati o un semplice neologismo? La Metodologia per il Data Mining Alfredo Roccato, SAS Institute Alberto Saccardi, Nunatac Abstract Quali sono le linee guida che consentono di poter svolgere proficuamente un’attività di analisi quantitativa orientata alle problematiche di business? Quali le caratteristiche e quali le competenze necessarie per estrarre ricchezza informativa dai vasti e complessi database aziendali? In che misura una corretta metodologia, supportata da un’adeguata “scatola degli attrezzi” inserita in un ambiente software dedicato e di facile accesso, possono portare consistenti vantaggi economici? In termini generali, ciò che distingue l’attività di Data Mining dall’analisi statistica comunemente intesa non è solamente la mole di dati su cui vengono effettuate le elaborazioni, così come nemmeno la disponibilità di un numero rilevante di tecniche, quanto l’orientamento verso le esigenze aziendali e la possibilità di operare in un ambiente predisposto per l’integrazione di contributi tecnici e conoscenze di business: fare Data Mining significa seguire una metodologia che va dalla definizione della problematica all’implementazione di regole decisionali economicamente misurabili. Realizzare progetti di Data Mining significa anche organizzare un efficace team di lavoro tenuto conto delle diverse risorse ed esigenze aziendali: quelle dei sistemi informativi, del marketing centrale e della rete commerciale. Nella presentazione verranno illustrati i presupposti e gli aspetti organizzativi di questa problematica, la metodologia SEMMA e Enterprise Miner. I dati a supporto dei processi decisionali. L'esigenza delle aziende di essere efficienti ed efficaci nella conduzione del business cresce di pari passo con il progredire della competizione, della tecnologia e della dinamicità dell'ambiente. La possibilità di accedere ad ampie basi di dati, accumulate nel corso di anni di attività o provenienti da fonti esterne, riguardanti diversi aspetti dell'attività aziendale possono fornire una nuova risposta alle esigenze ed agli obiettivi del management. L’ottimizzazione di una campagna commerciale, la creazione di nuovi prodotti o servizi, l'apertura di nuovi punti vendita, il disegno di un'attività di cross-selling sono, in genere, problemi affrontati utilizzando la conoscenza del settore, l'esperienza accumulata nel corso degli anni, gli errori fatti nel passato. La novità offerta dalla nuova tecnologia e dal Data Mining non sta nel rinnegare il tipo tradizionale di conoscenza, che rimane fondamentale, ma nell’integrare i processi decisionali con regole costruite sintetizzando complessi ed estesi patrimoni informativi. Tali regole, opportunamente inserite nei processi operativi aziendali, non sono semplicemente il risultato di studi pilota, bensì l’output di progetti finalizzati ad attività di business. Il Data Mining. Il Data Mining è un processo, non è il mero l'utilizzo di un algoritmo (Cabena, 1997). SAS Institute definisce il Data Mining come il processo di selezione, esplorazione, e modellazione di grandi masse di dati per scoprire relazioni non note allo scopo di ottenere un vantaggio di business. Un’efficace attività di Data Mining coinvolge tre diverse figure in grado di interagire tra loro: un esperto del business aziendale, un esperto dei sistemi informativi aziendali: dati e procedure, un esperto di metodi quantitativi per l’analisi dei dati. Più in generale un'attività di questo tipo viene demandata ad un gruppo di lavoro in grado di sviluppare l’intero progetto, secondo scadenze determinate ed obiettivi precisi e misurabili. 1

description

.

Transcript of 2015 06 11 - DM - SAS

  • Data Mining: un nuovo approccio allanalisi dei dati o un semplice neologismo? La Metodologia per il Data Mining

    Alfredo Roccato, SAS Institute

    Alberto Saccardi, Nunatac

    Abstract Quali sono le linee guida che consentono di poter svolgere proficuamente unattivit di analisi quantitativa orientata alle problematiche di business? Quali le caratteristiche e quali le competenze necessarie per estrarre ricchezza informativa dai vasti e complessi database aziendali? In che misura una corretta metodologia, supportata da unadeguata scatola degli attrezzi inserita in un ambiente software dedicato e di facile accesso, possono portare consistenti vantaggi economici? In termini generali, ci che distingue lattivit di Data Mining dallanalisi statistica comunemente intesa non solamente la mole di dati su cui vengono effettuate le elaborazioni, cos come nemmeno la disponibilit di un numero rilevante di tecniche, quanto lorientamento verso le esigenze aziendali e la possibilit di operare in un ambiente predisposto per lintegrazione di contributi tecnici e conoscenze di business: fare Data Mining significa seguire una metodologia che va dalla definizione della problematica allimplementazione di regole decisionali economicamente misurabili. Realizzare progetti di Data Mining significa anche organizzare un efficace team di lavoro tenuto conto delle diverse risorse ed esigenze aziendali: quelle dei sistemi informativi, del marketing centrale e della rete commerciale. Nella presentazione verranno illustrati i presupposti e gli aspetti organizzativi di questa problematica, la metodologia SEMMA e Enterprise Miner. I dati a supporto dei processi decisionali. L'esigenza delle aziende di essere efficienti ed efficaci nella conduzione del business cresce di pari passo con il progredire della competizione, della tecnologia e della dinamicit dell'ambiente. La possibilit di accedere ad ampie basi di dati, accumulate nel corso di anni di attivit o provenienti da fonti esterne, riguardanti diversi aspetti dell'attivit aziendale possono fornire una nuova risposta alle esigenze ed agli obiettivi del management. Lottimizzazione di una campagna commerciale, la creazione di nuovi prodotti o servizi, l'apertura di nuovi punti vendita, il disegno di un'attivit di cross-selling sono, in genere, problemi affrontati utilizzando la conoscenza del settore, l'esperienza accumulata nel corso degli anni, gli errori fatti nel passato. La novit offerta dalla nuova tecnologia e dal Data Mining non sta nel rinnegare il tipo tradizionale di conoscenza, che rimane fondamentale, ma nellintegrare i processi decisionali con regole costruite sintetizzando

    complessi ed estesi patrimoni informativi. Tali regole, opportunamente inserite nei processi operativi aziendali, non sono semplicemente il risultato di studi pilota, bens loutput di progetti finalizzati ad attivit di business.

    Il Data Mining. Il Data Mining un processo, non il mero l'utilizzo di un algoritmo (Cabena, 1997). SAS Institute definisce il Data Mining come il processo di selezione, esplorazione, e modellazione di grandi masse di dati per scoprire relazioni non note allo scopo di ottenere un vantaggio di business. Unefficace attivit di Data Mining coinvolge tre diverse figure in grado di interagire tra loro: un esperto del business aziendale, un esperto dei sistemi informativi aziendali:

    dati e procedure, un esperto di metodi quantitativi per

    lanalisi dei dati. Pi in generale un'attivit di questo tipo viene demandata ad un gruppo di lavoro in grado di sviluppare lintero progetto, secondo scadenze determinate ed obiettivi precisi e misurabili.

    1

  • Solo in questo modo gli investimenti in Data Mining potranno essere attentamente valutati e sottoposti ad una analisi in termini di costi e benefici per l'azienda. La metodologia di Data Mining Lattivit di Data Mining prevede le seguenti fasi: - Predisposizione dei dati di input; - Campionamento; - Analisi preliminari; - Costruzione del modello; - Scelta del modello finale; - Implementazione delle regole nei processi

    decisionali. La predisposizione dei dati di input. La predisposizione dei dati di input per lattivit di Data Mining passa attraverso le seguenti fasi: Definizione degli obiettivi; Identificazione delle fonti; Costruzione del Data Mart delle Analisi

    (DMA). Definizione degli obiettivi. Il primo passo consiste nella definizione degli obiettivi aziendali a cui lattivit di analisi preposta. Un tipico esempio la selezione di un target per la promozione di un prodotto avente determinate caratteristiche. Identificazione delle fonti. Il secondo passo consiste nel reperire i dati necessari per il raggiungimento degli obiettivi sopra definiti. Le fonti dei dati possono essere interne, esterne oppure una combinazione dettata dalla necessit di arricchire i dati con nuove dimensioni descrittive (variabili di geomarketing) o con nuovi nominativi (liste di prospect) non presenti nel sistema informativo aziendale. Questa fase di ricerca risulta facilitata dalla presenza di un Data Warehouse organizzato per soggetti e contenente dati certificati. Costruzione del Data Mart delle Analisi (DMA). Il terzo passo consiste nella creazione del DMA, ovvero della matrice dei dati disegnata sulla base del modello dati dettato dalle esigenze di analisi e dagli obiettivi preposti. Spesso il modello dati impone delle trasformazioni dei dati originari al fine di disporre i dati di input nella forma propria

    per i successivi processi di analisi quantitativa. Il rilascio del DMA subordinato ad unattivit di controllo di qualit: controllo formale per l'individuazione delle

    variabili non utilizzabili, variabili fisicamente esistenti ma non implementate;

    controllo sostanziale per la verifica del contenuto delle variabili implementate, presenza di modalit non previste.

    Effettuati i controlli formali e sostanziali, potrebbe emergere la mancanza di alcuni elementi informativi essenziali per il proseguimento dellattivit di analisi. In questi casi necessario riciclare sulla fase di individuazioni delle fonti, individuandone di nuove e/o procedendo alle opportune trasformazioni. La fase di costruzione del DMA, in termini di definizione dei soggetti logici di riferimento (clienti, prodotti, territorio) e di predisposizione degli opportuni descrittori (fatti e dimensioni di analisi) guidata dagli obiettivi di business che si intende raggiungere e si configura come propedeutica alla fase di analisi. Il campionamento. In generale opportuno impostare lattivit di analisi su base campionaria, soltanto in talune circostanze consigliabile lavorare sullintera popolazione di riferimento. Le motivazioni che portano allestrazione di un campione rappresentativo si basano sulle seguenti considerazioni: la teoria del campione permette di tenere

    sotto controllo lentit dellerrore campionario;

    i tempi di elaborazione; disporre di pi basi di confronto per la

    costruzione e per la scelta dei modelli di sintesi.

    In particolare lavorare su un sotto-insieme rappresentativo delluniverso di riferimento permette di tenere sotto controllo il rischio di costruire modelli auto-esplicativi: la bont di una regola consiste nella sua capacit discriminante, ma anche nella sua robustezza. Il vantaggio di lavorare su base campionaria, costruendo un Data Mart di stima del modello ed uno di validazione, consiste proprio nell'evitare che la regola, adattandosi alle irregolarit ed alla variabilit propria dei dati sui quali stimata, perda capacit di generalizzazione.

    2

  • Una volta creato il DMA e deciso su quale base lavorare: campione o popolazione, segue il processo di estrazione di ricchezza informativa dai dati opportunamente predisposti. La metodologia di Data Mininig guida questo processo di sintesi. Le analisi preliminari. Lanalisi vera e propria inizia con unattivit di analisi preliminari delle variabili che descrivono il fenomeno oggetto dindagine. Si tratta di una prima valutazione di significativit dei descrittori che pu portare ad una selezione o trasformazione delle variabili originarie. In particolare la trasformazione potrebbe essere dettata da esigenze di miglior comprensione del fenomeno: una combinazione di variabili pu portare alla creazione di una nuova dimensione maggiormente esplicativa. La trasformazione dettata anche da esigenze di sintesi: l'applicazione del metodo delle componenti principali, ad esempio, riduce le dimensioni del problema individuando un limitato numero di variabili capaci di catturare la struttura di variabilit essenziale del fenomeno indagato. La costruzione del modello. In questa fase il focus del processo riguarda la costruzione di regole generali a partire dai dati osservati. Da un punto di vista generale si possono distinguere tecniche per lo studio dell'interdipendenza da quelle utilizzate per lo studio della dipendenza. Una ulteriore distinzione riguarda il tipo di variabili utilizzate per descrivere il fenomeno oggetto di studio: variabili qualitative o variabili quantitative. Lo studio dell'interdipendenza per variabili di tipo qualitativo si avvale di tecniche quali l'analisi delle corrispondenze o i modelli log lineari; per variabili di tipo quantitativo ricordiamo, a titolo esemplificativo, lanalisi dei gruppi, lanalisi delle componenti principali. Tecniche di questo tipo vengono impiegate nei progetti di segmentazione comportamentale della clientela, definizione di nuovi prodotti, costruzione della scheda cliente o della scheda agenzia. L'analisi di dipendenza riguarda lo studio di una variabile rispetto ad altre variabili considerate esplicative. Anche in questo caso i modelli possono essere impiegati a seconda della natura delle variabili considerate: nel caso di variabili

    categoriche, ad esempio, modelli logit; nel caso di variabili quantitative, modelli di regressione lineare o logistica, a seconda della natura della variabile dipendente. Questo tipo di modellistica piuttosto tradizionale. In genere la possibilit di capire a fondo i modelli e soprattutto la trasparenza degli stessi portano ad una preferenza nel loro utilizzo rispetto a metodi pi complessi e di pi difficile analisi. In molti casi per considerazioni sullo spazio delle variabili, sulla dimensione del problema, sulla complessit del modello esplicativo sottostante portano alla necessit di utilizzare un altro tipo di modellistica: reti neurali, alberi decisionali, algoritmi genetici. Si tratta di modelli che trattano diverse tipologie di variabili e che hanno il pregio di funzionare anche quando la dimensione del problema decisamente ampia. Sono proprio gli avanzamenti tecnologici recenti che hanno reso possibile limpiego di queste tecniche, destinate a diventare una parte fondamentale del bagaglio degli attrezzi dell'analista. Tecniche di analisi della dipendenza vengono impiegate nei progetti di costruzione di scoring system o di valutazione del potenziale a livello di singolo cliente o a livello di area territoriale. La scelta del modello. La scelta del modello, ovvero della regola finale, si basa su considerazioni che completano lanalisi delle statistiche messe a disposizione dalle diverse tecniche. Indicazioni quali gli obiettivi da raggiungere ed i vincoli di business, sia in termini di budget che di tempo, concorrono alla valutazione della performance di un modello. Il rilascio di un costrutto metodologicamente ottimale potrebbe richiedere molto pi del tempo effettivamente disponibile, in questi casi preferibile perseguire soluzioni pi semplici, ma in grado di fornire indicazioni pi efficaci rispetto ai criteri tradizionalmente usati in azienda. In un contesto di questo tipo disporre di una tecnologia altamente performante e ricca di tecniche costituisce lelemento caratterizzante lattivit di Data Mining: produrre una grande quantit di modelli in modo semplice e rapido, confrontare i risultati da essi prodotti, dare una quantificazione economica della regola costruita, sono gli elementi necessari per la scelta ottimale del modello finale.

    3

  • Limplementazione delle regole nei processi decisionali. Un elemento distintivo dellattivit di Data Mining da quella di semplice analisi dei dati lintegrazione dei risultati nei processi decisionali aziendali. La conoscenza del business, da un lato, lestrazione delle regole e il loro inserimento nelle procedure gestionali, dallaltro, permettono di passare dalla fase di analisi al rilascio in produzione di un motore decisionale: la selezione del target di riferimento per un gestore di campagne di marketing, lo score associato al rilascio di un prestito, la probabilit di abbandono di un contratto telefonico, la probabilit di transazioni fraudolente provenienti dallutilizzo di carte di credito. La Soluzione per il Data Mining Fare Data Mining di successo richiede una soluzione completa che sia in grado di coprire le seguenti categorie:

    L'infrastruttura tecnologica Gli strumenti di Data Mining La metodologia SEMMA

    L'infrastruttura tecnologica Come abbiamo gi visto, il Data Warehouse un punto di partenza ideale ed il DMA costituisce linput dellattivit di Data Mining Gli strumenti di Data Mining Sono disponibili una variet di tecniche per il Data Mining, ciascuna delle quali indirizza un bisogno diverso. Esse provengono da varie aree di ricerca quali la statistica, la knowledge discovery in databases (KDD), il machine learning, la pattern recognition, il neurocomputing. In particolare sono stati sviluppati una variet di algoritmi specifici per il Data Mining (Berry e Linoff, 1997). I pi comuni riguardano: la regressione (lineare, multipla e logistica),

    le reti neuronali (Multi Layer Perceptron, Radial Basis Function, ecc.) e gli alberi di decisione (CART, CHAID, C4.5, ecc.)

    vengono utilizzati per risolvere problemi di classificazione predittiva.

    Nelle applicazioni di Database Marketing lo scopo della classificazione predittiva distinguere, ad esempio, i clienti in base alla probabilit di assumere un determinato stato: acquista/ non acquista. gli algoritmi di "clustering" per la

    rilevazione di gruppi omogenei vengono utilizzati per risolvere problemi di segmentazione.

    Lo scopo della segmentazione quello di raggruppare i casi in classi omogenee. Per esempio, segmentare i clienti esistenti in gruppi ed associarne un profilo diverso per ciascuno al fine di ottimizzare lattivit di cross-selling. le tecniche di Market Basket Analysis

    (associazioni e sequenze) vengono utilizzate per risolvere problemi di analisi delle affinit.

    Le scopo della MBA scoprire quali prodotti o servizi vengono frequentemente acquistati insieme (associazioni), o per analizzare i dati degli ordini per determinare cosa i clienti sono propensi a ordinare successivamente (sequenze). Questo pu portare a studiare particolari combinazioni di prodotti o strategie di promozioni. La metodologia SEMMA. Levoluzione tecnologica ha reso accessibile strumenti di Data Mining anche per aziende caratterizzate da personale con limitata esperienza analitica. Se implementato bene, il Data Mining contribuisce ad ottimizzare lattivit di business, altrimenti pu produrre informazioni che possono risultare tanto inutili quanto dannose. A supporto di questo concetto SAS Institute sostiene l'applicazione di una metodologia, chiamata SEMMA. Tale metodologia costituisce un percorso le cui fasi sostanziali sono: unanalisi attenta dei dati prima della

    modellazione, l'utilizzo alternativo delle diverse tecniche

    nella forma corretta

    4

  • la validazione dei risultati in termini strettamente di business: costi, ricavi e ritorno sugli investimenti (ROI).

    Il SEMMA consente alle aziende di ottenere i migliori risultati dalle proprie attivit di Data Mining. La metodologia SEMMA nellambito dellattivit di Data Mining percorre le fasi indicate nel precedente paragrafo: Sample (Il campionamento): valgono le stesse considerazioni esposte precedentemente. Explore (Le analisi preliminari): l'esplorazione dei dati serve per rilevare su quale sotto insieme di attributi pi opportuno lavorare. La visualizzazione grafica dei dati fornisce strumenti intuitivi per professionisti del business, mentre le tecniche statistiche di esplorazione offrono informazioni aggiuntive per gli specialisti. Modify (Le analisi preliminari): le intuizioni ottenute con l'esplorazione permettono agli analisti di raggruppare e trasformare i dati per ulteriori esplorazioni e analisi. Model (La costruzione del modello): le diverse tecniche di Data Mining: reti neuronali, modelli basati su alberi e le tecniche statistiche vengono utilizzate per scoprire relazioni all'interno dei dati. Assess (La scelta del modello): indica quali modelli producono i risultati migliori o pi appropriati. Vengono fornite anche indicazioni su come i risultati devono comunicati al management e sulla base di questa discussione iterare nuovamente lintero processo. Conclusioni. Per fruire pienamente dei risultati del Data Mining, questi devono essere presentati, comunicati e condivisi con le aree aziendali che ne trarranno i maggiori benefici. I risultati, quindi, devono essere inseriti in un contesto di "produzione" dove sia possibile misurarne la

    reale efficacia e poterne apportare, se servono, i correttivi per migliorarla. Enterprise Miner la business solution proposta da SAS Institute per lattivit di Data Mining ready-to-use: tramite lutilizzo intuitivo di uninterfaccia grafica, che ripercorre la metodologia SEMMA, possibile sviluppare progetti di Data Mining anche da parte di persone con limitata esperienza analitica. Competenze specifiche nellambito dellanalisi dei dati consentono di ottenere i migliori risultati tramite lutilizzo appropriato di una serie di opzioni che la soluzione Enterprise Miner mette a disposizione. Lintegrabilit del software SAS permette un facile accesso alle strutture dati o ai Data Mart aziendali, mentre lutilizzo di strumenti potenti di reporting consente la presentazione dei risultati, lapplicazione delle regole estratte nellambiente di produzione, e la misurazione dei risultati in un unico ambiente applicativo. Bibliografia Berry, M. e G. Linoff, (1997), Data Mining Techniques for Marketing, Sales, and Customer Support, Wiley and Sons, New York. Cabena, P., et al, (1997), Discovering Data Mining: From Concept to Implementation, Prentice-Hall, Englewood Cliffs, NJ. Cuzzocrea G. e Saccardi A., (1998) Metodi per il supporto alle decisioni di marketing. Note del corso SAS.

    5

    AbstractI dati a supporto dei processi decisionali.Il Data Mining.La metodologia di Data Mining

    Limplementazione delle regole nei processi decisLa Soluzione per il Data MiningL'infrastruttura tecnologicaGli strumenti di Data Mining