2015 06 11 - Scheda Illustrativa Del Data Mining

2
CINECA - Servizio Gestione ed Analisi dell'Informazione D D D A A A T T T A A A M M M I I I N N N I I I N N N G G G http://open.cineca.it/datamining/dmCineca/ 1. Introduzione Il data mining è una delle attività cruciali per la comprensione, la navigazione e lo sfruttamento dei dati nella nuova era digitale (Ushama Fayyad). Si tratta del processo automatico di scoperta ed individuazione di strutture all’interno dei dati, dove per struttura si intendono patterns, modelli e relazioni. Questo processo, noto anche col nome KDD (Knowledge Discovery in Databases), consente di estrarre conoscenza, in termini di informazioni significative ed immediatamente utilizzabili, da grandi moli di dati, tramite l’applicazione di particolari tecniche ed algoritmi. Le tecniche maggiormente utilizzate, in questo ambito, sono: clustering, reti neurali, alberi di decisione ed analisi delle associazioni. Ciascuna comprende un vasto insieme di metodi e di algoritmi che hanno l’obiettivo comune di fare emergere patterns (sequenze ripetute, omogeneità, regole, …) dai dati, che, utilizzati a scopo descrittivo e/o previsivo, costituiscono un valido strumento di supporto alle decisioni. 2. Ambiti applicativi In campo economico-finanziario, le principali applicazioni sono: segmentazione della clientela (database marketing) applicazione di tecniche di clustering per individuare i raggruppamenti impliciti nei dati, omogenei in termini di comportamento d’acquisto e di caratteristiche socio-demografiche customer retention applicazione di tecniche previsive per individuare i clienti a rischio di abbandono fraud detection individuazione di comportamenti fraudolenti analisi delle associazioni (market basket analysis) individuazione dei prodotti acquistati congiuntamente sequential patterns individuazione di comportamenti ricorrenti in sequenze temporali di eventi competitive intelligence applicazione di tecniche di clustering a documenti estratti da banche dati internazionali di tipo tecnico- scientifico volte ad individuare le tecnologie emergenti, le loro relazioni, l’evoluzione temporale e le aziende coinvolte analisi testuale (text mining) individuazione degli argomenti trattati da un set di documenti e delle relazioni tra argomenti Applicazioni già sviluppate, al CINECA, riguardano la grande distribuzione, compagnie assicurative, aziende farmaceutiche, compagnie di telecomunicazione, società di ricerche di mercato, società di servizi Internet, aziende di produzione industriale. 3. Le fasi di un progetto Si intende per progetto, in questo contesto, l’applicazione di tecniche di data mining in un ambito specifico e circoscritto, per il raggiungimento di uno specifico obiettivo. Ogni progetto si articola nelle seguenti fasi: Individuazione delle fonti di dati Estrazione / acquisizione dei dati (ed integrazione, se provenienti da fonti o data bases diversi) Pre-processing (Pulizia dei dati - Analisi esplorative - Selezione - Trasformazione - Formattazione) Data Mining (Scelta dell'algoritmo - Individuazione dei parametri - Elaborazione - Valutazione del modello) Interpretazione / valutazione dei risultati Rappresentazione dei risultati

description

.

Transcript of 2015 06 11 - Scheda Illustrativa Del Data Mining

  • CCIINNEECCAA -- SSeerrvviizziioo GGeessttiioonnee eedd AAnnaalliissii ddeellll''IInnffoorrmmaazziioonnee

    DDDAAATTTAAA MMMIIINNNIIINNNGGG http://open.cineca.it/datamining/dmCineca/

    1. Introduzione

    Il data mining una delle attivit cruciali per la comprensione, la navigazione e lo sfruttamento dei dati nella nuova era digitale (Ushama Fayyad). Si tratta del processo automatico di scoperta ed individuazione di strutture allinterno dei dati, dove per struttura si intendono patterns, modelli e relazioni. Questo processo, noto anche col nome KDD (Knowledge Discovery in Databases), consente di estrarre conoscenza, in termini di informazioni significative ed immediatamente utilizzabili, da grandi moli di dati, tramite lapplicazione di particolari tecniche ed algoritmi.

    Le tecniche maggiormente utilizzate, in questo ambito, sono: clustering, reti neurali, alberi di decisione ed analisi delle associazioni. Ciascuna comprende un vasto insieme di metodi e di algoritmi che hanno lobiettivo comune di fare emergere patterns (sequenze ripetute, omogeneit, regole, ) dai dati, che, utilizzati a scopo descrittivo e/o previsivo, costituiscono un valido strumento di supporto alle decisioni.

    2. Ambiti applicativi

    In campo economico-finanziario, le principali applicazioni sono:

    segmentazione della clientela (database marketing) applicazione di tecniche di clustering per individuare i raggruppamenti impliciti nei dati, omogenei in termini di comportamento dacquisto e di caratteristiche socio-demografiche

    customer retention applicazione di tecniche previsive per individuare i clienti a rischio di abbandono

    fraud detection individuazione di comportamenti fraudolenti

    analisi delle associazioni (market basket analysis) individuazione dei prodotti acquistati congiuntamente

    sequential patterns individuazione di

    comportamenti ricorrenti in sequenze temporali di eventi

    competitive intelligence applicazione di tecniche di clustering a documenti estratti da banche dati internazionali di tipo tecnico-scientifico volte ad individuare le tecnologie emergenti, le loro relazioni, levoluzione temporale e le aziende coinvolte

    analisi testuale (text mining) individuazione degli argomenti trattati da un set di documenti e delle relazioni tra argomenti

    Applicazioni gi sviluppate, al CINECA, riguardano la grande distribuzione, compagnie assicurative, aziende farmaceutiche, compagnie di telecomunicazione, societ di ricerche di mercato, societ di servizi Internet, aziende di produzione industriale.

    3. Le fasi di un progetto Si intende per progetto, in questo contesto,

    lapplicazione di tecniche di data mining in un ambito specifico e circoscritto, per il raggiungimento di uno specifico obiettivo.

    Ogni progetto si articola nelle seguenti fasi:

    Individuazione delle fonti di dati Estrazione / acquisizione dei dati (ed

    integrazione, se provenienti da fonti o data bases diversi)

    Pre-processing (Pulizia dei dati - Analisi esplorative - Selezione - Trasformazione - Formattazione)

    Data Mining (Scelta dell'algoritmo - Individuazione dei parametri - Elaborazione - Valutazione del modello)

    Interpretazione / valutazione dei risultati Rappresentazione dei risultati

  • CCIINNEECCAA -- SSeerrvviizziioo GGeessttiioonnee eedd AAnnaalliissii ddeellll''IInnffoorrmmaazziioonnee

    Il processo ora descritto di tipo iterativo: la fase di valutazione dei risultati pu infatti portare a ripercorrere alcune delle fasi precedenti.

    4. Text mining

    Il text mining una particolare applicazione che consente di individuare sequenze di parole (pattern) che accomunano e caratterizzano un insieme di documenti e che consentono perci il raggruppamento tematico. Questo tipo di applicazione particolarmente utile quando si deve analizzare il contenuto di una collezione di documenti (anche provenienti da fonti eterogenee). Lindividuazione di gruppi tematici consente di dare unorganizzazione allinformazione disponibile e di individuare argomenti minori, che anche ad una lettura attenta potrebbero sfuggire. Le relazioni, inoltre, mettono in evidenza legami tra argomenti apparentemente separati ma che hanno una terminologia comune. Lesempio che segue tratto da un caso concreto sviluppato per la Ferrari, dove oggetto di analisi era una collezione di documenti provenienti da SAE NEWS. Allinterno della macro area dei sensori, sono stati identificati e separati, in modo automatico, i documenti che trattavano di sensori per il sistema di sospensioni (sensori di peso), sensori di posizione, sensori di velocit e sensori per la misurazione angolare (rotazione).

    Lanalisi della metainformazione (data di pubblicazione delle notizie, fonte, nazione e nomi delle aziende) ha consentito di estrarre informazioni strategiche sulla concorrenza.

    Il text mining pu configurarsi come servizio disponibile on-line, anzich come singolo progetto (o applicazione specifica). In questo caso, lesperto di settore ha a disposizione tutti gli strumenti per effettuare autonomamente analisi specifiche volte al raggiungimento di obiettivi aziendali specifici, utilizzando le fonti opportune. 5. Conclusioni

    Lapplicazione di tecniche di data mining, sfruttando appieno la ricchezza informativa insita nel patrimonio di dati disponibili, consente di acquisire un effettivo vantaggio competitivo. La conoscenza delle diverse tipologie di comportamento presenti allinterno della propria clientela, delle regole che governano lacquisto di un prodotto, delle strategie della concorrenza, cos come lindividuazione tempestiva di nuove nicchie di mercato, di nuovi potenziali concorrenti, di innovazioni tecnologiche che avranno un impatto nel proprio campo di attivit, sono elementi irrinunciabili per la sopravvivenza in mercati altamente competitivi e in rapida evoluzione. Il servizio offerto da CINECA va dallo sviluppo della singola applicazione alla realizzazione di servizi di monitoraggio su ambiti specifici. In particolare lofferta CINECA riguarda lattivit di: Consulting Progettazione e realizzazione di applicazioni in

    outsourcing Realizzazione di servizi on-line

    Per studi pilota, il CINECA mette a disposizione la propria potenza di calcolo, gli strumenti e il know-how specifico nel campo del data mining, i sistemi di sicurezza e di protezione della riservatezza dei dati e dei risultati e laccesso alle fonti dati internazionali. http://open.cineca.it/datamining/