4a Data Mining e motori computazionali

29
Data mining, data warehouse e motori computazionali SAPIENZA UNIVERSITA’ DI ROMA DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI Anno accademico 2012-2013 Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE Prof. Giovanni Solimine Modulo integrativo INFORMATICA PER LE BIBLIOTECHE Prof. Maurizio Caminito

description

SAPIENZA UNIVERSITA’ DI ROMA DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI Anno accademico 2012-2013   Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE Prof. Giovanni Solimine    Modulo integrativo INFORMATICA PER LE BIBLIOTECHE Prof. Maurizio Caminito

Transcript of 4a Data Mining e motori computazionali

Page 1: 4a Data Mining e motori computazionali

Data mining, data warehouse e motori computazionali

SAPIENZA UNIVERSITA’ DI ROMA DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE

SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARIAnno accademico 2012-2013

Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE

Prof. Giovanni Solimine

Modulo integrativoINFORMATICA PER LE BIBLIOTECHE

Prof. Maurizio Caminito

Page 2: 4a Data Mining e motori computazionali

Il DATA MINING

Il data mining è un metodo statistico applicato in diversi ambiti aziendali (marketing, CRM, controllo di gestione, risk management, ricerca e sviluppo) e in numerosi settori: banche, assicurazioni, industrie farmaceutiche, aziende produttrici di beni di largo consumo, telecomunicazioni.

Page 3: 4a Data Mining e motori computazionali

Introduzione al Data Mining

Il Data Mining è la risposta tecnologica all’esigenza di analizzare e ricavare conoscenze utili, dalle enormi quantità di dati grezzi che si raccolgono in tutti i contesti operativi della nostra società.

Page 4: 4a Data Mining e motori computazionali

Introduzione al Data Mining - 2Esempi:

• Solo il database del settore consegne della UPS ha una dimensione di 17 Tera-Byte. Questi dati vanno analizzati sia per capire come migliorare il servizio ai clienti, sia per migliorare l’efficienza interna dell’azienda

• I servizi segreti militari raccolgono una infinità di immagini via satellite, che devono saper classificare per riconoscere se è stato fotografato un semplice trattore o un carro armato!

• Le aziende farmaceutiche, per progettare un nuovo farmaco, utile e sicuro per l’uomo, devono analizzare e selezionare milioni di composti chimici.

Page 5: 4a Data Mining e motori computazionali

Introduzione al Data Mining- 3

La risposta all’esigenza di analisi di enormi quantità di dati raccolti è rappresentata dal

Data Mining(= estrazione di dati)

Page 6: 4a Data Mining e motori computazionali

Data Mining: cos’è

Il data mining è il processo di analisi, svolto in modo semiautomatico, di una grande quantità di dati grezzi al fine di scoprire il modello (“pattern”) che li governa, o una regola significativa, da cui ricavare conoscenze utili applicabili al nostro contesto operativo (come ad esempio previsioni e classificazioni).

Page 7: 4a Data Mining e motori computazionali

Uso del Data Mining

Il data mining (estrazione di dati) ha una duplice valenza:

• Estrazione, con tecniche analitiche, di una informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;

• Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi.

Page 8: 4a Data Mining e motori computazionali

Sviluppo del DATA MINING

Fattori principali:• grandi accumulazioni di dati in formato

elettronico; • data storage poco costoso; • nuovi metodi e tecniche di analisi

(apprendimento automatico, riconoscimento di pattern)

Page 9: 4a Data Mining e motori computazionali

Le tecniche del DATA MINING

• Clustering • Reti neurali • Alberi di decisione • Analisi delle associazioni

(es.: individuazione di prodotti acquistati congiuntamente).

Page 10: 4a Data Mining e motori computazionali

Tecniche di data mining

Le tecniche di data mining sono fondate su specifici algoritmi. Si individuano dei «pattern», o modelli, schemi ricorrenti. Questi possono essere, a loro volta, il punto di partenza per ipotizzare e poi verificare nuove relazioni di tipo causale fra fenomeni.Possono servire in senso statistico per formulare previsioni su nuovi insiemi di dati.

Page 11: 4a Data Mining e motori computazionali

L’algoritmo di data mining

Un algoritmo di data mining è un set di calcoli che consente di creare un modello di data mining dai dati. Per creare un modello, tramite l'algoritmo vengono innanzitutto analizzati i dati forniti, ricercando tipi specifici di modelli o tendenze. I risultati dell'analisi vengono utilizzati dall'algoritmo per definire i parametri ottimali per la creazione del modello di data mining.

Page 12: 4a Data Mining e motori computazionali

Tecniche di data mining 2

Tra le tecniche maggiormente utilizzate in questo ambito vi sono:•Clustering;•Reti neurali;•Alberi di decisione;•Analisi delle associazioni (individuazione dei prodotti acquistati congiuntamente).Un'altra tecnica molto diffusa per il data mining è l'apprendimento mediante classificazione.

Page 13: 4a Data Mining e motori computazionali

Il DATA MINING in biblioteca

Per quanto riguarda le possibili applicazioni di tali tecniche in biblioteca, il primo pensiero va al prestito dei libri e ai documenti accessibili nella biblioteca digitale.Come cogliere le regolarità eventualmente presenti nelle transazioni avvenute con l’utenza, sulle quali basare le raccomandazioni di lettura o consultazione?La rilevazione di relazioni nel comportamento degli utenti può essere effettuata tramite il data mining.

Page 14: 4a Data Mining e motori computazionali

Il profilo del lettore

Si possono elaborare proposte e offerte mirate ai vari profili lettori, da tenere presenti in occasione della redazione della Carta delle collezioni, della revisione delle raccolte, degli acquisti, della promozione della lettura diretta agli utenti reali di cui si desidera conservare il grado di fidelizzazione.

Page 15: 4a Data Mining e motori computazionali

Il profilo del lettore. Esempi

Per esemplificare: – chi ha preso in prestito il libro a ha preso in prestito anche il libro b; – le ripartizioni dei prestiti del lettore L nella classificazione Dewey; – le ripartizioni diacroniche dei prestiti del lettore L (il 50% in inverno, il 25% in autunno e il restante 25% in primavera).

Page 16: 4a Data Mining e motori computazionali

Software per il DATA MINING

Page 17: 4a Data Mining e motori computazionali

Dal DATA MINING al DATA WAREHOUSE

Nel contesto aziendale il data mining è considerato parte del processo che porta alla creazione di un data warehouse. Valorizzazione delle informazioni aziendali contenute in grandi depositi di dati.

Page 18: 4a Data Mining e motori computazionali

Data warehouse (o DW)

Termine traducibile con magazzino di dati, archivio informatico contenente i dati di un'organizzazione.

I DW sono progettati per consentire di produrre facilmente relazioni ed analisi.Sono componenti essenziali di un sistema Data warehouse gli strumenti per localizzare i dati, per estrarli, trasformarli e caricarli e gli strumenti per gestire un dizionario dei dati. Sono strumenti per gestire e recuperare i metadati e per gestire le proprie informazioni in modo intelligente.

Page 19: 4a Data Mining e motori computazionali

MEMO: Business Intelligence (BI)

E’ l’insieme dei processi, dei metodi e degli strumenti utilizzati per raccogliere, organizzare ed analizzare i dati a disposizione a supporto dei processi decisionali di carattere operativo, tattico e strategico di un’azienda o di un Ente.

Page 20: 4a Data Mining e motori computazionali

Data warehouse e livelli di dati• Dati attuali di dettaglio:

sono i dati al massimo livello di dettaglio che si ritiene possa essere utile ai processi decisionali. Hanno già subito operazioni di filtraggio delle informazioni non necessarie, interrogazione delle informazioni da fonti diverse, trasformazione rispetto allo schema dati del data warehouse.

• Dati storici di dettaglio:i dati di dettaglio che non sono “attuali”, ma che rientrano nella finestra temporale del data warehouse. Vengono collocati su supporti meno impegnativi e costosi, accessibili meno comodamente.

• Dati aggregati:la loro presenza deriva da considerazioni di efficienza e praticità nella risposta alle richieste degli utenti; infatti tutte le informazioni ricavabili dai dati aggregati sono in teoria ricavabili dai dati di dettaglio, ma ciò richiederebbe di volta in volta il loro ri-calcolo.

Page 21: 4a Data Mining e motori computazionali

Il successo dei DATA WAREHOUSE

Un processo decisionale rapido ed efficace è molto importante nel mondo competitivo odierno. Per soddisfare la richiesta di business intelligence, analisi avanzata, data mining, modellazione previsionale, normative rigorose e reportistica molto rapida, sono necessarie capacità maggiori di quelle di un tradizionale sistema di gestione dei dati.

Page 22: 4a Data Mining e motori computazionali

2009-05-18 18:35INTERNET: ARRIVA WOLFRAM

ALPHA

«Un motore di ricerca 'intelligente' (ANSA) – ROMA, 18 MAG - Wolfram Alpha, il motore di ricerca semantico che punta a cambiare il modo di cercare informazioni sul web e' in linea su Internet. E' stato ideato dall'informatico britannico Stephen Wolfram. La differenza con i motori di ricerca tradizionali sta nell'interpretazione semantica. Se in Google o Yahoo! si digita una domanda i motori riportano i link alle pagine web che contengono tutte o alcune delle parole. Wolfram Alpha, invece, e' in grado di comprendere la domanda e di fornire la risposta.»

Page 23: 4a Data Mining e motori computazionali
Page 24: 4a Data Mining e motori computazionali

Wolfram Alpha

E’ nato con l’obiettivo di leggere ed interpretare le domande dell’utente, poste in modo naturale e di cercare di fornire una risposta coerente, molto diversa quindi dalle migliaia di pagine a cui Google ci ha abituati in questi anni. I link di risposta forniti da questo motore di ricerca sono frutto di algoritmi messi a punto proprio da Stephen Wolfram, scienziato specializzato in fisica, che ha cercato di creare il primo search engine con capacità semantiche.

Page 25: 4a Data Mining e motori computazionali

Wolfram Alpha: un solo risultato

• “Basta con i milioni di risultati restituiti da Google senza alcun approccio critico: il prossimo metodo di ricerca rispetterà il linguaggio naturale, cioè l’espressione delle domande esattamente come avviene tra due interlocutori umani.

• Dopo aver decifrato il quesito, Wolfram Alpha propone un risultato completo di grafici e dati statistici, per supportare scientificamente il valore della propria risposta.

• Oltre a presentare risultati diretti, il motore confronta i dati di diversa natura, paragonando così valori astratti come le lunghezze o gli avvenimenti storici

Page 26: 4a Data Mining e motori computazionali

Walfram Alpha: come funziona

• Non si tratta di un motore di ricerca.• Non consiste in un database di siti web archiviati per parole

chiave• Non è formato da una serie di domande e risposte

preconfezionate.

Wolfram Alpha è un «motore computazionale della conoscenza» che interpreta ed elabora proprio come un cervello, incrociando tutti i dati a disposizione.

Il software affronta gli ostacoli del linguaggio e della cultura, analizzando il significato di ciascuna domanda, distinguendo tra i diversi livelli semantici.

Page 27: 4a Data Mining e motori computazionali

«Where is Rome»

Se ad esempio viene chiesto "Where is Rome", un motore di ricerca tradizionale si limita ad elencare le pagine che contengono tale frase, mentre un motore di ricerca computazionale elabora la domanda, "scomponendola" nei suoi elementi (che nel caso sarebbero "Rome" e "location"), poi sulla base di questi mostra la posizione di Roma (senza aggiungere dati inutili).

Page 28: 4a Data Mining e motori computazionali
Page 29: 4a Data Mining e motori computazionali