Tesi - Presentazione

10
Alma Mater Studiorum - Università di Bologna Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro Bondi Sistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca SISTEMA CONFIGURABILE PER IL COLLEGAMENTO ASSISTITO DI DOCUMENTI NON STRUTTURATI A DOCUMENTI STRUTTURATI IN UN EDMS ATTRAVERSO L’UTILIZZO DEI MOTORI DI RICERCA Tesi di Laurea in BASI DI DATI E SISTEMI INFORMATIVI Relatore PROF. DANILO MONTESI Presentata da ALESSANDRO BONDI

description

Sistema configurabile per il collegamento assistito di documenti non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca

Transcript of Tesi - Presentazione

Page 1: Tesi - Presentazione

Alma Mater Studiorum - Università di Bologna

Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca

SISTEMA CONFIGURABILE PER ILCOLLEGAMENTO ASSISTITO DI

DOCUMENTI NON STRUTTURATI ADOCUMENTI STRUTTURATI IN UN

EDMS ATTRAVERSO L’UTILIZZO DEIMOTORI DI RICERCA

Tesi di Laurea inBASI DI DATI E SISTEMI INFORMATIVI

Relatore PROF. DANILO MONTESI

Presentata daALESSANDRO BONDI

Page 2: Tesi - Presentazione

Gestione documentale

Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca

Documenti non strutturati

Documenti strutturati

meta datimarkup

classi di documento

Sistemi di gestione documentale (RMS) Catalogazione dei documenti Architettura client-server-repository (FS, DBMS, Link) Workflow: 3R (routes, rules, roles)

Page 3: Tesi - Presentazione

Collegamento documenti strutturati/non strutturati

Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca

Vantaggio nell'utilizzo di documenti strutturati:rendere il contenuto del documento

facilmente recuperabile ed interpretabileefficacia ed efficienza nella gestione

la strutturazione delle informazioni è unprocesso naturale della mente umana!

Indicizzazione manuale Sistemi di auto classificazione/estrazione

Page 4: Tesi - Presentazione

Information Retrieval

Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca

Componenti di un sistema di IR: (D, Q, F, R)Indicizzazione della collezione Dizionario, Posting [Termine, Documento, Occorrenze]

Processo di reperimento Query, Risultati, Valutazione

Criteri di valutazione Precision/Recall, Contesti, Semplicità

Web Information retrieval Creazione collezione, Interazione utente

Page 5: Tesi - Presentazione

Meta motori di ricerca

Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca

Processo di reperimentoQuery Formulazione (traduzione?) delle query per i singoli motori Processo di reperimento sui singoli motori Raggruppamento dei risultati relevance/rank? training data?

Eliminazione dei duplicatiRisultatiValutazione

Page 6: Tesi - Presentazione

Sistemi di voto

Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca

Sistemi di voto & Meta motori?

ma abbiamo tanti candidati di fronte a pochi elettori!

Definiscono regole di aggregazione Elettori: singoli motoriCandidati: i documenti (recuperati)

Metodo Borda-Countogni elettore classifica un insieme n di candidati in ordine di preferenza;per ogni votante, al primo della lista vengono assegnati n punti,al secondo n-1, al terzo n-2 e così via;i candidati non in classifica si dividono i punti non assegnati dall’elettore;sommando i punti viene determinata la classifica finale.

Page 7: Tesi - Presentazione

Proposta di soluzione

Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca

DESTRUTTURIAMO I DOCUMENTI!

(le istanze delle query relative al documento stesso)

Ad ogni classe di documento associamo dei query patternAd ogni query pattern associamo un coefficiente di rilevanzae un elenco di motori di ricerca su cui vanno eseguiteAd ogni motore di ricerca associamo un coefficiente di rilevanza

A partire da un documento strutturato possiamo quindiottenere dei “documenti non strutturati”

Eseguendo il processo di reperimento a partire daqueste query possiamo associare dei documenti

non strutturati ai nostri documenti strutturati.

Page 8: Tesi - Presentazione

Algoritmo generale

Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca

Processo di reperimentoPer ogni query pattern associato alla classe di documento, creo l’istanza della query relativa al singolo documento grazie ai dati contenuti nelle meta informazioniPer ogni motore di ricerca associato al query pattern, eseguo il singolo processo di reperimentoGenero l’elenco dei candidati (unisco tutti gli URL) (con i sistemi di voto tradizionali conosco prima i candidati!)Per ogni lista di risultati, calcolo il punteggio col metodo Borda-CountPer ogni punteggio, applico il calcolo dei coefficienti di rilevanza (query, motori)Sommo tutti i punteggi e restituisco la classifica finale

Page 9: Tesi - Presentazione

Sviluppi

Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca

Configurazioni e test sperimentaliQuery pattern e coefficienti di rilevanzaMotori di ricerca e coefficienti di affidabilitàEsecuzione della proceduraGestione della formattazione delle informazioniControllo di accesso

Sistemi informativi diversiConfigurazione dei query pattern (usabilità)Relevance scoresInterazioni con l’utente / Collaborative filtering

Sviluppi di ricerca

Page 10: Tesi - Presentazione

Conclusioni

Università degli Studi di Bologna – Tesi di Laurea in Informatica di Alessandro BondiSistema configurabile per il collegamento assistito di documento non strutturati a documenti strutturati in un EDMS attraverso l'utilizzo dei motori di ricerca

Non si può mettere la parola fine!

Forte implicazione del lato umanoStruttura flessibile, configurabile, indipendentePeculiarità del contesto di riferimentoDifficoltà nella valutazione formale del sistema