Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema...

20
ESTRAZIONE AUTOMATICA DI INFORMAZIONI ESTRAZIONE AUTOMATICA DI INFORMAZIONI DA DOCUMENTI CARTACEI: PROGETTO E DA DOCUMENTI CARTACEI: PROGETTO E REALIZZAZIONE DI UN SISTEMA DI REALIZZAZIONE DI UN SISTEMA DI SUPERVISIONE SUPERVISIONE Università Degli Studi Di Trieste Facoltà di Ingegneria Corso di Laurea Specialistica in Ingegneria Informatica Laureando: Luca Bressan Relatore: Prof. Alberto Bartoli Correlatori: Prof. Eric Medvet Ing. Giorgio Davanzo

Transcript of Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema...

Page 1: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

ESTRAZIONE AUTOMATICA DI INFORMAZIONI ESTRAZIONE AUTOMATICA DI INFORMAZIONI DA DOCUMENTI CARTACEI: PROGETTO E DA DOCUMENTI CARTACEI: PROGETTO E

REALIZZAZIONE DI UN SISTEMA DI REALIZZAZIONE DI UN SISTEMA DI SUPERVISIONE SUPERVISIONE

Università Degli Studi Di Trieste

Facoltà di Ingegneria

Corso di Laurea Specialistica in Ingegneria Informatica

Laureando:Luca Bressan

Relatore:Prof. Alberto Bartoli

Correlatori:Prof. Eric MedvetIng. Giorgio Davanzo

Page 2: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

ScenarioScenario

La gestione di documenti cartacei è onerosa dal punto di vista del:◦Costo di gestione◦Volume di documenti movimentati

Aumenta l’utilizzo di sistemi di document understanding

Page 3: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Sistemi di document understandingSistemi di document understanding

document understanding: estrazione contenuto informativo tramite tecniche di elaborazione ed analisi immagini

Vantaggi:Gestione del contenuto informativo del

documento, non del documento in séMinor costo di archiviazioneMinor costo di gestione dell’informazione

Page 4: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Il sistema di estrazione automatica di Il sistema di estrazione automatica di informazioni da documenti cartacei (SEAD)informazioni da documenti cartacei (SEAD)

Sistema di document understanding realizzato presso il laboratorio di “Reti di calcolatori” del D.E.E.I.

Implementa algoritmi di estrazione, sottomessi per la pubblicazione internazionale. sviluppati presso il laboratorio di “Reti di calcolatori”

Page 5: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Funzionamento del SEADFunzionamento del SEAD

Ingresso: immagine da elaborare

uscita: documento rappresentatocome:◦Classe◦Campi◦Modello

Page 6: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Classe di un documentoClasse di un documento

Insieme dei documenti che fanno riferimento ad una medesima tipologia.

Esempi di classe :◦ Fatture ◦Bolle◦Scontrini fiscali◦Ecc.

Page 7: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

CampoCampo

Documenti appartenenti alla stessa classe contengono le stesse informazioni.

La singola informazione presente in un documento viene definita campo

Page 8: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

ModelloModello

Insieme di documenti appartenenti alla stessa classe e con stesso layout

Esempio:◦ Fatture emesse dal medesimo software

Page 9: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Obiettivi del SEADObiettivi del SEAD

Fornito in ingresso un documento da elaborare il SEAD cerca in maniera automatica di:

Scegliere la classe corretta

Scegliere il modello corretto

Individuare i campi presenti ed estrarre l'informazione

Page 10: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Workflow del SEADWorkflow del SEAD

Page 11: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Necessità interazione operatore (I)Necessità interazione operatore (I)

Il sistema può non essere in grado di individuare il modello

Esempi:documento potrebbe essere associato a più

modelli molto simili tra loroModello mai incontrato prima

La elaborazione del documento verrà guidata da un operatore

Page 12: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Necessità interazione operatore (II)Necessità interazione operatore (II)

Il sistema ha applicato il modello correttoL’elaborazione ha però portato ad errori

Esempi:Selezione errata del blocco da associare ad un

campoCampo non trovatoValore estratto non corretto (errore dell’OCR)

L’operatore dovrà eseguire delle correzioni

Page 13: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Architettura sistema di supervisioneArchitettura sistema di supervisione

Page 14: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

ClientClient

Web application realizzata utilizzando il Framework GWT

Vantaggi derivanti dall’utilizzo di GWT◦Sviluppo in linguaggio Java

◦Compatibilità con i diversi browser

◦ Librerie base per la realizzazione della GUI fornite con l’SDK

Page 15: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Comunicazione client/serverComunicazione client/server

Utilizzato il meccanismo di RPC fornito fa GWT

Basato su servlet

Permette al client di richiedere i dati da presentare

Permette al client di inviare al sistema le modifiche effettuate

Page 16: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Business e Data tierBusiness e Data tier

Nel Business Tier vengono definiti:◦Entità◦EJB di interfacciamento◦EJB implementativi logica

Persistenza tramite JPA◦Permette la serializzazione/mappatura di oggetti

java su database relazionali

Page 17: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Interfaccia graficaInterfaccia grafica

Progettata cercando di massimizzare:

◦ Intuitività di utilizzo

◦Rapidità di intervento

◦Utilizzo dello spazio a schermo

Fondamentale:garantire elevato grado di automazione ed

efficienza del processo complessivo

Page 18: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Layout interfaccia graficaLayout interfaccia grafica

Page 19: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Interfaccia graficaInterfaccia grafica

Azioni implementate:

Selezione manuale dei campi all’interno del documento

Correzione del valore estratto per il singolo campo

Segnalazione assenza campo

Page 20: Estrazione automatica di informazioni da documenti cartacei: progetto e realizzazione di un sistema di supervisione

Interfaccia graficaInterfaccia grafica

Azioni implementate:

Inserimento valore campo in assenza di blocco adeguato

Annullamento modifiche effettuate

Navigazione su documenti multipagina