UNIVERSITÀ DEGLI STUDI DI PARMA FACOLTÀ DI INGEGNERIA Corso di Diploma in Ingegneria Informatica...
-
Upload
callisto-lai -
Category
Documents
-
view
215 -
download
1
Transcript of UNIVERSITÀ DEGLI STUDI DI PARMA FACOLTÀ DI INGEGNERIA Corso di Diploma in Ingegneria Informatica...
UNIVERSITÀ DEGLI STUDI DI PARMA
FACOLTÀ DI INGEGNERIA
Corso di Diploma in Ingegneria Informatica
Anno accademico 2003 / 2004
L’AUTOMAZIONE DEL CICLO PASSIVO L’AUTOMAZIONE DEL CICLO PASSIVO MEDIANTE IL RICONOSCIMENTO MEDIANTE IL RICONOSCIMENTO
OTTICO DEI DOCUMENTIOTTICO DEI DOCUMENTI
Tesi di Diploma di Domenico Barile
Relatore: Dott. Ing. Monica Mordonini
Correlatore: Gianfranco Rimessi
È il ciclo di gestione delle fatture dei fornitori. Qualunque sia la dimensione dell’azienda esiste la gestione contabile del ciclo passivo.
In aziende di grandi dimensioni vi sono apposite strutture e risorse umane dedicate specificatamente alla gestione del ciclo passivo, nelle aziende più piccole tale fase è presa in carico da chi si occupa della contabilità.
FASE % VALORE AGGIUNTO
apertura della posta, protocollazione, ìnserimento dati prima nota
45 % BASSO
controllo ed autorizzazione 30 % MEDIO
relazioni con i fornitori, controllo di qualità del processo, analisi dei
rischi25 % ALTO
Fonte: “La gestione del ciclo passivo” - The Gartner Group (1994)
IL CICLO PASSIVOIL CICLO PASSIVO
LUCYstarLUCYstardal ricevimento delle fatture dal ricevimento delle fatture
alla transazione contabilealla transazione contabile
OBIETTIVI DELLA TESIOBIETTIVI DELLA TESI
Gli obiettivi per questa tesi erano:
• Creazione di un modulo di riconoscimento ottico basato sul motore FREE FORM
• Creazione di una base di regole utilizzabile per il riconoscimento delle fatture passive
• Consolidamento del motore FREE FORM di riconoscimento ottico dei documenti
• Integrazione del modulo con LUCYstar
RICONOSCIMENTO DEI DATI RICONOSCIMENTO DEI DATI MEDIANTE TEMPLATEMEDIANTE TEMPLATE
VANTAGGI
• schematizza il documento da interpretare
• il riconoscimento avviene solamente per le zone indicate
SVANTAGGI
• debbono essere creati manualmente, uno per uno, per tutti i fornitori
• non sono adatti a documenti con layout dinamico ovvero con il posizionamento dei campi che può cambiare da un’istanza all’altra
FREE FORM DATA CAPTUREFREE FORM DATA CAPTURE
estrazione di dati da documenti strutturati o semistrutturati
In GREENSOFT s.a.s. la tecnologia FREE FORM ha avuto origine nel 1999 ed oggi è una delle più avanzate in questo ambito, forse l’unica dotata di logiche di apprendimento dinamico.
L’obiettivo è definire chi è cosa nel dominio dei documenti da trattare.
Tale dominio è riconducibile ad una o più tipologie, popolate da un sottoinsieme delle informazioni definibili a priori.
L’approccio FREE FORM estende i limiti del tradizionale approccio a TEMPLATE quando i modelli sono numerosi e/o dinamici.
LE REGOLELE REGOLE
Il FREE FORM si basa su un insieme di regole che rappresentano i campi da valorizzare con i dati presenti nei documenti e contengono le procedure per la validazione, normalizzazione ed esportazione.
Le regole prevedono 3 livelli:
• il primo è la parte dichiarativa per i campi da valorizzare
• il secondo comprende tutte le regole che implementano i criteri di validazione dei dati
• il terzo è stato previsto per le eventuali specializzazioni per singolo fornitore o documento per i casi che non si riescono a ricondurre alle regole dei livelli precedenti
MODALITÀ OPERATIVEMODALITÀ OPERATIVE
Il FREE FORM utilizza tecniche euristiche che consentono di determinare i valori dei campi con un livello di confidenza espresso attraverso un punteggio che va da 0 (ipotesi scartata) a 100 (ipotesi con probabilità pressoché certa di validità).
Tali tecniche creano una lista dei possibili valori attribuibili al campo, ordinati secondo il punteggio ottenuto.
La lista garantisce la possibilità di correggere eventuali errori o scambi effettuati dal sistema garantendo una fase di apprendimento.
<DATADOC VALUE="20040406" CHECKED="NO">
<MAPPING BESTMAP="0">
MAP 66 100 96 100 0 100 0 1 17 "06/04/2004" 2 15 "Data" 16 "Documento"
MAP 46 80 96 0 0 100 0 1 117 "06/04/2004" 1 113 "Data“
</MAPPING>
</DATADOC>
MODALITÀ OPERATIVEMODALITÀ OPERATIVE
Il sistema:
• attribuisce a ciascuna stringa del testo una tipologia di dato
• tenta di assegnare a ciascuno dei campi un valore, realizzando la lista delle possibili ipotesi
• sceglie le ipotesi più probabili globalmente ovvero considerando tutti i campi e massimizzando il punteggio globale tra le ipotesi assegnate ai campi
• esegue gli script delle regole di validazione delle ipotesi e di controllo della quadratura del documento
MODALITÀ OPERATIVEMODALITÀ OPERATIVE
Il risultato finale è un valore di confidenza globale, a livello di documento, che tiene conto sia delle valorizzazioni dei campi che dell’affidabilità delle attribuzioni fornite dell’OCR.
Si può decidere di sottoporre a validazione manuale anche documenti che “quadrano” per quel che riguardano le regole ma che potrebbero avere degli assegnamenti “sospetti” per la lettura OCR.
I “CARDINI” DEL PROGETTOI “CARDINI” DEL PROGETTO
• a ciascun fornitore può essere attribuita una tipologia che caratterizza il documento che ci fornisce: indica i dati presenti nel documento, il loro tipo, il modo con cui vanno verificati e caricati nei registri contabili
I concetti essenziali che hanno basato la realizzazione del modulo di riconoscimento ottico basato sul FREE FORM sono:
• il riconoscimento del fornitore è fondamentale per ricavare la tipologia a cui appartiene
• la validazione da parte dell’utente è fonte di autoapprendimento per il sistema (retroazione del sistema)
LE FASI DEL RICONOSCIMENTO DEL DOCUMENTOLE FASI DEL RICONOSCIMENTO DEL DOCUMENTO
Le fasi eseguite su ciascun documento sono:
• OCR (Optical Character Recognition)
• caratterizzazione delle stringhe di testo
• mappatura dei campi
• riconoscimento del fornitore
• applicazione delle regole di terzo e secondo livello
• validazione
• esportazione dei risultati
LUCYeuristick & LUCYvalidationLUCYeuristick & LUCYvalidation
La creazione del modulo di riconoscimento ottico mediante il FREE FORM ha dovuto rispettare le modalità operative per non variare il flusso dei documenti: riconoscimento automatico e controllo manuale da parte degli operatori.
L’unico eseguibile opera in maniera automatica e silente durante il riconoscimento dei documenti che compongono le singole sessioni (LUCYeuristick) e fornisce l’interfaccia di validazione agli operatori del controllo di qualità (LUCYvalidation).
LUCYstar: i nuovi moduliLUCYstar: i nuovi moduli
L’EVOLUZIONE DEL SISTEMAL’EVOLUZIONE DEL SISTEMA
• La specifiche di integrazione del motore FREE FORM in un modulo di LUCYstar vennero definite nel Gennaio 2003.
• Il primo passo è stato quello di creare un modulo il più possibile simile a LUCYstar per non disorientare gli utilizzatori.
• Nel Giugno 2003 è stata definita la prima versione dell'interfaccia di validazione manuale.
• All'inizio di Dicembre 2003 siamo giunti alle prime installazioni presso i clienti (BASF e POSTE ITALIANE) seppur su sistemi di test operanti su copia integrale del database di contabilità.
L’EVOLUZIONE DEL SISTEMAL’EVOLUZIONE DEL SISTEMA
• Con l'inizio del 2004 le installazioni sono diventate operative sul sistema di produzione sia per BASF che per POSTE ITALIANE. L’installazione prevede la presenza di entrambi i moduli di riconoscimento (vecchia e nuova versione).
• Nell’estate 2004 è stata completata l’installazione presso ENI.
• La fase di sviluppo dei moduli è progredita parallelamente a quella di creazione e consolidamento delle regole, e di potenziamento del motore FREE FORM.
I RISULTATII RISULTATI
FASEAPPROCCIO A
TEMPLATE
(vecchio modulo)
APPROCCIO
FREE FORM
(nuovo modulo)
Riconoscimento fornitore 80 % più del 95 %
Documenti interpretati correttamente
20 % più del 50 %
In questo momento LUCYstar con il modulo di riconoscimento ottico basato sul motore FREE FORM è operativo presso POSTE ITALIANE, BASF ed ENI ed è in fase di installazione presso AGUSTA.
Le tipologie di documento supportate sono quella Standard, Agente, Libero Professionista e Fornitore estero.