UNIVERSITÀ DEGLI STUDI DI PARMA FACOLTÀ DI INGEGNERIA Corso di Diploma in Ingegneria Informatica...

UNIVERSITÀ DEGLI STUDI DI PARMA

FACOLTÀ DI INGEGNERIA

Corso di Diploma in Ingegneria Informatica

Anno accademico 2003 / 2004

L’AUTOMAZIONE DEL CICLO PASSIVO L’AUTOMAZIONE DEL CICLO PASSIVO MEDIANTE IL RICONOSCIMENTO MEDIANTE IL RICONOSCIMENTO

OTTICO DEI DOCUMENTIOTTICO DEI DOCUMENTI

Tesi di Diploma di Domenico Barile

Relatore: Dott. Ing. Monica Mordonini

Correlatore: Gianfranco Rimessi

È il ciclo di gestione delle fatture dei fornitori. Qualunque sia la dimensione dell’azienda esiste la gestione contabile del ciclo passivo.

In aziende di grandi dimensioni vi sono apposite strutture e risorse umane dedicate specificatamente alla gestione del ciclo passivo, nelle aziende più piccole tale fase è presa in carico da chi si occupa della contabilità.

FASE % VALORE AGGIUNTO

apertura della posta, protocollazione, ìnserimento dati prima nota

45 % BASSO

controllo ed autorizzazione 30 % MEDIO

relazioni con i fornitori, controllo di qualità del processo, analisi dei

rischi25 % ALTO

Fonte: “La gestione del ciclo passivo” - The Gartner Group (1994)

IL CICLO PASSIVOIL CICLO PASSIVO

LUCYstarLUCYstardal ricevimento delle fatture dal ricevimento delle fatture

alla transazione contabilealla transazione contabile

OBIETTIVI DELLA TESIOBIETTIVI DELLA TESI

Gli obiettivi per questa tesi erano:

• Creazione di un modulo di riconoscimento ottico basato sul motore FREE FORM

• Creazione di una base di regole utilizzabile per il riconoscimento delle fatture passive

• Consolidamento del motore FREE FORM di riconoscimento ottico dei documenti

• Integrazione del modulo con LUCYstar

RICONOSCIMENTO DEI DATI RICONOSCIMENTO DEI DATI MEDIANTE TEMPLATEMEDIANTE TEMPLATE

VANTAGGI

• schematizza il documento da interpretare

• il riconoscimento avviene solamente per le zone indicate

SVANTAGGI

• debbono essere creati manualmente, uno per uno, per tutti i fornitori

• non sono adatti a documenti con layout dinamico ovvero con il posizionamento dei campi che può cambiare da un’istanza all’altra

FREE FORM DATA CAPTUREFREE FORM DATA CAPTURE

estrazione di dati da documenti strutturati o semistrutturati

In GREENSOFT s.a.s. la tecnologia FREE FORM ha avuto origine nel 1999 ed oggi è una delle più avanzate in questo ambito, forse l’unica dotata di logiche di apprendimento dinamico.

L’obiettivo è definire chi è cosa nel dominio dei documenti da trattare.

Tale dominio è riconducibile ad una o più tipologie, popolate da un sottoinsieme delle informazioni definibili a priori.

L’approccio FREE FORM estende i limiti del tradizionale approccio a TEMPLATE quando i modelli sono numerosi e/o dinamici.

LE REGOLELE REGOLE

Il FREE FORM si basa su un insieme di regole che rappresentano i campi da valorizzare con i dati presenti nei documenti e contengono le procedure per la validazione, normalizzazione ed esportazione.

Le regole prevedono 3 livelli:

• il primo è la parte dichiarativa per i campi da valorizzare

• il secondo comprende tutte le regole che implementano i criteri di validazione dei dati

• il terzo è stato previsto per le eventuali specializzazioni per singolo fornitore o documento per i casi che non si riescono a ricondurre alle regole dei livelli precedenti

MODALITÀ OPERATIVEMODALITÀ OPERATIVE

Il FREE FORM utilizza tecniche euristiche che consentono di determinare i valori dei campi con un livello di confidenza espresso attraverso un punteggio che va da 0 (ipotesi scartata) a 100 (ipotesi con probabilità pressoché certa di validità).

Tali tecniche creano una lista dei possibili valori attribuibili al campo, ordinati secondo il punteggio ottenuto.

La lista garantisce la possibilità di correggere eventuali errori o scambi effettuati dal sistema garantendo una fase di apprendimento.

<DATADOC VALUE="20040406" CHECKED="NO">

<MAPPING BESTMAP="0">

MAP 66 100 96 100 0 100 0 1 17 "06/04/2004" 2 15 "Data" 16 "Documento"

MAP 46 80 96 0 0 100 0 1 117 "06/04/2004" 1 113 "Data“

</MAPPING>

</DATADOC>


Il sistema:

• attribuisce a ciascuna stringa del testo una tipologia di dato

• tenta di assegnare a ciascuno dei campi un valore, realizzando la lista delle possibili ipotesi

• sceglie le ipotesi più probabili globalmente ovvero considerando tutti i campi e massimizzando il punteggio globale tra le ipotesi assegnate ai campi

• esegue gli script delle regole di validazione delle ipotesi e di controllo della quadratura del documento


Il risultato finale è un valore di confidenza globale, a livello di documento, che tiene conto sia delle valorizzazioni dei campi che dell’affidabilità delle attribuzioni fornite dell’OCR.

Si può decidere di sottoporre a validazione manuale anche documenti che “quadrano” per quel che riguardano le regole ma che potrebbero avere degli assegnamenti “sospetti” per la lettura OCR.

I “CARDINI” DEL PROGETTOI “CARDINI” DEL PROGETTO

• a ciascun fornitore può essere attribuita una tipologia che caratterizza il documento che ci fornisce: indica i dati presenti nel documento, il loro tipo, il modo con cui vanno verificati e caricati nei registri contabili

I concetti essenziali che hanno basato la realizzazione del modulo di riconoscimento ottico basato sul FREE FORM sono:

• il riconoscimento del fornitore è fondamentale per ricavare la tipologia a cui appartiene

• la validazione da parte dell’utente è fonte di autoapprendimento per il sistema (retroazione del sistema)

LE FASI DEL RICONOSCIMENTO DEL DOCUMENTOLE FASI DEL RICONOSCIMENTO DEL DOCUMENTO

Le fasi eseguite su ciascun documento sono:

• OCR (Optical Character Recognition)

• caratterizzazione delle stringhe di testo

• mappatura dei campi

• riconoscimento del fornitore

• applicazione delle regole di terzo e secondo livello

• validazione

• esportazione dei risultati

LUCYeuristick & LUCYvalidationLUCYeuristick & LUCYvalidation

La creazione del modulo di riconoscimento ottico mediante il FREE FORM ha dovuto rispettare le modalità operative per non variare il flusso dei documenti: riconoscimento automatico e controllo manuale da parte degli operatori.

L’unico eseguibile opera in maniera automatica e silente durante il riconoscimento dei documenti che compongono le singole sessioni (LUCYeuristick) e fornisce l’interfaccia di validazione agli operatori del controllo di qualità (LUCYvalidation).

LUCYstar: i nuovi moduliLUCYstar: i nuovi moduli

L’EVOLUZIONE DEL SISTEMAL’EVOLUZIONE DEL SISTEMA

• La specifiche di integrazione del motore FREE FORM in un modulo di LUCYstar vennero definite nel Gennaio 2003.

• Il primo passo è stato quello di creare un modulo il più possibile simile a LUCYstar per non disorientare gli utilizzatori.

• Nel Giugno 2003 è stata definita la prima versione dell'interfaccia di validazione manuale.

• All'inizio di Dicembre 2003 siamo giunti alle prime installazioni presso i clienti (BASF e POSTE ITALIANE) seppur su sistemi di test operanti su copia integrale del database di contabilità.

L’EVOLUZIONE DEL SISTEMAL’EVOLUZIONE DEL SISTEMA

• Con l'inizio del 2004 le installazioni sono diventate operative sul sistema di produzione sia per BASF che per POSTE ITALIANE. L’installazione prevede la presenza di entrambi i moduli di riconoscimento (vecchia e nuova versione).

• Nell’estate 2004 è stata completata l’installazione presso ENI.

• La fase di sviluppo dei moduli è progredita parallelamente a quella di creazione e consolidamento delle regole, e di potenziamento del motore FREE FORM.

I RISULTATII RISULTATI

FASEAPPROCCIO A

TEMPLATE

(vecchio modulo)

APPROCCIO

FREE FORM

(nuovo modulo)

Riconoscimento fornitore 80 % più del 95 %

Documenti interpretati correttamente

20 % più del 50 %

In questo momento LUCYstar con il modulo di riconoscimento ottico basato sul motore FREE FORM è operativo presso POSTE ITALIANE, BASF ed ENI ed è in fase di installazione presso AGUSTA.

Le tipologie di documento supportate sono quella Standard, Agente, Libero Professionista e Fornitore estero.

UNIVERSITÀ DEGLI STUDI DI PARMA FACOLTÀ DI INGEGNERIA Corso di Diploma in Ingegneria Informatica...

Documents

Transcript of UNIVERSITÀ DEGLI STUDI DI PARMA FACOLTÀ DI INGEGNERIA Corso di Diploma in Ingegneria Informatica...