In Codice Ratio: analisi data driven di fonti storiche - P. Merialdo & A. Rossi

29
In Codice Ratio automatic transcription of medieval manuscripts Andrea Rossi Paolo Merialdo

Transcript of In Codice Ratio: analisi data driven di fonti storiche - P. Merialdo & A. Rossi

Seminario 1

In Codice Ratio

automatic transcription of medieval manuscriptsAndrea RossiPaolo Merialdo

Salve a tutti, sono Andrea Rossi e presenter In Codice Ratio, un sistema per la trascrizione di manoscritti medievali.1

who is the director of Apocalipse Now?

who is the wife of the director of Apocalipse Now?

US president when the director of Apocalipse Now borned?

what is the birthplace of the daughter of the director of Apocalipse Now?

The Vatican Secret Archivesthe largest historical archive in the world86 Km of shelving

Motivations and Goals

Archives perform digitizationof their documents

Il contesto in cui ci muoviamo quello in cui sempre pi spesso musei e archivi storici effettuano digitalizzazione dei propri documenti per ottenerne copie digitali sotto forma di immagini elettroniche. Da unimmagine elettronica per non possibile accedere digitalmente al testo del documento, che il suo reale contenuto.12

Automatic Transcription

PaterNosterqui es inCoelissanctifi-cetur no-men tuumadve-niat re-gnum tuum fiat voluntas tua sicut incoelo et in terra. Panem nostrum quo-tidianum da nobis hodie et dimitte no-bis debita nostra sicut et nos dimittimusDebitoribus nostris et ne nos inducas intentationem sed libera nos a maloAmen

Di conseguenza un campo di ricerca sempre pi importante sta diventanto lautomatic transcription, che punta con tecniche di ML a estrarre il testo contenuto in immagini elettroniche di documenti.13

Automatic Transcription: issues4

Handwriting

Ancientness

Abbreviations

LAutomatic Transcription solleva una serie di problematiche decisamente complesse da affrontare.Innanzitutto i documenti cui ci riferiamo sono scritti a mano, quindi variet di stili calligraficiI manoscritti sono antichi e quindi magari rovinati eccInoltre14

In Codice Ratio: Related WorksWorking directly on medieval manuscripts:Swiss National Science Foundation: HisDoc projectBerkeley University: Doctorate ProjectUniversitat Politcnica de Valncia: TranScriptorium Project

General online handwriting recognition:Google Perception

Nello sviluppo di In Codice Ratio ci siamo rapportati a diversi progetti che affrontano problematiche simili, dagli stessi o da altri punti di vista.Tra queste in particolare

Inoltre15

re tine re retinere

In Codice Ratio Pipeline:

Image Preprocessing

Symbol Segmentation

Symbol Recognition

Transcription Generation

In Codice Ratio: pipeline

Lista non puntata ma con i numeri16

Image PreprocessingText block crop

Binarization

Skew Correction

Line Segmentation

Word Segmentation

17

Symbol Segmentation

5:0018

Symbol Segmentation: Sliding WindowSliding Window Approach:

5:2019

Symbol Segmentation: Sliding Window

Sliding Window Approach:

window dimensioning

window positioning

Ha senso sugli alfabeti latini20

Symbol RecognitionRecognition as classification:

Deep Learning

Neural Networks

TensorFlow

Fai capire che intelligenza artificiale con unimmagine appostaNon va bene immagine reti neurali e non va bene imm di TF

6:3021

Symbol Recognition: Training and PredictionPredictions

e

Samples to predictWhich symbol is this?

Training Samples

This is an e

Training Phase

Prediction Phase

7:0022

Symbol Recognition: CrowdsourcingCrowdsourcing:

Labelling web application

High School Students

23

Symbol Recognition: Crowdsourcing ResultsStudents involved: 120Symbols labelled: 25

Labelled Images: 263.029Redundancy: 4

Annotations: 1.082.694

Positively labelled images: 13.008

8:2024

Transcription Generation: Word Graphs

925

Transcription Generation: Language Modelcuiuf

2Order HMM

cuius

P = 0.5948Trigram-based Language Model

EmissionProbabliltiesViterbi Algorithm

Algoritmo di decoding di Viterbi

Gears image created by gregor cresnar from Noun Project

10:0026

Experimental Results: Symbol Segmentation

Recall avg values27

Experimental Results: Symbol Recognition

4-fold-validationAbbiamo verificato il comportamento al variare del rapporto tra samples negativi e positivi; questi risultati sono stati ottenuti con ratio = 128

TeamDonatella Firmani (Uniroma3 post doc Computer Eng)Serena Ammirati (Uniroma3 paleographer)Marco Maiorino (ASV paleographer)Elena Nieddu (Uniroma3 master student Computer Eng)

Matteo Mariani (Uniroma3 undergrad student Computer Eng)Gianlorenzo Didonato (Uniroma3 undergrad student Computer Eng)

Gaetano Bonofiglio (Uniroma3 master student Computer Eng)Veronica Iovinella (Uniroma3 master student Computer Eng)Gianlorenzo Didonato (Uniroma3 master student Computer Eng)Andrea Salvoni (Uniroma3 master student Computer Eng)

120 students from Liceo Scientifico Keplero and Liceo Classico Montale

29