In Codice Ratio: analisi data driven di fonti storiche - P. Merialdo & A. Rossi
-
Upload
data-driven-innovation -
Category
Data & Analytics
-
view
51 -
download
2
Transcript of In Codice Ratio: analisi data driven di fonti storiche - P. Merialdo & A. Rossi
Seminario 1
In Codice Ratio
automatic transcription of medieval manuscriptsAndrea RossiPaolo Merialdo
Salve a tutti, sono Andrea Rossi e presenter In Codice Ratio, un sistema per la trascrizione di manoscritti medievali.1
who is the director of Apocalipse Now?
who is the wife of the director of Apocalipse Now?
US president when the director of Apocalipse Now borned?
what is the birthplace of the daughter of the director of Apocalipse Now?
The Vatican Secret Archivesthe largest historical archive in the world86 Km of shelving
Motivations and Goals
Archives perform digitizationof their documents
Il contesto in cui ci muoviamo quello in cui sempre pi spesso musei e archivi storici effettuano digitalizzazione dei propri documenti per ottenerne copie digitali sotto forma di immagini elettroniche. Da unimmagine elettronica per non possibile accedere digitalmente al testo del documento, che il suo reale contenuto.12
Automatic Transcription
PaterNosterqui es inCoelissanctifi-cetur no-men tuumadve-niat re-gnum tuum fiat voluntas tua sicut incoelo et in terra. Panem nostrum quo-tidianum da nobis hodie et dimitte no-bis debita nostra sicut et nos dimittimusDebitoribus nostris et ne nos inducas intentationem sed libera nos a maloAmen
Di conseguenza un campo di ricerca sempre pi importante sta diventanto lautomatic transcription, che punta con tecniche di ML a estrarre il testo contenuto in immagini elettroniche di documenti.13
Automatic Transcription: issues4
Handwriting
Ancientness
Abbreviations
LAutomatic Transcription solleva una serie di problematiche decisamente complesse da affrontare.Innanzitutto i documenti cui ci riferiamo sono scritti a mano, quindi variet di stili calligraficiI manoscritti sono antichi e quindi magari rovinati eccInoltre14
In Codice Ratio: Related WorksWorking directly on medieval manuscripts:Swiss National Science Foundation: HisDoc projectBerkeley University: Doctorate ProjectUniversitat Politcnica de Valncia: TranScriptorium Project
General online handwriting recognition:Google Perception
Nello sviluppo di In Codice Ratio ci siamo rapportati a diversi progetti che affrontano problematiche simili, dagli stessi o da altri punti di vista.Tra queste in particolare
Inoltre15
re tine re retinere
In Codice Ratio Pipeline:
Image Preprocessing
Symbol Segmentation
Symbol Recognition
Transcription Generation
In Codice Ratio: pipeline
Lista non puntata ma con i numeri16
Image PreprocessingText block crop
Binarization
Skew Correction
Line Segmentation
Word Segmentation
17
Symbol Segmentation
5:0018
Symbol Segmentation: Sliding WindowSliding Window Approach:
5:2019
Symbol Segmentation: Sliding Window
Sliding Window Approach:
window dimensioning
window positioning
Ha senso sugli alfabeti latini20
Symbol RecognitionRecognition as classification:
Deep Learning
Neural Networks
TensorFlow
Fai capire che intelligenza artificiale con unimmagine appostaNon va bene immagine reti neurali e non va bene imm di TF
6:3021
Symbol Recognition: Training and PredictionPredictions
e
Samples to predictWhich symbol is this?
Training Samples
This is an e
Training Phase
Prediction Phase
7:0022
Symbol Recognition: CrowdsourcingCrowdsourcing:
Labelling web application
High School Students
23
Symbol Recognition: Crowdsourcing ResultsStudents involved: 120Symbols labelled: 25
Labelled Images: 263.029Redundancy: 4
Annotations: 1.082.694
Positively labelled images: 13.008
8:2024
Transcription Generation: Word Graphs
925
Transcription Generation: Language Modelcuiuf
2Order HMM
cuius
P = 0.5948Trigram-based Language Model
EmissionProbabliltiesViterbi Algorithm
Algoritmo di decoding di Viterbi
Gears image created by gregor cresnar from Noun Project
10:0026
Experimental Results: Symbol Segmentation
Recall avg values27
Experimental Results: Symbol Recognition
4-fold-validationAbbiamo verificato il comportamento al variare del rapporto tra samples negativi e positivi; questi risultati sono stati ottenuti con ratio = 128
TeamDonatella Firmani (Uniroma3 post doc Computer Eng)Serena Ammirati (Uniroma3 paleographer)Marco Maiorino (ASV paleographer)Elena Nieddu (Uniroma3 master student Computer Eng)
Matteo Mariani (Uniroma3 undergrad student Computer Eng)Gianlorenzo Didonato (Uniroma3 undergrad student Computer Eng)
Gaetano Bonofiglio (Uniroma3 master student Computer Eng)Veronica Iovinella (Uniroma3 master student Computer Eng)Gianlorenzo Didonato (Uniroma3 master student Computer Eng)Andrea Salvoni (Uniroma3 master student Computer Eng)
120 students from Liceo Scientifico Keplero and Liceo Classico Montale
29