Arricchimento semantico di edizioni digitali in TEI
Riconoscimento e disambiguazione di menzioni di autori in testi di critica letteraria
Francesca Frontini Istituto di Linguistica Computazionale “A. Zampolli”
CNR - Pisa
ILC Spring Seminar - 25 giugno 2015
Soggiorno al LABEX OBVIL
…….
Pubblicazioni
Strumenti
Strumenti per la pubblicazione
Strumenti per la ricerca
I miei progetti:
- analisi stilistica computazionale…. (un’altra volta) - riconoscimento e annotazione entità nominate
Principali requisiti:
• Adattamento al dominio
• saggistica e critica francese del 19° secolo
• testi abbastanza eterogenei
• TEI - compatibile:
• TEI in input e output
• problematico
Cosa e comeCosa sono le entità nominate:
• persone
• luoghi
• titoli
• …
Come si annotano:
• riconoscimento (NER)
• classificazione (NERC)
• disambiguazione / linking (NED/ NEL)
La pipeline di annotazione
TEI NERC
NELTEI-ner
TEI-nelcontrollo manuale
controllomanuale
NERC• UNERD, sistema non supervisionato per il riconoscimento
e la classificazione di entità nominate (Mosallam et al 2014)
• domain adaptation dei dizionari basato sui linked data (BnF)
• confronto UNERD con STANFORD NLP e Apache OPENNLP
• scarsa portabilità dei modelli appresi da un autore all’altro; utilità di strumenti non supervisionati.
• http://obvil-dev.paris-sorbonne.fr/unerd/unerd-tei/
C’est alors que Vigny, bien plus encore que Lamartine, laisse tomber de sa poésie toute cette continuité, ..... Alfred de Vigny mettait son amour-propre de poète à rester à l’avant-garde
NEL
http://live.dbpedia.org/page/Alfred_de_Vigny
Importanza del linking per creare edizioni arricchite
TEI - referenze
TEI document
Header
Body <persName ref= “REF” key=“Vigny, Alfred de (1797-1863)”>
State of the LOD cloud (excerpt, 2014): http://lod-cloud.net/
Prima del NEL.... c'est ainsi que les curieuses expériences de <persName>H. de Vries</persName>, par exemple, en montrant que des variations importantes peuvent se produire brusquement et se transmettre régulièrement ....
... prédire par exemple l'état de la faune de la <placeName>Grande-Bretagne</placeName> en 1868 …
[Bergson - L’evolution créatrice]
Dopo il NEL.... c'est ainsi que les curieuses expériences de <persName ref="http://data.bnf.fr/ark:/12148/cb123248712#foaf:Person http://dbpedia.org/resource/Hugo_de_Vries http://www.idref.fr/035763655">H. de Vries</persName>, par exemple, en montrant que des variations importantes peuvent se produire brusquement et se transmettre régulièrement ....
... prédire par exemple l'état de la faune de la <placeName ref=”http://fr.dbpedia.org/page/Royaume-Uni”>Grande-Bretagne</placeName> en 1868 …
[Bergson - L’evolution créatrice]
“Quant au rythme, si Victor Hugo a dépassé Lamartine, il n’a pas été plus loin que Vigny.”
REDEN: graph-based NEL
Romanticismo
Poeta
Victor Hugo
Alfred de Vigny
Joseph Pierre de Vigny
Alix de Lamartine
Alphonse de Lamartine
Benno Vigny
Persona
REDEN: fasi• costruzione dell’indice da basi di conoscenza
strutturata online (LOD)
• individuazione dei candidati per ogni menzione
• recupero dei dati rilevanti e costruzione del grafo
• calcolo della centralità e scelta dei referenti
REDEN: indice
BnF
sameAs IDREF
DBPEDIA uri1_ref uri2_ref uri3_ref …
uri1_idref uri2_idref uri3_idref …
uri1_dbpedia uri2_dbpedia uri3_dbpedia …
sameAs
French DBPEDIA
sameAs uri1_frdbpedia uri2_frdbpedia uri3_frdbpedia …
forma superficiale, URI: Vigny > {vigny1_dbpedia, vigny1_bnf}, {vigny2_bnf}Alfred de Vigny > {vigny1_dbpedia, vigny1_bnf}
REDEN: candidati e fonti“Quant au rythme, si Victor Hugo a dépassé Lamartine, il n’a pas été plus loin que Vigny.”
Candidates (Victor Hugo) = [victor_hugo_bnf,victor_hugo_dbpedia}
Candidates (Lamartine) = [alix_de_lamartine-bnf, alix_de_lamartine_dbpedia] [alphonse_de_lamartine_bdf, alphonse_de_lamartine_dbpedia],[elise_de_lamartine_bnf] …
Candidates (Vigny) = [joseph_pierre_de_vigny_bnf, joseph_pierre_de_vigny_dbpedia],[benno_bigny_bnf][alfred_de_vigny_bnf,alfred_de_vigny_dbpedia],…
REDEN: grafo• Dato un contesto (es. paragrafo)
• Per ogni candidato
• Accedo a tutti gli URI disponibili e Recupero tutte l’informazione strutturata:
• è un poeta, è influenzato da, è vissuto da .. a ….,
• Costruisco del grafo con le informazioni per tutti i candidati di tutte le menzioni del contesto
• fusione, eliminazione di nodi inutili
REDEN : centralità
Per ogni set di candidati (colore) : • calcolare la centralità rispetto al grafo • scegliere il candidato più centrale
(Degree Centrality, Freeman 1977)
REDEN: valutazioneAnnotazione manuale di menzioni di autori da:
“Réflexions sur la littérature” di Albert Thibaudet, 1936. (Scrittori, poeti,…)
Indice da LOD BnF + French DBpedia
Authors’ mentions Found Correct None Precision Coverage
Thibaudet 1027 1004 878 23 0.87 0.85
REDEN: altri lavori• grafi pesati: scoprire se vi sono relazioni più
importanti (ex: influencedBy)
• è difficile prevedere quali siano le relazioni più importanti (argomento e dominio sono importanti)
• gestione della distanza spaziale e temporale nel grafo
• l’influenza di un autore su un altro si estende spesso a di là dello spazio e del tempo (William vs Nicholas Shakespeare)
REDEN parametri• classe (person, location, …)
• basi di conoscenza (generiche, dominio specifiche)
• contesto di disambiguazione (paragrafo, frase, testo intero)
• pesi per determinate relazioni
• filtri spaziali, temporali
Conclusioni REDEN• REDEN innova rispetto allo stato dell’arte (DBpedia
Spotlight, Daimler et al 2013) :
• supporta TEI
• permette di usare RDF nativamente e online (= sempre aggiornato);
• usa diverse fonti
• usa un algoritmo a grafo (non necessita di informazione testuale)
Bibliografia REDEN• Identificazione del miglior algoritmo di centralità
Frontini, F., Brando, C., Ganascia, J.G.: Semantic web based named entity linking for digital humanities and heritage texts. In: Proceedings of the First International Workshop Semantic Web for Scientific Heritage at the 12th ESWC 2015 Conference. pp. 77–88 (2015), http://ceur-ws.org/Vol-1364/
• Descrizione dell’algoritmo di fusione
Brando, C., Frontini, F., Ganascia, J.G.: Disambiguation of named entities in cultural heritage texts using linked data sets (accepted). In: Proceedings of the First International Workshop on Semantic Web for Cultural Heritage in Conjunction with 19th East-European Conference on Advances in Databases and Information Systems (2015)
• Confronto con DBSL
Frontini, F., Brando, C., Ganascia, J.G.: Domain-adapted named-entity linker using Linked Data. In: Proceedings of the Workshop on NLP Applications: Completing the Puzzle (WNACP 2015), Passau, Germany, June 17-19, 2015
Disponibile: https://github.com/cvbrandoe/REDEN
Piste di collaborazione ILC OBVIL
• Buone pratiche di pubblicazione TEI (TEI book)
• Tecnologie NERC e NEL ibride (unsupervised + supervised)
• Testare su altre lingue (italiano)
• Testare su altri domini (narrativa, ….)
• Altro…. ?
Merci pour votre attention!
Top Related