Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e...
Transcript of Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e...
Arricchimento semantico di edizioni digitali in TEI
Riconoscimento e disambiguazione di menzioni di autori in testi di critica letteraria
Francesca Frontini Istituto di Linguistica Computazionale “A. Zampolli”
CNR - Pisa
ILC Spring Seminar - 25 giugno 2015
Soggiorno al LABEX OBVIL
…….
Pubblicazioni
Strumenti
Strumenti per la pubblicazione
Strumenti per la ricerca
I miei progetti:
- analisi stilistica computazionale…. (un’altra volta) - riconoscimento e annotazione entità nominate
Principali requisiti:
• Adattamento al dominio
• saggistica e critica francese del 19° secolo
• testi abbastanza eterogenei
• TEI - compatibile:
• TEI in input e output
• problematico
Cosa e comeCosa sono le entità nominate:
• persone
• luoghi
• titoli
• …
Come si annotano:
• riconoscimento (NER)
• classificazione (NERC)
• disambiguazione / linking (NED/ NEL)
La pipeline di annotazione
TEI NERC
NELTEI-ner
TEI-nelcontrollo manuale
controllomanuale
NERC• UNERD, sistema non supervisionato per il riconoscimento
e la classificazione di entità nominate (Mosallam et al 2014)
• domain adaptation dei dizionari basato sui linked data (BnF)
• confronto UNERD con STANFORD NLP e Apache OPENNLP
• scarsa portabilità dei modelli appresi da un autore all’altro; utilità di strumenti non supervisionati.
• http://obvil-dev.paris-sorbonne.fr/unerd/unerd-tei/
C’est alors que Vigny, bien plus encore que Lamartine, laisse tomber de sa poésie toute cette continuité, ..... Alfred de Vigny mettait son amour-propre de poète à rester à l’avant-garde
NEL
http://live.dbpedia.org/page/Alfred_de_Vigny
Importanza del linking per creare edizioni arricchite
TEI - referenze
TEI document
Header
Body <persName ref= “REF” key=“Vigny, Alfred de (1797-1863)”>
State of the LOD cloud (excerpt, 2014): http://lod-cloud.net/
Prima del NEL.... c'est ainsi que les curieuses expériences de <persName>H. de Vries</persName>, par exemple, en montrant que des variations importantes peuvent se produire brusquement et se transmettre régulièrement ....
... prédire par exemple l'état de la faune de la <placeName>Grande-Bretagne</placeName> en 1868 …
[Bergson - L’evolution créatrice]
Dopo il NEL.... c'est ainsi que les curieuses expériences de <persName ref="http://data.bnf.fr/ark:/12148/cb123248712#foaf:Person http://dbpedia.org/resource/Hugo_de_Vries http://www.idref.fr/035763655">H. de Vries</persName>, par exemple, en montrant que des variations importantes peuvent se produire brusquement et se transmettre régulièrement ....
... prédire par exemple l'état de la faune de la <placeName ref=”http://fr.dbpedia.org/page/Royaume-Uni”>Grande-Bretagne</placeName> en 1868 …
[Bergson - L’evolution créatrice]
“Quant au rythme, si Victor Hugo a dépassé Lamartine, il n’a pas été plus loin que Vigny.”
REDEN: graph-based NEL
Romanticismo
Poeta
Victor Hugo
Alfred de Vigny
Joseph Pierre de Vigny
Alix de Lamartine
Alphonse de Lamartine
Benno Vigny
Persona
REDEN: fasi• costruzione dell’indice da basi di conoscenza
strutturata online (LOD)
• individuazione dei candidati per ogni menzione
• recupero dei dati rilevanti e costruzione del grafo
• calcolo della centralità e scelta dei referenti
REDEN: indice
BnF
sameAs IDREF
DBPEDIA uri1_ref uri2_ref uri3_ref …
uri1_idref uri2_idref uri3_idref …
uri1_dbpedia uri2_dbpedia uri3_dbpedia …
sameAs
French DBPEDIA
sameAs uri1_frdbpedia uri2_frdbpedia uri3_frdbpedia …
forma superficiale, URI: Vigny > {vigny1_dbpedia, vigny1_bnf}, {vigny2_bnf}Alfred de Vigny > {vigny1_dbpedia, vigny1_bnf}
REDEN: candidati e fonti“Quant au rythme, si Victor Hugo a dépassé Lamartine, il n’a pas été plus loin que Vigny.”
Candidates (Victor Hugo) = [victor_hugo_bnf,victor_hugo_dbpedia}
Candidates (Lamartine) = [alix_de_lamartine-bnf, alix_de_lamartine_dbpedia] [alphonse_de_lamartine_bdf, alphonse_de_lamartine_dbpedia],[elise_de_lamartine_bnf] …
Candidates (Vigny) = [joseph_pierre_de_vigny_bnf, joseph_pierre_de_vigny_dbpedia],[benno_bigny_bnf][alfred_de_vigny_bnf,alfred_de_vigny_dbpedia],…
REDEN: grafo• Dato un contesto (es. paragrafo)
• Per ogni candidato
• Accedo a tutti gli URI disponibili e Recupero tutte l’informazione strutturata:
• è un poeta, è influenzato da, è vissuto da .. a ….,
• Costruisco del grafo con le informazioni per tutti i candidati di tutte le menzioni del contesto
• fusione, eliminazione di nodi inutili
REDEN : centralità
Per ogni set di candidati (colore) : • calcolare la centralità rispetto al grafo • scegliere il candidato più centrale
(Degree Centrality, Freeman 1977)
REDEN: valutazioneAnnotazione manuale di menzioni di autori da:
“Réflexions sur la littérature” di Albert Thibaudet, 1936. (Scrittori, poeti,…)
Indice da LOD BnF + French DBpedia
Authors’ mentions Found Correct None Precision Coverage
Thibaudet 1027 1004 878 23 0.87 0.85
REDEN: altri lavori• grafi pesati: scoprire se vi sono relazioni più
importanti (ex: influencedBy)
• è difficile prevedere quali siano le relazioni più importanti (argomento e dominio sono importanti)
• gestione della distanza spaziale e temporale nel grafo
• l’influenza di un autore su un altro si estende spesso a di là dello spazio e del tempo (William vs Nicholas Shakespeare)
REDEN parametri• classe (person, location, …)
• basi di conoscenza (generiche, dominio specifiche)
• contesto di disambiguazione (paragrafo, frase, testo intero)
• pesi per determinate relazioni
• filtri spaziali, temporali
Conclusioni REDEN• REDEN innova rispetto allo stato dell’arte (DBpedia
Spotlight, Daimler et al 2013) :
• supporta TEI
• permette di usare RDF nativamente e online (= sempre aggiornato);
• usa diverse fonti
• usa un algoritmo a grafo (non necessita di informazione testuale)
Bibliografia REDEN• Identificazione del miglior algoritmo di centralità
Frontini, F., Brando, C., Ganascia, J.G.: Semantic web based named entity linking for digital humanities and heritage texts. In: Proceedings of the First International Workshop Semantic Web for Scientific Heritage at the 12th ESWC 2015 Conference. pp. 77–88 (2015), http://ceur-ws.org/Vol-1364/
• Descrizione dell’algoritmo di fusione
Brando, C., Frontini, F., Ganascia, J.G.: Disambiguation of named entities in cultural heritage texts using linked data sets (accepted). In: Proceedings of the First International Workshop on Semantic Web for Cultural Heritage in Conjunction with 19th East-European Conference on Advances in Databases and Information Systems (2015)
• Confronto con DBSL
Frontini, F., Brando, C., Ganascia, J.G.: Domain-adapted named-entity linker using Linked Data. In: Proceedings of the Workshop on NLP Applications: Completing the Puzzle (WNACP 2015), Passau, Germany, June 17-19, 2015
Disponibile: https://github.com/cvbrandoe/REDEN
Piste di collaborazione ILC OBVIL
• Buone pratiche di pubblicazione TEI (TEI book)
• Tecnologie NERC e NEL ibride (unsupervised + supervised)
• Testare su altre lingue (italiano)
• Testare su altri domini (narrativa, ….)
• Altro…. ?
Merci pour votre attention!