La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna...
-
Upload
libriedocumenti -
Category
Documents
-
view
918 -
download
4
description
Transcript of La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna...
1
La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF
Problematiche generali
Anna Lucarelli(Biblioteca Nazionale Centrale Firenze)
3 maggio 2013
Università di Roma La Sapienza
Dip. Scienze Documentarie, Linguistico-Filologiche e Geografiche
(blog.semantic-web.at)
2
Sommario
• Nuovo soggettario :uno strumento di indicizzazione in colloquio con altri strumenti (di ambito bibliotecario e non)
• Dall’interoperabilità semantica a quella tecnica: evoluzione del NS nell'ottica del Web semantico
• L’impiego dello standard SKOS per potenziarne l'interoperabilità– Un work in progress– Le caratteristiche– I punti critici– Le nostre soluzioni attuali
• Dati qualitativi e quantitativi della conversione in SKOS del Thesaurus
3
Uno strumento italiano per l’indicizzazione semantica
Due settori della BNCF al lavoro:1. “Ricerche e strumenti di indicizzazione semantica”
2. “Servizi informatici”
� Il Nuovo soggettario concepito per• l’indicizzazione e la ricerca di risorse eterogenee• l’uso da parte biblioteche generali e specializzate• l’uso in ambito archivistico, museale, ecc.• l’integrazione con gli Opac
� Un apparato di regole semantiche e sintattiche
� Un sistema a più componenti
4
I Prodottidel Nuovo soggettario
Corredo sintattico – applicativo• Note sintattiche• Manuale applicativo
(on-line da febbraio 2010)
OPAC Archivio dei soggettiAggiornamenti semestrali
5
Il primo Thesaurus italiano generale (“universale”)
• disponibile sul Web dal 2007: http://thes.bncf.firenze.sbn.it/ricerca.php
da aprile 2013 con interfaccia anche in inglese
• strumento “in progress”, in continua evoluzione ad oggi oltre 47.800 termini
dati quantitativi disaggregati
• costruito secondo gli standard ISO
• integrato con l’OPAC della BNCF
• interoperabile con altri thesauri, con enciclopedie,ecc.
• prevede accessi multilingue
6
Uno strumento costruito in cooperazioneAccoglie e gestisce terminologia proposta da altre biblioteche, istituzioni, archivi
Biblioteca Naz. CentraleFirenze
PrivatiIDEST (LIBER)
ICCU - Istituto centrale per il catalogounico delle biblioteche italiane e per leInformaz. bibliografiche
Biblioteche generali e special.
UniversitarieMario Rostoni – LIUCUniversità di PisaUniversità degli studi di MilanoUniversità Bocconi
Altre bibliotecheBiblioteca Centrale GiuridicaAccademia della CruscaPolimoda
Reti di bibliotecheBiblioteche ecclesiasticheCOBISSDIAF
CNRIstituto di Teoria e Tecnica della Informazione giuridica (ITTIG)
Ambiti della cooperazione: 1. proposte di terminologia per l’incremento del The saurus2. interoperabilità semantica e tecnica
Istituto EnciclopediaItaliana Treccani
- Sopr. Archivistica Toscana- Cesvot
7
Esempi di termini del Nuovo soggettarioche attivano interoperabilità
STRUTTURA del RECORD
Dati gestionali
Area delle note e altri elementi
Area delle relazioni storiche
Area delle relazioni standard
Area del termine
Web semantico Motori di ricerca Mediatori Badanti
Questi esempi evidenziano collegamenti con altri strumenti come Thesauri, altri sistemi di indicizzazione (es. LCSH), Enciclopedie on-line, ecc.
In particolare:
•Web semantico DDC23 ; Wikipedia; Rameau; LCSH
•Motori di ricerca proposto da Bocconi; relazioni recipr. LIUC /NS; da rdf: Treccani non espone i dati in SKOS
•Mediatori relazioni reciprocheLIUC / NS
•Badanti relazioni reciprocheAcc. Crusca / NS
8
Linee di sviluppo del NS (2010-2013)
1. Interoperabilità– metadati disponibili in:
• Zthes dal 2007• SKOS/RDF dal 2010 http://thes.bncf.firenze.sbn.it/thes-dati.htm
– Implementazione di collegamenti con altri strumenti onlinehttp://digitale.bncf.firenze.sbn.it/NS-SPARQL/ (pag.provvisoria)
– uso del NS in ambiti non bibliotecari (es. opendata del Comune di Firenze; Cesvot)
2. Indicizzazione (semi) automatica
sviluppi in linea con quanto si sta realizzando in altri Paesi nell'ambito dell'indicizzazione
9
SKOS per i Thesauri
• Simple Knowledge Organisation Systemsviluppato dal W3C Semantic Web Deployment Working Group (SWDWG)
• SKOS si autodefinisce come data model– il suo oggetto non sono le cose (entità) ma i concetti e le gerarchie
concettuali presi in considerazione senza un diretto riferimento alle cose (entità)
– I concetti sono considerati indipendentemente dalla loro espressione linguistica/letterale
L’assegnazione di un valore univoco ai concetti fac ilita l’interoperabilitàtra KOS differenti, cioè la possibilità di mappare ent ità semantiche di schemi concettuali diversi
• Utilizza il linguaggio RDF (Resource Description Framework)
• Largamente usato per far migrare Thesauri esistenti (conformi a ISO) nel mondo dei Linked data
10
SKOS, i metadati e la terminologia del Web semantico
Nell'ambito del web semantico non si è ancora raggiunto un
consenso nell'uso della terminologia di settore. La tabella che
segue mostra concordanze e differenze di significati.
Nella colonna di destra possibili usi italiani nella terminologia
relativa ai metadati, secondo una proposta elaborata da Giovanni
Bergamin
11
12
Etichette SKOS
L’assegnazione di un valore univoco ai concetti facilita l’interoperabilità tra KOS differenti, cioè la possibilità di mappareentità semantiche di schemi concettuali diversi.
A tale scopo, lo standard definisce alcune “etichette”Le relazioni thesaurali tra concetti vengono codificate con le seguenti “etichette”:
skos:closeMatch / skos:exactMatch (differenti livelli di equivalenza)
skos:broaderMatchskos:narrowerMatchskos:relatedMatch
13
Il Thesaurus del Nuovo soggettario nel formato SKOS
• Prima mappatura nel 2010
• Il lavoro ha seguito varie fasi ed è in continua evoluzione
La Scomposizione non ha trovato un’adeguata esplicitazione in SKOS
Hanno tutte trovato un’adeguata esplicitazione in SKOS
– Collezioni / etichette di nodo
– Relazione di variante storica(per termini che hanno cambiato forma)
– Relazione di scomposizione
Note
• Definizione• Scope note
• History note
• Fonti• DDC, ecc.
Problemi incontratiNessun problema
14
Etichetta di nodo = skos:Collection
15
Variante storica
• raffinamento di skos:altLabel
nsogi:obsoleteTerm
16
Composizione / Scomposizione
• In SKOS non è prevista la relazione tra concetti (Concept) e termini (Label)
• Estensione SKOSXL ? Non abbiamo trovato applicazioni. Proposta una soluzione nell’ambito del Thesaurus Eurovoc.
17
Implementazione dei linked data
Come abbiamo potuto vedere dagli esempi mostrati, nel NS le corrispondenze possono essere attivate mediante:
• “Citazione” nel campo “Fonte” dello strumento che si desidera collegare (es. Agrovoc, Treccani ecc).Se il “citato” è disponibile in SKOS/RDF, NS si arricchisce della relazione skos:closeMatch
• Indicazione esplicita di equivalenza nel campo apposito Equiv. LCSH(corrispettivi previsti da Library of Congress Subject Headings)Viene utilizzata la relazione closeMatch, concettualmente più ampia di exactMatch inizialmente impiegata
• Viene creato sempre un deep link allo strumento “citato”
• Le diverse scelte e “politiche” di LoC; BNF; DNB: es. Basque language
18
Equivalenze del Thesaurus attive (marzo 2013)
Link tramite il campo Fonte (in odine decrescente)
19
Equivalenze del Thesaurus attive (marzo 2013)skos:closeMatch
20
Incremento delle equivalenze negli ultimi 6 mesi (ottobre 2012- marzo 2013)
21
Pubblicazione dei dati e trasparenza informativa
• Dati pubblicati open source: http://thes.bncf.firenze.sbn.it/thes-dati.htm
• Licenza Creative Commons(dati usabili liberamente purché ne venga citata la paternità BNCF) http://creativecommons.org/licenses/by/2.5/it/deed.it
• Non imponiamo la registrazione a chi scarica il nostro SKOS (Agrovoc invece chiede di registrarsi prima di scaricare i dati)
Il nostro interesse è che il Nuovo soggettario venga utilizzato:non vogliamo blindare lo strumento!!
• Al momento possiamo: – Avere statistiche sugli accessi al server – Vedere quali e quanti utenti lo scaricano, anche mese per mese, anno per anno
Anche nel mondo del Web semantico è importante lavor are sul piano delle politiche oltre che delle tecnologie !! …..