La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna...

22
1 La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF Problematiche generali Anna Lucarelli (Biblioteca Nazionale Centrale Firenze) 3 maggio 2013 Università di Roma La Sapienza Dip. Scienze Documentarie, Linguistico- Filologiche e Geografiche (blog.semantic-web.at)

description

Conferenza tenuta presso la ex SSAB da Anna Lucarelli il 3-05-2013 nell'ambito del 7. ciclo "Biblioteche libri documenti: dall'informazione alla conoscenza", a.a. 2012-2013, Prof.ssa M.T. Biagetti

Transcript of La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna...

Page 1: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

1

La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF

Problematiche generali

Anna Lucarelli(Biblioteca Nazionale Centrale Firenze)

3 maggio 2013

Università di Roma La Sapienza

Dip. Scienze Documentarie, Linguistico-Filologiche e Geografiche

(blog.semantic-web.at)

Page 2: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

2

Sommario

• Nuovo soggettario :uno strumento di indicizzazione in colloquio con altri strumenti (di ambito bibliotecario e non)

• Dall’interoperabilità semantica a quella tecnica: evoluzione del NS nell'ottica del Web semantico

• L’impiego dello standard SKOS per potenziarne l'interoperabilità– Un work in progress– Le caratteristiche– I punti critici– Le nostre soluzioni attuali

• Dati qualitativi e quantitativi della conversione in SKOS del Thesaurus

Page 3: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

3

Uno strumento italiano per l’indicizzazione semantica

Due settori della BNCF al lavoro:1. “Ricerche e strumenti di indicizzazione semantica”

2. “Servizi informatici”

� Il Nuovo soggettario concepito per• l’indicizzazione e la ricerca di risorse eterogenee• l’uso da parte biblioteche generali e specializzate• l’uso in ambito archivistico, museale, ecc.• l’integrazione con gli Opac

� Un apparato di regole semantiche e sintattiche

� Un sistema a più componenti

Page 4: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

4

I Prodottidel Nuovo soggettario

Corredo sintattico – applicativo• Note sintattiche• Manuale applicativo

(on-line da febbraio 2010)

OPAC Archivio dei soggettiAggiornamenti semestrali

Page 5: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

5

Il primo Thesaurus italiano generale (“universale”)

• disponibile sul Web dal 2007: http://thes.bncf.firenze.sbn.it/ricerca.php

da aprile 2013 con interfaccia anche in inglese

• strumento “in progress”, in continua evoluzione ad oggi oltre 47.800 termini

dati quantitativi disaggregati

• costruito secondo gli standard ISO

• integrato con l’OPAC della BNCF

• interoperabile con altri thesauri, con enciclopedie,ecc.

• prevede accessi multilingue

Page 6: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

6

Uno strumento costruito in cooperazioneAccoglie e gestisce terminologia proposta da altre biblioteche, istituzioni, archivi

Biblioteca Naz. CentraleFirenze

PrivatiIDEST (LIBER)

ICCU - Istituto centrale per il catalogounico delle biblioteche italiane e per leInformaz. bibliografiche

Biblioteche generali e special.

UniversitarieMario Rostoni – LIUCUniversità di PisaUniversità degli studi di MilanoUniversità Bocconi

Altre bibliotecheBiblioteca Centrale GiuridicaAccademia della CruscaPolimoda

Reti di bibliotecheBiblioteche ecclesiasticheCOBISSDIAF

CNRIstituto di Teoria e Tecnica della Informazione giuridica (ITTIG)

Ambiti della cooperazione: 1. proposte di terminologia per l’incremento del The saurus2. interoperabilità semantica e tecnica

Istituto EnciclopediaItaliana Treccani

- Sopr. Archivistica Toscana- Cesvot

Page 7: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

7

Esempi di termini del Nuovo soggettarioche attivano interoperabilità

STRUTTURA del RECORD

Dati gestionali

Area delle note e altri elementi

Area delle relazioni storiche

Area delle relazioni standard

Area del termine

Web semantico Motori di ricerca Mediatori Badanti

Questi esempi evidenziano collegamenti con altri strumenti come Thesauri, altri sistemi di indicizzazione (es. LCSH), Enciclopedie on-line, ecc.

In particolare:

•Web semantico DDC23 ; Wikipedia; Rameau; LCSH

•Motori di ricerca proposto da Bocconi; relazioni recipr. LIUC /NS; da rdf: Treccani non espone i dati in SKOS

•Mediatori relazioni reciprocheLIUC / NS

•Badanti relazioni reciprocheAcc. Crusca / NS

Page 8: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

8

Linee di sviluppo del NS (2010-2013)

1. Interoperabilità– metadati disponibili in:

• Zthes dal 2007• SKOS/RDF dal 2010 http://thes.bncf.firenze.sbn.it/thes-dati.htm

– Implementazione di collegamenti con altri strumenti onlinehttp://digitale.bncf.firenze.sbn.it/NS-SPARQL/ (pag.provvisoria)

– uso del NS in ambiti non bibliotecari (es. opendata del Comune di Firenze; Cesvot)

2. Indicizzazione (semi) automatica

sviluppi in linea con quanto si sta realizzando in altri Paesi nell'ambito dell'indicizzazione

Page 9: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

9

SKOS per i Thesauri

• Simple Knowledge Organisation Systemsviluppato dal W3C Semantic Web Deployment Working Group (SWDWG)

• SKOS si autodefinisce come data model– il suo oggetto non sono le cose (entità) ma i concetti e le gerarchie

concettuali presi in considerazione senza un diretto riferimento alle cose (entità)

– I concetti sono considerati indipendentemente dalla loro espressione linguistica/letterale

L’assegnazione di un valore univoco ai concetti fac ilita l’interoperabilitàtra KOS differenti, cioè la possibilità di mappare ent ità semantiche di schemi concettuali diversi

• Utilizza il linguaggio RDF (Resource Description Framework)

• Largamente usato per far migrare Thesauri esistenti (conformi a ISO) nel mondo dei Linked data

Page 10: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

10

SKOS, i metadati e la terminologia del Web semantico

Nell'ambito del web semantico non si è ancora raggiunto un

consenso nell'uso della terminologia di settore. La tabella che

segue mostra concordanze e differenze di significati.

Nella colonna di destra possibili usi italiani nella terminologia

relativa ai metadati, secondo una proposta elaborata da Giovanni

Bergamin

Page 11: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

11

Page 12: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

12

Etichette SKOS

L’assegnazione di un valore univoco ai concetti facilita l’interoperabilità tra KOS differenti, cioè la possibilità di mappareentità semantiche di schemi concettuali diversi.

A tale scopo, lo standard definisce alcune “etichette”Le relazioni thesaurali tra concetti vengono codificate con le seguenti “etichette”:

skos:closeMatch / skos:exactMatch (differenti livelli di equivalenza)

skos:broaderMatchskos:narrowerMatchskos:relatedMatch

Page 13: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

13

Il Thesaurus del Nuovo soggettario nel formato SKOS

• Prima mappatura nel 2010

• Il lavoro ha seguito varie fasi ed è in continua evoluzione

La Scomposizione non ha trovato un’adeguata esplicitazione in SKOS

Hanno tutte trovato un’adeguata esplicitazione in SKOS

– Collezioni / etichette di nodo

– Relazione di variante storica(per termini che hanno cambiato forma)

– Relazione di scomposizione

Note

• Definizione• Scope note

• History note

• Fonti• DDC, ecc.

Problemi incontratiNessun problema

Page 14: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

14

Etichetta di nodo = skos:Collection

Page 15: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

15

Variante storica

• raffinamento di skos:altLabel

nsogi:obsoleteTerm

Page 16: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

16

Composizione / Scomposizione

• In SKOS non è prevista la relazione tra concetti (Concept) e termini (Label)

• Estensione SKOSXL ? Non abbiamo trovato applicazioni. Proposta una soluzione nell’ambito del Thesaurus Eurovoc.

Page 17: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

17

Implementazione dei linked data

Come abbiamo potuto vedere dagli esempi mostrati, nel NS le corrispondenze possono essere attivate mediante:

• “Citazione” nel campo “Fonte” dello strumento che si desidera collegare (es. Agrovoc, Treccani ecc).Se il “citato” è disponibile in SKOS/RDF, NS si arricchisce della relazione skos:closeMatch

• Indicazione esplicita di equivalenza nel campo apposito Equiv. LCSH(corrispettivi previsti da Library of Congress Subject Headings)Viene utilizzata la relazione closeMatch, concettualmente più ampia di exactMatch inizialmente impiegata

• Viene creato sempre un deep link allo strumento “citato”

• Le diverse scelte e “politiche” di LoC; BNF; DNB: es. Basque language

Page 18: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

18

Equivalenze del Thesaurus attive (marzo 2013)

Link tramite il campo Fonte (in odine decrescente)

Page 19: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

19

Equivalenze del Thesaurus attive (marzo 2013)skos:closeMatch

Page 20: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

20

Incremento delle equivalenze negli ultimi 6 mesi (ottobre 2012- marzo 2013)

Page 21: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

21

Pubblicazione dei dati e trasparenza informativa

• Dati pubblicati open source: http://thes.bncf.firenze.sbn.it/thes-dati.htm

• Licenza Creative Commons(dati usabili liberamente purché ne venga citata la paternità BNCF) http://creativecommons.org/licenses/by/2.5/it/deed.it

• Non imponiamo la registrazione a chi scarica il nostro SKOS (Agrovoc invece chiede di registrarsi prima di scaricare i dati)

Il nostro interesse è che il Nuovo soggettario venga utilizzato:non vogliamo blindare lo strumento!!

• Al momento possiamo: – Avere statistiche sugli accessi al server – Vedere quali e quanti utenti lo scaricano, anche mese per mese, anno per anno

Anche nel mondo del Web semantico è importante lavor are sul piano delle politiche oltre che delle tecnologie !! …..

Page 22: La conversione dei metadati del Thesaurus del Nuovo soggettario nel formato SKOS/RDF / Anna Lucarelli

22

Grazie per l’attenzione

Anna Lucarelli(Biblioteca Nazionale Centrale Firenze)

[email protected]