Riproduzione digitale di fonti manoscritte (metadati descrittivi e reperimento delle risorse...

Post on 02-May-2015

214 views 0 download

Transcript of Riproduzione digitale di fonti manoscritte (metadati descrittivi e reperimento delle risorse...

Riproduzione digitaledi fonti manoscritte

(metadati descrittivi e reperimento delle risorse elettroniche)

CORSO DI PERFEZIONAMENTO SAPERI STORICI E NUOVE TECNOLOGIE

(Napoli, 6 giugno 2006) --------

Paul Gabriele Westonpaul.weston@unipv.it

Argomenti

Breve introduzione ai metadati Standard per la codifica Interoperabilità Funzioni dei service provider Conclusioni

Cosa sono i metadati?

Informazione strutturata sulle risorse termine di nuovo conio utilizzato per indicare informazioni di

tipo referenziale applicate a risorse elettroniche, simili per funzione alle notizie create nel tempo per rappresentare risorse tradizionali schede di catalogo, citazioni bibliografiche, registri

inventariali, ecc.

Descrivono specifici file, singoli oggetti o collezioni complesse

Archiviati a parte o facenti parte integrante della risorsa alla quale si riferiscono

In particolare, i metadati sono …

informazioni elettroniche

utilizzabili direttamente dal computer

dotate di una struttura e di una semantica definite

che descrivono una risorsa

I metadati agevolano … l’identificazione delle risorse elettroniche la loro autenticazione la conservazione del contesto di origine

la ricerca delle risorse l’accesso alle risorse raggiungibili via web la raccolta delle informazioni (metadata harvesting)

utili all’allestimento di dispositivi di mediazione e di conservazione

I metadati costituiscono il valore aggiunto della risorsa elettronica

Metadati nativi e aggiuntivi

I metadati nativi si trovano in un documento fin dal momento della sua creazione, in quanto vengono creati dall’autore del documento o dal software in modo automatico supportano il reperimento della risorsa comprendono il nome del creatore del documento, il titolo, la

data

I metadati aggiuntivi vengono creati da soggetti terzi per incrementare il valore della risorsa supportano la selezione della risorsa comprendono termini di vocabolario controllato, la

descrizione, informazioni sui diritti

Metadati differenti per funzioni diverse

descrittivi descrizione della risorsa – autore, titolo, soggetto

amministrativi gestione e amministrazione della risorsa – versione, fonti degli originali,

date di creazione, modifica, ecc. strutturali

organizzazione interna della risorsa – identificativi univoci, numeri di pagina, caratteristiche peculiari (indice dei contenuti, indici, ecc.)

tecnici conservazione della risorsa nel medio e nel lungo periodo – formati dei

file, apparecchiature per il trattamento digitale, formato di compressione, componenti hardware e software

relativi ai diritti (rights management) fruizione e controllo della risorsa e dei suoi contenuti – proprietà

intellettuale e commerciale, restrizione all’uso, ecc.

La documentazione del contesto

contenuto identifica la natura della risorsa e ne rappresenta il

contenuto

relazioni evidenzia le relazioni con altri oggetti

struttura comprende concetti quali inizio e fine del documento,

capitoli, articoli, ecc. ai fini di comunicarne la gerarchia e l’organizzazione dei dati e delle componenti della risorsa

I metadati supportano ….

la gestione delle risorse digitali

l’interoperabilità delle risorse digitali

la conservazione delle risorse digitali

la reperibilità delle risorse digitali

la gestione dei diritti

l’integrità e l’autenticazione

la sostenibilità

Standard per la codifica

informazione globale applicazioni generaliste e specialistiche soggetti promotori e siti istituzionali standard de iure e de facto

Standard internazionali

il conseguimento della standardizzazione è la conseguenza dell’esistenza di accordi e protocolli internazionali pubblicati come standard internazionali

Il formato MARC

MAchine-Readable Cataloging notizia catalografica che viene automaticamente

elaborata dal computer, il quale è in grado di riconoscere l’identità delle diverse componenti della notizia e di trattarle di conseguenza

notizia catalografica = record bibliografico = metadati criteri di compilazione determinati dalle normative

catalografiche (ISBD, RICA, AACR2, ecc.) permette a ricerca elettronica del catalogo (opac)

Il formato MARC nel tempo

Personalizzazioni: USMARC, LCMARC, UKMARC, INTERMARC, ecc.

Scambio internazionale dei dati: UNIMARC Evoluzioni del formato:

da LCMARC a MARC 21 MARCXML (ambiente XML, sviluppato da LC) MODS (semplificazione e razionalizzazione, finalizzato alla

realizzazione delle biblioteche digitali)

Struttura del record MARC

campi (autore, titolo, pubblicazione, ecc.) identificati da un codice numerico di tre cifre (tag)

100 1# $a Guerrini, Mauro [responsabilità principale, persona fisica]

alcuni campi sono suddivisi in sottocampi campo [area] della pubblicazione, distribuzione, ecc.

(identificato dal codice 260) include i sottocampi [elementi] luogo, nome dell’editore, data di pubblicazione)

260 ## $a Milano : $b Editrice Bibliografica, $c 2005

Esempio di record MARC21

100 1# $a 245 10 $a

$c250## $a260## $a

$b$c

300## $a$b$c

490## $a$v

650#1 $a

Guerrini, Mauro.

Catalogazione /

Mauro Guerrini.

1 ed.Roma :Associazione Italiana Biblioteche,c1999141 p. : ill. ;17 cmEnciclopedia tascabile ;16Catalogazione bibliografica

MARCXML

il Network Development and MARC Standards Office della Library of Congress ha sviluppato una struttura utile ad utilizzare dati MARC in ambiente XML

la struttura è flessibile ed estensibile per ampliare il numero e la varietà delle applicazioni, ma non vengono meno i caratteri di specificità del MARC

l’elaborazione ha incluso lo sviluppo di schemi, fogli di stile e dispositivi software, accessibili e scaricabili attraverso il sito

record MARCXML

Conversione tra schemi di metadati

è il risultato di una mappatura, cioè del procedimento con il quale vengono individuate le corrispondenze sintattiche e semantiche tra singoli elementi di due schemi di metadati

l’ambiente XML in funzione del quale è stato sviluppato MARCXML si presta bene alla conversione tra schemi di metadati

sono stati sviluppati dei dispositivi software per semplificare le procedure

Conversione a Dublin Core

Presentazione dei dati

presentazione è la visualizzazione e/o la marcatura dei dati MARC in una forma leggibile

presentazione HTML …

Record visualizzati in HTML

XML per la codifica dei metadati

eXtensible Markup Language XML serve per attribuire una struttura ai dati

esempi di dati strutturati sono i fogli di calcolo, le transazioni fininziarie, I disegni tecnici

si definisce con XML un insieme di regole per produrre formati di testo che diano una struttura ai dati

XML non è un linguaggio di programmazione e non richiede particolari competenze informatiche

XML agevola la produzione e la lettura di dati da parte del computer e assicura che la struttura di tali dati sia non ambigua

XML si presenta non dissimile da HTML è comune l’uso di marcatori (tags, termini racchiusi tra parentesi

uncinate) e di attributi in HTML viene specificato il significato di ogni marcatore e attributo

e talvolta anche la resa grafica in XML i marcatori servono solo a segmentare i dati, la cui

interpretazione è affidata all’applicazione

XML per la codifica dei metadati

XML consiste di testo, ma non è finalizzato alla lettura i dati sono archiviati in formato testo, per cui possono essere

letti mediante un text editor in caso di compilazioni errate, l’applicazione si ferma e

genera un messaggio di errore XML è modulare

il formato di un nuovo documento può essere prodotto combinando e riutilizzando altri formati

per evitare di assegnare lo stesso nome ad elementi o attributi diversi, XML fornisce meccanismi di namespace

XML non pone problemi di licenze ed è indipendente da qualunque piattaforma ci si può avvalere del lavoro e dei dispositivi prodotti dalla

comunità di utilizzatori XML

Tecnologie XML

XML comprende una famiglia di tecnologie correlate XLink – modalità standard di aggiungere link

ipertestuali ad un file XML XPointer – sintassi per puntare a porzioni di dati

interni a un documento XML (il ruolo dell’URL nel web)

XSL – linguaggio per la produzione di fogli di stile XSLT – linguaggio di trasformazione utile a

riorganizzare, aggiungere e rimuovere tag e attributi

XML per le biblioteche digitali

strutturazione del contenuto per trasferimenti di dati in tempo reale (online delivery)

integrazione di informazioni interne ed esterne

gestione dei dati bibliografici – creazione, archiviazione, condivisione ed utilizzazione

cattura di metadati

“Occorre trovare il modo per trasferire dati e informazioni in modo efficiente ed efficace. Dati in XML condivisi tra computer ed applicativi differenti rappresentano un passo in direzione dell’agevolare questa condivisione”

Schemi di metadati descrittivi

Dublin Core (DC) descrizione semplice di risorse di ogni genere per la prima ricerca

Encoded Archival Description (EAD)

codifica di strumenti di corredo archivistici

Text Encoding Initiative (TEI)

marcatura di testi letterari

Music Encoding Initiative (MEI)

marcatura di documenti musicali

Synchronized Multimedia Integration Language (SMIL)

sincronizzazione ed integrazione di documenti multimediali

Dublin Core

elementi semplici da comprendere e adoperare opzionali e ripetibili internazionali e trasversali tra le discipline

non qualificato finalizzato ad una sommaria descrizione della risorsa per

agevolare la prima ricerca qualificato

per descrizioni più ricche che permettano raffinamenti nella ricerca e un loro uso professionale nell’ambito degli strumenti di mediazione propri delle diverse discipline

Applicazioni di Dublin Core

oggetti

fotografie diapositive

Implementazione

formato di descrizione di una risorsa informativa mira ad agevolare il reperimento delle risorse

elettroniche funge da base per l’interoperabilità semantica adottata da numerose comunità utenziali (biblioteche,

musei, agenzie governative, organizzazioni commerciali)

beneficia dell’attiva partecipazione e promozione in oltre 20 Paesi in Nord America, Europa, Asia ed Oceania

Dublin Core Metadata Element Set

Title Creator

Subject Description

Publisher Contributor

Date Type

Format Identifier

Source Language

Reference Coverage

Rights

Encoded Archival Description (EAD)

Basato sullo standard ISAD(G) per la descrizione di complessi archivistici

schema di codifica (marcatura, markup) non-proprietario finalizzato alla produzione di strumenti di corredo elettronici mediante l’impiego di linguaggi di marcatura (SGML e poi

XML) per agevolare la ricerca all’interno dell’archivio e l’accessio

via web

http://www.loc.gov/ead/

EAD e la struttura degli strumenti di corredo

Descrizionedell’archivio

Descrizione di serie archivistiche

Descrizione di sottoserie archivistiche

Descrizione dell’unità documentaria

LIVELLO ALTO

LIVELLO BASSO

Principi ispiratori di EAD

obiettivo è rendere le risorse archivistiche provenienti da istituzioni diverse accessibili agli utenti del web

nomi di elementi ed attributi definiti in modo tale da favorire lo scambio internazionale di dati – l’interoperabilità

è un formato di struttura, non uno standard per i dati di contenuto

Linee guida e migliori pratiche di EAD

facilitare il reperimento della risorsa attraverso l’interoperabilità

normalizzare la creazione di documenti correttamente codificati in EAD all’interno o tra più istituzioni incoraggiare l’inclusione di specifici elementi sviluppare un insieme di dati essenziali (core data

elements)

Text Encoding Initiative (TEI)

schema per la codifica di testi in fase di creazione di nuovi documenti testuali o per lo scambio di documenti esistenti

basato su XML non richiede l’utilizzo di specifico software consente la rigorosa partizione del testo agevola il trattamento scientifico dei testi

Elementi

rappresentano le caratteristiche del testo ai fini di un suo trattamento elettronico (titolo, indici, ecc.)

marcatori (tags) per indicare la struttura del testo ed altre caratteristiche di interesse (<title>, <index>)

TEI comprende circa 450 elementi un sottoinsieme è TEI Lite che include circa

150 elementi

Struttura TEI

TEI header (intestazione, elemento <teiHeader>) element)

trascrizione del testo (elemento <text>)

<TEI.2> <teiHeader> [ TEI Header information ] </teiHeader> <text>

<front> [ front matter ... ] </front> <body> [ body of text ... ] </body> <back> [ back matter ... ] </back>

</text> </TEI.2>

TEI header

l’elemento teiHeader non fa parte del documento codificato, ma fornisce informazioni sul documento

si comporta come una scheda di catalogo (o il frontespizio) nei confronti di un libro a stampa

fornisce i metadati relativi alla versione elettronica del libro

è obbligatorio per ogni documento TEI

Music Encoding Initiative (MEI)

definito specificamente per testi musicali, partiture, annotazioni del musicista, ecc.

tiene separati I dati dai metadati può ospitare raccolte, parti, varianti struttura simile a TEI ancora in corso di sviluppo http://dl.lib.virginia.edu/bin/dtd/mei/

Synchronised Multimedia Integration Language (SMIL)

pronunzia "smile" utilizzato per presentazioni multimediali integra e sincronizza audio e video con

immagini, testo e altre tipologie documentarie

animazione struttura

controllo dei contenuti gestione tempi e sincronizzazione

struttura di presentazione effetti transizione

collegamenti manipolazione tempi

integrazione di oggetti mediatici

Scelta di uno schema di metadati

tipologie documentarie oggetto della conversione al digitale

finalità del progetto di digitalizzazione – accesso o conservazione

utilizzatore potenziale competenze e capacità del personale del progetto infrastruttura tecnica disponibile presso l’istituzione livello di dettaglio (varia da un’istituzione all’altra)

Condivisione degli standard e collaborazione

partenariato soluzioni comuni condivisione di infrastrutture, specie

tecnologiche condivisione di competenze interoperabilità

Interoperabilità

“occorrerebbe garantire che … i sistemi, le procedure e la cultura di un’organizzazione siano gestiti … in modo tale da massimizzare le opportunità di scambio e di riutilizzazione dell’informazione, sia internamente, sia all’esterno della struttura”

Paul Miller. Interoperability: what is it and why should I want it? «Ariadne» Issue 24

Diversi livelli di interoperabilità

tecnologicasemanticanazionale e internazionale

Livello tecnologico

qual è l’oggetto dello scambio – elementi dei dati

in che modo strutturarli ai fini dello scambio – schemi

in che modo effettuare lo scambio – transazioni e messaggi di protocollo, profili

Livello semantico

utilizzo coerente dei termini di soggetto migliori descrizioni delle risorse reperimento delle risorse più efficace accesso al contenuto intellettuale

“Le biblioteche digitali si occupano sempre meno di libri e sempre più delle idee e dei concetti espressi nei libri”

Ricerca full text e vocabolari controllati

ricerca full text ampia e non specifica termini fuori contesto risultati erronei indicizzazione

automatica Amazoogle

vocabolari controllati definizione dei termini precisione nei risultati soggetti correlati comprensione condivisa

da persone e computer thesauri multilingua

Accesso – ricerca e recupero

termini di un vocabolario controllato thesaurus acronimi archivi di authority

Thesauri

lista di termini interrelati, nell’ambito di uno specifico dominio disciplinare, provvista di collegamenti semantici predefiniti ed eventualmente anche della definizione dei termini Library of Congress Subject Headings MESH The International Thesaurus of Refugee

Terminology

Livello nazionale ed internazionale

scambio universale dei dati raccolta (harvesting) dei metadati cooperazione internazionale gateway informativi (portali, virtual reference

desk)

Requisiti

attitudini – volontà di condividere, partecipare cambiamenti – nuove procedure, nuove

abilità e competenze, nuovi criteri gestionali condivisione degli standard per la codifica dei

dati protocolli per la condivisione dei metadati

Z39.50

protocollo che consente la ricerca e il recupero di record da più archivi elettronici in contemporanea, mediante un’unica interfaccia sul lato utilizzatore

protocollo: un insieme di regole che governa lo scambio di informazioni tra dispositivi e computer diversi

trova ampia applicazione nella ricerca bibliografica all’interno degli opac e dei metaopac

Schema di colloquio tra un opac, un cliente Z e un server Z

Perchè è importante?

consente la ricerca trasversale su più cataloghi di biblioteca

permette all’utilizzatore di servirsi di un’interfaccia di ricerca con la quale ha già familiarità

favorisce il recupero di dati in forma strutturata

rende possibile l’attivazione di applicazioni in forma distribuita

Limiti di Z39.50

mancanza di semantica condivisa differenze tra i servizi esposti dal client e dal server

esempio: il sistema di ricerca locale effettua la ricerca di nomi personali e di enti nel medesimo indice; nel sistema remoto invece la ricerca di un nome di persona viene effettuata soltanto all’interno dell’indice di persone

più versioni rilasciate con caratteristiche differenti non è compreso all’interno dei browser standard e

dei più comuni motori di ricerca

Open Archives Initiative

Open Archives Initiative sviluppa e promuove dispositivi per l’interoperabilità che mirano ad agevolare l’efficacia della disseminazione dei contenuti sul web

i documenti sono depositati in archivi (repository) ai fini di consentire la condivisione dei metadati, la pubblicazione dei contentui e l’archiviazione delle risorse

la descrizione dei documenti avviente mediante Dublin Core non qualificato

http://www.openarchives.org

OAI Protocol for Metadata Harvesting

OAI-PMH Protocol for Metadata Harvesting si basa su uno Schema W3C XML

“L’obiettivo è “l’apertura", favorita attraverso l’esposizione e la raccolta dei metadati attraverso un protocollo http semplice e appositamente definito” NELSON, M. OAI and OAIS: What’s in a name. D-Lib

Magazine, 7(5), May 2001

Linee guida per l’implementazione

Harvesting mediante OAI-PMH

Data Providers (open archives, repositories) forniscono libero accesso ai metadati ed, eventualmente ma non necessariamente, anche ai testi (full text) o ad altre risorse

Service Providers utilizzano le interfacce OAI dei Data Providers per raccogliere e archiviare metadati le sessioni di ricerca non avvengono direttamente sulla

repository del Data Provider i servizi si basano sui dati raccolti mediante harvesting

Funzionamento di OAI-PMH

Carpenter. L. 2003. OA-Forum Tutorial. University of Bath, Bath

Risorsa che non espone metadati descrittivi

Produttore / distributore

utenti

punto di accesso unico

Produttore / distributore

Aggregatoridi metadati

Varie fasce

di utenti

punti di accesso multipliRisorsa che espone metadati descrittivi

sito del produttore

sito del produttore

motori, portali, aggregatori

Data providerrepository

Data providerdatabase

Service providerArchiviazione metadati

Service providerInterfacciadi ricerca standard

OAI-PMH

Z39.50SRU/SRW

harvesting di metadati

ricerca

risultati(compresi metadati)

Data providers

metadati Dublin Core convertiti dinamicamente mediante mappatura da

un altro schema di metadati a DC oppure archiviati direttamente come DC

sono disponibili mappature tra DC, EAD e MARC 21

i dati sono codificati in XML tutti i record vengono contrassegnati da un

elemento cronologico (datestamp)

Service providers

dispongono di dispositivi per l’harvesting software per l’harvesting automatico web robots, cioè programmi che scandiscono lo

spazio web automaticamente (crawlers, spiders) i web robot fanno uso di protocolli HTTP forniscono servizi relativi a tutti i dati raccolti

interfaccia di ricerca sistemi di peer-review

Architettura

gestione dell’archivio selezione delle repository sulle quali effettuare l’harvesting lista delle repository immessa manualmente o facendo uso del

registro ufficiale richieste HTTP ai data providers

uso della sintassi di OAI-PMH harvesting selettivo mediante parametrazione

calendario raccolta periodica e programmata dei metadati

normalizzazione armonizzazione dei diversi formati di metadati in una struttura

omogenea (data, nomi, codici di lingua e paese) mediante mappatura e/o traduzione

Servizi a valore aggiunto

OAI permette l’erogazione di servizi basati sulla raccolta dei metadati, nel quale il valore dei dati può crescere in seguito alla normalizzazione e all’arricchimento dei metadati stessi

esempi di servizi sono ricerche collegamenti per citazionie peer-review

RSS feeds tre diverse denominazioni

Really Simple Syndication: distribuzione mediante condivisione a procedura semplice

Rich Site Summary: indice ricco delle informazioni presenti su un sito web

RDF Site Summary: come il precedente, con riferimento alle sue origini RDF Resource Description Framework

usato nella produzione, distribuzione, fruizione di contenuti da: siti di informazione fornitori di contenuti periodici scientifici quotidiani online weblog CMS (Content Management System), sistemi per la gestione di

contenuto

Definizioni

termini derivati dalla pratica e dal linguaggio dei dispositivi di mediazione tradizionali syndication: distribuzione di contenuti attraverso

appositi canali, rappresentati da feed Atom o RSS feed, file contenente segmenti di contenuti

veicolati all’interno di un canale channel (canale): percorso attraverso il quale

l’informazione viene veicolata o trasmessa

Wikipedia: RSS

Wikipedia definisce RSS uno “standard de facto”, ovvero uno standard che, benché non riconosciuto ufficialmente come ISO è talmente diffuso da essere comunque un elemento di riferimento “Oggi RSS è lo standard de facto per l'esportazione di

contenuti Web. I principali siti di informazione, i quotidiani online, i fornitori di contenuti, i blog più popolari: tutti sembrano aver adottato il formato RSS. Gli utenti possono oggi accedere a migliaia di feed RSS: alcuni siti (directory) raccolgono i riferimenti agli innumerevoli feed RSS disponibili sul Web.”

http://en.wikipedia.org/wiki/RSS_(protocol) http://it.wikipedia.org/wiki/RSS

Dialetti RSS

RSS 0.92: il più vecchio tra gli standard oggi in uso, evoluzione del formato usato originariamente da Netscape

RSS 2.0: rilasciato da UserLand nel 2002, è l'evoluzione del formato 0.92, di cui eredita la semplicità, ma a cui aggiunge il supporto per moduli aggiuntivi

RSS 1.0: è il formato ufficiale del W3C, conforme ad RDF, estensibile e modulare

Dialetti e uso

RSS 2.0 (Really Simple Syndication di Userland) più orientata alle implementazioni XML : servizi di distribuzione di contenuto effimero come notizie o

contenuti provenienti dai blog

RSS 1.0 (del W3C) adotta e implementa il modello di dati RDF Resource Description Framework più focalizzata su un generico strumento di scambio di

metadati strutturati, offre un semplice meccanismo di estensione modulare per accogliere nuovi vocabolari

Come funziona basato su XML: semplice, estensibile, flessibile documenti disponibili su un web server e recuperabili

da qualsiasi aggregatore RSS preferenze stabilite dagli utenti (personalizzazioni) si usa un programma detto news aggregator per leggere un feed RSS basta un lettore

scaricare un software adatto cliccare sull’icona RSS sul sito da cui si vogliono ricevere i

feed copiare l’indirizzo del feed RSS.xml che si apre nell’apposita

finestra del news aggregator http://www.alesti.org/

è possibile dirottare le novità pubblicate su un periodico elettronico verso un palmare

Applicazioni al mondo delle biblioteche

promozione e marketing dei servizi bibliotecari: attività, nuove risorse, eventi, annunci su novità e promozione di nuovi servizi

elenchi di nuove acquisizioni della biblioteca / rete elenchi di novità librarie da siti di librerie virtuali come

Amazon http://www.amazon.com/exec/obidos/subst/xs/syndicate.html/102-

1715106-4224135 Table of Contents (ToC) di periodici (CAS: Current

Awareness Service) miglioramento dei servizi di reference: aggiunta di

nuove risorse su un determinato ambito disciplinare / soggetto

Opportunità

aggiornamento costante in tempo reale, con cadenze personalizzabili e risparmio di tempo

riduzione dello spamming nell’e-mail in quanto i canali vengono attivati in modalità opt-in

recupero di notizie ad intervalli stabiliti da siti di interesse, attraverso l’uso di aggregatori, che evitano di visionare individualmente centinaia di siti

attivazione di forme nuove di marketing e promozione per argomento per settore o per categorie di utenti

Conclusioni

i metadati aggiungono valore ai dati gli standard di codifica determinano la

standardizzazione la standardizzazione facilita l’interoperabilità i protocolli consentono lo scambio dei dati