Biblioteche digitali, Web e Linked Data

51
Biblioteche Digitali, Web e Linked Data Carlo Meghini Istituto di Scienza e Tecnologie della Informazione Consiglio Nazionale delle Ricerche – Pisa

Transcript of Biblioteche digitali, Web e Linked Data

Page 1: Biblioteche digitali, Web e Linked Data

Biblioteche Digitali, Web e Linked Data

Carlo Meghini

Istituto di Scienza e Tecnologie della InformazioneConsiglio Nazionale delle Ricerche – Pisa

Page 2: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Outline

1 Introduzione

2 Biblioteche Digitali

3 Il web

4 I Linked Data

5 Conclusioni

2 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 3: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Introduzione

Biblioteca Digitale: un’app per l’acquisizione di conoscenza da fontidigitali.Un’evoluzione della nozione di biblioteca, così come l’abbiamo sempreconosciuta:

deposito −→ applibri −→ fonti digitali

Si possono fare alcuni distinguo:

l’app del meteo non è una BDlo scopo non è sempre e solo professionale (per esempio,l’intrattenimento)

La conoscenza é il bene che una BD gestisce e rende fruibile attraverso isuoi servizi.

3 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 4: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Collocazione

Le biblioteche sono materia di studio (da molto tempo) delle disciplineumanistiche.Biblioteconomia: http://it.wikipedia.org/wiki/Biblioteconomia

I sistemi informativi digitali, per contro, sono nel dominio dell’informatica.Dove si collocano le biblioteche digitali?Le BD sono al centro di una disciplina che tratta dei metodi per iltrattamento (acquisizione, memorizzazione, documentazione, accesso, econservazione) con strumenti digitali delle risorse informative (digitali,ma non solo).Elementi di questa disciplina si posso individuare in varie areedell’informatica, dell’archivistica, dell’information science, e altre ancora.Ma la disciplina che raccoglie e tratta organicamente tutti questiargomenti al momento non si vede.

4 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 5: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

EsitoNonostante le BD potessero contare su un retroterra culturale vasto, laloro natura interdisciplinare ha determinato incomunicabilità tra lecomunità coinvolte.

Questo non è accaduto per l’intelligenza artificiale, in cui informatici,logici, fisici, psicologi, linguisti e persino filosofi hanno saputo creareuna comunità che si è data obiettivi e strumenti condivisi.Oggi l’intelligenza artificiale è una disciplina molto solida, con uncurriculum molto ben definito e supportato da unacomunità scientificamente molto forte.

Le comunità delle BD non hanno saputo fare altrettanto, creando oquantomeno convergendo verso una visione condivisa di cosa dovesseessere una BD. Di conseguenza:

i ricercatori lavorano in tante direzioni diverse in modo non organicochi ha costruito i sistemi ha lavorato “dal basso” adottando di voltain volta gli strumenti più disparati, spesso lavorando a mani nude.

5 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 6: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Nello stesso lasso di tempo, le basi di dati o l’information retrieval hannosviluppato un corpus di conoscenze e di tecnologie molto solido.Il risultato è che esistono:

molte BD (alcune note come repository istituzionali)qualche prototipo di Digital Library Management System

ma non una vera e propria tecnologia delle BD.Anche il corpus delle conoscenze teoriche è molto frammentato.Le BD non hanno molto da offrire alle nuove sfide che emergono:

data infrastructurese-government, e-health, . . .cyber-physical infrastructures

6 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 7: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Breve (e parziale) storia

1994: Digital Library Initiative, Phase 1 (6 projects)1994: The First Annual Conference on the Theory and Practice ofDigital Libraries (College Station, Texas)1997: First European Conference on Digital Libraries (Pisa)1999: Digital Library Initiative, Phase 2 (24 projects)1999, 2000 – 2003, 2004 – 2007: DELOS Working Group, laterNetwork of Excellence in Digital Libraries (Pisa)2006: BRICKS Integrated Project2009: Europeana, primo prototipo2010: Europeana, prima versione

L. Candela, D. Castelli, P. Pagano. "History, Evolution and Impact of DigitalLibraries". Iglezakis, I.; Synodinou, T.-E. & Kapidakis, S. (eds.) e-Publishingand Digital Libraries: Legal and Organizational Issues, IGI Global, 2011

7 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 8: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

L’informatica nella BD

Uno degli aspetti più controversi riguarda la divisione dei ruoli tra gliattori che concorrono alla costruzione di una BD, e soprattuttol’individuazione del dominio dell’informatica.Si tratta dividere lo spazio dei problemi da risolvere in tre parti:

1 la riserva, dove l’informatico opera autonomamente2 i confini, dove l’informatico collabora con gli altri attori3 la zona out, dove l’informatico non deve entrare.

L’identificazione della conoscenza come bene primario trattato da unaBD permette di definire chiaramente queste tre aree.

8 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 9: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Confine

Il confine è l’area in cui gli informatici elicitano i requisiti dai destinataridei servizi. L’elicitazione è un dialogo che porta a specificare:

tipologia di conoscenza da rappresentareservizi relativi a tale conoscenzainterfacce utente per l’accesso a tali servizi.

È di gran lunga il compito più difficile:

l’utenza ha un problema ma non conosce a sufficienza l’informaticaper determinare come risolverlol’informatico ha una serie di strumenti ma non conosce a sufficienzail problema per determinare quale proporre

9 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 10: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Nelle BD il problema è aggravato dal fatto che i destinatari dei servizi (gliaddetti della BD, detti anche digital librarian):

non parlano il linguaggio della modellistica informatica (problema dicomunicazione)sono formati su determinati modelli della conoscenza, e sudeterminate pratiche, e vogliono vedere questi modelli e questepratiche implementate tout cour.

Casi tipici: le gerachie degli archivisti e i cataloghi dei bibliotecari.L’UML è il linguaggio di comunicazione tra l’informatico e il digitallibrarian, cui è richiesto di sapere la modellazione semantica.

10 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 11: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

11 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 12: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Outline

1 Introduzione

2 Biblioteche Digitali

3 Il web

4 I Linked Data

5 Conclusioni

12 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 13: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Biblioteche Digitali

Volendo essere più specifici sull’aspetto tecnico, una BD offre un insiemedi servizi su un insieme di contenuti digitali a un insieme di utenti.Abbiamo tre tipologie di risorse principali.Vedremo che non sono le uniche.

13 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 14: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Contenuti Digitali

I contenuti digitali sono le risorse che contengono la conoscenza della BD.La conoscenza può essere rappresentata in diversi linguaggi. Unaclassificazione concettualmente semplice dei contenuti di una BDpuò essere basata sul modo in cui questi esprimono la conoscenza:

contenuti in cui la conoscenza è rappresentata in linguaggionaturale: testo, immagini ferme o in movimento, messaggi audio,audio-visuali, e aggregazioni complesse.Questi contenuti includono:

oggetti del dominio (opere letterarie, brani musicali, dipinti, film,etc.) risultato di digitalizzazione o born-digitalontologie informali del dominio, ossia lessici e glossari in linguaggionaturale, possibilmente in più lingue, con i relativi dizionaritesti o saggi usati per la formazione nel dominioarticoli scientifici usati per lo scambio di conoscenze tra i ricercatoridel dominio

14 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 15: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

contenuti in cui la conoscenza è rappresentata in linguaggi artificiali:espressioni di logiche per la rappresentazione della conoscenza.Questi contenuti includono:

oggetti del dominio (datasets stratigrafici di scavi archeologici,tabelle di dati su fenomeni fisici inviate dai satelliti)ontologie formali di dominio (soggettari, tassonomie, vocabolari, listecontrollate, etc.)

Un BD può anche avere contenuti non digitali. L’aspetto qualificantesono i servizi digitali.Ovviamente, i servizi digitali di una BD sono meno efficaci se nonpossono essere applicati ai contenuti (ricerca per contenuto, ri-uso,scambio, etc.).

15 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 16: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Utenti

Gli utenti sono i soggetti per i quali vengono implementati i servizi dellaBD.Un utente può essere naturale o artificale:

se naturale può essere un individuo o un gruppo di individuise artificiale può essere un’organizzazione, un ente giuridico, unaBD, il web, e in generale tutto ciò che esprime un determinatoinsieme di requisiti omogenei che la BD accoglie e soddisfa.

16 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 17: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Una divisione più utile degli utenti si basa sul ruolo che un utentepuò assumere:

produttori della conoscenza, quindi fornitori dei contenuti digitalidella BD. I produttori variano, possono essere:

gli esperti del dominio che alimentano la BD con le loro operegli studiosi del dominio (ricercatori, accademici) che lavorano adaccrescere la conoscenza del dominiosensori (montati su satelliti, su postazioni fisse terrestri, o supostazioni mobili) della BD che fanno pervenire la conoscenzaattraverso una rete di comunicazione possibilmente su larga scalaservizi interni della BD che aggiungono conoscenza attraversoprocessi inferenzialiservizi esterni (sistemi di acquisizione automatica, di notificazione,etc.)

17 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 18: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

consumatori della conoscenza, quindi i fruitori della conoscenza.Questi possono essere caratterizzati in:

consumatori casuali, che accedono ai servizi in modo occasionaledesignated community della BD, cioè i consumatori ufficiali, per iquali la BD esiste e svolge il suo lavoro.La designated community è una categoria definita dal modello OAIS,uno standard ISO per la conservazione a lungo termine.

An identified group of potential Consumers who should beable to understand a particular set of information.

L’enfasi è su understand, un concetto chiave nella conservazione alungo a termine ma anche in molti altri servizi della BD.

Vedremo più avanti perché la designated community è fondamentale inuna BD.

18 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 19: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Servizi

Possiamo distinguere due categorie di servizi in una BD:

servizi di base, realizzano la acquisizione, memorizzazione, accesso econservazione a lungo termine della conoscenza.Sono quelli che dovrebbeo essere offerti da un DLMS,perché comuni a tutte le applicazioni, analogamente ai servizi offertida un SQL engine di un database relazionale.servizi applicativi, sono i servizi specifici per la designatedcommunity della BD, e variano di volta in volta.Per esempio, una BD per dati medicali potrebbe offrire il servizio dianalisi di immagini mediche, mentre una BD sui manoscrittimedievali potrebbe fornire un servizio di ricerca per similarity sullascrittura manuale.

19 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 20: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Le tre dimensioni di una BD non sono fra di loro indipendenti:

molti servizi dipendono dai contenuti su cui sono offertima dovrebbero dipendenre anche dall’utenza cui sono offerti.Personalizzazione: lo stesso servizio si comporta in maniera diversaper utenti diversi.Non è solo un problema di adattabilità della GUI, ma dicomportamento del servizio (caso delle interrogazioni).

20 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 21: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Risorse ausiliarie

La realizzazione dei servizi richiede di gestire un’ampia serie di risorse chepossiamo considerare ausiliarie, ma che non per questo sono menoimportanti.Sono risorse ausiliare quelle che supportano (ad esempio):

la comunicazione tra utenti e sistema (reti, display, GUI)l’accesso controllato alle risorse della BD (liste di controllo diaccesso, meccanismi di autenticazione, diritti digitali, ecc.)la privatezza e la riservatezza dei contenuti (encryption, ecc.)le operazioni di discovery (indici dei motori di ricerca)

Le BD si distinguono da altri sistemi informativi per aver posto l’enfasifin dall’inizio su una specifica risorsa ausiliaria, che svolge un ruolofondamentale in una BD, e cioè la conoscenza di supporto, rappresentatanei metadati.

21 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 22: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

I metadati

Letteralmente, i metadati sono “dati sui dati”. Più specificamente, imetadati sono espressioni linguistiche che rappresentano conoscenzarelativa a risorse della BD e necessaria ai servizi della BD.Fare da metadato è un ruolo dipendente dal contesto.

Il saggio di Nabokov sul Don Chisciotte può essere dato in una BDdi saggi letterari e metadato in una BD sulle opere di Cervantes.Un’immagine digitale di un’eclissi solare può essere dato in una BDdi supporto a un canale educativo e metadato in una BD diastrofisica che contiene osservazioni grezze per esempio da satellite.

Come si distingue un dato da un metadato in una BD?Le risorse informative che appartengono al dominio della BD, o ne sonorappresentazioni dirette sono il contenuto della BD. Le risorse che invecesi riferiscono o sono “a proposito” (about) le risorse di dominio, sonometadati, e così via.

22 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 23: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Anche i metadati possono espressi in linguaggio naturale o in linguaggioartificiale. I più sono in linguaggio artificiale, per poter essere utilizzati inmaniera diretta dai servizi.I metadati in linguaggio formale sono espressioni (variamente camuffate)di una logica, dette record, ciascuna costituita da tre parti:

1 una descrizione (un predicato a un posto)romanzo di Walter Scott in lingua inglese pubblicato da Penguinscrittore nato a Trieste nel 1861

2 un identificatore univoco di una una risorsa individuale, (un simbolodi costante)

il numero N di inventario di un certo libroil codice fiscale CF di una persona

3 l’associazione della descrizione all’identificatore (predicazione)N è un romanzo di Walter Scott in lingua inglese pubblicato daPenguinCF è uno scrittore nato a Trieste nel 1861

23 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 24: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

La gestione dei metadati richiede una serie di altre strutture di supportoche esprimono diversi tipi di conoscenza:

tassonomia −→ classificazione sistematica dei termini di un settorethesaurus −→ relazioni lessicali tra i termini di un linguaggiovocabolario −→ conoscenza lessicale su uno specifico linguaggioauthority file −→ conoscenza su persone o gruppi che collaboranoalla creazione delle risorse della BDgazetteer −→ conoscenza lessicale su termini geograficiontologia −→ concettualizzazione di uno specifico dominio

24 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 25: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Le logiche descrittive sono strumenti ideali per rappresentare i metadati ele strutture di supporto, e le operazioni fondamentali su di essi:

concetti atomici: classi, predicati unari (romanzo, scrittore, inglese)ruoli; proprietà, predicati binari (autore di, in lingua, pubblicato da,nato a, nato nel)individui: identificatori (Walter Scott, Penguin, Trieste, 1861, N, CF)concetti: descrizioni (scrittore nato a Trieste nel 1861)sub/super-concetto: tassonomia di classi (romanzo – opera)sub/super-ruolo: tassonomia di proprietà (amico di – conosce)asserzioni individuali: predicazione (è uno)assiomi terminologici: ontologiesussunzione: sotto-concetto implicitoinstance-checking: predicazione implicita (query answering)

Ampio insieme di risultati e strumenti da utilizzare nelle BD.

25 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 26: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Esistono varie categorie di metadati. Una classificazione classica (MarciaZeng, Univ. Kent):

Descriptive metadata: describes a resource for purposes such asdiscovery and identification. It can include elements such as title,abstract, author, and keywords.Structural metadata: indicates how compound objects are puttogether, for example, how pages are ordered to form chapters.Administrative metadata: provides information to help manage aresource, such as when and how it was created, file type and othertechnical information, and who can access it.There are several subsets of administrative data; two that aresometimes listed as separate metadata types are:

Rights management metadata, which deals with intellectual propertyrights, andPreservation metadata, which contains information needed to archiveand preserve a resource.

26 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 27: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Preservation metadata according to OAIS:

CCSDS RECOMMENDATION FOR AN OAIS REFERENCE MODEL

ContentInformation

RepresentationInformation

interpretedusing

DataObject

interpreted using

PhysicalObject Digital

Object

PreservationDescriptionInformation

ReferenceInformation

ProvenanceInformation

ContextInformation

FixityInformation

ArchivalInformationPackage

further described by

PackagingInformation

delimited byderived from

*

described by identifiesPackageDescription

1

StructureInformation

SemanticInformation

adds meaning

Figure 4-18: Archival Information Package (Detailed View)

4.2.2.4 Specialization of the AIP and Package Descriptions

Two specializations of the AIP are discussed in this subsection, the Archival Information Unit (AIU) and the Archive Information Collection (AIC). Figure 4-19 is a UML diagram illustrating this specialization. Both AIU and AIC are subtypes of the AIP and as such contain constructs to enable both Long Term Preservation and Consumer access. The AIU represents the type used for the preservation function of a single content atomic object. The AIC organizes a set of AIPs (AIUs and other AICs) along a thematic hierarchy, which can support flexible and efficient access by the Consumer community. Conceptually all the AIPs organized by an AIC are contained in the Content Information of that AIC. The differences between AIUs and AICs is the complexity of their Content Information and their associated Package Descriptions and Packaging Information. This reference model considers the differences in the Content Information and associated Packaging and Description functionality between AIU and AIC to be adequately complex and linked to justify the definition of separate classes.

CCSDS 650.0-B-1 Page 4-37 January 2002

27 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 28: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Representation Information: l’informazione che serve alla ricostruzione delsignificato del contenuto a partire dalla sua rappresentazione digitale:

Structural Information: dal bit al segnoSemantic Information: dal segno al significato

Quale segno, e quale significato? Quelli comprensibili alla designatedcommunity.

il linguaggio della designated community è il linguaggio in cui deveessere spiegato il contenuto della BDla conoscenza condivisa della designated community fissa il limitealla ricorsione della representation information.

L’intepretazione della informazione è un problema centrale delle BD, nonsolo degli archivi per la conservazione a lungo termine, quindi unafunzione essenziale dei metadati di una BD.

28 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 29: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Alcune opinioni personali sui metadati (absit iniuria verbis)

Classificare i metadati, e soprattutto imbrigliarli in formati predefiniti echiusi è una delle molte inutili rigidità che la tradizione bibliotecaria earchivistica vogliono imporre al mondo delle BD.Le BD hanno bisogno di un modello dell’informazione minimo e flessibile,che renda possibile:

considerare descrizioni risorse, dotate di loro una propria identitàcreare descrizioni liberamente prendendo a prestito i necessaritermini (classi, proprietà) dai formati appropriatiusare descrizioni liberamente per creare record di metadati:

la relazione tra risorse e descrizioni è m:nuna descrizione è una risorsa quindi può essere a sua volta descritta.

29 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 30: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Outline

1 Introduzione

2 Biblioteche Digitali

3 Il web

4 I Linked Data

5 Conclusioni

30 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 31: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Il web

Il web è oggi la più grande piattaforma di distribuzione di servizi maicostruita.Il nucleo della piattaforma del web (URI, HTML, HTTP) è scaturito dalrequisito di condividere la conoscenza tra persone, che in estrema sintesiè lo stesso requisito cui risponde una BD.Il web è basato sull’HTML, un linguaggio per l’espressione di iper-testi,ossia di testi strutturati e corredati da link che permettono di associaretra loro porzione di iper-testi anche diversi.L’HTML è quindi un linguaggio formale per esprimere conoscenza inlinguaggio naturale.Nel disegno iniziale, il web era un complemento alle bibliotechetradizionali: un mezzo per accedere velocemente e in modo ubiquo aconoscenza rappresentata in oggetti digitali non reperibili in biblioteca:report, memo, bozze di tesi o di articoli scientifici in lavorazione.

31 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 32: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Il web è stato pensato fin dall’inizio per scalare: ogni ricercatore o gruppodi ricerca che voleva partecipare al gioco poteva farlo in modo(concettualmente) semplice:

installando un web server su una macchina connessa in rete (dotatadel software richiesto e opportunamente configurata),associandolo a un dominio epopolandolo con le risorse che si volevano condividere.

Il risultato era una BD molto rudimentale:

contenuti: iper-testi in stile monasticoservizi: accesso diretto (URL) o navigazione (link)utenti: tutti (potenzialmente, ma in pratica pochi e frustrati)

32 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 33: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Il web di oggi è molto meno rudimentale. Sono cresciuti gli strumenti:

HTML (5) è un linguaggio molto potente, con cui è possibilecostruire documenti iper-mediali, che includono codice per interfaccemolto sofisticate o per scatenare servizii servizi si sono moltiplicati, e fra questi quelli sulla conoscenza,primi fra tutti i web search engines.

Ma soprattutto è cresciuta la base della conoscenza rappresentata (inlinguaggio naturale) sul web o accessibile dal web attraverso servizi.Questo ha fatto sì che si allargasse la base di utenza del web: di fatto, ilweb è la BD cui tutti noi ci rivolgiamo ogni giorno per acquisire laconoscenza di cui abbiamo bisogno per svolgere le nostreattività lavorative e non.

33 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 34: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Rispetto a una BD, il web soffre di una limitazione essenziale: il mancatotrattamento della conoscenza formalmente rappresentata.La limitazione agisce su due fronti:

sul fronte dei contenuti: viene a mancare un medium espressivo chepuò essere utile agli umani o alle macchine per l’implementazione diservizi applicativi.sul fronte dei metadati: non è possibile associare alle risorsedisponibili sul web le descrizioni formali (metadati) che supportinoservizi essenziali, quali:

interpretazionediscovery semanticacuration

Il medium in cui è espressa la conoscenza rappresenta una barriera all’usoeffettivo della conoscenza.

34 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 35: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Ci sono due modi per superare questa limitazione:

estrarre la conoscenza dal web così come esso è, elaborando illinguaggio naturale, le immagini, il videocreare accanto al web della conoscenza informalmente espressa, unweb della conoscenza formalmente espressa, il web semantico

Mentre la ricerca ha lavorato più sul primo approccio, il W3C ha credutonel secondo, e da circa 15 anni sta lavorando a definire linguaggi estrumenti che possano servire a realizzare la visione del web semantico.

35 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 36: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Architettura del Web semantico

 36 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 37: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Il linguaggio più semplice per rappresentare la conoscenza nel semanticweb è il Resource Description Framework (RDF).RDF deriva dalle reti semantiche, che erano strumenti per larappresentazione della conoscenza degli anni 70, ed è poco espressivo:

URI e letterali come costanti individualipredicati binarienunciati ground o con variabili esistenzialmente quantificatecongiunzione

Ma permette di usare i simboli di predicato come simboli di costante.Inizialmente introdotto per annotare pagine web, RDF è statosuccessivamente esteso in due diverse riprese:

RDF Vocabulary (Property, type)RDF Schema: gerarchie di classi e di proprietà, vincoli sul dominio esul range delle proprietà.

Notazione ufficiale: XML, in particolare lo schema RDF/XML.37 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 38: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Semplice grafo RDF

ex:zampanò ex:gelsomina

ex:tromba

ex:suona

ex:ascolta

ex:Uomo ex:Donna

rdf:type rdf:type

"Gelsomina"^^http://www.w3.org/2001/XMLSchema#string

foaf:name

foaf:birthday

"1935-03-02"^^http://www.w3.org/2001/XMLSchema#date

38 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 39: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Semplice tassonomia

ex:Persona

ex:Mammifero

ex:Donna

rdfs:subClassOf

ex:Uomo

ex:Animale

rdfs:subClassOf

rdfs:subClassOfrdfs:subClassOf

39 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 40: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Oggi l’RDF è uno strumento ampiamente utilizzato per larappresentazione della conoscenza formale nelle BD, per diverse ragioni:

semplicericco abbastanza per i record dei metadati (ma senza record)RDFS permette di esprimere le strutture di supporto, dalletassonomie fino alla semplici ontologieflessibile abbastanza per consentire il riuso di termini da qualsiasivocabolario in qualsiasi contestogli URI e la notazione XML costituiscono una base lessicale idealeper una BD:

namespaces: liste controllate di termini, globalmente unici, concontrollo decentralizzatoURI HTTP sono deferenziabili

sono in aumento i vocabolari RDF per le BD, per es. SKOSinteroperabilità con il web e con le altre BDdisponibilità di tool per XML e per RDF

40 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 41: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Nell’architettura del web semantico ci sono anche le logiche descrittive(DL).Le DL sono il frutto di una ricerca iniziata negli anni 90 con lo scopo didare un fondamento logico e computazionale alle reti semantiche.Il risultato è una contaminazione tra la logica matematica del primoordine e le reti semantiche:

1 sintassi simile ma meno espressiva della sintassi della logica2 semantica direttamente derivata da quella della logica.

Le DL poggiano su una base matematica molto solida. Due benefici:

sviluppo di una serie di strumenti quali i dimostratori (Pellet, Racer)o ambienti di lavoro (Protegé )analisi computazionale delle DL (sono quasi tutte decidibili, maintrattabili) e riduzione di alcune logiche ad altre già conosciute.

41 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 42: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Le DL sono state a lungo uno strumento di nicchia, conosciuto solo dagliaddetti ai lavori e utilizzato in poche applicazioni.Il W3C ha recepito la necessità di portare le DL nell’architettura delsemantic web, e per questo ha lanciato lo sviluppo di un linguaggioappostio.Dopo qualche tentativo iniziale, oggi questo linguaggio è l’Ontology WebLanguage (OWL).OWL è una famiglia di logiche descrittive, che comprende tre profili:

OWL 2 EL is particularly useful in applications employing ontologiesthat contain very large numbers of properties and/or classes.OWL 2 QL is aimed at applications that use very large volumes ofinstance data, and where query answering is the most importantreasoning task.OWL 2 RL is aimed at applications that require scalable reasoningwithout sacrificing too much expressive power.

Notazione ufficiale: XML, in particolare lo schema OWL/XML42 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 43: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Outline

1 Introduzione

2 Biblioteche Digitali

3 Il web

4 I Linked Data

5 Conclusioni

43 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 44: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

I Linked Data

Per realizzare la visione del web semantico serve anche un meccanismoper integrare la conoscenza formalmente espressa nel web, rispettandone iprincipi e le assunzioni di base, per garantire la continuità.Principio di base: un web server implementa un servizio fondamentale(GET dell’HTTP) che riceve in input un URI e restituisce in output unarappresentazione della risorsa identificata dall’URI ricevuto.A representation is data that encodes information about resource state.(Web architecture)Nel web, la rappresentazione è tipicamente un documento HTML.Grazie alla content negotiation, la rappresentazione può essere fornita informati diversi, in realtà un qualsiasi formato MIME.

44 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 45: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Questa visione offre un modo molto semplice per integrare conoscenzaformale nel web:

considerare le rappresentazioni formali della conoscenza (descrizioni,metadata record, ontologie) come risorse web, identificate da URIconsiderare un grafo RDF come una representation di unarappresentazione formale della conoscenzausare il web server per servire representation di rappresentazioniformali della conoscenza.

45 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 46: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

I 4 principi dei Linked Data

1 Use URIs as names for things2 Use HTTP URIs, so that people can look up those names3 When someone looks up a URI, provide useful information, using the

standards (RDF, SPARQL)4 Include links to other URIs, so that they can discover more things

Tre di queste raccomandazioni riguardano la rappresentazione dellaconoscenza, in particolare richiedono di

usare RDF come linguaggio di rappresentazioneusare URI HTTP come simboli di costante e simboli di predicatominimizzando l’uso di letterali e nodi bianchi (variabili q.e.).

La terza raccomandazione riguarda l’associazione tra un URI e laconoscenza formalmente rappresentata relativa a questo URI.

46 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 47: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

In altre parole, come si rendono dereferenziabili gli URI dirappresentazioni formali della conoscenza.Ci sono due strategie. Una di queste si basa sulla re-direzione.

1 The client performs a HTTP GET request on a URI identifying areal-world object or abstract concept. It sends an Accept:application/rdf+xml header along with the request

2 The server answers using the HTTP 303 See Other response codeand sends the client the URI of a Web document that describes thereal-world object or abstract concept in the requested format (cioè,l’URI di un metadata record).

3 The client now performs an HTTP GET request on this URIreturned by the server.

4 The server answers with a HTTP response code 200 OK and sendsthe client the requested document, describing the original resourcein the requested format.

47 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 48: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

È importante quindi distinguere una risorsa dalle sue rappresentazioni, enei Linked data si usano n+1 diversi URIs: 1 per la risorsa e uno ciascunoper ognuna delle sue n rappresentazioni:

http://biglynx.co.uk/people/dave-smith la personahttp://biglynx.co.uk/people/dave-smith.rdfla conoscenza formalmente rappresentata sulla personahttp://biglynx.co.uk/people/dave-smith.html

La seconda strategia è più diretta, e usa l’identificatore di frammento peraccedere a una rappresentazione formale.Per esempio:

http://biglynx.co.uk/vocab/sme#SmallMediumEnterprise

identifica un insieme di triple RDF che descrivono il termineSmallMediumEnterprise nel vocabolariohttp://biglynx.co.uk/vocab/sme

48 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 49: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Status dei Linked Data

http://linkeddata.org

49 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 50: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

Outline

1 Introduzione

2 Biblioteche Digitali

3 Il web

4 I Linked Data

5 Conclusioni

50 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data

Page 51: Biblioteche digitali, Web e Linked Data

IntroduzioneBiblioteche Digitali

Il webI Linked DataConclusioni

ConclusioniIl web e le BD sono stretti parenti, che condividono l’obiettivo di renderela conoscenza accessibile, ma per diversi utenti e con diversedisponibilità di risorse.Il web non ha una designated community, è per tutti. E può contare suun team di design (il W3C) e di sviluppo (progetti open source) che nonha uguali nelle BD (e in nessun altro settore).I due mondi hanno oggi molti punti di contatto, alcuni importanti sono:

uso dei linguaggi del web (URI, RDF) nelle biblioteche digitali perl’espressione formale della conoscenzauso della tecnologia del web (web service) da parte delle BD perdistribuire i propri servizi e accedere ai servizi altruiuso dei Linked Data per la distribuzione di conoscenza creata ecurata all’interno delle BD.

E così andranno le cose ancora per un po’.51 / 51 Carlo Meghini Biblioteche Digitali, Web e Linked Data