3b WEB SEMANTICO: struttura e organizzazione dei dati

33
1 WEB SEMANTICO: struttura e organizzazione dei dati SAPIENZA UNIVERSITA’ DI ROMA DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO- FILOLOGICHE E GEOGRAFICHE SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI Anno accademico 2012-2013 Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE Prof. Giovanni Solimine Modulo integrativo INFORMATICA PER LE BIBLIOTECHE Prof. Maurizio Caminito

description

SAPIENZA UNIVERSITA’ DI ROMA DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI Anno accademico 2012-2013   Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE Prof. Giovanni Solimine    Modulo integrativo INFORMATICA PER LE BIBLIOTECHE Prof. Maurizio Caminito

Transcript of 3b WEB SEMANTICO: struttura e organizzazione dei dati

Page 1: 3b WEB SEMANTICO: struttura e organizzazione dei dati

1

WEB SEMANTICO: struttura e organizzazione dei dati

SAPIENZA UNIVERSITA’ DI ROMA DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E

GEOGRAFICHESCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI

Anno accademico 2012-2013

Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHEProf. Giovanni Solimine

Modulo integrativo

INFORMATICA PER LE BIBLIOTECHEProf. Maurizio Caminito

Page 2: 3b WEB SEMANTICO: struttura e organizzazione dei dati

2

Web attuale: difficoltà nella ricerca di informazioni

Un limite del Web attuale: i risultati delle ricerche

riguardano interi documenti (parole all’interno di pagine) e non la specifica informazione

Dopo il lavoro di ricerca dei documenti segue

l’estrazione «manuale» delle informazioni desiderate

Page 3: 3b WEB SEMANTICO: struttura e organizzazione dei dati

3

Web attuale: poca integrazione delle informazioni

Ogni informazione si trova in documenti diversi e una volta estratta va integrata con tutte le altre

Mancano applicazioni per il web in grado di combinare informazioni

provenienti da fonti diverse in modo da risolvere uno specifico problema

Page 4: 3b WEB SEMANTICO: struttura e organizzazione dei dati

4

Web attuale: poche applicazioni

La maggior parte dei siti web non sono progettati

per interagire tra loro o con altre applicazioni.

Se il Web venisse progettato per fornire servizi ad altri servizi, consentendo la cooperazione sia tra programmi che tra programmi ed utenti, ci sarebbe un utilizzo diverso di Internet

Page 5: 3b WEB SEMANTICO: struttura e organizzazione dei dati

La ridondanza nel Web

La ricerca nei grandi cataloghi mostra dei limiti che il modello FRBR vuole superare.

Analogamente le ricerche sul Web finiscono spesso in una interminabile serie di risultati spesso irrilevanti che devono essere «filtrati» dall’utente.

La sfida del WEB SEMANTICO: risolvere questi problemi

5

Page 6: 3b WEB SEMANTICO: struttura e organizzazione dei dati

6

I motori di ricerca e le parole nel web

“Un browser (Internet Explorer, Firefox o Chrome) o un motore di ricerca (Google, Yahoo, Bing) sono in grado, secondo precise istruzioni, di disporre e visualizzare in una certa maniera delle informazioni ma non hanno la capacità di riconoscerle o attribuire loro un significato particolare per elaborarle. Infatti un motore di ricerca non distingue se la parola 'espresso' si riferisca ad un treno piuttosto che ad un caffè, oppure se 'verdi' sia riferito ad un colore o al compositore.Il motore di ricerca può tentare di recepire i significati ricavandoli dal contesto della pagina, utilizzare sinonimi per espandere le ricerche, ma in ultima analisi il suo archivio è un elenco, certamente molto ben organizzato, di parole

chiave. Se fosse in grado di comprendere il significato dei contenuti di una pagina, potrebbe accettare domande più complesse e fornire un'unica risposta altrettanto complessa ed efficace".

(Stefano Epifani, Introduzione al Web semantico)

Page 7: 3b WEB SEMANTICO: struttura e organizzazione dei dati

VERSO IL WEB SEMANTICO

Tim Berners Lee:«Fino ad oggi il Web si è sviluppato più come strumento di contenuti per uso ‘umano’, piuttosto che come mezzo di informazione per l’elaborazione automatizzata. Servono dati specificatamente progettati per computer, dati comprensibili alle macchine […] I computer devono aver accesso a serie strutturate di informazioni e a regole di deduzione che permettano un ‘ragionamento’ automatizzato»

7

Page 8: 3b WEB SEMANTICO: struttura e organizzazione dei dati

8

T.Berners Lee, inventore del World Wide Web, scrive:

"Il Web fu disegnato come uno spazio di informazioni, non solo per la comunicazione uomo-uomo, ma affinché anche le macchine potessero avere la possibilità di partecipare e dare il loro contributo. Uno dei maggiori ostacoli è stato il fatto che la maggior parte dell'informazione sul Web è disegnata per essere fruita dall'uomo (...), la struttura dei dati non è riconoscibile per un robot che naviga il Web. L'approccio del Web Semantico, invece, sviluppa linguaggi per esprimere le informazioni in una forma accessibile e processabile da una macchina".

Page 9: 3b WEB SEMANTICO: struttura e organizzazione dei dati

9

L’interoperabilità tra le applicazioni

Il Web si deve dotare di una sovrastruttura per l’interoperabilità (semantica) tra le applicazioni, in modo da poter svolgere automaticamente quelle funzioni che oggi debbono essere eseguite a mano o codificate dentro ai programmi

Page 10: 3b WEB SEMANTICO: struttura e organizzazione dei dati

10

Il WEB come Data Base

I nuovi motori di ricerca dovranno essere in grado di analizzare non soltanto le parole chiave, ma anche

le relazioni che intercorrono tra loro.

Per ottenere questo risultato è necessario che tutte le informazioni presenti sul WWW siano “racchiuse” in un unico grande data base.

Page 11: 3b WEB SEMANTICO: struttura e organizzazione dei dati

11

Informazioni “su se stessi”

E’ necessario che le informazioni possano essere espresse in una forma "comprensibile" per una macchina

COME?

In una risorsa i metadati forniscono informazioni su se stessa.

I metadati dovrebbero essere "scritti" in una forma leggibile dalle macchine.

Page 12: 3b WEB SEMANTICO: struttura e organizzazione dei dati

12

WEB SEMANTICO = estendere il web

L'idea del Web Semantico nasce per estendere l'attuale web

e favorire lo scambio di informazioni oltre che tra esseri umani

anche tra programmi per computer, tramite una rappresentazione

che anche questi ultimi siano in grado di utilizzare e di “comprendere”.

Page 13: 3b WEB SEMANTICO: struttura e organizzazione dei dati

Web semanticoDa Wikipedia, l'enciclopedia libera.

Con il termine web semantico, termine coniato dal suo ideatore, Tim Berners-Lee, si intende la trasformazione del World Wide Web in un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) sono associati ad informazioni e dati (metadati) che ne specificano il contesto semantico in un formato adatto all'interrogazione e l'interpretazione (es. tramite motori di ricerca) e, più in generale, all'elaborazione automatica.

Con l'interpretazione del contenuto dei documenti che il Web semantico impone, saranno possibili ricerche molto più evolute delle attuali, basate sulla presenza nel documento di parole chiave, e altre operazioni specialistiche come la costruzione di reti di relazioni e connessioni tra documenti secondo logiche più elaborate del semplice collegamento ipertestuale.

Page 14: 3b WEB SEMANTICO: struttura e organizzazione dei dati

XML e oltre

Per la sua costruzione/definizione si utilizza l'XML, un linguaggio che consente di descrivere le diverse parti di un documento.Ma la sintassi XML non definisce alcun meccanismo esplicito per qualificare le relazioni tra documenti. Non è di aiuto neppure il meccanismo dei collegamenti ipertestuali usato dall'HTML perché «amorfo», cioè non prevede la possibilità di descrivere il legame definito.

Page 15: 3b WEB SEMANTICO: struttura e organizzazione dei dati

RDF: un nuovo standard

Viene approvato dal WW3 un nuovo standard: l’RDF - Resource Description Framework,

una particolare applicazione XML che standardizza la definizione di

relazioni tra informazioni ispirandosi ai principi della logica dei predicati

(o logica predicativa del primo ordine) e ricorrendo agli strumenti tipici del Web

(ad es. URI) e dell'XML.

Page 16: 3b WEB SEMANTICO: struttura e organizzazione dei dati

MEMO: logica dei predicati

Il mondo è analizzato in termini di OGGETTI, PROPRIETA’, RELAZIONI.

Predicato: parte di una proposizione che indica le proprietà o le relazioni di cui godono i soggetti o termini della proposizione. Per esempio nelle proposizioni “Mario è romano”, “7 è maggiore di 3”, “Firenze si trova tra Roma e Milano”, le espressioni “è romano”, “è maggiore di”, “si trova tra... e...” sono dei predicati. La prima indica una proprietà, mentre le altre due indicano delle relazioni

Page 17: 3b WEB SEMANTICO: struttura e organizzazione dei dati

17

«semantico»: cosa vuol dire?

La semantica (dal greco sémeìon, segno) è quella parte della linguistica che studia il significato delle parole, degli insiemi delle parole, delle frasi e dei testi.

La semantica è ciò che mette in relazione le espressioni linguistiche con quello che il contenuto di tali espressioni "vuole dire".

Implica un processo di interpretazione.

Page 18: 3b WEB SEMANTICO: struttura e organizzazione dei dati

XML e il Web Semantico

XML non aggiunge senso ai dati, almeno non lo aggiunge in modo «computazionalmente» accessibile e trattabile(le etichette XML sono leggibili e comprensibili da un utente umano. Di solito il vocabolario utilizzato nei linguaggi XML usa termini sensati tratti da una lingua naturale)Ma il significato del vocabolario XML è del tutto inaccessibile a un elaboratore.

18

Page 19: 3b WEB SEMANTICO: struttura e organizzazione dei dati

XML e il Web SemanticoSe si sceglie di percorrere la strada della standardizzazione a priori l’indifferenza semantica di XML (e di qualsiasi altro metalinguaggio di modellizzazione dati) non sarebbe un problema rilevante.In questo caso infatti una comunità di utenti decide di adottare un Vocabolario: •condiviso •definito a priori•con una semantica chiara e prefissataSi tratta di una pratica ben nota nel mondo delle biblioteche e degli archivi che sin dai primordi dell’automazione hanno avvertito l’esigenza di definire modelli di descrizione, formati, vocabolari controllati per la descrizione semantica tendenzialmente condivisi: da MARC a Dublin Core, da ISBD a ISAD a FRBR, dal soggettario LC ai vari thesaura settoriali…..

Fabio Ciotti, XML metadati Semantic Web. Dall’interoperabilità sintattica a quella semantica19

Page 20: 3b WEB SEMANTICO: struttura e organizzazione dei dati

Oltre XML

Non appena il dominio applicativo si estende o l’ambiente si estende e diviene eterogeneo (come nel Web) l’uniformità a priori dei linguaggi descrittivi non è praticabile.Si pone dunque l’esigenza di individuare dei sistemi di interoperabilità semantica che consentano•l’integrazione di sistemi eterogenei •l’erogazione servizi avanzati di descrizione ed elaborazione semantica.

In questa direzione si muovono le sperimentazioni che ricadono nell’area del Semantic Web.

20

Page 21: 3b WEB SEMANTICO: struttura e organizzazione dei dati

RDF: un linguaggio per il computer

Affinché i metadati semantici siano utilizzabili non solo dagli esseri umani ma anche dai computer, è necessario che vengano espressi in un linguaggio che sia computazionalmente trattabile sia dal punto di vista sintattico sia da quello semantico

È questo il fine del Resource Description Framework (RDF)

Si tratta di un metalinguaggio dichiarativo per la formalizzare di asserti (predicati) che esprimono proprietà di e relazioni tra risorse

21

Page 22: 3b WEB SEMANTICO: struttura e organizzazione dei dati

22

Il futuro possibile?

Attraverso il web sarà possibile, ad esempio, prendere un appuntamento con il chirurgo per un intervento, prenotare il posto letto in ospedale, fissare il volo aereo per raggiungere l’ospedale, ottenere un prestito dalla banca a copertura delle spese,

con una sola operazione.

Saranno le applicazioni di gestione dell’ospedale, della compagnia aerea, della banca a “parlarsi tra loro” per fornire la soluzione al problema indicato

Page 23: 3b WEB SEMANTICO: struttura e organizzazione dei dati

23

Il “cantiere” del WEB SEMANTICO

Creazione di linguaggi e tecnologie (agenti intelligenti) in grado di:

• estrarre significati (attributi) da informazioni • creare percorsi in base alle informazioni richieste dall'utente,

guidandolo poi verso di esse• spostarsi di sito in sito collegando logicamente elementi diversi

dell'informazione richiesta

Page 24: 3b WEB SEMANTICO: struttura e organizzazione dei dati

24

Le «affermazioni» o «asserzioni»del WEB SEMANTICO

Nel web semantico non si scrivono testi

(all'interno dei quali le informazioni stanno nascoste e

richiedono un intervento umano),

ma affermazioni o asserzioni

(informazioni non ambigue, che esprimono relazioni

tra oggetti, risorse, esseri umani, fatti del mondo reale,

e che possono essere utilizzate anche da applicazioni

automatiche)

Page 25: 3b WEB SEMANTICO: struttura e organizzazione dei dati

25

Le “asserzioni” del Web Semantico -1Ad esempio, le affermazioni

sul Presidente della Repubblica italiana:

Il Signor Napolitano vive a Roma oppure

Il Signor Napolitano ha codice fiscale NPLGRG20T09E625V possono essere schematicamente così scomposte:

Asserzione 1 Asserzione 2Soggetto Il Sig. Napolitano Il Sig. NapolitanoPredicato vive a ha codice fiscaleValore Roma NPLGRG20T09E625V

Page 26: 3b WEB SEMANTICO: struttura e organizzazione dei dati

26

Le “asserzioni” del Web Semantico -2Per questi elementi è possibile reperire sul Web URI che li identificano univocamente:Il Signor Napolitano http://www.quirinale.it/vive a http://it.wiktionary.org/wiki/vivereRoma http://www.comune.roma.it/index.aspHa codice fiscale http://it.wikipedia.org/wiki/codice_fiscale

In questo caso, per Il Signor Napolitano si è scelto di fare riferimento alla relativa biografia disponibile sul sito ufficiale delQuirinale. Per Roma si è scelto di utilizzare il sito istituzionale delComune di Roma . Per vive a si è scelto di referenziare la definizione del verbo vivere disponibile su Wikizionario; per ha codice fiscale si è scelta la definizione di codice fiscale disponibile su Wikipedia

Page 27: 3b WEB SEMANTICO: struttura e organizzazione dei dati

27

Gli “agenti” del WEB SEMANTICO

l termine Web Semantico, proposto per la prima volta nel 2001 da Tim Berners-Lee, è un Web in cui agiscono agenti intelligenti (applicazioni)

• in grado di comprendere il significato dei testi presenti sulla rete

• in grado di guidare l'utente direttamente verso l'informazione ricercata

• in grado di sostituirsi a lui nello svolgimento di operazioni.

Page 28: 3b WEB SEMANTICO: struttura e organizzazione dei dati

28

Verso il web semantico: i metadati

• I “metadati” sono l'insieme delle informazioni che compongono il modello di un oggetto: il nome, il cognome, la data di nascita, etc... sono metadati del set “Carta d'Identità” e sono sufficienti a descrivere una persona in contesti legali e anagrafici.

• Titolo, editore, autore, anno di edizione, etc... sono metadati del set “Libro” e sono sufficienti a descrivere un libro di carta quando non lo si vuole leggere, ma solo cercare.

• E' importante mettersi d'accordo su un unico set di metadati che descrivono lo stesso oggetto pur in realtà diverse. Un set di metadati standard per un oggetto in uno specifico contesto così da essere riconosciuto, conservato, trovato.

Page 29: 3b WEB SEMANTICO: struttura e organizzazione dei dati

29

Concetto di metadati semantici

“Annotare semanticamente le risorse” significa

associare ad esse descrizioni semantiche

che consentono di collegarle logicamente ad un certo numero di classi e proprietà

Page 30: 3b WEB SEMANTICO: struttura e organizzazione dei dati

30

I metadati semantici

I metadati semantici sono di tipo “comprensibile dalla macchina” e possono essere utilizzati dalle applicazioni per ottenere una piena interoperabilità ed un retrieval efficace.

Nel Web Semantico si fanno asserzioni (statement in inglese) formate da soggetto, predicato e valore

(costituite, quindi, da triple).

Page 31: 3b WEB SEMANTICO: struttura e organizzazione dei dati

31

Web semantico: conclusioni

Difficilmente il Web diventerà Web Semantico in breve tempo. Il lavoro è lungo e difficile.

Questa proposta ha però affascinato molto la comunità informatica.

Il W3C ha attivato un gruppo di lavoro. Le università hanno aperto numerosi programmi di ricerca

legati a questi temi. Si sono imposti subito degli standard

Le critiche sulla validità di questo progetto sono legate al fattore tempo (quanto tempo occorre per mappare tutto il Web sulle ontologie?) oppure sulle difficoltà di comunicazione tra ontologie diverse. Molti ritengono che avranno validità solo nel dominio per le quali sono state progettate. Diverso, infatti, è il discorso se parliamo dell'uso di schemi semantici all'interno di architetture legate ad un dominio ben definito, quindi a servizio di comunità ristrette di utenti, per ottenere uno scopo preciso.

Page 32: 3b WEB SEMANTICO: struttura e organizzazione dei dati

Linguaggi e strumenti per gestire le ontologie

Linguaggi formali per la definizione di ontologie e basi di conoscenza, per supportare il ragionamento su di esse ed interrogarle. RDF produce specifiche di contenuto grazie alle triple

(soggetto-predicato-oggetto)RDFS che usa le triple per dichiarare le classi e le

relazioni valide sulla base di conoscenzaOWL (Web Ontology Language) è un linguaggio di

markup per rappresentare esplicitamente ontologie ( semantica formale di termini e relazioni tra i termini).

32

Page 33: 3b WEB SEMANTICO: struttura e organizzazione dei dati

33

WEB SEMANTICO – link utili

A. Volpon, Web Semantico, il linguaggio del mondoMytech:

URL http://www.mytech.it/mytech/internet/art006010046709.jsp

P. Ceravolo, Che cos'è e a cosa serve il Web SemanticoHTML.it: URL: http://pro.html.it/articoli/id_327/id_cat_46/pro.html

P. Ceravolo, I linguaggi del Web SemanticoHTML.it: URL: http://pro.html.it/articoli/id_334/id_cat_46/pro.html

P. Ceravolo, Costruiamo le ontologie per il Web SemanticoHTML.it: URL: http://pro.html.it/articoli/id_341/id_cat_46/pro.html

AA. VV. Semantic Web W3C URL: http://www.w3.org/2001/sw/