9. Il Web semantico

40
1 WEB SEMANTICO: struttura e organizzazione dei dati Sapienza Università di Roma Anno Accademico 2012 – 2013 Informatica per gli Archivi e le Biblioteche Prof.ssa Linda Giuva Prof. Maurizio Caminito LEZIONE 9

description

Sapienza Università di Roma Anno Accademico 2012 – 2013 Informatica per gli Archivi e le Biblioteche Prof.ssa Linda Giuva Prof. Maurizio Caminito Lezione 9

Transcript of 9. Il Web semantico

Page 1: 9. Il Web semantico

1

WEB SEMANTICO: struttura e organizzazione dei dati

Sapienza Università di RomaAnno Accademico 2012 – 2013

Informatica per gli Archivi e le BibliotecheProf.ssa Linda Giuva

Prof. Maurizio CaminitoLEZIONE 9

Page 2: 9. Il Web semantico

2

Web attuale: difficoltà nella ricerca di informazioni

Un limite del Web attuale: i risultati delle ricerche

riguardano interi documenti (parole all’interno di pagine) e non la specifica informazione

Dopo il lavoro di ricerca dei documenti segue

l’estrazione «manuale» delle informazioni desiderate

Page 3: 9. Il Web semantico

3

Web attuale: poca integrazione delle informazioni

Ogni informazione si trova in documenti diversi e una volta estratta va integrata con tutte le altre

Mancano applicazioni per il web in grado di combinare informazioni

provenienti da fonti diverse in modo da risolvere uno specifico problema

Page 4: 9. Il Web semantico

4

Web attuale: poche applicazioni

La maggior parte dei siti web non sono progettati

per interagire tra loro o con altre applicazioni.

Se il Web venisse progettato per fornire servizi ad altri servizi, consentendo la cooperazione sia tra programmi che tra programmi ed utenti, ci sarebbe un utilizzo diverso di Internet

Page 5: 9. Il Web semantico

La ridondanza nel Web

La ricerca nei grandi cataloghi mostra dei limiti che il modello FRBR vuole superare.

Analogamente le ricerche sul Web finiscono spesso in una interminabile serie di risultati spesso irrilevanti che devono essere «filtrati» dall’utente.

La sfida del WEB SEMANTICO: risolvere questi problemi

5

Page 6: 9. Il Web semantico

6

I motori di ricerca e le parole nel web

“Un browser (Internet Explorer, Firefox o Chrome) o un motore di ricerca (Google, Yahoo, Bing) sono in grado, secondo precise istruzioni, di disporre e visualizzare in una certa maniera delle informazioni ma non hanno la capacità di riconoscerle o attribuire loro un significato particolare per elaborarle. Infatti un motore di ricerca non distingue se la parola 'espresso' si riferisca ad un treno piuttosto che ad un caffè, oppure se 'verdi' sia riferito ad un colore o al compositore.Il motore di ricerca può tentare di recepire i significati ricavandoli dal contesto della pagina, utilizzare sinonimi per espandere le ricerche, ma in ultima analisi il suo archivio è un elenco, certamente molto ben organizzato, di parole

chiave. Se fosse in grado di comprendere il significato dei contenuti di una pagina, potrebbe accettare domande più complesse e fornire un'unica risposta altrettanto complessa ed efficace".

(Stefano Epifani, Introduzione al Web semantico)

Page 7: 9. Il Web semantico

VERSO IL WEB SEMANTICO

Tim Berners Lee:«Fino ad oggi il Web si è sviluppato più come strumento di contenuti per uso ‘umano’, piuttosto che come mezzo di informazione per l’elaborazione automatizzata. Servono dati specificatamente progettati per computer, dati comprensibili alle macchine […] I computer devono aver accesso a serie strutturate di informazioni e a regole di deduzione che permettano un ‘ragionamento’ automatizzato»

7

Page 8: 9. Il Web semantico

8

T.Berners Lee, inventore del World Wide Web, scrive:

"Il Web fu disegnato come uno spazio di informazioni, non solo per la comunicazione uomo-uomo, ma affinché anche le macchine potessero avere la possibilità di partecipare e dare il loro contributo. Uno dei maggiori ostacoli è stato il fatto che la maggior parte dell'informazione sul Web è disegnata per essere fruita dall'uomo (...), la struttura dei dati non è riconoscibile per un robot che naviga il Web. L'approccio del Web Semantico, invece, sviluppa linguaggi per esprimere le informazioni in una forma accessibile e processabile da una macchina".

Page 9: 9. Il Web semantico

9

L’interoperabilità tra le applicazioni

Il Web si deve dotare di una sovrastruttura per l’interoperabilità (semantica) tra le applicazioni, in modo da poter svolgere automaticamente quelle funzioni che oggi debbono essere eseguite a mano o codificate dentro ai programmi

Page 10: 9. Il Web semantico

10

Il WEB come Data Base

I nuovi motori di ricerca dovranno essere in grado di analizzare non soltanto le parole chiave, ma anche

le relazioni che intercorrono tra loro.

Per ottenere questo risultato è necessario che tutte le informazioni presenti sul WWW siano “racchiuse” in un unico grande data base.

Page 11: 9. Il Web semantico

11

Informazioni “su se stessi”

E’ necessario che le informazioni possano essere espresse in una forma "comprensibile" per una macchina

COME?

In una risorsa i metadati forniscono informazioni su se stessa.

I metadati dovrebbero essere "scritti" in una forma leggibile dalle macchine.

Page 12: 9. Il Web semantico

12

WEB SEMANTICO = estendere il web

L'idea del Web Semantico nasce per estendere l'attuale web

e favorire lo scambio di informazioni oltre che tra esseri umani

anche tra programmi per computer, tramite una rappresentazione

che anche questi ultimi siano in grado di utilizzare e di “comprendere”.

Page 13: 9. Il Web semantico

Web semanticoDa Wikipedia, l'enciclopedia libera.

Con il termine web semantico, termine coniato dal suo ideatore, Tim Berners-Lee, si intende la trasformazione del World Wide Web in un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) sono associati ad informazioni e dati (metadati) che ne specificano il contesto semantico in un formato adatto all'interrogazione e l'interpretazione (es. tramite motori di ricerca) e, più in generale, all'elaborazione automatica.

Con l'interpretazione del contenuto dei documenti che il Web semantico impone, saranno possibili ricerche molto più evolute delle attuali, basate sulla presenza nel documento di parole chiave, e altre operazioni specialistiche come la costruzione di reti di relazioni e connessioni tra documenti secondo logiche più elaborate del semplice collegamento ipertestuale.

Page 14: 9. Il Web semantico

XML e oltre

Per la sua costruzione/definizione si utilizza l'XML, un linguaggio che consente di descrivere le diverse parti di un documento.Ma la sintassi XML non definisce alcun meccanismo esplicito per qualificare le relazioni tra documenti. Non è di aiuto neppure il meccanismo dei collegamenti ipertestuali usato dall'HTML perché «amorfo», cioè non prevede la possibilità di descrivere il legame definito.

Page 15: 9. Il Web semantico

RDF: un nuovo standard

Viene approvato dal WW3 un nuovo standard: l’RDF - Resource Description Framework,

una particolare applicazione XML che standardizza la definizione di

relazioni tra informazioni ispirandosi ai principi della logica dei predicati

(o logica predicativa del primo ordine) e ricorrendo agli strumenti tipici del Web

(ad es. URI) e dell'XML.

Page 16: 9. Il Web semantico

MEMO: logica dei predicati

Il mondo è analizzato in termini di OGGETTI, PROPRIETA’, RELAZIONI.

Predicato: parte di una proposizione che indica le proprietà o le relazioni di cui godono i soggetti o termini della proposizione. Per esempio nelle proposizioni “Mario è romano”, “7 è maggiore di 3”, “Firenze si trova tra Roma e Milano”, le espressioni “è romano”, “è maggiore di”, “si trova tra... e...” sono dei predicati. La prima indica una proprietà, mentre le altre due indicano delle relazioni

Page 17: 9. Il Web semantico

17

«semantico»: cosa vuol dire?

La semantica (dal greco sémeìon, segno) è quella parte della linguistica che studia il significato delle parole, degli insiemi delle parole, delle frasi e dei testi.

La semantica è ciò che mette in relazione le espressioni linguistiche con quello che il contenuto di tali espressioni "vuole dire".

Implica un processo di interpretazione.

Page 18: 9. Il Web semantico

XML e il Web Semantico

XML non aggiunge senso ai dati, almeno non lo aggiunge in modo «computazionalmente» accessibile e trattabile(le etichette XML sono leggibili e comprensibili da un utente umano. Di solito il vocabolario utilizzato nei linguaggi XML usa termini sensati tratti da una lingua naturale)Ma il significato del vocabolario XML è del tutto inaccessibile a un elaboratore.

18

Page 19: 9. Il Web semantico

XML e il Web SemanticoSe si sceglie di percorrere la strada della standardizzazione a priori l’indifferenza semantica di XML (e di qualsiasi altro metalinguaggio di modellizzazione dati) non sarebbe un problema rilevante.In questo caso infatti una comunità di utenti decide di adottare un Vocabolario: •condiviso •definito a priori•con una semantica chiara e prefissataSi tratta di una pratica ben nota nel mondo delle biblioteche e degli archivi che sin dai primordi dell’automazione hanno avvertito l’esigenza di definire modelli di descrizione, formati, vocabolari controllati per la descrizione semantica tendenzialmente condivisi: da MARC a Dublin Core, da ISBD a ISAD a FRBR, dal soggettario LC ai vari thesaura settoriali…..

Fabio Ciotti, XML metadati Semantic Web. Dall’interoperabilità sintattica a quella semantica19

Page 20: 9. Il Web semantico

Oltre XML

Non appena il dominio applicativo si estende o l’ambiente si estende e diviene eterogeneo (come nel Web) l’uniformità a priori dei linguaggi descrittivi non è praticabile.Si pone dunque l’esigenza di individuare dei sistemi di interoperabilità semantica che consentano•l’integrazione di sistemi eterogenei •l’erogazione servizi avanzati di descrizione ed elaborazione semantica.

In questa direzione si muovono le sperimentazioni che ricadono nell’area del Semantic Web.

20

Page 21: 9. Il Web semantico

RDF: un linguaggio per il computer

Affinché i metadati semantici siano utilizzabili non solo dagli esseri umani ma anche dai computer, è necessario che vengano espressi in un linguaggio che sia computazionalmente trattabile sia dal punto di vista sintattico sia da quello semantico

È questo il fine del Resource Description Framework (RDF)

Si tratta di un metalinguaggio dichiarativo per la formalizzare di asserti (predicati) che esprimono proprietà di e relazioni tra risorse

21

Page 22: 9. Il Web semantico

22

Il futuro possibile?

Attraverso il web sarà possibile, ad esempio, prendere un appuntamento con il chirurgo per un intervento, prenotare il posto letto in ospedale, fissare il volo aereo per raggiungere l’ospedale, ottenere un prestito dalla banca a copertura delle spese,

con una sola operazione.

Saranno le applicazioni di gestione dell’ospedale, della compagnia aerea, della banca a “parlarsi tra loro” per fornire la soluzione al problema indicato

Page 23: 9. Il Web semantico

23

Il “cantiere” del WEB SEMANTICO

Creazione di linguaggi e tecnologie (agenti intelligenti) in grado di:

• estrarre significati (attributi) da informazioni • creare percorsi in base alle informazioni richieste dall'utente,

guidandolo poi verso di esse• spostarsi di sito in sito collegando logicamente elementi diversi

dell'informazione richiesta

Page 24: 9. Il Web semantico

24

Le «affermazioni» o «asserzioni»del WEB SEMANTICO

Nel web semantico non si scrivono testi

(all'interno dei quali le informazioni stanno nascoste e

richiedono un intervento umano),

ma affermazioni o asserzioni

(informazioni non ambigue, che esprimono relazioni

tra oggetti, risorse, esseri umani, fatti del mondo reale,

e che possono essere utilizzate anche da applicazioni

automatiche)

Page 25: 9. Il Web semantico

25

Le “asserzioni” del Web Semantico -1Ad esempio, le affermazioni

sul Presidente della Repubblica italiana:

Il Signor Napolitano vive a Roma oppure

Il Signor Napolitano ha codice fiscale NPLGRG20T09E625V possono essere schematicamente così scomposte:

Asserzione 1 Asserzione 2Soggetto Il Sig. Napolitano Il Sig. NapolitanoPredicato vive a ha codice fiscaleValore Roma NPLGRG20T09E625V

Page 26: 9. Il Web semantico

26

Le “asserzioni” del Web Semantico -2Per questi elementi è possibile reperire sul Web URI che li identificano univocamente:Il Signor Napolitano http://www.quirinale.it/vive a http://it.wiktionary.org/wiki/vivereRoma http://www.comune.roma.it/index.aspHa codice fiscale http://it.wikipedia.org/wiki/codice_fiscale

In questo caso, per Il Signor Napolitano si è scelto di fare riferimento alla relativa biografia disponibile sul sito ufficiale delQuirinale. Per Roma si è scelto di utilizzare il sito istituzionale delComune di Roma . Per vive a si è scelto di referenziare la definizione del verbo vivere disponibile su Wikizionario; per ha codice fiscale si è scelta la definizione di codice fiscale disponibile su Wikipedia

Page 27: 9. Il Web semantico

27

Gli “agenti” del WEB SEMANTICO

l termine Web Semantico, proposto per la prima volta nel 2001 da Tim Berners-Lee, è un Web in cui agiscono agenti intelligenti (applicazioni)

• in grado di comprendere il significato dei testi presenti sulla rete

• in grado di guidare l'utente direttamente verso l'informazione ricercata

• in grado di sostituirsi a lui nello svolgimento di operazioni.

Page 28: 9. Il Web semantico

28

Verso il web semantico: i metadati

• I “metadati” sono l'insieme delle informazioni che compongono il modello di un oggetto: il nome, il cognome, la data di nascita, etc... sono metadati del set “Carta d'Identità” e sono sufficienti a descrivere una persona in contesti legali e anagrafici.

• Titolo, editore, autore, anno di edizione, etc... sono metadati del set “Libro” e sono sufficienti a descrivere un libro di carta quando non lo si vuole leggere, ma solo cercare.

• E' importante mettersi d'accordo su un unico set di metadati che descrivono lo stesso oggetto pur in realtà diverse. Un set di metadati standard per un oggetto in uno specifico contesto così da essere riconosciuto, conservato, trovato.

Page 29: 9. Il Web semantico

29

Concetto di metadati semantici

“Annotare semanticamente le risorse” significa

associare ad esse descrizioni semantiche

che consentono di collegarle logicamente ad un certo numero di classi e proprietà

Page 30: 9. Il Web semantico

30

I metadati semantici

I metadati semantici sono di tipo “comprensibile dalla macchina” e possono essere utilizzati dalle applicazioni per ottenere una piena interoperabilità ed un retrieval efficace.

Nel Web Semantico si fanno asserzioni (statement in inglese) formate da soggetto, predicato e valore

(costituite, quindi, da triple).

Page 31: 9. Il Web semantico

31

Il Web Semantico ha una architettura a livelli

Il Web Semantico è un sistema controllato di organizzazione di dati.Adotta una serie di standard:

Al livello superiore si pone il livello ontologico. Una ontologia descrive le relazioni tra i tipi di elementi

• lo standard URI (Uniform Resource Identifiers), per la definizione univoca di indirizzi Internet

• l’RDF (Resource Description Framework) e RDF Schema, che costituiscono il linguaggio per descrivere le risorse e i loro tipi (derivano da XML).

Page 32: 9. Il Web semantico

32

La piramide del WEB SEMANTICO

L’architettura del Web Semantico si compone di vari livelli:

• i dati• i metadati • i concetti che esprimono le relazioni fra i dati• un linguaggio che descriva la struttura dei dati

Page 33: 9. Il Web semantico

33

L’architettura del WEB SEMANTICO

E’ importante lo schema utilizzato per archiviare le informazioni.

Lo schema RDF è un insieme di regole sull'organizzazione dei dati. Definisce relazioni fra i dati.

I metadati devono mappare i dati rispetto a classi, o concetti, di questo schema.

In questo modo si hanno strutture in grado di descrivere e automatizzare i collegamenti esistenti fra i dati.

Il Web Semantico è, come l'XML, un ambiente dichiarativo, in cui si specifica il significato dei dati.

La semantica dei dati consiste nel dare alla macchina delle informazioni utili in modo che essa possa utilizzare i dati nel modo corretto.

Page 34: 9. Il Web semantico

34

WEB SEMANTICO: un esempio di applicazione di ontologie

Si può fare una ricerca del tipo: quali sono… le aziende (soggetto)

che hanno come servizio (predicato) la fornitura di scarpe (oggetto)?

N.B. Questa query è diversa da quella che si potrebbe fare ad un motore di ricerca, a cui si propongono le tre parole: azienda, servizio e scarpe, ma senza mai esprimere il legame fra di essi. Da qui derivano appunto le imprecisioni dei motori di ricerca.

Page 35: 9. Il Web semantico

35

MEMO: cos’è l’URI

URI è acronimo di Uniform Resource Identifier: un indirizzo che, in forma compatta, consente di

identificare una qualsiasi risposta come una pagina web, un documento, un'immagine, un indirizzo e-mail e così via. Gli URI sono definiti utilizzando una

specifica sintassi, facente riferimento all'uso di differenti protocolli. URL (Uniform Resource

Locator) e URN (Uniform Resource Name) possono essere considerati sottoinsiemi di URI.

Page 36: 9. Il Web semantico

36

Il Web Semantico e i livelli di controllo

Prevede dei livelli di controllo e validazione interna:

• Adotta la firma digitale • Prevede un livello di “proof”• Porta ad un risultato univoco e credibile (livello

“trust”)

Page 37: 9. Il Web semantico

37

WEB SEMANTICOIl Web Semantico ha una architettura a livelli

3

Page 38: 9. Il Web semantico

38

Web semantico: conclusioni

Difficilmente il Web diventerà Web Semantico in breve tempo. Il lavoro è lungo e difficile.

Questa proposta ha però affascinato molto la comunità informatica.

Il W3C ha attivato un gruppo di lavoro. Le università hanno aperto numerosi programmi di ricerca

legati a questi temi. Si sono imposti subito degli standard

Le critiche sulla validità di questo progetto sono legate al fattore tempo (quanto tempo occorre per mappare tutto il Web sulle ontologie?) oppure sulle difficoltà di comunicazione tra ontologie diverse. Molti ritengono che avranno validità solo nel dominio per le quali sono state progettate. Diverso, infatti, è il discorso se parliamo dell'uso di schemi semantici all'interno di architetture legate ad un dominio ben definito, quindi a servizio di comunità ristrette di utenti, per ottenere uno scopo preciso.

Page 39: 9. Il Web semantico

Linguaggi e strumenti per gestire le ontologie

Linguaggi formali per la definizione di ontologie e basi di conoscenza, per supportare il ragionamento su di esse ed interrogarle. RDF produce specifiche di contenuto grazie alle triple

(soggetto-predicato-oggetto)RDFS che usa le triple per dichiarare le classi e le

relazioni valide sulla base di conoscenzaOWL (Web Ontology Language) è un linguaggio di

markup per rappresentare esplicitamente ontologie ( semantica formale di termini e relazioni tra i termini).

39

Page 40: 9. Il Web semantico

40

WEB SEMANTICO – link utili

A. Volpon, Web Semantico, il linguaggio del mondoMytech:

URL http://www.mytech.it/mytech/internet/art006010046709.jsp

P. Ceravolo, Che cos'è e a cosa serve il Web SemanticoHTML.it: URL: http://pro.html.it/articoli/id_327/id_cat_46/pro.html

P. Ceravolo, I linguaggi del Web SemanticoHTML.it: URL: http://pro.html.it/articoli/id_334/id_cat_46/pro.html

P. Ceravolo, Costruiamo le ontologie per il Web SemanticoHTML.it: URL: http://pro.html.it/articoli/id_341/id_cat_46/pro.html

AA. VV. Semantic Web W3C URL: http://www.w3.org/2001/sw/