P R AA TT...La manutenzione dei libri; L’acquisto di nuovi libri etc. Sebbene le librerie digitali...

18
ORGANIZZAZIONE DI CONTENUTI MULTIMEDIALI E WEB SEMANTICOPROF. ANTONIO TUFANO

Transcript of P R AA TT...La manutenzione dei libri; L’acquisto di nuovi libri etc. Sebbene le librerie digitali...

  • ““OORRGGAANNIIZZZZAAZZIIOONNEE DDII CCOONNTTEENNUUTTII MMUULLTTIIMMEEDDIIAALLII EE WWEEBB SSEEMMAANNTTIICCOO””

    PPRROOFF.. AANNTTOONNIIOO TTUUFFAANNOO

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    2 di 18

    Indice

    1 INTRODUZIONE -------------------------------------------------------------------------------------------------------------- 3

    1.1. RICERCA IN UNA LIBRERIA DIGITALE --------------------------------------------------------------------------------------- 5

    2 IL WEB SEMANTICO -------------------------------------------------------------------------------------------------------- 7

    2.1. INTRODUZIONE----------------------------------------------------------------------------------------------------------------- 7 2.2. RESOURCE DESCRIPTION FRAMEWORK ------------------------------------------------------------------------------------ 9 2.2.1 RDF DATA MODEL --------------------------------------------------------------------------------------------------------- 10 2.2.2 RDF SCHEMA ---------------------------------------------------------------------------------------------------------------- 12

    3 LE ONTOLOGIE ------------------------------------------------------------------------------------------------------------- 14

    3.1 DEFINIZIONE DI ONTOLOGIA --------------------------------------------------------------------------------------------------- 14 3.2 OWL (ONTOLOGY WEB LANGUAGE) ---------------------------------------------------------------------------------------- 15

    BIBLIOGRAFIA --------------------------------------------------------------------------------------------------------------------- 18

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    3 di 18

    1 Introduzione La rete Internet e il Web richiedono applicazioni e strumenti complessi per sfruttare a pieno

    le proprie potenzialità. Solo studiando le caratteristiche della rete ed analizzando le applicazioni

    esistenti per la produzione, la trasmissione e la condivisione del sapere si possono proporre dei

    modelli che superino quelli esistenti, consolidati ed affinati in secoli di storia.

    Le biblioteche, intese come luogo di conservazione e trasmissione del sapere, sono infatti

    nate già nell’antico Egitto ed a quel periodo risale anche il concetto di Biblioteca Universale poi

    consolidatosi fino a raggiungere l’attuale collocazione all’interno del web sotto forma di libreria

    digitale.

    In tale contesto si colloca lo sviluppo di un progetto integrato di biblioteca digitale ed e-

    learning. Se si percepisce la Biblioteca Digitale come spazio informativo in cui persone, collezioni

    digitali e servizi di accesso interagiscono per creare, preservare ed utilizzare i “documenti” digitali,

    essa diviene il luogo in cui i nuovi modi di creazione, diffusione ed interiorizzazione del sapere,

    della conoscenza e di tutti i prodotti dell’intelletto umano trovano la giusta collocazione.

    Il primo uso del termine “libreria digitale” risale al 1998 in un rapporto redatto dalla

    Corporation for National Research Initiatives anche se esso è già comparso in un’iniziativa del

    FS/DARPA/NASA nel 1994.

    Il termine “libreria digitale” è diffusamente applicato a collezioni ed organizzazioni di dati,

    manipolabili e accessibili da una comunità di utenti.

    Una libreria digitale è uno spazio definito del web in cui è possibile rilevare una migliore

    organizzazione e persistenza dei dati.

    Le librerie digitali costituiscono, da un lato, i nodi della rete che organizzano le risorse

    accessibili attraverso la rete stessa, ed in questo caso non si differenziano molto da quelli che

    vengono definiti “portali”, dall’altro possono essere un centro di organizzazione e distribuzione del

    sapere della comunità scientifica che ad essa afferisce.

    Data la definizione di libreria digitale, vediamo ora quali sono le differenze fra le librerie

    digitali e quelle tradizionali.

    Limiti fisici: gli utenti di una libreria digitale non hanno bisogno di spostarsi per

    accedere alle informazioni, è sufficiente che abbiano una connessione a disposizione.

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    4 di 18

    Disponibilità: gli utenti possono accede alle informazioni senza vincoli di orario.

    Accessibilità: la stessa risorsa può essere condivisa da diversi utenti.

    Approccio Strutturale: le librerie digitali consentono l’accesso a contenuti

    strutturati in modo ottimale, ad esempio è possibile spostarsi facilmente dall’indice

    di un particolare libro ad un capitolo in particolare e così via.

    Recupero delle informazioni: l’utente è in grado di utilizzare qualsiasi chiave di

    ricerca (parola, frase, titolo, nome, soggetto) per cercare l’intera collezione. Le

    librerie digitali prevedono un’interfaccia user-friendly che facilita l’accesso alle sue

    risorse.

    Conservazione: una copia esatta dell’originale può essere fatta un numero indefinito

    di volte senza perdita di qualità.

    Spazio: considerando che le biblioteche tradizionali hanno uno spazio di

    memorizzazione limitato, le librerie digitali hanno il potenziale di poter memorizzare

    molte informazioni, per il semplice fatto che le informazioni digitali richiedono poco

    spazio fisico.

    Networking: la libreria digitale prevede dei link alle risorse di qualsiasi altra libreria

    digitale; questo consente la condivisione delle risorse integrate.

    Costo: in teoria, il costo per gestire una libreria digitale è molto basso rispetto a

    quello richiesto dalla gestione di una libreria tradizionale.

    In particolare, una libreria tradizionale deve spendere molto per:

    La paga dello staff;

    La manutenzione dei libri;

    L’acquisto di nuovi libri etc.

    Sebbene le librerie digitali non hanno questi costi, è stato provato che esse possono

    essere non meno espansive nel loro modo di operare.

    Le librerie digitali incorrono in costi elevati per:

    la conversione del materiale cartaceo in formato digitale;

    la manutenzione da parte dello staff di tali materiali;

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    5 di 18

    la gestione dei servizi di rete quali server, larghezza di banda etc.

    Le informazioni in una libreria digitale devono spesso migrare verso le nuove tecnologie.

    Questo processo ha come conseguenza costi elevati in merito all’hardware e la formazione del

    personale.

    Ricerca in una libreria digitale

    Molte librerie prevedono un’interfaccia di ricerca delle risorse così dette deep_web (risorse

    web non indicizzate), dal momento che spesso non possono essere localizzate dal crawler

    (programma che “sfoglia” in modo automatico il World Wide Web) dei motori di ricerca.

    Alcune librerie digitali creano delle pagine speciali (sitemaps) per consentire di trovare tutte

    le risorse ad essa appartenenti.

    Spesso le librerie digitali, per condividere le loro informazioni con latre librerie digitali,

    utilizzano l’Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH).

    Si tratta di un protocollo utilizzato per raccogliere la descrizione di record di matadati in un

    archivio, in modo tale che i servizi possano essere costruiti utilizzando i metadati provenienti da

    archivi differenti.

    Il protocollo è di solito denominato OAI.

    Ci sono due strategie generali per la ricerca in una libreria digitale:

    1. ricerca distribuita

    2. ricerca di metadati precedentemente raccolti.

    La ricerca distribuita tipicamente coinvolge un client che invia, in parallelo, richieste

    multiple di ricerca ad un certo numero di server.

    I risultati vengono raccolti, i duplicati vengono eliminati o raggruppati, e i restanti items

    vengono memorizzati e restituiti al client. In una tale ricerca solitamente è utilizzato il protocollo

    Z39.50 (protocollo client-server per la ricerca e il recupero di informazioni da un database di un

    computer remoto).

    Un vantaggio di questo approccio è che l’indicizzazione e la memorizzazione delle risorse

    sono a carico dei server.

    http://en.wikipedia.org/wiki/Open_Archives_Initiative_Protocol_for_Metadata_Harvesting

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    6 di 18

    Uno svantaggio di tale approccio è che il meccanismo di ricerca è limitato dalle differenti

    indicizzazioni, e l’enorme dimensione dei database che rende complicato assemblare risultati

    partendo da un numero rilevante di item trovati.

    La ricerca di metadati precedentemente raccolti si basa su un indice di informazioni,

    memorizzato localmente e precedentemente costruito.

    Quando viene effettuata una ricerca, il meccanismo di ricerca non ha bisogno di effettuare

    connessioni con le librerie digitali in cui sta cercando; esso ha già una rappresentazione locale delle

    informazioni.

    Questo approccio richiede la creazione di un indice ed un meccanismo di raccolta che opera

    regolarmente, collegandosi a tutte le librerie digitali ed interrogando tutte le collezioni al fine di

    scoprire nuove risorse ed aggiornare quelle già esistenti.

    OAI-PMH è di frequente usato dalle librerie digitali per consentire la raccolta dei metadati.

    Un vantaggio di questo approccio è che il meccanismo di ricerca ha pieno controllo sugli

    algoritmi di indicizzazione e classificazione, consentendo così dei risultati più consistenti.

    Lo svantaggio è che i sistemi di raccolta ed indicizzazione sono costituiti da molte risorse e

    quindi sono costosi.

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    7 di 18

    2 Il web semantico

    2.1. Introduzione

    Il concetto di web semantico è stato introdotto nel 2001 da Tim Berners-Lee, ideatore del

    World Wide Web.

    Per chiarire tale concetto cominciamo analizzando brevemente il web attuale: un insieme di

    documenti collegati tra di loro che costruisce una fitta rete di informazioni.

    Le modalità di definizione dei contenuti ed i collegamenti tra i documenti sono soltanto

    modalità sintattiche. Questo significa che un browser può solo seguire un collegamento senza capire

    la relazione tra la pagina corrente e quella di destinazione.

    Un motore di ricerca può provare a classificare i contenuti basandosi unicamente sugli

    elementi sintattici, cioè il testo contenuto nei documenti ed il markup.

    Il web semantico si propone di catturare il significato dei contenuti e delle reciproche

    relazioni migliorandone la loro fruizione.

    Nel web semantico non si parla di documenti e collegamenti, ma bensì di risorse e

    relazioni. Le risorse sono insiemi di informazioni omogenee e catalogabili, mentre le relazioni

    stabiliscono il legame semantico tra le risorse. Potremmo ad esempio creare una relazione tra:

    un articolo con il suo autore;

    un autore con il suo curriculum;

    un autore con l’insieme dei suoi libri.

    Affinché il web attuale possa diventare web semantico è necessario che ciascun documento

    diventi una risorsa e ciascun collegamento esprima una relazione. In sintesi, oltre al contenuto

    sintattico in sé, i documenti dovrebbero fornire informazioni sul proprio contenuto: i cosiddetti

    metadati.

    Per quanto riguarda standard e tecnologie, il web semantico va inteso come una struttura “a

    gradini”: uno stack formato da più componenti in cui ogni livello è la base per gli standard definiti

    ai livelli superiori.

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    8 di 18

    Figura 1: Architettura del web semantico

    Esaminiamo ora brevemente la piramide partendo dalla base:

    Unicode: si tratta di un sistema di codifica che assegna una sequenza di bit a ogni

    carattere indipendentemente dal programma, dalla piattaforma e dalla lingua.

    Attraverso Unicode è possibile rappresentare i caratteri usati in quasi tutte le lingue

    vive e in alcune lingue morte, nonché simboli matematici e chimici, cartografici,

    l'alfabeto Braille, ideogrammi etc..

    URI (Uniform Resource Identifier): è una stringa che identifica una risorsa nel web

    in maniera univoca.

    XML, Namespace e XML Schema: XML fornisce un insieme standard di regole

    sintattiche per modellare la struttura di documenti e dati. XML Schema è un

    documento XML che utilizza un insieme di tag speciali per definire la struttura di un

    documento XML. Infine un Namespace non è altro che un insieme di nomi, di

    elementi e/o attributi individuati in modo univoco da un identificatore.

    RDF e RDF Schema: RDF (Resource Description Framework) fornisce un insieme

    di regole per definire informazioni descrittive sui dati. RDF Schema fornisce, a sua

    volta, un metodo per combinare queste descrizioni in un singolo vocabolario.

    OWL (Ontology Web Language): è un linguaggio di markup utilizzato per

    rappresentare esplicitamente significato e semantica di termini con vocabolari e

    relazioni tra essi. Tale rappresentazione dei termini e delle relative relazioni

    costituisce una ontologia.

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    9 di 18

    Fino a questo livello abbiamo brevemente identificato le tecnologie sottostanti il processo di

    rappresentazione della conoscenza. I gradini più elevati della piramide sono occupati da tecnologie

    ancora in evoluzione.

    Logica, Prova e Fiducia: affinché il web Semantico possa concretamente aiutarci estraendo

    autonomamente informazioni utili dalla enorme quantità di documenti web registrati

    semanticamente, sarà indispensabile costruire un potente linguaggio logico per realizzare le

    inferenze. I risultati ottenuti saranno validati attraverso motori di validazione costituiti da sequenze

    di formule derivate da assiomi. Infine il sistema restituirà solo quelle informazioni che secondo il

    richiedente proverranno da utenti di indubbia attendibilità.

    Gli altri elementi fondamentali sono rappresentati da:

    Agenti intelligenti: programmi capaci di eseguire compiti definiti da un utente in

    modo autonomo.

    Firma digitale: garantisce, basandosi su di un sistema crittografico, l’autenticità

    delle varie asserzioni e permette di scoprire la loro provenienza. Spetta poi all'utente

    istruire il software del proprio computer di quali firme digitali fidarsi.

    Metadati: sono informazioni relative ai dati, tramite le quali è possibile ricavare

    delle informazioni sulla risorsa a cui sono associate. Ad ogni risorsa disponibile sul

    web dovrebbe essere associata una precisa descrizione.

    Resource Description Framework

    L’evoluzione del web in web semantico comincia con la definizione, da parte del W3C

    (associazione fondata da Tim Berners Lee con lo scopo di migliorare gli esistenti protocolli e

    linguaggi per il world wide web e di aiutare il web a sviluppare tutte le sue potenzialità) dello

    standard Resource Description Framework (RDF), una particolare applicazione XML che

    standardizza la definizione di relazioni tra informazioni.

    Attualmente, l’informazione contenuta all’interno di una qualsiasi risorsa, è strutturata in

    modo da essere "machine-readable" (leggibile da una macchina) ma non "machine-understandable"

    (comprensibile da una macchina). La mancanza di una caratterizzazione semantica pone infatti un

    limite nelle operazioni di elaborazione automatica delle informazioni sul web.

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    10 di 18

    Al fine di colmare le lacune che impediscono alla macchina di interpretare l’informazione

    possono essere utilizzati metadati, cioè descrizioni aggiuntive ai dati. Questa è appunto la funzione

    di RDF che, ispirandosi ai principi della logica dei predicati e ricorrendo agli strumenti tipici del

    web (URI) e dell’XML (namespace), introduce un formalismo per la rappresentazione di

    metadati.

    L’idea è quella di avvalersi di una struttura dati organizzata come un grafo orientato in cui i

    nodi rappresentano le risorse (soggetto e oggetto), mentre gli archi le relazioni (predicato).

    Come accennato, in RDF le informazioni sono esprimibili con asserzioni costituite da triple

    formate da:

    Soggetto: ciò di cui si parla;

    Predicato: è la proprietà, l’attributo, la caratteristica che si vuole descrivere;

    Oggetto: è il valore della proprietà;

    Le asserzioni RDF possono essere rappresentate graficamente, in particolare:

    una risorsa viene rappresentata con un’ellisse;

    le proprietà vengono rappresentate come archi etichettati;

    i valori corrispondenti a sequenze di caratteri vengono rappresentati come rettangoli.

    Figura 2: Rappresentazione delle asserzioni

    2.2.1 RDF Data Model

    RDF mette a disposizione un semplice modello per descrivere le risorse, basato su tre tipi di

    oggetti:

    Risorsa: termine con il quale si fa riferimento a qualsiasi cosa descritta da un’espressione RDF.

    Proprietà: è una caratteristica o una relazione utilizzata per descrivere una risorsa.

    http://it.wikipedia.org/wiki/XML

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    11 di 18

    Asserzione: Una risorsa, con una proprietà distinta da un nome, e un valore della proprietà

    per la specifica risorsa, costituisce un’asserzione RDF.

    Rispetto ad XML, RDF presenta alcuni vantaggi, come ad esempio la possibilità di definire

    facilmente il tipo e le proprietà degli oggetti.

    RDF limita ed evidenzia alcune caratteristiche di XML per renderlo un linguaggio rivolto

    alla descrizione di un oggetto, delle sue proprietà, e delle relazioni con gli altri oggetti.

    In particolare, le differenze tra RDF e XML sono:

    RDF è stato progettato appositamente per esprimere metadati. XML può anche

    essere usato per descrivere metadati, ma generalmente ha un rapporto molto più

    stretto con i dati. RDF esprime metadati nel senso più proprio, ovvero descrive

    contenuti di un documento che in esso non sono presenti.

    XML è fondato su una struttura ad inclusione che consente di esprimere in

    maniera semplice le relazioni di parentela ma che presenta dei limiti per la

    definizione di altre relazioni.

    Spesso è necessario far riferimento a più di una risorsa, ad esempio per esprimere che un

    libro è stato scritto da più autori oppure per elencare gli iscritti ad un corso, a tal fine in RDF è

    possibile definire i contenitori.

    RDF distingue tre tipi di oggetti contenitori:

    Proprietà 1

    Proprietà

    3 Proprietà

    4

    Proprietà

    5

    Risorsa 1 Risorsa 1

    Risorsa 2

    Risorsa 3 Valore

    Valore

    Valore

    Valore

    Proprietà

    2

    Proprietà 6

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    12 di 18

    Bag

    Sequence

    Alternative

    Un contenitore di tipo bag è una lista non ordinata di risorse utilizzata per dichiarare che una

    proprietà ha valori multipli e che l’ordine con cui questi valori sono inseriti non è rilevante. Questi

    tipi di contenitori ammettono valori duplicati.

    Un contenitore di tipo sequence, invece, è una lista ordinata di risorse usata per dichiarare

    che una proprietà ha valori multipli e che l’ordine dei valori è rilevante. Tale contenitore potrebbe

    essere usato, ad esempio, per conservare un ordine alfabetico dei valori. Sono ammessi valori

    duplicati.

    Infine un contenitore di tipo alternative è una lista di risorse che rappresenta un elenco di

    alternative al valore (singolo) di una proprietà. Esso potrebbe essere utilizzato, ad esempio, per

    indicare traduzioni in altre lingue del titolo di un’opera, o per fornire una lista di siti Internet nei

    quali è reperibile la risorsa. Un’applicazione che utilizza una proprietà il cui valore è un raccolta di

    tipo alternative sa di poter selezionare uno fra gli oggetti presenti nella lista.

    2.2.2 RDF Schema

    Quando si utilizza RDF per descrivere gli elementi di uno specifico dominio è necessario

    prendere in considerazione la natura del dominio. Questo significa che il dominio interessato deve

    essere considerato in termini “reali”, in quanto, le categorie, le relazioni fra gli elementi del dominio

    e le regole che stabiliscono tali relazioni devono avere determinate caratteristiche per poter essere

    considerate “valide”.

    RDF Schema consente di definire il significato e le caratteristiche delle relazioni esistenti fra

    le risorse, descritte nel data model RDF, e le loro proprietà. Esso mette a disposizione un insieme di

    risorse e proprietà predefinite che prende il nome di “vocabolario” attraverso il quale è possibile

    definire particolari vocaboli e creare relazioni tra gli oggetti.

    I concetti resi disponibili da RDF Schema sono:

    Classe e SottoClasse

    SottoProprietà

    Dominio e Codominio di una Proprietà

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    13 di 18

    Commenti, Etichette ed Informazioni Addizionali

    In conclusione, un RDF Schema consente di dare un significato ai diversi termini impiegati

    nelle asserzioni RDF, inoltre, esso mette a disposizione un meccanismo di specializzazione delle

    proprietà definendone i vincoli di applicabilità e organizzandole gerarchicamente, consentendo in

    questo modo di aggiungere connessioni (relazioni) tra molteplici risorse permettendo di fatto

    l’estensione del significato (semantica).

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    14 di 18

    3 Le ontologie

    3.1 Definizione di ontologia

    Per raggiungere l'obiettivo prefissato dal web semantico occorre utilizzare l’ontologia.

    L’ontologia nasce come disciplina strettamente filosofica, distante dal mondo delle

    tecnologie.

    Negli ultimi anni, invece, l’espandersi della comunicazione in rete ha consentito agli aspetti

    ontologici dell’informazione di assumere un valore strategico.

    Inizialmente, le ontologie furono sviluppate nel settore dell’intelligenza artificiale al fine di

    facilitare la condivisione e il riuso della conoscenza.

    Un’ontologia, in informatica, è un insieme gerarchicamente strutturato di termini che

    descrive un dominio e che può essere utilizzato come schema per una base di conoscenza.

    Nell’ambito del web semantico, Tim Berners-Lee definisce un’ontologia come un file

    contenente la descrizione formale delle relazioni esistenti tra particolari termini.

    Lo scopo del web semantico è quello di utilizzare un vocabolario condiviso la cui semantica

    sia descritta in un formato non ambiguo e processabile da una macchina, compito affidato alle

    ontologie.

    Un’ontologia fornisce quindi una concettualizzazione esplicita che descrive la semantica dei

    dati. La sua funzione è paragonabile a quella di un database ma con diverse differenze:

    i linguaggi utilizzati per definire le ontologie hanno una struttura sintattica ed una semantica

    molto più ricca rispetto al database;

    un’ontologia deve usare una terminologia comune e concordata, affinché possa essere usata

    (e riusata) per la condivisione e lo scambio di informazioni;

    un’ontologia fornisce la teoria per un dominio e non la struttura per un contenitore di dati;

    offre quindi non solo la rappresentazione, ma anche un punto di vista sul dominio

    esaminato.

    Le Ontologie servono quindi a:

    Separare la conoscenza dichiarativa sul dominio dalla conoscenza procedurale, e rendere

    perciò il sistema indipendente dall'applicazione e quindi esportabile in altri domini;

    Condividere una comprensione comune della struttura dell'informazione in un gruppo:

    interoperabilità, moduli accessibili anche da applicazioni esterne;

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    15 di 18

    Fornire un vocabolario comune: interoperabilità semantica. (Due sistemi, facendo

    riferimento all'ontologia, possono comunicare anche se usano formati diversi di

    rappresentazione della conoscenza)

    Esplicitare le assunzioni sul dominio: modellizzazione della conoscenza del dominio. Esistono differenti tipi di ontologia:

    Top-level ontologies: concetti molto generali o comune senso di conoscenza, sono

    indipendenti dal dominio;

    Domain ontologies: vocabolario relativo ad un generico dominio (esempio: medicina,

    fisica);

    Task ontologies: vocabolario relativo ad un generico task o attività (esempio: diagnostica,

    vendite);

    Application ontologies: conoscenza proveniente da domain e task ontologies, è

    generalmente la loro specializzazione.

    Secondo Berners-Lee, la tipica ontologia per il web è formata da una tassonomia e da una

    serie di regole di inferenza che specificano ulteriormente le relazioni tra i termini stessi. Le

    tassonomie definisco classi e sottoclassi di oggetti, le loro proprietà e le relazioni tra di essi.

    La presenza di ontologie sul web può risolvere, ad esempio, problemi sul significato dei

    termini presenti nelle pagine e di conseguenza sulla comprensione del contenuto delle pagine stesse.

    In particolare, è possibile definire le ontologie come delle raccolte di classi e di nuove

    proprietà, reperibili sul web ad un determinato indirizzo.

    Al fine di esprimere formalmente le ontologie sono stati sviluppati diversi linguaggi, tra cui

    DAML-OIL e OWL (Ontology Web Language).

    3.2 OWL (Ontology Web Language)

    L’Ontology Web Language (OWL), sviluppato dal W3C, è un linguaggio utilizzato per

    definire e istanziare le ontologie web. Esistono tre diverse versioni di OWL, divise a seconda di

    complessità e potere espressivo crescenti.

    OWL-Lite è la versione sintatticamente più semplice. Attraverso OWL-Lite è

    possibile definire gerarchie di classi e vincoli poco complessi.

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    16 di 18

    OWL-DL è una versione intermedia. Offre un potere espressivo elevato e conserva la

    decidibilità (tutte le computazioni vengono concluse in un tempo finito) e la

    completezza computazionale (tutte le conclusioni risultano infatti computabili).

    OWL-Full, infine, offre la massima espressività, ma non offre alcuna garanzia circa

    la completezza e la decidibilità (a differenza di OWL-DL).

    Ciascuna di queste versioni è un'estensione della versione più semplice, sia in ciò che può

    essere espresso sia in ciò che può essere validamente concluso.

    Gli sviluppatori di ontologia che adottano OWL valutano quale sottolinguaggio si addice

    meglio ai loro bisogni. La scelta tra OWL Lite e OWL DL dipende dal grado di necessità degli utenti

    di aver bisogno delle strutture più espressive fornite da OWL DL. La scelta tra OWL DL e OWL Full

    dipende soprattutto dal grado di necessità degli utenti di aver bisogno degli strumenti di meta-

    modeling dello Schema RDF. In confronto a OWL DL, il supporto di ragionamento, quando si usa

    OWL Full, è meno prevedibile poichè attualmente non esistono implementazioni complete di OWL

    Full.

    OWL Full può essere considerato come una estensione di RDF, mentre OWL Lite e OWL DL

    possono essere considerate come una estensione di una visione limitata di RDF.

    Ogni documento OWL (sia esso Lite, DL o Full) è un documento RDF, ed ogni documento

    RDF è un documento OWL Full, ma solo alcuni documenti RDF saranno un documento OWL Lite

    oppure OWL DL. A causa di questo, si deve fare attenzione quando si vuole trasformare un

    documento RDF in OWL. Quando l'espressività di OWL DL o OWL Lite è ritenuta appropriata,

    alcune precauzioni devono essere prese per assicurare che il documento originale osservi le

    limitazioni addizionali imposte da OWL DL e OWL Lite.

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    17 di 18

    Un’ontologia OWL si basa su tre componenti fondamentali: individui, proprietà e classi.

    Gli individui rappresentano gli oggetti appartenenti al dominio di interesse, le proprietà sono

    relazioni binarie tra individui, le classi rappresentano gruppi di individui.

    La figura mostra un esempio in cui sette individui (Marco, Franco, Luisa, Napoli, Salerno,

    Roma, Bari) sono raggruppati in due classi (Persone e Città) e relazionati attraverso tre tipi di

    proprietà (haFiglio, haMoglie e lavoraInCittà). Gli individui sono rappresentati come piccoli tondi

    pieni, le classi come ovali vuoti e le proprietà come archi direzionati.

    Una ontologia costruita su questo esempio ci direbbe che: Marco, Franco e Luisa sono

    Persone, Napoli, Salerno, Roma e Bari sono Città. Marco ha un figlio che si chiama Franco, Franco

    ha una moglie che si chiama Luisa e Marco lavora a Roma.

    Le classi OWL possono essere organizzate in gerarchie e divise quindi in superclassi e

    sottoclassi dette tassonomie. Nel nostro esempio, dalla classe Persone è possibile derivare due

    sotto-classi: Donne e Uomini. Affermare che Uomini è una sottoclasse di Persone equivale a dire

    che tutti gli Uomini sono Persone.

    lavoraInCittà

    Città

    Roma

    Napoli

    Salerno

    Bari

    Persone

    Marco

    Franco

    Luisa

    haFiglio

    haMoglie

  • Università Telematica Pegaso Organizzazione di contenuti multimediali e web semantico

    Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente

    vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore

    (L. 22.04.1941/n. 633)

    18 di 18

    BIBLIOGRAFIA

    BERNERS-LEE T. (2001), “L'architettura del nuovo Web”, Feltrinelli, Milano.

    BERNERS-LEE T., HENDLER, LASSICA O. (2001), “The Semantic Web”.

    RANIERI M., MANGIONE G. R. (2007), “Il Web 2.0 al TICEMED 200/, in "Je-LKS.

    Journal of e-Learning and Knowledge Society", vol. 3, n. 2, pp. 139-42.

    LEE W. LACY, “OWL: representing information using the web ontology language”.

    SHELLEY POWERS, “Practical RDF”.

    4