Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf ·...

20
12/12/17 1 Linked Open Data e Web semantico Contenuti della lezione 1. Cosa sono i linked open data (LOD). Linked data e Web semantico 2. Il modello RDF 3. Vocabolari e ontologie. 4. Annotare siti web professionale. AIB Piemonte 1. linked data e web semantico Cosa sono i linked data? Linked open data= ‘buone pratiche’ per pubblicare e collegare dati strutturati sul Web (Tim Berners Lee) Pubblicare sul Web i dati in una modalità interpretabile da una macchina, il cui significato è definito da una stringa di marcatori (‘tripla’) per costituire un reticolo di dati collegati tra loro appartenenti a un dominio e collegabili ad altri dataset relativi ad altri domini presenti nel Web. Si costruisce così una rete di dati globale, i cui contenuti possono essere scambiati e interpretati dalle macchine, ovvero la base per il Web semantico (*Berners-Lee; Hendler; Lassila 2001, Guerrini; Possemato 2012) «creare dati che siano ‘del Web’ e non solo ‘sul Web’» (Coyle 2013) Di cosa stiamo parlando? ØNecessità di utilizzare dati ØAperti : gli OD sono dati che possono essere liberamente utilizzati, ridistribuiti da chiunque, (con poche limitazioni: citare la fonte, o tramite licenze copyleft tipo creative commons) ØCollegati: il rilascio di dati aperti non basta da solo a valorizzare e collegare l’informazione, questi devono essere collegati ad altri dati ØRiutilizzabili: essendo interpretabili e scambiabili da macchine «I have a dream for the Web...» Tim Berners-Lee 1999 Non ha come obiettivo di rivoluzionare il web esistente. Non propone un web parallelo all’esistente, e’ un evoluzione del web attuale Il semantic web e’ un iniziativa del World Wide Web Consortium (W3C). Idea di Tim Berners-Lee, la persona che ha inventato il web alla fine degli anni Ottanta http://www.sciam.com/article.cfm?id=the-semantic-web Semantic Web

Transcript of Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf ·...

Page 1: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

1

LinkedOpenDataeWebsemantico

Contenutidella lezione

1. Cosasonoilinkedopendata(LOD).LinkeddataeWeb semantico2. Ilmodello RDF3. Vocabolarieontologie.4. Annotaresitiweb

professionale.AIB Piemonte

1.linkeddata eweb semantico

Cosasonoilinked data?

Linkedopendata=‘buonepratiche’perpubblicareecollegaredatistrutturatisulWeb(TimBerners Lee)

Pubblicare sul Web i dati• in una modalità interpretabile da una macchina,• il cui significato è definito da una stringa di marcatori (‘tripla’)• per costituire un reticolo di dati collegati tra loro appartenenti a un

dominio e collegabili ad altri dataset relativi ad altri domini presentinel Web.

Si costruisce così una rete di dati globale, i cui contenuti possonoessere scambiati e interpretati dalle macchine, ovvero la base per ilWeb semantico (*Berners-Lee; Hendler; Lassila 2001, Guerrini; Possemato 2012)

«creare dati che siano ‘del Web’ e non solo ‘sul Web’» (Coyle 2013)

Dicosastiamo parlando?

ØNecessitàdiutilizzare datiØAperti:gliODsonodatichepossonoessereliberamenteutilizzati,ridistribuitidachiunque,(conpochelimitazioni:citarelafonte,otramitelicenze copyleft tipo creativecommons)

ØCollegati:ilrilasciodidatiapertinonbastadasoloavalorizzare ecollegarel’informazione,questidevonoesserecollegatiadaltri dati

ØRiutilizzabili:essendointerpretabiliescambiabilidamacchine

«Ihaveadreamforthe Web...»TimBerners-Lee 1999

Nonhacomeobiettivo dirivoluzionare il webesistente.Nonpropone unwebparallelo all’esistente,e’unevoluzione delwebattualeIlsemanticwebe’uniniziativa delWorldWideWebConsortium(W3C).IdeadiTimBerners-Lee,lapersonache hainventato il weballa finedegli anni Ottanta

http://www.sciam.com/article.cfm?id=the-semantic-web

Semantic Web

Page 2: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

2

IlSemantic Web

Proposto da Tim Berners Lee nel 2001 come Web pensante, versioneavanzata dell’intelligenza collettiva.ØEvolvereilWebattuale«machinereadable»inunnuovo Web«machine understandable».

ØCreazionediunaretesemanticacheconsentaaicomputerdigestireautonomamenteleinformazionieimparareprocessipersviluppareunacooperazioneefficacetral’uomoele macchine.

Agentiintelligenti:Ø comprendonoilsignificatodelle risorse informativepresentiin reteØColleganoleinformazioniinbasearelazionilogicheesemanticheeffettuandoragionamenti deduttivi.

IlSemantic Web

Ø«un’estensionedelWebattuale,nellaqualeall’informazionevienedatounsignificatobendefinito,permettendocosìaicomputereallepersonedilavoraremeglioincooperazione»(Berners-Lee;Handler;Lassila 2001)

ØAssociare all’informazione un ben preciso significato in modo dasupportare una comunicazione uomo-macchina più efficace emigliorare l’interoperabilità tra sistemi informativi

DalWWWalWeb Semantico

Con il termine ‘Web semantico’ si intende la trasformazione delWorld Wide Web in un ambiente in cui i documenti sonoprovvisti di metadati che ne connotano semanticamente ilcontenuto in un formato adatto all’interrogazione eall’elaborazione da parte delle macchine.

(Wood et al. 2013)

10

Secondo il gruppo di ricerca sul Semantic Web del W3C, il Web semantico ha essenzialmente lo scopo di creare una piattaforma per la condivisione e il riuso della conoscenza.

“The Semantic Web provides a common framework that allowsdata to be shared and reused across application, enterprise,and community boundaries.” [1]

[1] SemanticWeb Activity, W3C http://www.w3.org/2001/sw/

Semantic Web iniziative

11

Informazioni processabili dalle macchine soloperscopi– distrutturazione eformattazione (XHTML)– evisualizzazione (CSS)

manonsemantici:inundocHTMLnonc’è nulla inche indichil’argomento trattato olafonte delle informazioni.

WWW: rappresentazione della conoscenzaDalWWWalWeb Semantico

ØAd ogni informazione viene datounsignificatoben definito

(formalizzato)

ØObiettivo:trovareunlinguaggiologicoperesprimereilsignificatideidatieconsentireilragionamento automatico

ØIl Semantic Web è un Web interpretabile dallemacchine

Page 3: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

3

Il Web come attualmente lo conosciamo è privo di struttura semantica dell’informazione, è l0utilizzatore umano che percepisce il livello semantico dellerisorse web, mentre le applicazioni sonoesclusivamente in grado di “comprenderne” la sintassi.La visione del Semantic Web si propone invece di associare alle risorse una struttura semanticacarattterizzando le risorse e le loro relazioni. In questomodo la semantica dell’infromazione diventa machine understandable.

14

Impossibile trovare nel file la parte immagine con ID relazione rId3.Processabilita’• rendere l’informazione accessibile in maniera

automatica ad agenti software

• permettere ragionamento automatico

Disambiguazione

• ottenere da una ricerca sul Web risultati piu’ precisi(sinonima, polisemia)

Interoperabilita’

• scambio conoscenza indipendente da piattaforme e formalismi proprietari

• favorire l’integrazione dei contenuti da sorgentidiverse

Obiettivi del Sem WebObiettivi del Sem Web

15

Impossibile trovare nel file la parte immagine con ID relazione rId3.- le informazioni non hanno

struttura semantica– la semantica (implicita) è

human understandable– le applicazioni possono

‘comprendere’ solo la sintassi– presentazione per umani

Impossibile trovare nel file la parte immagine con ID relazione rId3.

– associa alle risorseuna struttura semantica

– caratterizza le risorse e le relazioni associandogli un significato particolare

– Processamento da applic.

SyntacticWebvsSemanticWeb

Impossibile trovare nel file la parte immagine con ID relazione rId3.

16

Caratteristica Web attuale Semantic Web

Linguaggio di markup

HTML linguaggi XML-based

Formalità e Strutturazione

Documenti non strutturati

Documenti strutturati.

Semantica Semantica implicita Significato espresso esplicitamente (metadati)

Relazione traforma e contenuto

contenuto e forma: XHML + CSS

Organizzazione a più livelli di contenuto e forma: XHML, rdf + CSS

Evoluzione Documenti statici Documenti dinamici

Composizione Siti web monolitici e indipendenti

Aggregazione e adattamento dei contenuti:.

Destinatari fruizione degli umani.

fruibile sia dagli umani sia dalle macchine (web services)

17

Impossibile trovare nel file la parte immagine con ID relazione rId3.

DATIDATI DATI DATIWEB

ATTUALE

Semantic Web layer

18

Ilprogetto delWebsemantico prevede larealizzazione diunmodello comune dirappresentazione dell’informazionecomprensibile dalle macchine– condiviso– espressivo– non ambiguo

Perfornire disemantica il Webè necessario mutare lamodalitàdirappresentazione delle informazioni.

fornendo una marcatura semantica:aggiungere ai dati uno strato di“meta-dati”,informazioni supplementari sul loro significato

Rappresentazione della conoscenza nelSemanticWeb

Page 4: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

4

19

IDEACHIAVEdelSemWeb

SchemiEsprimono le relazioni fra

concetti di un dominio

annotare semanticamente le risorse Web con metadati

Dati Risorse distribuite nel Web

Metadati Associano i dati ai concetti dello schema

IlWebSemantico

Websemantico=rendereidati processabili

Øidentificatorinonambiguichepermettanoancheunaassociazionetraidatieglioggettidelmondoreale (URI);

Øunmodellocomuneperidatiinmododaaccedere,connettere edescriveretalioggetti (RDF);

Øunlinguaggioperaccedereaquestomodellodeidati (SPARQL);Øunvocabolariocomune (ontologie) (RDFS,OWL)Øunalogicaperilragionamento(OWL, RULES)

/2015

Websemanticoelinked data

PossiamodistingueredueprincipalifasidelWeb Semantico• laprimafase(1999-2006)dominatadaunapproccio‘forte’esintetico(topdown)dell’ontologiafondazionaleintesocomesistemadirappresentazionedellaconoscenzaa priori;• lasecondafase(2006-incorso)governatadall’ approccio‘debole’(bottomup)deiLinked data.

/2015

Approccioforte- le ontologie

Leontologiesonoconcettualizzazionidiporzionidiconoscenza(domini).ØLeontologiefondazionalisonointerdisciplinariecostituisconolabaseperlacreazionedelWeb semantico

ØLeontologiedidominioinvecemodellanospecificheporzionidelsapereindividuandoleentitàdiinteresseelelororelazionieperesserepienamenteoperativedovrebberobasarsisulle prime.

Entrambehannolafunzionedidisambiguareterminimediantela‘categorizzazione’deglioggettiodellecose,cioètramitel’inserimentodiquestiincategorie stabilite,inrelazioneconaltrecategorieUsatenelcampodellaKnowledgeOrganizationservonoamigliorareglistrumentidiricerca,mapurtroppohannoscarsa applicazione

L’approccioforte- le ontologie

L’originariavisionediTimBernersLeeèdetta‘approccioforte’.Essasibasasuunaseriediontologiefondazionali(ovveroschemigenerali)esuunaseriedialtreontologiepiùspecifiche(didominio)chefannoriferimentoalle prime.Attraversodiesseresicreaunreticoloontologico,ovverounsubstratodiontologieingradodimodellareerappresentarela conoscenza.Unaseriediagentiintelligentiavrebberousatoquesteontologieperinterpretareilcontenutodelwebecrearenuoviservizisullabasediquesti.Purtroppoquestoapprocciodall’altoavevaunaseriedilimitisiatecnologici(proliferazionediontologienonpiùcontrollabili),siaetico-filosofici(comemodellareilmondoeil Web)

L’approccio‘debole’:ilinked data

Rispettoall’originariodisegnodelWebsemantico,chesibasavasullapossibilitàdisvilupparel’intelligenzaartificialetramitel’usodiagentiintelligentiesubstratoontologicocreatoeimposto‘dall’alto‘,ilparadigmadeilinkedopendataèunapproccio‘dal basso’Ø‘Debole’:poichéall’imposizionedall’alto dimodellistrutturatisostituisce l’interoperabilitàdeidati,dunquesiindeboliscel’originariodisegno‘semantico’

Ø‘Bottomup’:icollegamentitralecoseeiconcettisiformano dalbasso

DunquepotremmoaffermarechelenuovetecnologiedelWeb2.0,partecipativeecollaborative,hannoavutouncertopeso nelmodificarel’approcciodibasealWebSemanticoeinaugurare ilnuovocorsodeilinked data.

Page 5: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

5

LinkeddataeWeb semantico

“A causa della natura del World Wide Web come ambiente aperto,decentralizzato e spesso caotico, gli approcci tradizionali allarappresentazione della conoscenza non possono essere direttamenteutilizzabili. Questi sistemi sono in genere stati concepiti in manieracentralizzata, richiedendo a tutti di condividere le stesse definizioni di concetticomuni nel loro vocabolario del discorso. Un controllo centralizzato, tuttavia,può essere soffocante e aumentare la dimensione e il campo di applicazione diquesti sistemi diventa rapidamente ingestibile. In definitiva, i sistemi che sonocostruiti per sfruttare il Web semantico devono accettare che paradossi einformazioni mancanti o contraddittorie sono un prezzo da pagare perottenere la versatilità. […] un obiettivo più pratico e a breve termine dell’ideadi Web semantico, è quella di consentire uno scambio di informazioniflessibile e aperto. In quanto tale l’idea di Linked data può essere pensatacome una forma ‘ridotta o diluita’ della versione originale del Web semantico[…] qualcosa che può essere ottenuto senza un ampio utilizzo di tecnichedell’intelligenza artificiale”. Ora Lassila

OpenDataeLinkedOpenData (LOD)

La tecnologia Linked data è profondamente legata al concetto diapertura dei dati (opennes), che ne costituisce la base intellettuale,tanto che si parla più propriamente di Linked open data (LOD), aidentificare dati non solo collegati, ma ‘aperti’.E’importanteperilSWparlarediLODenonsolodi LDOggi viviamo, infatti, in un ecosistema informativo fortemente basatosui dati; non solo siamo continuamente circondati dai dati, ma essigiocano un ruolo sempre più importante nella vita delle persone:siamo entrati nell’era della data economy (Heath; Bizer 2011).L’importanza dei dati da qualche tempo è stata compresa dalle aziendeche su questi dati hanno costruito i propri successi commerciali.Google, Amazon etc. si basano sui cosiddetti ‘big data’. Questi dati peròsono chiusi, e vengono utilizzati per scopi di business.

LinkeddataeOpen data

Laproduzioneeladomandadidatiè crescenteBisognatrovareimezziperfornirel’accessoerenderepiùfacile ilriutilizzodeidatinelWebsuscala mondialeL’esposizionedeidatiinLODfacilitalascoperta,loscambiol’usoeilriutilizzodei datiØOpendata=rimuoverelebarriereconcettualie intellettualiall’aperturadeidatiealloro utilizzo

ØLinkeddata=rimuoveregliostacolitecnologiciallaliberacondivisionedeidatinel Web

/2015

ILODsonogiàin uso

Lapresenzadidatiapertieriutilizzabilistacreandolepremesseperapplicazionisemprepiù sofisticateLeapplicazionistannocambiandosottoinostriocchigrazieallapresenzadidati‘aperti’e‘collegati’GoogleKnowledge graph

06/03/20

5

DalWebdeidocumentialWebdei dati

ApplicareiLinkedDatavuoldirepassaredaunWebdidocumentia unWebdi dati.

NelWebsemanticononcisonopiùsolodocumentima‘dati’ o‘risorse’:ØOgnidatoèbendefinito,indipendente(atomo)ecollegatoaglialtridati.

ØOgnidatodescrivesestesso (autodescrittivo)

/2015

ILWWWATTUALEÈformato da:oHTMLoUntyped linkso documentioAttraversoHTMLnelWebsicrea ILWebofdocuments,cioèunaretedidocumentiedioggetticonnessitramitelinknonclassificati(nonespliciti).

/2015

A B C D

APIHTML HTML HTML

LINKNONQUALIFICATI

Page 6: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

6

LeAPIei mashups

DIFETTI DELLEAPI:oHannointerfacceproprietarie

oNonsicreanolinktraidatidellevarie API

oE’possibilecrearemashupsdaunnumerobendefinitodifonti

oNo databaseglobale!

/2015

A

API

B

API

C

API

D

API

MASH UP

IlWeb deidati o semantico

/2015

A B C D

thing

thing

thing

thing

thing

thing

thing

thing

Things:cose delmondoreale:persone,luoghioggetti, concetti

Typed links: legamiqualificati relazioniesplicite

Database: A,B,C,D=banchedatientrolequalisonoimmagazzinateedestratteleinformazioni

IlWebdei dati

IlWebdeidati(WebofData)èungigantescografochecollegai diversidatasetpresentiin rete.Idataset=collezionidirisorsetralorocollegateingrafichehannounacaratteristicacomune:copronolostessoambitodisciplinare(datasetgeografici,governativi,bibliografici,dimusica)e/osioriginanodallastessafontedidati(es.dbpediaèundatasetoriginatodaidatidiWikipedia).2007LinkedOpenDataProject,progettodelW3CSemantic WebEducationandOutreachInterestGroupSWEOIG.

Idatiprovengonodadominipubblicio privati.E’necessariorispettareirequisitiespostiin http://lod-cloud.net/

/2015

Requisiti

• Theremustberesolvablehttp://(orhttps://) URIs.• Theymustresolve,withorwithoutcontentnegotiation,toRDFdatainoneofthepopularRDFformats(RDFa,RDF/XML,Turtle,N-Triples).• Thedatasetmustcontainatleast1000 triples.• ThedatasetmustbeconnectedviaRDFlinkstoadatasetthatisalreadyinthediagram.Thismeans,eitheryourdatasetmustuseURIsfromtheotherdataset,orviceversam.Wearbitrarilyrequireatleast50 links.• AccessoftheentiredatasetmustbepossibleviaRDFcrawling,viaanRDFdump,orviaaSPARQL endpoint.

Quantoègrandelanuvoladei LOD?

Apartiredal2007vennecreatoadoperadiduestudiosidiBerlinoilregistroCKAN,natoperospitarelenotizierelativeainuovidatasetchevenivanopubblicatinella nuvolaNel2011RichardCyganiakeAnjaJentzschhannomisuratol’ampiezzadellanuvoladeilodfinoadallorapubblicati(http://lod-cloud.net/state/).Versioneaggiornataal 2014:<http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/>MannheimLinkedDataCatalog conta1917 datasetOgnidatasetpresentenell’immaginedellanuvolalinkaalladescrizionepresentesulportalepredispostodellaUniversityof Mannheim

/2015

LanuvoladeiLODhttp://lod-cloud.net/

Datasetsbytopical domain.Topic Datasets %

Government 183 18.05%Publications 96 9.47%Life sciences 83 8.19%User-generated content 48 4.73%Cross-domain 41 4.04%Media 22 2.17%Geographic 21 2.07%Social web 520 51.28%Total 1014

Page 7: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

7

Dataset:interdisciplinari: DBPEDIAE’unRDfstorecontenentedatistrutturatiautomaticamente estrattidaWikipedia,l’enciclopediacollaborativa online.Estraeidatisemi-strutturatichesonocontenutinellamaggiorpartedegliarticolidiWikipedianellacosiddetta‘infobox”checonsistonoinunaelencazionediparolechiaveeirelativi valoriEs.UnapaginadiWikipedia:Øhttps://en.wikipedia.org/wiki/Stieg_LarssonLacorrispondentepaginadi DbPediaØhttp://dbpedia.org/page/Stieg_Larsson

/2015

http://it.dbpedia.org

http://wiki.dbpedia.org/about

Iprincipalidataset: geografici

Geonames: www.geonames.org/èunaknowledgebaseossiaundatabasegeograficocontenenteoltreottomilioniditoponimidituttiipaesidelglobochesonodisponibiliperildownload gratuitohttp://www.geonames.org/search.html?q=Torino&country=Esponeidativiaweb servicesIldatabaseèaccessibilegratuitamente,ifilessonoscaricabilicomedatadumps(aggiornamento giornaliero)licenzacc-by(creativecommonsattributionslicense),consentitol'usoanchecommercialedei dati

/2015

Iprincipalidataset:governativi, media

ØDatigoverniUSAe BritannicoØInitaliadati.gov.ite dati.piemonte.itØ http://data.gov.uk/data/searchØDatidivariotipo:informazionisultrafficointemporeale,datistatistici(es.obesità),datisullasicurezzadellestrade,indicieconomiciestatistici,‘social trends”)

ØMedia:BBC,BBCWildlifefinder,Nature,NewYork Times

/2015

http://datiopen.istat.it

I linked opendatadell’Istat

ØLapiattaformasperimentaleLinked OpenData(LOD)dell'Istatconsentediaccedereenavigaredatidell’IstitutoNazionalediStatisticainformatoopen,sullabaseditecnologieestandarddelwebsemantico.ILOD,interrogabilidirettamentedaqualsiasiapplicazione,rispondonoalleesigenzeespressedallecomunitàdiutilizzatorididisporredidatistandardizzatieinteroperabili.

2.IPrincipideiLOD

Linked data

ØNuovomododipubblicare,condividere,connettereidatinel WEBØLinkeddatacollegadatio‘cose’enondocumenti testuali;Øicollegamentisono‘qualificati’(typed)cioèesprimonolanaturadellaconnessioneeconsentonodiscoprirealtri dati.

oEs.Torinositrovain PiemonteoDantehascrittoLadivina commediaØAdifferenzadialtrimodelli(es.XML)ognirisorsaècollegata allealtresenzachevisianorisorsepredominantisulle altre.

/2015

Page 8: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

8

Iprincipidei LOD

1.usaregliURIperinomideglioggetti;2.usareHTTPURIsperdaremodoagliutentiditrovarequestinomi;3.unavoltatrovatounURI,fornireinformazioniutili utilizzandostandard(RDFe SPARQL);

4.includerelinksadaltriURIsinmodosichepossanoscoprirepiùcose.

BernersLee (2006)

/2015

1.USAREGLIURI (identificazione)

1.UsaregliURIperinomideglioggetti(o cose)Øle‘cose‘nelSWdevonoessere‘identificate’attraversogli URI(Uniform ResourceIdentifier:sequenzadicarattericheidentificaunivocamenteunarisorsagenerica:indirizzoweb(url),unDOI,ISBN)

ØURIcomenomieaccessi all’informazioneØCos’èunURI?L’URIèunidentificativo persistente.ØAdifferenzadelWebdeidocumentidovesiusanogliURIperidentificareidocumenti,nelWebSemanticosiidentificanononsoloidocumentimaancheoggettidelmondorealeeconcettiastratti

/2015

1.USAREGLIURI (identificazione)

AndrannoidentificatiedotatidiURIanchecoseluoghioggetticoncettipresentiall’internodei documenti:• Persone(es.DanteAlighieri,Barack Obama)• Luoghi(es.Torino,FiumePo,Monte Bianco)• Cose(Jaguar,Apple,battagliadelle Termopili)• Relazionitraoggettieconcetti(es.èamicodi,èautoredi,vive a)

/2015

StiegLarsson http://dbpedia.org/page/Stieg_Larsson

èAutoreDi http://dbpedia.org/ontology/author

Laragazzachegiocavaconilfuoco

http://dbpedia.org/page/The_Girl_Who_Played_with_Fire

DareunURIadogni‘cosa’presentenel Web

Impossibile trovare nel file la parte immagine con ID relazione rId5.

Il libroL’autore

Impossibile trovare nel file la parte immagine con ID relazione rId5.

Èautore di

Impossibile trovare nel file la parte immagine con ID relazione rId5.

Impossibile trovare nel file la parte immagine con ID relazione rId5.

2.USAREURIHTTP (accesso)

Ilsecondoprincipioafferma :• chebisognausaresoloidentificativiHTTP(enonftp,urn,DOIoaltri)per‘rendereaccessibili‘i dati (URL:indirizzoweb)inmodochelemacchine(clienthttp)possanoaccedereattraversoilprotocolloHTTPaunadescrizionedell’oggettoodelconcettoidentificato dall’URI

IlprotocollohttpèunmeccanismodiaccessoerecuperouniversalenelWordWide Web

/2015

USAREURIHTTP (accesso)

• LelineeguidaperpubblicareURIsonostatedettatedal W3C:http://www.w3.org/TR/cooluris/• EsempiodiURI :• Da Dbpedia:• http://www.dbpedia.org/page/Stieg_Larsson• http://www.dbpedia.org/page/Pablo_Picasso• DalsetdielementiDublin Core• http://dublincore.org/documents/2012/06/14/dcmi-terms/?v=elements#creator

/2015

Page 9: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

9

3.UsareRDF (contenuti)

• TutteledescrizionidioggettidestinateallemacchinedevonoessererappresentatedadatiinRDF.

• LedescrizionididocumentiecosesonodunquepresentisulWebindue modalità:

ØHtmlperl’usodapartedelle personeØRdfperl’usodapartedelle macchine.

/2015

3.UsareRDF (contenuti)

Ilterzoprincipioprescrivel’utilizzodiununicomodellodidati(datamodel)perpubblicaredatistrutturatisulWebecioèRDF ,modellodidatiagrafo.• AvanzamentorispettoalWebattualedoveesistonovarimodellididatiperstrutturareleinformazioni(tabellari/CSV/gerarchici(XML)/relazionali (DBMS)

/2015

4.USARELINKRDF(collegarei dati)

Ilquartoprincipioprescrivedicrearelinktrale‘cose’(nontraidocumenti)oILINKIPERTESTUALI:colleganodocumenti,non qualificatioILINKRDF:colleganocose,sonoqualificatio‘tipizzati’cioè indicanolarelazionechesussistetrale cose

ØEs.Antonellaèamicadi MariaØAntonellarisiedein BiellaLecosesucuivengonofatteasserzionivengonodette ‘risorse’

/2015

3.IldatamodelRDF

Ildatamodel RDF

ProdurreLinkeddatasignificaesprimereilcontenutodelleinformazioni,rendendolecondivisibilieriutilizzabilinel WebØIlWebsemanticocodifical’informazionetramiteununicomodellodidati

ØIlmodellodiriferimentoèResourceDescriptionFramework(RDF),unostandardsviluppatoemantenutodalconsorzioW3Cperdescriveresemanticamentelerisorseeleloro relazioni.

/2015

ResourceDescriptionFramework (RDF)

IlmodelloRDFcodificaidati(l’informazione)nellaformadiasserzioni(statements)formatedatre parti:

Øsoggetto:lapartedellatriplacheidentificalacosadescrittaovverola ‘risorsa’

Øpredicato:laproprietàdella risorsaØoggetto:ilvaloredellaproprietàdellarisorsa.Esempi:Antonella|vivea| BiellaAntonella|èautoredi|LinkeddataAntonella|èamicadi| Maria

/2015

Page 10: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

10

ResourceDescriptionFramework (RDF)

Vieneespressovisivamentesottoformadinodie archi• Soggetto(nodo)• Predicato(frecciaorientatadalsoggetto all’oggetto)

• Oggetto(nodo)sirappresenta con:• URI=• Letteraleo stringa=

Leasserzionisonodette‘triple’esonoconcettiatomiciovverounitàminimedi significato

/2015

RDF: la tripla

/2015

soggetto

predicato

oggetto

Unatriplaèunadichiarazionenellaqualesiaffermacheunacosaoun’entità(soggettodellatripla)possiedeunacerta proprietà

Tripla(triple)=l’insiemedi soggetto/predicato/oggetto

Asserzionie tripleStieg Larsson èautore di Laragazzachegiocavaconil fuoco

Soggetto Predicato Oggetto

Risorsa Proprietà Valore

Unatriplavienerappresentatacomeungrafo orientato

Stieg LarssonLaragazza chegiocavaconil

fuoco

Èautore di

Ecodificatatramiteunasintassibasatasu XML

http://miosito.it/vocab/Autoredihttp://miosito.it/autori/1234

http://miosito.it/risorse/1234

AsserzioneesuacodificaXML(RDF/XML)

/2015

Laragazzachegiocavaconilfuoco

Larsson, Stieg

èautore di

<rdf:Descriptionrdf:about=http://miosito.it/autori/1234>

<namexml:lang=“eng“>Stieg Larsson</name><authorOf

rdf:resource=“http://miosito.it/risorse/1234</rdf:Description>

<rdf:Descriptionrdf:about=http://miosito.it/risorse/1234><type xml:lang=“it“>libro</type><title>Laragazzachegiocavaconilfuoco</title></rdf:Description>

‘cose’e ‘stringhe’

ØRegoladiRDF:generalmenteèmeglio,sepossibile,esprimeretuttelepartidellatripla(spo)tramite URI

ØE’obbligatoriocheilsoggetto(s)eilpredicato(p)sianoespressitramite URI

ØL’oggetto(o)puòessereespressotramiteunastringaoun URI

ØQuandol’oggettoèespressotramiteunastringadiventaunpuntomortodel grafo

/2015

Unionedigrafi (merging)

/2015

Piemonte Italia

Mergingdigrafi:quandoigrafihannoidentificatoriincomunequestivengonounitiperformaregrafipiù vasti:Es.nelcasol’oggettodiunatriplasiailsoggettodiun’altrasihaun’unionedelleduetriple,formandocosìungrafopiù vasto

Hacomeluogodiproduzione

miovino Piemonte

Sitrova in

miovino PiemonteItalia

Hacomeluogodiproduzione

Si trovain

Page 11: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

11

RDFcomemodellodi dati

RDFèunnuovomododicodificarel’informazionediversorispettoaquellichefinorasisonoimpostiechehannounaseriedilimitazioni(es.modellorelazionale).Eperòcompatibileconimodelli precedentiØRDFèpiù flessibileØInparticolare,c’èunrapportodirettoconidatabase relazionali

/2015

Creare asserzioni/2

ID NOME LUOGO TIPO PRODUTTORE FORMATO

1234 BarbarescoStarderi 2005

Piemonte rosso La Spinetta 75 cl.

/2015

Rapportodirettoconidatabaserelazionali(databasedivini)1record=1 risorsaCampi=proprietà(metadati)Contenutodeicampi= valori/dati

‘SCRIVERE’IN RDF

• RDFèunmodellodidatipertantosedobbiamoscriveredelcodicenonpossiamodirettamenteutilizzarenodiegrafi,madobbiamoesprimereinostridatiinunformatoadattoallaletturadapartedellemacchine• SerializzazioniRDF=rappresentazionitestualiadatteall’elaborazioneautomatica• IlW3Cmantienealcuniformatiperla serializzazioneoRDF/XML=èilformato‘ufficiale’diRDFbasatosul XMLoTurtle/N3/N-Triples =altriformatisemplificatioRDFa=serveperincorporaretripleRDFinundocumento HTML

/2015

SCRIVERE’IN RDFW3CURIsforIdentifyingRDFSerialization Formats

URI Format

http://www.w3.org/ns/formats/N3 Notation3(N3):AreadableRDFsyntax:W3CTeamSubmission28March 2011

http://www.w3.org/ns/formats/N-Triples N-Triples(inRDFTestCases:W3CWorkingGroupNote25February2014)

http://www.w3.org/ns/formats/RDF_XML RDF/XMLSyntaxSpecification:W3CRecommendation10February2004

http://www.w3.org/ns/formats/RDFa RDFainXHTML:SyntaxandProcessing:3CRecommendation22August2013

http://www.w3.org/ns/formats/Turtle Turtle- TerseRDFTripleLanguage:W3CTeamSubmission28March2011

Rappresentazione concettualeConformule logichegrafica

Rappresentazione fisica (serializzazione)XMLN-TRIPLEN3

1. Rappresentazione concettuale del modello

A.RAPPRESENTAZIONECONFORMULELOGICHE

Latripla(x,P,y)corrispondeallaformulalogicaP(x,y)doveilpredicatobinarioPmetteinrelazionel’oggettoxconl’oggettoy.

autore(Manzoni,PromessiSposi)

RDFpermettediesprimeresoloPREDICATIBINARI

1. Rappresentazione concettuale del modello

Page 12: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

12

B.RAPPRESENTAZIONEGRAFICA.• RDFèrappresentabiledaungrafoorientatoincui

– i nodi sono risorse o tipi primitivi– gli archi rappresentano le proprietà.

2. Rappresentazione concettuale del modello

Manzoni Promessi SposiautoreDi

Ale ManzoniPromessi Sposi scrittoDa

In IA è nota come Rete Semantica

• UnmodellodatiRDFèunmodelloastratto,necessitadiunasintassiconcretaperessererappresentatoetrasmesso.UngrafoRDFèrappresentatofisicamentemedianteunaserializzazione.

• LeprincipaliserializzazioniadottabiliperungrafoRDFsono:– XML: l’RDF è serializzato in un file XML– N-TRIPLE: si serializza il grafo come un insieme di triple

soggetto - predicato - oggetto– N3: si serializza il grafo descrivendo, una per volta, una

risorsa e tutte le sue proprietà

• InparticolareinquestocorsonoivedremosoltantolaserializzazioneXML

2. Rappresentazione fisica del modello

Importante:altrerappresentazionisonopossibili,echelasintassiXML-based nonèunacomponentedelmodelloRDF

• Serializzazione delRDFconxmlsignifica rappresentareungrafo rdf conunfileXML,ossia tramite sintassi XML

<?xmlversion="1.0"encoding="utf-8"?><rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">

.

SERIALIZZAZIONE XML

§ Descrizione dirisorse§ (s)FedericaCena (p)insegna (o)il corso 001

<rdf:Descriptionrdf:about=“http://www.di.unito.it/~cena” >

(soggetto)

<uni:insegna>corso 001</uni:insegna>

(proprieta) (oggetto)

RDF – risorse

§ risorse<rdf:Description

rdf:about=“http://www.di.unito.it/~cena” ><rdf:Descriptionrdf:about=“http://www.di.unito.it/#001 ”>

RDF – risorse e proprieta’

§ Proprietà

<uni:insegna> corso 001</uni:insegna>(proprietà à dataType)

RDF - proprietà

Page 13: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

13

1.Serializzazione classica XML

<rdf:Descriptionrdf:about="http://wikipedia.it/Manzoni/">

<au:isAuthor> Promessi Sposi </au:isAuthor>

</rdf:Description>

Risorsa-proprietà-valore(primitivo)

Serializzazione XML

2.Serializzazione abbreviata

<rdf:Descriptionrdf:about="http://wikipedia.it/Manzoni/">

<au:isAuthorrdf:resource=“www.PromessiSposi.it/">

</rdf:Description>

risorsa-proprietà-risorsa(URI)

Serializzazione XML

§ Specifical’appartenenza diunarisorsaaunacategoria(ossiacollegaunarisorsaaunaclasse).

<rdf:type rdf:resource=“researcher” >

• relazione di tipo IS-A: la risorsa (l’istanza) e’ di quel tipo• Minnie ISA mouse

RDF – relazione ISA

• Davidha17annià“www.david.it”,“www.esempio.it/has_age”,”27^^http://www.w3.org/2001/XMLSchema#integer”)

§ indicazionedidatatype<rdf:datatype=“&xsd;integer”>

<uni:age rdf:datatype=“&xsd;integer”> 27 </uni:age>

RDF – Data Type

• DatatypesonopredefinitidalXMLSchema– Literal http://www.w3.org/2001/XMLSchema#literal– Integer http://www.w3.org/2001/XMLSchema#integer– Float

http://www.w3.org/2001/XMLSchema#float– Booleans

http://www.w3.org/2001/XMLSchema#booleans

RDF – Data Type <?xmlversion="1.0"encoding="utf-8"?><rdf:RDFxmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:uni="http://www.di.unito.it/uni-ns#">...<rdf:Descriptionrdf:ID=“#1212">

<uni:namerdf:datatype=“&xsd;literal>FedericaCena</uni:name><uni:titlerdf:datatype=“&xsd;literal>researcher</uni:title>

</rdf:Description>

<rdf:Descriptionrdf:about=“www.di.unito.it/~cena/teaching"><uni:CourseNamerdf:datatype=“&xsd;literal>SemWeb</uni:CourseName><rdf:type rdf:resource=“&uni;course”/><uni:isTaughtBy>FedericaCena</uni:isTaughtBy>or<uni:isTaughtByresource=“#1212/”>

</rdf:Description></rdf:RDF>

Page 14: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

14

LinkdelWebSemantico(LINK RDF)

ØCisonotretipidilink:Ø linkrelazionali(tradatidiversimacollegati,indataset diversi))

ØLinkdiidentità(traglistessidatiindatasetdiversi)

Ø linkdivocabolario(tradatievocabolari)

/2015

Linkrelazionali

ØIlinkrelazionaliesprimonouncollegamentotradiversidatasetpuntandoacose,persone,luoghipresentiinunaltrodatasetoinsiemedidati collegati

ØAttraversoilinksrelazionalisicolleganoentitàdidiversi datasetØSipuòadesempiocollegareunapersona(autore)allesueoperepresentiinunaltrodataseteadun’altrapersonadescrittainunaltrodataset

/2015

Linkrelazionali

@prefixrdf:<http://www.w3.org/1999/02/22-rdf-syntax-ns#>.@prefixfoaf:<http://xmlns.com/foaf/0.1/> .

<http://miosito.it/persone/Federica_Cena>rdf:typefoaf:Person ;foaf:name“FedericaCena" ;foaf:based_near<http://sws.geonames.org/3182043/>;foaf:based_near<http://dbpedia.org/page/Torino>;foaf:topic_interest<http://dbpedia.org/resource/Semantic_Web>;foaf:knows http://altrosito.it/persone/Mario_Rossi

Leproprietàvengonoespressefacendoriferimentoadaltreentitàpresentiinaltridataset(es.Dbpedia,Geonames, altrosito)

/2015

Linkdiidentità

linkdiidentità(‘aliasURI’)colleganotraloroURIdidatasetdiversichesiriferisconoallastessacosaoallostesso concettoEs.BeethoveninFreebase,Dbpedia,Musicbrainz, NYTimes

http://rdf.freebase.com/ns/en.ludwig_van_beethoven

http://dbpedia.org/resource/Ludwig_van_Beethoven

http://musicbrainz.org/artist/1f9df192-a621-4f54-8850-2c5373b7eac9#

http://data.nytimes.com/N30866506154608358173

/2015

Linkdiidentità

• IlinkeddataprescrivonolanecessitàdicollegaretuttigliURI aliasattraversodei link• Perconvenzionesiutilizzalaproprietàowl:sameAscheaffermachedueURIsiriferisconoallastessacosa,allastessapersonao luogo.• Questatipologiadicollegamentoèunadellepiùimportantidel Websemantico

/2015

Linkdivocabolario

• ilinkdivocabolariopuntanodaldatoalledefinizionideiterminideivocabolariusatiperdescrivereildatostessoeoalledefinizionidellostessoconcettodateinaltrivocabolari(es.collegolavoceautorediunsitowebconilvocabolariodublin coreeconfoaf).Intalmodoèpossibileun’integrazionetravocabolaridiversi(Heath;Bizer 2011)• Servonoacontrastarel’eterogeneitàdelWebsemanticointegrandovocabolari diversi• RDF consente di rappresentare in un unico grafo informazioniprovenienti da diversi modelli, mescolando termini da diversivocabolari

/2015

Page 15: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

15

4.Vocabolarie ontologie

Ivocabolariele ontologie

NelWebsemanticoivocabolarieleontologiedefinisconoconcettieterminiusatiperdescrivereerappresentareunaparticolareareadiinteresseClassificano i termini che vengono usati in un particolare settoredisciplinare, indicano le relazioni semantiche tra i concetti di undominio di conoscenzaCostituiscono,insiemeaRDFeURI,ilcuoredelWeb SemanticoDistinzionetravocabolarieontologie:nelWebsemanticononènetta,generalmentesi usano:ØVocabolario=listachiusaditerminidausarecomevalori(comeoggettodellatripla)oppurecomeproprietà,spessopiatto

ØOntologia:classieproprietàperesprimereundominio diconoscenza (concettualizzazione) espressiinunastrutturagerarchica(spesso)

/2015

Ontologieemodelli formali

ØSononecessariperlacomunicazione umanaØDescrivonoundeterminatoambito(dominio)ØUn’ontologia è una «specificazione esplicita di unaconcettualizzazione» ovvero uno schema strutturato e condiviso diconcetti tra loro correlati che descrive un’area della conoscenzautilizzando linguaggi non ambigui e, dunque, processabili da unamacchina (Thomas Robert Gruber)

ØLeontologiesonouninsiemediclassiedi proprietà

/2015

Esempidivocabolari/ontologie:FOAF

Traivocabolarieontologiepiù diffusi c’è:FriendofaFriend(FOAF) http://xmlns.com/foaf/spec/ØE’un’ontologiachedescrivepersone,attivitàerelazioniconaltrepersone.

ØVienespessousatapercostruirelistediautorità, descriverecomunitàonline, community

ØChiunquepuòutilizzareFOAFperdescriversinelSemantic Web.

/2015

Classieproprietàdi FOAF

Category:Person(Foaf:Person)Category:Organization(Foaf:Organization)Property:Foaf:knowsProperty:Foaf:memberProperty:Name(Foaf:name)Property:Homepage(Foaf:homepageProperty:Foaf:mboxProperty:Foaf:depictionProperty:Foaf:phone

/2015

Esempiodiunprofilo FOAF<rdf:RDFxmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#xmlns:foaf="http://xmlns.com/foaf/0.1/"xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"><foaf:Person rdf:about="#Aiacono"><foaf:name>Antonella Iacono</foaf:name><foaf:mboxrdf:resource="mailto:[email protected]" /><foaf:homepagerdf:resource="http://www.antonellaiacono.it" /><foaf:nick>Librarian_Anto</foaf:nick><foaf:depictionrdf:resource="http://www.antonellaiacono.it/immagine.jpg" /><foaf:interest> <rdf:Descriptionrdf:about="http://www.dbpedia.org/page/Linked_data"

rdfs:label=“Linkeddata/> </foaf:interest><foaf:knows> <foaf:Person> <foaf:name>MariaRossi</foaf:name> </foaf:Person>

</foaf:knows> </foaf:Person></rdf:RDF>

/2015

Page 16: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

16

http://www.ldodds.com/foaf/foaf-a-matic.html

DUBLIN CORE

E’unoschemaperdimetadatiperdefinireattributidirisorsecometitolo,creatore,data,soggetto etc.PossiamousareDublinCoreperdescrivereleproprietàdiunaqualsiasirisorsabibliograficapresentenel WebØSitrova in:Øhttp://dublincore.org/documents/dces/ prefisso dc:

/2015

93

* Titolo(Title): Nomedatoallarisorsa.Inparticolare,unTitolosaràuntermineconilqualelarisorsaèformalmenteconosciuta.

*Autore(Creator) Entitàchehalaresponsabilitàprincipaledellaproduzionedelcontenutodellarisorsa.

*Soggetto(Subject) Argomentoprincipaledellarisorsa.InparticolareunSoggettopuòessereespressodaparoleofrasichiave,odacodicidiclassificazionechedescrivonol’argomentodellarisorsa.Solitamentequestiterminivengonosceltitraivaloridiunvocabolariocontrollatoodiunoschemadiclassificazioneformale.

*Descrizione (Description)Spiegazionedelcontenutodellarisorsa.Testodescrittivoliberochepuòincludereunriassuntoanalitico,unindice,ounarappresentazionegraficadelcontenuto.

*Editore (Publisher)Entitàresponsabiledellapubblicazionedellarisorsa.EsempidiEditorepossonoessereunapersona,un’organizzazioneounserviziochesioccupadirenderedisponibilelarisorsanellasuaformaattuale.

*Autoredicontributosubordinato(Contributor)Entitàresponsabiledellaproduzionediuncontributoalcontenutodellarisorsa.

*Data(Date)Dataassociataaduneventodelciclodivitadellarisorsa.Normalmenteladataèassociataalmomentodicreazioneodidisponibilitàdellarisorsaevieneindicataattraversounastringadi8caratterinellaformaYYYY-MM-DD,comedefinitanelprofilodellostandardISO860190.

Perelencocompletosivedewikihttp://it.wikipedia.org/wiki/Dublin_Core

ALTRE ONTOLOGIE/VOCABOLARI

• BIOMEDICALONTOLOGY:https://www.bioontology.org• THEMUSICONTOLOGY:http://musicontology.com• THEEVENTONTOLOGY:http://motools.sourceforge.net/event/event.html• BIBLIOGRAPHICONTOLOGY:http://bibliographic-ontology.org/specification• PROGRAMMESONTOLOGY(BBC)http://www.bbc.co.uk/ontologies/po• CREATIVECOMMONSSCHEMA:http://creativecommons.org/schema.rdf

/2015

ALTRE ONTOLOGIE

• SEMANTICALLY-INTERLINKEDONLINECOMMUNITY(SIOC):definisceterminiperesprimereaspettidellecomunitàonline,comeforum,utenti,post, ecc. http://rdfs.org/sioc/spec/• THEGOODRELATIONSONTOLOGYdefinisceterminiperdescrivereprodottieservizicommerciali onlinehttp://www.heppnetz.de/ontologies/goodrelations/v1.html

Esistonoontologieperdescriverequasiogniambitodiconoscenza,possiamocrearnedinuovees.un’ontologiadiun’organizzazione(es.Università,un’ontologiadivini, etc.

/2015

DESCRIVERELE ONTOLOGIE

/2015

• Numerosilinguaggiacrescentilivellidi complessità• dalpiùsemplicealpiù complesso:

OWL

RdfS

Page 17: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

17

RDF–SCHEMA

• Permette didefinire tipi diclasse.• Permette dicostruire una struttura gerarchica tra leclassi(attraverso laproprietà “sottoclasse di”).•Permette diesprimere vincoli sulle proprietà (valore)

• InRDFsi collegano lerisorse comeistanze diclassi definiteinRDFS(attraverso laproprietà “type”)• UndocumentoRDFSèundocumentoRDF,cheusalasintassiXML-based diRDF

STRATO DEGLI SCHEMI: RDFS

RDFSpermettedi:§ definireclassi

<rdfs:class rdf:about=professor >

CONCETTI E SINTASSI

teacher

Carlo

rdfs: Definisce le classi

rdf: Descrive le istanze

Unaclasseèunacollezionedielementi.Elementiindividualicheappartengonoaunaclassesono

dettiistanze diquellaclasseLarelazionetraistanze eclasse èdefinitainrdf

attraversordf:type

<rdf:type rdf:resource=“teacher” >

Classe

RDFSpermettedi:

§ definirerelazionidisottoclasse(seAèsottoclassediB,alloraciascunaistanzadiAdeveancheessereun’istanzadiB.)<rdfs:subClassOf rdf:resource=“staff” >

Gerarchia

staff

prof

• è possibile stabilire anche relazioni di gerachia tra proprietà subPropertyOf

Diconseguenzaallarelazionedisottoclasse,RDFSpermettedistabilirerelazionidiEREDITARIETA’

§ Unasottoclasseereditaleproprietàdellasovracclassse

Gerarchia

RDFS è un primitivo tipo di linguaggio per esprimere ontologie(ontology language, cosi come OWL, che vedremo più avanti)

§ specificare restrizioni sulle proprieta- di domain (classe le cui istanze possono essere soggetti di

una tripla) <rdfs:domain rdf:resource=“course”>

- di range (classe le cui istanze possono apparire come valoridi una tripla)

<rdfs:Property rdf:ID=“isTaughtBy” ><rdfs:range rdf:resource=“professor” >

Restrizioni di proprietà

corse profisTaughtBy

domain

domain range

Page 18: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

18

§ specificare restrizioni sulle proprieta

<rdfs:Property rdf:about=“isTaughtBy”><rdfs:Domain rdf:resource=“#course”><rdfs:Range rdf:resource=“#professor”>

</rdfs:Property>

Restrizioni di proprietà

course professorisTaughtBydomain range

OWL (Ontology Web Language)Nato dall’integrazione di DAML + OIL. OWL consente di: § specificare meglio le relazioni tra le classi

– disgiunzione– equivalenza – combinazioni booleane

§ complementarietà

§ unione § intersezione

§ definire le restrizioni sulle proprietà

– di valore – di cardinalità

5.Annotazionesemanticadipaginehtml

FormatidiserializzazioneRDF

RDFèunmodellodidatinon èunformatoà perpubblicaretriplesulwebnecessarioserializzarletramiteunaspecificasintassi.Diversiformatidiserializzazione:•RDF/XML•RDFa•Microdata•JSON-LD.

AnnotazionesemanticadipaginewebRDFa /1

• RDFinAttributesèunarecommendationdelW3C• fornisceunaseriediattributiperannotaresemanticamenteunapaginaweb,includendometadatiRDFinundocumentoXML,consentendodiannotareinRDFunapaginawebinmaniera nativa• InquestomodoèpossibileunireilWebdeidocumentialWebdeidaticioèèpossibileinserireinpaginewebinXHTMLdelleannotazionisemantichechepossonoesserecompresedallemacchine.

/2015

Annotazionesemanticadipagineweb RDFa/2

Inserisceelementisemanticinellepagineutilizzandoalcuniattributi(about,property, resource)LemacchineleggendoundocumentoXHTMLcontenentecodiceRDFapossonooperareunprocessodiestrazionedicontenutisemantici(parsing)generandodelletriple RDFIlsoggettodellatriplaèindividuatodall’attributoaboutalqualevengonoassociatiivaloridiReve PropertyInquestomodoancheidocumentipubblicaticomeXHTMLpossonocontenerealcunicontenutisemanticichepossonoessereinterpretatidalleapplicazionidelSemanticWebcollegandoilwebdeidocumentialwebdei datiSchemiperl’annotazionesemanticasonoSchema.org eOpen GraphProtocol

/2015

Page 19: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

19

RDFa

<htmlxmlns =“http://www.3.org/1999/xhtml”xmlns:dc=“http://purl.org/dc/elements/1.1”

<head><title>TheSemantic WebBlog</title>

</head><body>

<h1property=”dc:title”>TheSemantic Web</h1><p >by<span property=“dc:creator”

content=“http://dbpedia.org/TimBerners Lee”></span></p></body>

IncorporaletripleRDFnellepagineHTML,arricchendoleconattributidimarcaturacomeadesempioproperty econtent.

Microdata

• AggiungonoallepagineHTMLattributidimarcaturaglobalicomeitemscope,itemtype (URLdelvocabolariochedescrivel’itemelesueproprietà)eitemprop.

<divitemscope itemtype=“http://schema.org/Movie “>

<h1itemprop=“name”>Avatar</h1>

<span>Director:<span itemprop=“director”>JamesCameron</span></span>

<span itemprop=“genre”>Sciencefiction</span></div>

JSON-LD

<scripttype='application/ld+json'>{”@context":"http://www.schema.org","@type":"person","name":"Luke","jobTitle":"programmer","address":{"@type":"PostalAddress","streetAddress":"5thAvenue","addressLocality":"NewYork","addressRegion":"NewYork","postalCode":"1001",},"email":“[email protected]”}</script>

Qualeformatoscegliere?

RDF/XML:•Difficiledaleggereescrivere.Nonadattosedatidatrattarerichiedonointerventoumanorilevante;RDFa:•moltodiffuso•piùsemplicedascrivererispettoaRDF/XML;Microdata:•moltopiùsemplicerispettoaRDF/XMLeRDFa•supportatodaGoogle•necessariomassicciointerventosulcodiceHTMLJSON-LD:•formatoraccomandatodaGoogle•grandevantaggio:nonsidevetoccareilcodiceHTMLeloscriptpuòessereinseritoovunqueneldocumento.

Annotareilseguentelistatocorrispondenteaquestapaginautilizzandoilvocabolarioschema.org http://schema.org/Movieneiseguentiformati:

- Rdfa- Microformat- Json-LD

- <BODY>- <H1>TheMatrix</H1>- <P>Matrixèunfilmdifantascienzadel1999scrittoedirettodaLarrye

AndyWachowski.Havintonumerosipremi,tracui4Oscar.</p>- </BODY>

ESERCITAZIONE

<BODY><divvocab="http://schema.org/"typeof="Movie"><h1property="name">TheMatrix</H1>

<P><span property="description”>Matrixèunfilmdi<divproperty=“genre”content="http://dbpedia.org/page/Science_fiction">fantascienza</div>del<divproperty=“dateCreated”>1999</div>scrittoedirettoda

<divproperty="director"typeof="Person">

<span property="name"> LarryeAndyWachowski</span>

</div>

Havintonumerosipremi,tracui4<divproperty=“award”>Oscar</div>.</span></p></BODY>

RDFa

Page 20: Linked Open Data e Web semantico - DiUniTocena/materiale/BusinessIntelligence/Lez11_12.pdf · geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte

12/12/17

20

- <BODY>- <divitemscope itemtype="http://schema.org/Movie">- <h1><span itemprop=“name”>TheMatrix </span></H1>

- <P><span itemprop ="description”>Matrixèunfilmdi<divitemprop=“genre”content="http://dbpedia.org/page/Science_fiction">fantascienza</div>del<divitemprop =“dateCreated”>1999</div>scrittoedirettoda

<divitemprop ="director"itemtype="Person">

<span itemprop ="name"> LarryeAndyWachowski</span>

</div>

- Havintonumerosipremi,tracui4<divitemprop =“award”>Oscar</div>.</span></p>

- </BODY>

Microformat <HEAD><scripttype="application/ld+json">{"@context":"http://schema.org","@type":"Movie",”director":[

{"@type":"Person","name":" LarryWachowski"},{"@type":"Person","name":" AndyWachowski "}],

"description":"Matrixèunfilmdifantascienzadel1999”,“name”:“TheMatrix”,“genre”:“http://dbpedia.org/page/Science_fiction”,“dateCreated”:“1999”,}</HEAD>

Json-LD