Celi_Di Tomaso presentazione futurodigitale_csipiemonte

35
Vittorio Di Tomaso CBDIG Semantica: condividere significati tra archivi digitali Vittorio Di Tomaso CBDIG

description

1 A PROVA DI FUTURO giornali,libri e archivi 3.0 Semantica: condividere significati tra archivi digitali Vittorio Di Tomaso CBDIG 2 Perché le biblioteche digitali non sono “sexy” come quelle analogiche? 3 Perché si può fare di più: ricerca 4 Perché si può fare di più: correlazioni 5 Perché si può fare di più: orizzonti 6 Perché si può fare di più: coinvolgimento 7 Quali sono gli obiettivi: valore d'uso, Integrazione, Esperienza utente 8 Su quali aspetti bisogna lavorare: Semantica, Ricerca federata, Ricerca intelligente 9 Che cosa vogliamo fare….Ricerche federate,Ricerche intelligenti,Navigazione dinamica 10 Accesso ai contenuti tramite search 11 Accesso ai contenuti tramite logiche di experience 12 Accesso ai contenuti tramite api 13 L’ecosistema cultura / Piemonte 14 Modello di riferimento 15 Il risultato… 16 Obiettivo 1: ricerca federata su repository differenti 17 Obiettivo 2: ricerche più intelligenti 18 Obiettivo 3: scoperta e navigazione di relazioni 19 Ontologia: come fare? Una scelta pragmatica 20 Guarini: progetto top down dell’ontologia 21 OBAC – Classi di base 22 OBAC – Alcune relazioni di esempio 23 La stampa: identificazione bottom-up di elementi semantici 24 La stampa: estrazione di entità nominate 25 La stampa: estrazione di entità nominate 26 La stampa: estrazione di entità nominate 27 Una sfida complessa….Estensione temporale, Digitalizzazione 28 Panna o Fanna? 29 I risultati dell’analisi: 4.8000.0000 Articoli analizzati 110.000 Nomi di persona riconosciuti freq > 10 10.000 Nomi di luoghi riconosciuti freq > 10 6.000 Nomi di organizzazioni riconosciuti freq > 10 80% di precisione del risultato 30 Siamo soltanto all’inizio… 31 La vision futura in 4 passi (2012 – 2013) 32 Sappiamo cosa fare….Le ontologie rappresentano oggi la tecnologia chiave per risolvere i problemi di integrazione e interoperabilità semantica di dati e conoscenze L'aspetto più critico riguarda la necessità di acquisire persone con la competenza e le motivazioni necessarie per fare da ponte tra ricerca e applicazioni 33 Ma in questo momento manca qualcosa…. 34 Vogliamo costruire cattedrali…. 35 Grazie per l’attenzione! Vittorio Di Tomaso Hanno collaborato al progetto: Andrea Bolioli, Roberto Franchini, Raffaella Ventaglio, Federico Fissore, Mauro Cappelli, Federico Cairo Ringraziamo: Andrea Muraca, Francesco Cerchio, Cristina Mollis, Alessandro Stefani

Transcript of Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Page 1: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Semantica: condividere significati tra archivi digitali

Vittorio Di TomasoCBDIG

Page 2: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Perché le biblioteche digitali non sono “sexy” come quelle

analogiche?

Perché le biblioteche digitali non sono “sexy” come quelle

analogiche?

Page 3: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Perché si può fare di più: ricerca

Le ricerche su Banche Dati in

ambito culturale richiedono una

conoscenza pregressa

dell’argomento

Le ricerche su Banche Dati in

ambito culturale richiedono una

conoscenza pregressa

dell’argomento

Bisogna giàconoscere

quello che si sta cercando

Bisogna giàconoscere

quello che si sta cercando

Page 4: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Perché si può fare di più: correlazioni

Classificazioni precise e rigorose

limitano la possibilità di

associazioni e collegamenti

Classificazioni precise e rigorose

limitano la possibilità di

associazioni e collegamenti

Tendenza a proporre percorsi

“specialistici”

Tendenza a proporre percorsi

“specialistici”

Page 5: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Perché si può fare di più: orizzonti

L’arte e la cultura sono, di natura,

“liberi” nello spazio e nel

tempo, mentre musei ed archivi

sono mondi “chiusi”

L’arte e la cultura sono, di natura,

“liberi” nello spazio e nel

tempo, mentre musei ed archivi

sono mondi “chiusi”

Ogni archivio offre una visione

“parziale” (ma le visioni possono essere federate)

Ogni archivio offre una visione

“parziale” (ma le visioni possono essere federate)

Page 6: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Perché si può fare di più: coinvolgimento

Anche quando disponibili via web,

molti archivi culturali adottano un

approccio poco orientato alla

fruizione

Anche quando disponibili via web,

molti archivi culturali adottano un

approccio poco orientato alla

fruizione

User experience poco coinvolgenteUser experience poco coinvolgente

Page 7: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Quali sono gli obiettivi

Page 8: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Su quali aspetti bisogna lavorare

Page 9: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Che cosa vogliamo fare….

Ricerche federateIntegrare patrimoni e fonti informative differenti

Ricerche intelligentiComprendere meglio il significato della richiesta dell’utente (per dare risultati più soddisfacenti)

Navigazione dinamicaIdentificare e rendere disponibili relazioni e correlazioni tra elementi appartenti a patrimoni informativi diversi

Page 10: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Accesso ai contenuti tramite search

•Ricerca semantica di contenuti  a testo libero che, attraverso la correlazione di fonti dati, consente di trovare risultati accedendo a piùpatrimoni infomativi

•Abilita lettura trasversale e cross‐mediale  dei fenomeni di interesse

•Ricerca semantica di contenuti  a testo libero che, attraverso la correlazione di fonti dati, consente di trovare risultati accedendo a piùpatrimoni infomativi

•Abilita lettura trasversale e cross‐mediale  dei fenomeni di interesse

• Archivi storici digitalizzati di quotidiani

• Archivi storici digitalizzati di quotidiani

• Siti web storicizzati

• Siti web storicizzati

• Foto, Immagini ed Illustrazioni

• Foto, Immagini ed Illustrazioni

• Materiale correlato disponibile su altri siti

• Materiale correlato disponibile su altri siti

• Libri, riviste, articoli con link diretto a siti di eCommerce

• Libri, riviste, articoli con link diretto a siti di eCommerce

• Ricerca full-text con individuazione semantica dei concetti ricercati

• Ricerca full-text con individuazione semantica dei concetti ricercati

Caso d’uso: trove.nla.gov.auCaso d’uso: trove.nla.gov.au

Il contenuto culturale può essere “espanso” e collegato  ad elementi di contesto che  lo rendono in grado di “raccontare” una storia 

Il contenuto culturale può essere “espanso” e collegato  ad elementi di contesto che  lo rendono in grado di “raccontare” una storia 

Page 11: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Caso d’uso: Museo TorinoCaso d’uso: Museo Torino

Accesso ai contenuti tramite logiche di experience

Progetto del Comune di Torino che consente la consultazione di un archivio dei beni artistici della città attraverso una rich-interface web che integra contenuti testuali, immagini e logiche di georeferenziazione

•Fruizione dei contenuti attraverso interfacce che garantiscono una user-experience intuitiva e coinvolgente

•Logiche di erogazione compatibili con device innovativi (es. smartphone e tablet)

•Fruizione dei contenuti attraverso interfacce che garantiscono una user-experience intuitiva e coinvolgente

•Logiche di erogazione compatibili con device innovativi (es. smartphone e tablet) La “contaminazione” degli archivi di beni culturali con

logiche di fruizione tipiche dell’info-tainment può ampliare il bacino di utenza di contenuti culturali

La “contaminazione” degli archivi di beni culturali con logiche di fruizione tipiche dell’info-tainment può ampliare il bacino di utenza di contenuti culturali

Page 12: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Caso d’uso: Dati PubbliciCaso d’uso: Dati Pubblici

Accesso ai contenuti tramite api

• Interfacciamento dei contenuti attraverso API standard che consentano l’interoperabilità con altri servizi attivando correlazioni per:‐ Creare servizi /

applicazioni arricchite con contenuti esterni legati ai medesimi concetti

‐ Esporre i propri contenuti in modo universale ad altri servizi che li possono integrare e diffondere

• Interfacciamento dei contenuti attraverso API standard che consentano l’interoperabilità con altri servizi attivando correlazioni per:‐ Creare servizi /

applicazioni arricchite con contenuti esterni legati ai medesimi concetti

‐ Esporre i propri contenuti in modo universale ad altri servizi che li possono integrare e diffondere

API

Basi Dati pubbliche Basi Dati pubbliche

Servizi di LocalizzaizoneServizi di Localizzaizone

Rich Internet Application che rende fruibili i dati ad un pubblico più vasto rispetto al bacino originario

Rich Internet Application che rende fruibili i dati ad un pubblico più vasto rispetto al bacino originario

In ambito culturale questa logica può favorire l’integrazione tra i patrimoni suddivisi tra enti,

associazioni e fondazioni diverse offrendo un’esperienza digitale di fruizione integrata dei patrimoni

In ambito culturale questa logica può favorire l’integrazione tra i patrimoni suddivisi tra enti,

associazioni e fondazioni diverse offrendo un’esperienza digitale di fruizione integrata dei patrimoni

La logica dell’interoperabilità tramite API è alla base dei principi Open Data per la diffusione dei dati pubblici

API

Page 13: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

L’ecosistema cultura / Piemonte

Ontologia dei beni culturaliOntologia dei beni culturali

Ricerche federate, interoperabilitàRicerche federate, interoperabilità

Motore di ricerca

Motore di ricerca

API e serviziAPI e servizi

Page 14: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Modello di riferimento

ExperienceExperience APIAPI

Ontologia

• Digitalizzazione / Creazione

• Arricchimento semantico

Digital Library

Modalità di erogazione

Casi d’uso

Strumenti di ricerca testuale per semplificare

l’accesso a contenuti documentali

Interfacce multimediali per la fruizione dei

contenuti tramite user experience coinvolgente

Interoperabilità con altri servizi per

arricchire i contenuti con info da altre fonti

SearchSearch

Contenuti Tradizionali

CrowdsourcingCrowdsourcing

Utente

Recepimento di contenuti e

commenti da parte dell’utenza

•Facilità di integrazione tra i contenuti

•User experience “infotainment-like”

•Bacino di fruizione piùampio

•Possibilità di abilitare logiche di eCommerce dei contenuti

•Facilità di integrazione tra i contenuti

•User experience “infotainment-like”

•Bacino di fruizione piùampio

•Possibilità di abilitare logiche di eCommerce dei contenuti

Page 15: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Il risultato…

Page 16: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Obiettivo 1: ricerca federata su repository differenti

Page 17: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Motore Attuale

(Logicatradizionale

per keyword)

Motore Attuale

(Logicatradizionale

per keyword)

Obiettivo 2: ricerche più intelligenti

ApproccioSemantico

(identificazionedei concetti

cercati)

ApproccioSemantico

(identificazionedei concetti

cercati) • Trova 30 risultati relativi a Basiliche, Santuari e Chiese , …

• Esempio: documenti relativi alla Basilica di Superga, perchè‐ La Basilica di Superga è un edificio religioso‐ La Basilica di Superga è del 1731

• Trova 30 risultati relativi a Basiliche, Santuari e Chiese , …

• Esempio: documenti relativi alla Basilica di Superga, perchè‐ La Basilica di Superga è un edificio religioso‐ La Basilica di Superga è del 1731

Propone collegamenti con le tendenze artistiche sviluppatesi nel periodo e con altre eminenti opere contemporanee

Propone collegamenti con le tendenze artistiche sviluppatesi nel periodo e con altre eminenti opere contemporanee

Edificio religioso del settecento

Edificio religioso del settecento

Trova 1 solo risultato contenente la keyword “Edificio Religioso”

Trova 1 solo risultato contenente la keyword “Edificio Religioso”

Page 18: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Obiettivo 3: scoperta e navigazione di relazioni

La comprensione della semantica di una ricerca consente di “attivare”logiche di navigazione  basate sulle relazioni tra i concetti

La comprensione della semantica di una ricerca consente di “attivare”logiche di navigazione  basate sulle relazioni tra i concetti

Page 19: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Ontologia: come fare? Una scelta pragmatica

Progettazione dell’ontologia sulla base dei metadati di

catalogazione (ma in funzione delle esigenze della ricerca delle

informazioni)

Progettazione dell’ontologia sulla base degli elementi di

significato che si trovano nei testi del corpus

GUARINI: TOP DOWN

LA STAMPA: BOTTOM UP

Page 20: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Guarini: progetto top down dell’ontologia

OBAC Piemonte è la knowledge base ottenuta istanziando le classi di OBAC nei principali concetti individuali presenti nelle Schede F (fototipi) dell’Archivio

Guarini.

Il metodo quantitativo è basato sull’estrazione delle stringhe del campo “soggetto”di tali schede, arrestandosi sotto un numero prestabilito di occorrenze del

soggetto.

OBAC Piemonte è la knowledge base ottenuta istanziando le classi di OBAC nei principali concetti individuali presenti nelle Schede F (fototipi) dell’Archivio

Guarini.

Il metodo quantitativo è basato sull’estrazione delle stringhe del campo “soggetto”di tali schede, arrestandosi sotto un numero prestabilito di occorrenze del

soggetto.

Page 21: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

OBAC – Classi di base

Page 22: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

OBAC – Alcune relazioni di esempio

Page 23: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Uso di tecnologie semantiche per estrarre informazioni a valore aggiunto

Microfilm Copia digitale OCR Indicizzazione full text Analisi semantica Smart search

11 22 33 44

La stampa: identificazione bottom-up di elementi semantici

Page 24: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

La stampa: estrazione di entità nominate

Arricchimento semantico dei documenti tramite il riconoscimento delle entitànominate ("NamedEntities"), cioè le persone, i luoghi e le organizzazioni menzionate negli articoli.

Un es. di articolo:La Stampa 03-02-1965

Arricchimento semantico dei documenti tramite il riconoscimento delle entitànominate ("NamedEntities"), cioè le persone, i luoghi e le organizzazioni menzionate negli articoli.

Un es. di articolo:La Stampa 03-02-1965

Page 25: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

La stampa: estrazione di entità nominate

Annotazione manuale effettuata su un corpus di 1800 articoli, dal 1910 al 2005, selezionati prevalentemente dalle prime pagine (582.477 token)

Annotazione manuale effettuata su un corpus di 1800 articoli, dal 1910 al 2005, selezionati prevalentemente dalle prime pagine (582.477 token)

Page 26: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

La stampa: estrazione di entità nominate

Training di un Classificatore automatico SVM (Support Vector Machine)

Integrazione di Regole manuali di identificazione e disambiguazione, in particolare per il riconoscimento degli Autori

Training di un Classificatore automatico SVM (Support Vector Machine)

Integrazione di Regole manuali di identificazione e disambiguazione, in particolare per il riconoscimento degli Autori

Page 27: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Una sfida complessa….

Estensione temporaleL’archivio storico de La Stampa comprende articoli su un periodo temporale di quasi 150 anni (dal 1867 al 2004): non esistono casi analoghi in Italia di analisi semantica di testi su un intervallo diacronico così ampio. Abbiamo dovuto definire una metodologia senza poter fare affidamento su best practice consolidate

DigitalizzazioneLa digitalizzazione di un corpus con queste caratteristiche èmolto complessa. Gli inevitabili errori di segmentazione e di estrazione del testo (OCR) hanno un effetto talvolta sostanziale su un successivo strato di analisi linguistica

Page 28: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Panna o Fanna?

Page 29: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

I risultati dell’analisi

4.8000.0000 Articoli analizzati

110.000 Nomi di persona riconosciuti freq > 10

10.000 Nomi di luoghi riconosciuti freq > 10

6.000 Nomi di organizzazioni riconosciuti freq > 10

oltre

oltre

oltre

oltre

80% di precisione del risultatooltre

Page 30: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Siamo soltanto all’inizio…

Page 31: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

La vision futura in 4 passi (2012 – 2013)

Realizzare un motore di ricerca sull’intero patrimonio di conoscenza

(Cultura k-Search)Realizzare un motore di ricerca sull’intero patrimonio di conoscenza

(Cultura k-Search)

Estendere il modello metodologico per coprire repository diversiEstendere il modello metodologico per coprire repository diversi

Creare una ontologia ombrello (OntoPiemonteCultura) in grado di collegare gli archivi in modalità Open (Cultura

LinkedData)

Creare una ontologia ombrello (OntoPiemonteCultura) in grado di collegare gli archivi in modalità Open (Cultura

LinkedData)

Realizzare API di ricerca HTTP / REST che consentano l’accesso

libero a terze parti a Cultura k-Search (APPS)Realizzare API di ricerca HTTP / REST che consentano l’accesso

libero a terze parti a Cultura k-Search (APPS)

1.1.

2.2.

3.3.

4.4.

20122012

20132013

Page 32: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Sappiamo cosa fare….

1 http://web.cnr.it/commesse/CommessaDescr.html?id_comm=14112 http://web.cnr.it/commesse/ModuloPrev.html?id_mod=2059

L'aspetto più critico riguarda la necessità di acquisire persone con la competenza e le motivazioni necessarie per fare da ponte tra ricerca e applicazioni2

Le ontologie rappresentano oggi la tecnologia chiave per risolvere i problemi di integrazione e interoperabilitàsemantica di dati e conoscenze1

Page 33: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Ma in questo momento manca qualcosa….

Page 34: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Vogliamo costruire cattedrali….

Page 35: Celi_Di Tomaso presentazione futurodigitale_csipiemonte

Vittorio Di Tomaso CBDIG

Semantica: condividere significati tra archivi digitali

Vittorio Di TomasoCBDIG

Grazie per l’attenzione!Vittorio Di Tomaso

Hanno collaborato al progetto: Andrea Bolioli, Roberto Franchini, Raffaella Ventaglio, Federico Fissore, Mauro Cappelli, Federico CairoRingraziamo: Andrea Muraca, Francesco Cerchio, Cristina Mollis, Alessandro Stefani