Sistemi Multimediali - ingegneria-informatica.unina.it · Elaborato finale in Sistemi Multimediali...

Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Sistemi Multimediali

Tool per l’image annotation & retrieval

Anno Accademico 2013/2014 Candidato: De Matteo Giuseppe matr. N46/000754

A tutti coloro che hanno sempre creduto in me. Alla mia famiglia e a TE, che anche se non ci sei piu, vegli su di me ogni giorno.

Indice

Indice………………………………………………………………………………………………. III Introduzione……………………………………………………………………………………….....4

Capitolo 1: Image retrieval and annotation..........................................................................................7

1.1 Requisiti per la gestione di archive di foto digitali personali………………………………7

1.2 Standard di metadati esistenti...............................................................................................8

1.3 Sistemi di ricerca e indicizzazione.......................................................................................9

1.4 Visual Information Retrieval.............................................................................................11

Capitolo 2: Caliph & Emir................................................................................................................13

2.1 Annotazione con Caliph..................................................................................................... 14

2.2 Recupero con Emir..............................................................................................................17

Conclusioni........................................................................................................................................23

Biblografia.........................................................................................................................................24

4

Introduzione

Al giorno d'oggi le attività di ricerca e sviluppo sono accompagnate da una crescente

attenzione alle esigenze degli utenti nel campo del recupero multimediale. La rapida

crescita di archivi di dati multimediali è innegabile. Oltre a grandi aziende, come editori

di giornali,emittenti radio o televisive ecc, che si occupano di contenuti digitali, anche un

numero crescente di utenti crea archivi multimediali per i propri video e per le proprie

foto. La tecnologia di internet e lo spazio del World Wide Web permettono di rendere

reperibili molteplici dati ad un numero sempre maggiore di individui, quindi li potremmo

considerare come dei veri e propri database distribuiti di documenti multimediali sempre

piu in estensione.

Questa evoluzione degli archivi di informazioni digitali ha prodotto in passato un numero

crescente di requisiti specializzati nel recupero intelligente delle informazioni. Sono state

globalmente convenute norme e metodi standardizzati.

Inizialmente si operava in termini di un generico Information Retrieval, dove ogni tipo di

ricerca documentale si effettuava tramite linguaggio testuale. Oggi si parla di MMIR,

MultiMedia Information Retrieval, in cui ogni genere di documento elettronico puo’

essere trattato e ricercato tramite elementi di linguaggio piu adatti alla sua natura di

documento multimediale. Nei database multimediali risultano poco efficaci e troppo

riduttivi i metodi di indicizzazione e di ricerca basati sulle annotazioni terminologiche che,

5

invece, sono molto utili nel reperimento di informazioni testuali, in particolare in archivi il

cui contenuto dei documenti è sostanzialmente un testo.

In sostanza,il metodo del MMIR sperimenta la possibilità di ricercare le immagini tramite

gli appropriati mezzi del linguaggio visivo stesso, i documenti sonori con i mezzi del

linguaggio dei suoni, e i video attraverso le forme di rappresentazione audiovisive.

L’innovazione apportata dal MMIR è fondata sui presupposti del contet-based information

retieval (CBIR), nel quale i documenti multimediali vengono trattati tramite tecniche di

archiviazione e recupero che operano direttamente sul contenuto visivo, sonoro, o

audiovisivo degli oggetti digitali di un database.

La transizione dal term-based retrieval al content-based retrieval solleva la necessita di

metainformazioni addizionali in merito al contenuto in modo da consetinre il semantic-

retrieval. Di conseguenza i metadati devono essere generati, archiviati e indicizzati così da

arricchire le informazioni visive. Come risultato sono stati sviluppati due tools chiamati

"Caliph & Emir”.

METADATI

Poichè in questo lavoro si parla a lungo di metadati, vale la pena spiegare brevemente la

loro storia e cosa sono.

I metadati sono dati che descrivono caratteristiche e proprietà di un documento e sono

distiniti dal documento stesso, anche se sono inseriti nello stesso file. Proprio quest’ultima

è una delle loro principali virtù: viaggiono insieme all’immagine, sono sempre disponibili.

Nel caso specifico delle immagini, i metadati permettono di inserire informazioni sia a

livello di macchina, sia a livello utente, con un programma di gestione delle immagini.

I primi ad avere l’idea di inserire dati nel file immagine furono i giornalisti o meglio fu

l’International Press and Telecommunications Council (IPTC), che sviluppo’ questa idea

per organizzare e per distribuire le immagini fotografiche presso i quotidiani.

Successivamente l’Adobe con Photoshop creò File Info che aggiungeva ulteriori dati a

quelli proposti dall’IPTC.

6

Con l’avvento della fotografia digitale i principarli produttori si unirono nella Japan

Electronic and Information Industries Association (JEITA), e svilupparono un sistema di

metadati detti Exchangeable Image File Format ovvero EXIF. Questi dati riguardano le

informazioni della foto scattatata come l’esposizione alla luce solare, la data, il codice

seriale dell’apparecchio ecc. Questi dati non sono sufficienti per l’utilizzo moderno delle

immagini digitali da parte di un professionista.

Per rimediare a questa carenza, sulla fine del 2001, la Adobe Systems Incorporated creò

una nuova tecnologia chiamata Extensible Metadata Platform (XMP), e per rendere questa

il piu possibile compatibile con tutte le piattaforme, Adobe chiese al consorzio World

Wide Consortium di definire degli standard con l’inclusione del XML (Extensible Markup

Language). Con questa nuova tecnologia si è ampliato il numero di metadati rendendolo

virtualmente infinito e lo si è reso compatibile con molte piattaforme e programmi di

gestione immagini e non solo.

7

Capitolo 1: Image annotation and retrieval

1.1. Requisiti per la gestione di archivi di foto digitali personali

Il recupero semantico di foto digitali non è possibile senza metadati esistenti, che, come

detto in precedenza, descrivono il contenuto dell’immagine e l'immagine stessa.

La maggior parte delle foto digitali contengono già alcuni metadati memorizzati nei propi

file, mentre il formato dei metadati dipende dalla fotocamera digitale con la quale sono

state scattate le foto; per esempio il modello e il produttore della fotocamera, valori di

esposizione alla luce solare, data e ora della creazione e del salvataggio vengono salvati,

nelle fotocamere digitali comuni, all'interno dei propi file utilizzando l’EXIF . Questi

valori devono essere importati in una descrizione e, oltre a definire chi e dove è stata

scattata l’immagine, dovrebbe anche essere possibile salvare chi ha creato i metadati.

Ovviamente, deve essere integrata la possibilità di descrivere l'immagine con un breve

testo. Tuttavia l'obiettivo principale è quello di creare, calcolare e salvare una descrizione

del contenuto visivo dell'immagine e, inoltre, dovrebbe essere consentito all'utente di

descrivere contenuti non visibili, come sentimenti o stati d’animo,"amicizia"o”amore”, che

potrebbero essere associati all'immagine. Oltre al tempo e il luogo in cui la foto è stata

scattata, persone, gruppi di persone e oggetti devono essere descritti per migliorare la

capacità di recupero.

Queste entità di descrizione sono interconnesse come si può facilmente vedere nel

seguente esempio:

8

"Puffy, il cane che appartiene a mio zio Adam" .

Si definisce un cane di nome "Puffy" e una persona chiamata "Adam", che è il proprietario

del cane, e ha un rapporto di parentela col narratore. Questo può essere visualizzato in un

grafo orientato, illustrato nella figura 1. E’ piuttosto evidente il vantaggio di memorizzare

una descrizione in tale modo strutturato: la descrizione diventa calcolabile, per esempio,

da agenti software che potrebbero lavorare con questi grafi semantici.

Fig.1

Un altro requisito intuitivo è il recupero di immagini simili, caratterizate da un basso

livello di contenuto come istogrammi di colore o texture di immagini.

Caratteristiche importanti per il recupero di immagini sono le valutazioni soggettive e

oggettive di qualità, per esempio utilizzate come vincolo di ricerca. Se il recupero avviene

in un ambiente internet o mobile, sono necessarie diverse istanze di un'immagine in varie

risoluzioni e spazi di colori.

1.2. Standard di metadati esistenti

Lo standard utilizzato per definire come gestire i metadati deve essere molto più potente di

EXIF o per esempio DC, Dublin Core.1 Quest’ultimo definisce solo 15 qualificatori di

base, che possono essere intesi come tag di metadati e possono essere riempiti dall'utente.

Una combinazione di Dublin Core e altre strutture adatte come Resource Description

Framework, RDF, potrebberto almeno consentire l'archiviazione strutturata di grafi simili

all'esempio precedente e un certo rating di qualità, anche se il recupero basato sul

1 Il Dublin Core (dal nome della città americana nell'Ohio) è un sistema di metadati costituito da un nucleo di elementi

essenziali ai fini della descrizione di qualsiasi materiale digitale accessibile via rete informatica.

9

contenuto di immagini potrebbe non essere supportato. L'importazione delle informazioni

EXIF di una struttura basata su RDF è possibile. RDF è lo strumento base proposto

da W3C per la codifica, lo scambio e il riutilizzo di metadati strutturati e consente

l'interoperabilità tra applicazioni che condividono le informazioni sul Web.

Un altro standard internazionale è MPEG-7, il "Multimedia Content Description

Interface", definito dal Moving Pictures Expert Group, che specifica un sistema di

metadati per la descrizione di contenuti multimediali. MPEG-7 definisce le strutture,

denominate descrittori, necessarie per l'annotazione dei dati di immagine audio, video ed è

un modo standardizzato per creare nuovi descrittori. Un descrittore è composto o da valori

o da altri descrittori; il formato per la definizione di tali descrittori è lo XML schema del

W3C. MPEG-7 soddisfa i requisiti sopra citati e poichè è uno standard per la descrizione

basata sui metadati della multimedialità, è anche intercambiabile tra i vari programmi di

diversi fornitori. Inoltre è possibile integrare le norme esistenti, ad esempio Dublin Core,

in MPEG-7. Caratteristica molto importante per il nostro scopo, è la possibilità di

descrivere la semantica dei dati multimediali. I nodi o vertici nel grafo precedente possono

essere definiti con strumenti di entità semantiche di MPEG-7 , che le descrivono come

oggetti, luoghi, agenti, tempi, concetti e stati. I confini sono le relazioni semantiche

comuni, definite dallo standard.

1.3. Sistemi di ricerca e di indicizzazione

Innanzitutto bisogna prima spiegare come avvengono le ricerche e le indicizzazioni sui

dati, divise essenzialmente tra un sitema piu tradizionale, chiamato Term-Based Retrieval

(ricerca basata sui termini) e un sistema di recupero più innovativo come il Content-Based

Retrieval (recupero basato sui contenuti).

- Term-Based Retrieval

Si basa sulla logica delle parole chiave, cioè una logica di archiviazione e recupero basata

su termini.

10

La query viene espressa testualmente e il processo di ricerca individua i descrittori piu

pertinenti alla richiesta. I descrittori dei documenti multimediali assumono la forma di

termini di indicizzazione, di titoli o didascalie. A questi è collegato il documento

archiviato, che viene automaticamente collegato alla figura, al suono, o alla relativa

anteprima. Il documento, il suo contenuto, le chiavi d’accesso che lo identificano nella

registrazione e la struttura della query nella ricerca hanno tutti forma testuale. La

rappresentazione linguistica lascia però emergere molti problemi. Le queries espresse

terminologicamente sono inadeguate, in quanto la nuova società culturale richiede un

sistema flessibile alla multimedialità, per la ricerca di un’informazione multimediale. Ad

esempio, negli archivi di tutte le specie di animali, per la ricerca di un determinato animale

è essenziale la conoscenza di una terminologia testuale precisa. Il volcabolario degli

studiosi risulta, però, essere poco intuitivo e di nn facile uso per gli utenti medi. Se questi

archivi servono per offrire un servizio informativo il risultato non sarà efficiente, quindi a

poco servirà affrontare il complesso lavoro di assegnare termini ad ogni immagine

secondo i metodi tradizioni: il problema va affrontato cambiando la struttura di base del

sistema.

Serve dunque un metodo più flessibile di ricerca, non vincolato da chiavi e metodi di

classificazione decisi e imposti da qualcun altro.

- Content-Based Retrieval

Si basa di fatto sulla ricerca del contenuto del documento visivo, sonoro,

audiovisivo,composto da strutture e forme, suoni e colori, e non di un contenuto testuale.

Il metodo del recupero basato sul contenuto mira alll’obiettivo del MMIR: restiturire

l’oggetto che esattamente si cerca, al di là di ogni classificazione. Ovviamente la ricerca

non può avvenire sulla fisicità della tela, o della pellicola, ma avverrà sul loro diretto

corrispondente in valori elettronici, direttamente nel dominio degli effettivi valori spaziali,

formali e sonori.

"Content-based" significa che la ricerca analizza il contenuto dell'immagine, piuttosto che

11

i metadati. Il termine "contenuto" in questo contesto potrebbe riferirsi ai colori, forme,

texture, o qualsiasi altra informazione che possa essere derivata dall'immagine stessa.

CBIR è appropriato poichè le ricerche che si basano esclusivamente su metadati

dipendono dalla qualità di annotazione e completezza.

1.4. Visual Information Retrieval

Lo scopo del visual information retrieval (o Content-Based Information Retrieval CBIR)

è di recuperare immagini o sequenze di immagini da un database multimediale, che

rispondano a determinate query. E’ un’estensione delle attività di recupero effettuate sui

database relazionali, la cui differenza principale è che il risultato della query non è

univoco ma si basa su similarità tra le features che descrivono gli oggetti multimediali.

Features di prima e seconda generazione

I dati multimediali sono caratterizzati da diversi tipi di informazioni:

- Metadati indipendenti dal contenuto, come il formato, il nome dell’autore, la data, il luogo

ecc;

- Metadati dipendenti dal contenuto, relativi ad esempio al colore, alla texture ecc;

- Metadati descrittivi, relativi all’ambito semantico, come relazioni fra le immagini e il

mondo reale, al significato associato a segni e scene ecc.

Come spiegato in precedenza, per la ricerca di immagini, l’approccio tradizione è

costituito dalle cosiddette features di prima generazione: queste consentono l’accesso a

immagini, video ecc attraverso delle stringhe di attributi. I metadati dipendenti dal

contenuto sono espressi con keywords, mentre quelli descrittivi sono espressi con scripts,

descrizioni estensive scritte tipicamente da esperti del settore. L’operazione di retrieval è

basata su un tradizionale motore di ricerca sintattica. Si è visto che i problemi con questro

approccio sono molteplici: è necessario descrivere manualmente e a parole ogni elemento

del database, la lingua utilizzata non è univoca, la descrizione delle immagini non è

12

oggettiva ma dipende dal punto di vista di chi la compone e infine potrebbero perdersi dei

dettagli nella descrizione.

Invece, nel CBIR, le features di seconda generazione sono feature estraibili in maniera

automatica dai media e permettono di descrivere in modo oggettivo le immagini

(eliminando la percezione della persona che deve descrivere a parole l’oggetto) in modo

automatizzato e molto più velocemente. Per ciascuna immagine vengono calcolate un

insieme di features descrittive.

Ci son diversi tipi di query : quelle usate per identificare un set di immagini con uno

specifico contenuto (Query by Content), ad esempio trovare tutte le immagini con un

albero a destra di una casa, dove vengono effettuati richiami topologici, metrici ecc; quelle

che si basano su esempi visivi (Query by Example), cioè il sistema valuta la similarità tra

l’immagine inserita dall’utente e quelle presenti nel database, restituendo come risultato le

immagini ordinate per valori di similarità percentuali decrescenti; quelle, tra l’altro meno

utilizzate, che consentono di recuperare informazioni attraverso concetti ad alto livello

(Query Iconiche), dove le icone possono rappresentare categorie di oggetti o di persone.

Per rendere le query più robuste, è importante garantire l’indipendenza rispetto a

variazioni nelle dimensioni, nelle proporzioni, nelle condizioni di luce delle immagini.

13

Capitolo 2: Caliph & Emir

Come esposto nel paragrafo 1.2, MPEG-7 è uno standard complesso basato su XML,

ovvero un linguaggio basato su un meccanismo sintattico che consente di definire e

controllare il significato degli elementi contenuti in un documento o in un testo. Poichè

non è una buona idea far confrontare all'utente un editor XML o un manuale di istruzioni,

come strumenti per esprimere la semantica di una foto, e poichè per trattare con molte

descrizioni grafiche o con una visualizzazione di un grafo, è necessario avere la possibilità

di modificare il grafo in modo interattivo, è stato progettato "Caliph", " the Common And

Lightweight Interactive Photo annotation” (l’annotazione interattiva comune e leggera di

foto), in modo da supportare l'utente nell'annotazione delle foto, un compito che

richiedeva un dispendio di tempo. Per il recupero delle foto annotate, invece, è stato

realizzato "Emir", "the Experimental Metadata based Image Retrieval “ (il recupero di

immagini attraverso metadati sperimentali). Poiché l'implementazione è stata pianificata

per cercare la possibilità di creare descrizioni semantiche nel contesto

dell'amministrazione di archivi di foto digitali, questo tool per memorizzare le descrizioni

non usa un database, ma il file system. Ciò riduce molto la velocità di recupero e rimane

indipendente dalla piattaforma, per una facile dimostrazione basta utilizzare il software

senza una connessione internet. Entrambi i tools, principalmente autonomi, Caliph ed

Emir sono stati implementati utilizzando Suns Java SDK 1.4, mentre come ambiente

runtime sono supportate le versioni JRE 1.4 e superiori. Vengono utilizzati per gestire le

librerie JDOM e Jaxen XML, in quanto forniscono funzioni di alto livello per la gestione

14

dei contenuti basati su XML, che accelera significativamente lo sviluppo. Per leggere le

informazioni EXIF memorizzate nell' immagini sono state utilizzate le classi exifExtractor

di Drew Noakes .

2.1 Annotazione con Caliph

Con Caliph ,che è un'applicazione Java Swing, è iniziata la progettazione con la creazione

di un'interfaccia utente, che divide i metodi di annotazione dai meccanismi di anteprima

d’immagine ed esplorazione del file. I metodi di annotazione sono separati tra di loro ,nel

pannello “JPanel GUI”, per ciascun metodo o gruppo logico di metodi. Ci sono pannelli

per creare il descrittore di ColorLayout e ScalableColor, che vengono estratti

dall'immagine sul primo caricamento. Sono presenti il cosiddetto "pannello di creazione",

che mostra i tag ,i valori EXIF e che contiene l'autore dell'immagine ,il "pannello di

descrizione dei metadati" che definisce la versione e l'autore della descrizione dei

metadati, il "pannello valutazione di qualità", che viene utilizzato per assegnare un valore

di qualità e per definire la persona che ha valutato la qualità dell'immagine, e il "pannello

di annotazione testuale" ,che consente l'input di una semplice descrizione testuale dei

contenuti dell'immagine. Dal momento che una serie di foto deve essere annotata in breve

tempo, lo strumento di esplorazione del file è una tabella specializzata, che permette

all'utente di selezionare l'immagine in modo rapido e intuitivo. Ovviamente un pannello di

un'anteprima è necessario anche per consentire all'utente di esaminare l'immagine, come

pure la possibilità di definire un visualizzatore di immagini esterno, che può essere

chiamato utilizzando un comando tastiera, per dare all'utente la capacità di utilizzare i suoi

strumenti preferiti.

15

Fig.2 Simplified UML diagram of Caliph

La parte centrale del software Caliph è il cosiddetto "pannello di descrizione semantica".

Esso consente all'utente di definire gli oggetti semantici come le persone, i luoghi, gli

eventi e le volte che sono stati salvati in uscita ,per il loro riutilizzo nelle volte

successive,quando si riazionerà Caliph. Questi oggetti semantici possono anche essere

importati da un file MPEG-7 esistente, per consentire lo scambio di oggetti tra utenti, la

modifica e la creazione di tali oggetti in uno strumento preferito dall'utente. Gli oggetti

semantici possono essere utilizzati per creare la descrizione trascinandoli con il mouse sul

pannello blu, mostrato in figura 3. Una volta presenti gli oggetti, possono essere riutilizzati

se alcune immagini o serie hanno lo stesso contesto. Ciò è particolarmente vero per gli

oggetti che rappresentano persone, come i parenti, colleghi, amici, animali preferiti o

luoghi come "a casa" o "al lavoro".

16

Fig.3 Creating a semantic description using Caliph by drawing a graph as abstraction of

the Semantics

Dopo aver lasciato tutti gli oggetti necessari sul pannello blu, l'utente può interconnettere

questi oggetti disegnando i rapporti tra di loro utilizzando il pulsante centrale del mouse. Il

grafo, che viene generato attraverso queste interazioni dell'utente con “Caliph”, può essere

salvato come parte di una descrizione MPEG-7. Oltre alla possibilità di creare un nuovo

grafo, Caliph è anche uno strumento per l'importazione, la modifica e l'eliminazione di

grafi o sub grafi esistenti.

Inoltre tutta una serie di immagini può essere pre-annotata per semplificare e accelerare il

compito di annotare immagini multiple. Tutte quelle che si trovano all'interno di uno

stesso contesto sono poste in una cartella del file system e l'utente le apre al primo utilizzo

di Caliph.

17

Dopo aver definito una descrizione "base", che è la stessa per tutte le immagini della serie

come l'autore, una descrizione testuale di base come "la nostra visita a Vienna" e un grafo

di base ,compresa la posizione e il tempo in cui sono state scattate le foto, e la motivazione

per cui sono state scattate ,può essere usato il cosiddetto "pilota automatico" , che apre

tutte le immagini nella cartella con una sequenza definita, calcola i descrittori visivi, che è

un compito con tempi diversi a seconda della dimensione e della risoluzione dell'

immagine, estrae i dati EXIF e i parametri specifici dell' immagine, crea un esempio di

immagine in miniatura per il successivo recupero e infine salva la descrizione di base.

Un effetto positivo, ovviamente, è che quando si apre una delle foto pre-annotata,

l'esempio in miniatura e i descrittori visivi possono essere interpetrati dai metadati

esistenti e non devono essere creati, ciò consente di risparmiare tempo durante l'apertura di

una singola immagine da modificare. All'interno di un documento MPEG-7 il descrittore

MediaProfile viene utilizzato per fare riferimento agli esempi dei media, descritti dai

metadati. Oltre all’immagine originale, se non è già presente un esempio in miniatura,

creato da Caliph, si fa riferimento a un altro descrittore MediaProfile, per consentire allo

strumento di recupero di usare una miniatura preparata invece di scalare l'immagine

durante il processo di visualizzazione dei risultati di recupero.

2.2 Recupero con Emir

Emir offre all'utente la possibilità di recuperare le foto annotate, supporta la ricerca lineare

in directory dei file MPEG-7 sul file system e l'indicizzazione dei descrittori selezionati

sia da un database Java DB incorporato o un indice di Lucene(API per il reperimento di

informazioni).

Risultati del recupero sono presentati in forma di elenco e gli elementi di quest’ultimo

possono essere aperti e modificati in Caliph. Per una ricerca nelle descrizioni semantiche

sono implementati diversi metodi di recupero grafico.

18

Fig. 5. Simplified UML diagram of the Emir retrieval architecture

Emir consente quattro modi diversi per cercare una foto corrispondente:

1. La ricerca attraverso una dichiarazione XPath .

2. Definizione delle opzioni di ricerca attraverso caselle di testo con diverse

opzioni

3. Recupero dell’imagine basato sul contenuto, utilizzando i descrittori

ColorLayout visivo e ScalableColor definito nello standard MPEG-7.

4. Ricerca di un grafo con una simile descrizione semantica

- Ricerca attraverso Xpath

La prima opzione è utilizzata principalmente per gli sviluppi e il debug delle dichiarazioni

XPath, poichè tutti gli altri meccanismi di recupero usano come linguaggio di query

proprio XPath. Per verificare la corrispondenza dei documenti utilizzando XPath, si

richiede la conoscenza dettagliata della struttura dei documenti da ricercare, e anche se

dichiarazioni di base come:

19

//*[contains(.,'textToSearchFor ')]

potrebbero essere utilizzate per richiedere documenti senza conoscerne la struttura, queste

offrirebbero solo funzioni di recupero minimo.

- Ricerca basata su testo supportata da un'interfaccia grafica per l’utente

Strumenti ben noti per la definizione di query di ricerca, per l'input di testo e per elenchi

delle opzioni tra cui scegliere, sono componenti della GUI (Graphical User Interface,

ovvero Interfaccia Grafica per l'Utente). Un’interfaccia utente che offre questi componenti

permette all'utente di specificare, in fase di ricerca, ciò che cerca senza conoscere la

struttura dei documenti. Anche se il backend di ricerca utilizza XPath per interrogare i dati

MPEG-7, l' utente non rileva la dichiarazione stessa. Le funzioni di base sono alla ricerca

di agenti, come un agente semantico, metadati o creatore di immagini, alla ricerca di

parole chiavi in vari descrittori testuali e definiscono come vincolo di ricerca la minima o

la massima qualità.

- Recupero di immagini basate sul contenuto in Emir

Dal MPEG-7 che definisce molti descrittori di basso livello, è stato implementato un

meccanismo di ricerca utilizzando due di questi descrittori per il recupero di immagini

basato sul contenuto.

1)Il colore scalabile (ScalableColor)

Questo descrittore untilizza un istogramma dei colori ,nello spazio dei colori HVS,

codificato attraverso la trasformata di Haar. La sua rappresentazione binaria può essere

ridimensionata in termini di numero di bit e la loro accuratezza di rappresentazione su un

ampio range di dati. Il descrittore è utile per l'abbinamento immagine per immagine e per

il recupero basato sulle caratteristiche del colore. Accuratezza del retrieval cresce con il

numero di bit usati nella rappresentazione.

20

2) Il ColorLayout

Il Descrittore di Layout dei Colori (C.L.D. Color Layout Descriptor) cattura la

disposizione spaziale dei colori dominanti su una griglia sovrapposta alla regione di

interesse; è progettato per catturare la distribuzione spaziale di colore sia

complessivamente in una immagine che in una regione di forma arbitraria. La

distribuzione spaziale di colore costituisce un descrittore efficace per il recupero di

immagini basato su uno schizzo, il filtraggio di contenuto usando l’indicizzazione di

immagini, e la visualizzazione; il descrittore risulta molto compatto e adatto alle

applicazioni di scorrimento e di ricerca. Può essere applicato sia a immagini statiche, che a

frammenti di video.

- Ricerca semantica

La componente di maggior interesse è il pannello che offre una ricerca di meccanismi per

la ricerca di descrizioni semantiche.

Fig. 6 Avvio di una ricerca semantica utilizzando un grafico come input.Tre oggetti e due relazioni sono definita, per cui un rapporto è

definito da un carattere jolly invece di una parola.

21

Questo componente consente all'utente di definire un grafo con un minimo ad un massimo

di tre nodi e due possibili relazioni. Un asterisco viene utilizzato come carattere jolly. Un

grafo di ricerca che contiene solo un nodo, con una parola che definisce questo nodo,

restituirà ogni documento MPEG-7 in cui si trova un oggetto semantico contenente la

parola specificata. Se due o tre nodi e uno o due rapporti sono utilizzati per definire il

grafico di ricerca, l'archivio di documenti MPEG-7 viene filtrato dai termini definiti come

oggetti o relazioni. Se, per esempio, il grafo in figura 6 viene utilizzato per la ricerca, tutti

i documenti che contengono oggetti semantici,in cui sono presenti i termini "Tobias",

"Unterhaltung" e "Stefanie", e una relazione semantica contenente il termine "patientOf"

sono presi dall'archivio e controllati se vi è anche una corrispondenza strutturale con il

grafo dato.

Il meccanismo di recupero segue un’architettura di sistema modulare, un'istruzione Xpath

è data ad una classe che implementa l'interfaccia RetrievalEngine ed i risultati sono

ricevuti come elenco dei documenti HTML, che possono essere visualizzati utilizzando

componenti dello standard Java Swing. L'unico motore di recupero ancora attuato è il

"FileSystemRetrievalEngine", che raccoglie tutti i documenti MPEG-7 da un determinata

directory e dalle sue sottodirectory ed esegue la data dichiarazione XPath. Se un

documento viene trovato si trasforma in HTML, utilizzando XSLT. Questa

visualizzazione del risultato HTML viene aggiunta all’ elenco di risultati, che viene

ordinato per importanza, questa è calcolata utilizzando il numero di nodi corrispondenti

alla dichiarazione XPath utilizzata come input.

22

Un'altra implementazione del motore di recupero, ad esempio, è che si collega a un XML

database, cio’ si traduce in un aumento significativo di velocità dell'esecuzione delle

istruzioni XPath. In caso di una ricerca di immagini basata sul contenuto ciascun

documento MPEG-7 deve essere caricato e il descrittore desiderato si trova utilizzando

XPath. Questo descrittore deve essere confrontato al descrittore campione utilizzato come

parametro di ricerca per calcolare l’importanza. Questi risultati sono messi in una lista

ordinata per importanza crescente, anche se un’importanza pari a zero mostrerebbe una

corrispondenza esatta. Utilizzando un database, il confronto dei descrittori deve essere

implementato, in una parte del database, come una procedura memorizzata, un oggetto

server o di un simile meccanismo, a causa di problemi di velocità.

23

Conclusioni

In questa tesi ho affrontato il problema dell’image retrieval e dell’immage annotation,

costatando il continuo sviluppo di database multimidiali e la necessità, che ha l’uomo, di

ricercare, annotare e recuperare informazioni o dati multimediali in modo sempre più

efficace e veloce. Possiamo quindi parlare di WEB SEMANTICO, cioè l’evoluzione del

World Wide Web in un ambiente dove i documenti pubblicati sono associati ad

informazioni e a dati (metadati) aggiuntivi , che ne specifichino il contesto semantico, in

un formato adatto all’interrogazione, all’interpretazione e in generale all’elaborazione

automatica.

Ho esaminato le due tipologie di recupero dati, quella testuale e quella che si basa sul

contenuto, delineando le differenze, i vantaggi e gli svantaggi di quest’ultime.

In particolare ho analizzato alcuni tools per il recupero e per l’annotazione di immagini

che sono attualmente disponibili ,e nello specifico Caliph ed Emir.

24

Bibliografia

[1]Caliph&Emir: Semantic Annotation and Retrieval in Personal Digital Photo Libraries

Mathias Lux, Jutta Becker and Harald Krottmaier

Know-Center, Inffeldgasse 16c, A-8010 Graz, Austria.

[2] Caliph & Emir: MPEG-7 Photo Annotation and Retrieval

Mathias Lux

Institute for Information Technology

Klagenfurt University

Klagenfurt, Austria.

[3]L’archivazione delle immagini – I metadati

Di Massimo Isotti

[4] Dublin Core ,Wikipedia

[5] XML and MPEG-7 for Interactive Annotation and Retrieval using Semantic Meta-Data

Mathias Lux, Werner Klieber, Jutta Becker, Klaus Tochtermann ,2002

Sistemi Multimediali - ingegneria-informatica.unina.it · Elaborato finale in Sistemi Multimediali...

Documents

Transcript of Sistemi Multimediali - ingegneria-informatica.unina.it · Elaborato finale in Sistemi Multimediali...