Stima e valutazione di mappe di Salienza Specialistica.pdf · Questi constano in un set di immagini...

Università degli Studi di Catania

Dipartimento di Matematica e Informatica Corso di Laurea Magistrale in Informatica

____________________________________________________________________

Stima e valutazione di mappe di Salienza

Relatore

Ch.mo Prof. Giovanni Maria Farinella

Correlatore

Ch.mo Prof. Sebastiano Battiato

Correlatore

Ch.mo Prof. Salvatore Livatino

Candidato

Francesco Mergiotti

___________________________________________________________________

Università degli Studi di Catania – Dipartimento di Informatica

Stima e valutazione di Mappe di Salienza


i


Abstract

Negli studi sulla salienza di immagini permane il problema su come

verificarne affidabilità e accuratezza. L’uso di nuove tecnologie in Virtual

Reality che permettono il tracciamento della posizione degli occhi, può

essere di grande utilità per valutare la performance di mappe di salienza.

Il lavoro presentato in questa tesi si occupa di stima e valutazione di

mappe di salienza nell’ambito applicativo di immagini relative ad ambienti

indoor, come per esempio quelle di un museo digitale. Il lavoro è stato

sviluppato attraverso tre fasi. La prima fase comprende la raccolta dei dati

su cui effettuare la verifica. Questi constano in un set di immagini a 360

gradi che, osservate attraverso un elmetto VR comprensivo di eye-

tracking, permettono di ottenere un mappamento delle aree maggiormente

attenzionate da un utente. Queste serviranno quindi da riferimento per un

confronto in fase due con l’output delle mappe di salienza generate

attraverso un processo di visual attention. Infine, nella fase tre, viene

effettuato uno studio dei comportamenti degli utenti durante l'esperienza.

I dettagli dei risultati di questo studio sono presentati in questo

documento, insieme alla descrizione delle metodologie proposte ed

implementate. I modelli di salienza basati su visual attention confermano

di essere un ottimo strumento per l'individuazione degli oggetti

interessanti di una scena.


ii


Indice

Abstract _______________________________________ i

Indice _________________________________________ ii

1. Introduzione _______________________________ 1

2. Background Knowledge ____________________ 4

2.1 Virtual & Augmented Reality ____________________ 4

2.2 VR Headsets e Eye Tracker ______________________ 5

2.3 Usability Evaluation ____________________________ 8

2.4 Saliency Map ___________________________________ 9

2.5 Correlazione 2-D ______________________________ 10

2.6 Curve ROC ____________________________________ 11

3. Stato dell’arte _____________________________ 15

4. Panoramica dell’indagine _________________ 21

5. Prima fase: Raccolta dei dati ______________ 26

5.1 Creazione del software _________________________ 27

5.1.1 Panoramica del software ___________________________ 27

5.1.1.1 Ambiente di sviluppo ______________________ 27

5.1.1.2 Headset Eye Tracker _______________________ 28

5.1.1.3 Funzionalità _______________________________ 29

5.1.2 Implementazione __________________________________ 29

5.1.2.1 Composizione dell’ambiente ________________ 30

5.1.2.2 Modalità di visita __________________________ 33


iii


5.1.2.3 Salvataggio dei dati ________________________ 34

5.1.2.4 Creazione delle Heatmaps __________________ 36

5.2 Test ___________________________________________ 39

5.2.1 Fase preliminare __________________________________ 39

5.2.1.1 Questionari _______________________________ 40

5.2.2 Procedure _________________________________________ 42

5.2.3 Analisi dei dati raccolti ____________________________ 43

6. Seconda fase: Applicazione Saliency Map _ 48

6.1 Preliminari ____________________________________ 50

6.2 Implementazione ______________________________ 50

6.3 Studio delle Salieny Map _______________________ 55

6.3.1 Mappe di Salienza e Heatmap ______________________ 55

6.4 Studio e analisi dei risultati ____________________ 58

6.4.1 Premessa _________________________________________ 58

6.4.2 Analisi dei dati: primo studio ______________________ 58

6.4.3 Analisi dei dati: secondo studio ____________________ 61

7. Terza Fase: Studio dei comportamenti ____ 67

7.1 Preliminari ____________________________________ 68

7.2 Implementazione ______________________________ 68

7.3 Analisi dei dati ________________________________ 72

8. Conclusioni _______________________________ 79

9. Appendice _________________________________ 82

9.1 Figure _________________________________________ 82

9.2 Questionari ___________________________________ 83


iv


9.3 Grafici ________________________________________ 83

9.4 Tabelle ________________________________________ 84

9.5 Codice ________________________________________ 84

10. Referenze ________________________________ 86

11. Sitografia ________________________________ 89


1


1. Introduzione

Negli ultimi cinque anni, la tecnologia nel campo delle Augmented

Reality (AR) e Virtual Reality (VR) ha fatto un enorme passo in avanti,

tanto da diventare un tassello importante per lo sviluppo di tante

applicazioni, dal semplice videogioco al software per la

telecomunicazione, dal militare al medico.

L’hardware VR/AR a disposizione al giorno d’oggi è, di conseguenza,

impiegato in molti campi e permette di visitare posti remoti, di

provare esperienze di gioco fortemente realistiche, di studiare in

maniera nuova il comportamento del corpo umano, di osservare il

campo di battaglia da una prospettiva in prima persona (che ricorda

molto quella dei film di fantascienza).

Con l’avvento di questa nuova concezione della realtà, sono nati

innumerevoli studi e ricerche.

Le piattaforme di software più importanti si stanno popolando di

applicazione apposite che offrano questa nuova realtà, come lo store

Microsoft, Steam, Play Store e l’Apple Store.

Una delle tante domande che questo nuovo approccio alla realtà

pone, potrebbe essere quello di capire dove l’utente concentra la sua

attenzione durante un tour virtuale di una struttura, come una casa

o un museo.

Questo permetterebbe, ad esempio, di progettare un certo modello di

esposizione di oggetti in maniera più appropriata ed anche di poter

guidare il visitatore verso una zona con determinati oggetti. A tal

proposito è nato lo studio che propone questo documento.


2


Ponendo come struttura di interessa quella digitale, e dunque oggetti

rappresentati all’interno di immagini digitali, si potrebbero utilizzare

metodologie di Computer Vision per prevedere, in maniera

automatica, le zone di maggiore interesse per un osservatore. Queste

parti dell’immagine verrebbero rappresentate e rilevate attraverso le

mappe di salienza.

Negli anni precedenti, parecchi e diversi studi sono stati concentrati

su come ricavare le saliency map, ma permane il problema su come

verificare l’affidabilità di questi modelli di salienza.

Grazie alla presenza di nuove tecnologie in campo VR e alla

possibilità di ricavare le zone di osservazione di maggiore interesse da

parte di un visitatore, è possibile accertarsi quali siano le parti di

un’immagine di maggiore interesse. Dunque è possibile utilizzare la

tecnologia VR per poter valutare le performance di specifici metodi

che producono mappe di salienza.

Il primo studio si è concentrato sulla raccolta di una base di dati reali

e affidabili che possa essere utilizzata come riferimento per testare la

validità del modello di salienza.

Il secondo studio riguarda la qualità delle saliency map, confrontando

le mappe di salienza generate dall’algoritmo di visual attention

modelling attraverso un confronto con le mappe generate nella prima

fase. Come valutazione del confronto di ogni utente con le mappe di

salienza di ogni stanza della casa, sono stati utilizzati due modelli:

Regressione 2D e le Curve ROC con l’ausilio dell’indice AUC.

Infine, il terzo studio si è concentrato sui vari comportamenti degli

utenti durante il tour. In particolare, essi sono stati classificati in


3


base alla sequenza di oggetti osservati, al tempo di osservazione degli

oggetti stessi o alle zone della stanza in cui l’utente si è soffermato.

Nel secondo capitolo troviamo tutte quelle conoscenze che sono

servite a produrre questo documento. Successivamente, nel terzo, lo

stato dell’arte attuale. Quindi nel quarto capitolo, una panoramica

approfondita dell’indagine condotta. Il quinto capitolo, la fase della

raccolta dati, è suddiviso in due parti: creazione del software e test.

Nel sesto capitolo troviamo la seconda fase del documento, il

confronto con le mappe di salienza. Nel settimo capitolo troviamo

l’ultima fase, la terza, che prevede lo studio dei comportamenti degli

utenti. Infine, nell’ottavo capitolo, le conclusioni.


4


2. Background Knowledge

Le tecnologie attuali a nostra disposizione e che possono essere utili

ai nostri studi sono molteplici e con altrettante applicazioni.

Iniziando dall’hardware in ambito VR e AR, spaziando con i metodi di

studio delle mappe di salienza e finendo con le soluzioni offerte dalla

statistica per la valutazione dei confronti fatti, come le Curve ROC e la

Regressione 2D.

2.1 Virtual & Augmented Reality

La virtual reality è una rappresentazione di una scena tridimensionale

generata dal computer, con diversi riferimenti con l’ambiente reale,

da un abbozzo schematico degli oggetti fino al fotorealismo, in cui è

possibile agire interattivamente con la scena stessa e gli oggetti [1].

Figura 1 – Realtà Virtuale - VR


5


Mentre, in generale, la Augmented Reality è la rappresentazione di

una realtà alterata in cui, alla normale realtà percepita attraverso i

nostri sensi, vengono sovrapposte immagini e informazioni

artificiali/virtuali [2], come nell’immagine seguente dove lo

smartphone ricrea sulla scrivania una zucca virtuale. Nel paper [2]

sono state identificate 6 classi di ambienti di visualizzazione di Mixed

Reality, le quali tuttavia possono essere raggruppate considerando la

tassonomia tridimensionale delle seguenti caratteristiche: estensione

della conoscenza del mondo, fedeltà della riproduzione ed estensione

della metafora della presenza.

Figura 2 - Realtà Aumentata– AR

2.2 VR Headsets e Eye Tracker

Nel mercato attuale sono presenti vari sistemi e prodotti che

permettono all’utente di interagire con una realtà del tutto diversa


6


dall’esperienza offerta dal classico hardware statico,come mouse e

tastiera o joypad.

Possiamo suddividere questa nuova tecnologia in due categorie:Mobile

VRePC VR Headset.

La prima categoria, Mobile VR, comprende quella tecnologia che

sfrutta uno smartphone, il suo display e i suoi sensori di movimento,

posti all’interno di una cardboard, un supporto simile ad un elmetto

che rimanga fisso sul capo dell’utente, che simuli un ambiente

virtuale, come illustra l’immagine seguente.

Figura 3 - Mobile VR

All’interno della seconda categoria troviamo visori molto più potenti e

più realistici che necessitano di essere collegati al PC che isolano

completamente l’utente trasportandolo in una realtà virtuale più

profonda rispetto a quella fornita dall’hardware descritto nella prima

categoria. La differenza fra i vari headsetdi tipo PC-based, come

l’Oculus Rift e il FOVE,consiste nella presenza di un eye-tracker


7


interno che cattura i movimenti degli occhi durante l’esperienza e

replica gli stessi nell’ambiente virtuale, come nel secondo headset.

Figura 4 - Oculus Rift

Figura 5 - Fove e Eye-Movement

Nei paper [3] e [4] sono stati condotti degli studi per valutare nuovi

metodi di monitoraggio della posizione degli occhi che superino alcuni

inconvenienti, come la comodità del sistema fisico o l’accuratezza e la


8


precisione dello sguardo, e che raggiungano dei risultati

considerevoli, come sensibilità e precisione di circa 1°.

2.3 Usability Evaluation

Con l’avvento di applicazioni e dispositivi VR sono nati anche notevoli

studi e test di valutazione sull’usabilità dell’esperienza utente e la

loro usabilità. Quest’ultimi sono generalmente condotti attraverso la

misurazione del comportamento umano, compresi gli aspetti della

percezione, dell'azione e del compito, e condotti da persone esperte in

laboratori appositamente preparati per il loro svolgimento.

Il nuovo ordine delle cose richiede ricercatori e persino studenti non

esperti nel campo dell'usabilità, per valutare queste applicazioni.

Quindi questi studi hanno luogo presso i laboratori di università o

istituti di ricerca alle volte non predisposti per la conduzione di test di

valutazione.

Ciò solleva la questione sull’abilità dei non esperti di condurre

valutazioni in modo professionale. Inoltre, il problema della

valutazione richiede una collaborazione multi e interdisciplinare, in

cui le competenze tecniche sono combinate con la conoscenza e la

metodologia umanistiche [5]. Il documento [5] offre delle linee guida

su come predisporre, gestire e condurre un test di valutazione di

applicazioni VR.


9


2.4 Saliency Map

Con l’obiettivo di valutare e selezionare quali posizioni della scena

sono più rilevanti per l’utente, esiste una mappa topografica, mappa

di salienza, che combina le informazioni delle singole mappe ottenute

dalla immagine di partenza e misura la cospicuità globale della scena.

Attraverso gli studi compiuti negli anni, [6] e [7], sono stati affinati

alcuni metodi per individuare i singoli oggetti all’interno di una scena

seguendo la relazione tra il contesto in cui versa l’oggetto e l’oggetto

stesso, basate sulla correlazione tra le statistiche delle features di

basso livello sull’intera immagine e sulle features globali.

Questi studi hanno prodotto differenti categorie di metodi e algoritmi

per il calcolo della salienza e la maggior parte degli autori, degli

stessi, concorda che la visual attention dipende dall’applicazione e

dall’obiettivo che si vuole raggiungere.

In generale per l’attenzione sono stati definiti tre livelli di salienza:

salient object detection, salient object segmentation e visual attention

modelling [8].

- Salient Object Detection,questo livello si riferisce all’abilità della

mappa di salienza nel rilevare l’oggetto all’interno della scena.

Vengono utilizzati alcuni spunti, come caratteristiche distintive

locali e conoscenza a priori degli oggetti (come è fatto un vaso,

una pianta, un albero, ecc)

- Salient Object Segmentation, in questa funzione, la capacità del

rilevamento della salienza è dato dall’individuazione e dalla

segmentazione dell’oggetto. In questo livello vengono impiegate

maschere di tipo pixel-wise object.


10


- Visual Attention Modelling, questo terzo livello permette di

evidenziare gli oggetti e le sezioni dell’immagine che l’utente

potrebbe osservare. Esso utilizza le posizioni spaziali degli

oggetti, seguendo un approccio bottom-up, basandosi inoltre

sulla relazione delle loro caratteristiche con i dintorni.

La scelta è ricaduta su quest’ultimo modello, piuttosto che sui

precedenti, per la maggior specificità fornita rispetto al nostro

problema. Infatti, il nostro studio vuole valutare un sistema che

replichi nel migliore dei modi l’human visual system.

2.5 Correlazione 2-D

L’analisi della correlazione tra due set di dati è metodo con

applicazioni su ogni campo di studi, dalla medicina alla statistica,

dall’informatica all’economia.

Nel nostro documento, faremo riferimento alla correlazione tra due

oggetti o set di dati in 2 dimensioni. I coefficienti di correlazione che

abbiamo prodotto, sono stati ricavati dal confronto di due immagini,

mappe di salienza e mappe di calore, utilizzando la seguente formula

[a]:

Figura 6 - Formula Correlazione 2D


11


La funzione che fa riferimento all’equazione appena vista, è corr2 ed è

presente nell’ambiente di sviluppo Matlab.

2.6 Curve ROC

Le ROC Curve sono uno strumento che fa parte della teoria delle

decisioni. Esse offrono degli schemi grafici per la comparazione di

predictive models. Sono impiegate in vari campi, come l’analisi degli

algoritmi di Machine Learning [9], in cui viene valutata la precisione

di 6 algoritmi di ML su 6 dataset di diagnosi mediche provenienti da

fonti reali, o come nel paper [10], in cui vengono impiegate come

modello decisionale tale che preso un soggetto a caso sia valutato

correttamente o classificato con maggiore sospetto rispetto a un

soggetto non malato scelto a caso.

Quindi, sono un ottimo metodo per valutare come un qualsiasi

modello di predizione distingue i valori veri positivi e negativi.


12


Figura 7 - Tabella di Contingenza

La tabella di Contingenza 2x2, descrive come il modello etichetti ogni

punto osservato:

- Se il risultato della predizione è positivo p e il valore vero è

anche positivo p, viene chiamato vero positivo (true positive -

TP).

- Se invece il valore vero è negativo, il risultato viene chiamato

falso positivo (false positive - FP).

- Al contrario, si ha un vero negativo (true negative - TN) quando

entrambi, il risultato e il valore vero, sono negativi.

- Un falso negativo (false negative - FN) invece si ha quando il

risultato è negativo e il valore vero è positivo.

Con la generazione di questi 4 valori, TP, FP, TN e FN, vengono

calcolati vari indici che descrivono l’accuratezza e la precisione del

modello.


13


La lista completa è disponibile sulla pagina web Wikipedia relativa

alle Curve ROC [b].

Gli indici che andremo ad utilizzare nel nostro studio per valutare le

mappe di salienza, saranno il True Positive Rate e il False Positive

Rate. Di seguito, vengono riportate due immagini contenenti le

formule per calcolare i due queste misure e lo schema grafico.

Figura 8 - TPR e FPR


14


Figura 9 - Curva ROC

Un altro indice che andremo ad utilizzare per descrivere la bontà e la

qualità delle saliency map sarà l’AUC –Area Under the Curve. Esso

indica la dimensione dell’area che crea la curva ROC.


15


3. Stato dell’arte

Gli studi condotti sugli eye-trackers sono in continua crescita, e

spaziano dallo studio sull’usabilità [11]allo studio su come tenere

traccia dei movimenti degli occhi all’interno di un website [12].Nel

libro [11] troviamo uno studio approfondito sugli eye tracker, su quale

base fisica poggiano, quali materiali li compongono, quale

accuratezza necessitano, e altre informazioni utili su come sono

implementati e assemblati. Nel paper [12] per analizzare la

complessità di un website di tipo e-commerce, vengono impiegati gli

eye-trackers per tenere traccia dei movimenti degli occhi di 42

studenti universitari mentre fanno shopping su vari siti più o meno

complessi. L’headset che abbiamo utilizzato nel nostro studio, il

FOVE, nello stato attuale, è utilizzato nella maggior parte per scopi

scientifici e di analisi. Lo studio che prende in considerazione

quest’ultimo, riguarda il confronto fra headset di tipo eye-based e

visori head-based.[13]. Esso riporta come risultato finale prestazioni

peggiori nel primo sistema, eye-based,in termini di tasso di errore,

tempi di selezione e velocità effettiva di movimento, mentre il secondo

sistema, head-based, fornisce più precisione nei movimenti e

prestazioni generali significativamente migliori.


16


Figura 10 - Tasso di Errore Eye-based vs Head-based

Non sono da meno gli studi compiuti nel campo della salienza. Nel

documento [14] viene descritto il modello della firma dell’immagine o

Image signature che permette un primo studio delle zone di interesse

di un’immagine, attraverso l’analisi dei segnali sparsi che il piano

foreground produce. Questo primo modello di salienza prevede e

replica glihuman fixation points migliori tra quelli presenti nel set di

dati prodotti dal benchmark redatto da Bruce e Tsotsos [15] e lo fa in

un tempo di esecuzione molto breve.

Attualmente esistono altri vari studi che analizzano le mappe di

salienza attraverso vari modelli che differiscono per gli obiettivi

perseguiti.

Nel documento [8] vengono confrontati i tre livelli di salienza, descritti

nel capitolo precedente, dove la qualità della saliency detection è

analizzata e valutata su un vasto database di immagini. In questo

esperimento, [8], prodotto da Furnari, Farinella e Battiato, si è

valutato il tasso di salienza che descrive meglio i set di dati analizzati.


17


Attraverso i vari esperimenti condotti, si mostra come il livello scelto

influisca sulla prestazione della qualità della mappa di salienza.

Figura 11 - Risultato dei 3 metodi di Salienza

Il Visual Attention Modelling – VAM lo troviamo in vari studi, come nel

paper [16],in cui troviamo un elenco di 5 punti focali su cui verte il

modello, elencati di seguito:

- Innanzitutto, la rilevanza percettiva degli stimoli dipende in

modo critico dal contesto circostante in cui versa l’oggetto

nell’immagine.

- Secondo punto, una mappa di salienza, che codifica

topograficamente gli stimoli della visibilità nella scena, si è

dimostrata una strategia bottom-up efficiente e plausibile.

- In terzo luogo, l'inibizione del ritorno, il processo attraverso il

quale la posizione attualmente frequentata è impedita di essere

nuovamente presenziata, è un elemento cruciale dell'attuazione

dell'attenzione.


18


- Quarto punto, attenzione e movimenti oculari interagiscono

strettamente, ponendo sfide computazionali rispetto al sistema

di coordinate usato per controllare l'attenzione.

- Infine, la comprensione delle scene e il riconoscimento degli

oggetti vincolano fortemente la selezione delle posizioni attese.

Di seguito è riportata un’immagine del documento [16] che descrive

l’approccio bottom-up per la selezione delle zone salienti di una

scena.

Figura 12 - Approccio Bottom-Up del modello VAM


19


Nell’articolo [17], il modello illustrato, genera le caratteristiche

dell’immagine principale in multiscala, con vari livelli, e le combina in

un'unica mappa salienza topografica. Una dynamic neural network

seleziona quindi le posizioni interessanti in ordine decrescente di

salienza, infine il sistema seleziona le zone delle immagini cospicue

da analizzare in dettaglio. L’immagine seguente, presente nel

documento [17] redatto da Itti, Koch e Neibur (1998), descrive

sommariamente come è implementato il modello VAM.

Figura 13 - Modello Visual Attention Modelling


20


L’idea di utilizzare il modello delle Curve ROCcome metrica di

valutazione per i confronti tra le saliency map e le mappe di calore, è

stata ripresa dal documento [8], in cui il confronto tra le mappe di

salienza e il vasto dataset di immagini fornito all’esperimento, è

valutato dagli indici TPR – True Positive Rate, FPR – False Positive

Rate ed AUC – Area Under the Curve.


21


4. Panoramica dell’indagine

La domanda che è all’origine dello studio di questo documento è se le

mappe di salienza possono effettivamente replicare gli oggetti che un

utente troverebbe interessanti all’interno di una scena.

La scelta per valutare la salienza ricade dunque sul dataset di

immagini da utilizzare come confronto. Lo studio [8] utilizza un set di

immagini già esistenti, per cui nasce l’esigenza di creare un nuovo

database di immagini in cui vengano marcate le zone di osservazione

dell’utente, come mappe di calore o heatmap.

Come precedentemente indicato questa ricerca è stata sviluppata

attraverso tre fasi. La prima fase, che riguarda la raccolta dati da

utilizzare come riferimento,è suddivisa in due step: il primo step è

stato quello di creare un software che generasse queste mappe di

calore. Per poter generare quest’ultimo è stato proposto lo sviluppo di

House Tour, un software che simulala visita di una casa composta da

4 immagini a 360 gradi, indoor e outdoor, permettendo la creazione

delle mappe.Le modalità presenti nel tour sono guidata e libera,

descritte di seguito, e ciò permette di ricevere feedback relativi a due

tipi di esperienza di tour virtuali diversi:

- Guidata: L’utente visiterà la casa per un tempo determinato e

seguirà delle indicazioni in sovraimpressione, come frecce e

quadrati.

- Libera: l’utente può muoversi liberamente tra le scene,

scegliendo quanto tempo rimanere in ogni stanza e dove

andare.

Un punto fondamentale è stato la scelta dell’hardware da affiancare

ad House Tour, ricaduta sul visore FOVE. Esso permette, grazie ad un


22


alto tasso di precisione, di individuare dove e cosa gli occhi

dell’utente stanno guardando all’interno di una scena in quel preciso

momento, feature utilissima dato che il nostro obiettivo è quello di

creare delle mappe di calore contenenti le parti dove lo sguardo dello

user ha indugiato maggiormente. Per cui durante la visita, in

background, verranno salvate le informazioni che serviranno

successivamente alla costruzione di queste mappe.

La seconda parte consiste nel raccogliere dati consistenti e differenti,

sfruttando il software creato, attraverso una fase di test con la

partecipazione di 20 utenti. È stato preparato, dunque, un test

composto dalle due modalità del tour e dalla somministrazione di 4

questionari relativi all’esperienza in virtual reality e relative

all’usability evaluation del software e dell’eye traker utilizzato.

La seconda fase dell’indagine prevede il confronto tra le mappe di

calore, ottenute dagli utenti e generate durante i test, e le mappe di

salienza relative ad ogni ambiente della casa: salotto, bagno, camera

da letto ed entrata. Il livello scelto per generare le mappe di salienza è

il visual attention modelling. Il VAM rispetto agli altri due livelli,

evidenzia maggiormente gli oggetti o spazi dell’immagine che

potrebbero catturare l’attenzione dell’osservatore. Questo modello è

stato preferito ad altri algoritmi di salienza poiché è più affine al goal

di questo documento, dato che vogliamo valutare l’accuratezza e la

precisione della replica e dell’individuazione delle zone di interesse

che la salienza si prefigge di ottenere. Dopo la creazione delle mappe

di salienza attraverso il modello VAM, sono state messe in relazione

quest’ultime con le heatmap degli utenti. In questa fase, sono stati

fatti due tipi di confronti:


23


- Il primo mette a confronto le saliency map con le mappe di

calore normalizzate con il filtro di Gauss. Esso è valutato dal

metodo di Regressione 2D. La normalizzazione è stata applicata

poiché le mappe di calore coprivano una superficie minore

rispetto a quello che un occhio umano riesce ad osservare

all’interno di un’immagine per cui le zone di calore sono state

spalmate e ampliate.

- La valutazione del secondo confronto, tra mappe di salienza e

heatmap originali, è stato affidato al modello decisionale delle

curve ROC. Esso calcola l’hit rate, cioè la percentuale dei punti

delle mappe di calore che le mappe di salienza riescono ad

individuare e replicare. Questo modello di valutazione è stato

scelto in base alla lettura del paper [8].

L’ultimo studio è stato condotto sui comportamenti assunti dagli

utenti durante la visita della casa. Si è pensato di etichettare i vari

tester in base alla sequenza di oggetti osservati, così da trarre

maggiori risultati, relativi al confronto con le mappe di salienza, e

capire se esiste una qualche attinenza tra utente e stanza della casa

o una qualche relazione tra gli utenti con gli stessi comportamenti.

Di seguito, è riportato un diagramma di flusso che rappresenta lo

studio attuato in questo documento.


24


Figura 14 - Diagramma di Flusso dell'Indagine


25


Nei prossimi capitoli tratteremo le 3 fasi che lo compongono:

- Raccolta Dati

▪ House Tour, software implementato in Unity 3D

▪ Test, con l’impiego di House Tour e dei 4 questionari

- Mappe di Salienza, generazione e confronto delle saliency map

con le mappe di calore

- Studio dei comportamenti,creazione e allenamento del

classificatore dei comportamenti


26


5. Prima fase: Raccolta dei dati

In questo capitolo vengono descritti i due steps per la raccolta dati:

creazione del software e test di valutazione.

Di seguito è riportato il diagramma di flusso relativo a questa fase.

Figura 15 - Diagramma di Flusso Prima Fase


27


5.1 Creazione del software

L’idea di partenza per l’implementazione del software è stata quella di

simulare un tour di una casa, utilizzando un headset che potesse

permettere all’utente di godere della tridimensionalità della scena e

della libertà di movimento senza l’ausilio di hardware come tastiera,

mouse o joypad.

Inoltre, la soluzione avrebbe dovuto salvare le informazioni di ogni

visita, come i punti dell’immagine che l’utente ha osservato,

timestamp e altri valori utili.

Queste informazioni saranno utilizzate per generare le mappe di

calore, che evidenziano quello che l’utente ha osservato

maggiormente, su una scala da 1 a 10, durante il tour.

5.1.1 Panoramica del software

In questa sezione daremo uno sguardo più approfondito ai

componenti utilizzati durante lo sviluppo e alle funzionalità che il

software, House Tour, offre.

5.1.1.1 Ambiente di sviluppo

L’ambiente di sviluppo che si è scelto per implementare House Tour è

Unity 3D [c]. Unity è una piattaforma di sviluppo per la creazione di

videogiochi 2D e 3D distribuiti su mobile, console, desktop, VR/AR,

ecc.


28


È stato preferito ad altri ambienti poiché permette l’implementazione

facile e veloce di scene complesse e l’inserimento della modalità 3D,

aspetto che è un punto focale del nostro studio.

5.1.1.2 Headset Eye Tracker

L’headset utilizzato negli studi condotti in questo elaborato è il

FOVE.È un visore che isola l’utente dal resto della stanza e lo

trasporta in una realtà virtuale e ricreando un ambiente

completamente nuovo, come l’interno di una casa, di un teatro, di un

museo, di una piazza [d].

Figura 16 - Visore Eye-tracker FOVE

La parte background del software genera dati real-time sulla

posizione degli occhi e sulla posizione della zona della scena

osservata in quel momento.

Gli sviluppatori, oltre ad un software proprietario, forniscono le API

per gli ambienti di sviluppo Unity 3D e Unreal Engine.


29


Le API che abbiamo sfruttato per l’integrazione e per l’utilizzo del

FOVE sono presenti sul sito del vendor e sono interamente scritte in

C#, linguaggio di sviluppo nell’ambiente Unity 3D.

Sono stati visionati alcuni esempi proposti dagli sviluppatori di

questo headset per prendere dimestichezza con lo stesso.

5.1.1.3 Funzionalità

Le funzionalità che sono state implementate in rispetto agli obiettivi

dell’indagine proposta, sono le seguenti:

- Creare un ambiente 3D composto da 4 scene

▪ Implementare 2 modalità di tour, guidata e libera

- Creare uno script che salvi le informazioni di ogni visita in un

file .dat. I valori immagazzinati sono:

▪ Punto del pixel

▪ Timestamp

▪ Label dell’oggetto osservato

- Creare una sezione che, dopo aver finito il tour, prenda i valori

salvati e che generi delle mappe di calore di ogni stanza.

5.1.2 Implementazione

L’implementazione di House Tour segue un approccio Top-Down per

ogni funzionalità descritta nella sezione precedente. Sono stati definiti

in un primo momento gli obiettivi e i vari goal che il software avrebbe

dovuto raggiungere. Successivamente, presi in considerazione uno


30


alla volta, sono stati implementati e affinati seguendo lo stesso

approccio.

Di seguito andremo a descrivere nel dettaglio le varie fasi di sviluppo.

5.1.2.1 Composizione dell’ambiente

Sono state create 4 scene, una per ogni stanza. Qui sotto sono

riportati i panorami che compongono la casa:

Figura 17 - Entrata e Giardino

Figura 18 - Salotto


31


Figura 19 - Bagno

Figura 20 - Stanza da letto

Queste immagini sono state acquisite in precedenza utilizzando una

camera fissata al centro della scena e creando il panorama partendo

dalla cubemap.

In ogni scena, all’interno della sezione lighting, al parametro skybox è

stato assegnato il panorama corrispondente alla stanza.

L’oggetto che funge da camera è il FOVE 3D Cursor. Esso viene

importato dalle API del vendor e riproduce, all’interno del visore, la

scena che si è costruita dentro Unity.


32


Per ricreare la visione stereoscopica, sono state aggiunte due camere,

left e right, al componente FOVE 3D Cursor, e per ogni camera il

panorama corrispondente, come segue:

camera left -> panorama L

camera right -> panorama R

Sono stati aggiunti, inoltre, degliobjects3D posizionati davanti agli

oggetti presenti in ogni panorama, come il tavolo nel Salotto, il

tappeto nella Stanza da Letto, la doccia nel Bagno, il garage

nell’Entrata. Lo scopo di questi target è quello di rimandare il nome

dell’oggetto che l’utente sta osservando in quel momento.

Per ricreare un tour più interattivo, sono state inserite delle

descrizioni in prossimità di ogni oggetto presente nella stanza. Questi

pop-up appaiano solo dopo 15 secondi essere entrati in una stanza.

Figura 21 - Descrizione degli oggetti


33


5.1.2.2 Modalità di visita

Le modalità previste dal tour sono due: guidata e libera.

La prima modalità prevede un tempo di visita fisso, 3 minuti e 12

secondi, in cui l’utente dovrà seguire delle indicazioni fornite dal

sistema e che saranno visibili in sovrappressione come nell’immagine

che segue:

Figura 22 - Visita Guidata

Il software cambierà automaticamente stanza non appena finito il

tempo di permanenza, 48 secondi per stanza.

La modalità libera non ha tempo limite, l’utente può permanere

all’interno della casa senza che il sistema blocchi il tour. Il visitatore

può scegliere in quale stanza entrare tenendo il mirino rosso sugli

hotspots posti in prossimità delle label con i nomi delle scene per 2,5

secondi, come in foto:


34


Figura 23 - Visita Libera

5.1.2.3 Salvataggio dei dati

Il salvataggio dei dati è affidato allo script LookAt, presente in ogni

scena del progetto. Il compito di quest’ultimo è semplice:

immagazzinare in un file .dat tutte le informazioni che sono

necessarie alla costruzione delle mappe di calore.


35


Di seguito sono riportati la classe ObservedPoint e uno stralcio di

LookAt relativo al salvataggio dei dati.

Codice 1 - Observed Point Class

[Serializable]

public class ObservedPoint {

public float x, y;

public string faceName, objectName;

public float timestamp;

public ObservedPoint(float x, float y, string faceName,

string objectName, float timestamp){

this.x = x;

this.y = y;

this.faceName = faceName;

this.objectName = objectName;

this.timestamp = timestamp;}}

ObservedPoint observedPoint = new ObservedPoint(

pixel.x,

pixel.y, hit.transform.GetComponent<MeshRenderer>().

material.mainTexture.name,

objName,

Time.timeSinceLevelLoad);

BinaryFormatter bf = new BinaryFormatter();

bf.Serialize(file, observedPoint);

Codice 2 – Salvataggio dei dati


36


5.1.2.4 Creazione delle Heatmaps

L’ultima funzionalità di House Tour è quella di generare delle mappe

di calore partendo dai dati salvati dallo script LookAt.

Il calore è dato da quanto tempo il visitatore induce il suo sguardo in

quella porzione di stanza. Sono stati definiti dei gradi di interesse e

sono espressi dalla palette di colori sottostante:

Figura 24 - Gradi di interesse

Essi vanno dal grado 0, bianco, nessun o scarso interesse, al grado

10, rosso, massimo interesse da parte dell’utente.

All’interno della classe GenerateHeatmaps, vengono analizzati i punti

osservati e salvati in sample temporanei. Ogni sample rappresenta

una porzione del panorama, 100x100 pixel.

Se un sample raggiunge una certa soglia t, possiamo inserirlo nelle

porzioni di immagini che l’utente ha osservato maggiormente. Alla

fine di questo processo, viene creato un panorama, heatmaps¸ con le

zone di interesse. Di seguito sono descritti i passaggi che

compongono la funzione della generazione delle singole heatmap:

- resetColorsAllTextures: questa funzione crea le immagini vuote,

pixel trasparenti,in base alla dimensione del panorama. Inoltre

vengono inizializzate alcune variabili che verranno utilizzate

successivamente.


37


- getData: in questa fase vengono letti i dati raccolti durante le

visite salvati nei file .date vengono memorizzati in apposite

strutture dati.

- createSample: con la chiamata createSample, verranno creati

dei box, 100x100, all’interno dell’immagine dove vengono

inseriti i pixel relativi a quella porzione. Viene attribuito anche

un valore count ad ogni sample

- paintHeatmaps: seguendo la palette descritta in precedenza,

verranno colorate le zone che hanno grado di interesse

maggiore di 1.

- saveHeatmaps: quest’ultima funzione salva le singole heatmap

ed esegue, in uno step successivo, la sovrapposizione di

quest’ultima sul panorama relativo, così da creare un’immagine

più esplicativa, come si può notare dalla Figura 18.

Figura 25 – Heatmap


38


Questa mappa verrà sovrapposta al panorama corrispondente così da

aiutare a capire quali zone della stanza ha trovato interessanti il

visitatore, come nell’immagine che segue:

Figura 26 - Panorama con mappa di calore

Adesso è facile intuire che l’utente ha osservato maggiormente la zona

del camino, della tv e sopra il divano dove è posizionato l’armadio.


39


5.2 Test

Per la fase della raccolta dei dati, è stato designato un test composto

dalle due esperienze di tour, guidata e libera, con l’aggiunta di 4

questionari e alcune fasi preliminari, come la calibrazione del visore

FOVE e raccogliere le gradazioni degli occhi di ogni utente.

Il test è stato condotto in Aprile 2018 all’interno del laboratorio di 3D

Visualization e Robotic dell’Università dell’Hertfordshire, Hatfield, UK

Le persone che hanno preso parte a questo test sono state 20.

5.2.1 Fase preliminare

Esistono vari obiettivi che abbiamo voluto raggiungere con la

somministrazione del test:

- Raccogliere i dati per lo studio successivo

- Valutazione dell’usabilità del FOVE

- Valutare, in termini di realismo e immersione, l’esperienza del

Tour

Durante la fase dei test sono stati utilizzati i seguenti componenti:

- Un Pc desktop, in cui era installato il software House Tour

- Il visore FOVE

- Un secondo computer con presenti i 4 questionari

- Un foglio su cui appuntare i tempi di durata di ogni visita


40


5.2.1.1 Questionari

Per la stesura dei questionari e per la loro composizione è stato fatto

riferimento al documento [5], redatto per dare una semplice linea

guida su come creare, organizzare e condurre un test di una

applicazione in virtual reality.

I 4 questionari creati sono volti a valutare sia l’esperienza del tour

virtuale e sia l’usabilità del visore FOVE. Di seguito riportiamo una

descrizione delle domande contenute in ogni documento.

Questionario a - Consenso dell'Utente

In questo primo questionario, l’utente dovrà leggere e accettare i

termini di partecipazione al test. I termini sono i seguenti:

- L’utente ha ricevuto e capito le informazioni riguardanti il test

- L’utente ha compreso lo scopo del test e il suo coinvolgimento

in esso

- L’utente ha compreso che può ritirarsi dalla partecipazione del

test in qualsiasi momento

- L’utente ha compreso che i suoi risultati personali rimarranno

confidenziali e non che non sarà danneggiato se rese pubbliche

- L’utente accetta che potrebbero essere raccolti foto e video

durante lo studio e potrebbero essere pubblicati

- L’utente autorizza al ricercatore a misurare la gradazione dei

suoi occhi ai fini statistici

Dopo l’accettazione dei termini, vengono poste alcune domande sulla

generalità del tester e alcune attitudini e esperienza in ambito di

virtual reality.


41


Questionario b - Modalità Libera – Analisi

In questo elenco di domande, viene chiesto al tester di valutare

l’esperienza del tour in modalità libera.

L’obiettivo è quello di capire vari aspetti della visita come il grado di

realismo percepito, quale stanza l’utente ha gradito maggiormente, il

livello di apprezzamento della presenza in sovrappressione della

descrizione degli oggetti.

Questionario c - Modalità Guidata – Analisi

Nel questionario c, gli obiettivi sono simili a quelli raggiunti dal

questionario precedente, con l’aggiunta del livello di gradimento del

vincoli di osservazione, frecce e quadrati.

Questionario d - Analisi Finale Comparativa

In questo ultimo elenco di domande, viene chiesto di comparare le

due esperienze.

In particolare viene domandato di scegliere quale delle due modalità

di visita è stata più realistica, quale stanza è stata preferita, quale

oggetto per ogni stanza è stato osservato per più tempo. Inoltre viene

chiesto quale tipo di oggettistica si preferisce trovare in un tour di

una casa (tecnologico, decorativo, mobilio, outdoor).


42


5.2.2 Procedure

Le procedure del test sono in totale 10 e vengono riportate di seguito:

• Lettura e compilazione del primo questionario, Consenso

dell’Utente

• Misurazione della gradazione degli occhi

• Indossare il visore e adattarlo al capo

• Calibrare il FOVE utilizzando il software proprietario

• Effettuare la seconda calibrazione all’interno di Unity per

individuare l’errore.

• Effettuare la prima esperienza del tour

• Rispondere al questionario relativo alla prima modalità

• Effettuare la seconda esperienza del tour

• Rispondere al questionario relativo alla seconda modalità

• Rispondere al questionario finale relativo alla comparazione tra

le due esperienze

La durata media di ogni test è stato di 25-30 minuti: circa 2-3 minuti

per la compilazione dei test, 3-3:30 minuti per ognuna delle due

esperienza del tour, circa 5-6 minuti per le due calibrazioni ed infine

3 minuti per la misurazione della gradazione degli occhi.


43


5.2.3 Analisi dei dati raccolti

In questa sezione analizzeremo i risultati ottenuti dai dati raccolti

durante i test.

Gli utenti testati (20) sono per il 60% uomini e 40% donne e l’età va

dai 18 ai > 50.

Grafico 1 - Età degli Utenti

Il 35% di essi indossa occhiali correttivi. Più della metà, 60%, ha

esperienza in campo videoludico, ma solo il 25% e il 15% ha

esperienza rispettivamente in 3D/Virtual Reality e visori VR e HMD –

Head Mounted Display.

I risultati ottenuti riguardanti la prima esperienza del tour, modalità

guidata, indicano che l’85% dei tester ha trovato l’esperienza sia

piacevole che realistica, mentre solo il 50% ha gradito i vincoli in

sovrappressione.


44


Grafico 2 - Preferenza sui vincoli di osservazione

Inoltre sono stati rilasciati alcuni commenti (2) che esprimono il

giudizio riguardo ai vincoli, freccia e quadrato, indicando la

dimensione troppo eccessiva e invasiva.

La seconda esperienza, ha prodotto più dell’85% di risposte positive

riguardo all’esperienza e al realismo da essa prodotta. Non è invece

prevalso un valore assoluto sulla preferenza della presenza o meno

delle descrizioni degli oggetti in sovrappressione: 55% per l’assenza e

45% per la presenza.


45


Grafico 3 - Libera Vs Libera e Descrizioni

Tra i vari commenti tecnici riguardo al tour, uno riguarda ai pop-up

highlights, che consiglia di farli apparire solo quando l’oggetto è

osservato, così da offrire un maggiore realismo e dinamicità.

L’ultimo questionario, l’analisi finale comparativa, ha generato i

risultati che ci aspettavamo.

Grafico 4 - Preferenza stanza


46


Questo primo grafico mostra la percentuale della preferenze delle

stanze. Il salotto è la stanza che prevale sulle altre con il 55% di

preferenza. Questo risultato era abbastanza atteso poiché è il

panorama che presenta più dettagli rispetto agl’altri 3.

Grafico 5 - Preferenza modalità

Nel secondo grafico, il risultato è palese: il 90% degli utenti, 18

persone su 20, ha preferito la modalità libera e senza vincoli di

osservazione rispetto alla modalità guidata. Questo valore, previsto e

atteso, mostra come il visitatore preferisca un tour con libertà di

movimento, di scelta del tempo di permanenza per ogni stanza e di

durata dell’intera visita.


47


Infine nella seguente tabella, possiamo osservare i tempi delle visite,

nella modalità libera, dei 20 utenti. La media dei tempi delle visite è

3:23.

Nome Utente Tempo

Weronika 2:03

Alessio 4:39

Valerio 4:26

Salvatore 4:59

Pascal 3:37

Richard 4:32

Hoo 3:21

Laurel 5:18

Tanzin 3:58

Krystian 3:36

Natasha 2:02

Alice 2:46

Cailyn 2:31

Elisabeth 2:31

Edwin 2:52

Scarlett 2:23

Regina 3:39

Esther 1:57

George 2:33

Daniele 4:12

Tabella 1 - Tempi delle visite in modalità Libera


48


6. Seconda fase: Applicazione

Saliency Map

In questo capitolo, espliciteremo lo studio fatto sulle mappe di

salienza e sui risultati ottenuti dalla comparazione delle mappe di

calore con le saliency map di ogni panorama che compone il tour.

Sono state condotte due tipi di comparazione:

- La prima consta in una semplice regressione 2D tra le mappe di

salienza dei panorami e le relative heatmap.

- Nella seconda comparazione vengono impiegate Curve ROC per

descrivere la bontà delle saliency map.

Nella comparazione finale sono state considerate le sole heatmap

della modalità libera del tour, poiché le mappe di calore generate dal

tour guidato avrebbero prodotto gli stessi risultati, considerando che

ogni utente ha seguito lo stesso percorso di osservazione in ogni

stanza.

Nella figura seguente viene descritto il diagramma di flusso della

seconda fase.


49


Figura 27 - Diagramma di Flusso Seconda Fase


50


6.1 Preliminari

Per la preparazione dei dati ad entrambe le comparazioni, sono stati

effettuati 3 passaggi preliminari:

- Salvataggio delle heatmap in formato compatibile

- Conversione in scala di grigio dei 4 panorami della casa e delle

heatmap

- Normalizzazione tra 0 e 1 delle immagini precedenti

Nella prima comparazione, alle heatmap è stato applicato il filtro

gaussiano, con soglie comprese nell’intervallo [100, 600].

L’applicazione preliminare di questo filtro permette un confronto più

accurato, poiché le singole zone di calore all’interno dell’immagine

coprono un’area di soli 50x50 pixel. Con il filtro di Gauss, questa

piccola porzione del panorama aumenta di dimensione così da

replicare in maniera più realistica lo spazio di osservazione dell’occhio

umano, permettendo così un calcolo più preciso dei coefficienti.

Per la seconda comparazione non sono serviti ulteriori passi

preliminari aggiuntivi poiché entrambe le mappe sono compatibili per

essere date in pasto all’algoritmo per il calcolo delle Curve ROC.

6.2 Implementazione

Per l’implementazione di questa sezione dello studio condotto, sono

stati utilizzati due linguaggi di programmazione: Matlab e Python

attraverso i rispettivi ambienti di sviluppo Matlab-Studio e Jupyter

Notebook.


51


La prima comparazione è stata implementata interamente con il

linguaggio Matlab. Di seguito sono descritte le fasi che la

compongono:

- Lettura delle heatmap generate da House Tour

- Salvataggio delle stesse convertite in scala di grigio

- Generazione delle mappe di salienza delle 4 stanze. La funzione

gbvs genera vari risultati riguardanti la salienza dell’immagine

passata come parametro, come mostrato dall’immagine

seguente. Il parametro che produce la mappa di salienza è

master_map_resized, evidenziato in rosso.

for i = 1:numeroHeatmap

imwrite( rgb2gray ( heatmaps{i} ), strcat( 'Gray - ', nameOfUser(i) ));

end

Codice 3 - Lettura e conversione in GrayScale delle Heatmap in R

saliencyLivingRoom = gbvs('../Panorami/Living Room.png')

saliencyLivingRoom = struct with fields:

master_map: [16×32 double]

master_map_resized: [4096×8192 double]

top_level_feat_maps: {[16×32 double] [16×32 double] [16×32 double]}

map_types: {'dklcolor' 'intensity' 'orientation'}

intermed_maps: [1×1 struct]

rawfeatmaps: [1×1 struct]

paramsUsed: [1×1 struct]

Codice 4 - Generazione Mappe di Salienza


52


- Applicazione del filtro di Gauss con soglia threshold =

[100,600], con un incremento di 50 ad ogni ciclo, e confronto

con la mappa di salienza relativa al panorama corrispondente e

salvataggio dei vari coefficienti.

- Infine, la selezione della regressione lineare, corr2, che ha

prodotto il massimo coefficiente.

j = 1;

for i = 4:4:80

panorami(1,j) = max(coefficients(i-3, :)); // Living Room

panorami(2,j) = max(coefficients(i-2, :)); // Garden

panorami(3,j) = max(coefficients(i-1, :)); // Bedroom

panorami(4,j) = max(coefficients(i, :)); // Bathroom

j = j + 1;

end

threshold = 100;

for i = 1:nHeat

for j = 1:20

imageTmp = imgaussfilt( rgb2gray( heatmaps{i} ), threshold);

coefficients(i, j) = corr2( saliencyMapPanorama, imageTmp);

threshold = threshold + 50;

end

end

Codice 6 - Selezione del massimo coefficiente

Codice 5 - Applicazione filtro Gauss e Regressione Lineare


53


La seconda comparazione è stata sviluppata in Python con l’ausilio

delle mappe di salienza generate in precedenza in Matlab. Il confronto

tra la mappa del panorama e le relative heatmap, è affidato alle Curve

ROC. Di seguito è riportata l’implementazione dell’algoritmo:

Codice 7 - Generazione Curve Roc

def calculateCurveRoc(predict, groundTruth):

values = list()

threshold = np.linspace(0, 1, num=100)

for t in threshold:

tp = np.sum(np.logical_and(predict >= t, groundTruth >= t))

fp = np.sum(np.logical_and(predict >= t, groundTruth < t))

fn = np.sum(np.logical_and(predict < t, groundTruth >= t))

tn = np.sum(np.logical_and(predict < t, groundTruth < t))

values.append((tp, tn, fp, fn))

x = [None] * 100

y = [None] * 100

i = 0

for item in values:

if item[0]+item[3] == 0:

x[i] = 1

else:

x[i] = item[0]/(item[0]+item[3]) # TP/(TP+FN)

if item[2]+item[1] == 0:

y[i] = 1

else:

y[i] = item[2]/(item[2]+item[1]) # FP/(FP+TN)

i = i+1


54


I dati che calculateCurveROC produce, true positive rate e false

positive rate,sono utilizzati per generare i grafici delle Curve, che

descrivono la bontà della salienza. Di seguito riportiamo lo stralcio di

codice del confronto della heatmap prodotta dalla visita del salotto da

parte dell’utente Alessio, con il panorama relativo.

Il risultato prodotto da questo confronto lo possiamo osservare nel

seguente grafico:

Figura 28 – Plot del risultato – Curva ROC

groundTruth = ('../Data/GrayScale Heatmaps/Alessio - Living Room Heat.png')

predict = ('../Panorami/Saliency - Living Room.png')

calculateCurveRoc(predict, groundTruth)

Codice 8 – Confronto tra immagini con utilizzo Curve ROC


55


La diagonale di colore rossa rappresenta la threshold, mentre la curva

in blu indica l’andamento della bontà del confronto, in questo caso

più che buono.

Il calcolo dell’indice AUC è affidata alla funzione apposita presente

nella libreria sklearn. Di seguito è riportato lo stralcio di codice che

descrive il funzionamento.

6.3 Studio delle Salieny Map

Per la generazione delle saliency map è stata utilizzata una funzione

presente nella libreria implementata in Matlab e condivisa daHarel,

Koch, e Perona, Graph-Based Visual Saliency – GBVS,la cui

implementazione è descritta nel documento [18].

6.3.1 Mappe di Salienza e Heatmap

Le mappe di salienza ricavate dall’algoritmo descritto nella sezione

precedente, risaltano gli oggetti e le zone dell’immagine che

potrebbero attirare l’attenzione dell’osservatore. Di seguito,

riportiamo la saliency map del Salotto.

auc_coeff = sklearn.metrics.auc(x, y)

Codice 9 - Calcolo indice AUC


56


Figura 29 – Salotto

Figura 30 - Mappa di Salienza del Salotto

Come possiamo notare, il metodo utilizzato per il calcolo della

salienza, il Visual Attention Modelling (VAM), evidenzia e risalta le

zone interessanti del panorama, come il tavolo, il camino, la tv, il

giocattolo con la lampada.

Le immagini seguenti rappresentano le mappe di calore generate dalla

visita in modalità libera dell’utente Alessio.


57


Figura 31 - Heatmap Normalizzata

Figura 32 - Heatmap in Scala di Grigio

La prima figura è stata normalizzata con un livello di 250, ottenendo

il massimo coefficiente di correlazione. La seconda figura è la mappa

di calore convertita in scala di grigio.


58


6.4 Studio e analisi dei risultati

6.4.1 Premessa

Questa parte di documento Sono stati ricavate due istanze di

risultati:

- Il primo set di risultati è stato ricavato partendo dalle heatmap

normalizzate col filtro di Gauss e confrontate con le mappe di

salienza di ogni stanza. Il modello utilizzato per la correlazione

è la regressione 2D tra le due immagini.

- Nel secondo confronto vengono impiegati le Curve ROC e

l’indice AUC per valutare la bontà della correlazione tra le

saliency map e le heatmap convertite in scala di grigio.

Nel paragrafo seguente, riportiamo l’analisi dei dati ottenuti nei due

studi.

6.4.2 Analisi dei dati: primo studio

Il primo set di risultati, derivanti dalla prima comparazione, mostra

come le heatmap normalizzate confrontate con le prime due saliency

map, Bagno e Stanza da Letto, diano una scarsa correlazione, infatti

la maggior parte dei coefficienti è inferiore a 0.5.


59


Grafico 6 – Correlazione – Bagno

Grafico 7 - Correlazione - Stanza da Letto


60


Possiamo notare come nella correlazione con la mappa di salienza del

Bagno, 7 coefficienti su 20 superano la soglia del 0.5, meno del 50%.

Nel secondo grafico il risultato è ben peggiore, infatti troviamo oltre la

threshold, solamente 5 soggetti studiati, il 25%.

Nella seconda coppia di grafici, possiamo notare, invece, che i

coefficienti sono mediamente maggiori della soglia 0.5.

Grafico 8 - Correlazione - Giardino


61


Grafico 9 - Correlazione – Salotto

Il primo confronto, Giardino, presenta il 71% dei coefficienti che

superano la soglia dello 0.5. Nel secondo grafico questa percentuale

raggiunge migliora e raggiunge quasi il 90%, soltanto due coefficienti

sono inferiori alla soglia fissata.

6.4.3 Analisi dei dati: secondo studio

Nel secondo confronto effettuato, si è ricorso alle Curve ROC come

modello di valutazione della comparazione. Sono state prodotte per

ogni utente, 20, 4 curve ROC, in riferimento ad ogni stanza della casa.

I grafici che seguono, mostrano i confronti effettuati tra le heatmap di

ogni utente e le mappe di salienza di ogni stanza.


62


Grafico 10 - Curve ROC - Bagno

Grafico 11 - Curve ROC - Stanza da Letto


63


I primi due grafici mostrano come effettivamente le mappe di salienza

che riguardano il Bagno e la Stanza da Letto non replicano al meglio

quello che un utente potrebbe trovare interessante all’interno di

queste due scene. Infatti, nel primo caso, Bagno, troviamo alcune

curve, 3, che tracciano un buon risultato, ma i 17 risultati restanti si

trovano o in prossimità della linea rossa, threshold, o addirittura

sotto. Il secondo grafico, Stanza da Letto, traccia delle curve migliori,

seppur di poco, del primo grafico ma non ancora ottime. Visivamente

possiamo notare che la maggior parte delle curve si trovi in

prossimità della soglia.

Grafico 12 - Curva ROC - Giardino


64


Grafico 13 - Curva ROC – Salotto

La seconda coppia di grafici, Giardino e Salotto, hanno prodotto

degli ottimi dati. Possiamo notare come in entrambi i casi, a meno di

3 curve sia nel primo che nel secondo grafico, la maggior parte dei

risultati traccia la curva avvicinandosi al risultato ottimale che

abbiamo osservato nel paragrafo 2.5.

Oltre ad aver prodotto le Curve ROC per ogni stanza, è stato generato

l’indice AUC che descrive l’area sotto la curva. Di seguito è stata

riportata la tabella contenente gli indici relativi ad ogni ambiente

della casa.


65


Utente Bagno Stanza da

Letto

Giardino Salotto

1 0.745 0.604 0.782 0.926

2 0.563 0.770 0.748 0.882

3 0.446 0.387 0.833 0.846

4 0.604 0.623 0.695 0.839

5 0.441 0.547 0.874 0.881

6 0.413 0.588 0.505 0.638

7 0.697 0.764 0.699 0.774

8 0.620 0.543 0.630 0.414

9 0.332 0.755 0.566 0.877

10 0.607 0.600 0.628 0.797

11 0.774 0.841 0.875 0.875

12 0.890 0.753 0.739 0.936

13 0.592 0.419 0.717 0.714

14 0.649 0.649 0.711 0.862

15 0.636 0.618 0.739 0.838

16 0.584 0.698 0.727 0.798

17 0.534 0.515 0.834 0.870

18 0.255 0.329 0.724 0.698

19 0.285 0.319 0.734 0.680

20 0.748 0.578 0.532 0.889

Media 0.571 0.595 0.715 0.802

Tabella 2 - Indici AUC

In verde sono stati evidenziati i valori positivi, maggiori della soglia

0,62, mentre in rosso quelli negativi, minori della threshold fissata.

Possiamo notare come gli indici prodotti, confermano quanto


66


mostrato dalle Curve ROC e danno un valore negativo e sotto la soglia

nelle prime due stanze, Bagno e Stanza da Letto, e un valore

positivo per il confronto fatto con la saliency map del Giardino, 0,715

e più che positivo, 0,802, per il confronto con la mappa di salienza

della stanza del Salotto.


67


7. Terza Fase: Studio dei

comportamenti

Questo studio si è concentrato sull’analisi dei comportamenti dagli

utenti durante il tour. Gli obiettivi sono stati quelli di identificare

comportamenti intrinseci tra gli utenti e scoprire i pattern di oggetti

osservati più frequenti.

Di seguito è riportato il diagramma di flusso relativo a questo studio.

Figura 33 - Diagramma di Flusso Terza Fase


68


7.1 Preliminari

Lo studio e l’analisi dei dati è stato compiuto su tutti i file .dat

prodotti dal software House Tour.

Quindi, il dataset è stato manipolato e sfoltito, eliminando eventuali

outliner e valori considerati non utili al fine del goal di

quest’applicazione, come il soffitto, il pavimento e i muri della casa.

Nella prossima sezione vedremo come sono stati elaborati e

manipolati i dati prima e l’implementazione dei due studi dopo.

7.2 Implementazione

L’intero studio sui comportamenti è stato implementato interamente

in Python utilizzando l’ambiente di lavoro Jupyter Notebook.

L’implementazione prevede una prima lettura dei dati e uno

sfoltimento degli stessi attraverso lo stralcio di codice seguente:

for room in range(0, 4):

for user in range(0,20):

newTrainingData[room][user]['Object Label'] != 'Walls']

newTrainingData[room][user]['Object Label'] != 'Ground']

newTrainingData[room][user]['Object Label'] != 'Roof']

Codice 10 - Sfoltimento dati


69


Dopo una prima manipolazione del dataset, si è continuato con la

generazione della lista degli oggetti osservati. Avendo salvato ogni

singolo frame del tour, un singolo utente potrebbe aver prodotto

lunghe sequenze di oggetti uguali. Per ovviare a questa ridondanza, in

primis, è stata generata una lista che selezioni solo una voce dalla

lunga sequenza degli stessi oggetti, come segue:

('Outside Garden', 'Outside Garden', …, 'Outside Garden') => ('Outside Garden')

Il secondo passo prevede un campionamento della lista appena

generata, considerando l’oggetto più frequente nel lasso di tempo

scelto, 3 secondi, come nell’esempio seguente:

Sezione di tempo: 0:00 – 3:00

Outside Garden 10

TV 11 Table & Chairs 14

Table & Chairs 14

Con questi due step abbiamo modificato e manipolato i dati per

poterli analizzare al meglio.


70


Nel primo studio sono state confrontate le liste degli utenti,

contenenti le sequenze di oggetti osservati, fra loro. Il risultato

prodotto è una percentuale di somiglianza, numero di oggetti

osservati uguali con stessa posizione nella lista, del confronto fra le

due sequenze. Di seguito riportiamo il codice che genera la matrice

finale.

Il codice appena visto, produce 4 matrici 20x20, una per ogni stanza,

dove ogni valore rappresenta la percentuale di somiglianza della lista

i-esima con la lista j-esima.

Codice 11 - Generazione tabella dei comportamenti

file = open(‘TrainingVsTraining - Studio 1.txt','w')

for room in range(0,4):

for i in range(0, 20):

for j in range(0, 20):

minLen = min( len(listTrainingLabel[room][i]), len(listTrainingLabel[room][j]))

for obj in range(0, minLen):

if listTrainingLabel[room][i][obj] == listTrainingLabel[room][j][obj]:

count += 1

coefficienti[i, j] = (count*100)/minLen

file.write( str((count*100)/minLen) + '(' + str(minLen) + ')\t')

valoriFinali.append(coefficienti)


71


Il secondo studio genera le sequenze di oggetti più frequenti presenti

tra gli utenti per pattern di 3, 4 e 5 oggetti, come descritto nel codice

seguente

pattern[0] = list() #tipo di pattern - ['a']['b']['c']

pattern[1] = list() #count dei pattern - 10

for room in range(0, 4):

for user in range(0, 20):

for label in range(1, len(listTrainingLabel[room][user])-1):

if not pattern[0]:

pattern[0].append( (listTrainingLabel[room][user][label-1],

listTrainingLabel[room][user][label],

listTrainingLabel[room][user][label+1])

pattern[1].append(1) # Conteggio

else:

found = False

for p in pattern[0]:

if p[0] == listTrainingLabel[room][user][label-1] and

p[1] == listTrainingLabel[room][user][label] and

p[2] == listTrainingLabel[room][user][label+1]

pattern[1][pattern5[0].index(p)] += 1

found = True

if not found:

pattern[0].append( (listTrainingLabel[room][user][label-1],

listTrainingLabel[room][user][label],

listTrainingLabel[room][user][label+1])

pattern[1].append(1)# Conteggio

Codice 12 - Generazione Pattern di Sequenze


72


Viene creata una lista, pattern¸ che conterrà nella posizione i-esima il

pattern e il relativo conteggio.

7.3 Analisi dei dati

Il codice implementato e visto nella sezione precedente ha prodotto

due risultati:

- Quattro tabelle che descrivono le correlazione fra i

comportamenti degli utenti nelle rispettive 4 stanze della casa

- Tre liste contenenti le sequenze di oggetti più frequenti di

lunghezza 3, 4 e 5.

Nelle 4 tabelle seguenti, troviamo i comportamenti rilevati evidenziati

in vari colori.


73


Tabella 3 - Valori di Somiglianza del Bagno

Ale

ssio

Ali

ce

Cail

yn

Danie

le

Edw

in

Eli

sabeth

Esth

er

Georg

e

Hoo

Kry

sti

an

Laure

l

Nata

sha

Pascal

Regin

a

Ric

hard

Salv

ato

re

Scarl

ett

Tanzin

Vale

rio

Wero

nik

a

A 100 0 18 50 8 33 16 37 14 11 40 25 50 20 8 7 50 14 15 66

A 0 100 36 10 33 33 33 25 20 33 0 25 0 30 16 35 25 23 15 33

C 18 36 100 10 9 33 50 37 9 33 10 50 25 20 36 45 100 27 27 0

D 50 10 10 100 20 33 0 37 30 33 20 25 50 40 10 0 25 20 10 100

E 8 33 9 20 100 33 33 12 25 33 10 25 0 30 33 33 25 41 33 0

E 33 33 33 33 33 100 33 100 100 66 0 66 66 33 33 33 33 33 66 33

E 16 33 50 0 33 33 100 33 16 33 50 25 0 16 33 33 50 16 16 0

G 37 25 37 37 12 100 33 100 37 50 25 75 75 37 12 25 50 12 25 33

H 14 20 9 30 25 100 16 37 100 44 0 50 50 40 8 6 25 26 23 33

K 11 33 33 33 33 66 33 50 44 100 0 75 50 77 11 33 50 22 11 0

L 40 0 10 20 10 0 50 25 0 0 100 25 0 10 30 10 0 10 0 33

N 25 25 50 25 25 66 25 75 50 75 25 100 50 50 50 25 50 25 25 0

P 50 0 25 50 0 66 0 75 50 50 0 50 100 50 0 0 25 0 25 33

R 20 30 20 40 30 33 16 37 40 77 10 50 50 100 0 20 25 10 10 33

R 8 16 36 10 33 33 33 12 8 11 30 50 0 0 100 33 25 41 25 0

S 7 35 45 0 33 33 33 25 6 33 10 25 0 20 33 100 25 36 30 0

S 50 25 100 25 25 33 50 50 25 50 0 50 25 25 25 25 100 25 25 0

T 14 23 27 20 41 33 16 12 26 22 10 25 0 10 41 36 25 100 30 0

V 15 15 27 10 33 66 16 25 23 11 0 25 25 10 25 30 25 30 100 33

W 66 33 0 100 0 33 0 33 33 0 33 0 33 33 0 0 0 0 33 100


74


Tabella 4 - Valori di Somiglianza della Stanza da Letto

Ale

ssio

Ali

ce

Cail

yn

Danie

le

Edw

in

Eli

sabeth

Esth

er

Georg

e

Hoo

Kry

sti

an

Laure

l

Nata

sha

Pascal

Regin

a

Ric

hard

Salv

ato

re

Scarl

ett

Tanzin

Vale

rio

Wero

nik

a

A 100 11 15 18 25 18 50 100 25 27 50 16 27 0 6 7 10 13 6 8

A 11 100 22 22 22 22 50 100 50 33 50 33 22 11 11 0 22 11 0 22

C 15 22 100 27 25 9 0 0 37 9 0 0 45 16 7 15 10 23 7 8

D 18 22 27 100 27 54 50 100 25 54 50 50 36 27 0 18 50 18 9 18

E 25 22 25 27 100 18 50 100 12 9 50 50 45 16 16 0 20 16 8 16

E 18 22 9 54 18 100 50 100 25 36 50 16 27 18 0 0 40 9 0 0

E 50 50 0 50 50 50 100 100 50 50 100 50 50 0 0 0 50 50 0 0

G 100 100 0 100 100 100 100 100 100 100 100 100 100 0 0 0 100 100 0 0

H 25 50 37 25 12 25 50 100 100 37 50 16 25 25 25 37 12 12 0 0

K 27 33 9 54 9 36 50 100 37 100 50 50 27 36 18 27 30 9 9 9

L 50 50 0 50 50 50 100 100 50 50 100 50 50 0 0 0 50 50 0 0

N 16 33 0 50 50 16 50 100 16 50 50 100 16 16 16 33 16 16 0 16

P 27 22 45 36 45 27 50 100 25 27 50 16 100 27 9 9 20 27 18 18

R 0 11 16 27 16 18 0 0 25 36 0 16 27 100 33 16 10 8 8 8

R 6 11 7 0 16 0 0 0 25 18 0 16 9 33 100 15 10 11 23 0

S 7 0 15 18 0 0 0 0 37 27 0 33 9 16 15 100 0 15 15 16

S 10 22 10 50 20 40 50 100 12 30 50 16 20 10 10 0 100 20 10 10

T 13 11 23 18 16 9 50 100 12 9 50 16 27 8 11 15 20 100 33 16

V 6 0 7 9 8 0 0 0 0 9 0 0 18 8 23 15 10 33 100 25

W 8 22 8 18 16 0 0 0 0 9 0 16 18 8 0 16 10 16 25 100


75


Tabella 5 - Valori di Somiglianza del Salotto

Ale

ssio

Ali

ce

Cail

yn

Danie

le

Edw

in

Eli

sabeth

Esth

er

Georg

e

Hoo

Kry

sti

an

Laure

l

Nata

sha

Pascal

Regin

a

Ric

hard

Salv

ato

re

Scarl

ett

Tanzin

Vale

rio

Wero

nik

a

A 100 100 0 14 100 25 100 50 0 0 7 33 40 0 0 50 100 14 0 25

A 100 100 0 100 100 50 100 50 0 0 0 0 100 0 0 100 100 100 0 100

C 0 0 100 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0 0

D 14 100 0 100 100 25 100 50 0 0 6 0 60 8 0 100 100 23 9 25

E 100 100 0 100 100 100 100 100 0 0 0 0 100 0 0 100 100 100 0 100

E 25 50 0 25 100 100 50 50 0 0 0 0 25 75 0 25 50 25 0 25

E 100 100 0 100 100 50 100 50 0 0 0 0 100 0 0 100 100 100 0 100

G 50 50 0 50 100 50 50 100 0 0 0 0 50 0 0 50 50 50 0 50

H 0 0 0 0 0 0 0 0 100 0 0 0 0 0 100 0 0 0 100 0

K 0 0 0 0 0 0 0 0 0 100 0 0 0 14 0 0 0 0 0 0

L 7 0 100 6 0 0 0 0 0 0 100 0 0 0 0 0 0 0 18 12

N 33 0 0 0 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0

P 40 100 0 60 100 25 100 50 0 0 0 0 100 0 0 75 100 60 40 40

R 0 0 0 8 0 75 0 0 0 14 0 0 0 100 0 0 0 0 0 0

R 0 0 0 0 0 0 0 0 100 0 0 0 0 0 100 0 0 0 100 0

S 50 100 0 100 100 25 100 50 0 0 0 0 75 0 0 100 100 50 0 50

S 100 100 0 100 100 50 100 50 0 0 0 0 100 0 0 100 100 100 0 100

T 14 100 0 23 100 25 100 50 0 0 0 0 60 0 0 50 100 100 27 37

V 0 0 0 9 0 0 0 0 100 0 18 0 40 0 100 0 0 27 100 12

W 25 100 0 25 100 25 100 50 0 0 12 0 40 0 0 50 100 37 12 100


76


Tabella 6 - Valori di Somiglianza del Giardino

Ale

ssio

Ali

ce

Cail

yn

Danie

le

Edw

in

Eli

sabeth

Esth

er

Georg

e

Hoo

Kry

sti

an

Laure

l

Nata

sha

Pascal

Regin

a

Ric

hard

Salv

ato

re

Scarl

ett

Tanzin

Vale

rio

Wero

nik

a

A 100 0 33 33 0 16 0 60 25 42 12 0 0 16 20 0 33 38 5 26

A 0 100 100 0 0 0 100 0 0 0 0 100 0 0 0 100 0 0 0 0

C 33 100 100 0 0 66 100 0 66 0 66 33 0 66 66 33 66 0 66 0

D 33 0 0 100 0 0 0 66 0 66 0 33 0 0 0 33 0 66 0 66

E 0 0 0 0 100 100 0 0 100 0 100 0 0 100 100 0 0 0 100 0

E 16 0 66 0 100 100 0 0 100 0 83 0 0 100 100 0 66 0 83 0

E 0 100 100 0 0 0 100 0 0 0 0 100 0 0 0 100 0 0 0 0

G 60 0 0 66 0 0 0 100 0 80 0 0 0 0 0 0 0 60 0 80

H 25 0 66 0 100 100 0 0 100 0 100 0 0 100 100 0 66 0 100 0

K 42 0 0 66 0 0 0 80 0 100 21 0 0 0 0 0 0 46 14 42

L 12 0 66 0 100 83 0 0 100 21 100 0 0 83 100 0 66 15 31 0

N 0 100 33 33 0 0 100 0 0 0 0 100 0 0 0 100 0 20 20 0

P 0 0 0 0 0 0 0 0 0 0 0 0 100 0 0 0 100 0 0 0

R 16 0 66 0 100 100 0 0 100 0 83 0 0 100 100 0 66 0 83 0

R 20 0 66 0 100 100 0 0 100 0 100 0 0 100 100 0 66 0 80 0

S 0 100 33 33 0 0 100 0 0 0 0 100 0 0 0 100 0 25 0 0

S 33 0 66 0 0 66 0 0 66 0 66 0 100 66 66 0 100 0 66 0

T 38 0 0 66 0 0 0 60 0 46 15 20 0 0 0 25 0 100 23 38

V 5 0 66 0 100 83 0 0 100 14 31 20 0 83 80 0 66 23 100 6

W 26 0 0 66 0 0 0 80 0 42 0 0 0 0 0 0 0 38 6 100


77


Nelle tabelle precedenti, abbiamo evidenziato, per ogni stanza,

almeno 2 comportamenti per scena. Questi comportamenti

descrivono la sequenza di oggetti osservati durante la visita del tour

da parte dei tester.

Nel set di tabelle seguenti, abbiamo riportato le sequenza di oggetti

più frequenti tra le visite effettuate. I pattern scelti hanno come

lunghezza 3, 4 e 5 oggetti.

1 Outside Garden Outside Garden Curtains

2 Outside Garden Outside Garden Sofa

3 Washbasin Window Window

4 Door Washbasin Window

5 Window Mirror Window

Tabella 7 - Sequenze Frequenti Pattern 3

1 Door Bed Curtains Bed

2 Inside Window Inside Window Inside Window Painting

3 Garage Garage Entrance Garage

4 Door Garage Car Car

5 Carpet Paint Wardrobe Door


1 Inside Window Inside Window Inside Window Painting Curtains

2 Door Door Water Mirror Washbasin

3 Door Door Door Entrance Window

4 Garage Car Car Car Window

5 Window Carpet Carpet Carpet Carpet



78


Da questi dati ricavati, possiamo notare che la stanza con più

sequenze frequenti è la Stanza da Letto. Mentre, considerando il

pattern di lunghezza 3, il Bagno è la stanza che conta 3 sequenze su

5, le altre 2 appartengono al Salotto. Nel pattern di lunghezza 4

prevale la Stanza da Letto (3 su 5), infine nell’ultimo pattern sia la

Stanza da Letto e che il Bagno hanno 2 sequenze su 5.

Possiamo quindi considerare che gli utenti nella Stanza da Letto

hanno seguito lo stesso percorso di osservazione,tenendo in

considerazione che nella tabella dei comportamenti, Tabella 3, sono

presenti solo 2 comportamenti rilevati, mentre nelle altre 3 stanze, il

numero dei comportamenti sale a 3 per il Giardino e per il Salotto e

a 4 per il Bagno.

Mettendo insieme questi due risultati possiamo dedurre che la

Stanza da Letto propone pattern più frequenti, quindi numero di

oggetti presenti nella scena inferiore rispetto alle altre stanze, e di

conseguenza comportamenti più simili. Il risultato è simile per il

Bagno, tenendo in considerazione che i comportamenti rilevati nella

Tabella 2 sono 4 ma con pochi campioni per ogni tipo di

comportamento.

Il risultato è diverso per Salotto e Giardino, in cui gli oggetti sono

maggiori, con poca presenza nei vari pattern di sequenze frequenti, e

con comportamenti rilevati, 3 per stanza, che contano un buon

numero di campioni per tipo di comportamento.


79


8. Conclusioni

Lo studio proposto è stato svolto attraverso 3 fasi, durante le quali

sono stati prodotti vari risultati.

Nella prima fase di preparazione e raccolta dati, è stato creato un

software, che simulasse un tour di una casa e successivamente

generasse delle mappe di calore contenenti le zone di maggiore

osservazione dell’utente, affiancato da un visore di tipo eye-tracker.

Successivamente è stato predisposto un test, composto da 4

questionari e con l’impiego di House Tour.

La seconda fase comprende i confronti tra le heatmap, ricavate nella

prima fase, con le mappe di salienza di ogni panorama del tour. In

questa fase sono stati fatti due tipi di confronti, producendo

altrettanti risultati, sfruttando la Regressione 2De il modello delle

Curve ROC.

Nell’ultima fase del documento è stato condotto uno studio sui

comportamenti rilevati durante le visite da parte degli utenti.

Alla luce dei risultati ottenuti dagli studi compiuti in questo

documento, sono emersi valori positivi relativi ai confronti fatti con le

scene Giardino e Salotto.

Infatti, durante il test, il giudizio da parte degli utenti nei questionari

esprime una preferenza positiva per questi due ambienti della casa,

Grafico 4. Nel primo confronto fatto, 7.4.2 Analisi dei dati: primo

studio, il risultato migliore è prodotto dalla comparazione con la

saliency map del Salotto e di seguito con la mappa di salienza del

Giardino. Ed infine, nel secondo confronto, 7.4.2 Analisi dei dati:

secondo studio, le Curve ROC e gli indici AUC sono positivi per i

confronti fatti con la mappa di salienza del Giardino, 0,715, e più


80


che positivi per l’ambiente Salotto, 0,802. In definitiva, i 3 studi

compiuti: Test con Questionari, Regressione 2D e Curve ROC,

confermano la qualità delle acquisizioni degli ambienti Salotto e

Giardino, nonché la precisione delle relative mappe di salienza.

Il risultato è capovolto per quanto riguarda gli altri due ambienti della

casa: Bagno e Stanza da Letto. Nel Grafico 4 viene mostrata una

percentuale bassissima di preferenze per queste stanze e nei due

confronti fatti nel Capitolo 7 i dati prodotti sono negativi. L’analisi

della Regressione 2D, Grafico 6 e Grafico 7,produce coefficienti che,

nella maggior parte dei casi, sostano nell’intervallo [0, 0.6], risultato

insufficiente per poter dire che esiste una certa correlazione positiva.

Questa tesi è confermata nel secondo studio, Curve ROC, dove le

medie degli indici AUC rispettivamente per Bagno e Stanza da Letto

sono 0,571 e 0,595. Questi risultati indicano una acquisizione non

ottima delle immagini dei due ambienti Bagno e Stanza da Letto

che, in primis, non è stata apprezzata dagli utenti durante i test, in

seguito, dalle mappe di salienza prodotte, hanno generato uno scarso

risultato durante i confronti con le mappe di calore delle visite degli

utenti.

In conclusione, possiamo dedurre, come risultati fondamentali e

seguendo l’ordine degli studi condotti in questo documento, che il

tour virtuale di una struttura, quale sia la casa, il teatro, un

ambiente aperto o un museo, accostato ad un headset che simuli

questo ambiente e che isoli l’utente dal resto della stanza, potrebbe

diventare uno dei principali campi di sviluppo sia in ambiti

videoludici e ricreativi che in ambiti più scientifici come la medicina o

il militare.


81


Inoltre, possiamo appurare che il metodo e la qualità dell’acquisizione

delle immagini per lo studio delle mappe di salienza influisce

notevolmente sulla precisione e accuratezza di quest’ultime. Si è

infatti denotato uno scarso risultato prodotto dalle saliency map

derivanti dalle immagini di due ambienti in particolare, Bagno e

Stanza da Letto, le cui acquisizioni non sono state effettuate nel

migliore dei modi, producendo quindi dei panorami di bassa qualità e

di scarso interesse per gli utenti sottoposti ai test.

In generale, grazie anche ai risultati positivi ottenuti nelle altre due

immagini, Salotto e Giardino, possiamo affermare che il modello di

Salienza su cui si è basato questo elaborato, Visual Attention

Modelling, è uno strumento di alta qualità e di ottima accuratezza che

replica e individua quegli oggetti in un’immagine che potrebbero

suscitare interesse nell’utente.


82


9. Appendice

9.1 Figure

Figura 1 – Realtà Virtuale - VR ......................................................... 4

Figura 2 - Realtà Aumentata– AR ..................................................... 5

Figura 3 - Mobile VR ........................................................................ 6

Figura 4 - Oculus Rift ...................................................................... 7

Figura 5 - Fove e Eye-Movement ...................................................... 7

Figura 6 - Formula Correlazione 2D ............................................... 10

Figura 7 - Tabella di Contingenza ................................................... 12

Figura 8 - TPR e FPR ...................................................................... 13

Figura 9 - Curva ROC .................................................................... 14

Figura 10 - Tasso di Errore Eye-based vs Head-based .................... 16

Figura 11 - Risultato dei 3 metodi di Salienza ................................ 17

Figura 12 - Approccio Bottom-Up del modello VAM ........................ 18

Figura 13 - Modello Visual Attention Modelling .............................. 19

Figura 14 - Diagramma di Flusso dell'Indagine ............................... 24

Figura 15 - Diagramma di Flusso Prima Fase ................................. 26

Figura 16 - Visore Eye-tracker FOVE ............................................. 28

Figura 17 - Entrata e Giardino ....................................................... 30

Figura 18 - Salotto ......................................................................... 30

Figura 19 - Bagno .......................................................................... 31

Figura 20 - Stanza da letto ............................................................. 31

Figura 21 - Descrizione degli oggetti ............................................... 32

Figura 22 - Visita Guidata .............................................................. 33

Figura 23 - Visita Libera ................................................................ 34


83


Figura 24 - Gradi di interesse ........................................................ 36

Figura 25 – Heatmap ..................................................................... 37

Figura 26 - Panorama con mappa di calore .................................... 38

Figura 27 - Diagramma di Flusso Seconda Fase ............................. 49

Figura 28 – Plot del risultato – Curva ROC ..................................... 54

Figura 29 – Salotto ......................................................................... 56

Figura 30 - Mappa di Salienza del Salotto ...................................... 56

Figura 31 - Heatmap Normalizzata ................................................. 57

Figura 32 - Heatmap in Scala di Grigio .......................................... 57

Figura 33 - Diagramma di Flusso Terza Fase .................................. 67

9.2 Questionari

Questionario a - Consenso dell'Utente ............................................ 40

Questionario b - Modalità Libera – Analisi ...................................... 41

Questionario c - Modalità Guidata – Analisi .................................... 41

Questionario d - Analisi Finale Comparativa .................................. 41

9.3 Grafici

Grafico 1 - Età degli Utenti ............................................................. 43

Grafico 2 - Preferenza sui vincoli di osservazione ............................ 44

Grafico 3 - Libera Vs Libera e Descrizioni ....................................... 45

Grafico 4 - Preferenza stanza .......................................................... 45

Grafico 5 - Preferenza modalità ...................................................... 46

Grafico 6 – Correlazione - Bagno .................................................... 59

Grafico 7 - Correlazione - Stanza da Letto ...................................... 59


84


Grafico 8 - Correlazione - Giardino ................................................. 60

Grafico 9 - Correlazione – Salotto ................................................... 61

Grafico 10 - Curve ROC - Bagno ..................................................... 62

Grafico 11 - Curve ROC - Stanza da Letto ...................................... 62

Grafico 12 - Curva ROC - Giardino ................................................. 63

Grafico 13 - Curva ROC – Salotto ................................................... 64

9.4 Tabelle

Tabella 1 - Tempi delle visite in modalità Libera ............................. 47

Tabella 2 - Indici AUC .................................................................... 65

Tabella 3 - Valori di Somiglianza del Bagno .................................... 73

Tabella 4 - Valori di Somiglianza della Stanza da Letto ................... 74

Tabella 5 - Valori di Somiglianza del Salotto ................................... 75

Tabella 6 - Valori di Somiglianza del Giardino ................................ 76

Tabella 7 - Sequenze Frequenti Pattern 3 ....................................... 77



9.5 Codice

Codice 1 - Observed Point Class ..................................................... 35

Codice 2 – Salvataggio dei dati ....................................................... 35

Codice 3 - Lettura e conversione in GrayScale delle Heatmap in R . 51

Codice 4 - Generazione Mappe di Salienza ...................................... 51

Codice 5 - Applicazione filtro Gauss e Regressione Lineare ............. 52

Codice 6 - Selezione del massimo coefficiente ................................. 52


85


Codice 7 - Generazione Curve Roc .................................................. 53

Codice 8 – Confronto tra immagini con utilizzo Curve ROC ............. 54

Codice 9 - Calcolo indice AUC ........................................................ 55

Codice 10 - Sfoltimento dati ........................................................... 68

Codice 11 - Generazione tabella dei comportamenti ........................ 70

Codice 12 - Generazione Pattern di Sequenze ................................. 71


86


10. Referenze

1. Jonathan Steuer: Defining Virtual Reality: Dimensions

Determining Telepresence, Standford University, Stanford,

California USA(1992)

2. Paul Milgram, Fumio Kishino: Taxonomy of Mixed Reality Visual

Displays, University Of Torono, Toronto CA (1994)

3. T. N. Cornsweet, H. D. Crane: Accurate two-dimensional eye

tracker using first and fourth Purkinje images, Journal of the

Optical Society of America, USA (1973)

4. Colin Ware, Harutune H. Mikaelian: An evaluation of an eye

tracker as a device for computer input2, Toronto CA (1987)

5. Salvatore Livatino, Christina Koeffel: Simple Guidelines for Testing

VR Applications, Electronic, Communication and El. Engineering,

University of Hertfordshire, Hatfield UK, (2009)

6. Antonio Torralba: Contextual Priming for Object Detection,

Artificial Intelligence Laboratory, Massachusetts Institute of

Technology, Cambridge, USA (2003)

7. A. Torralba, A. Olvia, M. S. Castelhano, J. M. Henderson:

Contextual guidance of eye movements and attention in real-world

scenes: The role of global features on object search, Computer

Science and Artificial Intelligence Laboratory, Massachusetts

Institute of Technology, Cambridge USA (2006)

8. A. Furnari, G. M. Farinella, S. Battiato: An Experimental Analysis

of Saliency Detection with respect to Three Saliency Levels,

Dipartimento di Informatica, Università di Catania, Catania IT

(2013)

https://onlinelibrary.wiley.com/action/doSearch?ContribAuthorStored=Steuer%2C+Jonathan


87


9. A. P. Bradley: The Use of The Area Under the ROC Curve in The

Evaluation of Machine Learning Algorithms, Cooperative Research

Centre for Sensor Signal and Information Processing, Department

of Electrical and Computer Engineering, The University of

Queensland AU (1996)

10. J. A. Hanley, B. J. McNeil: The Meaning and Use of The Area

Under a Receiver Operating Characteristic Curve, Radiological

Society of North America USA (1982)

11. Andrew T. Duchowski: Eye Tracking Methodology: Theory and

Practice, School of Computing, Clemson University, Clemson USA

(2017)

12. Qiuzhen Wang, Sa Yang, Manlu Liu, Zike Cao, Qingguo Ma: An

eye-tracking study of website complexity from cognitive load

perspective, School of Management, Zhejiang University, Hangzhou

CHI (2014)

13. Yuan Yuan Qian, Robert J. Theater: The eyes don't have it: an

empirical comparison of head-based and eye-based selection in

virtual reality, Brighton UK, (2017)

14. X. Hou, J. Harel, and C. Koch: Image Signature: Highlighting

Sparse Salient Regions, IEEE Trans. Pattern Anal. Mach. Intell.

(2012)

15. N. Bruce and J. Tsotsos: Saliency Based on Information

Maximization, Proc. Advances in Neural Information Processing

Systems, pp. 155-162, 2006.

16. L. Itti, C. Koch: Computational Modelling Of Visual Attention,

California Institute of Technology, California USA (2001)


88


17. L. Itti, C. Koch, E. Niebur: A Model Saliency-Based of Visual

Attention For Rapid Scene Analysis, California Institute of

Technology, California USA (1998)

18. J. Harel, C. Koch, and P. Perona: Graph-Based Visual Saliency,

Proceedings of Neural Information Processing Systems NIPS, (2006)


89


11. Sitografia

[a] - https://www.mathworks.com/help/images/ref/corr2.html

[b] - https://en.wikipedia.org/wiki/Receiver_operating_characteristic

[c] - https://unity3d.com

[d] - https://getfove.com

[e] - https://github.com/FoveHMD/FoveUnitySample

https://www.mathworks.com/help/images/ref/corr2.html

https://en.wikipedia.org/wiki/Receiver_operating_characteristic

https://unity3d.com/

https://getfove.com/

Stima e valutazione di mappe di Salienza Specialistica.pdf · Questi constano in un set di immagini...

Documents

Transcript of Stima e valutazione di mappe di Salienza Specialistica.pdf · Questi constano in un set di immagini...