Post on 22-Feb-2019
Università degli Studi di Catania
Dipartimento di Matematica e Informatica Corso di Laurea Magistrale in Informatica
____________________________________________________________________
Stima e valutazione di mappe di Salienza
Relatore
Ch.mo Prof. Giovanni Maria Farinella
Correlatore
Ch.mo Prof. Sebastiano Battiato
Correlatore
Ch.mo Prof. Salvatore Livatino
Candidato
Francesco Mergiotti
___________________________________________________________________
Università degli Studi di Catania – Dipartimento di Informatica
Stima e valutazione di Mappe di Salienza
Università degli Studi di Catania – Dipartimento di Informatica
i
Stima e valutazione di Mappe di Salienza
Abstract
Negli studi sulla salienza di immagini permane il problema su come
verificarne affidabilità e accuratezza. L’uso di nuove tecnologie in Virtual
Reality che permettono il tracciamento della posizione degli occhi, può
essere di grande utilità per valutare la performance di mappe di salienza.
Il lavoro presentato in questa tesi si occupa di stima e valutazione di
mappe di salienza nell’ambito applicativo di immagini relative ad ambienti
indoor, come per esempio quelle di un museo digitale. Il lavoro è stato
sviluppato attraverso tre fasi. La prima fase comprende la raccolta dei dati
su cui effettuare la verifica. Questi constano in un set di immagini a 360
gradi che, osservate attraverso un elmetto VR comprensivo di eye-
tracking, permettono di ottenere un mappamento delle aree maggiormente
attenzionate da un utente. Queste serviranno quindi da riferimento per un
confronto in fase due con l’output delle mappe di salienza generate
attraverso un processo di visual attention. Infine, nella fase tre, viene
effettuato uno studio dei comportamenti degli utenti durante l'esperienza.
I dettagli dei risultati di questo studio sono presentati in questo
documento, insieme alla descrizione delle metodologie proposte ed
implementate. I modelli di salienza basati su visual attention confermano
di essere un ottimo strumento per l'individuazione degli oggetti
interessanti di una scena.
Università degli Studi di Catania – Dipartimento di Informatica
ii
Stima e valutazione di Mappe di Salienza
Indice
Abstract _______________________________________ i
Indice _________________________________________ ii
1. Introduzione _______________________________ 1
2. Background Knowledge ____________________ 4
2.1 Virtual & Augmented Reality ____________________ 4
2.2 VR Headsets e Eye Tracker ______________________ 5
2.3 Usability Evaluation ____________________________ 8
2.4 Saliency Map ___________________________________ 9
2.5 Correlazione 2-D ______________________________ 10
2.6 Curve ROC ____________________________________ 11
3. Stato dell’arte _____________________________ 15
4. Panoramica dell’indagine _________________ 21
5. Prima fase: Raccolta dei dati ______________ 26
5.1 Creazione del software _________________________ 27
5.1.1 Panoramica del software ___________________________ 27
5.1.1.1 Ambiente di sviluppo ______________________ 27
5.1.1.2 Headset Eye Tracker _______________________ 28
5.1.1.3 Funzionalità _______________________________ 29
5.1.2 Implementazione __________________________________ 29
5.1.2.1 Composizione dell’ambiente ________________ 30
5.1.2.2 Modalità di visita __________________________ 33
Università degli Studi di Catania – Dipartimento di Informatica
iii
Stima e valutazione di Mappe di Salienza
5.1.2.3 Salvataggio dei dati ________________________ 34
5.1.2.4 Creazione delle Heatmaps __________________ 36
5.2 Test ___________________________________________ 39
5.2.1 Fase preliminare __________________________________ 39
5.2.1.1 Questionari _______________________________ 40
5.2.2 Procedure _________________________________________ 42
5.2.3 Analisi dei dati raccolti ____________________________ 43
6. Seconda fase: Applicazione Saliency Map _ 48
6.1 Preliminari ____________________________________ 50
6.2 Implementazione ______________________________ 50
6.3 Studio delle Salieny Map _______________________ 55
6.3.1 Mappe di Salienza e Heatmap ______________________ 55
6.4 Studio e analisi dei risultati ____________________ 58
6.4.1 Premessa _________________________________________ 58
6.4.2 Analisi dei dati: primo studio ______________________ 58
6.4.3 Analisi dei dati: secondo studio ____________________ 61
7. Terza Fase: Studio dei comportamenti ____ 67
7.1 Preliminari ____________________________________ 68
7.2 Implementazione ______________________________ 68
7.3 Analisi dei dati ________________________________ 72
8. Conclusioni _______________________________ 79
9. Appendice _________________________________ 82
9.1 Figure _________________________________________ 82
9.2 Questionari ___________________________________ 83
Università degli Studi di Catania – Dipartimento di Informatica
iv
Stima e valutazione di Mappe di Salienza
9.3 Grafici ________________________________________ 83
9.4 Tabelle ________________________________________ 84
9.5 Codice ________________________________________ 84
10. Referenze ________________________________ 86
11. Sitografia ________________________________ 89
Università degli Studi di Catania – Dipartimento di Informatica
1
Stima e valutazione di Mappe di Salienza
1. Introduzione
Negli ultimi cinque anni, la tecnologia nel campo delle Augmented
Reality (AR) e Virtual Reality (VR) ha fatto un enorme passo in avanti,
tanto da diventare un tassello importante per lo sviluppo di tante
applicazioni, dal semplice videogioco al software per la
telecomunicazione, dal militare al medico.
L’hardware VR/AR a disposizione al giorno d’oggi è, di conseguenza,
impiegato in molti campi e permette di visitare posti remoti, di
provare esperienze di gioco fortemente realistiche, di studiare in
maniera nuova il comportamento del corpo umano, di osservare il
campo di battaglia da una prospettiva in prima persona (che ricorda
molto quella dei film di fantascienza).
Con l’avvento di questa nuova concezione della realtà, sono nati
innumerevoli studi e ricerche.
Le piattaforme di software più importanti si stanno popolando di
applicazione apposite che offrano questa nuova realtà, come lo store
Microsoft, Steam, Play Store e l’Apple Store.
Una delle tante domande che questo nuovo approccio alla realtà
pone, potrebbe essere quello di capire dove l’utente concentra la sua
attenzione durante un tour virtuale di una struttura, come una casa
o un museo.
Questo permetterebbe, ad esempio, di progettare un certo modello di
esposizione di oggetti in maniera più appropriata ed anche di poter
guidare il visitatore verso una zona con determinati oggetti. A tal
proposito è nato lo studio che propone questo documento.
Università degli Studi di Catania – Dipartimento di Informatica
2
Stima e valutazione di Mappe di Salienza
Ponendo come struttura di interessa quella digitale, e dunque oggetti
rappresentati all’interno di immagini digitali, si potrebbero utilizzare
metodologie di Computer Vision per prevedere, in maniera
automatica, le zone di maggiore interesse per un osservatore. Queste
parti dell’immagine verrebbero rappresentate e rilevate attraverso le
mappe di salienza.
Negli anni precedenti, parecchi e diversi studi sono stati concentrati
su come ricavare le saliency map, ma permane il problema su come
verificare l’affidabilità di questi modelli di salienza.
Grazie alla presenza di nuove tecnologie in campo VR e alla
possibilità di ricavare le zone di osservazione di maggiore interesse da
parte di un visitatore, è possibile accertarsi quali siano le parti di
un’immagine di maggiore interesse. Dunque è possibile utilizzare la
tecnologia VR per poter valutare le performance di specifici metodi
che producono mappe di salienza.
Il primo studio si è concentrato sulla raccolta di una base di dati reali
e affidabili che possa essere utilizzata come riferimento per testare la
validità del modello di salienza.
Il secondo studio riguarda la qualità delle saliency map, confrontando
le mappe di salienza generate dall’algoritmo di visual attention
modelling attraverso un confronto con le mappe generate nella prima
fase. Come valutazione del confronto di ogni utente con le mappe di
salienza di ogni stanza della casa, sono stati utilizzati due modelli:
Regressione 2D e le Curve ROC con l’ausilio dell’indice AUC.
Infine, il terzo studio si è concentrato sui vari comportamenti degli
utenti durante il tour. In particolare, essi sono stati classificati in
Università degli Studi di Catania – Dipartimento di Informatica
3
Stima e valutazione di Mappe di Salienza
base alla sequenza di oggetti osservati, al tempo di osservazione degli
oggetti stessi o alle zone della stanza in cui l’utente si è soffermato.
Nel secondo capitolo troviamo tutte quelle conoscenze che sono
servite a produrre questo documento. Successivamente, nel terzo, lo
stato dell’arte attuale. Quindi nel quarto capitolo, una panoramica
approfondita dell’indagine condotta. Il quinto capitolo, la fase della
raccolta dati, è suddiviso in due parti: creazione del software e test.
Nel sesto capitolo troviamo la seconda fase del documento, il
confronto con le mappe di salienza. Nel settimo capitolo troviamo
l’ultima fase, la terza, che prevede lo studio dei comportamenti degli
utenti. Infine, nell’ottavo capitolo, le conclusioni.
Università degli Studi di Catania – Dipartimento di Informatica
4
Stima e valutazione di Mappe di Salienza
2. Background Knowledge
Le tecnologie attuali a nostra disposizione e che possono essere utili
ai nostri studi sono molteplici e con altrettante applicazioni.
Iniziando dall’hardware in ambito VR e AR, spaziando con i metodi di
studio delle mappe di salienza e finendo con le soluzioni offerte dalla
statistica per la valutazione dei confronti fatti, come le Curve ROC e la
Regressione 2D.
2.1 Virtual & Augmented Reality
La virtual reality è una rappresentazione di una scena tridimensionale
generata dal computer, con diversi riferimenti con l’ambiente reale,
da un abbozzo schematico degli oggetti fino al fotorealismo, in cui è
possibile agire interattivamente con la scena stessa e gli oggetti [1].
Figura 1 – Realtà Virtuale - VR
Università degli Studi di Catania – Dipartimento di Informatica
5
Stima e valutazione di Mappe di Salienza
Mentre, in generale, la Augmented Reality è la rappresentazione di
una realtà alterata in cui, alla normale realtà percepita attraverso i
nostri sensi, vengono sovrapposte immagini e informazioni
artificiali/virtuali [2], come nell’immagine seguente dove lo
smartphone ricrea sulla scrivania una zucca virtuale. Nel paper [2]
sono state identificate 6 classi di ambienti di visualizzazione di Mixed
Reality, le quali tuttavia possono essere raggruppate considerando la
tassonomia tridimensionale delle seguenti caratteristiche: estensione
della conoscenza del mondo, fedeltà della riproduzione ed estensione
della metafora della presenza.
Figura 2 - Realtà Aumentata– AR
2.2 VR Headsets e Eye Tracker
Nel mercato attuale sono presenti vari sistemi e prodotti che
permettono all’utente di interagire con una realtà del tutto diversa
Università degli Studi di Catania – Dipartimento di Informatica
6
Stima e valutazione di Mappe di Salienza
dall’esperienza offerta dal classico hardware statico,come mouse e
tastiera o joypad.
Possiamo suddividere questa nuova tecnologia in due categorie:Mobile
VRePC VR Headset.
La prima categoria, Mobile VR, comprende quella tecnologia che
sfrutta uno smartphone, il suo display e i suoi sensori di movimento,
posti all’interno di una cardboard, un supporto simile ad un elmetto
che rimanga fisso sul capo dell’utente, che simuli un ambiente
virtuale, come illustra l’immagine seguente.
Figura 3 - Mobile VR
All’interno della seconda categoria troviamo visori molto più potenti e
più realistici che necessitano di essere collegati al PC che isolano
completamente l’utente trasportandolo in una realtà virtuale più
profonda rispetto a quella fornita dall’hardware descritto nella prima
categoria. La differenza fra i vari headsetdi tipo PC-based, come
l’Oculus Rift e il FOVE,consiste nella presenza di un eye-tracker
Università degli Studi di Catania – Dipartimento di Informatica
7
Stima e valutazione di Mappe di Salienza
interno che cattura i movimenti degli occhi durante l’esperienza e
replica gli stessi nell’ambiente virtuale, come nel secondo headset.
Figura 4 - Oculus Rift
Figura 5 - Fove e Eye-Movement
Nei paper [3] e [4] sono stati condotti degli studi per valutare nuovi
metodi di monitoraggio della posizione degli occhi che superino alcuni
inconvenienti, come la comodità del sistema fisico o l’accuratezza e la
Università degli Studi di Catania – Dipartimento di Informatica
8
Stima e valutazione di Mappe di Salienza
precisione dello sguardo, e che raggiungano dei risultati
considerevoli, come sensibilità e precisione di circa 1°.
2.3 Usability Evaluation
Con l’avvento di applicazioni e dispositivi VR sono nati anche notevoli
studi e test di valutazione sull’usabilità dell’esperienza utente e la
loro usabilità. Quest’ultimi sono generalmente condotti attraverso la
misurazione del comportamento umano, compresi gli aspetti della
percezione, dell'azione e del compito, e condotti da persone esperte in
laboratori appositamente preparati per il loro svolgimento.
Il nuovo ordine delle cose richiede ricercatori e persino studenti non
esperti nel campo dell'usabilità, per valutare queste applicazioni.
Quindi questi studi hanno luogo presso i laboratori di università o
istituti di ricerca alle volte non predisposti per la conduzione di test di
valutazione.
Ciò solleva la questione sull’abilità dei non esperti di condurre
valutazioni in modo professionale. Inoltre, il problema della
valutazione richiede una collaborazione multi e interdisciplinare, in
cui le competenze tecniche sono combinate con la conoscenza e la
metodologia umanistiche [5]. Il documento [5] offre delle linee guida
su come predisporre, gestire e condurre un test di valutazione di
applicazioni VR.
Università degli Studi di Catania – Dipartimento di Informatica
9
Stima e valutazione di Mappe di Salienza
2.4 Saliency Map
Con l’obiettivo di valutare e selezionare quali posizioni della scena
sono più rilevanti per l’utente, esiste una mappa topografica, mappa
di salienza, che combina le informazioni delle singole mappe ottenute
dalla immagine di partenza e misura la cospicuità globale della scena.
Attraverso gli studi compiuti negli anni, [6] e [7], sono stati affinati
alcuni metodi per individuare i singoli oggetti all’interno di una scena
seguendo la relazione tra il contesto in cui versa l’oggetto e l’oggetto
stesso, basate sulla correlazione tra le statistiche delle features di
basso livello sull’intera immagine e sulle features globali.
Questi studi hanno prodotto differenti categorie di metodi e algoritmi
per il calcolo della salienza e la maggior parte degli autori, degli
stessi, concorda che la visual attention dipende dall’applicazione e
dall’obiettivo che si vuole raggiungere.
In generale per l’attenzione sono stati definiti tre livelli di salienza:
salient object detection, salient object segmentation e visual attention
modelling [8].
- Salient Object Detection,questo livello si riferisce all’abilità della
mappa di salienza nel rilevare l’oggetto all’interno della scena.
Vengono utilizzati alcuni spunti, come caratteristiche distintive
locali e conoscenza a priori degli oggetti (come è fatto un vaso,
una pianta, un albero, ecc)
- Salient Object Segmentation, in questa funzione, la capacità del
rilevamento della salienza è dato dall’individuazione e dalla
segmentazione dell’oggetto. In questo livello vengono impiegate
maschere di tipo pixel-wise object.
Università degli Studi di Catania – Dipartimento di Informatica
10
Stima e valutazione di Mappe di Salienza
- Visual Attention Modelling, questo terzo livello permette di
evidenziare gli oggetti e le sezioni dell’immagine che l’utente
potrebbe osservare. Esso utilizza le posizioni spaziali degli
oggetti, seguendo un approccio bottom-up, basandosi inoltre
sulla relazione delle loro caratteristiche con i dintorni.
La scelta è ricaduta su quest’ultimo modello, piuttosto che sui
precedenti, per la maggior specificità fornita rispetto al nostro
problema. Infatti, il nostro studio vuole valutare un sistema che
replichi nel migliore dei modi l’human visual system.
2.5 Correlazione 2-D
L’analisi della correlazione tra due set di dati è metodo con
applicazioni su ogni campo di studi, dalla medicina alla statistica,
dall’informatica all’economia.
Nel nostro documento, faremo riferimento alla correlazione tra due
oggetti o set di dati in 2 dimensioni. I coefficienti di correlazione che
abbiamo prodotto, sono stati ricavati dal confronto di due immagini,
mappe di salienza e mappe di calore, utilizzando la seguente formula
[a]:
Figura 6 - Formula Correlazione 2D
Università degli Studi di Catania – Dipartimento di Informatica
11
Stima e valutazione di Mappe di Salienza
La funzione che fa riferimento all’equazione appena vista, è corr2 ed è
presente nell’ambiente di sviluppo Matlab.
2.6 Curve ROC
Le ROC Curve sono uno strumento che fa parte della teoria delle
decisioni. Esse offrono degli schemi grafici per la comparazione di
predictive models. Sono impiegate in vari campi, come l’analisi degli
algoritmi di Machine Learning [9], in cui viene valutata la precisione
di 6 algoritmi di ML su 6 dataset di diagnosi mediche provenienti da
fonti reali, o come nel paper [10], in cui vengono impiegate come
modello decisionale tale che preso un soggetto a caso sia valutato
correttamente o classificato con maggiore sospetto rispetto a un
soggetto non malato scelto a caso.
Quindi, sono un ottimo metodo per valutare come un qualsiasi
modello di predizione distingue i valori veri positivi e negativi.
Università degli Studi di Catania – Dipartimento di Informatica
12
Stima e valutazione di Mappe di Salienza
Figura 7 - Tabella di Contingenza
La tabella di Contingenza 2x2, descrive come il modello etichetti ogni
punto osservato:
- Se il risultato della predizione è positivo p e il valore vero è
anche positivo p, viene chiamato vero positivo (true positive -
TP).
- Se invece il valore vero è negativo, il risultato viene chiamato
falso positivo (false positive - FP).
- Al contrario, si ha un vero negativo (true negative - TN) quando
entrambi, il risultato e il valore vero, sono negativi.
- Un falso negativo (false negative - FN) invece si ha quando il
risultato è negativo e il valore vero è positivo.
Con la generazione di questi 4 valori, TP, FP, TN e FN, vengono
calcolati vari indici che descrivono l’accuratezza e la precisione del
modello.
Università degli Studi di Catania – Dipartimento di Informatica
13
Stima e valutazione di Mappe di Salienza
La lista completa è disponibile sulla pagina web Wikipedia relativa
alle Curve ROC [b].
Gli indici che andremo ad utilizzare nel nostro studio per valutare le
mappe di salienza, saranno il True Positive Rate e il False Positive
Rate. Di seguito, vengono riportate due immagini contenenti le
formule per calcolare i due queste misure e lo schema grafico.
Figura 8 - TPR e FPR
Università degli Studi di Catania – Dipartimento di Informatica
14
Stima e valutazione di Mappe di Salienza
Figura 9 - Curva ROC
Un altro indice che andremo ad utilizzare per descrivere la bontà e la
qualità delle saliency map sarà l’AUC –Area Under the Curve. Esso
indica la dimensione dell’area che crea la curva ROC.
Università degli Studi di Catania – Dipartimento di Informatica
15
Stima e valutazione di Mappe di Salienza
3. Stato dell’arte
Gli studi condotti sugli eye-trackers sono in continua crescita, e
spaziano dallo studio sull’usabilità [11]allo studio su come tenere
traccia dei movimenti degli occhi all’interno di un website [12].Nel
libro [11] troviamo uno studio approfondito sugli eye tracker, su quale
base fisica poggiano, quali materiali li compongono, quale
accuratezza necessitano, e altre informazioni utili su come sono
implementati e assemblati. Nel paper [12] per analizzare la
complessità di un website di tipo e-commerce, vengono impiegati gli
eye-trackers per tenere traccia dei movimenti degli occhi di 42
studenti universitari mentre fanno shopping su vari siti più o meno
complessi. L’headset che abbiamo utilizzato nel nostro studio, il
FOVE, nello stato attuale, è utilizzato nella maggior parte per scopi
scientifici e di analisi. Lo studio che prende in considerazione
quest’ultimo, riguarda il confronto fra headset di tipo eye-based e
visori head-based.[13]. Esso riporta come risultato finale prestazioni
peggiori nel primo sistema, eye-based,in termini di tasso di errore,
tempi di selezione e velocità effettiva di movimento, mentre il secondo
sistema, head-based, fornisce più precisione nei movimenti e
prestazioni generali significativamente migliori.
Università degli Studi di Catania – Dipartimento di Informatica
16
Stima e valutazione di Mappe di Salienza
Figura 10 - Tasso di Errore Eye-based vs Head-based
Non sono da meno gli studi compiuti nel campo della salienza. Nel
documento [14] viene descritto il modello della firma dell’immagine o
Image signature che permette un primo studio delle zone di interesse
di un’immagine, attraverso l’analisi dei segnali sparsi che il piano
foreground produce. Questo primo modello di salienza prevede e
replica glihuman fixation points migliori tra quelli presenti nel set di
dati prodotti dal benchmark redatto da Bruce e Tsotsos [15] e lo fa in
un tempo di esecuzione molto breve.
Attualmente esistono altri vari studi che analizzano le mappe di
salienza attraverso vari modelli che differiscono per gli obiettivi
perseguiti.
Nel documento [8] vengono confrontati i tre livelli di salienza, descritti
nel capitolo precedente, dove la qualità della saliency detection è
analizzata e valutata su un vasto database di immagini. In questo
esperimento, [8], prodotto da Furnari, Farinella e Battiato, si è
valutato il tasso di salienza che descrive meglio i set di dati analizzati.
Università degli Studi di Catania – Dipartimento di Informatica
17
Stima e valutazione di Mappe di Salienza
Attraverso i vari esperimenti condotti, si mostra come il livello scelto
influisca sulla prestazione della qualità della mappa di salienza.
Figura 11 - Risultato dei 3 metodi di Salienza
Il Visual Attention Modelling – VAM lo troviamo in vari studi, come nel
paper [16],in cui troviamo un elenco di 5 punti focali su cui verte il
modello, elencati di seguito:
- Innanzitutto, la rilevanza percettiva degli stimoli dipende in
modo critico dal contesto circostante in cui versa l’oggetto
nell’immagine.
- Secondo punto, una mappa di salienza, che codifica
topograficamente gli stimoli della visibilità nella scena, si è
dimostrata una strategia bottom-up efficiente e plausibile.
- In terzo luogo, l'inibizione del ritorno, il processo attraverso il
quale la posizione attualmente frequentata è impedita di essere
nuovamente presenziata, è un elemento cruciale dell'attuazione
dell'attenzione.
Università degli Studi di Catania – Dipartimento di Informatica
18
Stima e valutazione di Mappe di Salienza
- Quarto punto, attenzione e movimenti oculari interagiscono
strettamente, ponendo sfide computazionali rispetto al sistema
di coordinate usato per controllare l'attenzione.
- Infine, la comprensione delle scene e il riconoscimento degli
oggetti vincolano fortemente la selezione delle posizioni attese.
Di seguito è riportata un’immagine del documento [16] che descrive
l’approccio bottom-up per la selezione delle zone salienti di una
scena.
Figura 12 - Approccio Bottom-Up del modello VAM
Università degli Studi di Catania – Dipartimento di Informatica
19
Stima e valutazione di Mappe di Salienza
Nell’articolo [17], il modello illustrato, genera le caratteristiche
dell’immagine principale in multiscala, con vari livelli, e le combina in
un'unica mappa salienza topografica. Una dynamic neural network
seleziona quindi le posizioni interessanti in ordine decrescente di
salienza, infine il sistema seleziona le zone delle immagini cospicue
da analizzare in dettaglio. L’immagine seguente, presente nel
documento [17] redatto da Itti, Koch e Neibur (1998), descrive
sommariamente come è implementato il modello VAM.
Figura 13 - Modello Visual Attention Modelling
Università degli Studi di Catania – Dipartimento di Informatica
20
Stima e valutazione di Mappe di Salienza
L’idea di utilizzare il modello delle Curve ROCcome metrica di
valutazione per i confronti tra le saliency map e le mappe di calore, è
stata ripresa dal documento [8], in cui il confronto tra le mappe di
salienza e il vasto dataset di immagini fornito all’esperimento, è
valutato dagli indici TPR – True Positive Rate, FPR – False Positive
Rate ed AUC – Area Under the Curve.
Università degli Studi di Catania – Dipartimento di Informatica
21
Stima e valutazione di Mappe di Salienza
4. Panoramica dell’indagine
La domanda che è all’origine dello studio di questo documento è se le
mappe di salienza possono effettivamente replicare gli oggetti che un
utente troverebbe interessanti all’interno di una scena.
La scelta per valutare la salienza ricade dunque sul dataset di
immagini da utilizzare come confronto. Lo studio [8] utilizza un set di
immagini già esistenti, per cui nasce l’esigenza di creare un nuovo
database di immagini in cui vengano marcate le zone di osservazione
dell’utente, come mappe di calore o heatmap.
Come precedentemente indicato questa ricerca è stata sviluppata
attraverso tre fasi. La prima fase, che riguarda la raccolta dati da
utilizzare come riferimento,è suddivisa in due step: il primo step è
stato quello di creare un software che generasse queste mappe di
calore. Per poter generare quest’ultimo è stato proposto lo sviluppo di
House Tour, un software che simulala visita di una casa composta da
4 immagini a 360 gradi, indoor e outdoor, permettendo la creazione
delle mappe.Le modalità presenti nel tour sono guidata e libera,
descritte di seguito, e ciò permette di ricevere feedback relativi a due
tipi di esperienza di tour virtuali diversi:
- Guidata: L’utente visiterà la casa per un tempo determinato e
seguirà delle indicazioni in sovraimpressione, come frecce e
quadrati.
- Libera: l’utente può muoversi liberamente tra le scene,
scegliendo quanto tempo rimanere in ogni stanza e dove
andare.
Un punto fondamentale è stato la scelta dell’hardware da affiancare
ad House Tour, ricaduta sul visore FOVE. Esso permette, grazie ad un
Università degli Studi di Catania – Dipartimento di Informatica
22
Stima e valutazione di Mappe di Salienza
alto tasso di precisione, di individuare dove e cosa gli occhi
dell’utente stanno guardando all’interno di una scena in quel preciso
momento, feature utilissima dato che il nostro obiettivo è quello di
creare delle mappe di calore contenenti le parti dove lo sguardo dello
user ha indugiato maggiormente. Per cui durante la visita, in
background, verranno salvate le informazioni che serviranno
successivamente alla costruzione di queste mappe.
La seconda parte consiste nel raccogliere dati consistenti e differenti,
sfruttando il software creato, attraverso una fase di test con la
partecipazione di 20 utenti. È stato preparato, dunque, un test
composto dalle due modalità del tour e dalla somministrazione di 4
questionari relativi all’esperienza in virtual reality e relative
all’usability evaluation del software e dell’eye traker utilizzato.
La seconda fase dell’indagine prevede il confronto tra le mappe di
calore, ottenute dagli utenti e generate durante i test, e le mappe di
salienza relative ad ogni ambiente della casa: salotto, bagno, camera
da letto ed entrata. Il livello scelto per generare le mappe di salienza è
il visual attention modelling. Il VAM rispetto agli altri due livelli,
evidenzia maggiormente gli oggetti o spazi dell’immagine che
potrebbero catturare l’attenzione dell’osservatore. Questo modello è
stato preferito ad altri algoritmi di salienza poiché è più affine al goal
di questo documento, dato che vogliamo valutare l’accuratezza e la
precisione della replica e dell’individuazione delle zone di interesse
che la salienza si prefigge di ottenere. Dopo la creazione delle mappe
di salienza attraverso il modello VAM, sono state messe in relazione
quest’ultime con le heatmap degli utenti. In questa fase, sono stati
fatti due tipi di confronti:
Università degli Studi di Catania – Dipartimento di Informatica
23
Stima e valutazione di Mappe di Salienza
- Il primo mette a confronto le saliency map con le mappe di
calore normalizzate con il filtro di Gauss. Esso è valutato dal
metodo di Regressione 2D. La normalizzazione è stata applicata
poiché le mappe di calore coprivano una superficie minore
rispetto a quello che un occhio umano riesce ad osservare
all’interno di un’immagine per cui le zone di calore sono state
spalmate e ampliate.
- La valutazione del secondo confronto, tra mappe di salienza e
heatmap originali, è stato affidato al modello decisionale delle
curve ROC. Esso calcola l’hit rate, cioè la percentuale dei punti
delle mappe di calore che le mappe di salienza riescono ad
individuare e replicare. Questo modello di valutazione è stato
scelto in base alla lettura del paper [8].
L’ultimo studio è stato condotto sui comportamenti assunti dagli
utenti durante la visita della casa. Si è pensato di etichettare i vari
tester in base alla sequenza di oggetti osservati, così da trarre
maggiori risultati, relativi al confronto con le mappe di salienza, e
capire se esiste una qualche attinenza tra utente e stanza della casa
o una qualche relazione tra gli utenti con gli stessi comportamenti.
Di seguito, è riportato un diagramma di flusso che rappresenta lo
studio attuato in questo documento.
Università degli Studi di Catania – Dipartimento di Informatica
24
Stima e valutazione di Mappe di Salienza
Figura 14 - Diagramma di Flusso dell'Indagine
Università degli Studi di Catania – Dipartimento di Informatica
25
Stima e valutazione di Mappe di Salienza
Nei prossimi capitoli tratteremo le 3 fasi che lo compongono:
- Raccolta Dati
▪ House Tour, software implementato in Unity 3D
▪ Test, con l’impiego di House Tour e dei 4 questionari
- Mappe di Salienza, generazione e confronto delle saliency map
con le mappe di calore
- Studio dei comportamenti,creazione e allenamento del
classificatore dei comportamenti
Università degli Studi di Catania – Dipartimento di Informatica
26
Stima e valutazione di Mappe di Salienza
5. Prima fase: Raccolta dei dati
In questo capitolo vengono descritti i due steps per la raccolta dati:
creazione del software e test di valutazione.
Di seguito è riportato il diagramma di flusso relativo a questa fase.
Figura 15 - Diagramma di Flusso Prima Fase
Università degli Studi di Catania – Dipartimento di Informatica
27
Stima e valutazione di Mappe di Salienza
5.1 Creazione del software
L’idea di partenza per l’implementazione del software è stata quella di
simulare un tour di una casa, utilizzando un headset che potesse
permettere all’utente di godere della tridimensionalità della scena e
della libertà di movimento senza l’ausilio di hardware come tastiera,
mouse o joypad.
Inoltre, la soluzione avrebbe dovuto salvare le informazioni di ogni
visita, come i punti dell’immagine che l’utente ha osservato,
timestamp e altri valori utili.
Queste informazioni saranno utilizzate per generare le mappe di
calore, che evidenziano quello che l’utente ha osservato
maggiormente, su una scala da 1 a 10, durante il tour.
5.1.1 Panoramica del software
In questa sezione daremo uno sguardo più approfondito ai
componenti utilizzati durante lo sviluppo e alle funzionalità che il
software, House Tour, offre.
5.1.1.1 Ambiente di sviluppo
L’ambiente di sviluppo che si è scelto per implementare House Tour è
Unity 3D [c]. Unity è una piattaforma di sviluppo per la creazione di
videogiochi 2D e 3D distribuiti su mobile, console, desktop, VR/AR,
ecc.
Università degli Studi di Catania – Dipartimento di Informatica
28
Stima e valutazione di Mappe di Salienza
È stato preferito ad altri ambienti poiché permette l’implementazione
facile e veloce di scene complesse e l’inserimento della modalità 3D,
aspetto che è un punto focale del nostro studio.
5.1.1.2 Headset Eye Tracker
L’headset utilizzato negli studi condotti in questo elaborato è il
FOVE.È un visore che isola l’utente dal resto della stanza e lo
trasporta in una realtà virtuale e ricreando un ambiente
completamente nuovo, come l’interno di una casa, di un teatro, di un
museo, di una piazza [d].
Figura 16 - Visore Eye-tracker FOVE
La parte background del software genera dati real-time sulla
posizione degli occhi e sulla posizione della zona della scena
osservata in quel momento.
Gli sviluppatori, oltre ad un software proprietario, forniscono le API
per gli ambienti di sviluppo Unity 3D e Unreal Engine.
Università degli Studi di Catania – Dipartimento di Informatica
29
Stima e valutazione di Mappe di Salienza
Le API che abbiamo sfruttato per l’integrazione e per l’utilizzo del
FOVE sono presenti sul sito del vendor e sono interamente scritte in
C#, linguaggio di sviluppo nell’ambiente Unity 3D.
Sono stati visionati alcuni esempi proposti dagli sviluppatori di
questo headset per prendere dimestichezza con lo stesso.
5.1.1.3 Funzionalità
Le funzionalità che sono state implementate in rispetto agli obiettivi
dell’indagine proposta, sono le seguenti:
- Creare un ambiente 3D composto da 4 scene
▪ Implementare 2 modalità di tour, guidata e libera
- Creare uno script che salvi le informazioni di ogni visita in un
file .dat. I valori immagazzinati sono:
▪ Punto del pixel
▪ Timestamp
▪ Label dell’oggetto osservato
- Creare una sezione che, dopo aver finito il tour, prenda i valori
salvati e che generi delle mappe di calore di ogni stanza.
5.1.2 Implementazione
L’implementazione di House Tour segue un approccio Top-Down per
ogni funzionalità descritta nella sezione precedente. Sono stati definiti
in un primo momento gli obiettivi e i vari goal che il software avrebbe
dovuto raggiungere. Successivamente, presi in considerazione uno
Università degli Studi di Catania – Dipartimento di Informatica
30
Stima e valutazione di Mappe di Salienza
alla volta, sono stati implementati e affinati seguendo lo stesso
approccio.
Di seguito andremo a descrivere nel dettaglio le varie fasi di sviluppo.
5.1.2.1 Composizione dell’ambiente
Sono state create 4 scene, una per ogni stanza. Qui sotto sono
riportati i panorami che compongono la casa:
Figura 17 - Entrata e Giardino
Figura 18 - Salotto
Università degli Studi di Catania – Dipartimento di Informatica
31
Stima e valutazione di Mappe di Salienza
Figura 19 - Bagno
Figura 20 - Stanza da letto
Queste immagini sono state acquisite in precedenza utilizzando una
camera fissata al centro della scena e creando il panorama partendo
dalla cubemap.
In ogni scena, all’interno della sezione lighting, al parametro skybox è
stato assegnato il panorama corrispondente alla stanza.
L’oggetto che funge da camera è il FOVE 3D Cursor. Esso viene
importato dalle API del vendor e riproduce, all’interno del visore, la
scena che si è costruita dentro Unity.
Università degli Studi di Catania – Dipartimento di Informatica
32
Stima e valutazione di Mappe di Salienza
Per ricreare la visione stereoscopica, sono state aggiunte due camere,
left e right, al componente FOVE 3D Cursor, e per ogni camera il
panorama corrispondente, come segue:
camera left -> panorama L
camera right -> panorama R
Sono stati aggiunti, inoltre, degliobjects3D posizionati davanti agli
oggetti presenti in ogni panorama, come il tavolo nel Salotto, il
tappeto nella Stanza da Letto, la doccia nel Bagno, il garage
nell’Entrata. Lo scopo di questi target è quello di rimandare il nome
dell’oggetto che l’utente sta osservando in quel momento.
Per ricreare un tour più interattivo, sono state inserite delle
descrizioni in prossimità di ogni oggetto presente nella stanza. Questi
pop-up appaiano solo dopo 15 secondi essere entrati in una stanza.
Figura 21 - Descrizione degli oggetti
Università degli Studi di Catania – Dipartimento di Informatica
33
Stima e valutazione di Mappe di Salienza
5.1.2.2 Modalità di visita
Le modalità previste dal tour sono due: guidata e libera.
La prima modalità prevede un tempo di visita fisso, 3 minuti e 12
secondi, in cui l’utente dovrà seguire delle indicazioni fornite dal
sistema e che saranno visibili in sovrappressione come nell’immagine
che segue:
Figura 22 - Visita Guidata
Il software cambierà automaticamente stanza non appena finito il
tempo di permanenza, 48 secondi per stanza.
La modalità libera non ha tempo limite, l’utente può permanere
all’interno della casa senza che il sistema blocchi il tour. Il visitatore
può scegliere in quale stanza entrare tenendo il mirino rosso sugli
hotspots posti in prossimità delle label con i nomi delle scene per 2,5
secondi, come in foto:
Università degli Studi di Catania – Dipartimento di Informatica
34
Stima e valutazione di Mappe di Salienza
Figura 23 - Visita Libera
5.1.2.3 Salvataggio dei dati
Il salvataggio dei dati è affidato allo script LookAt, presente in ogni
scena del progetto. Il compito di quest’ultimo è semplice:
immagazzinare in un file .dat tutte le informazioni che sono
necessarie alla costruzione delle mappe di calore.
Università degli Studi di Catania – Dipartimento di Informatica
35
Stima e valutazione di Mappe di Salienza
Di seguito sono riportati la classe ObservedPoint e uno stralcio di
LookAt relativo al salvataggio dei dati.
Codice 1 - Observed Point Class
[Serializable]
public class ObservedPoint {
public float x, y;
public string faceName, objectName;
public float timestamp;
public ObservedPoint(float x, float y, string faceName,
string objectName, float timestamp){
this.x = x;
this.y = y;
this.faceName = faceName;
this.objectName = objectName;
this.timestamp = timestamp;}}
ObservedPoint observedPoint = new ObservedPoint(
pixel.x,
pixel.y, hit.transform.GetComponent<MeshRenderer>().
material.mainTexture.name,
objName,
Time.timeSinceLevelLoad);
BinaryFormatter bf = new BinaryFormatter();
bf.Serialize(file, observedPoint);
Codice 2 – Salvataggio dei dati
Università degli Studi di Catania – Dipartimento di Informatica
36
Stima e valutazione di Mappe di Salienza
5.1.2.4 Creazione delle Heatmaps
L’ultima funzionalità di House Tour è quella di generare delle mappe
di calore partendo dai dati salvati dallo script LookAt.
Il calore è dato da quanto tempo il visitatore induce il suo sguardo in
quella porzione di stanza. Sono stati definiti dei gradi di interesse e
sono espressi dalla palette di colori sottostante:
Figura 24 - Gradi di interesse
Essi vanno dal grado 0, bianco, nessun o scarso interesse, al grado
10, rosso, massimo interesse da parte dell’utente.
All’interno della classe GenerateHeatmaps, vengono analizzati i punti
osservati e salvati in sample temporanei. Ogni sample rappresenta
una porzione del panorama, 100x100 pixel.
Se un sample raggiunge una certa soglia t, possiamo inserirlo nelle
porzioni di immagini che l’utente ha osservato maggiormente. Alla
fine di questo processo, viene creato un panorama, heatmaps¸ con le
zone di interesse. Di seguito sono descritti i passaggi che
compongono la funzione della generazione delle singole heatmap:
- resetColorsAllTextures: questa funzione crea le immagini vuote,
pixel trasparenti,in base alla dimensione del panorama. Inoltre
vengono inizializzate alcune variabili che verranno utilizzate
successivamente.
Università degli Studi di Catania – Dipartimento di Informatica
37
Stima e valutazione di Mappe di Salienza
- getData: in questa fase vengono letti i dati raccolti durante le
visite salvati nei file .date vengono memorizzati in apposite
strutture dati.
- createSample: con la chiamata createSample, verranno creati
dei box, 100x100, all’interno dell’immagine dove vengono
inseriti i pixel relativi a quella porzione. Viene attribuito anche
un valore count ad ogni sample
- paintHeatmaps: seguendo la palette descritta in precedenza,
verranno colorate le zone che hanno grado di interesse
maggiore di 1.
- saveHeatmaps: quest’ultima funzione salva le singole heatmap
ed esegue, in uno step successivo, la sovrapposizione di
quest’ultima sul panorama relativo, così da creare un’immagine
più esplicativa, come si può notare dalla Figura 18.
Figura 25 – Heatmap
Università degli Studi di Catania – Dipartimento di Informatica
38
Stima e valutazione di Mappe di Salienza
Questa mappa verrà sovrapposta al panorama corrispondente così da
aiutare a capire quali zone della stanza ha trovato interessanti il
visitatore, come nell’immagine che segue:
Figura 26 - Panorama con mappa di calore
Adesso è facile intuire che l’utente ha osservato maggiormente la zona
del camino, della tv e sopra il divano dove è posizionato l’armadio.
Università degli Studi di Catania – Dipartimento di Informatica
39
Stima e valutazione di Mappe di Salienza
5.2 Test
Per la fase della raccolta dei dati, è stato designato un test composto
dalle due esperienze di tour, guidata e libera, con l’aggiunta di 4
questionari e alcune fasi preliminari, come la calibrazione del visore
FOVE e raccogliere le gradazioni degli occhi di ogni utente.
Il test è stato condotto in Aprile 2018 all’interno del laboratorio di 3D
Visualization e Robotic dell’Università dell’Hertfordshire, Hatfield, UK
Le persone che hanno preso parte a questo test sono state 20.
5.2.1 Fase preliminare
Esistono vari obiettivi che abbiamo voluto raggiungere con la
somministrazione del test:
- Raccogliere i dati per lo studio successivo
- Valutazione dell’usabilità del FOVE
- Valutare, in termini di realismo e immersione, l’esperienza del
Tour
Durante la fase dei test sono stati utilizzati i seguenti componenti:
- Un Pc desktop, in cui era installato il software House Tour
- Il visore FOVE
- Un secondo computer con presenti i 4 questionari
- Un foglio su cui appuntare i tempi di durata di ogni visita
Università degli Studi di Catania – Dipartimento di Informatica
40
Stima e valutazione di Mappe di Salienza
5.2.1.1 Questionari
Per la stesura dei questionari e per la loro composizione è stato fatto
riferimento al documento [5], redatto per dare una semplice linea
guida su come creare, organizzare e condurre un test di una
applicazione in virtual reality.
I 4 questionari creati sono volti a valutare sia l’esperienza del tour
virtuale e sia l’usabilità del visore FOVE. Di seguito riportiamo una
descrizione delle domande contenute in ogni documento.
Questionario a - Consenso dell'Utente
In questo primo questionario, l’utente dovrà leggere e accettare i
termini di partecipazione al test. I termini sono i seguenti:
- L’utente ha ricevuto e capito le informazioni riguardanti il test
- L’utente ha compreso lo scopo del test e il suo coinvolgimento
in esso
- L’utente ha compreso che può ritirarsi dalla partecipazione del
test in qualsiasi momento
- L’utente ha compreso che i suoi risultati personali rimarranno
confidenziali e non che non sarà danneggiato se rese pubbliche
- L’utente accetta che potrebbero essere raccolti foto e video
durante lo studio e potrebbero essere pubblicati
- L’utente autorizza al ricercatore a misurare la gradazione dei
suoi occhi ai fini statistici
Dopo l’accettazione dei termini, vengono poste alcune domande sulla
generalità del tester e alcune attitudini e esperienza in ambito di
virtual reality.
Università degli Studi di Catania – Dipartimento di Informatica
41
Stima e valutazione di Mappe di Salienza
Questionario b - Modalità Libera – Analisi
In questo elenco di domande, viene chiesto al tester di valutare
l’esperienza del tour in modalità libera.
L’obiettivo è quello di capire vari aspetti della visita come il grado di
realismo percepito, quale stanza l’utente ha gradito maggiormente, il
livello di apprezzamento della presenza in sovrappressione della
descrizione degli oggetti.
Questionario c - Modalità Guidata – Analisi
Nel questionario c, gli obiettivi sono simili a quelli raggiunti dal
questionario precedente, con l’aggiunta del livello di gradimento del
vincoli di osservazione, frecce e quadrati.
Questionario d - Analisi Finale Comparativa
In questo ultimo elenco di domande, viene chiesto di comparare le
due esperienze.
In particolare viene domandato di scegliere quale delle due modalità
di visita è stata più realistica, quale stanza è stata preferita, quale
oggetto per ogni stanza è stato osservato per più tempo. Inoltre viene
chiesto quale tipo di oggettistica si preferisce trovare in un tour di
una casa (tecnologico, decorativo, mobilio, outdoor).
Università degli Studi di Catania – Dipartimento di Informatica
42
Stima e valutazione di Mappe di Salienza
5.2.2 Procedure
Le procedure del test sono in totale 10 e vengono riportate di seguito:
• Lettura e compilazione del primo questionario, Consenso
dell’Utente
• Misurazione della gradazione degli occhi
• Indossare il visore e adattarlo al capo
• Calibrare il FOVE utilizzando il software proprietario
• Effettuare la seconda calibrazione all’interno di Unity per
individuare l’errore.
• Effettuare la prima esperienza del tour
• Rispondere al questionario relativo alla prima modalità
• Effettuare la seconda esperienza del tour
• Rispondere al questionario relativo alla seconda modalità
• Rispondere al questionario finale relativo alla comparazione tra
le due esperienze
La durata media di ogni test è stato di 25-30 minuti: circa 2-3 minuti
per la compilazione dei test, 3-3:30 minuti per ognuna delle due
esperienza del tour, circa 5-6 minuti per le due calibrazioni ed infine
3 minuti per la misurazione della gradazione degli occhi.
Università degli Studi di Catania – Dipartimento di Informatica
43
Stima e valutazione di Mappe di Salienza
5.2.3 Analisi dei dati raccolti
In questa sezione analizzeremo i risultati ottenuti dai dati raccolti
durante i test.
Gli utenti testati (20) sono per il 60% uomini e 40% donne e l’età va
dai 18 ai > 50.
Grafico 1 - Età degli Utenti
Il 35% di essi indossa occhiali correttivi. Più della metà, 60%, ha
esperienza in campo videoludico, ma solo il 25% e il 15% ha
esperienza rispettivamente in 3D/Virtual Reality e visori VR e HMD –
Head Mounted Display.
I risultati ottenuti riguardanti la prima esperienza del tour, modalità
guidata, indicano che l’85% dei tester ha trovato l’esperienza sia
piacevole che realistica, mentre solo il 50% ha gradito i vincoli in
sovrappressione.
Università degli Studi di Catania – Dipartimento di Informatica
44
Stima e valutazione di Mappe di Salienza
Grafico 2 - Preferenza sui vincoli di osservazione
Inoltre sono stati rilasciati alcuni commenti (2) che esprimono il
giudizio riguardo ai vincoli, freccia e quadrato, indicando la
dimensione troppo eccessiva e invasiva.
La seconda esperienza, ha prodotto più dell’85% di risposte positive
riguardo all’esperienza e al realismo da essa prodotta. Non è invece
prevalso un valore assoluto sulla preferenza della presenza o meno
delle descrizioni degli oggetti in sovrappressione: 55% per l’assenza e
45% per la presenza.
Università degli Studi di Catania – Dipartimento di Informatica
45
Stima e valutazione di Mappe di Salienza
Grafico 3 - Libera Vs Libera e Descrizioni
Tra i vari commenti tecnici riguardo al tour, uno riguarda ai pop-up
highlights, che consiglia di farli apparire solo quando l’oggetto è
osservato, così da offrire un maggiore realismo e dinamicità.
L’ultimo questionario, l’analisi finale comparativa, ha generato i
risultati che ci aspettavamo.
Grafico 4 - Preferenza stanza
Università degli Studi di Catania – Dipartimento di Informatica
46
Stima e valutazione di Mappe di Salienza
Questo primo grafico mostra la percentuale della preferenze delle
stanze. Il salotto è la stanza che prevale sulle altre con il 55% di
preferenza. Questo risultato era abbastanza atteso poiché è il
panorama che presenta più dettagli rispetto agl’altri 3.
Grafico 5 - Preferenza modalità
Nel secondo grafico, il risultato è palese: il 90% degli utenti, 18
persone su 20, ha preferito la modalità libera e senza vincoli di
osservazione rispetto alla modalità guidata. Questo valore, previsto e
atteso, mostra come il visitatore preferisca un tour con libertà di
movimento, di scelta del tempo di permanenza per ogni stanza e di
durata dell’intera visita.
Università degli Studi di Catania – Dipartimento di Informatica
47
Stima e valutazione di Mappe di Salienza
Infine nella seguente tabella, possiamo osservare i tempi delle visite,
nella modalità libera, dei 20 utenti. La media dei tempi delle visite è
3:23.
Nome Utente Tempo
Weronika 2:03
Alessio 4:39
Valerio 4:26
Salvatore 4:59
Pascal 3:37
Richard 4:32
Hoo 3:21
Laurel 5:18
Tanzin 3:58
Krystian 3:36
Natasha 2:02
Alice 2:46
Cailyn 2:31
Elisabeth 2:31
Edwin 2:52
Scarlett 2:23
Regina 3:39
Esther 1:57
George 2:33
Daniele 4:12
Tabella 1 - Tempi delle visite in modalità Libera
Università degli Studi di Catania – Dipartimento di Informatica
48
Stima e valutazione di Mappe di Salienza
6. Seconda fase: Applicazione
Saliency Map
In questo capitolo, espliciteremo lo studio fatto sulle mappe di
salienza e sui risultati ottenuti dalla comparazione delle mappe di
calore con le saliency map di ogni panorama che compone il tour.
Sono state condotte due tipi di comparazione:
- La prima consta in una semplice regressione 2D tra le mappe di
salienza dei panorami e le relative heatmap.
- Nella seconda comparazione vengono impiegate Curve ROC per
descrivere la bontà delle saliency map.
Nella comparazione finale sono state considerate le sole heatmap
della modalità libera del tour, poiché le mappe di calore generate dal
tour guidato avrebbero prodotto gli stessi risultati, considerando che
ogni utente ha seguito lo stesso percorso di osservazione in ogni
stanza.
Nella figura seguente viene descritto il diagramma di flusso della
seconda fase.
Università degli Studi di Catania – Dipartimento di Informatica
49
Stima e valutazione di Mappe di Salienza
Figura 27 - Diagramma di Flusso Seconda Fase
Università degli Studi di Catania – Dipartimento di Informatica
50
Stima e valutazione di Mappe di Salienza
6.1 Preliminari
Per la preparazione dei dati ad entrambe le comparazioni, sono stati
effettuati 3 passaggi preliminari:
- Salvataggio delle heatmap in formato compatibile
- Conversione in scala di grigio dei 4 panorami della casa e delle
heatmap
- Normalizzazione tra 0 e 1 delle immagini precedenti
Nella prima comparazione, alle heatmap è stato applicato il filtro
gaussiano, con soglie comprese nell’intervallo [100, 600].
L’applicazione preliminare di questo filtro permette un confronto più
accurato, poiché le singole zone di calore all’interno dell’immagine
coprono un’area di soli 50x50 pixel. Con il filtro di Gauss, questa
piccola porzione del panorama aumenta di dimensione così da
replicare in maniera più realistica lo spazio di osservazione dell’occhio
umano, permettendo così un calcolo più preciso dei coefficienti.
Per la seconda comparazione non sono serviti ulteriori passi
preliminari aggiuntivi poiché entrambe le mappe sono compatibili per
essere date in pasto all’algoritmo per il calcolo delle Curve ROC.
6.2 Implementazione
Per l’implementazione di questa sezione dello studio condotto, sono
stati utilizzati due linguaggi di programmazione: Matlab e Python
attraverso i rispettivi ambienti di sviluppo Matlab-Studio e Jupyter
Notebook.
Università degli Studi di Catania – Dipartimento di Informatica
51
Stima e valutazione di Mappe di Salienza
La prima comparazione è stata implementata interamente con il
linguaggio Matlab. Di seguito sono descritte le fasi che la
compongono:
- Lettura delle heatmap generate da House Tour
- Salvataggio delle stesse convertite in scala di grigio
- Generazione delle mappe di salienza delle 4 stanze. La funzione
gbvs genera vari risultati riguardanti la salienza dell’immagine
passata come parametro, come mostrato dall’immagine
seguente. Il parametro che produce la mappa di salienza è
master_map_resized, evidenziato in rosso.
for i = 1:numeroHeatmap
imwrite( rgb2gray ( heatmaps{i} ), strcat( 'Gray - ', nameOfUser(i) ));
end
Codice 3 - Lettura e conversione in GrayScale delle Heatmap in R
saliencyLivingRoom = gbvs('../Panorami/Living Room.png')
saliencyLivingRoom = struct with fields:
master_map: [16×32 double]
master_map_resized: [4096×8192 double]
top_level_feat_maps: {[16×32 double] [16×32 double] [16×32 double]}
map_types: {'dklcolor' 'intensity' 'orientation'}
intermed_maps: [1×1 struct]
rawfeatmaps: [1×1 struct]
paramsUsed: [1×1 struct]
Codice 4 - Generazione Mappe di Salienza
Università degli Studi di Catania – Dipartimento di Informatica
52
Stima e valutazione di Mappe di Salienza
- Applicazione del filtro di Gauss con soglia threshold =
[100,600], con un incremento di 50 ad ogni ciclo, e confronto
con la mappa di salienza relativa al panorama corrispondente e
salvataggio dei vari coefficienti.
- Infine, la selezione della regressione lineare, corr2, che ha
prodotto il massimo coefficiente.
j = 1;
for i = 4:4:80
panorami(1,j) = max(coefficients(i-3, :)); // Living Room
panorami(2,j) = max(coefficients(i-2, :)); // Garden
panorami(3,j) = max(coefficients(i-1, :)); // Bedroom
panorami(4,j) = max(coefficients(i, :)); // Bathroom
j = j + 1;
end
threshold = 100;
for i = 1:nHeat
for j = 1:20
imageTmp = imgaussfilt( rgb2gray( heatmaps{i} ), threshold);
coefficients(i, j) = corr2( saliencyMapPanorama, imageTmp);
threshold = threshold + 50;
end
end
Codice 6 - Selezione del massimo coefficiente
Codice 5 - Applicazione filtro Gauss e Regressione Lineare
Università degli Studi di Catania – Dipartimento di Informatica
53
Stima e valutazione di Mappe di Salienza
La seconda comparazione è stata sviluppata in Python con l’ausilio
delle mappe di salienza generate in precedenza in Matlab. Il confronto
tra la mappa del panorama e le relative heatmap, è affidato alle Curve
ROC. Di seguito è riportata l’implementazione dell’algoritmo:
Codice 7 - Generazione Curve Roc
def calculateCurveRoc(predict, groundTruth):
values = list()
threshold = np.linspace(0, 1, num=100)
for t in threshold:
tp = np.sum(np.logical_and(predict >= t, groundTruth >= t))
fp = np.sum(np.logical_and(predict >= t, groundTruth < t))
fn = np.sum(np.logical_and(predict < t, groundTruth >= t))
tn = np.sum(np.logical_and(predict < t, groundTruth < t))
values.append((tp, tn, fp, fn))
x = [None] * 100
y = [None] * 100
i = 0
for item in values:
if item[0]+item[3] == 0:
x[i] = 1
else:
x[i] = item[0]/(item[0]+item[3]) # TP/(TP+FN)
if item[2]+item[1] == 0:
y[i] = 1
else:
y[i] = item[2]/(item[2]+item[1]) # FP/(FP+TN)
i = i+1
Università degli Studi di Catania – Dipartimento di Informatica
54
Stima e valutazione di Mappe di Salienza
I dati che calculateCurveROC produce, true positive rate e false
positive rate,sono utilizzati per generare i grafici delle Curve, che
descrivono la bontà della salienza. Di seguito riportiamo lo stralcio di
codice del confronto della heatmap prodotta dalla visita del salotto da
parte dell’utente Alessio, con il panorama relativo.
Il risultato prodotto da questo confronto lo possiamo osservare nel
seguente grafico:
Figura 28 – Plot del risultato – Curva ROC
groundTruth = ('../Data/GrayScale Heatmaps/Alessio - Living Room Heat.png')
predict = ('../Panorami/Saliency - Living Room.png')
calculateCurveRoc(predict, groundTruth)
Codice 8 – Confronto tra immagini con utilizzo Curve ROC
Università degli Studi di Catania – Dipartimento di Informatica
55
Stima e valutazione di Mappe di Salienza
La diagonale di colore rossa rappresenta la threshold, mentre la curva
in blu indica l’andamento della bontà del confronto, in questo caso
più che buono.
Il calcolo dell’indice AUC è affidata alla funzione apposita presente
nella libreria sklearn. Di seguito è riportato lo stralcio di codice che
descrive il funzionamento.
6.3 Studio delle Salieny Map
Per la generazione delle saliency map è stata utilizzata una funzione
presente nella libreria implementata in Matlab e condivisa daHarel,
Koch, e Perona, Graph-Based Visual Saliency – GBVS,la cui
implementazione è descritta nel documento [18].
6.3.1 Mappe di Salienza e Heatmap
Le mappe di salienza ricavate dall’algoritmo descritto nella sezione
precedente, risaltano gli oggetti e le zone dell’immagine che
potrebbero attirare l’attenzione dell’osservatore. Di seguito,
riportiamo la saliency map del Salotto.
auc_coeff = sklearn.metrics.auc(x, y)
Codice 9 - Calcolo indice AUC
Università degli Studi di Catania – Dipartimento di Informatica
56
Stima e valutazione di Mappe di Salienza
Figura 29 – Salotto
Figura 30 - Mappa di Salienza del Salotto
Come possiamo notare, il metodo utilizzato per il calcolo della
salienza, il Visual Attention Modelling (VAM), evidenzia e risalta le
zone interessanti del panorama, come il tavolo, il camino, la tv, il
giocattolo con la lampada.
Le immagini seguenti rappresentano le mappe di calore generate dalla
visita in modalità libera dell’utente Alessio.
Università degli Studi di Catania – Dipartimento di Informatica
57
Stima e valutazione di Mappe di Salienza
Figura 31 - Heatmap Normalizzata
Figura 32 - Heatmap in Scala di Grigio
La prima figura è stata normalizzata con un livello di 250, ottenendo
il massimo coefficiente di correlazione. La seconda figura è la mappa
di calore convertita in scala di grigio.
Università degli Studi di Catania – Dipartimento di Informatica
58
Stima e valutazione di Mappe di Salienza
6.4 Studio e analisi dei risultati
6.4.1 Premessa
Questa parte di documento Sono stati ricavate due istanze di
risultati:
- Il primo set di risultati è stato ricavato partendo dalle heatmap
normalizzate col filtro di Gauss e confrontate con le mappe di
salienza di ogni stanza. Il modello utilizzato per la correlazione
è la regressione 2D tra le due immagini.
- Nel secondo confronto vengono impiegati le Curve ROC e
l’indice AUC per valutare la bontà della correlazione tra le
saliency map e le heatmap convertite in scala di grigio.
Nel paragrafo seguente, riportiamo l’analisi dei dati ottenuti nei due
studi.
6.4.2 Analisi dei dati: primo studio
Il primo set di risultati, derivanti dalla prima comparazione, mostra
come le heatmap normalizzate confrontate con le prime due saliency
map, Bagno e Stanza da Letto, diano una scarsa correlazione, infatti
la maggior parte dei coefficienti è inferiore a 0.5.
Università degli Studi di Catania – Dipartimento di Informatica
59
Stima e valutazione di Mappe di Salienza
Grafico 6 – Correlazione – Bagno
Grafico 7 - Correlazione - Stanza da Letto
Università degli Studi di Catania – Dipartimento di Informatica
60
Stima e valutazione di Mappe di Salienza
Possiamo notare come nella correlazione con la mappa di salienza del
Bagno, 7 coefficienti su 20 superano la soglia del 0.5, meno del 50%.
Nel secondo grafico il risultato è ben peggiore, infatti troviamo oltre la
threshold, solamente 5 soggetti studiati, il 25%.
Nella seconda coppia di grafici, possiamo notare, invece, che i
coefficienti sono mediamente maggiori della soglia 0.5.
Grafico 8 - Correlazione - Giardino
Università degli Studi di Catania – Dipartimento di Informatica
61
Stima e valutazione di Mappe di Salienza
Grafico 9 - Correlazione – Salotto
Il primo confronto, Giardino, presenta il 71% dei coefficienti che
superano la soglia dello 0.5. Nel secondo grafico questa percentuale
raggiunge migliora e raggiunge quasi il 90%, soltanto due coefficienti
sono inferiori alla soglia fissata.
6.4.3 Analisi dei dati: secondo studio
Nel secondo confronto effettuato, si è ricorso alle Curve ROC come
modello di valutazione della comparazione. Sono state prodotte per
ogni utente, 20, 4 curve ROC, in riferimento ad ogni stanza della casa.
I grafici che seguono, mostrano i confronti effettuati tra le heatmap di
ogni utente e le mappe di salienza di ogni stanza.
Università degli Studi di Catania – Dipartimento di Informatica
62
Stima e valutazione di Mappe di Salienza
Grafico 10 - Curve ROC - Bagno
Grafico 11 - Curve ROC - Stanza da Letto
Università degli Studi di Catania – Dipartimento di Informatica
63
Stima e valutazione di Mappe di Salienza
I primi due grafici mostrano come effettivamente le mappe di salienza
che riguardano il Bagno e la Stanza da Letto non replicano al meglio
quello che un utente potrebbe trovare interessante all’interno di
queste due scene. Infatti, nel primo caso, Bagno, troviamo alcune
curve, 3, che tracciano un buon risultato, ma i 17 risultati restanti si
trovano o in prossimità della linea rossa, threshold, o addirittura
sotto. Il secondo grafico, Stanza da Letto, traccia delle curve migliori,
seppur di poco, del primo grafico ma non ancora ottime. Visivamente
possiamo notare che la maggior parte delle curve si trovi in
prossimità della soglia.
Grafico 12 - Curva ROC - Giardino
Università degli Studi di Catania – Dipartimento di Informatica
64
Stima e valutazione di Mappe di Salienza
Grafico 13 - Curva ROC – Salotto
La seconda coppia di grafici, Giardino e Salotto, hanno prodotto
degli ottimi dati. Possiamo notare come in entrambi i casi, a meno di
3 curve sia nel primo che nel secondo grafico, la maggior parte dei
risultati traccia la curva avvicinandosi al risultato ottimale che
abbiamo osservato nel paragrafo 2.5.
Oltre ad aver prodotto le Curve ROC per ogni stanza, è stato generato
l’indice AUC che descrive l’area sotto la curva. Di seguito è stata
riportata la tabella contenente gli indici relativi ad ogni ambiente
della casa.
Università degli Studi di Catania – Dipartimento di Informatica
65
Stima e valutazione di Mappe di Salienza
Utente Bagno Stanza da
Letto
Giardino Salotto
1 0.745 0.604 0.782 0.926
2 0.563 0.770 0.748 0.882
3 0.446 0.387 0.833 0.846
4 0.604 0.623 0.695 0.839
5 0.441 0.547 0.874 0.881
6 0.413 0.588 0.505 0.638
7 0.697 0.764 0.699 0.774
8 0.620 0.543 0.630 0.414
9 0.332 0.755 0.566 0.877
10 0.607 0.600 0.628 0.797
11 0.774 0.841 0.875 0.875
12 0.890 0.753 0.739 0.936
13 0.592 0.419 0.717 0.714
14 0.649 0.649 0.711 0.862
15 0.636 0.618 0.739 0.838
16 0.584 0.698 0.727 0.798
17 0.534 0.515 0.834 0.870
18 0.255 0.329 0.724 0.698
19 0.285 0.319 0.734 0.680
20 0.748 0.578 0.532 0.889
Media 0.571 0.595 0.715 0.802
Tabella 2 - Indici AUC
In verde sono stati evidenziati i valori positivi, maggiori della soglia
0,62, mentre in rosso quelli negativi, minori della threshold fissata.
Possiamo notare come gli indici prodotti, confermano quanto
Università degli Studi di Catania – Dipartimento di Informatica
66
Stima e valutazione di Mappe di Salienza
mostrato dalle Curve ROC e danno un valore negativo e sotto la soglia
nelle prime due stanze, Bagno e Stanza da Letto, e un valore
positivo per il confronto fatto con la saliency map del Giardino, 0,715
e più che positivo, 0,802, per il confronto con la mappa di salienza
della stanza del Salotto.
Università degli Studi di Catania – Dipartimento di Informatica
67
Stima e valutazione di Mappe di Salienza
7. Terza Fase: Studio dei
comportamenti
Questo studio si è concentrato sull’analisi dei comportamenti dagli
utenti durante il tour. Gli obiettivi sono stati quelli di identificare
comportamenti intrinseci tra gli utenti e scoprire i pattern di oggetti
osservati più frequenti.
Di seguito è riportato il diagramma di flusso relativo a questo studio.
Figura 33 - Diagramma di Flusso Terza Fase
Università degli Studi di Catania – Dipartimento di Informatica
68
Stima e valutazione di Mappe di Salienza
7.1 Preliminari
Lo studio e l’analisi dei dati è stato compiuto su tutti i file .dat
prodotti dal software House Tour.
Quindi, il dataset è stato manipolato e sfoltito, eliminando eventuali
outliner e valori considerati non utili al fine del goal di
quest’applicazione, come il soffitto, il pavimento e i muri della casa.
Nella prossima sezione vedremo come sono stati elaborati e
manipolati i dati prima e l’implementazione dei due studi dopo.
7.2 Implementazione
L’intero studio sui comportamenti è stato implementato interamente
in Python utilizzando l’ambiente di lavoro Jupyter Notebook.
L’implementazione prevede una prima lettura dei dati e uno
sfoltimento degli stessi attraverso lo stralcio di codice seguente:
for room in range(0, 4):
for user in range(0,20):
newTrainingData[room][user]['Object Label'] != 'Walls']
newTrainingData[room][user]['Object Label'] != 'Ground']
newTrainingData[room][user]['Object Label'] != 'Roof']
Codice 10 - Sfoltimento dati
Università degli Studi di Catania – Dipartimento di Informatica
69
Stima e valutazione di Mappe di Salienza
Dopo una prima manipolazione del dataset, si è continuato con la
generazione della lista degli oggetti osservati. Avendo salvato ogni
singolo frame del tour, un singolo utente potrebbe aver prodotto
lunghe sequenze di oggetti uguali. Per ovviare a questa ridondanza, in
primis, è stata generata una lista che selezioni solo una voce dalla
lunga sequenza degli stessi oggetti, come segue:
('Outside Garden', 'Outside Garden', …, 'Outside Garden') => ('Outside Garden')
Il secondo passo prevede un campionamento della lista appena
generata, considerando l’oggetto più frequente nel lasso di tempo
scelto, 3 secondi, come nell’esempio seguente:
Sezione di tempo: 0:00 – 3:00
Outside Garden 10
TV 11 Table & Chairs 14
Table & Chairs 14
Con questi due step abbiamo modificato e manipolato i dati per
poterli analizzare al meglio.
Università degli Studi di Catania – Dipartimento di Informatica
70
Stima e valutazione di Mappe di Salienza
Nel primo studio sono state confrontate le liste degli utenti,
contenenti le sequenze di oggetti osservati, fra loro. Il risultato
prodotto è una percentuale di somiglianza, numero di oggetti
osservati uguali con stessa posizione nella lista, del confronto fra le
due sequenze. Di seguito riportiamo il codice che genera la matrice
finale.
Il codice appena visto, produce 4 matrici 20x20, una per ogni stanza,
dove ogni valore rappresenta la percentuale di somiglianza della lista
i-esima con la lista j-esima.
Codice 11 - Generazione tabella dei comportamenti
file = open(‘TrainingVsTraining - Studio 1.txt','w')
for room in range(0,4):
for i in range(0, 20):
for j in range(0, 20):
minLen = min( len(listTrainingLabel[room][i]), len(listTrainingLabel[room][j]))
for obj in range(0, minLen):
if listTrainingLabel[room][i][obj] == listTrainingLabel[room][j][obj]:
count += 1
coefficienti[i, j] = (count*100)/minLen
file.write( str((count*100)/minLen) + '(' + str(minLen) + ')\t')
valoriFinali.append(coefficienti)
Università degli Studi di Catania – Dipartimento di Informatica
71
Stima e valutazione di Mappe di Salienza
Il secondo studio genera le sequenze di oggetti più frequenti presenti
tra gli utenti per pattern di 3, 4 e 5 oggetti, come descritto nel codice
seguente
pattern[0] = list() #tipo di pattern - ['a']['b']['c']
pattern[1] = list() #count dei pattern - 10
for room in range(0, 4):
for user in range(0, 20):
for label in range(1, len(listTrainingLabel[room][user])-1):
if not pattern[0]:
pattern[0].append( (listTrainingLabel[room][user][label-1],
listTrainingLabel[room][user][label],
listTrainingLabel[room][user][label+1])
pattern[1].append(1) # Conteggio
else:
found = False
for p in pattern[0]:
if p[0] == listTrainingLabel[room][user][label-1] and
p[1] == listTrainingLabel[room][user][label] and
p[2] == listTrainingLabel[room][user][label+1]
pattern[1][pattern5[0].index(p)] += 1
found = True
if not found:
pattern[0].append( (listTrainingLabel[room][user][label-1],
listTrainingLabel[room][user][label],
listTrainingLabel[room][user][label+1])
pattern[1].append(1)# Conteggio
Codice 12 - Generazione Pattern di Sequenze
Università degli Studi di Catania – Dipartimento di Informatica
72
Stima e valutazione di Mappe di Salienza
Viene creata una lista, pattern¸ che conterrà nella posizione i-esima il
pattern e il relativo conteggio.
7.3 Analisi dei dati
Il codice implementato e visto nella sezione precedente ha prodotto
due risultati:
- Quattro tabelle che descrivono le correlazione fra i
comportamenti degli utenti nelle rispettive 4 stanze della casa
- Tre liste contenenti le sequenze di oggetti più frequenti di
lunghezza 3, 4 e 5.
Nelle 4 tabelle seguenti, troviamo i comportamenti rilevati evidenziati
in vari colori.
Università degli Studi di Catania – Dipartimento di Informatica
73
Stima e valutazione di Mappe di Salienza
Tabella 3 - Valori di Somiglianza del Bagno
Ale
ssio
Ali
ce
Cail
yn
Danie
le
Edw
in
Eli
sabeth
Esth
er
Georg
e
Hoo
Kry
sti
an
Laure
l
Nata
sha
Pascal
Regin
a
Ric
hard
Salv
ato
re
Scarl
ett
Tanzin
Vale
rio
Wero
nik
a
A 100 0 18 50 8 33 16 37 14 11 40 25 50 20 8 7 50 14 15 66
A 0 100 36 10 33 33 33 25 20 33 0 25 0 30 16 35 25 23 15 33
C 18 36 100 10 9 33 50 37 9 33 10 50 25 20 36 45 100 27 27 0
D 50 10 10 100 20 33 0 37 30 33 20 25 50 40 10 0 25 20 10 100
E 8 33 9 20 100 33 33 12 25 33 10 25 0 30 33 33 25 41 33 0
E 33 33 33 33 33 100 33 100 100 66 0 66 66 33 33 33 33 33 66 33
E 16 33 50 0 33 33 100 33 16 33 50 25 0 16 33 33 50 16 16 0
G 37 25 37 37 12 100 33 100 37 50 25 75 75 37 12 25 50 12 25 33
H 14 20 9 30 25 100 16 37 100 44 0 50 50 40 8 6 25 26 23 33
K 11 33 33 33 33 66 33 50 44 100 0 75 50 77 11 33 50 22 11 0
L 40 0 10 20 10 0 50 25 0 0 100 25 0 10 30 10 0 10 0 33
N 25 25 50 25 25 66 25 75 50 75 25 100 50 50 50 25 50 25 25 0
P 50 0 25 50 0 66 0 75 50 50 0 50 100 50 0 0 25 0 25 33
R 20 30 20 40 30 33 16 37 40 77 10 50 50 100 0 20 25 10 10 33
R 8 16 36 10 33 33 33 12 8 11 30 50 0 0 100 33 25 41 25 0
S 7 35 45 0 33 33 33 25 6 33 10 25 0 20 33 100 25 36 30 0
S 50 25 100 25 25 33 50 50 25 50 0 50 25 25 25 25 100 25 25 0
T 14 23 27 20 41 33 16 12 26 22 10 25 0 10 41 36 25 100 30 0
V 15 15 27 10 33 66 16 25 23 11 0 25 25 10 25 30 25 30 100 33
W 66 33 0 100 0 33 0 33 33 0 33 0 33 33 0 0 0 0 33 100
Università degli Studi di Catania – Dipartimento di Informatica
74
Stima e valutazione di Mappe di Salienza
Tabella 4 - Valori di Somiglianza della Stanza da Letto
Ale
ssio
Ali
ce
Cail
yn
Danie
le
Edw
in
Eli
sabeth
Esth
er
Georg
e
Hoo
Kry
sti
an
Laure
l
Nata
sha
Pascal
Regin
a
Ric
hard
Salv
ato
re
Scarl
ett
Tanzin
Vale
rio
Wero
nik
a
A 100 11 15 18 25 18 50 100 25 27 50 16 27 0 6 7 10 13 6 8
A 11 100 22 22 22 22 50 100 50 33 50 33 22 11 11 0 22 11 0 22
C 15 22 100 27 25 9 0 0 37 9 0 0 45 16 7 15 10 23 7 8
D 18 22 27 100 27 54 50 100 25 54 50 50 36 27 0 18 50 18 9 18
E 25 22 25 27 100 18 50 100 12 9 50 50 45 16 16 0 20 16 8 16
E 18 22 9 54 18 100 50 100 25 36 50 16 27 18 0 0 40 9 0 0
E 50 50 0 50 50 50 100 100 50 50 100 50 50 0 0 0 50 50 0 0
G 100 100 0 100 100 100 100 100 100 100 100 100 100 0 0 0 100 100 0 0
H 25 50 37 25 12 25 50 100 100 37 50 16 25 25 25 37 12 12 0 0
K 27 33 9 54 9 36 50 100 37 100 50 50 27 36 18 27 30 9 9 9
L 50 50 0 50 50 50 100 100 50 50 100 50 50 0 0 0 50 50 0 0
N 16 33 0 50 50 16 50 100 16 50 50 100 16 16 16 33 16 16 0 16
P 27 22 45 36 45 27 50 100 25 27 50 16 100 27 9 9 20 27 18 18
R 0 11 16 27 16 18 0 0 25 36 0 16 27 100 33 16 10 8 8 8
R 6 11 7 0 16 0 0 0 25 18 0 16 9 33 100 15 10 11 23 0
S 7 0 15 18 0 0 0 0 37 27 0 33 9 16 15 100 0 15 15 16
S 10 22 10 50 20 40 50 100 12 30 50 16 20 10 10 0 100 20 10 10
T 13 11 23 18 16 9 50 100 12 9 50 16 27 8 11 15 20 100 33 16
V 6 0 7 9 8 0 0 0 0 9 0 0 18 8 23 15 10 33 100 25
W 8 22 8 18 16 0 0 0 0 9 0 16 18 8 0 16 10 16 25 100
Università degli Studi di Catania – Dipartimento di Informatica
75
Stima e valutazione di Mappe di Salienza
Tabella 5 - Valori di Somiglianza del Salotto
Ale
ssio
Ali
ce
Cail
yn
Danie
le
Edw
in
Eli
sabeth
Esth
er
Georg
e
Hoo
Kry
sti
an
Laure
l
Nata
sha
Pascal
Regin
a
Ric
hard
Salv
ato
re
Scarl
ett
Tanzin
Vale
rio
Wero
nik
a
A 100 100 0 14 100 25 100 50 0 0 7 33 40 0 0 50 100 14 0 25
A 100 100 0 100 100 50 100 50 0 0 0 0 100 0 0 100 100 100 0 100
C 0 0 100 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0 0
D 14 100 0 100 100 25 100 50 0 0 6 0 60 8 0 100 100 23 9 25
E 100 100 0 100 100 100 100 100 0 0 0 0 100 0 0 100 100 100 0 100
E 25 50 0 25 100 100 50 50 0 0 0 0 25 75 0 25 50 25 0 25
E 100 100 0 100 100 50 100 50 0 0 0 0 100 0 0 100 100 100 0 100
G 50 50 0 50 100 50 50 100 0 0 0 0 50 0 0 50 50 50 0 50
H 0 0 0 0 0 0 0 0 100 0 0 0 0 0 100 0 0 0 100 0
K 0 0 0 0 0 0 0 0 0 100 0 0 0 14 0 0 0 0 0 0
L 7 0 100 6 0 0 0 0 0 0 100 0 0 0 0 0 0 0 18 12
N 33 0 0 0 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0
P 40 100 0 60 100 25 100 50 0 0 0 0 100 0 0 75 100 60 40 40
R 0 0 0 8 0 75 0 0 0 14 0 0 0 100 0 0 0 0 0 0
R 0 0 0 0 0 0 0 0 100 0 0 0 0 0 100 0 0 0 100 0
S 50 100 0 100 100 25 100 50 0 0 0 0 75 0 0 100 100 50 0 50
S 100 100 0 100 100 50 100 50 0 0 0 0 100 0 0 100 100 100 0 100
T 14 100 0 23 100 25 100 50 0 0 0 0 60 0 0 50 100 100 27 37
V 0 0 0 9 0 0 0 0 100 0 18 0 40 0 100 0 0 27 100 12
W 25 100 0 25 100 25 100 50 0 0 12 0 40 0 0 50 100 37 12 100
Università degli Studi di Catania – Dipartimento di Informatica
76
Stima e valutazione di Mappe di Salienza
Tabella 6 - Valori di Somiglianza del Giardino
Ale
ssio
Ali
ce
Cail
yn
Danie
le
Edw
in
Eli
sabeth
Esth
er
Georg
e
Hoo
Kry
sti
an
Laure
l
Nata
sha
Pascal
Regin
a
Ric
hard
Salv
ato
re
Scarl
ett
Tanzin
Vale
rio
Wero
nik
a
A 100 0 33 33 0 16 0 60 25 42 12 0 0 16 20 0 33 38 5 26
A 0 100 100 0 0 0 100 0 0 0 0 100 0 0 0 100 0 0 0 0
C 33 100 100 0 0 66 100 0 66 0 66 33 0 66 66 33 66 0 66 0
D 33 0 0 100 0 0 0 66 0 66 0 33 0 0 0 33 0 66 0 66
E 0 0 0 0 100 100 0 0 100 0 100 0 0 100 100 0 0 0 100 0
E 16 0 66 0 100 100 0 0 100 0 83 0 0 100 100 0 66 0 83 0
E 0 100 100 0 0 0 100 0 0 0 0 100 0 0 0 100 0 0 0 0
G 60 0 0 66 0 0 0 100 0 80 0 0 0 0 0 0 0 60 0 80
H 25 0 66 0 100 100 0 0 100 0 100 0 0 100 100 0 66 0 100 0
K 42 0 0 66 0 0 0 80 0 100 21 0 0 0 0 0 0 46 14 42
L 12 0 66 0 100 83 0 0 100 21 100 0 0 83 100 0 66 15 31 0
N 0 100 33 33 0 0 100 0 0 0 0 100 0 0 0 100 0 20 20 0
P 0 0 0 0 0 0 0 0 0 0 0 0 100 0 0 0 100 0 0 0
R 16 0 66 0 100 100 0 0 100 0 83 0 0 100 100 0 66 0 83 0
R 20 0 66 0 100 100 0 0 100 0 100 0 0 100 100 0 66 0 80 0
S 0 100 33 33 0 0 100 0 0 0 0 100 0 0 0 100 0 25 0 0
S 33 0 66 0 0 66 0 0 66 0 66 0 100 66 66 0 100 0 66 0
T 38 0 0 66 0 0 0 60 0 46 15 20 0 0 0 25 0 100 23 38
V 5 0 66 0 100 83 0 0 100 14 31 20 0 83 80 0 66 23 100 6
W 26 0 0 66 0 0 0 80 0 42 0 0 0 0 0 0 0 38 6 100
Università degli Studi di Catania – Dipartimento di Informatica
77
Stima e valutazione di Mappe di Salienza
Nelle tabelle precedenti, abbiamo evidenziato, per ogni stanza,
almeno 2 comportamenti per scena. Questi comportamenti
descrivono la sequenza di oggetti osservati durante la visita del tour
da parte dei tester.
Nel set di tabelle seguenti, abbiamo riportato le sequenza di oggetti
più frequenti tra le visite effettuate. I pattern scelti hanno come
lunghezza 3, 4 e 5 oggetti.
1 Outside Garden Outside Garden Curtains
2 Outside Garden Outside Garden Sofa
3 Washbasin Window Window
4 Door Washbasin Window
5 Window Mirror Window
Tabella 7 - Sequenze Frequenti Pattern 3
1 Door Bed Curtains Bed
2 Inside Window Inside Window Inside Window Painting
3 Garage Garage Entrance Garage
4 Door Garage Car Car
5 Carpet Paint Wardrobe Door
Tabella 8 - Sequenze Frequenti Pattern 4
1 Inside Window Inside Window Inside Window Painting Curtains
2 Door Door Water Mirror Washbasin
3 Door Door Door Entrance Window
4 Garage Car Car Car Window
5 Window Carpet Carpet Carpet Carpet
Tabella 9 - Sequenze Frequenti Pattern 5
Università degli Studi di Catania – Dipartimento di Informatica
78
Stima e valutazione di Mappe di Salienza
Da questi dati ricavati, possiamo notare che la stanza con più
sequenze frequenti è la Stanza da Letto. Mentre, considerando il
pattern di lunghezza 3, il Bagno è la stanza che conta 3 sequenze su
5, le altre 2 appartengono al Salotto. Nel pattern di lunghezza 4
prevale la Stanza da Letto (3 su 5), infine nell’ultimo pattern sia la
Stanza da Letto e che il Bagno hanno 2 sequenze su 5.
Possiamo quindi considerare che gli utenti nella Stanza da Letto
hanno seguito lo stesso percorso di osservazione,tenendo in
considerazione che nella tabella dei comportamenti, Tabella 3, sono
presenti solo 2 comportamenti rilevati, mentre nelle altre 3 stanze, il
numero dei comportamenti sale a 3 per il Giardino e per il Salotto e
a 4 per il Bagno.
Mettendo insieme questi due risultati possiamo dedurre che la
Stanza da Letto propone pattern più frequenti, quindi numero di
oggetti presenti nella scena inferiore rispetto alle altre stanze, e di
conseguenza comportamenti più simili. Il risultato è simile per il
Bagno, tenendo in considerazione che i comportamenti rilevati nella
Tabella 2 sono 4 ma con pochi campioni per ogni tipo di
comportamento.
Il risultato è diverso per Salotto e Giardino, in cui gli oggetti sono
maggiori, con poca presenza nei vari pattern di sequenze frequenti, e
con comportamenti rilevati, 3 per stanza, che contano un buon
numero di campioni per tipo di comportamento.
Università degli Studi di Catania – Dipartimento di Informatica
79
Stima e valutazione di Mappe di Salienza
8. Conclusioni
Lo studio proposto è stato svolto attraverso 3 fasi, durante le quali
sono stati prodotti vari risultati.
Nella prima fase di preparazione e raccolta dati, è stato creato un
software, che simulasse un tour di una casa e successivamente
generasse delle mappe di calore contenenti le zone di maggiore
osservazione dell’utente, affiancato da un visore di tipo eye-tracker.
Successivamente è stato predisposto un test, composto da 4
questionari e con l’impiego di House Tour.
La seconda fase comprende i confronti tra le heatmap, ricavate nella
prima fase, con le mappe di salienza di ogni panorama del tour. In
questa fase sono stati fatti due tipi di confronti, producendo
altrettanti risultati, sfruttando la Regressione 2De il modello delle
Curve ROC.
Nell’ultima fase del documento è stato condotto uno studio sui
comportamenti rilevati durante le visite da parte degli utenti.
Alla luce dei risultati ottenuti dagli studi compiuti in questo
documento, sono emersi valori positivi relativi ai confronti fatti con le
scene Giardino e Salotto.
Infatti, durante il test, il giudizio da parte degli utenti nei questionari
esprime una preferenza positiva per questi due ambienti della casa,
Grafico 4. Nel primo confronto fatto, 7.4.2 Analisi dei dati: primo
studio, il risultato migliore è prodotto dalla comparazione con la
saliency map del Salotto e di seguito con la mappa di salienza del
Giardino. Ed infine, nel secondo confronto, 7.4.2 Analisi dei dati:
secondo studio, le Curve ROC e gli indici AUC sono positivi per i
confronti fatti con la mappa di salienza del Giardino, 0,715, e più
Università degli Studi di Catania – Dipartimento di Informatica
80
Stima e valutazione di Mappe di Salienza
che positivi per l’ambiente Salotto, 0,802. In definitiva, i 3 studi
compiuti: Test con Questionari, Regressione 2D e Curve ROC,
confermano la qualità delle acquisizioni degli ambienti Salotto e
Giardino, nonché la precisione delle relative mappe di salienza.
Il risultato è capovolto per quanto riguarda gli altri due ambienti della
casa: Bagno e Stanza da Letto. Nel Grafico 4 viene mostrata una
percentuale bassissima di preferenze per queste stanze e nei due
confronti fatti nel Capitolo 7 i dati prodotti sono negativi. L’analisi
della Regressione 2D, Grafico 6 e Grafico 7,produce coefficienti che,
nella maggior parte dei casi, sostano nell’intervallo [0, 0.6], risultato
insufficiente per poter dire che esiste una certa correlazione positiva.
Questa tesi è confermata nel secondo studio, Curve ROC, dove le
medie degli indici AUC rispettivamente per Bagno e Stanza da Letto
sono 0,571 e 0,595. Questi risultati indicano una acquisizione non
ottima delle immagini dei due ambienti Bagno e Stanza da Letto
che, in primis, non è stata apprezzata dagli utenti durante i test, in
seguito, dalle mappe di salienza prodotte, hanno generato uno scarso
risultato durante i confronti con le mappe di calore delle visite degli
utenti.
In conclusione, possiamo dedurre, come risultati fondamentali e
seguendo l’ordine degli studi condotti in questo documento, che il
tour virtuale di una struttura, quale sia la casa, il teatro, un
ambiente aperto o un museo, accostato ad un headset che simuli
questo ambiente e che isoli l’utente dal resto della stanza, potrebbe
diventare uno dei principali campi di sviluppo sia in ambiti
videoludici e ricreativi che in ambiti più scientifici come la medicina o
il militare.
Università degli Studi di Catania – Dipartimento di Informatica
81
Stima e valutazione di Mappe di Salienza
Inoltre, possiamo appurare che il metodo e la qualità dell’acquisizione
delle immagini per lo studio delle mappe di salienza influisce
notevolmente sulla precisione e accuratezza di quest’ultime. Si è
infatti denotato uno scarso risultato prodotto dalle saliency map
derivanti dalle immagini di due ambienti in particolare, Bagno e
Stanza da Letto, le cui acquisizioni non sono state effettuate nel
migliore dei modi, producendo quindi dei panorami di bassa qualità e
di scarso interesse per gli utenti sottoposti ai test.
In generale, grazie anche ai risultati positivi ottenuti nelle altre due
immagini, Salotto e Giardino, possiamo affermare che il modello di
Salienza su cui si è basato questo elaborato, Visual Attention
Modelling, è uno strumento di alta qualità e di ottima accuratezza che
replica e individua quegli oggetti in un’immagine che potrebbero
suscitare interesse nell’utente.
Università degli Studi di Catania – Dipartimento di Informatica
82
Stima e valutazione di Mappe di Salienza
9. Appendice
9.1 Figure
Figura 1 – Realtà Virtuale - VR ......................................................... 4
Figura 2 - Realtà Aumentata– AR ..................................................... 5
Figura 3 - Mobile VR ........................................................................ 6
Figura 4 - Oculus Rift ...................................................................... 7
Figura 5 - Fove e Eye-Movement ...................................................... 7
Figura 6 - Formula Correlazione 2D ............................................... 10
Figura 7 - Tabella di Contingenza ................................................... 12
Figura 8 - TPR e FPR ...................................................................... 13
Figura 9 - Curva ROC .................................................................... 14
Figura 10 - Tasso di Errore Eye-based vs Head-based .................... 16
Figura 11 - Risultato dei 3 metodi di Salienza ................................ 17
Figura 12 - Approccio Bottom-Up del modello VAM ........................ 18
Figura 13 - Modello Visual Attention Modelling .............................. 19
Figura 14 - Diagramma di Flusso dell'Indagine ............................... 24
Figura 15 - Diagramma di Flusso Prima Fase ................................. 26
Figura 16 - Visore Eye-tracker FOVE ............................................. 28
Figura 17 - Entrata e Giardino ....................................................... 30
Figura 18 - Salotto ......................................................................... 30
Figura 19 - Bagno .......................................................................... 31
Figura 20 - Stanza da letto ............................................................. 31
Figura 21 - Descrizione degli oggetti ............................................... 32
Figura 22 - Visita Guidata .............................................................. 33
Figura 23 - Visita Libera ................................................................ 34
Università degli Studi di Catania – Dipartimento di Informatica
83
Stima e valutazione di Mappe di Salienza
Figura 24 - Gradi di interesse ........................................................ 36
Figura 25 – Heatmap ..................................................................... 37
Figura 26 - Panorama con mappa di calore .................................... 38
Figura 27 - Diagramma di Flusso Seconda Fase ............................. 49
Figura 28 – Plot del risultato – Curva ROC ..................................... 54
Figura 29 – Salotto ......................................................................... 56
Figura 30 - Mappa di Salienza del Salotto ...................................... 56
Figura 31 - Heatmap Normalizzata ................................................. 57
Figura 32 - Heatmap in Scala di Grigio .......................................... 57
Figura 33 - Diagramma di Flusso Terza Fase .................................. 67
9.2 Questionari
Questionario a - Consenso dell'Utente ............................................ 40
Questionario b - Modalità Libera – Analisi ...................................... 41
Questionario c - Modalità Guidata – Analisi .................................... 41
Questionario d - Analisi Finale Comparativa .................................. 41
9.3 Grafici
Grafico 1 - Età degli Utenti ............................................................. 43
Grafico 2 - Preferenza sui vincoli di osservazione ............................ 44
Grafico 3 - Libera Vs Libera e Descrizioni ....................................... 45
Grafico 4 - Preferenza stanza .......................................................... 45
Grafico 5 - Preferenza modalità ...................................................... 46
Grafico 6 – Correlazione - Bagno .................................................... 59
Grafico 7 - Correlazione - Stanza da Letto ...................................... 59
Università degli Studi di Catania – Dipartimento di Informatica
84
Stima e valutazione di Mappe di Salienza
Grafico 8 - Correlazione - Giardino ................................................. 60
Grafico 9 - Correlazione – Salotto ................................................... 61
Grafico 10 - Curve ROC - Bagno ..................................................... 62
Grafico 11 - Curve ROC - Stanza da Letto ...................................... 62
Grafico 12 - Curva ROC - Giardino ................................................. 63
Grafico 13 - Curva ROC – Salotto ................................................... 64
9.4 Tabelle
Tabella 1 - Tempi delle visite in modalità Libera ............................. 47
Tabella 2 - Indici AUC .................................................................... 65
Tabella 3 - Valori di Somiglianza del Bagno .................................... 73
Tabella 4 - Valori di Somiglianza della Stanza da Letto ................... 74
Tabella 5 - Valori di Somiglianza del Salotto ................................... 75
Tabella 6 - Valori di Somiglianza del Giardino ................................ 76
Tabella 7 - Sequenze Frequenti Pattern 3 ....................................... 77
Tabella 8 - Sequenze Frequenti Pattern 4 ....................................... 77
Tabella 9 - Sequenze Frequenti Pattern 5 ....................................... 77
9.5 Codice
Codice 1 - Observed Point Class ..................................................... 35
Codice 2 – Salvataggio dei dati ....................................................... 35
Codice 3 - Lettura e conversione in GrayScale delle Heatmap in R . 51
Codice 4 - Generazione Mappe di Salienza ...................................... 51
Codice 5 - Applicazione filtro Gauss e Regressione Lineare ............. 52
Codice 6 - Selezione del massimo coefficiente ................................. 52
Università degli Studi di Catania – Dipartimento di Informatica
85
Stima e valutazione di Mappe di Salienza
Codice 7 - Generazione Curve Roc .................................................. 53
Codice 8 – Confronto tra immagini con utilizzo Curve ROC ............. 54
Codice 9 - Calcolo indice AUC ........................................................ 55
Codice 10 - Sfoltimento dati ........................................................... 68
Codice 11 - Generazione tabella dei comportamenti ........................ 70
Codice 12 - Generazione Pattern di Sequenze ................................. 71
Università degli Studi di Catania – Dipartimento di Informatica
86
Stima e valutazione di Mappe di Salienza
10. Referenze
1. Jonathan Steuer: Defining Virtual Reality: Dimensions
Determining Telepresence, Standford University, Stanford,
California USA(1992)
2. Paul Milgram, Fumio Kishino: Taxonomy of Mixed Reality Visual
Displays, University Of Torono, Toronto CA (1994)
3. T. N. Cornsweet, H. D. Crane: Accurate two-dimensional eye
tracker using first and fourth Purkinje images, Journal of the
Optical Society of America, USA (1973)
4. Colin Ware, Harutune H. Mikaelian: An evaluation of an eye
tracker as a device for computer input2, Toronto CA (1987)
5. Salvatore Livatino, Christina Koeffel: Simple Guidelines for Testing
VR Applications, Electronic, Communication and El. Engineering,
University of Hertfordshire, Hatfield UK, (2009)
6. Antonio Torralba: Contextual Priming for Object Detection,
Artificial Intelligence Laboratory, Massachusetts Institute of
Technology, Cambridge, USA (2003)
7. A. Torralba, A. Olvia, M. S. Castelhano, J. M. Henderson:
Contextual guidance of eye movements and attention in real-world
scenes: The role of global features on object search, Computer
Science and Artificial Intelligence Laboratory, Massachusetts
Institute of Technology, Cambridge USA (2006)
8. A. Furnari, G. M. Farinella, S. Battiato: An Experimental Analysis
of Saliency Detection with respect to Three Saliency Levels,
Dipartimento di Informatica, Università di Catania, Catania IT
(2013)
Università degli Studi di Catania – Dipartimento di Informatica
87
Stima e valutazione di Mappe di Salienza
9. A. P. Bradley: The Use of The Area Under the ROC Curve in The
Evaluation of Machine Learning Algorithms, Cooperative Research
Centre for Sensor Signal and Information Processing, Department
of Electrical and Computer Engineering, The University of
Queensland AU (1996)
10. J. A. Hanley, B. J. McNeil: The Meaning and Use of The Area
Under a Receiver Operating Characteristic Curve, Radiological
Society of North America USA (1982)
11. Andrew T. Duchowski: Eye Tracking Methodology: Theory and
Practice, School of Computing, Clemson University, Clemson USA
(2017)
12. Qiuzhen Wang, Sa Yang, Manlu Liu, Zike Cao, Qingguo Ma: An
eye-tracking study of website complexity from cognitive load
perspective, School of Management, Zhejiang University, Hangzhou
CHI (2014)
13. Yuan Yuan Qian, Robert J. Theater: The eyes don't have it: an
empirical comparison of head-based and eye-based selection in
virtual reality, Brighton UK, (2017)
14. X. Hou, J. Harel, and C. Koch: Image Signature: Highlighting
Sparse Salient Regions, IEEE Trans. Pattern Anal. Mach. Intell.
(2012)
15. N. Bruce and J. Tsotsos: Saliency Based on Information
Maximization, Proc. Advances in Neural Information Processing
Systems, pp. 155-162, 2006.
16. L. Itti, C. Koch: Computational Modelling Of Visual Attention,
California Institute of Technology, California USA (2001)
Università degli Studi di Catania – Dipartimento di Informatica
88
Stima e valutazione di Mappe di Salienza
17. L. Itti, C. Koch, E. Niebur: A Model Saliency-Based of Visual
Attention For Rapid Scene Analysis, California Institute of
Technology, California USA (1998)
18. J. Harel, C. Koch, and P. Perona: Graph-Based Visual Saliency,
Proceedings of Neural Information Processing Systems NIPS, (2006)
Università degli Studi di Catania – Dipartimento di Informatica
89
Stima e valutazione di Mappe di Salienza
11. Sitografia
[a] - https://www.mathworks.com/help/images/ref/corr2.html
[b] - https://en.wikipedia.org/wiki/Receiver_operating_characteristic
[c] - https://unity3d.com
[d] - https://getfove.com
[e] - https://github.com/FoveHMD/FoveUnitySample