1 Rendering spaziale sonoro mediante ricostruzione stereo Università degli studi di Verona Facoltà...
-
Upload
cesarina-perini -
Category
Documents
-
view
217 -
download
1
Transcript of 1 Rendering spaziale sonoro mediante ricostruzione stereo Università degli studi di Verona Facoltà...
1
Rendering Rendering spaziale sonoro spaziale sonoro mediante ricostruzionemediante ricostruzione
stereostereo
UniversitUniversitàà degli studi di Verona degli studi di VeronaFacoltFacoltàà di Scienze MM. FF. NN. di Scienze MM. FF. NN.Corso di Laurea in InformaticaCorso di Laurea in Informatica
Candidato:Candidato:
Sartor LucaSartor Luca
Relatore:Relatore:Vittorio MurinoVittorio Murino
Correlatori:Correlatori:Andrea FusielloAndrea Fusiello
Davide Davide RocchessoRocchesso
2
SommarioSommario
MotivazioniMotivazioni
Architettura del sistemaArchitettura del sistema
Analisi visuale della scenaAnalisi visuale della scena
Spazializzazione sonoraSpazializzazione sonora
Risultati e conclusioniRisultati e conclusioni
3
MotivazioniMotivazioni
Creare uno strumento che produca Creare uno strumento che produca
in tempo reale uno spazio sonoro in tempo reale uno spazio sonoro
tridimensionale virtuale che tridimensionale virtuale che
rispecchi la scena reale, analizzata rispecchi la scena reale, analizzata
tramite una telecamera stereo.tramite una telecamera stereo.
ApplicazioneApplicazione: ausilio ai non vedenti: ausilio ai non vedenti
4
MotivazioniMotivazioni
La maggior parte delle informazioni che La maggior parte delle informazioni che una persona riceve dall’ambiente una persona riceve dall’ambiente circostante derivano dalla vista.circostante derivano dalla vista.
La mancanza della vista è la menomazione La mancanza della vista è la menomazione pipiùù limitante. limitante.
Il suono non richiede un’attenzione Il suono non richiede un’attenzione focalizzata per essere percepito.focalizzata per essere percepito.
E’ difficile generare suoni in maniera tale E’ difficile generare suoni in maniera tale che riescano a fornire informazioni utili.che riescano a fornire informazioni utili.
5
Architettura del sistemaArchitettura del sistema
Il sistema si basa su una Il sistema si basa su una telecamera stereo.telecamera stereo.
Dopo avere acquisito la Dopo avere acquisito la scena, vengono individuati i scena, vengono individuati i principali ostacoli in essa principali ostacoli in essa presenti.presenti.
Tali ostacoli vengono Tali ostacoli vengono spazializzati spazializzati tridimensionalmente, tridimensionalmente, quindi sonificati in cuffia.quindi sonificati in cuffia.
6
StereopsiStereopsi Per ricostruire la scena, si esaminano le disparità, Per ricostruire la scena, si esaminano le disparità,
ovveroovvero le le differenze tra le immagini destra e sinistra differenze tra le immagini destra e sinistra acquisite dalle due telecamere.acquisite dalle due telecamere.
Tale disparità ci permette di calcolare la profondità Tale disparità ci permette di calcolare la profondità reale del punto esaminato.reale del punto esaminato.
Il principale problema è quello delle corrispondenze, Il principale problema è quello delle corrispondenze, ovvero stabilire quale punto dell’immagine di destra ovvero stabilire quale punto dell’immagine di destra corrisponde ad un particolare punto dell’immagine di corrisponde ad un particolare punto dell’immagine di sinistra.sinistra.
7
StereopsiStereopsi
Eseguendo lo stesso processo per tutti i Eseguendo lo stesso processo per tutti i punti, è possibile ricostruire punti, è possibile ricostruire integralmente la scena esaminata.integralmente la scena esaminata.
Per semplificare la ricerca di un punto Per semplificare la ricerca di un punto nell’altra immagine si sfrutta il nell’altra immagine si sfrutta il vincolo vincolo epipolareepipolare, ovvero ogni punto deve , ovvero ogni punto deve giacere su una retta, detta retta giacere su una retta, detta retta epipolare, nell’altra immagine .epipolare, nell’altra immagine .
8
Ricostruzione della scenaRicostruzione della scena
Per semplificare la successiva fase di Per semplificare la successiva fase di sonificazione, è possibile utilizzare tre sonificazione, è possibile utilizzare tre differenti modalità :differenti modalità :
- Tutta la scena- Tutta la scena
- Solo - Solo gli ostacoli vicinigli ostacoli vicini
- Solo - Solo gli ostacoli distantigli ostacoli distanti
9
SonificazioneSonificazione
Tramite la sonificazione, un suono viene Tramite la sonificazione, un suono viene posizionato in uno spazio virtuale, e percepito posizionato in uno spazio virtuale, e percepito come proveniente da una posizione nello spazio come proveniente da una posizione nello spazio reale.reale.
Gli indizi principali per determinare la Gli indizi principali per determinare la posizione di un oggetto sono:posizione di un oggetto sono:
- il volume ed il riverbero per la distanza- il volume ed il riverbero per la distanza
- il tempo di ritardo (ITD) e la differenza di - il tempo di ritardo (ITD) e la differenza di volume tra le due orecchie per la posizione volume tra le due orecchie per la posizione orizzontale orizzontale
10
Modello strutturaleModello strutturale
Si Si èè scelto di utilizzare il modello ideato scelto di utilizzare il modello ideato da C. P. Brown e R. Duda, diviso in tre da C. P. Brown e R. Duda, diviso in tre blocchi funzionali:blocchi funzionali:
Testa, che contribuisce con l’Testa, che contribuisce con l’head shadowhead shadow Spalle e torso che causano la formazione Spalle e torso che causano la formazione
di un’di un’ecoeco Pinne che forniscono ulteriori Pinne che forniscono ulteriori echi echi
supplementarisupplementari
Head ShadowHead Shadow ITDITD
SpalleSpalle
Eco pinnaEco pinna
EcoEco pinnapinna
++
++ OutputOutput
11
Scelte implementativeScelte implementative
Per rendere il suono più naturale, si Per rendere il suono più naturale, si èè deciso deciso di aggiungere un’ulteriore eco riverberante, di aggiungere un’ulteriore eco riverberante, che simula una parete posta circa 3 metri che simula una parete posta circa 3 metri dietro l’ascoltatore.dietro l’ascoltatore.
Per rappresentare meglio l’elevazione, Per rappresentare meglio l’elevazione, è è stato aggiunto un ulteriore ritardo derivante stato aggiunto un ulteriore ritardo derivante dalle spalle. dalle spalle.
I suoni utilizzati non sono generati tramite I suoni utilizzati non sono generati tramite funzioni matematiche, ma sono stati funzioni matematiche, ma sono stati precampionati.precampionati.
12
Suoni utilizzatiSuoni utilizzati
I suoni precampionati vengono generati I suoni precampionati vengono generati tramite il pacchetto “impact modal”, tramite il pacchetto “impact modal”, che fa parte del progetto che fa parte del progetto SoundingObject, sviluppato in SoundingObject, sviluppato in linguaggio linguaggio pure data pure data (PD).(PD).
Simulazione di impatto
Gomma
Legno
Vetro
Metallo
Dimensione oggetto
Suono da spazializzare
13
ImplementazioneImplementazione L’interfaccia grafica del progetto L’interfaccia grafica del progetto èè stata stata
realizzata tramite il pacchetto realizzata tramite il pacchetto FLTKFLTK in in linguaggio linguaggio C++C++. .
L’analisi della scena, la ricostruzione L’analisi della scena, la ricostruzione tridimensionale e i successivi filtri sono stati tridimensionale e i successivi filtri sono stati realizzati in linguaggio realizzati in linguaggio CC..
Per produrre gli adeguati output sonori, si Per produrre gli adeguati output sonori, si utilizza utilizza C-soundC-sound, che rimane in attesa di , che rimane in attesa di leggere nuove linee da un file di pipeline, che leggere nuove linee da un file di pipeline, che viene scritto dalla parte precedente.viene scritto dalla parte precedente.
Interfaccia graficaInterfaccia grafica
C++C++
CoreCore
CCOutput sonoroOutput sonoro
C-SoundC-Sound
14
RisultatiRisultati
15
Vantaggi del sistemaVantaggi del sistema
Tra i vantaggi va ricordata la Tra i vantaggi va ricordata la semplicitàsemplicità della della struttura risultante ed il basso costo finale.struttura risultante ed il basso costo finale.
Il sistema complessivamente risulta Il sistema complessivamente risulta facile da facile da utilizzareutilizzare e piuttosto intuitivo. e piuttosto intuitivo.
Non Non è è invasivoinvasivo,, e può essere usato e può essere usato immediatamente senza particolari problemi o immediatamente senza particolari problemi o procedure.procedure.
Non esistono vincoliNon esistono vincoli sulle scene da sonificare, sulle scene da sonificare, tranne quelli dovuti alla scarsa illuminazione tranne quelli dovuti alla scarsa illuminazione o alla bassa risoluzione delle telecamere.o alla bassa risoluzione delle telecamere.
16
Sviluppi futuriSviluppi futuri
Migrazione del codice su calcolatore Migrazione del codice su calcolatore palmare (iPAQ 3760).palmare (iPAQ 3760).
Telecamera digitale a colori.Telecamera digitale a colori. Studio di usabilità con soggetti non-Studio di usabilità con soggetti non-
vedenti.vedenti.
Sponsorizzato da HP Philantropic, progetto Sounding LandscapeSponsorizzato da HP Philantropic, progetto Sounding Landscape
17
FINEFINE
18
Problemi delle Problemi delle corrispondenzecorrispondenze
Occlusioni: esistono parti della tesi che sono inquadrate Occlusioni: esistono parti della tesi che sono inquadrate da una sola delle due telecamere. Tali punti non hanno da una sola delle due telecamere. Tali punti non hanno corrispondenti nell’altra immagine.corrispondenti nell’altra immagine.Distorsione proiettiva: un oggetto si proietta in modo Distorsione proiettiva: un oggetto si proietta in modo diverso nelle due telecamere quanto più le due telecamerediverso nelle due telecamere quanto più le due telecameresono distanti.sono distanti.
19
VincoliVincoli
Di somiglianza: un particolare appare simile nelle dueimmagini (spesso è implicito).Epipolare: il punto coniugato giace sulla retta epipolare.Di continuità: lontano dai bordi, la profondità dei punti di una superficie varia lentamente.Unicità: un punto nell’immagine di sinistra può esseremesso in corrispondenza con un solo punto nell’immaginedi destra, e viceversa.
20
TriangolazioneTriangolazione
La disparitLa disparità è inversamente proporzionale alla profondità, secondo la formula:
D= b f r
dove d è la disparitdisparità, b la baseline della telecamera stereo, f la lunghezza focale della telecamera e r la distanza dell’oggetto dal piano immagine.
21
Telecamera stereoTelecamera stereo