I uaderni di - Gamification Lab...

34
I quaderni di A cura di Alberto Mucci Cresce la multimodalità nella comunicazione La multimodalità sta crescendo, nel contesto di una comunicazione che progressivamente si amplia e allarga i propri orizzonti. Ma prima di fare il punto, con questo “Quaderno”, su cosa è cambiato e su cosa sta cambiando in questo settore, è bene chiarire alcuni concetti base. Primo: la comunicazione “in presenza”, cioè faccia a faccia è stata, ed è, sempre multimodale perché ha abbracciato tutti i canali con cui si può comunicare (la parola, i gesti, le immagini, il tatto, gli odori). Secondo: la comunicazione a distanza (di luogo e di tempo) è nata unimodale, perché basata solo sulla scrittura. Gli stessi mezzi di comunicazione moderna (telegrafo, telefono, ecc.) sono stati inizialmente unimodali. Solo con l’avvento prima del cinema poi della televisione si attua una vera e propria rivoluzione: si comunica contemporaneamente in più modi, utilizzando diversi strumenti. Parte da qui, da questa nuova frontiera, la multimodalità, che sta prendendo crescente spazio operativo in questi anni. Si utilizzano contemporaneamente strumenti diversi oggi per comunicare, si coniuga audio, video e testo. Si delinea la possibilità di aggiungere agli strumenti citati il tatto e l’odorato (le sperimentazioni si stanno sviluppando). Il telefono per anni è stato solo voce. Adesso è allo stesso tempo voce, immagine, testo (Sms). Nelle trasmissioni televisive si dialogava fino a ieri solo via audio. Oggi si utilizzano nello stesso tempo Internet e “messaggini”… Altri esempi, letti in prospettiva. Nelle aule giudiziarie l’utilizzo di testi scritti viene sempre più integrato con l’audio-video. Nei giochi si arriva ad introdurre la sensazione tattile. Il “naso artificiale” per utilizzare l’olfatto è dietro l’angolo… Le frontiere della comunicazione non sembrano avere limiti. La civiltà è cominciata con il disegno, con i ben noti disegni rupestri, primo mezzo di comunicazione a distanza. Il fuoco sulla cima di un monte è stato sostituito da altri mezzi sempre più sofisticati e innovativi. Il lento procedere è diventato una corsa, imposta dai ritmi che condizionano la società della comunicazione. Supplemento al numero 244 di marzo 2007 di

Transcript of I uaderni di - Gamification Lab...

I quaderni di A cura di Alberto Mucci

Cresce la multimodalitànella comunicazioneLa multimodalità sta crescendo,

nel contesto di una comunicazione

che progressivamente si amplia e allarga

i propri orizzonti. Ma prima di fare

il punto, con questo “Quaderno”,

su cosa è cambiato e su cosa

sta cambiando in questo settore,

è bene chiarire alcuni concetti base.

Primo: la comunicazione “in presenza”,

cioè faccia a faccia è stata,

ed è, sempre multimodale perché

ha abbracciato tutti i canali con cui

si può comunicare (la parola, i gesti,

le immagini, il tatto, gli odori).

Secondo: la comunicazione a distanza

(di luogo e di tempo) è nata unimodale,

perché basata solo sulla scrittura.

Gli stessi mezzi di comunicazione

moderna (telegrafo, telefono, ecc.)

sono stati inizialmente unimodali.

Solo con l’avvento prima del cinema

poi della televisione si attua una vera

e propria rivoluzione: si comunica

contemporaneamente in più modi,

utilizzando diversi strumenti.

Parte da qui, da questa nuova frontiera,

la multimodalità, che sta prendendo

crescente spazio operativo in questi anni.

Si utilizzano contemporaneamente

strumenti diversi oggi per comunicare,

si coniuga audio, video e testo.

Si delinea la possibilità di aggiungere

agli strumenti citati il tatto e l’odorato

(le sperimentazioni si stanno sviluppando).

Il telefono per anni è stato solo voce.

Adesso è allo stesso tempo voce,

immagine, testo (Sms). Nelle trasmissioni

televisive si dialogava fino a ieri solo

via audio. Oggi si utilizzano nello stesso

tempo Internet e “messaggini”…

Altri esempi, letti in prospettiva. Nelle aule

giudiziarie l’utilizzo di testi scritti viene

sempre più integrato con l’audio-video.

Nei giochi si arriva ad introdurre

la sensazione tattile. Il “naso artificiale”

per utilizzare l’olfatto è dietro l’angolo…

Le frontiere della comunicazione

non sembrano avere limiti.

La civiltà è cominciata con il disegno,

con i ben noti disegni rupestri, primo

mezzo di comunicazione a distanza.

Il fuoco sulla cima di un monte è stato

sostituito da altri mezzi sempre più

sofisticati e innovativi. Il lento procedere

è diventato una corsa, imposta dai ritmi

che condizionano la società

della comunicazione.

Supplemento al numero 244 di marzo 2007 di

S O N O U S C I T I N E L 2 0 0 5 / 2 0 0 6 :

La sfida sicurezza nella società dell’informazione OTTOBRE

L’attività spaziale italiana ha molti punti di eccellenza NOVEMBRE

Le sfide 2006 della Tecnologia della lingua DICEMBRE 2005/GENNAIO

Tv, dati e telefono si fondono sempre di più FEBBRAIO

D-cinema dalla pellicola al file MARZO

Il “punto” sulla firma digitale in Italia APRILE

La casa digitale apre nuove porte MAGGIO

Politica industriale e terrorismo: l’importanza dell’“intelligence” GIUGNO

La TV ad Alta Definizione sul trampolino di lancio LUGLIO/AGOSTO

Accesso radio: wimax in “pole position” SETTEMBRE

E ora siamo nell’epoca del “TUTTOFONINO” OTTOBRE

Il digitale offre al cinema nuovi spazi di diffusione NOVEMBRE

La domanda di comunicazione chiede di aggiornare Internet DICEMBRE 2006/GENNAIO

Modelli di business per le tv locali FEBBRAIO

Con la multimodalità si moltiplicano le informazioni

e-Learning multimodale

La multimodalità nell’intrattenimento e nelle simulazioni digitali

L’avvento del multimodale: la voce fa la sua comparsa sul web e sulle applicazioni

Tecnologie vocali e multimodalità: soluzioni per servizi avanzati

La resocontazione multimodale

2005

2005

2006

2006

2006

2006

2006

2006

2006

2006

2006

2006

2007

2007

??

Ind

ice

Il quaderno di Telèma è stato realizzato dalla Fondazione Ugo Bordoni

(Presidente il Prof. Giordano Bruno Guerri, Direttore Generale il Consigliere Guido Salerno

Aletta, Direttore delle Ricerche l’ing. Mario Frullone).

Coordinatore del Quaderno: Andrea Paoloni.

Hanno collaborato: Cristina Delogu, Fondazione Ugo Bordoni; Francesco Lutrario,

Infobyte, Università degli Studi di Milano; Fabrizio Gramuglio, DotVocal;

Paolo Baggia, Silvia Mosso, Loquendo; Fausto Ramondelli, Senato della Repubblica.

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

3

Con la multimodalità si moltiplicano le informazioni

Comunicare significa trasmettere infor-mazioni, notizie da un luogo ad un al-tro, da una persona ad un’altra perso-

na, da un tempo ad un altro tempo. Un pro-cesso di comunicazione implica l’emissione ericezione di segni che vengono prodotti da va-riazioni di energia di qualsiasi genere. Il primotipo di comunicazione è stato certamente lacomunicazione in presenza, faccia a faccia.Questo “modo” di comunicare fa uso di diver-si canali che corrispondono ai nostri sensi. L’or-ganismo umano dispone di due sistemi di emit-tenza, quello motorio e quello fonatorio e tresistemi di ricezione, il sistema uditivo, quellovisivo e quello tattile. Nella comunicazione ol-tre alla voce ha grande rilievo l’immagine, nonsolo per comprendere la situazione in cui leinformazioni vocali si inseriscono, ma ancheper valutare la reazione emotiva che la perso-na con la quale comunichiamo lascia affiorarenell’espressione del suo viso e nell’atteggia-mento del suo corpo. Anche gli odori svolgo-no un ruolo comunicativo importante, nono-stante la limitata sensibilità dell’uomo alle sti-molazioni di questa natura. Infine il tatto forni-sce ulteriori informazioni utili.Per meglio comprendere come queste diver-se modalità interagiscano tra loro, può essereutile l’esempio dell’acquisto di un auto: il ven-ditore ci parla, informandoci sul prezzo e sul-le prestazioni della vettura (voce), noi la osser-viamo, ne valutiamo l’aspetto, siamo affasci-nati dal disegno e dai colori (immagini), toc-chiamo la sua tappezzeria (tatto) e ne sentia-mo il profumo (olfatto). Che il profumo siaimportante nell’insieme delle informazioni lodimostra il fatto che i venditori di auto usatecurano che la pelle dei sedili sia spruzzata diparticolari “deodoranti” che diano alla vetturail “profumo di auto nuova”. Lo sviluppo di un linguaggio richiede il domi-nio del tempo e dello spazio, nel senso che sideve ricordare l’informazione ricevuta e si devetrasmetterla a distanza. L’uomo è in grado diricordare e può muoversi per portare il mes-

saggio in un altro luogo. Il messaggero, figuramitica del tempo antico, svolgeva proprio il ruo-lo di portare in luoghi distanti il messaggio cheaveva memorizzato. La scrittura è stata la prima invenzione che harisolto il problema di rendere duraturo il mes-saggio; con l’invenzione della scrittura il mes-saggero non doveva più memorizzare il mes-saggio con le esatte parole dell’emittente, erasufficiente che trasportasse il testo che gli erastato affidato. In un successivo paragrafo siapprofondirà lo studio di questa modalitàcomunicativa, ora ritorniamo alla storia dellacomunicazione a distanza, ricordando alcuniingegnosi sistemi utilizzati nell’antichità. I Cartaginesi usavano il telegrafo idraulico, checonsisteva in due vasi cilindrici uguali (uno tra-smittente ed uno ricevente) posizionati su duetorri. I vasi erano riempiti d’acqua; al centrogalleggiava un’asta verticale sulla quale eranotracciati segni convenzionali (Fig. 1). Quandosi doveva comunicare, si apriva un foro prati-cato alla base del vaso; si svuotava o si pom-pava acqua facendo emergere l’asta fino alpunto desiderato. Le segnalazioni di inizio efine trasmissione si facevano con sventolio dibandiere o fiaccole. I romani utilizzavano una rete di fuochi sulletorri durante la notte, che permetteva a GiulioCesare di comunicare con la capitale dal piùremoto accampamento nelle Gallie. Questisistemi avevano l’inconveniente di richiedereche due successive stazioni fossero tra lorovisibili e questo ne limitava la distanza e l’affi-dabilità. Bastava una fitta pioggia o un bancodi nebbia ad interrompere il collegamento.Questi sistemi di comunicazione a distanzarimasero le sostanzialmente invariati per migliaiadi anni: il messaggio camminava sulle gambedi un uomo ed aveva la sua stessa velocità.Nel 1800 si aprì un secolo durante il quale lacomunicazione ebbe una importante rivoluzio-ne: nel 1838 il telegrafo riuscì a risolvere ancheil secondo problema, quello dello spazio, scol-legando la velocità della notizia dalla velocità

dell’uomo. Nel 1871 l’invenzione del telefono,ad opera dell’italiano Meucci, permise ad unaltro modo comunicativo, la voce, di superarela barriera della distanza. Questi due media, aiquali nel 1896 si affiancò la radio, resero il mon-do più piccolo e riportarono l’oralità al centrodella comunicazione. Tuttavia ciascun medium

4 I quaderni di

utilizzava un solo modo comunicativo: il tele-grafo la scrittura, il telefono e la radio la voce.Solo nel ventesimo secolo, con l’avvento e ladiffusione del cinema (1892) e della televisio-ne (1925), le immagini si affiancarono alla vocee la comunicazione divenne multimodale.

La scritturaTra i modi di comunicare a distanza di luogo edi tempo la scrittura è certamente il più anticoe forse quello di maggior rilievo. Per molti mil-lenni le informazioni viaggiarono solamente informa di messaggi di testo, corredati al più conqualche disegno (immagine). A voler essere più precisi vi è da dire che,secondo coloro che studiano l’origine dellascrittura, è proprio l’immagine, o per megliodire i disegni rupestri di epoca neandertaliana(20.000 a.C.) il primo mezzo di comunicazio-ne a distanza conosciuto dall’uomo e la suagrande efficacia è provata dal fatto che il mes-saggio in esso contenuto è arrivato sino a noi. Successiva ai pittogrammi è la scrittura ideo-grafica, cosi detta perché basata sulla rappre-sentazione stilizzata di concetti, non legati adun particolare suono. La scrittura nacque intorno all’anno 3000 a.C.e provocò importanti mutamenti nel modo dipensare degli uomini. Il passaggio dalla cultura orale a quella scrittaha costituito un discrimine importante per mol-teplici ragioni. La scrittura non è, né può esse-re, una mera registrazione su un supporto(medium) di quello che avremmo detto. Lascrittura prevede una riorganizzazione del pen-siero, è un modo diverso di esprimersi. Con lascrittura venne meno la necessità dei poemi inrima, che costituivano e costituiscono il baga-glio culturale delle società basate sull’oralità.Il medium usato dalla scrittura è stato prevalen-temente la carta, assimilando ad essa sia il papi-ro, una sorta di carta naturale, sia la pergamena,ricavata da pelli animali, l’altro medium utilizzatoda sempre è la pietra. I due media hanno in gene-re funzioni diverse, la carta destinata a comuni-cazioni interindividuali, la pietra a comunicazionipubbliche per celebrare eventi fausti, quali la vit-toria sui nemici (si pensi alla stessa stele di Roset-ta o alla colonna Traiana, o ai riti funebri.

CON LA MULTIMODALITÀ SI MOLTIPLICANO LE INFORMAZIONI

TABELLA 1. STORIA DELLE COMUNICAZIONI.

FIGURA 1. TELEGRAFO AD ACQUA.

PITTOGRAMMA

SCRITTURA

STAMPA

TELEGRAFO

MACCHINA PER SCRIVERE

TELEFONO

CINEMATOGRAFO

RADIO

TELEVISIONE

CALCOLATORE (ENIAC)

MOUSE

MACINTOSH

CELLULARE

30.000 A.C.

3.000 A.C.

1456 D.C.

1832 D.C.

1868 D.C.

1871 D.C.

1892 D.C.

1895 D.C.

1925 D.C.

1946 D.C.

1968 D.C.

1984 D.C.

1990 D.C.

Cronologia dei sistemi di comunicazione

L’evento, successivo all’invenzione della scrit-tura, che ha mutato profondamente il modo dicomunicare è l’invenzione della stampa. In tem-pi molto più recenti due nuove invenzioni sisono segnalate per l’impatto che hanno avu-to sulla società: l’avvento della macchine perscrivere (1875), del computer (1948) comemedium di scrittura e il messaggio SMS.L’uso degli SMS, gli ormai noti “messaggini”,ha codificato una nuova modalità di comuni-care che, come è ben noto, fa uso del medium“telefono”. Senza voler entrare in dettagli diremo che gliSMS hanno creato un particolare linguaggioanche grazie all’uso di un particolare sistemadi scrittura assistita, denominato T9, volto afacilitare la scrittura di una frase minimizzandoil numero di digitazioni necessarie.

L’immagineL’immagine ha rappresentato per millenni unmodo per ricordare persone ed eventi ed haavuto un ruolo molto importante nelle religio-ni per rappresentare allegoricamente le imma-gini degli dei. L’importanza delle immagini neiriti è attestata dal fatto che sulla rappresenta-bilità o meno del sacro (iconoclasia) avvenneuno scisma. Le immagini in passato non svolgevano pro-priamente un compito comunicativo ma piut-tosto un compito espressivo, artistico. Le rap-presentazioni pittoriche hanno un ruolo nellamemorizzazione di eventi e personaggi: la mag-gior parte delle informazioni che abbiamo sul-l’aspetto fisico dei grandi uomini del passatolo dobbiamo ai dipinti. Solo dopo le invenzio-ni della fotografia, del cinema e della televisio-ne, tutte collocate nella prima metà del seco-lo XX, alla trasmissione della voce si è affian-cata la trasmissione delle immagini. I nuovimedia, cinema e televisione, sono sistemi ditrasmissione multimodali, nel senso che fan-no uso contemporaneo di immagine suono etesto. Si dice che la nostra sia la società del-l’immagine e l’immagine è stata introdottaanche nei computer e nei telefoni al fine di ren-derne più agevole l’uso. I primi elaboratori numerici utilizzavano comeentrata schede perforate, tasti alfanumerici (Fig.

2) e bobine di nastro magnetico e come usci-ta le stampanti ad aghi. Questa tipologia disistemi di entrata e uscita durò sino agli anniottanta quando fecero il loro ingresso i moni-tor, sorta di televisori alfanumerici dotati ditastiera del tutto analoga a quella della mac-china per scrivere. Nel 1984 nacque il PC Macintosh (vedi figu-ra 3) dotato di interfaccia grafica e orientatoall’uso dell’interazione “tattile”, il mouse. L’immagine è anche entrata in quel sistemamonomodale per eccellenza che è sempre sta-

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

5

FIGURA 2. SCHEDE PERFORATE.

to il telefono. Per molti anni si era cercato diintrodurre l’immagine nei collegamenti telefo-nici fissi ma l’unico risultato era stato la proli-ferazione di barzellette legate alla necessità di“acconciarsi” per rispondere ad una telefona-ta. L’esplosione della multimodalità nella telefo-nia è legata all’uso dei cellulari e al desideriodi scambiarsi immagini, spesso censurabili.Oggi lo strumento “telefono cellulare” è multi-modale, nel senso che comunica con imma-gini, suono e testi, ma è anche propriamentemultimediale in quanto può funzionare cometelefono, come computer, come televisore,come “telegrafo” (gli SMS), come macchinafotografica e come cinepresa.

L’olfatto ovvero il naso elettronicoMentre si moltiplicano le applicazioni della mul-timodalità che fanno uso dei canali tradiziona-li rappresentati da testo, immagini e segnaliaudio, la ricerca è volta a consentire la trasmis-sione a distanza di altre modalità comunicati-ve, tra le quali gli odori. L’uomo non ha una

6 I quaderni di

particolare sensibilità olfattiva e nell’uso delsenso dell’olfatto viene superato da quasi tut-ti i mammiferi; in particolare, come è noto, dalcane, tuttavia l’introduzione di questo nuovocanale può rappresentare un imprtantre acqui-sizione. Gli studi in atto vertono su entrambele interfacce: l’analisi degli odori, il naso artifi-ciale, e la generazione degli odori.Il sensore degli odori, il naso artificiale, è costi-tuito da una camera nella quale l’aria vienead avere un percorso laminare che lambisceotto sensori di una particolare sostanza chi-mica denominata metalloporfirina La “rivela-zione”, cioè la decodificazione dei diversi odo-ri, avviene perché sui sensori di quarzo sidepositano le molecole odorose grazie allametalloporfirina, così i sensori si appesanti-scono e cambiano la loro frequenza di oscil-lazione (Fig. 4). Il processo di “taratura” dello strumento avvie-ne sulla base del test di olfattometria dinami-ca. In pratica, un gruppo di “rinoanalisti” incarne ed ossa “annusa” l’aria contaminata dal-l’odore, diluita con aria pulita fino a che l’odo-re scende sotto la soglia di percezione. Sta-bilire il numero di diluizioni necessarie affinchéquesto avvenga significa misurare la concen-trazione di odore secondo la norma europeaEN 13725:2003; questi stessi campioni ven-gono poi utilizzati per la taratura del sistemaelettronico.Le possibili applicazioni di un naso artificialevanno dal controllo della qualità degli alimen-ti, in particolare del loro stato di conservazio-ne, alla valutazione delle sostanze inquinantinell’atmosfera. Un’applicazione particolarmen-te interessante potrebbe aversi in medicina,in quanto molte malattie sarebbero riconosci-bili per le modificazioni che generano all’odo-re corporeo e pertanto la sua analisi potreb-be fornire elementi di diagnosi particolarmen-te non invasivi.Nel campo della valutazione dello stato di con-servazione degli alimenti sono state messe allaprova le capacità del naso elettronico di indi-viduare se un pesce è fresco o meno e doveè stato pescato o allevato. Capacità predittiveche raggiungono anche il 100 per cento perspigole e orate. Ma l’applicazione che più inte-ressa la comunicazione multimodale è la tra-

CON LA MULTIMODALITÀ SI MOLTIPLICANO LE INFORMAZIONI

FIGURA 3. IL MACINTOSCH, PERSONAL

COMPUTER INNOVATIVO.

smissione degli odori da un luogo ad un altro,ad esempio tramite il medium costituito dainternet. Il naso artificiale consente di codifica-re l’odore in dati numerici che vengono tra-smessi ad un generatore di odori che mesco-lando gli odori fondamentali ottiene il risultato.

Comunicazioni tattiliIl senso del tatto è perfettamente in grado disvolgere le funzioni comunicative come dimo-

stra il suo uso, da parte dei non vedenti, maha il forte limite di richiedere un contatto lo fisi-co diretto e pertanto è scarsamente utilizzabi-le nelle relazioni sociali. L’impiego più noto nel campo della trasmis-sione di informazioni è nella lettura del codi-ce braille. Fu infatti Luis Braille, un non veden-te, che nel 1929 mise a punto un alfabeto tat-tile basato su una matrice di sei punti checodificavano, essendo o meno in rilievo, le let-

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

7

FIGURA 4. IL NASO ARTIFICIALE.

Il naso elettronico

tere a alfabeto. I punti vengono impressi conun punteruolo e letti con i polpastrelli. Attual-mente i non vedenti fanno uso di due metodilettura, quello basato sul codice braille e quel-lo che fa uso della sintesi della voce. I duediversi approcci soddisfano differenti neces-sità e raggiungono risultati assai diversi traloro. La lettura con sintesi vocale è parago-nabile all’ascolto di una cassetta magnetica.Col braille, invece, ci si muove in modo piùsimile alla lettura ottica: la velocità, le pause,le fermate, possono essere regolate dal letto-re come lui desidera. Inoltre non tutti i non vedenti usano il brailleperchè la lettura del braille richiede un partico-lare sviluppo della sensibilità del polpastrelloche avviene solo se si apprende la tecnica dilettura nel periodo della scuola elementare.Inoltre i display braille hanno un costo elevato,che supera i 4000 euro. Per aiutarsi maggior-mente, i non vedenti utilizzano spesso entram-bi i metodi di lettura: la sintesi vocale per testisemplici e scorrevoli, il braille per testi com-plessi e durante la scrittura.

Il senso del tatto viene inoltre utilizzato nellemappe tattili, studiate per favorire l’orientamen-to e la riconoscibilità dei luoghi a chiunque, edin particolare a persone non vedenti ed ipove-denti. Esse rappresentano un utile accorgimen-to per favorire l’accessibilità e la fruibilità di luo-ghi pubblici o aperti al pubblico, dal momen-to che riportano indicazioni sia in lettere che inalfabeto Braille. Ma come abbiamo detto, il tatto viene ancheutilizzato da tutti per aumentare le informazio-ni sulle cose che ci circondano, ad esempionel valutare le stoffe. Inoltre uno degli strumen-ti normalmente utilizzato per comunicare conil computer, il mouse, non è altro che un sen-sore di movimento, legato al senso del tatto.L’introduzione del mouse ha certamenteampliato le modalità di comunicazione tra l’uo-mo e il computer precedentemente limitateall’uso delle immagini e del testoTatto e sensori di movimento sono ancheimpiegati nei comandi dell’auto, per consenti-re al guidatore di mantenere l’attenzione dallastrada quando regola la radio o l’impianto ste-reo, telefona o regola la temperatura interna.

8 I quaderni di

Altre modalità di interazioneOltre alle interfacce di cui abbiamo parlato, pre-valentemente legate ai cinque sensi se si faeccezione per la scrittura che non è ascrivibi-le semplicisticamente al senso della vista, altridispositivi possono intervenire nell’interazioneuomo-computer, ad esempio i dispositivi diinput del genere “eye-tracking” (tracciamentodel movimento dell’occhio). Altri esempi sonopossibili sia utilizzando programmi che traggo-no informazione sui nostri movimenti a partireda telecamere, sia utilizzando sensori girosco-pici, misuratori di pressione, misuratori di con-ducibilità corporea e di frequenza del battitocardiaco, ecc. L’attenzione si sta spostandodalle prestazioni, che spesso si traducono inmaggiori capacità di elaborazione, alle poten-zialità multimodali, alla varietà e flessibilità deidispositivi di controllo. Gli ingombranti joystick,le tastiere e altri apparati che presto conside-reremo oggetti di modernariato.

Multimodalità e multimedialitàNon è facile trovare una definizione precisa checonsenta di distinguere il concetto di multimo-dale da concetto di multimediale. Alcunisostengono che multimedialità comporta lapresenza di diversi elementi di output mentrela possibilità di avere diverse opzioni di inputdefinisce la multimodalità. Rifacendoci all’eti-mologia diremo che multimodale fa riferimen-to al modo di comunicare ovvero scrittura piut-tosto che oralità, immagini piuttosto che infor-mazioni tattili, SMS piuttosto che voce, men-tre multimedialità fa riferimento a un mediumossia un mezzo. Conseguentemente la televi-sione e il cinema sono due media multimoda-li, in quanto comunicano attraverso il suono,attraverso le immagini e talvolta attraverso itesti; la radio invece è un medium monomo-dale in quanto comunica solamente attraver-so il suono ma un programma radiofonico puòessere multimediale in quanto usa oltre almedium radio anche il medium telefono. Unevento sarà multimediale se viene trasmessocon media diversi; ad esempio Sanremo èevento multimediale perchè trasmesso perradio e per televisione, riportato sui giornali edel quale vi sono registrazioni audio e video.

CON LA MULTIMODALITÀ SI MOLTIPLICANO LE INFORMAZIONI

Multimodalità nella roboticaL’uomo si muove nell’ambiente che lo circon-da grazie ai suoi cinque sensi. Se andiamo inautomobile usiamo la vista per controllare ilpercorso, l’udito per sentire cosa accade nel-le vicinanze, i clacson dalle altre auto, il rumo-re di un tram o di una sirena, il tatto per con-trollare la presa sul volante e la posizione deipiedi sui pedali.Tutte queste informazioni sono rese disponi-bili al cervello dagli organi dei sensi e il cervel-lo provvede ad elaborare i dati provenienti daisensi e decidere le azioni da compiere.Anche un robot per poter interagire con l’am-biente ha bisogno di sensori. Se si tratta del braccio meccanico che ese-gue le operazioni di verniciatura delle autosarà sufficiente una telecamera che control-li la posizione dell’auto, ma se immaginiamoil braccio montato su un carrello, in modo datrovare dei pezzi meccanici da montare sul-la vettura, le necessità sensoriali diventanomolto più sofisticate. Al robot serviranno dei sensori per la localiz-zazione degli ostacoli (ad ultrasuoni, alaser,…), un sistema visivo più complesso ingrado di identificare i pezzi in qualunque posi-zione spaziale siano collocati, un sistema chegli consenta di identificare la propria posizio-ne nel magazzino, un sensore che verifichi lostato dell’alimentazione e infine un program-ma in grado di trasformare tutti questi dati inazioni da compiere.Se poi volessimo costruire un robot in gradodi correre per i prati a raccogliere mazzi difiori le difficoltà sarebbero molto superiori aquelle che siamo oggi in grado di affrontare:non sapremmo far correre in un prato unuomo meccanico né sapremmo come fargli

cogliere i fiori. Il problema non è solo dei sen-sori ma certamente è anche dei sensori.

ConclusioniNel presente articolo abbiamo voluto caratte-rizzare le principali modalità di comunicazio-ne utilizzate dall’uomo. Si è potuto vederecome la tecnologia ha reso disponibili diversicanali di comunicazione tra i quali, per lastraordinaria importanza nella vita sociale, ricor-diamo la scrittura, la stampa e il telegrafo.Caratteristiche comuni di questi canali è quel-la di essere monomodali, di rivolgersi ad unsolo senso. Nel ventesimo secolo, con l’av-vento del cinema e della televisione, si è pas-sati alla multimodalità, i nuovi media trasmet-tono informazioni di vario tipo alla vista e all’u-dito. Questa tendenza va via via affermando-si con le interfacce per i computer che utiliz-zano anche il canale tattile e ora anche quel-lo olfattivo. Altri sensori ancora vengono uti-lizzati nelle simulazione e nei giochi al compu-ter. Maggiori dettagli sono disponibili in un altroarticolo del presente quaderno dedicato pro-prio ai giochi multimodali.Anche il telefono, nato monomodale, è oggidiventato un medium multimodale, in gradodi offrire impieghi di diversa natura. Sugliimpieghi della multimodalità sono disponibi-li altri contributi relativi all’e-learning e alleapplicazioni web. L’espansione delle modalità di interfaccia per-mette di interagire meglio e più facilmente conil resto del mondo, ma rischia di saturare l’uo-mo con troppe informazioni rendendoci diffi-cile la gestione delle stesse.

Andrea Paoloni Fondazione Ugo Bordoni

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

9

Per e-learning multimodale si intende unambiente di apprendimento che, avva-lendosi soprattutto delle tecnologie di re-

te, consente l’accesso a molteplici risorse edesperienze di condivisione e collaborazione inappositi spazi virtuali, utilizzando diverse moda-lità di comunicazione tra gli utenti e tra l’ambien-te e gli utenti. La multimodalità è ovviamente associata allamultimedialità: la multimodalità si riferisce spe-cificatamente alle modalità di input dell’intera-zione, mentre la multimedialità sottolinea la pre-senza contemporanea di più meccanismi di out-put (audio, video, ecc.). In questo articolo, cercherò di allargare il con-cetto di e-learning multimodale considerando-lo come un nuovo modo di apprendere basatosull’esperienza, e quindi più vicino a quello cheavviene nella vita di tutti i giorni, dove chi impa-ra interagisce con i diversi aspetti della realtà,ne fa esperienza diretta, nel senso che li vede,li sente, li tocca, agisce su di essi e osserva glieffetti delle sue azioni, fa previsioni e ipotesi sudi essi (per lo più inconsapevolmente) e verificase queste previsioni e ipotesi sono corrette, limanipola per i suoi scopi pratici con maggioreo minore successo (Piaget 1989).Finora, nonostante l’introduzione delle nuovetecnologie, la multimodalità e la multimedialitànell’e-learning si sono limitate all’aggiunta di gra-fici, figure e filmati ai materiali linguistici dellelezioni tradizionali, lasciando al linguaggio unruolo centrale e cruciale come strumento diconoscenza, comprensione e apprendimento.Tradizionalmente l’apprendimento e la forma-zione avvengono usando in maniera quasi esclu-siva il canale del linguaggio verbale. Allo studen-te si chiede, fondamentalmente, di ascoltarelezioni, leggere testi, prendere appunti da lezio-ni o da testi, ripetere e memorizzare testi, pro-durre testi, fare esercizi che richiedono l’uso dellinguaggio verbale, rispondere a domande del-l’insegnante, partecipare a discussioni. Tuttequeste attività hanno in comune il fatto che inesse viene sempre usato il linguaggio comecanale di comunicazione e di apprendimento eche lo studente è chiamato ad imparare usan-

10 I quaderni di

do le sue capacità verbali e in funzione del suolivello di possesso di tali capacità. Il ruolo di altricanali non verbali, quali figure, schemi, tabelle,grafici, è per lo più marginale e fortemente dipen-dente dal linguaggio. Questa situazione non è cambiata di molto conl’avvento delle nuove tecnologie digitali. Il linguag-gio verbale, nonostante il ruolo centrale che gli èstato assegnato tradizionalmente nell’ambito deiprocessi formativi, ha considerevoli limiti dal pun-to di vista dell’apprendimento, e questi limiti sonooggi particolarmente visibili in una società in cuile immagini hanno conquistato un ruolo così cen-trale nella comunicazione. I limiti riguardano: ilpiano motivazionale, dato che apprendere ope-rando soltanto al livello delle parole può esserespesso poco motivante; il piano delle precondi-zioni necessarie per l’apprendimento, dato cheapprendere attraverso il linguaggio presupponeadeguate capacità linguistiche nello studente,che possono mancare; il piano della compren-sione dei contenuti formativi, dato che il linguag-gio può portare ad apprendimenti superficiali,appunto soltanto verbali ma privi di comprensio-ne; il piano del ricordo e della integrazione di ciòche si è appreso nelle conoscenze e nelle abilitàgià esistenti nello studente.Una multimodalità e una multimedialità comple-te, possibili grazie ai nuovi media digitali, nonsolo possono consentire di apprendere anchea persone che non hanno necessariamente unagrande familiarità con il linguaggio verbale, masoprattutto permettono a tutti gli studenti diapprendere e di capire attraverso l’osservare el’agire, con risultati di comprensione e coinvol-gimenti motivazionali spesso non ottenibili usan-do esclusivamente il canale del linguaggio ver-bale (Delogu e Parisi 2006). Si pensi anche aquelle categorie di persone, quali alcuni disabilicognitivi e soprattutto i sordi, o quelle fasce dipopolazione interessate dal cosiddetto digitaldivide, che avrebbero un enorme giovamentocon questo nuovo modo di apprendere (Delo-gu et al., in stampa; Ranieri, in stampa).La multimodalità e la multimedialità a cui mi rife-risco devono prevedere, quindi, un alto livello diinterattività, a differenza dei “tradizionali” materiali

E-LEARNING MULTIMODALE

E-Learning multimodale

multimediali e multimodali utilizzati finora nell’e-learning, che mostrano una interattività quasi ine-sistente. L’innovazione più importante introdottadai nuovi media digitali è costituita, infatti, dallepossibilità di interazione con gli oggetti di appren-dimento che questi media offrono. Mi riferisco inparticolare alle simulazioni e a videogiochi. Le simulazioni sono laboratori sperimentali: sedu-to davanti al computer l’utente osserva i fenome-ni simulati in condizioni che controlla, modificaqueste condizioni e osserva le conseguenze del-le sue manipolazioni. Questo è esattamente quel-lo che fa lo scienziato nel laboratorio dove con-duce i suoi esperimenti. Solo che nel laboratorioreale si possono fare esperimenti su un numeromolto limitato di fenomeni, mentre con le simu-lazioni si può sperimentare tutto (Parisi 2001).Come le simulazioni, i videogiochi sono un otti-mo esempio di applicazioni interattive (Aldrich2005). Mi riferisco solo ai cosiddetti videogiochisimulative, cioè a quei giochi basati sulla simula-zione delle regole del mondo reale (Miglino e DiFerdinando in stampa). I videogiochi simulativesimulano gli ambienti, i personaggi e i processidel mondo reale (o immaginario) e sono moltosimili alle simulazioni (si veda l’articolo di France-

sco Lutrario in questo stesso numero), con la dif-ferenza che qui l’utente oltre a sperimentare gio-ca, o meglio sperimenta per giocare. Come lesimulazioni, anche i videogiochi hanno forti poten-zialità educative non solo sul piano motivaziona-le, ma soprattutto nell’acquisizione di particolaricompetenze, come il pensiero logico, la capacitàdi osservazione, lo sviluppo di rappresentazionispaziali, e di strategie per risolvere problemi(diSessa 1998). Stanno nascendo interessantiprogetti che cercano di collegare l’industria deivideogiochi con chi propone l’uso dei videogio-chi per scopi educativi, come The Serious GamesInitiative (www.seriousgames.org) del Woo-drow Wilson International Center e il The Educa-tion Arcade (www.educationarcade.org) nato dauna collaborazione tra il MIT e la University ofWisconsin. Una buona rassegna su videogiochiper l’apprendimento si trova in (de Aguilera andMèndiz 2003). Apprendere attraverso le simulazioni e i video-giochi è un modo di apprendimento attivo eesperienziale che ha più probabilità di produrrebuoni risultati in termini di motivazione, com-prensione e capacità di ritenzione dei contenu-ti appresi, rispetto al modo di apprendimento

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

11

FIGURA 1. UNA SCHERMATA DEL SOFTWARE MULTIMEDIALE.

12 I quaderni di

E-LEARNING MULTIMODALE

una simulazione (da noi sviluppati), aventi inentrambi i casi come oggetto i rischi di estinzio-ne dell’aquila reale. Il software multimediale (Fig.1) è un tipico sistema erogativo, il cui modellodi apprendimento è basato sul “vedere” (legge-re i testi, guardare le figure o le animazioni) piut-tosto che sul fare. Navigando tra le varie scher-mate, lo studente impara una serie di nozionisui rischi di estinzione dell’aquila reale. L’unicotipo di interazione prevista è quella di muoversitra le varie schermate tramite un menu, di clic-care sulle immagini per ingrandirle, di cliccaresu un particolare pulsante per aprire una sche-da di approfondimento testuale, di stampare gliapprofondimenti testuali, di premere il pulsante“play” per avviare le animazioni.La simulazione (Fig. 2) è invece un piccolo esem-pio di laboratorio virtuale il cui modello di appren-dimento è basato sul vedere e sul fare. Lo stu-dente osserva un territorio “ideale” in cui le aqui-le nascono, mangiano le prede, si riproducono emuoiono, e dove le prede nascono, si riproduco-no e vengono mangiate dalle aquile. Nel territorioideale non ci sono rischi di estinzione, e la popo-lazione delle aquile e quella delle prede si man-tengono stabili. Lo studente interagisce con la

più passivo tipico della lettura di un libro, maanche di un corso di e-learning che utilizza piùcanali di comunicazione ma in modo essenzial-mente passivo. Il problema infatti non è quellodi avere più o meno canali comunicativi: la voce,i testi le immagini, i filmati, ma riguarda il tipo diesperienza che lo studente fa con questi diver-si canali comunicativi. La differenza sta nel modoin cui il corso è organizzato: in modalità soloerogativo o con modalità esperienziale.

Nel progetto FIRB “Nuove tecnologie per la for-mazione permanente e reti nel sistema socioe-conomico italiano”, finanziato dal MIUR, abbia-mo studiato i possibili vantaggi per l’apprendi-mento che si ottengono con le simulazioni. Inparticolare abbiamo svolto dei test per confron-tare i risultati in termini di apprendimento otte-nuti usando materiali didattici costruiti secondodue modelli, quello erogativo e quello esperien-ziale. I risultati delle nostre indagini indicano cheil modello attivo esperienziale dà migliori risulta-ti rispetto a quello più passivo e puramente ero-gativo (Delogu, Parisi, Nicolussi in stampa). In un test abbiamo valutato l’apprendimentoottenuto utilizzando un software multimediale e

FIGURA 2. UNA SCHERMATA DELLA SIMULAZIONE: IL TERRITORIO IDEALE.

simulazione, introducendo man mano vari distur-bi nel territorio ideale, come la caccia e il bracco-naggio, la costruzione di una strada, di un impian-to eolico o di una centrale elettrica, la riforestazio-ne, l’inquinamento, osservando gli effetti delle sueazioni lungo cinquanta anni. Tutto quello che lostudente impara, non lo impara leggendo testi evedendo figure, ma cambiando i parametri dellasimulazione e osservando gli effetti di questi cam-biamenti sull’ambiente in cui vivono le aquile equindi sulla popolazione delle aquile.I risultati mostrano che gli studenti che hannoutilizzato la simulazione hanno ottenuto un pun-

teggio migliore di quelli che hanno navigato ilsoftware multimediale. Ripetendo il test dopouna settimana, abbiamo osservato che gli stu-denti che hanno appreso attraverso una simu-lazione, e quindi tramite un modello di appren-dimento esperienziale basato sul vedere e sulfare, riescono a ricordare quello che hanno stu-diato meglio e più a lungo di quelli che hannoappreso attraverso un software multimediale, equindi tramite un modello di apprendimentobasato solo sul vedere.

Cristina Delogu Fondazione Ugo Bordoni

L’uomo, dopo aver superato la prima fa-se di evoluzione basata sulla costruzio-ne di utensili più o meno semplici, ha co-

minciato a produrre macchine, congegni e, piùin generale, sistemi. Con tale termine siamo so-liti indicare un insieme di elementi funzionalmen-te collegati tra loro per fornire un dato risultatoo valore. La natura è uno splendido campiona-rio di sistemi fisici, biologici, biochimici da cuil’uomo ha certamente tratto ispirazione. Un oro-logio è un sistema che come risultato produceuna convenzionale misura del tempo; un muli-no sfrutta le forze della natura per macinare ilgrano; una automobile produce capacità di mo-to come un aereo quella di volo. Tali sistemi prevedono l’indirizzo e la partecipa-zione attiva dell’utilizzatore per raggiungere ilrisultato previsto. Ogni sistema destinato adessere usato dall’uomo è completo, ovveroassolve la sua funzione producendo il risultatoatteso, sempre e solo in relazione all’uomo stes-so. In tal senso tutti i sistemi realizzati dall’uo-mo sono scomponibili in due sottosistemi prin-cipali: quello biologico, l’uomo, e quello “mec-canico”: un’astronave, un impianto hi-fi, unacentrale nucleare, un gioco e così via.

Ogni sistema, dotato di propri scopi e di unalogica interna di funzionamento, viene dotato di“interfacce” che ne consentano l’uso previstoanche da parte di utenti non esperti. Il termineinterfaccia è direttamente collegato alla comu-nicazione tra sistemi. Nel rapporto tra sistema“biologico” e “meccanico” le esigenze dell’uti-lizzatore sono sempre sostanzialmente le stes-se. Il “non esperto” necessita di mappe mentaliche lo aiutino a comprendere come interagirecon il sistema al fine di realizzare il risultato pre-visto. Il che si traduce nell’esigenza di sapere inche stato si trova in ogni momento di utilizzo,quali azioni è possibile compiere sul sistema equali effetti produrranno le azioni consentite. Sitratta di rendere comprensibile la relazione tra idue insiemi, tra azione del primo e reazione delsecondo. In alcuni casi le relazioni sono ovvie,come nel caso di quelle basate su analogie spa-ziali, in altri dipendono da pratiche culturali, comeil colore di una spia, risultando chiare solo a con-dizione di conoscere tali convenzioni.

InterfacceLa progettazione di una interfaccia basata su diun modello concettuale comprensibile, comple-

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

13

La multimodalità nell’intrattenimento e nelle simulazioni digitali…

to e facilmente memorizzabile è quindi un proble-ma vecchio come le prime macchine create dal-l’uomo. Tale problema è limitato a ciò che pos-siamo definire “interattivo”, e un sistema è tipica-mente tale. Un programma televisivo, come pureuna proiezione cinematografica non sono interat-tivi, non necessitano di una interfaccia con cuil’uomo può impartire comandi. Un apparecchiotelevisivo, invece, reagisce ai nostri stimoli in quan-to, ricevendo l’opportuno ordine, si accende, cam-bia canale, modifica i valori di luminosità e con-trasto, la fonte di riproduzione, ecc. È interattivoed ha quindi bisogno di strumenti su cui agire. La disciplina che studia questi processi di inte-razione è, al contrario di quanto ci si possaimmaginare, molto giovane. È denominata Inte-razione Uomo Macchina (Human Computer Inte-raction) e si occupa della progettazione delleinterfacce uomo-sistema o, più precisamente,tra uomo e computer. Il suo scopo ultimo è ren-dere l’interazione efficace e usabile nei vari con-testi d’uso. L’usabilità è il suo obiettivo princi-pale in quanto se un sistema è tale non creacondizioni di disagio e difficoltà all’utente. L’ingegneria dei sistemi studia il funzionamentodi un sistema al variare delle condizioni ambien-tali, mentre la HCI deve valutare tutti quei fattoriche possono influenzare l’interazione tra uomo emacchina. Sono coinvolti lo stato dell’individuo(salute, cultura, ecc.) e molteplici fattori di conte-sto. Entrano in causa un gran numero di discipli-ne: dalla psicologia alla semiotica, dalla linguisti-ca all’information tecnology, dalle discipline del

14 I quaderni di

design alla computer graphics. Tutte queste discipline si confrontano sul terrenodell’interazione uomo-macchina solo dopo l’av-vento del computer. Questo perché il computerè un sistema di tipo molto particolare che ha avu-to una eccezionale diffusione anche come com-ponente di altri sistemi. La particolarità del computer sta nell’assenza diun compito unico, specifico; non produce un valo-re definito e neanche radicalmente nuovo. Uni-co nel suo genere può comportarsi come, emeglio, di altri sistemi e di altre macchine. Il com-puter è il primo esempio di macchina mutante.È in grado di emulare, è un “imitatore delle altruivirtù”. È in grado di “prendere qualcuno a model-lo cercando di eguagliarne e superare i suoi meri-ti e le sue virtù”. Un computer può fare calcolicome una calcolatrice, scrivere come e megliodi una macchina da scrivere, gestire basi dati,permettere di comunicare come un telefono,mostrare programmi tv e radiofonici, controllarelavastoviglie, catene di montaggio, robot e infini-ti altri sistemi. Inoltre può emulare se stesso, nelsenso di “imitare il comportamento di un elabo-ratore dalle caratteristiche diverse…”. Un com-puter, infine, può anche simulare le altre mac-chine e le relative condizioni di utilizzo, e puòanche simulare sistemi non prodotti dall’uomo. Questi gioielli di modellazione possono essereimpiegati per la ricerca, l’addestramento, la forma-zione, l’informazione, la divulgazione e per il gio-co. Si tratta della normale evoluzione del primomodello costruito dall’uomo: la mappa. Sono il

LA MULTIMODALITÀ NELL’INTRATTENIMENTO E NELLE SIMULAZIONI DIGITALI

FIGURA 1. DONKEY KONGAS, PERIFERICA MUSICALE DA SUONARE CON LE MANI.

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

15

frutto dell’ingegno di quelli che potremmo definire“cartografi digitali”. Costruttori di mappe tridimen-sionali, multimediali e, soprattutto, multimodali.Per ogni emulazione o simulazione, il computerpresenterà una diversa e specifica interfaccia.Una combinazione tra hardware e sw devemediare tra i due sistemi consentendo uno scam-bio nelle due direzioni: input, ordini e richieste diesecuzione, e output, le risposte del sistema.

Obiettivi ambiziosiLa presenza di diversi elementi di output va sot-to il nome di multimedialità mentre la possibilitàdi avere diverse opzioni di input definisce la mul-timodalità. Quest’ultima disciplina, nata comebranca dell’interazione uomo macchina, ha ori-gini molto recenti e grandi prospettive di svilup-po e applicazione. Si pone obiettivi ambiziosi: dal-l’esigenza di consentire comandi connessi allo

specifico sistema che il computer sta rappresen-tando (si pensi ad un bisturi con cui simulare ope-razioni chirurgiche) fino alla sostituzione degliattuali ordini formalizzati con comandi naturali.L’obiettivo è quello di raggiungere la multimoda-lità tipica degli scambi tra uomini aggiungendo aisistemi tradizionali, mouse o tastiera, la gestua-lità, il linguaggio naturale, il movimento dello sguar-do. I relativi vantaggi riguardano tanto specificheclassi di individui, da quelli poco esperti ai disa-bili, quanto numerosissimi campi applicativi. Il gioco, come attività umana, quello che gli anglo-sassoni definiscono “play”, è anch’esso un siste-ma. Lo definiamo incerto perché il suo risultatodipenderà dalle azioni dei giocatori, senza i qualinon avrebbe alcun significato. Come gli altri ècomposto da un sottosistema biologico, l’uomo,e da uno meccanico, “il game”. Il cuore di un“game” è la “meccanica di gioco”, un insieme di

FIGURA 2. GUITAR HERO, PERIFERICA MUSICALE CHE SIMULA UNA CHITARRA.

regole formali gestite da un supporto, un com-puter, e rivestite da una “ambientazione” che hal’obiettivo di creare l’illusione di un mondo sepa-rato e fittizio. Qualunque gioco si basa su di un modello. Permodello intendiamo la rappresentazione di ideee conoscenze relative ad un fenomeno sul qua-le è possibile agire per verificare il risultato di taliazioni. Ogni gioco ha poi un “obiettivo di vittoria”con cui confrontarsi, a cui tendere.Vengono definite “leve” le possibili azioni degliutenti sul meccanismo di gioco e “regole del gio-catore” le possibilità e le limitazioni all’uso di talileve da parte degli utilizzatori. Queste leve hanno una sostanza, una forma euna modalità. La sostanza riguarda le variabili(indipendenti) definibili dall’utente nell’ambito delmodello mentre la forma fa riferimento alla spe-cifica ambientazione del gioco, la loro mera appa-renza. La modalità riguarda la concreta realizza-zione delle leve attraverso il supporto e l’interfac-cia, definisce i modi con cui l’utente può agire sudi esse. Uno stesso gioco, mettiamo gli scacchi,ha sempre le medesime leve ma può renderledisponibili in diversi modi, tramite diversi dispo-sitivi di input. Possiamo muovere una torre con il

16 I quaderni di

mouse, possiamo trascinarla grazie ad un dispo-sitivo touch screen, possiamo indicare le nuovecoordinate con la tastiera o semplicemente dire“muovi la torre in b8”.

Gioco e simulazioneAnche una simulazione si basa sull’interazionecon un modello. La differenza tra un gioco e unasimulazione si riduce a pochi ma sostanziali ele-menti. Un gioco può realizzarsi su di un modelloche rappresenti di un qualunque sistema, anchefittizio. Una simulazione, invece, si basa su modellidi sistemi reali o ipotetici ma non affronta i siste-mi frutto della fantasia. Il suo scopo infatti è mol-to concreto e può essere circoscritto al campodella ricerca (predizione), dell’addestramento edella formazione. La simulazione è quindi un pro-cedimento che consente di studiare il comporta-mento di un sistema basandosi sulla riproduzio-ne dello stesso, e dell’ambiente in cui esso deveoperare, attraverso modelli, a prescindere che essisiano meccanici, analogici, matematici o digitali. In quanto attività fittizia, quello che avviene in ungioco non si propaga nella realtà ma resta circo-scritto al gioco stesso e perde di significato unavolta che il gioco ha termine. Una simulazioneinvece, avendo uno scopo pratico, produce risul-tati che ricadono nella vita reale. Tramite unmodello lo scienziato elabora e verifica le proprieteorie escludendo fattori non necessari o di distur-bo. Con il modello di un acquedotto è possibileverificare la sua funzionalità e progettarlo in det-taglio prima della realizzazione effettiva. Possia-mo usare un modello per addestrare un pilotasenza che tale esperienza risulti pericolosa odistruttiva. In tutti questi casi, un errore nellacostruzione del modello può causare gravi riper-cussioni nel mondo reale. Se non fosse per que-sta sostanziale differenza potremmo affermareche, in fondo, ogni gioco è una simulazione. Questa differenza diventa cruciale nel momentoin cui si definiscono le leve di un gioco o di unasimulazione. Quelle di un modello usato a scopidi simulazione saranno coerenti con il sistema rap-presentato. In un gioco invece il progettista puòprevedere leve fittizie, può ingannare il giocatorefacendogli credere di avere più gradi di libertà edecisione di quanti effettivamente possieda. Anchel’informazione di ritorno in un gioco potrà essere

LA MULTIMODALITÀ NELL’INTRATTENIMENTO E NELLE SIMULAZIONI DIGITALI

FIGURA 3. DANCEMATE, IL TAPPETO PER GIOCHI

DI BALLO ALLA DANCE REVOLUTION.

MARZO 2007

illusoria per convincere il giocatore che le azioniintraprese hanno un effetto sul sistema. In unmodello destinato ad una simulazione tutto ciòsarebbe scorretto e potenzialmente pericoloso. È per la sua capacità di simulare ed emulare,ovvero di gestire modelli interattivi, che il compu-ter ha trovato un campo eccezionalmente fertilenel settore dei giochi e delle simulazioni. Il com-puter e i modelli digitali costituiscono uno straor-dinario laboratorio virtuale nel quale osservare estudiare fenomeni, attraverso cui fare esperien-za e quindi addestrasi ai compiti più difficili e peri-colosi o con cui semplicemente giocare. Spes-so è possibile usare gli stessi modelli, si pensi adun simulatore di volo, tanto per gioco quanto pereffettuare una simulazione. Potendo ricostruire, per mezzo di un modello,qualunque sistema allo scopo di fare esperienzanel campo del gioco o della simulazione, il temadella multimodalità è di cruciale attualità. Ognipotenziale esperienza, ogni sistema rappresen-tabile ha infatti una propria forma ideale di inte-razione e spesso ne richiede più d’una. Se voles-simo sperimentare l’attività della scultura deside-reremmo poter interagire con un modello di unblocco di marmo tramite uno scalpello e le sen-sazioni tattili, piuttosto che tramite un mouse. Sevolessimo provare l’esperienza di addestrare uncane o governare un gregge di pecore vorrem-mo poter definire i comandi tramite la voce o

emettendo un fischio. Per guidare una Ferrari vor-remmo un volante e un cambio come quelli usa-ti in formula uno, e così via. Molti di tali sistemi multimodali esistono già. Bastaentrare in una moderna sala giochi. Una volta chei pc e le consolle domestiche per videogiochi han-no raggiunto la qualità e le prestazioni di quelleinstallate nelle sale pubbliche, i produttori di “cabi-net” hanno cominciato ad investire nella produ-zione di sistemi di controllo che imitino al meglioi dispositivi di input, e di output, rappresentati nelgioco. Nuovi controlli che replicano al meglio unamotocicletta, un elicottero, un fucile, uno snow-board, una canna da pesca, ecc. Volanti e peda-liere, cloche e pistole a raggi infrarossi sono sta-ti i primi di una lunga serie di dispositivi dedicatiad uno specifico tipo di simulazione. Con le peri-feriche musicali come “donkey kongas” (Fig. 1)e “guitar hero” (Fig. 2) il giocatore può suonare inun complesso virtuale avendo tra le mani unastrumenti musicali del tutto realistici. In una seconda fase sono apparsi dispositivi ingrado di supportare meccaniche ludiche diver-se. Microfoni collegati al pc o alla consolle han-no consentito a migliaia di giocatori di urlare ordi-ni al proprio esercito virtuale mentre, con lo stes-so strumento, dialogavano con i compagni di gio-co connessi via rete. Gli stessi microfoni hannopermesso di effettuare performance canore. Piùrecentemente sono apparse telecamere in gra-

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

17

FIGURA 4. POWERGLOVE, VECCHIA PERIFERICA NINTENDO CON SENSORI DI POSIZIONE E PER IL MOVIMENTO DELLE DITA.

18 I quaderni di

LA MULTIMODALITÀ NELL’INTRATTENIMENTO E NELLE SIMULAZIONI DIGITALI

FIGURA 5. WII CONTROLLER SI PUÒ IMPUGNARE COME UNA SPADA O UNA MAZZA DA GOLF; HA AL SUO INTERNO

UN GIROSCOPIO E UN ACCELEROMETRO.

do di riconoscere i movimenti del corpo affinchéil gesto di un braccio potesse, in modo molto piùrealistico di quanto si potesse fare con un joy-stick, controllare una racchetta e altri attrezzi. Poiil controllo di un sistema simulato è passato dal-la mano all’intero corpo. Con la pedana “Dance-Mate” (Fig. 3) l’utente deve realmente ballare percontrollare il proprio avatar come in “Dance Dan-ce Revolution”, ma può anche correre e saltare.Altre strade sono state tentate, abbandonate epoi riprese. Si chiamava “powerglove” (Fig. 4) lavecchia periferica della Nintendo, leader in que-sto campo della ricerca, dotata di sensori di posi-zione e per il controllo del movimento delle dita.Oggi questa opzione sembra superata da unaconsolle, la nuovissima Wii, dotata di un control-ler, simile ad un telecomando, che si può impu-gnare come una spada o una racchetta. È que-sta l’ultima evoluzione del mercato vidoeludico.Il controller della Wii (Fig. 5) è dotato di un giro-scopio e un accelerometro e i limiti di utilizzo sonosolo nelle capacità dei game designer.

Le consolle portatiliLe consolle portatili non sono state da meno. Ilsuccesso del NintendoDS (Fig. 6) è fortementeconnesso all’interazione di tipo “touch” e alla pre-senza di un microfono che permette interazionivocali. È possibile cuocere a puntino un piatto dipasta soffiando sulla pentola per evitare che l’ac-qua fuoriesca esattamente come facciamo acasa; possiamo addestrare un cucciolo perchérisponda ai nostri comandi vocali ed anche lan-ciargli una palla con velocità e traiettoria chedipendono direttamente dal gesto che abbiamotracciato sullo schermo. In quest’ultimo camposono stati effettuati studi relativi alla possibilità diinteragire con un modello videoludico anche attra-verso stimoli non volontari. La riflessione che hadato luogo a queste ricerche è collegata alle varia-zioni che un essere umano può produrre in unsistema a causa del proprio stato psicofisico. Sipensi alle condizioni psicologiche di un soldatoimpegnato in battaglia, ad un pilota che tenta unsorpasso disperato, ad un astronauta sotto l’ef-

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

19

fetto di una spinta ai limiti dell’umana sopporta-zione e ancora ad un innamorato che deve dichia-rarsi ma è preda di una forte emotività. Siamo soli-ti sperimentare queste situazioni nei giochi e nel-le simulazioni senza pensare a come le emozionipossano influire nelle nostre prestazioni. Siamoabituati ad interagire in mondi virtuali attraversoavatar che mostrano agli altri giocatori solo le emo-zioni che noi stessi vogliamo mostrare. Ma sap-piamo bene che le cose non stanno così e chese volessimo simulare appieno queste esperien-ze dovremmo tenere in conto anche di questi sta-ti emotivi e del loro influsso sul nostro fisico, suglialtri giocatori od anche sui sistemi con cui intera-giamo. L’emozione fa brutti scherzi anche ai miglio-ri sportivi, perché non dovrebbe influenzare lenostre prestazioni? Oggi esistono sistemi di monitoraggio dello sta-to fisico (battito cardiaco, pressione, sudorazio-ne) estremamente precisi e a basso costo. Sonolargamente impiegati nel fitness. Immaginate unsistema che comunichi tali variazioni al compu-ter e un modello che possa tenerne conto varian-do le sue risposte anche in funzione di tali “azio-ni involontarie”. Il risultato sarebbe modificato infunzione di tali parametri. Il soldato preso dal pani-co comincerebbe a vedere gli avversari in modomeno definito, un innamorato tradirebbe le sueinsicurezze, uno sportivo nervoso perderebbe

qualità nel controllo della palla o nel governo del-la sua vettura. Le applicazioni potrebbero esse-re altre. Un paziente o un invalido potrebberorichiedere un intervento del computer (richiestadi soccorso, variazione delle condizioni ambien-tali come temperatura e illuminazione, ecc.) al solovariare di alcuni parametri. A questi stessi obiet-tivi possono essere destinati i sistemi adattivi. Pro-grammi basati su reti neurali e algoritmi geneticiin grado di imparare dall’interazione stessa conl’utente per proporsi come interpreti realizzandoscorciatoie nel dialogo con le macchine.

L’interazione uomo-computerUn altro settore delle ricerca che promette svi-luppi interessanti riguarda le tecnologie che stu-diano il tracciamento come possibile evoluzionenell’interazione uomo-computer, con particolareriferimento ai dispositivi di input del genere “eye-tracking” (tracciamento del movimento dell’oc-chio). Le performance sono migliori rispetto all’u-so del tradizionale mouse sebbene siano anco-ra inefficienti per molti aspetti. La vera potenzia-lità sta nella possibilità, largamente verificata, diinferire il grado di interesse dell’utente rispetto aquanto osservato. Tutti questi studi hanno confermato la necessità diun approccio realmente multimodale che coinvol-

FIGURA 6. NINTENDODS, CONSOLLE PORTATILE INNOVATIVA CON INTERAZIONE TOUCH E MICROFONO.

ga cioè più di un canale perché questo è il modoin cui l’uomo è naturalmente portato a comunica-re. Oggi è possibile realizzare sistemi con cui inte-ragire tramite i gesti (si pensi alla descritta consol-le Wii e alle telecamere che tracciano i movimentidel corpo), i muscoli (sistemi touch e misuratori dipressione), lo sguardo (eye tracking), le emozioni(misurabili tramite fattori biomedici) e la parola (rico-noscimento e uso del linguaggio naturale). Possia-mo affidare al sistema stesso il compito di capirequale sia il dispositivo di input preferito dall’utenteo il più adatto al contesto d’uso. Il recente successo di alcune consolle rispetto adaltre dimostra che più numerosi sono i sistemi diinput coinvolti maggiore è la gamma e la qualitàdei prodotti realizzabili. Le scelte dei consumato-ri dimostrano che l’attenzione si sta spostandodalle prestazioni, che spesso si traducono in mag-giori capacità di elaborazione e output multime-diale, alle potenzialità multimodali, alla varietà eflessibilità dei dispositivi di controllo. Quanto detto vale per le consolle di gioco maanche per computer con funzioni più o meno dedi-

20 I quaderni di

cate. Si pensi ai terminali di telefonia mobile, alleset top box per la tv, ai lettori musicali e multime-diali, ai totem. Tutti dispositivi che assolvono con-temporaneamente diverse funzioni. In tal sensola multimodalità è fortemente correlata al proces-so di miniaturizzazione in atto dei device e alla loromultidisciplinarità. Un telefono, come pure undecoder televisivo, non è più solo tale. Deve pre-starsi ad altre funzioni che richiedono interattivitàe quindi controller di piccole dimensioni e adattiallo scopo. Il telecomando della TV diventa joy-stick, il telefono mobile si trasforma in consollevideoludica, in player musicale, in telecamera.Ognuno di essi è di fatto un computer. I progetti-sti stanno progressivamente inserendo diversidispositivi di input in grado di sostituire gli ingom-branti joystick, le tastiere e altri apparati che pre-sto considereremo oggetti di modernariato.

Francesco Lutrario Vice direttore generale Infobyte S.p.A. Docente di Game DesignUniversità degli Studi di Milano

Per troppo tempo siamo stati abituati a ri-ferirci, come ad universi separati, alle ap-plicazioni web, a quelle vocali e all’utiliz-

zo dei sensori. In questo breve articolo vedre-mo come sia possibile costruire applicazioni ingrado di ricevere ed inviare informazioni attra-verso molteplici modalità: ovvero le applicazio-ni multimodali. Partiremo dal significato di mul-timodalità fino arrivare ad alcuni esempi di ap-plicazioni presenti sul mercato.Se cerchiamo il termine “multimodalità” o “mul-timodale” sull’ormai omni-comprensivo dizio-nario online di Wikipedia, ci accorgiamo cheil termine non esiste tra quelli presenti all’in-terno del dizionario in lingua italiana(http://it.wikipedia.org/wiki/Speciale:

Ricerca?search=multimodale&go=Vai), quin-di rifacciamoci alla definizione inglese(http://en.wikipedia.org/wiki/Multimodal):

Multimodal interaction provides the user withmultiple modes of interfacing with a systembeyond the traditional keyboard and mouseinput/output. The most common such interfa-ce combines a visual modality (e.g. a display,keyboard, and mouse) with a voice modality(speech recognition for input, speech synthe-sis and recorded audio for output). Howeverother modalities, such as pen-based input orhaptic input/output, may be used. Multimodaluser interfaces are a research area in human-computer interaction.

LA MULTIMODALITÀ NELL’INTRATTENIMENTO E NELLE SIMULAZIONI DIGITALI

L’avvento del multimodale: la voce fa la sua comparsa sul web e sulle applicazioni

Per completarne il significato, associandolo a quel-lo dell’utilizzo di internet, portiamoci sulla paginadel gruppo di lavoro del W3C che si occupa di svi-luppare il framework multimodale ed i linguaggi adesso associate: il Multimodal Interaction WorkingGroup (http://www.w3.org/2002/mmi/). Alla prima riga troviamo:

� Extending the Web to support multiple mo-des of interaction.

Possiamo, quindi concludere che la multimo-dalità è l’impiego contemporaneo di più inter-facce utente che facciano uso di diversi dispo-sitivi (monitor e tastiera, microfono e voce, pen-na ottica ecc.) per ricevere ed inviare informa-zioni all’utente, con particolare enfasi sull’uti-lizzo della voce in associazione con interfacceutenti di tipo grafico.

I componenti di un’applicazione multimodaleAll’interno della pagina del Multimodal InteractionWorking Group (http://www.w3.org/2002/mmi/)non troviamo soltanto una descrizione somma-ria delle attività svolte da questo innovativo grup-po di lavoro del W3C, ma abbiamo la possibi-lità di osservare da vicino quale sia lo stato del-l’arte dello sviluppo di un framework multimo-dale e dei linguaggi a supporto di questa nuo-va interazione tra utente e web, o per esserepiù precisi tra utenti e PC, in quanto, come ve-dremo negli esempi di seguito riportati, l’approc-cio multimodale è particolarmente indicato peruna vasta gamma di dispositivi. Per capire me-glio cosa effettivamente sia un’applicazione mul-timodale partiamo da un esempio pratico.

Ci troviamo all’interno di un software di gestio-ne posta con la sua interfaccia grafica, a que-sto punto possiamo:A. cliccare su “nuovo messaggio” per aprire ilform di inserimento di una nuova mail attraver-so la modalità classica utilizzando le icone po-ste sulla GUI (Graphic User Interface), oppurese la nostra applicazione fosse gestita tramiteuna voice mail (un software utilizzabile attraver-so un telefono/microfono in grado di ricevereinput vocali):

B. dire al nostro microfono “nuovo messaggio”e utilizzare i comandi vocali disponibili attraver-so la VUI (Voice User Interface) e seguire le istru-zioni per dettare una mail al sistema.Attraverso un approccio di tipo multimodale lenostre possibilità si amplierebbero ulteriormen-te in quanto potremmo utilizzare l’opzione A,l’opzione B oppure l’insieme delle due:C. cliccare su “nuovo messaggio” con il mouse(GUI) e dettare il nome del destinatario (VUI);D. dire “nuovo messaggio” (VUI), dettare il co-gnome (VUI), scrivere il testo della mail con lanostra penna ottica; E. ecc.

Questo breve esempio spiega quali siano le po-tenzialità di questo approccio, e ci permette diesaminare due diversi utilizzi della multimodalità: � supplementare, ovvero basata sull’utilizzo in-dipendente di modalità differenti per eseguireuna determinata operazione;� complementare, dove l’utente può utilizzarediverse modalità contemporaneamente.

Dopo averne esaminate le caratteristiche vedia-mo come funzionano. Un ottimo esempio ci vie-ne offerto dallo schema seguente che riassumequali siano i componenti fondamentali di un’ap-plicazione multimodale.Innanzitutto, partendo dalla parte alta dello sche-ma, troviamo le due interfacce utente (VUI e GUI)le quali dovranno essere scritte tenendo conto del-le diverse esigenze delle tecnologie utilizzate. Duecandidati per lo sviluppo di queste interfacce pos-sono essere XHTML per la GUI e VoiceXML perla VUI se ci troviamo in ambiente web, altrimentisi possono usare JAVA, C++, C#, VB.NET, ecc.

Sotto questo primo strato di presentazione deidati troviamo la parte applicativa che a sua vol-ta è suddivisa in diversi moduli:� (Interaction manager) Ricevere gli input dalleinterfacce;� (Modality manager) Invocare i motori neces-sari al riconoscimento tramite delle API. Per lainterpretazione della voce viene utilizzato il mo-dulo ASR (Automatic Speech Recognition), perla generazione di un audio a partire da un te-sto si utilizza il TTS (Text to speech) e, qualo-ra si vogliano introdurre anche controlli di si-

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

21

curezza biometrica legata alla voce dell’uten-te la Speaker Verification (indicata come SVnello schema); � (State Machine Multimodale) Gestire i diver-si input delle interfacce per capire quale sia il si-gnificato dell’azione intrapresa dall’utente;� (interaction Manager) Restituire su entrambe leinterfacce il risultato dell’operazione dell’utente.

Torniamo al nostro esempio, dove l’utente se-duto davanti al suo pc provvisto di microfono,dice al proprio programma di posta “nuovo mes-saggio”. Questa azione scatena un evento cheverrà raccolto dall’Interaction manager e tra-sportato fino al motore di riconoscimento voca-le (ASR) che restituirà alla State Machine Multi-modale il comando “new_message”.Questo comando invoca l’apertura sulla GUI di unanuova finestra per la composizione del messaggio,e sulla VUI l’esecuzione di un prompt (una frase sin-tetizzata) del tipo “Inizio nuovo messaggio”.Fino a qui, è piuttosto facile capire per la mac-china a stati quali operazione invocare e quali

22 I quaderni di

debbano essere le modalità da utilizzare, ovvia-mente il tutto si complica nel momento in cuil’utente clicca su “nuovo messaggio” e contem-poraneamente dice “Apri rubrica”.

Realizzare la nostra primaapplicazione multimodaleQualora volessimo realizzare le nostre applica-zioni è meglio pensare di utilizzare un frameworkgià pronto e concentrarci sui linguaggi e gli stru-menti utilizzabili. Ad oggi, limitatamente alle ap-plicazioni fruibili via web, vi sono principalmen-te due diverse possibilità:� X+V� SALT

Entrambi questi linguaggi permettono di espan-dere le possibilità di una normale pagina Web,incorporando riconoscimento vocale e sintesivocale per sviluppare pagine multimodali o conoutput vocali. Il primo è un linguaggio sviluppa-to e supportato da IBM. Dove la lettera “X” in-dica la componente grafica (XHTML) e la lette-

L’AVVENTO DEL MULTIMODALE: LA VOCE FA LA SUA COMPARSA SUL WEB E SULLE APPLICAZIONI

FIGURA 1. COMPONENTI FONDAMENTALI DI UN’APPLICAZIONE MULTIMODALE.

ra “V” la componente vocale in VoiceXML: un lin-guaggio di marcatura che ormai si è imposto co-me standard nello sviluppo delle applicazioni vo-cali ed utilizza logiche di presentazione basatasul dialogo tra macchina ed utente. L’esecuzione di un evento di riconoscimento voca-le (tipicamente un form VoiceXML) viene richiama-to da un evento sull’interfaccia grafica, ad esempioportando il mouse sulla casella di testo utilizzata co-munemente per l’inserimento del dato. Le applica-zioni scritte in X+V possono (visualizzabili con il brow-ser OPERA) hanno le seguenti caratteristiche:� Basato su HTML.� Integrabile con le tecnologie Web standard:

HTML, XHTML, cHTML, WML ed estendibilead altri linguaggi.

� Riutilizzo degli standard: Voce: VoiceXML,SRGS, SSML, EMMA.

� La sincronizzazione avviene utilizzando XMLEvents e l’elemento xv:sync in X+V 1.1.

Per informazioni più dettagliate su questo lin-guaggio si consiglia di visitare il sito dell’IBM al-l’indirizzo http://www-3.ibm.com/software/pervasive/multimodal/

L’alternativa ad X+V viene offerta da Microsoft edal suo SALT (Speech Application LanguageTags), che può essere visualizzato tramite Inter-net Explorer (è necessario scaricare un apposi-to plug-in dal sito della Microsoft).Le sue caratteristiche sono:� Integrabile con le tecnologie Web standard:

HTML, XHTML, cHTML, WML…� Riutilizzo degli standard: Voce: SRGS, SSML,

EMMA, CCXML, ECMA: CSTA.

� Può funzionare in modo sia dichiarativo siabasato su eventi e script.

� Modello di esecuzione standard del Web:DOM, eventi e linguaggi di scripting.

� Minore integrazione con VoiceXML, non sup-porta strategie di dialogo avanzate (come adesempio la mixed initiative).

La struttura del linguaggio è similare a quella diXHTML, ma ampliata attraverso l’introduzione diun nuovo set di elementi per la gestione degli in-put e degli output vocali.Per maggiori informazioni su questo linguaggioconsigliamo di consultare il sito ufficiale dello SALTForum all’URL http://www.saltforum.org.

Dal codice alla realtàDopo questo brevissimo excursus sui linguaggi diprogrammazione utilizzabili per la realizzazione del-le nostre pagine multimodali, vediamo ora qualcheapplicazione disponibile sul mercato. Molte delleapplicazioni presenti si basano sull’utilizzo del SIP(Session Initiation Protocol) che, senza troppo ad-dentrarci in tecnicismi è un protocollo “simile” al-l’http con una struttura client-server, in grado di ge-stire l’invio di voce e dati sullo stesso canale. L’uti-lizzo di SIP permette di creare applicazione multi-modale per dispostivi mobili quali cellulari, palmario altri dispositivi connessi alla rete UMTS. Alcunedi queste soluzioni sono presenti sul sito di Nuan-ce: (http://www.nuance.com/xmode/demo/). Una delle aziende che per prime hanno presentatosul mercato internazionale i loro prodotti multime-diali è sicuramente Kirusa (http://www.kirusa.com/).Sul sito, oltre ad alcuni documenti sulle tecno-

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

23

PER APPROFONDIMENTI

Il sito del W3C sui linguaggi multimodali: http://www.w3.org/TR/multimodal-reqsIl sito dell’IBM dedicato all’X+V: http://www.voicexml.org/specs/multimodal/x+v/12/I riferimenti del linguaggio SALT: http://www.saltforum.org/Opera: il browser multimodale: http://www.opera.com/Il sito con le specifiche del protocollo SIP supportato dall’International Engineering Task Force (IETF)http://www.ietf.org/html.charters/sip-charter.htmlI browser multimodali secondo IBM:http://www.w3.org/2002/mmi/2002/MM-Arch-Maes-20010820.pdfIl sito di V-Enabled con alcuni soluzioni multimodali: http://www.v-enable.com/X-Mode, la multimodalità secondo Nuance: http://www.nuance.com/xmode/

logie proposte, è possibile visualizzare una de-mo di un portale multimodale sullo sport (http://www.kirusa.com/demo3.htm).L’irlandese Voxpilot (www.voxpilot.com) pro-pone un’interazione audio/video basata sul pro-tocollo SIP che permette di navigare sul propriocellulare portali di natura diversa (televisioni pri-vate, cinema, sports, ecc.) ricevendo informa-zioni vocali e visive: testo, menu in sovraimpres-sione, filmati oppure immagini.Per provare direttamente qualche esempio sul no-stro pc, esclusivamente per coloro che hannoOpera installato, basta accedere all’indirizzo:http://www.voicexml.org/Review/Mar2006/features/multimodal_opera.html dove sonoraccolti una ventina di esempi multimodali per-fettamente funzionanti.

Altre informazioni, e video di servizi funzionanti, so-no visibili sul sito dell’IBM dedicato all’X+V(http://www-306.ibm.com/software/pervasive/multimodal/) oppure direttamente nella sezionedemo (http://www-306.ibm.com/software/pervasive/multimodal/demos.shtml).Sul mercato italiano tra le aziende attive è da ci-tare Loquendo (http://www.loquendo.com)l’azienda italiana leader di mercato delle tec-nologie vocali che all’attivo ha diversi progetti

24 I quaderni di

nazionali ed internazionali. Sempre nel pano-rama italiano, a costo di apparire un po’ auto-referenziante, citiamo l’azienda DotVocal(http://www.dotvocal.com) che ha realizzatoun set di librerie denominato MultiModal Berryper permettere la verticalizzazione di applicazio-ni standard in applicazioni multimodali in gradodi accettare comandi vocali.

Oltre la realtàE per finire diamo uno sguardo alle soluzioni fu-turibili proposte da alcune aziende nel campodella multimodalità.Il punto di partenza è il do-veroso Dream Space di IBM (http://www. re-search.ibm.com/natural/dreamspace/) do-ve viene mostrato come l’interattività possa esse-re estesa ad oggetti virtuali tridimensionali che ven-gono manipolati direttamente con il “tocco” (am-mirando i filmati all’interno della pagina a qualcu-no verrà sicuramente in mente il film “Paycheck”). Altrettanto futuristici i lavori di alcuni istituti tra cui:HitLab (http://www.hitl.washington.edu/projects/multimodal/) ed il Department ofComputer Science and Engineering della Hel-sinki University of Technology. (http://www.cis.hut.fi/research/multimodal/).

Fabrizio Gramuglio DotVocal

Oggi le principali tecnologie vocali, la sin-tesi da testo (TTS - Text To Speech) edil riconoscimento della voce (ASR - Au-

tomatic Speech Recognition), stanno avendouna nuova grande opportunità: l’emergere del-la multimodalità. Le interfacce multimodali, infat-ti, combinano, in modo trasparente per l’utente,modalità di interazione diverse, siano esse la vo-ce, immagini o filmati, gesture (termine, quest’ul-timo, usato per indicare segni tracciati con unapenna o uno stylus su palmari o touch screen,

per indicare e per tracciare linee o zone su unamappa), permettendo all’utilizzatore di interagi-re in modo innovativo ed intuitivo con i termina-li, anche con quelli di piccole dimensioni.I comandi vocali, insieme alla scrittura su tastiera(tastierino per i cellulari) oppure la penna/stylus,posso fornire dati in input; viceversa l’output puòcombinare la voce sintetizzata con testi, grafica efilmati. In futuro potranno essere sfruttate altremodalità, quali le interfacce tattili (per esempio tra-mite guanti o sensori a contatto con il corpo).

L’AVVENTO DEL MULTIMODALE: LA VOCE FA LA SUA COMPARSA SUL WEB E SULLE APPLICAZIONI

Tecnologie vocali e multimodalità: soluzioni per servizi avanzati

Le applicazioni multimodali possono diventaresoluzioni abilitanti per l’adozione massiva di ser-vizi a valore aggiunto. Per questo motivo, è inte-ressante indagare quali sono le caratteristichepiù utili ed efficaci delle interfacce multimodali.È evidente che le dimensioni ridotte dei termina-li mobili, così come l’introduzione di funzionalitàsempre più complesse, pongano problemi di usa-bilità, soprattutto per le fasce di popolazione menoavvezze all’utilizzo della tecnologia. La multimo-dalità può essere una soluzione, grazie alla pos-sibilità di creare servizi che, benché complessi,presentino interfacce semplici e flessibili. Un miglio-ramento dell’usabilità può realmente fare la diffe-renza e consentire l’estensione di servizi innova-tivi ad una popolazione più ampia di quella attua-le e soggetta ad un progressivo invecchiamento. Deborah Dahl, coordinatore del gruppo W3CMultimodal Interaction, afferma che la crescitadi interesse commerciale verso il multimodalederiva da tre fattori concomitanti: la già menzio-nata difficoltà d’uso dei terminali mobili, i sensi-bili miglioramenti prestazionali delle tecnologievocali, e l’ampliamento dell’infrastruttura Webche permette lo sviluppo e la diffusione di appli-cazioni complesse. Tuttavia, benché la ricerca sulla multimodalitàsia in campo da anni, le tecnologie multimodalinon hanno ancora raggiunto una maturità suf-ficiente da consentirne un uso diffuso.Loquendo, società del gruppo Telecom Italiaattiva nel mercato mondiale delle tecnologievocali, è coinvolta in progetti di ricerca e svilup-po sul multimodale da diversi anni. Questo coin-volgimento è maturato anche dalla partecipa-zione in ambiti di normativa (quali il W3C) e attra-verso la cooperazione con altri centri di ricercae aziende leader del settore.

Servizi di nuova generazioneLe interfacce multimodali possono essere appli-cate in ambiti e contesti diversi. Tra di essi vene sono alcuni in cui sono già attivi servizi pilo-ta, a cui partecipa anche Loquendo, ed altri chesembrano essere promettenti. Un primo esempio è offerto dalle applicazioniper persone diversamente abili. Le tecnologieassistive rappresentano un segmento significa-tivo del mercato vocale e potenzialmente anche

per il multimodale. Questo settore include, adoggi, prodotti per ipovedenti e per non vedentiche permettono il controllo completo dei termi-nali e l’accesso senza mediazioni a informazio-ni scritte. L’integrazione della voce con altremodalità rappresenta una possibile evoluzioneverso interfacce più personalizzabili.Sono poi numerose le circostanze in cui gli uti-lizzatori hanno mani ed occhi impegnati, qualila guida di un veicolo o ambienti lavorativi par-ticolari. Anche l’interazione uomo-macchina inquesti ambiti può essere facilitata dall’introdu-zione delle tecnologie vocali e multimodali, ecertamente le azioni legislative sull’uso dei telefo-ni cellulari in auto possono favorirne la diffusio-ne. Applicazioni possibili possono essere icomandi vocali per controllare funzioni e appa-recchiature a bordo veicolo, oppure l’interazio-ne con un navigatore. Negli ambienti lavorativi, applicazioni di voicepicking e reportistica su palmari industriali, cheintegrano la voce con altre modalità, permetto-no un notevole incremento di efficienza.I servizi di localizzazione in generale rappresenta-no un’altra area di potenziale sviluppo, per l’ac-cesso a mappe, pagine gialle, informazioni turisti-che localizzate tramite GPS, non solo in auto.Vale la pena di citare anche l’applicazione dellamultimodalità nelle banche, ad esempio per i ban-comat, dove l’aggiunta della voce rappresenta unausilio soprattutto per anziani e ipovedenti.Dal punto di vista di un operatore telefonico, iservizi che possono trarre vantaggio da inter-facce multimodali sono la lettura e la scritturadi SMS e MMS, l’interazione con la posta elet-tronica, l’Instant Messaging, la chat. Altri settori di interesse sono i call center, l’e-com-merce e l’home-banking, senza dimenticare l’im-piego di interfacce multimodali per l’intrattenimen-to, come i giochi su computer o su cellulare.Anche la domotica può diventare un settore fer-tile di applicazioni multimodali per interagire,anche da remoto, con apparecchiature elettro-niche o utilizzare il televisore tramite set-top-boxper l’accesso al Web. Infine, il Software Educativo può beneficiare del-la multimodalità impiegata, ad esempio, per faci-litare l’apprendimento delle lingue stranieremediante l’uso congiunto delle tecnologie vocalie di strumenti multimediali.

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

25

Tecnologie vocali e standardPasseremo brevemente in rassegna gli sviluppirecenti delle tecnologie vocali, mettendo in luce ilruolo rilevante che gli ambienti di normativa inter-nazionali stanno giocando in questo settore.

Recenti sviluppi delle tecnologie vocaliIl crescente interesse verso l’uso della voce siaper applicazioni tradizionali solo vocali, sia perfuture interfacce multimodali è spinto dalla matu-rità raggiunta dalle tecnologie vocali stesse. Ilcostante incremento del potere computazionaledei computer e la maggiore memoria a disposi-zione si sono rivelati fattori abilitanti e hanno per-messo l’utilizzo di algoritmi sempre più comples-si. Loquendo ha una lunga esperienza in questocampo acquisita in più di 30 anni di ricerca matu-rata in CSELT (laboratorio di ricerca di TelecomItalia) e confluita nel 2001 nell’azienda stessa.Queste sono, ad oggi, le principali aree di impie-go delle tecnologie vocali per applicazioni vocalie multimodali:

1. ASR: Automatic Speech Recognition, Riconoscimento della voce

Le prestazioni dei software di riconoscimento oggisono molto elevate e possono raggiungere per-centuali di corretto riconoscimento dell’ordine del95%-98% (anche se questi risultati valgono prin-cipalmente in ambiti specifici modellati da gram-matiche dipendenti dall’applicazione). Queste pre-stazioni hanno permesso l’impiego delle tecnolo-gie vocali in ambiti diversificati quali i call center, icentralini aziendali, le pagine bianche o gialle, l’ac-cesso ad informazioni, i portali vocali, ecc. I miglio-ramenti degli algoritmi di riduzione del rumore per-mettono applicazioni vocali in ambienti rumorosi,quali le automobili, la casa o gli ambienti pubbliciin genere, anche se ulteriori progressi sono auspi-cabili. Un altro sfidante campo di applicazione èla comprensione del parlato conversazionale espontaneo, spesso indicato con il termine di Lin-guaggio Naturale (Natural Language), che per-metterebbe lo sviluppo di interfacce vocali anco-ra più efficaci in grado di colloquiare in modoestensivo. Anche se le prestazioni possono miglio-rare, ciò nonostante sono già nate le prime appli-cazioni, ad esempio per l’accesso a orari ferro-viari o dei voli aerei (come “FS Informa” realizza-to da Loquendo per Trenitalia). Al fine di migliora-

26 I quaderni di

re le prestazioni della tecnologia in questo ambi-to è nato il progetto LUNA, co-finanziato dallaCommissione Europea nell’ambito del sesto pro-gramma quadro, area IST, che coinvolge ottorealtà tra le più avanzate a livello europeo, e di cuiLoquendo è coordinatore.Ora la nuova sfida è l’integrazione dell’inputvocale con modalità diverse.

2. TTS: Text-To-Speech, Sintesi da testoGià negli anni 1990 il TTS otteneva dei risultati diintelligibilità molto elevati, ma la voce sintetica eraancora percepita come poco naturale, robotica, eusata raramente in applicazioni vocali preferendola concatenazione di messaggi preregistrati. Ungrande passo si è avuto a metà degli anni ’90,quando è avvenuta la transizione ad una tecnologiadi sintesi basata su database di grandi dimensionistatisticamente bilanciati sulla lingua. Loquendo èstata una delle prime aziende a realizzare unprodotto con questa nuova tecnologia di sintesi,detta tecnicamente Unit Selection. Il pregio diquesta nuova generazione di TTS è la generazionedi una voce sintetica molto naturale e che trovaanche nelle interfacce multimodali, talvolta incombinazione con avatar, un ambito di applicazioneimportante, così come nell’ambito dell’accessibilità.

3. Biometriche vocaliLe tecnologie biometriche sono volte adaumentare la sicurezza verso applicazioni e datiriservati. Quest’area comprende applicazionidiverse: la verifica e l’identificazione del parlatore.La prima permette di verificare se un utentedichiarato è veritiero o un impostore, per accederead esempio ad un conto bancario. Si parla,invece, di identificazione quando una personaviene individuata all’interno di un gruppo diparlatori, per esempio per accedere alla casellapostale dei componenti di una famiglia. Tutto ciòè possibile perché la voce contiene dellecaratteristiche uniche che permettono didistinguere il parlatore e che possono essereutilizzate come marche vocali.

Attività di standardizzazione legatealla Voce e al MultimodaleIl World Wide Web Consortium (W3C) è unodei principali enti di standardizzazione per gli

TECNOLOGIE VOCALI E MULTIMODALITÀ: SOLUZIONI PER SERVIZI AVANZATI

ambiti della voce e della multimodalità, nonchédel Web in generale. Esistono due gruppi, a cuipartecipano oltre 30 organizzazioni, e Loquen-do è un membro attivo in entrambi.

1. Voice Browser Working Group(www.w3.org/voice)

Creato nel 1998, sta completando una primasuite di specifiche legate al vocale e recente-mente ha iniziato a lavorare verso una secondagenerazione di linguaggi:� Per le Applicazioni Vocali, il linguaggio piùnoto è il VoiceXML 2.0 (W3C Recommendationda marzo 2004). Con il VoiceXML non solo lo svi-luppo di applicazioni è semplificato, ma soprat-tutto viene realizzato su architettura Web. La na-scita del VoiceXML ha spinto la creazione di piat-taforme basate su di esso e di ambienti di svilup-po e soluzioni in hosting per servizi vocali.� ASR: la specifica di riferimento è Speech Re-cognition Grammar Specification (SRGS) an-ch’essa W3C Recommendation da marzo 2004,largamente adottata da prodotti di ASR dispo-nibili sul mercato (es. Loquendo ASR). Le gram-matiche SRGS possono essere descritte in dueformati omologhi: il primo basato su XML, il se-condo più compatto in formato testuale ABNF.Recentemente è in fase finale di standardizza-zione una seconda specifica, Semantic Inter-pretation for Speech Recognition (SISR), checompleta SRGS nella parte di formattazione evalidazione dei risultati di riconoscimento ed uti-lizza il linguaggio ECMAScript (dovrebbe diven-tare W3C Recommendation nel corso del 2007).� TTS: la specifica di riferimento è SpeechSynthesis Markup Language Specification(SSML) che permette il controllo di un TTS tra-mite un linguaggio XML. È largamente adotta-to dai produttori di TTS (es. Loquendo TTS) erecentemente è iniziata un’intensa attività in W3Cper favorirne l’utilizzo su lingue molto diversedall’inglese (es. lingue asiatiche: Cinese Man-darino, Coreano, Giapponese, lingue indiane,lingue semitiche, ecc.); le nuove evoluzioni con-vergeranno nella versione SSML 1.1.� Call Control: la specifica Voice Browser CallControl (CCXML) descrive un linguaggio XML ba-sato su eventi per gestire il call control, i trasferi-menti di chiamata o le audioconferenze. Questolinguaggio, benché ancora in fase di standardiz-

zazione, può generare una rivoluzione nel mondodegli IVR forse pari alla nascita del VoiceXML.

2. Multimodal Interaction Working Group (www.w3.org/2002/mmi)

Fu fondato nel 2002 con l’obiettivo di creare unacornice per lo sviluppo di applicazioni multimo-dali integrate nel contesto Web. Un notevole sfor-zo è stato dedicato a raccogliere Use Case e adefinire il Multimodal Interaction Framework. Re-centemente il lavoro si è indirizzato verso la de-finizione di un’architettura multimodale.Alcune altre specifiche in via di sviluppo in ambi-to multimodale sono: Extensible Multimodal An-notation (EMMA), linguaggio volto ad annotare inXML risultati di riconoscimento, ma anche di al-tre modalità, quali la scrittura o il gesture; una se-conda specifica è inkML, un formato XML perdati catturati da penna o stylus di interesse deiproduttori di terminali. EMMA potrebbe avere unruolo importante per standardizzare l’accesso aserver di tecnologie vocali tramite il protocolloMedia Resource Control Protocol (MRCP versio-ne 2), in via di definizione da parte di IETF.

In ambito vocale e multimodale sono poi attividue forum industriali:1. VoiceXML Forum (www.voicexml.org):fondato da AT&T, Lucent, IBM e Motorola,inventore del VoiceXML 1.0 nel 1999, sottopostopoi al W3C per la sua standardizzazione e risultatonel VoiceXML 2.0. Il VoiceXML Forum è molto attivonel promuovere education, in attività di marketinge nella creazione tramite due programmi dicertificazione, per sviluppatori VoiceXML e perpiattaforme che supportano VoiceXML 2.0 (a fine2006, erano certificate 19 piattaforme). Èimportante ricordare che la VoiceXML Review è lamigliore rivista dedicata a VoiceXML e tecnologiecollegate. Il Forum ha recentemente sponsorizzatoanche il linguaggio multimodale XHTML+VoiceXML,detto X+V, proposto da IBM, Motorola e Opera.

2. SALT Forum (www.saltforum.org): fondatoda Microsoft, Comverse, Cisco, Philips,ScanSoft e Intel, nel 2001 ha proposto illinguaggio Speech Application Language Tag(SALT), che consiste in un’aggiunta di alcunielementi a HTML/XHTML, WML, o SMIL, perfarli interoperare con la voce.

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

27

Tipi di device ed aspetti architetturaliÈ evidente che la multimodalità sia molto effica-ce su terminali piccoli, ma il suo campo di uti-lizzo è più ampio e potrebbe rivelarsi utile anchesu personal computer e tablet PC. Nei capitolisuccessivi verranno illustrate le tre categorie incui è possibile raggruppare i terminali, ossia letipologia dette “thin”, “medium” e “thick” (Fig.1); per ognuna di esse verranno descritti alcu-ni aspetti architetturali peculiari.

Thin device Gli Smart Phone e i cellulari sono detti Thin devi-ce, vale a dire terminali leggeri, perché portabilied usabili in ogni luogo coperto dalla rete mobi-le. Si tratta dei terminali più promettenti, ma allostesso tempo più difficili da gestire per gli svi-luppatori di applicazioni multimodali. Infatti, lerestrizioni in termini di potenza di calcolo, dimemoria e di capacità di connessione dati sonoancora rilevanti. Le prime applicazioni sono sem-plici, quali servizi per scaricare suonerie o sfon-di per cellulare, dove la selezione avviene trami-te il riconoscimento vocale. Altre applicazionipiù sfidanti sono le Pagine Gialle multimodalicon visualizzazione di mappe e informazioni turi-stiche. In questo tipo di interfacce multimodalila voce viene attivata tramite Push-To-Talk (PTT)e viene utilizzata principalmente per la selezio-

28 I quaderni di

ne di elementi appartenenti a liste molto lunghe,mentre le conferme possono avvenire agevol-mente tramite i tasti del terminale.L’evoluzione di più potenti terminali mobili e del-la rete UMTS ridurrà di molto le limitazioni attualie porterà a breve alla nascita di servizi multimo-dali di seconda generazione.

L’architettura di riferimento può essere server-based, in cui la logica di servizio e le tecnologievocali risiedono interamente su server (Fig. 2). Unesempio di applicazione multimodale di questotipo è il servizio offerto dalla banca spagnolaBankinter, per il quale Kirusa ha fornito l’applica-zione, integrando nella propria piattaforma mul-timodale le tecnologie di Loquendo. I servizi sonodi home-banking e di brokerage telefonico.Un’altra possibile architettura è client-servercon il riconoscimento vocale distribuito (DSR –Distributed Speech Recognition): sul serverrisiedono la logica di servizio e i componenti piùonerosi computazionalmente (Fig. 3), l’ASR èdistribuito tra il client, residente sul terminale, eil server stesso, mentre il TTS a tendere potràessere disponibile sul client.In questa architettura la parte del riconoscitoreche risiede sul terminale (Front-End) estrae i para-metri (prima fase di signal processing di un ASR)e li trasmette tramite un canale dati verso il ser-ver. Il gruppo di lavoro ETSI-DSR Aurora ha stan-

TECNOLOGIE VOCALI E MULTIMODALITÀ: SOLUZIONI PER SERVIZI AVANZATI

FIGURA 1. LE TRE CALSSI DI DEVICE.

Thin devices

SMARTPHONE

MOBILEPHONE

DESKTOP PC

LAPTOP PC

AUTOMOTIVE

TABLET PCKLOSK

HOME

PDA

Thick devices

Medium devices

dardizzato il Front-End e definito un protocollo ditrasmissione basato su RTP. Il Front-End di ETSIDSR Aurora era stato definito per comprimere ilsegnale vocale per reti a bassa banda fino a 4.8kbps ed allo stesso tempo aumentare l’accura-tezza dell’ASR rendendo la comunicazione digi-tale robusta ai degradi tipici della rete mobile. Conle nuove reti mobili le limitazioni di banda nonsono più particolarmente rilevanti, ma la com-pressione favorisce comunque un’ottimizzazio-ne nell’utilizzo della banda disponibile che, soprat-tutto in caso di applicazioni multimodali, viene uti-lizzata anche dal canale visuale.

Medium deviceUna seconda categoria di terminali è costituitada PDA e Tablet PC, spesso definiti Medium devi-ce. In questi terminali le dimensioni non sono par-ticolarmente limitate, ma sono presenti modalitàalternative, come lo stylus o una piccola tastie-ra, che possono creare ostacoli nell’usabilità.In questo gruppo sono possibili delle architetture

client-based: TTS e ASR possono essere instal-lati sul terminale, riducendo il numero di richiesteverso il server ed anche la necessità di trasmissio-ne della voce (Fig. 4). Anche le architetture descrit-te in precedenza sono possibili, soprattutto se leapplicazioni vocali sono molto complesse e richie-dono grammatiche di grandi dimensioni. Sono giàdisponibili browser che permettono l’integrazionedella voce per realizzare applicazioni multimoda-li sia tramite il linguaggio SALT sia mediante X+V.Queste soluzioni possono trarre vantaggio daconnessioni veloci basate su Wi-Fi, le applicazio-ni possibili sono quelle realizzabili in-door in azien-de (per esempio logistiche), oppure ospedali, uni-versità, ma anche in casa o in aree urbane attrez-zate, aeroporti, stazioni. Anche le applicazioni perl’uso in auto appartengono a questa categoria.Infine, possono ricadere in questo gruppo i chio-schi posizionati in luoghi pubblici, dove deve esse-re favorito l’accesso per tutti. Un primo esempioprototipale di applicazione multimodale in que-sto ambito è il MATCHKiosk creato da AT&T edisponibile in alcune città statunitensi. La sua

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

29

FIGURA 2. ARCHITETTURA SERVER-BASED SU THIN DEVICE.

FIGURA 3. ARCHITETTURA CLIENT-SERVER CON DSR AURORA.

BROWSER

MEL-CEPSTRUM

COMPRESSIONSPLIT VQ

TTS

TERMINAL DRSFRONT-END

HTTP

DSR PROTOCOL

WIRELESS DATACHANNEL

HTTP

VOICE SS PROTOCOL

Thin devices

BROWSER

Thin devices Server side

Voice extraction

Server side

ERRORPROTECTION

ERROR DETECTIONE MITIGATION

DECOMPRESSION

DPEECHSERVER

SERVERDRS

BACK-END

RECOGNITIONDECODER

WEB APPLICATION

WEB APPLICATION

SPEECH SERVER

interfaccia è un touch-screen che supporta anchel’utilizzo della penna come input e fornisce infor-mazioni turistiche integrando la voce sintetica conun operatore virtuale visibile sullo schermo.

Thick deviceEsiste un’ultima categoria di terminali rappre-sentata dai PC (desktop o laptop), qui indicati

30 I quaderni di

come Thick device. In questo caso la dimensio-ne dello schermo e della tastiera non rappre-sentano una limitazione; le tecnologie vocali pos-sono essere installate direttamente sul PC e, nelcaso di ambiente Microsoft, integrate facilmen-te mediante interfaccia SAPI. In questo contesto le tecnologie vocali e la multi-modalità possono arricchire giochi o integrare ava-tar in applicazioni Web. La voce, inoltre, può esse-re utilizzata come tecnologia biometrica per garan-tire o limitare l’accesso a risorse o dati sensibili.Infine, le tecnologie vocali, soprattutto se inte-grate con altre modalità, potrebbero ricoprireun ruolo fondamentale nel favorire l’accessibi-lità per persone diversamente abili.

ConclusioniLa multimodalità è la nuova frontiera dell’intera-zione uomo-macchina del terzo millennio. Essarappresenta una significativa opportunità per glioperatori di telecomunicazioni di incrementare ipropri ricavi attraverso la differenziazione dell’of-ferta e la spinta all’uso intensivo della rete.Sebbene debbano ancora essere superatenumerose barriere tecnologiche, tuttavia l’osta-colo maggiore resta l’utente: il dialogo con unamacchina è ancora considerato innaturale e spes-so, come ad esempio negli ambienti affollati, poneproblemi di privacy. Il punto chiave su cui foca-lizzarsi è l’accettabilità della tecnologia, e ciò potràaccadere solo se i fornitori tecnologici saprannorendere le interfacce personalizzabili, assicuran-do la libertà di scegliere come e quando privile-giare alcune modalità rispetto alle altre; sarà altre-sì necessario riuscire a far percepire i vantaggiagli utilizzatori, ma per questo occorrono appli-cazioni e servizi in grado di sfruttare al meglio lepotenzialità della multimodalità.

Paolo Baggia, Silvia Mosso Loquendo

TECNOLOGIE VOCALI E MULTIMODALITÀ: SOLUZIONI PER SERVIZI AVANZATI

FIGURA 4. ARCHITETTURA CON TECNOLOGIE VOCALI EMBEDDED (CLIENT-BASED).

BROWSER

TTS

ASR

Medium devices

HTTP

Server side

WEB APPLICATION

A C R O N I M I

ABNF Augmented Backus-Naur FormAP Application Programming InterfaceASR Automatic Speech RecognitionCCXML Call Control Markup LanguageDSR Distributed Speech RecognitionEMMA Extensible MultiModal AnnotationETSI European Telecommunications

Standards InstituteGPS Global Positioning SystemHTML Hypertext Markup LanguageIETF Internet Engineering Task ForceIST Information Society TechnologiesMMS Multimedia Messaging ServiceMRCP Media Resource Control ProtocolPDA Personal Digital AssistantPTT Push To TalkSALT Speech Application Language TagsSAPI Speech APISISR Semantic Interpretation for Speech RecognitionSMIL Synchronized Multimedia Integration LanguageSMS Short Message ServiceSRGS Speech Recognition Grammar SpecificationSSML Speech Synthesis Markup LanguageTTS Text To SpeechWi-Fi Wireless FidelityWML Wap Markup LanguageW3C World Wide Web ConsortiumXHTML Extensible Hypertext Markup LanguageXML Extensible Markup LanguageX+V XHTML+VoiceXML

L’esigenza della “resocontazione”, cioè lapubblicazione (su carta o su qualsiasi al-tro medium) del testo di quanto viene det-

to da un oratore, può considerarsi connessa allastessa comunicazione del pensiero. Il valore deldiscorso si accresce e si rinnova con la sua diffu-sione, raggiungendo categorie di utenti più am-pie e diverse. A questa attività si dedicava Tirone,che ci ha tramandato le brillanti arringhe di Cice-rone; ricordiamo anche i reports del Parlamentoinglese pubblicati sulla stampa londinese che con-sentivano di conoscere i discorsi parlamentari.Malgrado gli enormi progressi tecnici, l’esigenzadi “rendere conto” (compte rendu in francese)appare oggi più vera che mai, poiché è legata aldiritto alle informazioni che caratterizza le societàdi democrazia avanzata e industrializzate.Storicamente per la redazione dei resoconti par-lamentari e giornalistici è stata utilizzata la ste-nografia. L’origine di questa tecnica è collega-ta alla sfida dell’uomo di fissare velocemente efedelmente il discorso. In passato non esistevaaltro mezzo idoneo a fissare il parlato con lastessa completezza e celerità dei metodi abbre-viativi, che furono impiegati in ogni parte delmondo. L’identificazione fra stenografia e reso-contazione si è perpetuata fino ai giorni nostried è per questa antica “esclusiva” che ancoraoggi nelle Assemblee elettive di molti paesi colo-ro che provvedono alla redazione del resocon-to sono qualificati “stenografi”.Contemporaneamente alla invenzione della mac-china per scrivere (o forse anche prima), sul fini-re del XIX secolo, furono brevettate le primemacchine stenotipiche; ricordiamo il sistemafonografico di Antonio Michela Zucco in Italia,la macchina Stenograph negli Stati Uniti e laGrand Jean in Francia. La stenotipia conserva i caratteri peculiari dellastenografia: il metodo abbreviativo, dal quale siricavano le “sigle”, e l’investigazione dei trattisalienti del linguaggio al fine di rappresentarloin segni (per esempio, l’approccio fonetico). Tut-tavia introduce alcuni elementi innovativi che piùtardi si riveleranno decisivi e discriminanti, con-sentendo una trattazione più flessibile ed effica-ce del parlato. Si considerino, in proposito, le

lungimiranti intuizioni di Antonio Michela, il qua-le nell’atto di privativa industriale del suo appa-recchio fonografico ne sottolineava le prospet-tive di utilizzo “per la riproduzione di un discor-so per mezzo dell’elettricità” e “per utilizzare larecente e portentosa invenzione del telefono”(E. Angeloni e P. Michela Zucco, Il sistema ste-nografico Michela, Colombo, Roma 1984, pag.VIII). La rivoluzione informatica che si verificheràcento anni dopo quelle scoperte realizzerà ilsogno di Michela: l’utilizzo della stenotipia nel-la sottotitolazione in tempo reale per i non uden-ti costituisce l’attuale punto di arrivo!

Il riconoscimento del parlatoPiù recentemente, il perfezionamento del rico-noscimento automatico del parlato ha amplia-to il novero dei mezzi a disposizione. Il resocon-tista non ha più bisogno di una abilità “costrui-ta”, come era nel caso della stenografia e dellastenotipia, che richiedevano un lungo proces-so formativo; si serve della sua abilità naturale,ascolta e ripete con la voce le parole pronun-ciate dall’oratore, che vengono riconosciute etrasformate in testo scritto da un appositosoftware. Anche il riconoscimento vocale, oggilargamente usato per la redazione dei resocon-ti parlamentari e giudiziari, conserva le caratte-ristiche tipiche delle scritture veloci. Lo studio e l’addestramento all’uso razionale del-la tastiera del computer danno nuovo smalto edefficacia anche alla dattilografia, impiegata in pas-sato solo per copiare manoscritti: essa si aggiun-ge agli altri svariati metodi di ripresa del parlato.L’affermarsi di tecniche e tecnologie che (anche)per la loro adattabilità informatica si discostanoda quelle stenografiche mette in crisi l’identifi-cazione storica fra resocontazione e stenogra-fia e rimuove il pregiudizio che solo lo stenografomanuale o lo stenotipista possano svolgere lafunzione del resocontista.

La resocontazione oggiOggi si considera meno rilevante lo strumento uti-lizzato per riprendere e trascrivere un discorso.

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

31

La resocontazione multimodale

Convivono tecniche e tecnologie diverse e ugual-mente efficaci. Per esempio, la Camera dei depu-tati ha abbandonato la stenografia ed è passataall’impiego del riconoscimento del parlato e dellaregistrazione per la redazione dei resoconti ste-nografici, mentre in Senato un nuovo programmaconsente di sfruttare informaticamente la stenoti-pia Michela. Il Parlamento tedesco, che in occa-sione del trasferimento a Berlino avrebbe potutoriconsiderare l’organizzazione del lavoro di reso-contazione, ha invece confermato l’impiego dellastenografia manuale, mentre la House of Com-mons inglese si affida a gruppi di dattilografi chetrascrivono le registrazioni digitali delle sedute. Tec-niche e organizzazioni del lavoro analoghe sonoutilizzate anche in Austria, in Svizzera, in Francia.L’esclusività dello strumento stenografico erastata messa in discussione già in precedenzadall’avvento della registrazione. Essa ha offertoall’uomo la possibilità di dare eternità alle sueparole, al tono e all’enfasi del discorso, in modocompleto, fedele, esaustivo. Più tardi la registra-zione digitale ha aggiunto ulteriore ricchezza:non solo la riproduzione delle parole, ma ancheuna trasformazione in “dati” che ammette queisuoni alla archiviazione, alla ricerca, alla trasmis-sione, all’accesso a distanza. Sono state sviluppate sofisticate tecniche di “tra-scrizione automatica” dei discorsi che sfruttanole tecnologie del riconoscimento del parlato. Que-sti programmi basati sulle ricerche nel campo delTrattamento automatico del linguaggio, offronopossibilità che erano impensate solo pochi annifa: il computer trascrive automaticamente quan-to dice l’oratore, con livelli di riconoscimento assaisoddisfacenti. Inoltre, in base all’individuazione diparole chiave o frasi può classificare il discorso ola trasmissione (per esempio un servizio giornali-stico televisivo), può sintetizzare, può tradurre inuna o più lingue straniere eccetera.Si domanda a cosa serva uno stenografo se c’èil registratore? È più difficile immaginare che l’at-tività del “resocontista” sia assorbita dalla tra-scrizione automatica; l’aiuto che offre la regi-strazione digitale comunque è evidente.

L’utilità della stenografiaSe è vero che il registratore è il migliore ste-nografo (lo sanno bene i resocontisti), la

32 I quaderni di

domanda sull’utilità dello stenografo nell’eradella registrazione digitale riflette la perdu-rante confusione fra ripesa del parlato e trat-tamento della comunicazione, ignorando ilvalore cruciale di quella che chiamiamo reso-contazione. Che non consiste semplicemen-te nella riproduzione delle parole pronuncia-te, ma è una attività complessa di trattamen-to intellettuale e linguistico della manifesta-zione del pensiero (grammaticale, sintattico,estetico eccetera), con il fine di renderla pub-blica per destinatari e con modi diversi. Inquesto consiste l’apporto più difficile, più pre-zioso del resocontista. Ma la trattazione di un evento di comunicazio-ne non si limita all’intervento intellettuale. C’è ilproblema della forma, del modo, del mezzo concui si raggiunge l’utente (quale utente? Qualiesigenze?). Si tratta di individuare la maniera piùefficace per fornire un’informazione completa,mirata, tempestiva. Si può parlare allora di resoconto multimediale omultimodale. Abbandonato l’abito stretto dellastenografia, la resocontazione utilizza mezzi diver-si (multimediale) e si concretizza in vari prodotti omodi di accesso alle informazioni (multimodale).

Oggi si conviene sul fatto che:� il testo scritto non è l’unica forma di accesso

alle informazioni.� la trascrizione da sola non facilita la compren-

sione dei concetti espressi.� la trascrizione di un discorso è solo il punto

di partenza della resocontazione.� gli utenti dell’informazione non sono uguali e uti-

lizzano diversi media per accedere a un evento.� gli strumenti della comunicazione sono molte-

plici e non alternativi, essi concorrono alla diffu-sione delle informazioni e della conoscenza.

La maggiore consapevolezza dei vantaggi diuna trattazione approfondita e organica dellacomunicazione favorisce la domanda di servi-zi qualificati. Il cliente che commissiona la tra-scrizione di un convegno sarebbe sorpreso sericevesse la semplice scrittura di quanto dettodagli oratori, vuole un testo di qualità, leggibi-le, chiaro, scorrevole. Una trascrizione pura esemplice ha un valore del tutto trascurabile ri-spetto a un resoconto leggibile, logico, com-

LA RESOCONTAZIONE MULTIMODALE

pleto, corretto nei riferimenti, nelle informazio-ni che vi compaiono. Per comprendere il valore del resoconto dob-biamo cogliere di cosa c’è dietro la trascrizionedel testo: il “metaresoconto” è l’efficacia infor-mativa che assume il discorso con la pubblica-zione (su carta, su Internet, su uno schermotelevisivo).

Esempi di resocontazione multimodaleL’immissione in una banca dati di una serie diverbali (per esempio quelli delle udienze pena-li) produce un archivio dove si può ricercare,estrapolare, incrociare le informazioni a fini mol-teplici. In ambito giudiziario si va diffondendoanche il cosiddetto “fascicolo elettronico del pro-cesso”: la trascrizione dei dibattimenti si uniscealla documentazione del procedimento, alle regi-strazioni audio/video delle udienze, alle foto deireperti o alla scansione di documenti cartacei,in un CD-Rom all’interno del quale si può navi-gare agevolmente alla ricerca degli elementi dimaggiore interesse. Consideriamo i siti Internet della Camera e delSenato dove l’utente può trovare l’audio e ilvideo delle sedute in corso o di quelle passate.

Un tempo lo stenografo si limitava a redigere iltesto degli interventi, il resoconto stenografico.Oggi le forme di pubblicità dei lavori parlamen-tari sono più complesse e complete, vengonocorredate da un mezzo comunicativo formida-bile, le immagini, ed è possibile ricercare deter-minate parole, frasi, oratori e così via. È unamodalità di accesso del tutto nuova: non soloperché è più piacevole e coinvolgente, ma per-ché realizza un prodotto (digitale) che può esse-re utilizzato in molteplici varianti. Ad esempio,può essere fruito senza intermediazioni da chiun-que in casa propria grazie ala crescente diffu-sione delle connessioni veloci. Inoltre, si trattadi dati che possono essere archiviati e gestiti inmodo flessibile. Il resoconto sommario, cioè la sintesi dei con-cetti e delle decisioni principali di una riunione,aggiunge ai discorsi degli oratori il pregio del-l’agilità e dell’efficacia informativa. Per redigereun resoconto sommario sono necessarie com-petenze professionali specifiche e un approfon-dimento accurato delle materie trattate, percogliere il significato essenziale, il fine degli inter-venti.La sottotitolazione di una lezione universitaria odelle relazioni in un convegno, oltre alla trascri-

MARZO 2007

CRESCE LA MULTIMODALITÀ NELLA COMUNICAZIONE

33

FIGURA 1. IL SENATO DELL’ANTICA ROMA NELL’AFFRESCO DI CESARE MACCARI

zione di quanto esposto, consente l’accessodel non udente a informazioni che altrimenti glisarebbero precluse. La sincronizzazione dell’audio o di un videocon il testo del suo contenuto, rappresentaun’eccezionale strumento per ricercare nel filemultimediale il punto in cui sono state pronun-ciate determinate parole o ha iniziato a parla-re un oratore.Una ricaduta positiva la resocontazione multi-mediale e multimodale la determina anche sul-le prospettive professionali. La “liberazione” dalmezzo utilizzato (stenografia, stenotipia, ricono-scimento del parlato) e la rinnovata aderenza al

34 I quaderni di

valore intellettuale del prodotto consentono alresocontista di rilanciare la propria attività, in unepoca e in una società in cui l’accesso alle infor-mazioni costituisce una chiave essenziale dellaconoscenza. In questa prospettiva, quella della resocontazio-ne appare una multimedialità “evolutiva”, con-notata da una accentuata flessibilità, da una ele-vata innovazione tecnologica, dall’economicitàdel prodotto, da un’efficacia realmente misura-bile in termini di quantità e qualità.

Fausto Ramondelli Senato della Repubblica

LA RESOCONTAZIONE MULTIMODALE

FIGURA 2. FIGURA 2. LA MACCHINA STENOGRAFICA MICHELA.