1 La refertazione vocale assistita al computer: quali sviluppi Cortina dAmpezzo – Venerdì 25...

Post on 01-May-2015

216 views 3 download

Transcript of 1 La refertazione vocale assistita al computer: quali sviluppi Cortina dAmpezzo – Venerdì 25...

11

La refertazione vocale assistita al computer: quali sviluppi

Cortina d’Ampezzo – Venerdì 25 maggio, 2007

2

La tecnologia ASR►Concettualmente semplice da comprendere ed

utilizzare: un software di riconoscimento vocale riconosce ciò che già

conosce, tramite un’operazione di confronto tra ciò che ascolta e quanto aveva già ascoltato.

►È altrettanto complesso e sofisticato per produrre risultati eccellenti in tempo reale Gestisce un alto grado di variabilità del segnale audio

“speech” Si basa sul confronto di entità analogiche da parte di

strumenti digitali

3

Architettura di un motore ASR

Context o Topic

Input vocaleConversione A/D

&Feature Calculation

Ricerca o Classificazione

Referenze acustiche

Vocabolario (Lexicon)

Modello statistico di linguaggio

(Language model)

Frase riconosciuta

4

L’alta variabilità del segnale audio costringerebbe all’utilizzo di un numero di variabili enorme:

Si utilizza una procedura di semplificazione e combinazione delle variabili, pur descrivendo i dati con una accuratezza sufficiente.

Feature calculation

Elaborazione molto lenta Generalizzazione e

impoverimento dati acquisiti

Context o Topic

Input vocaleConversione A/D

&Feature Calculation

Ricerca o Classificazione

Referenze acustiche

Vocabolario (Lexicon)

Modello statistico di linguaggio

(Language model)

Frase riconosciuta

5

Referenze Acustiche

► Il modello acustico contiene le informazioni sulla pronuncia dei fonemi.

► Serve per calcolare la distanza tra i vettori calcolati ed i vettori campione contenuti nel modello.

► I moderni sistemi di riconoscimento vocale analizzano i fonemi in un contesto destro-sinistro

Context o Topic

Input vocaleConversione A/D

&Feature Calculation

Ricerca o Classificazione

Referenze acustiche

Vocabolario (Lexicon)

Modello statistico di linguaggio

(Language model)

Frase riconosciuta

6

Hidden Markov Models► Modello statistico utilizzato per il riconoscimento delle

sequenze di fonemi.► Calcola la pronuncia di una unità acustica (triphone) oltre a

velocità e frequenza. ► Modello semplice e robusto per il quale esistono potenti

algoritmi di ottimizzazione.

Context o Topic

Input vocaleConversione A/D

&Feature Calculation

Ricerca o Classificazione

Referenze acustiche

Vocabolario (Lexicon)

Modello statistico di linguaggio

(Language model)

Frase riconosciuta

7

ConText o Topic

► Lexicon: tutte le parole che devono essere riconosciute con informazioni relative alla loro pronuncia.

Lesioni lacunari ischemiche il corrispondenza di...

Lesioni lacunari ischemiche in corrispondenza di...

►Language Model o modello statistico di linguaggio

CORPUSReferto

1Mil. di paroleArticolo “il”, 50.000 occorrenze: 5%

Preposizione “in”, 4.000 occorrenze: 0,4%

Context o Topic

Input vocaleConversione A/D

&Feature Calculation

Ricerca o Classificazione

Referenze acustiche

Vocabolario (Lexicon)

Modello statistico di linguaggio

(Language model)

Frase riconosciuta

8

Ricerca o classificazione

► Intende trovare la sequenza di parole più probabile, all’interno di tutte le sequenze possibili.

1. Analisi dei singoli fonemi, calcolando la distanza tra i vettori calcolati ed i vettori campione (referenze acustiche)

2. Il Lexicon o vocabolario cerca le parole di senso compiuto tra le combinazioni possibili di fonemi

3. Il Language Model utilizza i risultati per ricercare ipotesi di concatenazione di parole

► Durante il processo le numerose ipotesi ai vari livelli vengono valutate o ignorate, a seconda che siano ritenute valide o meno, mostrando al termine del processo l’ipotesi più probabile (e le n più probabili tra le alternative). Il tutto in tempo reale. Context o Topic

Input vocaleConversione A/D

&Feature Calculation

Ricerca o Classificazione

Referenze acustiche

Vocabolario (Lexicon)

Modello statistico di linguaggio

(Language model)

Frase riconosciuta

9

L’efficienza va oltre l’accuratezza

► Un futuro in cui le tecnologie più sofisticate saranno controllate da interfacce naturali è già disponibile.

► Solo combinando ergonomia e tecnologia, è possibile il raggiungimento degli obiettivi che le soluzioni di refertazione vocale si prefiggono: riduzione dei costi e dei tempi con significativo aumento della produttività. Sovraccarico di lavoro per il medico, con la refertazione vocale diretta: 20

sec. max a referto. * La maggior parte del tempo è spesa nelle fasi precedenti alla dettatura

dell’esame da refertare.L’ergonomia del sistema incide almeno quanto l’accuratezza.

► Alte prestazioni ed un'interfaccia ergonomica per una soluzione che si adatti alle proprie abitudini lavorative.

(*) Tali valori diminuiscono in funzione dell’esperienza acquisita sul nuovo processo di refertazione.

10

Campi multipliUn futuro in cui le tecnologie più sofisticate saranno controllate da interfacce naturali è già disponibile.

11

Il futuro della refertazione è adesso

►I professionisti offriranno un servizio migliore, quanto più i sistemi potranno consentire condivisione di informazioni e libertà di movimento.

►Le nuove tecnologie consentono questo cambiamento purché supportate da competenza ed esperienza nel settore.

12

Sistema phSyncro/phWare

Intranet VPN

Intranet VPN

Disaster RecoveryServerDatabase

ControlPanelWorkStation

Remote Site

Remote Site

WorkStations

WorkStations

Nodo

Nodo

13

Potenziali aree di sviluppo

► Correzione del rumore. Database di possibili rumori di fondo (campionamento).

► Dispositivi di dettatura. Diverse aziende, tra cui Microsoft, concordano nell’affermare che utilizzando più microfoni (microphone array) aumentano le possibilità di distinzione tra rumori di fondo e parlato.

► Controllo del movimento delle corde vocali. Questa teoria in fase di studio presso i laboratori Laurence Livermore utilizza tecnologie radar per identificare il movimento delle corde vocali.

► Natural language understanding. L’unione del Natural Language Processing (NLP) e riconoscimento vocale in continuo rappresenta un interessante sviluppo per aggiungere valore al processo clinico tramite estrazione automatica di contenuti e dati clinici esatti da una dettatura in testo libero.

14

Un futuro luminoso: oltre il 100% dell’accuratezza?

► Non più trascrizione letterale, ma interpretazione del significato. Grammatiche per la formattazione automatica di misure, numeri, date,

ecc... Varianti ortografiche Gestione esitazioni Brevi ripetizioni Tosse Punteggiatura automatica

► Maggiore accuratezza + maggiore capacità di calcolo = maggiore capacità di disambiguazione, e quindi vocabolari più ampi, multidisciplinari.

15

Caveat emptor!

“La tecnologia ASR dovrebbe riconoscere qualsiasi parola pronunciata.” - Chi crede che basti pronunciare una qualsiasi parola itaiana e questa verrà trascritta sarà deluso.

► Valutazione in ambiente reale dai reali utilizzatori.► Leggere un referto e dettare un referto sono procedure diverse.► Test in presenza di rumori di fondo.► Disambiguazione di parole brevi (monosillabe) - The Short Word

Phenomenom► In generale i sistemi di riconoscimento vocale mostrano le

prestazioni più alte nei domini in cui le applicazioni sono state create: se utilizziamo un vocabolario di Corrispondenza Generale per dettare un referto Radiologico, probabilmente i risultati saranno scarsi. Ma non si dimostra nulla.

16

Grazie

G.S.T. S.r.l.Via Maccani, 5438100 TRENTO – ItalyPhone +39 0461 431333Fax +39 0461 431334

FilialeCentro Torri Bianche . Palazzo QuerciaVia Torri Bianche, 920059 Vimercate (MI) – ItalyPhone +39 039 608 4252

http://www.gsttn.itMarco BiraghiDirettore Generale mobile +39 335 7272911

e-mail: mbiraghi@gsttn.it