INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF...

14
INVERSIONE DI UN MODELLO FISICO DELL’APPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli Laureando: Enrico Marchetto Università degli Studi di Padova Dipartimento di Ingegneria dell’Informazione TESI DI LAUREA A.A. 785 – 2006/2007

Transcript of INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF...

Page 1: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

INVERSIONE DI UN MODELLO FISICO DELL’APPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF

Relatore: Dott. F. Avanzini

Correlatore: Dott. C. Drioli

Laureando: Enrico Marchetto

Università degli Studi di PadovaDipartimento di Ingegneria dell’Informazione

TESI DI LAUREA

A.A. 785 – 2006/2007

Page 2: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

Sommario Sintesi della voce mediante il calcolatore Modello fisico della glottide L’impulso glottale ed il codebook diretto Il problema inverso La programmazione dinamica Le Radial Basis Function Networks Realizzazione e risultati

Page 3: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

La sintesi vocale Produzione di un segnale vocale mediante il

calcolatore a partire da un testo scritto Obiettivi

Parlato intelligibile Presenza di emotività nel parlato sintetico

Sintesi per modelli fisici Usa esclusivamente segnali sintetici e non fa ricorso

ad alcun tipo di sorgente registrata

Synthesis-by-analysis Sintetizza un parlato il più simile possibile ad una

registrazione di partenza

Page 4: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

Modellazione mediante equazioni del comportamento fisico di tutti gli organi legati al processo di fonazione

Pro: Controllo accurato della sintesi Possibilità di riprodurre voice quality, identità del parlatore, ecc. Codifica efficiente del parlato

Contro: Modelli ancora non del tutto soddisfacenti Costi computazionali più elevati Assenza di efficaci tecniche di controllo Complessità delle tecniche di inversione

Motivazione al lavoro di tesiContributo al problema aperto di inversione del modello

Il modello fisico

Page 5: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

Il modello fisico Due parti principali:

Il tratto vocale Sequenza di tubi acustici

La glottide; sistema non lineare tempovariante

Modello meccanico del moto delle corde vocali

Descrizione fluidodinamica della colonna d’aria

Lavoro incentrato sul solo modello della glottide No tratto vocale No

consonanti Riferimento soli suoni vocalici

Contengono la maggior parte dell’informazione sul parlatore e sulla voice quality/emotività

Page 6: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

Il controllo del modello Attivazioni muscolari

Crico-tiroideo Tiro-aritenoideo Crico-aritenoideo laterale Pressione subglottale

Conversioni di dominio Attivazioni muscolari in parametri

geometrici Par. geometrici in par. meccanici

Parametri acustici misurati negli istanti critici dell’impulso f0, OQ, SQ, OingQ, CingQ, RQ

Costruzione di un Codebook Vettori di attivazione muscolare Vettori di par. acustici misurati Coppie <attivazione, v. acustico>

Page 7: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

E’ dato un impulso glottale i cui parametri acustici sono noti Stimare le attivazioni muscolari che portano alla sintesi di

un impulso con parametri acustici “simili” a quelli dati Non-univocità del problema

E’ noto che diverse impostazioni muscolari comportano la produzione del medesimo flusso glottale

Approccio al problema proposto nel presente lavoro: Impiego di sequenze di impulsi glottali: il frame acustico Minimizzazione dello sforzo articolatorio mediante opportune

funzioni di costo Simile a quanto accade fisiologicamente

Applicazione delle funzioni di costo al frame acustico E’ possibile imporre la continuità delle attivazioni muscolari durante il

frame e nella transizione tra frame adiacenti

Il problema inverso

Page 8: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

Costruzione di un codebook inverso Coppie <v. acustico, attivazione> Ciascun vettore acustico può essere

associato a diverse attivazionielevato numero di non-univocità

Funzione di costo:

Ricerca dell’ottimo globale della funzione di costo Problema con sottostruttura ottima Presenza di sottoproblemi ripetuti

Programmazione dinamica Fase forward: calcolo della f. di costo Backtracking: minimizzazione

La programmazione dinamica

)(min)( ,12,1,

2

2

1,

kkjki

kjk

ki ff vvvcxv

Ascissa: sequenza di v. acustici

Ordinata: vettori di attivazione associati a ciascun v. acustico ottenuti dalla ricerca nel codebook inverso

Traccia: scelta ottima trovata con il backtracking

Page 9: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

Le Radial Basis Function Networks Si tratta di reti neurali adatte a

risolvere problemi di interpolazione Basate sulla pesatura di funzioni

gaussiane radiali Teoria della regolarizzazione

Il codebook inverso ha cardinalità finita e presenta problemi dovuti alla discretizzazione

Le reti RBF permettono di interpolare lo spazio delle attivazioni del codebook inverso; interpolazione

46 RR Necessità di preparare il codebook inverso per l’interpolazione

Reti RBF efficaci solo con funzioni Presenza di non univocità il codebook non è descrivibile come

funzione

Page 10: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

Il codebook interpolato Per applicare le RBF al codebook inverso è

essenziale che in ogni subcluster non ci siano non univocità Suddivisione dello spazio acustico (vettori

acustici) in cluster e sottocluster Suddivisione dello spazio delle attivazioni in

subcluster privi di non-univocità

Realizzazione di un algoritmo ad-hoc per l’individuazione delle ipersuperfici in R4

Sequenza datadi vettori acustici

Interpolazionecon reti RBF

Ottimizzazione conProg. Dinamica

Sequenza ottimadi vettori di attivazione

NxM vett. di attivazione

N vett. acusticiN vett. di attivazione

Sottocluster

ClusterSpazio acustico

SubclusterSpazio delle attivazioni

Page 11: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

Realizzazione e risultati Realizzazione di tutto il software in ambiente Matlab Creazione dei codebook diretto, inverso e con pesi delle RBF Inseguimento di un segnale fittizio per la taratura della f. di costo

Lookup inverso con ottimizzazione mediante pro-grammazione dinamica

Lookup nel codebook diretto per verificare le attivazioni trovate

Page 12: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

Realizzazione e risultati Identico processo della precedente diapositiva, ma usando reti RBF

Si noti la maggior continuità delle attivazioni muscolari

Lookup inverso con ottimizzazione mediante pro-grammazione dinamica

Lookup nel codebook diretto per verificare le attivazioni trovate

Page 13: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

Realizzazione e risultati Risintesi di un segnale vocale registrato Procedura utilizzata

Filtraggio inverso del segnale con estrazione formanti e flusso glottale Traslazione vettori acustici entro il range del codebook inverso Lookup inverso per ottenere i vettori di attivazione Risintesi del flusso glottale Convoluzione del flusso glottale sintetico con i formanti

Vettori acustici: originali e della risintesi

Page 14: INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

Conclusioni L’approccio al problema si è rivelato corretto

Le funzioni di costo portano ad un opportuno inseguimento dei vettori di ingresso, garantendo nel contempo buona continuità delle attivazioni

Le programmazione dinamica riduce la complessità esponenziale del problema di minimizzazione ed evita i sottoproblemi ripetuti

Le reti neurali portano ad interpolazioni corrette che, pur in misura minore rispetto alle aspettative, migliorano le prestazioni del codebook

Corretto inseguimento del segnale fittizio di riferimento Risintesi di buona qualità di un suono vocalico registrato con

variazioni di pitch e voice quality Realizzazione del pacchetto di algoritmi necessari

Interfaccia utente grafica per l’inversione e per l’impiego del codebook Futuri sviluppi

Procedure analiticamente corrette per tarare le reti neurali Necessità di un modello fisico di qualità migliore Introduzione del modello del tratto vocale ed ottimizzazione congiunta