INVERSIONE DI UN MODELLO FISICO DELL’APPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF
Relatore: Dott. F. Avanzini
Correlatore: Dott. C. Drioli
Laureando: Enrico Marchetto
Università degli Studi di PadovaDipartimento di Ingegneria dell’Informazione
TESI DI LAUREA
A.A. 785 – 2006/2007
Sommario Sintesi della voce mediante il calcolatore Modello fisico della glottide L’impulso glottale ed il codebook diretto Il problema inverso La programmazione dinamica Le Radial Basis Function Networks Realizzazione e risultati
La sintesi vocale Produzione di un segnale vocale mediante il
calcolatore a partire da un testo scritto Obiettivi
Parlato intelligibile Presenza di emotività nel parlato sintetico
Sintesi per modelli fisici Usa esclusivamente segnali sintetici e non fa ricorso
ad alcun tipo di sorgente registrata
Synthesis-by-analysis Sintetizza un parlato il più simile possibile ad una
registrazione di partenza
Modellazione mediante equazioni del comportamento fisico di tutti gli organi legati al processo di fonazione
Pro: Controllo accurato della sintesi Possibilità di riprodurre voice quality, identità del parlatore, ecc. Codifica efficiente del parlato
Contro: Modelli ancora non del tutto soddisfacenti Costi computazionali più elevati Assenza di efficaci tecniche di controllo Complessità delle tecniche di inversione
Motivazione al lavoro di tesiContributo al problema aperto di inversione del modello
Il modello fisico
Il modello fisico Due parti principali:
Il tratto vocale Sequenza di tubi acustici
La glottide; sistema non lineare tempovariante
Modello meccanico del moto delle corde vocali
Descrizione fluidodinamica della colonna d’aria
Lavoro incentrato sul solo modello della glottide No tratto vocale No
consonanti Riferimento soli suoni vocalici
Contengono la maggior parte dell’informazione sul parlatore e sulla voice quality/emotività
Il controllo del modello Attivazioni muscolari
Crico-tiroideo Tiro-aritenoideo Crico-aritenoideo laterale Pressione subglottale
Conversioni di dominio Attivazioni muscolari in parametri
geometrici Par. geometrici in par. meccanici
Parametri acustici misurati negli istanti critici dell’impulso f0, OQ, SQ, OingQ, CingQ, RQ
Costruzione di un Codebook Vettori di attivazione muscolare Vettori di par. acustici misurati Coppie <attivazione, v. acustico>
E’ dato un impulso glottale i cui parametri acustici sono noti Stimare le attivazioni muscolari che portano alla sintesi di
un impulso con parametri acustici “simili” a quelli dati Non-univocità del problema
E’ noto che diverse impostazioni muscolari comportano la produzione del medesimo flusso glottale
Approccio al problema proposto nel presente lavoro: Impiego di sequenze di impulsi glottali: il frame acustico Minimizzazione dello sforzo articolatorio mediante opportune
funzioni di costo Simile a quanto accade fisiologicamente
Applicazione delle funzioni di costo al frame acustico E’ possibile imporre la continuità delle attivazioni muscolari durante il
frame e nella transizione tra frame adiacenti
Il problema inverso
Costruzione di un codebook inverso Coppie <v. acustico, attivazione> Ciascun vettore acustico può essere
associato a diverse attivazionielevato numero di non-univocità
Funzione di costo:
Ricerca dell’ottimo globale della funzione di costo Problema con sottostruttura ottima Presenza di sottoproblemi ripetuti
Programmazione dinamica Fase forward: calcolo della f. di costo Backtracking: minimizzazione
La programmazione dinamica
)(min)( ,12,1,
2
2
1,
kkjki
kjk
ki ff vvvcxv
Ascissa: sequenza di v. acustici
Ordinata: vettori di attivazione associati a ciascun v. acustico ottenuti dalla ricerca nel codebook inverso
Traccia: scelta ottima trovata con il backtracking
Le Radial Basis Function Networks Si tratta di reti neurali adatte a
risolvere problemi di interpolazione Basate sulla pesatura di funzioni
gaussiane radiali Teoria della regolarizzazione
Il codebook inverso ha cardinalità finita e presenta problemi dovuti alla discretizzazione
Le reti RBF permettono di interpolare lo spazio delle attivazioni del codebook inverso; interpolazione
46 RR Necessità di preparare il codebook inverso per l’interpolazione
Reti RBF efficaci solo con funzioni Presenza di non univocità il codebook non è descrivibile come
funzione
Il codebook interpolato Per applicare le RBF al codebook inverso è
essenziale che in ogni subcluster non ci siano non univocità Suddivisione dello spazio acustico (vettori
acustici) in cluster e sottocluster Suddivisione dello spazio delle attivazioni in
subcluster privi di non-univocità
Realizzazione di un algoritmo ad-hoc per l’individuazione delle ipersuperfici in R4
Sequenza datadi vettori acustici
Interpolazionecon reti RBF
Ottimizzazione conProg. Dinamica
Sequenza ottimadi vettori di attivazione
NxM vett. di attivazione
N vett. acusticiN vett. di attivazione
Sottocluster
ClusterSpazio acustico
SubclusterSpazio delle attivazioni
Realizzazione e risultati Realizzazione di tutto il software in ambiente Matlab Creazione dei codebook diretto, inverso e con pesi delle RBF Inseguimento di un segnale fittizio per la taratura della f. di costo
Lookup inverso con ottimizzazione mediante pro-grammazione dinamica
Lookup nel codebook diretto per verificare le attivazioni trovate
Realizzazione e risultati Identico processo della precedente diapositiva, ma usando reti RBF
Si noti la maggior continuità delle attivazioni muscolari
Lookup inverso con ottimizzazione mediante pro-grammazione dinamica
Lookup nel codebook diretto per verificare le attivazioni trovate
Realizzazione e risultati Risintesi di un segnale vocale registrato Procedura utilizzata
Filtraggio inverso del segnale con estrazione formanti e flusso glottale Traslazione vettori acustici entro il range del codebook inverso Lookup inverso per ottenere i vettori di attivazione Risintesi del flusso glottale Convoluzione del flusso glottale sintetico con i formanti
Vettori acustici: originali e della risintesi
Conclusioni L’approccio al problema si è rivelato corretto
Le funzioni di costo portano ad un opportuno inseguimento dei vettori di ingresso, garantendo nel contempo buona continuità delle attivazioni
Le programmazione dinamica riduce la complessità esponenziale del problema di minimizzazione ed evita i sottoproblemi ripetuti
Le reti neurali portano ad interpolazioni corrette che, pur in misura minore rispetto alle aspettative, migliorano le prestazioni del codebook
Corretto inseguimento del segnale fittizio di riferimento Risintesi di buona qualità di un suono vocalico registrato con
variazioni di pitch e voice quality Realizzazione del pacchetto di algoritmi necessari
Interfaccia utente grafica per l’inversione e per l’impiego del codebook Futuri sviluppi
Procedure analiticamente corrette per tarare le reti neurali Necessità di un modello fisico di qualità migliore Introduzione del modello del tratto vocale ed ottimizzazione congiunta
Top Related