Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15...

Post on 01-May-2015

213 views 0 download

Transcript of Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15...

Copyright, 2005 © ISTC-SPFD-CNR

ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE

Viale Marx, 1500137 Roma (Italy)

www: http://www.istc.cnr.ithttp://www.istc.cnr.it

Sintesi vocale concatenativa per l’italiano tramite modello sinusoidale

Giacomo Sommavilla, Carlo Drioli, Piero Cosi

SEZIONE DI PADOVA“FONETICA E DIALETTOLOGIA”

Via G. Anghinoni, 1035121 Padova (Italy)

e-mail: cosi@pd.istc.cnr.itwww: http://www.pd.istc.cnr.ithttp://www.pd.istc.cnr.it

“ANALISI PROSODICA”teorie, modelli e sistemi di annotazione

2° Convegno Nazionale AISV – 30/11- 2/12 2005Università degli Studi di Salerno, Campus di Fisciano - - "Aula delle Lauree“

introduzione TTSSMS

HNM - Harmonic + Noise Model SMS tools (CLAM)

risultaticonclusioni e sviluppi futuri

introduzione TTSSMS

HNM - Harmonic + Noise Model SMS tools (CLAM)

risultaticonclusioni e sviluppi futuri

Riassunto

Sistema TTS “per concatenazione”

TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto

x concatenazione: la sintesi viene realizzata per concatenazione di unità di base

unità base, difoni: “segmenti acustici che includono la transizione fra due fonemi consecutivi”

sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo

TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto

x concatenazione: la sintesi viene realizzata per concatenazione di unità di base

unità base, difoni: “segmenti acustici che includono la transizione fra due fonemi consecutivi”

sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo

MatchProsody

Elaborazionedei difoni

SignalSynthesis

TTS (concatenativo ): schema generale

NLP+

Prosody

text Phonetic speechDigitalSignal

Processing

FESTIVAL TTSFESTIVAL TTS

.pho file

DSP – Digital Signal Processing

Codifica dei parametri prosodici per ogni fonema nelle variabili di f0 e durata (pitch shifting e time stretching)

MatchProsody

SignalSynthesis

Trasformazione e concatenazione in frequenza di difoni successivi

Sintesi del segnale dal dominio frequenziale a quello temporale e creazione del file audio vocale

Elaborazionedei difoni

SMS - Spectral Modeling Synthesis

)()](cos[)()(1

tettAtsR

rrr

Il modello Spectral Modeling Synthesis (SMS) si basa sulla rappresentazione armoniche + residuo

armoniche (parte armonica, deterministica)

residuo(parte stocastica, rumore)

Rappresentazione nel dominio della frequenza

Sinusoidal analysis/synthesis system

HNM - Harmonic + Noise Model

HNM synthesis

si aggiorna dinamicamente Fm[n] sulla base di un ‘test di armonicità’

il rumore (noise) ha un inviluppo sia nel dominio temporale e[n] che in quello frequenziale Hn (k)

HNM synthesis

PROCEDURA di SINTESI NLP fonemi, durata, pitch ricerca unità di base (difono) sul database sintesi HNM

cross-fading di Ak e 0

La “chiave” per una buona sintesi è la preparazione accurata del database delle unità di base (difoni)

il modello sinusoidale consente l’allineamento in fase di tutte le unità

un database ricco migliora la sintesi

CLAM-SMS

CLAM - C++ Library for Audio and Music

http://www.iua.upf.es/mtg/clam/

Analisi del database di difoni

d0.rawd1.rawd2.rawd3.raw

File audio

d0.sdifd1.sdifd2.sdifd3.sdif

File SDIF

analyzeDatabase.m

File SDIF

1. frequenze, ampiezze e fasi delle parziali (comp. armonica)

2. inviluppo spettrale della comp. residuale

MBROLAMBROLA

Architettura del sistema

C++C++

Matchprosody

TimeStretching

Fonemi, prosodia (pitch e durate)

Data Basedi difoni(SDIF)

Sintesi(IFFT +OLA)

.pho file .wav file

PitchShifting(formant

preserving)

Concatenazione

Parser

Risultati sperimentali

1) Sintesi MBROLA

2) Sintesi SMS

3) Sintesi SMS con trasformazione (1)

4) Sintesi SMS con trasformazione (2)

5) Sintesi MBROLA (T=1.5, F=2)

6) Sintesi SMS (T=1.5, F=2)

Confronti con MBROLA (Mons, TCTS Lab.), programma TTS allo stato dell’arte (trasf. e conc. dominio temporale, pitch sincrono)

Conclusioni

i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale

la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto

i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale

la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto

Sviluppi Futuri

residuo: concatenazione ad-hoc per fonemi unvoiced;

parte armonica:

residuo: concatenazione ad-hoc per fonemi unvoiced;

parte armonica: I. morphing / voice conversion

II. sintesi vocale emotiva (E-TTS)III. tecniche di voice quality