Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15...

15
Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www: http://www.istc.cnr.it http://www.istc.cnr.it Sintesi vocale concatenativa per l’italiano tramite modello sinusoidale Giacomo Sommavilla, Carlo Drioli, Piero Cosi SEZIONE DI PADOVA “FONETICA E DIALETTOLOGIA” Via G. Anghinoni, 10 35121 Padova (Italy) e-mail: [email protected] www: http://www.pd.istc.cnr.it http://www.pd.istc.cnr.it “ANALISI PROSODICA” teorie, modelli e sistemi di annotazione 2° Convegno Nazionale AISV – 30/11- 2/12 2005 Università degli Studi di Salerno, Campus di Fisciano - - "Aula delle Lauree“

Transcript of Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15...

Page 1: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

Copyright, 2005 © ISTC-SPFD-CNR

ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE

Viale Marx, 1500137 Roma (Italy)

www: http://www.istc.cnr.ithttp://www.istc.cnr.it

Sintesi vocale concatenativa per l’italiano tramite modello sinusoidale

Giacomo Sommavilla, Carlo Drioli, Piero Cosi

SEZIONE DI PADOVA“FONETICA E DIALETTOLOGIA”

Via G. Anghinoni, 1035121 Padova (Italy)

e-mail: [email protected]: http://www.pd.istc.cnr.ithttp://www.pd.istc.cnr.it

“ANALISI PROSODICA”teorie, modelli e sistemi di annotazione

2° Convegno Nazionale AISV – 30/11- 2/12 2005Università degli Studi di Salerno, Campus di Fisciano - - "Aula delle Lauree“

Page 2: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

introduzione TTSSMS

HNM - Harmonic + Noise Model SMS tools (CLAM)

risultaticonclusioni e sviluppi futuri

introduzione TTSSMS

HNM - Harmonic + Noise Model SMS tools (CLAM)

risultaticonclusioni e sviluppi futuri

Riassunto

Page 3: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

Sistema TTS “per concatenazione”

TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto

x concatenazione: la sintesi viene realizzata per concatenazione di unità di base

unità base, difoni: “segmenti acustici che includono la transizione fra due fonemi consecutivi”

sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo

TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto

x concatenazione: la sintesi viene realizzata per concatenazione di unità di base

unità base, difoni: “segmenti acustici che includono la transizione fra due fonemi consecutivi”

sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo

Page 4: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

MatchProsody

Elaborazionedei difoni

SignalSynthesis

TTS (concatenativo ): schema generale

NLP+

Prosody

text Phonetic speechDigitalSignal

Processing

FESTIVAL TTSFESTIVAL TTS

.pho file

Page 5: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

DSP – Digital Signal Processing

Codifica dei parametri prosodici per ogni fonema nelle variabili di f0 e durata (pitch shifting e time stretching)

MatchProsody

SignalSynthesis

Trasformazione e concatenazione in frequenza di difoni successivi

Sintesi del segnale dal dominio frequenziale a quello temporale e creazione del file audio vocale

Elaborazionedei difoni

Page 6: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

SMS - Spectral Modeling Synthesis

)()](cos[)()(1

tettAtsR

rrr

Il modello Spectral Modeling Synthesis (SMS) si basa sulla rappresentazione armoniche + residuo

armoniche (parte armonica, deterministica)

residuo(parte stocastica, rumore)

Rappresentazione nel dominio della frequenza

Page 7: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

Sinusoidal analysis/synthesis system

Page 8: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

HNM - Harmonic + Noise Model

Page 9: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

HNM synthesis

si aggiorna dinamicamente Fm[n] sulla base di un ‘test di armonicità’

il rumore (noise) ha un inviluppo sia nel dominio temporale e[n] che in quello frequenziale Hn (k)

Page 10: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

HNM synthesis

PROCEDURA di SINTESI NLP fonemi, durata, pitch ricerca unità di base (difono) sul database sintesi HNM

cross-fading di Ak e 0

La “chiave” per una buona sintesi è la preparazione accurata del database delle unità di base (difoni)

il modello sinusoidale consente l’allineamento in fase di tutte le unità

un database ricco migliora la sintesi

Page 11: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

CLAM-SMS

CLAM - C++ Library for Audio and Music

http://www.iua.upf.es/mtg/clam/

Page 12: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

Analisi del database di difoni

d0.rawd1.rawd2.rawd3.raw

File audio

d0.sdifd1.sdifd2.sdifd3.sdif

File SDIF

analyzeDatabase.m

File SDIF

1. frequenze, ampiezze e fasi delle parziali (comp. armonica)

2. inviluppo spettrale della comp. residuale

MBROLAMBROLA

Page 13: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

Architettura del sistema

C++C++

Matchprosody

TimeStretching

Fonemi, prosodia (pitch e durate)

Data Basedi difoni(SDIF)

Sintesi(IFFT +OLA)

.pho file .wav file

PitchShifting(formant

preserving)

Concatenazione

Parser

Page 14: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

Risultati sperimentali

1) Sintesi MBROLA

2) Sintesi SMS

3) Sintesi SMS con trasformazione (1)

4) Sintesi SMS con trasformazione (2)

5) Sintesi MBROLA (T=1.5, F=2)

6) Sintesi SMS (T=1.5, F=2)

Confronti con MBROLA (Mons, TCTS Lab.), programma TTS allo stato dell’arte (trasf. e conc. dominio temporale, pitch sincrono)

Page 15: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy)  www: .

Conclusioni

i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale

la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto

i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale

la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto

Sviluppi Futuri

residuo: concatenazione ad-hoc per fonemi unvoiced;

parte armonica:

residuo: concatenazione ad-hoc per fonemi unvoiced;

parte armonica: I. morphing / voice conversion

II. sintesi vocale emotiva (E-TTS)III. tecniche di voice quality