Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15...

Copyright, 2005 © ISTC-SPFD-CNR

ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE

Viale Marx, 1500137 Roma (Italy)

www: http://www.istc.cnr.ithttp://www.istc.cnr.it

Sintesi vocale concatenativa per l’italiano tramite modello sinusoidale

Giacomo Sommavilla, Carlo Drioli, Piero Cosi

SEZIONE DI PADOVA“FONETICA E DIALETTOLOGIA”

Via G. Anghinoni, 1035121 Padova (Italy)

e-mail: cosi@pd.istc.cnr.itwww: http://www.pd.istc.cnr.ithttp://www.pd.istc.cnr.it

“ANALISI PROSODICA”teorie, modelli e sistemi di annotazione

2° Convegno Nazionale AISV – 30/11- 2/12 2005Università degli Studi di Salerno, Campus di Fisciano - - "Aula delle Lauree“

introduzione TTSSMS

HNM - Harmonic + Noise Model SMS tools (CLAM)

risultaticonclusioni e sviluppi futuri

introduzione TTSSMS

HNM - Harmonic + Noise Model SMS tools (CLAM)

risultaticonclusioni e sviluppi futuri

Riassunto

Sistema TTS “per concatenazione”

TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto

x concatenazione: la sintesi viene realizzata per concatenazione di unità di base

unità base, difoni: “segmenti acustici che includono la transizione fra due fonemi consecutivi”

sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo

TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto

x concatenazione: la sintesi viene realizzata per concatenazione di unità di base

unità base, difoni: “segmenti acustici che includono la transizione fra due fonemi consecutivi”

sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo

MatchProsody

Elaborazionedei difoni

SignalSynthesis

TTS (concatenativo ): schema generale

Prosody

text Phonetic speechDigitalSignal

Processing

FESTIVAL TTSFESTIVAL TTS

.pho file

DSP – Digital Signal Processing

Codifica dei parametri prosodici per ogni fonema nelle variabili di f0 e durata (pitch shifting e time stretching)

MatchProsody

SignalSynthesis

Trasformazione e concatenazione in frequenza di difoni successivi

Sintesi del segnale dal dominio frequenziale a quello temporale e creazione del file audio vocale

Elaborazionedei difoni

SMS - Spectral Modeling Synthesis

)()](cos[)()(1

tettAtsR

Il modello Spectral Modeling Synthesis (SMS) si basa sulla rappresentazione armoniche + residuo

armoniche (parte armonica, deterministica)

residuo(parte stocastica, rumore)

Rappresentazione nel dominio della frequenza

Sinusoidal analysis/synthesis system

HNM - Harmonic + Noise Model

HNM synthesis

si aggiorna dinamicamente Fm[n] sulla base di un ‘test di armonicità’

il rumore (noise) ha un inviluppo sia nel dominio temporale e[n] che in quello frequenziale Hn (k)

HNM synthesis

PROCEDURA di SINTESI NLP fonemi, durata, pitch ricerca unità di base (difono) sul database sintesi HNM

cross-fading di Ak e 0

La “chiave” per una buona sintesi è la preparazione accurata del database delle unità di base (difoni)

il modello sinusoidale consente l’allineamento in fase di tutte le unità

un database ricco migliora la sintesi

CLAM-SMS

CLAM - C++ Library for Audio and Music

http://www.iua.upf.es/mtg/clam/

Analisi del database di difoni

d0.rawd1.rawd2.rawd3.raw

File audio

d0.sdifd1.sdifd2.sdifd3.sdif

File SDIF

analyzeDatabase.m

File SDIF

1. frequenze, ampiezze e fasi delle parziali (comp. armonica)

2. inviluppo spettrale della comp. residuale

MBROLAMBROLA

Architettura del sistema

C++C++

Matchprosody

TimeStretching

Fonemi, prosodia (pitch e durate)

Data Basedi difoni(SDIF)

Sintesi(IFFT +OLA)

.pho file .wav file

PitchShifting(formant

preserving)

Concatenazione

Parser

Risultati sperimentali

1) Sintesi MBROLA

2) Sintesi SMS

3) Sintesi SMS con trasformazione (1)

4) Sintesi SMS con trasformazione (2)

5) Sintesi MBROLA (T=1.5, F=2)

6) Sintesi SMS (T=1.5, F=2)

Confronti con MBROLA (Mons, TCTS Lab.), programma TTS allo stato dell’arte (trasf. e conc. dominio temporale, pitch sincrono)

Conclusioni

i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale

la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto

i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale

la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto

Sviluppi Futuri

residuo: concatenazione ad-hoc per fonemi unvoiced;

parte armonica:

residuo: concatenazione ad-hoc per fonemi unvoiced;

parte armonica: I. morphing / voice conversion

II. sintesi vocale emotiva (E-TTS)III. tecniche di voice quality

Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15...

Documents

Transcript of Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15...

Reti reputazionali Rosaria Conte LABSS/ISTC-CNR. Reti reputazionali Secondo Dunbar (1998), il gossip ha svolto un ruolo paragonabile al grooming nella.

Guida alle opportunità - Eurosportello Confesercenti · Europe Direct Roma Viale Marx, 15 - 00137 Roma europedirect@formez.it @EuropeDirectRM . INDICE PARTE I I fondi strutturali

Interazione e Cognizione - rice.iuav.itrice.iuav.it/407/1/6880.pdf · Interazione e Cognizione ... dei prodotti, artistici e di design. ... comprensione dei processi di percezione

N! ONLINE IL - core.ac.uk · riﬂessione classica sulla relazione tra emozione e cognizione.! ... quindi, l’unione di emozione e cognizione è fragile e destinata a non durare.

Complessità sociale e cognitiva Rosaria Conte Labss ISTC-CNR

Cognizione e linguaggio

TESTI OPACHI-progetto finale del Corso Cognizione e Linguaggio

Cognizione e Cognitivismo

Presentazione cognizione 3

Presentazione Cognizione Sannazzaro Ornella

La mente estesa simbiosi uomo-macchina e cognizione aumentata

Attività di apprendimento online e Cognizione Distribuita

COGNIZIONE, CORPO, CULTURA - laral.istc.cnr.itlaral.istc.cnr.it/borghi/corso17-18-10cognizionecorpocultura.pdf · COGNIZIONE, CORPO, CULTURA 2017-2018 Anna Borghi anna.borghi@uniroma1.it

Decisione Rosaria Conte Labss@istc.cnr.it ISTC-CNR.

Simulazione come supporto alla decisione Rosaria Conte Labss@istc.cnr.it ISTC-CNR.

Cognizione e metacognizione. Cognizione e Metacognizione In seno alla psicologia cognitiva delleducazione si sviluppa un ambito di studio che procedendo.

la morale tra emozione e cognizione - digilander.libero.itdigilander.libero.it/aservice.mail/08-05-23 slide ETICA E... · Etica e neuroscienze: la morale tra emozione e cognizione

9. La Cognizione Sociale

NeaSciece Anno2 Vol.8 - COGNIZIONE E INTERAZIONE

Sammādiṭṭhisuttaṃ - La retta cognizione · dukkhassantaṅkaro mette fine al dolore hoti è / conosce Quindi, fratelli, il santo discepolo ha la perfetta cognizione. Ettāvatāpi