G. Percannella 1 , C. Sansone 2 , D. Sorrentino 1 , M. Vento 1

2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005

Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento

G. Percannella1, C. Sansone2, D. Sorrentino1, M. Vento1

1 Dipartimento di Ing. dell’Informazione e Ing. ElettricaUniversità degli Studi di Salerno

2 Dipartimento di Informatica e SistemisticaUniversità degli Studi di Napoli “Federico II”

E-mail: [email protected]

G. Percannella1, C. Sansone2, D. Sorrentino1, M. Vento1

1 Dipartimento di Ing. dell’Informazione e Ing. ElettricaUniversità degli Studi di Salerno

2 Dipartimento di Informatica e SistemisticaUniversità degli Studi di Napoli “Federico II”

E-mail: [email protected]

Un Sistema di Speaker Identification Un Sistema di Speaker Identification per la segmentazione Automatica di per la segmentazione Automatica di

VideogiornaliVideogiornali

Un Sistema di Speaker Identification Un Sistema di Speaker Identification per la segmentazione Automatica di per la segmentazione Automatica di

VideogiornaliVideogiornali



Il contestoIl contestoIl contestoIl contesto

La Segmentazione dei video è il passo preliminare per La Segmentazione dei video è il passo preliminare per l’indicizzazione ed il retrieval attraverso contenuti. l’indicizzazione ed il retrieval attraverso contenuti.

La traccia video è la sorgente di informazioni più comune.La traccia video è la sorgente di informazioni più comune.

Non è raro l’impiego dell’audio come sorgente alternativaNon è raro l’impiego dell’audio come sorgente alternativa di informazioni per la segmentazione.di informazioni per la segmentazione.

E’ possibile impiegare un sistema di speaker identification E’ possibile impiegare un sistema di speaker identification in tempo reale per la segmentazione automatica e per la in tempo reale per la segmentazione automatica e per la metadatazione automatica dei notiziari.metadatazione automatica dei notiziari.

La Segmentazione dei video è il passo preliminare per La Segmentazione dei video è il passo preliminare per l’indicizzazione ed il retrieval attraverso contenuti. l’indicizzazione ed il retrieval attraverso contenuti.

La traccia video è la sorgente di informazioni più comune.La traccia video è la sorgente di informazioni più comune.

Non è raro l’impiego dell’audio come sorgente alternativaNon è raro l’impiego dell’audio come sorgente alternativa di informazioni per la segmentazione.di informazioni per la segmentazione.

E’ possibile impiegare un sistema di speaker identification E’ possibile impiegare un sistema di speaker identification in tempo reale per la segmentazione automatica e per la in tempo reale per la segmentazione automatica e per la metadatazione automatica dei notiziari.metadatazione automatica dei notiziari.



Speaker identificationSpeaker identificationSpeaker identificationSpeaker identification

Sistemi Closed SetSistemi Closed Set Lo Speaker da identificare è parte di un insieme finito di Lo Speaker da identificare è parte di un insieme finito di persone noto a priori.persone noto a priori.

Sistemi Open SetSistemi Open Set Lo Speaker da identificare può non appartenere all’insieme Lo Speaker da identificare può non appartenere all’insieme di Speaker noti.di Speaker noti.

Sistemi Text-DependentSistemi Text-Dependent E’ richiesto l’inserimento di un testo fisso per E’ richiesto l’inserimento di un testo fisso per l’identificazione di uno Speaker (ad esempio una password).l’identificazione di uno Speaker (ad esempio una password).

Sistemi Text-IndependentSistemi Text-Independent Non è imposto alcun vincolo al testo degli Speaker per la Non è imposto alcun vincolo al testo degli Speaker per la loro identificazione.loro identificazione.

Sistemi Closed SetSistemi Closed Set Lo Speaker da identificare è parte di un insieme finito di Lo Speaker da identificare è parte di un insieme finito di persone noto a priori.persone noto a priori.

Sistemi Open SetSistemi Open Set Lo Speaker da identificare può non appartenere all’insieme Lo Speaker da identificare può non appartenere all’insieme di Speaker noti.di Speaker noti.

Sistemi Text-DependentSistemi Text-Dependent E’ richiesto l’inserimento di un testo fisso per E’ richiesto l’inserimento di un testo fisso per l’identificazione di uno Speaker (ad esempio una password).l’identificazione di uno Speaker (ad esempio una password).

Sistemi Text-IndependentSistemi Text-Independent Non è imposto alcun vincolo al testo degli Speaker per la Non è imposto alcun vincolo al testo degli Speaker per la loro identificazione.loro identificazione.



Il nostro sistemaIl nostro sistemaIl nostro sistemaIl nostro sistema

E’ E’ Text IndipendentText Indipendent e opera e opera in tempo realein tempo reale ed in modalità ed in modalità closed setclosed set..

Utilizza feature calcolate nel dominio del Utilizza feature calcolate nel dominio del tempo e quello della frequenza. tempo e quello della frequenza.

La classificazione è effettuata attraverso una La classificazione è effettuata attraverso una rete neurale LVQrete neurale LVQ in due diverse configurazioni in due diverse configurazioni prototipali.prototipali.

E’ E’ Text IndipendentText Indipendent e opera e opera in tempo realein tempo reale ed in modalità ed in modalità closed setclosed set..

Utilizza feature calcolate nel dominio del Utilizza feature calcolate nel dominio del tempo e quello della frequenza. tempo e quello della frequenza.

La classificazione è effettuata attraverso una La classificazione è effettuata attraverso una rete neurale LVQrete neurale LVQ in due diverse configurazioni in due diverse configurazioni prototipali.prototipali.



Architettura del sistemaArchitettura del sistema Architettura del sistemaArchitettura del sistema

Buffer

Normalizzazione Feature

Estrazione Feature

Classificazione

PreprocessingSorgenteSorgente AudioAudio

Speaker Speaker IdentificatoIdentificato



Pre-processingPre-processingPre-processingPre-processing Frame blockingFrame blocking

Il segnale audio è partizionato in frame sovrapposti.Il segnale audio è partizionato in frame sovrapposti. La sovrapposizione è pari ad due terzi della lunghezza del frame.La sovrapposizione è pari ad due terzi della lunghezza del frame.

La durata di un frame è di circa 23 ms.La durata di un frame è di circa 23 ms.

Pre-enfasiPre-enfasi Un filtro passa basso riduce significativamente le componenti in Un filtro passa basso riduce significativamente le componenti in alta frequenza, in modo da aumentare il rapporto segnale alta frequenza, in modo da aumentare il rapporto segnale rumore.rumore.

FinestramentoFinestramento Una finestra di Hamming elimina le discontinuità agli estremi Una finestra di Hamming elimina le discontinuità agli estremi del frame.del frame.

Si assegna un peso maggiore ai campioni centrali che Si assegna un peso maggiore ai campioni centrali che compongono il frame.compongono il frame.

Frame blockingFrame blocking

Il segnale audio è partizionato in frame sovrapposti.Il segnale audio è partizionato in frame sovrapposti. La sovrapposizione è pari ad due terzi della lunghezza del frame.La sovrapposizione è pari ad due terzi della lunghezza del frame.

La durata di un frame è di circa 23 ms.La durata di un frame è di circa 23 ms.

Pre-enfasiPre-enfasi Un filtro passa basso riduce significativamente le componenti in Un filtro passa basso riduce significativamente le componenti in alta frequenza, in modo da aumentare il rapporto segnale alta frequenza, in modo da aumentare il rapporto segnale rumore.rumore.

FinestramentoFinestramento Una finestra di Hamming elimina le discontinuità agli estremi Una finestra di Hamming elimina le discontinuità agli estremi del frame.del frame.

Si assegna un peso maggiore ai campioni centrali che Si assegna un peso maggiore ai campioni centrali che compongono il frame.compongono il frame.



Linear Predictive Cepstral CoefficientsLinear Predictive Cepstral Coefficients ((LPCC)LPCC)

Estratti nel Estratti nel dominio del tempodominio del tempo con un analisi di con un analisi di predizione linearepredizione lineare

Si utilizza il metodo di Levinson-Durbin. Si utilizza il metodo di Levinson-Durbin.

Post Filter LinearPost Filter Linear (PF)(PF) Estratti ancora nel Estratti ancora nel dominio del tempodominio del tempo attraverso un attraverso un

analisi di predizione lineare.analisi di predizione lineare.

Migliorano le prestazioni del LPCC alle basse frequenze.Migliorano le prestazioni del LPCC alle basse frequenze.

Mel Filtered Cepstral Coefficients (Mel Filtered Cepstral Coefficients (MFCC)MFCC) Ricavati nel Ricavati nel dominio della frequenzadominio della frequenza mediante la mediante la

trasformata inversa di Fourier del logaritmo dello trasformata inversa di Fourier del logaritmo dello spettro di ampiezza del segnale di ingresso.spettro di ampiezza del segnale di ingresso.

Linear Predictive Cepstral CoefficientsLinear Predictive Cepstral Coefficients ((LPCC)LPCC)

Estratti nel Estratti nel dominio del tempodominio del tempo con un analisi di con un analisi di predizione linearepredizione lineare

Si utilizza il metodo di Levinson-Durbin. Si utilizza il metodo di Levinson-Durbin.

Post Filter LinearPost Filter Linear (PF)(PF) Estratti ancora nel Estratti ancora nel dominio del tempodominio del tempo attraverso un attraverso un

analisi di predizione lineare.analisi di predizione lineare.

Migliorano le prestazioni del LPCC alle basse frequenze.Migliorano le prestazioni del LPCC alle basse frequenze.

Mel Filtered Cepstral Coefficients (Mel Filtered Cepstral Coefficients (MFCC)MFCC) Ricavati nel Ricavati nel dominio della frequenzadominio della frequenza mediante la mediante la

trasformata inversa di Fourier del logaritmo dello trasformata inversa di Fourier del logaritmo dello spettro di ampiezza del segnale di ingresso.spettro di ampiezza del segnale di ingresso.

Feature utilizzateFeature utilizzate Feature utilizzateFeature utilizzate



Normalizzazione e Normalizzazione e classificazione delle featureclassificazione delle feature

Normalizzazione e Normalizzazione e classificazione delle featureclassificazione delle feature

NormalizzazioneNormalizzazione Rende assoluto il sistema di riferimento.Rende assoluto il sistema di riferimento. Migliora il potere discriminante delle feature.Migliora il potere discriminante delle feature.

ClassificazioneClassificazione AddestramentoAddestramento

Una rete LVQ è addestrata con Una rete LVQ è addestrata con algoritmo FSCLalgoritmo FSCL come classificatore. come classificatore. La classificazione di uno speaker è basata sul concetto di La classificazione di uno speaker è basata sul concetto di minima distanza. minima distanza.

TestingTesting Il sistema provvederà alla classificazione di un blocco di vettori Il sistema provvederà alla classificazione di un blocco di vettori di feature, riportando in uscita lo speaker più occorrente. di feature, riportando in uscita lo speaker più occorrente. Ogni vettore di feature è calcolato in un intervallo di circa 23 msec Ogni vettore di feature è calcolato in un intervallo di circa 23 msec (frame audio). (frame audio). La risposta del sistema viene effettuata dopo aver analizzato una La risposta del sistema viene effettuata dopo aver analizzato una sequenza di frame di durata prefissata (shot audio).sequenza di frame di durata prefissata (shot audio). La durata degli shot può variare da 0.5 sec a 5 sec.La durata degli shot può variare da 0.5 sec a 5 sec.



Il databaseIl databaseIl databaseIl database

L’intero database ha una durata complessiva di L’intero database ha una durata complessiva di circa circa 1h e 2 min.1h e 2 min.

12 differenti telegiornali italiani.12 differenti telegiornali italiani.

10 speaker (5 di sesso maschile e 5 femminile).10 speaker (5 di sesso maschile e 5 femminile).

25 segmenti audio per ogni speaker.25 segmenti audio per ogni speaker.

Ogni segmento audio nel data base ha una Ogni segmento audio nel data base ha una durata di 15 sec.durata di 15 sec.



La sperimentazioneLa sperimentazioneLa sperimentazioneLa sperimentazione

Tre training set (TRS) sono stati usati, ogni uno costituito da Tre training set (TRS) sono stati usati, ogni uno costituito da segmenti audio di durata multipla di 15 sec.segmenti audio di durata multipla di 15 sec.

15 sec 15 sec 30 sec 30 sec 45 sec45 sec

La dimensione del test set (TS) è sempre fissata a La dimensione del test set (TS) è sempre fissata a 30 sec30 sec..

Il classificatore LVQ opera con 50 e 100 prototipi per classe.Il classificatore LVQ opera con 50 e 100 prototipi per classe.

Si sono utilizzati 3 differenti set di featureSi sono utilizzati 3 differenti set di feature solo LPCCsolo LPCC solo MFCC solo MFCC MFCC insieme alle LPCC e PF.MFCC insieme alle LPCC e PF.



Risultati sperimentali - Caso 1Risultati sperimentali - Caso 1Risultati sperimentali - Caso 1Risultati sperimentali - Caso 1

0%

5%

10%

15%

20%

25%

30%

35%

0.5 1 1.5 2 3 5

45 sec

15 sec

30 sec

0%

5%

10%

15%

20%

25%

30%

35%

0.5 1 1.5 2 3 5

15 sec

45 sec

30 sec

100 prototipi per classe100 prototipi per classe


Solo Solo LPCCLPCC feature. feature.

Tasso di errore in funzione della Tasso di errore in funzione della durata degli shot in secondi per i durata degli shot in secondi per i tre TRS.tre TRS.




0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

1 1.5 2 3 5

15 sec

45 sec

30 sec

0%5%

10%15%

20%25%

30%35%

40%45%

0.5 1 1.5 2 3 5

15 sec

45 sec

30 sec



50 prototipi per classe50 prototipi per classe0.5

Solo Solo MFCCMFCC feature. feature.Solo Solo MFCCMFCC feature. feature.




2%

4%

6%

8%

10%

12%

14%

16%

18%

1 1.5 2 3 5

15 sec

45 sec

30 sec

0%

2%

4%

6%

8%

10%

12%

14%

16%

0.5 1 1.5 2 3 5

15 sec

45 sec

30 sec



LPCC, MFCCLPCC, MFCC e e PFPF feature feature

0.5




Shot Length:

L’applicativo di speaker L’applicativo di speaker identificationidentification


L’applicazione è basata su L’applicazione è basata su un sistema addestrato con un sistema addestrato con un un TRSTRS avente segmenti di avente segmenti di 30 sec30 sec, usando un , usando un classificatore LVQ con 50 classificatore LVQ con 50 prototipiprototipi. .

5 speakers5 speakers

Shot length = 1 secShot length = 1 sec



Shot Length:

Il tasso di Il tasso di riconoscimento è del riconoscimento è del 96.46%96.46%..

L’affidabilità L’affidabilità RR è è valutata come:valutata come:100*(1-N2/N1)100*(1-N2/N1)..N1 è il numero di vettori di N1 è il numero di vettori di feature attribuiti alla classe feature attribuiti alla classe vincente.vincente. N2 è il numero di vettori di N2 è il numero di vettori di feature attribuiti runner-up.feature attribuiti runner-up.

Il tasso di Il tasso di riconoscimento sulle riconoscimento sulle classificazioni affidabili classificazioni affidabili è delè del 99.79%99.79%..



SIRTA



ConclusioniConclusioniConclusioniConclusioni Presentiamo un sistema di speaker identification Presentiamo un sistema di speaker identification

in tempo reale che utilizza feature estratte sia dal in tempo reale che utilizza feature estratte sia dal dominio del tempo che in quello delle frequenze.dominio del tempo che in quello delle frequenze. Attraverso un criterio di votazione a maggioranza, il sistema Attraverso un criterio di votazione a maggioranza, il sistema proposto è più robusto rispetto ai silenzi e ai segmenti proposto è più robusto rispetto ai silenzi e ai segmenti unvoicedunvoiced..

Presentiamo un sistema di speaker identification Presentiamo un sistema di speaker identification in tempo reale che utilizza feature estratte sia dal in tempo reale che utilizza feature estratte sia dal dominio del tempo che in quello delle frequenze.dominio del tempo che in quello delle frequenze. Attraverso un criterio di votazione a maggioranza, il sistema Attraverso un criterio di votazione a maggioranza, il sistema proposto è più robusto rispetto ai silenzi e ai segmenti proposto è più robusto rispetto ai silenzi e ai segmenti unvoicedunvoiced..

I risultati sul database di segmenti audio estratti I risultati sul database di segmenti audio estratti dai notiziari dimostrano l’efficacia del sistema dai notiziari dimostrano l’efficacia del sistema nell’identificazione degli speaker in tempo reale.nell’identificazione degli speaker in tempo reale.

I risultati sul database di segmenti audio estratti I risultati sul database di segmenti audio estratti dai notiziari dimostrano l’efficacia del sistema dai notiziari dimostrano l’efficacia del sistema nell’identificazione degli speaker in tempo reale.nell’identificazione degli speaker in tempo reale.

Il sistema può coadiuvare l’implementazione di Il sistema può coadiuvare l’implementazione di una applicazione che usa l’informazione audio una applicazione che usa l’informazione audio per la segmentazione automatica degli stream per la segmentazione automatica degli stream video. video.

Il sistema può coadiuvare l’implementazione di Il sistema può coadiuvare l’implementazione di una applicazione che usa l’informazione audio una applicazione che usa l’informazione audio per la segmentazione automatica degli stream per la segmentazione automatica degli stream video. video.

G. Percannella 1 , C. Sansone 2 , D. Sorrentino 1 , M. Vento 1

Documents

Transcript of G. Percannella 1 , C. Sansone 2 , D. Sorrentino 1 , M. Vento 1