G. Percannella 1 , C. Sansone 2 , D. Sorrentino 1 , M. Vento 1
description
Transcript of G. Percannella 1 , C. Sansone 2 , D. Sorrentino 1 , M. Vento 1
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
G. Percannella1, C. Sansone2, D. Sorrentino1, M. Vento1
1 Dipartimento di Ing. dell’Informazione e Ing. ElettricaUniversità degli Studi di Salerno
2 Dipartimento di Informatica e SistemisticaUniversità degli Studi di Napoli “Federico II”
E-mail: [email protected]
G. Percannella1, C. Sansone2, D. Sorrentino1, M. Vento1
1 Dipartimento di Ing. dell’Informazione e Ing. ElettricaUniversità degli Studi di Salerno
2 Dipartimento di Informatica e SistemisticaUniversità degli Studi di Napoli “Federico II”
E-mail: [email protected]
Un Sistema di Speaker Identification Un Sistema di Speaker Identification per la segmentazione Automatica di per la segmentazione Automatica di
VideogiornaliVideogiornali
Un Sistema di Speaker Identification Un Sistema di Speaker Identification per la segmentazione Automatica di per la segmentazione Automatica di
VideogiornaliVideogiornali
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Il contestoIl contestoIl contestoIl contesto
La Segmentazione dei video è il passo preliminare per La Segmentazione dei video è il passo preliminare per l’indicizzazione ed il retrieval attraverso contenuti. l’indicizzazione ed il retrieval attraverso contenuti.
La traccia video è la sorgente di informazioni più comune.La traccia video è la sorgente di informazioni più comune.
Non è raro l’impiego dell’audio come sorgente alternativaNon è raro l’impiego dell’audio come sorgente alternativa di informazioni per la segmentazione.di informazioni per la segmentazione.
E’ possibile impiegare un sistema di speaker identification E’ possibile impiegare un sistema di speaker identification in tempo reale per la segmentazione automatica e per la in tempo reale per la segmentazione automatica e per la metadatazione automatica dei notiziari.metadatazione automatica dei notiziari.
La Segmentazione dei video è il passo preliminare per La Segmentazione dei video è il passo preliminare per l’indicizzazione ed il retrieval attraverso contenuti. l’indicizzazione ed il retrieval attraverso contenuti.
La traccia video è la sorgente di informazioni più comune.La traccia video è la sorgente di informazioni più comune.
Non è raro l’impiego dell’audio come sorgente alternativaNon è raro l’impiego dell’audio come sorgente alternativa di informazioni per la segmentazione.di informazioni per la segmentazione.
E’ possibile impiegare un sistema di speaker identification E’ possibile impiegare un sistema di speaker identification in tempo reale per la segmentazione automatica e per la in tempo reale per la segmentazione automatica e per la metadatazione automatica dei notiziari.metadatazione automatica dei notiziari.
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Speaker identificationSpeaker identificationSpeaker identificationSpeaker identification
Sistemi Closed SetSistemi Closed Set Lo Speaker da identificare è parte di un insieme finito di Lo Speaker da identificare è parte di un insieme finito di persone noto a priori.persone noto a priori.
Sistemi Open SetSistemi Open Set Lo Speaker da identificare può non appartenere all’insieme Lo Speaker da identificare può non appartenere all’insieme di Speaker noti.di Speaker noti.
Sistemi Text-DependentSistemi Text-Dependent E’ richiesto l’inserimento di un testo fisso per E’ richiesto l’inserimento di un testo fisso per l’identificazione di uno Speaker (ad esempio una password).l’identificazione di uno Speaker (ad esempio una password).
Sistemi Text-IndependentSistemi Text-Independent Non è imposto alcun vincolo al testo degli Speaker per la Non è imposto alcun vincolo al testo degli Speaker per la loro identificazione.loro identificazione.
Sistemi Closed SetSistemi Closed Set Lo Speaker da identificare è parte di un insieme finito di Lo Speaker da identificare è parte di un insieme finito di persone noto a priori.persone noto a priori.
Sistemi Open SetSistemi Open Set Lo Speaker da identificare può non appartenere all’insieme Lo Speaker da identificare può non appartenere all’insieme di Speaker noti.di Speaker noti.
Sistemi Text-DependentSistemi Text-Dependent E’ richiesto l’inserimento di un testo fisso per E’ richiesto l’inserimento di un testo fisso per l’identificazione di uno Speaker (ad esempio una password).l’identificazione di uno Speaker (ad esempio una password).
Sistemi Text-IndependentSistemi Text-Independent Non è imposto alcun vincolo al testo degli Speaker per la Non è imposto alcun vincolo al testo degli Speaker per la loro identificazione.loro identificazione.
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Il nostro sistemaIl nostro sistemaIl nostro sistemaIl nostro sistema
E’ E’ Text IndipendentText Indipendent e opera e opera in tempo realein tempo reale ed in modalità ed in modalità closed setclosed set..
Utilizza feature calcolate nel dominio del Utilizza feature calcolate nel dominio del tempo e quello della frequenza. tempo e quello della frequenza.
La classificazione è effettuata attraverso una La classificazione è effettuata attraverso una rete neurale LVQrete neurale LVQ in due diverse configurazioni in due diverse configurazioni prototipali.prototipali.
E’ E’ Text IndipendentText Indipendent e opera e opera in tempo realein tempo reale ed in modalità ed in modalità closed setclosed set..
Utilizza feature calcolate nel dominio del Utilizza feature calcolate nel dominio del tempo e quello della frequenza. tempo e quello della frequenza.
La classificazione è effettuata attraverso una La classificazione è effettuata attraverso una rete neurale LVQrete neurale LVQ in due diverse configurazioni in due diverse configurazioni prototipali.prototipali.
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Architettura del sistemaArchitettura del sistema Architettura del sistemaArchitettura del sistema
Buffer
Normalizzazione Feature
Estrazione Feature
Classificazione
PreprocessingSorgenteSorgente AudioAudio
Speaker Speaker IdentificatoIdentificato
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Pre-processingPre-processingPre-processingPre-processing Frame blockingFrame blocking
Il segnale audio è partizionato in frame sovrapposti.Il segnale audio è partizionato in frame sovrapposti. La sovrapposizione è pari ad due terzi della lunghezza del frame.La sovrapposizione è pari ad due terzi della lunghezza del frame.
La durata di un frame è di circa 23 ms.La durata di un frame è di circa 23 ms.
Pre-enfasiPre-enfasi Un filtro passa basso riduce significativamente le componenti in Un filtro passa basso riduce significativamente le componenti in alta frequenza, in modo da aumentare il rapporto segnale alta frequenza, in modo da aumentare il rapporto segnale rumore.rumore.
FinestramentoFinestramento Una finestra di Hamming elimina le discontinuità agli estremi Una finestra di Hamming elimina le discontinuità agli estremi del frame.del frame.
Si assegna un peso maggiore ai campioni centrali che Si assegna un peso maggiore ai campioni centrali che compongono il frame.compongono il frame.
Frame blockingFrame blocking
Il segnale audio è partizionato in frame sovrapposti.Il segnale audio è partizionato in frame sovrapposti. La sovrapposizione è pari ad due terzi della lunghezza del frame.La sovrapposizione è pari ad due terzi della lunghezza del frame.
La durata di un frame è di circa 23 ms.La durata di un frame è di circa 23 ms.
Pre-enfasiPre-enfasi Un filtro passa basso riduce significativamente le componenti in Un filtro passa basso riduce significativamente le componenti in alta frequenza, in modo da aumentare il rapporto segnale alta frequenza, in modo da aumentare il rapporto segnale rumore.rumore.
FinestramentoFinestramento Una finestra di Hamming elimina le discontinuità agli estremi Una finestra di Hamming elimina le discontinuità agli estremi del frame.del frame.
Si assegna un peso maggiore ai campioni centrali che Si assegna un peso maggiore ai campioni centrali che compongono il frame.compongono il frame.
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Linear Predictive Cepstral CoefficientsLinear Predictive Cepstral Coefficients ((LPCC)LPCC)
Estratti nel Estratti nel dominio del tempodominio del tempo con un analisi di con un analisi di predizione linearepredizione lineare
Si utilizza il metodo di Levinson-Durbin. Si utilizza il metodo di Levinson-Durbin.
Post Filter LinearPost Filter Linear (PF)(PF) Estratti ancora nel Estratti ancora nel dominio del tempodominio del tempo attraverso un attraverso un
analisi di predizione lineare.analisi di predizione lineare.
Migliorano le prestazioni del LPCC alle basse frequenze.Migliorano le prestazioni del LPCC alle basse frequenze.
Mel Filtered Cepstral Coefficients (Mel Filtered Cepstral Coefficients (MFCC)MFCC) Ricavati nel Ricavati nel dominio della frequenzadominio della frequenza mediante la mediante la
trasformata inversa di Fourier del logaritmo dello trasformata inversa di Fourier del logaritmo dello spettro di ampiezza del segnale di ingresso.spettro di ampiezza del segnale di ingresso.
Linear Predictive Cepstral CoefficientsLinear Predictive Cepstral Coefficients ((LPCC)LPCC)
Estratti nel Estratti nel dominio del tempodominio del tempo con un analisi di con un analisi di predizione linearepredizione lineare
Si utilizza il metodo di Levinson-Durbin. Si utilizza il metodo di Levinson-Durbin.
Post Filter LinearPost Filter Linear (PF)(PF) Estratti ancora nel Estratti ancora nel dominio del tempodominio del tempo attraverso un attraverso un
analisi di predizione lineare.analisi di predizione lineare.
Migliorano le prestazioni del LPCC alle basse frequenze.Migliorano le prestazioni del LPCC alle basse frequenze.
Mel Filtered Cepstral Coefficients (Mel Filtered Cepstral Coefficients (MFCC)MFCC) Ricavati nel Ricavati nel dominio della frequenzadominio della frequenza mediante la mediante la
trasformata inversa di Fourier del logaritmo dello trasformata inversa di Fourier del logaritmo dello spettro di ampiezza del segnale di ingresso.spettro di ampiezza del segnale di ingresso.
Feature utilizzateFeature utilizzate Feature utilizzateFeature utilizzate
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Normalizzazione e Normalizzazione e classificazione delle featureclassificazione delle feature
Normalizzazione e Normalizzazione e classificazione delle featureclassificazione delle feature
NormalizzazioneNormalizzazione Rende assoluto il sistema di riferimento.Rende assoluto il sistema di riferimento. Migliora il potere discriminante delle feature.Migliora il potere discriminante delle feature.
ClassificazioneClassificazione AddestramentoAddestramento
Una rete LVQ è addestrata con Una rete LVQ è addestrata con algoritmo FSCLalgoritmo FSCL come classificatore. come classificatore. La classificazione di uno speaker è basata sul concetto di La classificazione di uno speaker è basata sul concetto di minima distanza. minima distanza.
TestingTesting Il sistema provvederà alla classificazione di un blocco di vettori Il sistema provvederà alla classificazione di un blocco di vettori di feature, riportando in uscita lo speaker più occorrente. di feature, riportando in uscita lo speaker più occorrente. Ogni vettore di feature è calcolato in un intervallo di circa 23 msec Ogni vettore di feature è calcolato in un intervallo di circa 23 msec (frame audio). (frame audio). La risposta del sistema viene effettuata dopo aver analizzato una La risposta del sistema viene effettuata dopo aver analizzato una sequenza di frame di durata prefissata (shot audio).sequenza di frame di durata prefissata (shot audio). La durata degli shot può variare da 0.5 sec a 5 sec.La durata degli shot può variare da 0.5 sec a 5 sec.
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Il databaseIl databaseIl databaseIl database
L’intero database ha una durata complessiva di L’intero database ha una durata complessiva di circa circa 1h e 2 min.1h e 2 min.
12 differenti telegiornali italiani.12 differenti telegiornali italiani.
10 speaker (5 di sesso maschile e 5 femminile).10 speaker (5 di sesso maschile e 5 femminile).
25 segmenti audio per ogni speaker.25 segmenti audio per ogni speaker.
Ogni segmento audio nel data base ha una Ogni segmento audio nel data base ha una durata di 15 sec.durata di 15 sec.
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
La sperimentazioneLa sperimentazioneLa sperimentazioneLa sperimentazione
Tre training set (TRS) sono stati usati, ogni uno costituito da Tre training set (TRS) sono stati usati, ogni uno costituito da segmenti audio di durata multipla di 15 sec.segmenti audio di durata multipla di 15 sec.
15 sec 15 sec 30 sec 30 sec 45 sec45 sec
La dimensione del test set (TS) è sempre fissata a La dimensione del test set (TS) è sempre fissata a 30 sec30 sec..
Il classificatore LVQ opera con 50 e 100 prototipi per classe.Il classificatore LVQ opera con 50 e 100 prototipi per classe.
Si sono utilizzati 3 differenti set di featureSi sono utilizzati 3 differenti set di feature solo LPCCsolo LPCC solo MFCC solo MFCC MFCC insieme alle LPCC e PF.MFCC insieme alle LPCC e PF.
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Risultati sperimentali - Caso 1Risultati sperimentali - Caso 1Risultati sperimentali - Caso 1Risultati sperimentali - Caso 1
0%
5%
10%
15%
20%
25%
30%
35%
0.5 1 1.5 2 3 5
45 sec
15 sec
30 sec
0%
5%
10%
15%
20%
25%
30%
35%
0.5 1 1.5 2 3 5
15 sec
45 sec
30 sec
100 prototipi per classe100 prototipi per classe
50 prototipi per classe50 prototipi per classe
Solo Solo LPCCLPCC feature. feature.
Tasso di errore in funzione della Tasso di errore in funzione della durata degli shot in secondi per i durata degli shot in secondi per i tre TRS.tre TRS.
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Risultati sperimentali - Caso 2Risultati sperimentali - Caso 2Risultati sperimentali - Caso 2Risultati sperimentali - Caso 2
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
1 1.5 2 3 5
15 sec
45 sec
30 sec
0%5%
10%15%
20%25%
30%35%
40%45%
0.5 1 1.5 2 3 5
15 sec
45 sec
30 sec
Tasso di errore in funzione della Tasso di errore in funzione della durata degli shot in secondi per i durata degli shot in secondi per i tre TRS.tre TRS.
100 prototipi per classe100 prototipi per classe
50 prototipi per classe50 prototipi per classe0.5
Solo Solo MFCCMFCC feature. feature.Solo Solo MFCCMFCC feature. feature.
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Risultati sperimentali - Caso 3Risultati sperimentali - Caso 3Risultati sperimentali - Caso 3Risultati sperimentali - Caso 3
2%
4%
6%
8%
10%
12%
14%
16%
18%
1 1.5 2 3 5
15 sec
45 sec
30 sec
0%
2%
4%
6%
8%
10%
12%
14%
16%
0.5 1 1.5 2 3 5
15 sec
45 sec
30 sec
100 prototipi per classe100 prototipi per classe
50 prototipi per classe50 prototipi per classe
LPCC, MFCCLPCC, MFCC e e PFPF feature feature
0.5
Tasso di errore in funzione della Tasso di errore in funzione della durata degli shot in secondi per i durata degli shot in secondi per i tre TRS.tre TRS.
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Shot Length:
L’applicativo di speaker L’applicativo di speaker identificationidentification
L’applicativo di speaker L’applicativo di speaker identificationidentification
L’applicazione è basata su L’applicazione è basata su un sistema addestrato con un sistema addestrato con un un TRSTRS avente segmenti di avente segmenti di 30 sec30 sec, usando un , usando un classificatore LVQ con 50 classificatore LVQ con 50 prototipiprototipi. .
5 speakers5 speakers
Shot length = 1 secShot length = 1 sec
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
Shot Length:
Il tasso di Il tasso di riconoscimento è del riconoscimento è del 96.46%96.46%..
L’affidabilità L’affidabilità RR è è valutata come:valutata come:100*(1-N2/N1)100*(1-N2/N1)..N1 è il numero di vettori di N1 è il numero di vettori di feature attribuiti alla classe feature attribuiti alla classe vincente.vincente. N2 è il numero di vettori di N2 è il numero di vettori di feature attribuiti runner-up.feature attribuiti runner-up.
Il tasso di Il tasso di riconoscimento sulle riconoscimento sulle classificazioni affidabili classificazioni affidabili è delè del 99.79%99.79%..
L’applicativo di speaker L’applicativo di speaker identificationidentification
L’applicativo di speaker L’applicativo di speaker identificationidentification
SIRTA
2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 20052° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005
Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento
ConclusioniConclusioniConclusioniConclusioni Presentiamo un sistema di speaker identification Presentiamo un sistema di speaker identification
in tempo reale che utilizza feature estratte sia dal in tempo reale che utilizza feature estratte sia dal dominio del tempo che in quello delle frequenze.dominio del tempo che in quello delle frequenze. Attraverso un criterio di votazione a maggioranza, il sistema Attraverso un criterio di votazione a maggioranza, il sistema proposto è più robusto rispetto ai silenzi e ai segmenti proposto è più robusto rispetto ai silenzi e ai segmenti unvoicedunvoiced..
Presentiamo un sistema di speaker identification Presentiamo un sistema di speaker identification in tempo reale che utilizza feature estratte sia dal in tempo reale che utilizza feature estratte sia dal dominio del tempo che in quello delle frequenze.dominio del tempo che in quello delle frequenze. Attraverso un criterio di votazione a maggioranza, il sistema Attraverso un criterio di votazione a maggioranza, il sistema proposto è più robusto rispetto ai silenzi e ai segmenti proposto è più robusto rispetto ai silenzi e ai segmenti unvoicedunvoiced..
I risultati sul database di segmenti audio estratti I risultati sul database di segmenti audio estratti dai notiziari dimostrano l’efficacia del sistema dai notiziari dimostrano l’efficacia del sistema nell’identificazione degli speaker in tempo reale.nell’identificazione degli speaker in tempo reale.
I risultati sul database di segmenti audio estratti I risultati sul database di segmenti audio estratti dai notiziari dimostrano l’efficacia del sistema dai notiziari dimostrano l’efficacia del sistema nell’identificazione degli speaker in tempo reale.nell’identificazione degli speaker in tempo reale.
Il sistema può coadiuvare l’implementazione di Il sistema può coadiuvare l’implementazione di una applicazione che usa l’informazione audio una applicazione che usa l’informazione audio per la segmentazione automatica degli stream per la segmentazione automatica degli stream video. video.
Il sistema può coadiuvare l’implementazione di Il sistema può coadiuvare l’implementazione di una applicazione che usa l’informazione audio una applicazione che usa l’informazione audio per la segmentazione automatica degli stream per la segmentazione automatica degli stream video. video.