SOFTWARE E METODOLOGIE per lanalisi e lannotazione linguistica ISTITUTO DI SCIENZE E TECNOLOGIE...
-
Upload
gemma-innocenti -
Category
Documents
-
view
227 -
download
2
Transcript of SOFTWARE E METODOLOGIE per lanalisi e lannotazione linguistica ISTITUTO DI SCIENZE E TECNOLOGIE...
SOFTWARE E METODOLOGIEper l’analisi e l’annotazione linguistica
ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE
Piero Cosi
SEZIONE DI PADOVA - “FONETICA E DIALETTOLOGIA”Via G. Anghinoni, 10 - 35121 Padova (Italy)
e-mail: [email protected]: http://www.pd.istc.cnr.it
Copyright, 2006 © ISTC-SPFD-CNR
Copyright, 2006 © ISTC-SPFD-CNR
Introduzione metodologie hardware e software
Descrizione di alcuni sistemi pro & contro
Considerazioni finali
Introduzione metodologie hardware e software
Descrizione di alcuni sistemi pro & contro
Considerazioni finali
sommario
Dimostrazioni InterattiveDimostrazioni Interattive
Copyright, 2006 © ISTC-SPFD-CNR
Con il termine “Annotazione Linguistica" ci si riferisce ad ogni notazione descrittiva o analitica che possa essere applicata a dati linguistici raccolti sotto forma di dati testuali o di dati espressi come funzioni temporali (registrazioni audio, video e/o di dati articolatori o fisiologici).
Le notazioni possono includere le trascrizioni di ogni tipo (dalle caratteristiche fonetiche o prosodiche alle strutture della frase, del discorso o del dialogo), “part-of-speech” e altre specifiche annotazioni, analisi sintattiche, annotazioni incrociate con multi-riferimenti, e così via.
Con il termine “Annotazione Linguistica" ci si riferisce ad ogni notazione descrittiva o analitica che possa essere applicata a dati linguistici raccolti sotto forma di dati testuali o di dati espressi come funzioni temporali (registrazioni audio, video e/o di dati articolatori o fisiologici).
Le notazioni possono includere le trascrizioni di ogni tipo (dalle caratteristiche fonetiche o prosodiche alle strutture della frase, del discorso o del dialogo), “part-of-speech” e altre specifiche annotazioni, analisi sintattiche, annotazioni incrociate con multi-riferimenti, e così via.
“Annotazione Linguistica”
Copyright, 2006 © ISTC-SPFD-CNR
Metodologia manuale
parole fonemi
formanti
f0
energia
toni
Copyright, 2006 © ISTC-SPFD-CNR
Metodologia automatica
trascrizione fonetica# i s t i t u1 t o #
allineamento forzato
sistema di riconoscimento automatico
# i s t i t u1 t o #
segmentazione automatica
Copyright, 2006 © ISTC-SPFD-CNR
Emu
Copyright, 2006 © ISTC-SPFD-CNR
Emu
EMU è una collezione di strumenti software per la creazione, la manipolazione e l’analisi di database vocali.Il cuore di EMU e rappresentato da un sistema di ricerca nel database che consente di trovare vari segmenti vocali a seconda della loro struttura sequenziale e/o gerarchica all’interno della frase in cui occorrono.EMU include un sistema interattivo per l’etichettatura su vari livelli (parola, fonemi, toni…) che può visualizzare, oltre alla forma d’onda, anche spettrogrammi, formanti e andamenti di f0, e consente la creazione di etichette sequenziali e/o gerarchicamente organizzate.
EMU è una collezione di strumenti software per la creazione, la manipolazione e l’analisi di database vocali.Il cuore di EMU e rappresentato da un sistema di ricerca nel database che consente di trovare vari segmenti vocali a seconda della loro struttura sequenziale e/o gerarchica all’interno della frase in cui occorrono.EMU include un sistema interattivo per l’etichettatura su vari livelli (parola, fonemi, toni…) che può visualizzare, oltre alla forma d’onda, anche spettrogrammi, formanti e andamenti di f0, e consente la creazione di etichette sequenziali e/o gerarchicamente organizzate.
Emu - SourceForge free service to Open Source
http://emu.sourceforge.net/
Steve Cassidy ([email protected]) SHLRC Speech Hearing and Language Research Centre, Macquarie University, Sydney, Australia
Copyright, 2006 © ISTC-SPFD-CNR
WaveSurfer
Copyright, 2006 © ISTC-SPFD-CNR
WaveSurfer è uno strumento Open Source per la visualizzazione e la manipolazione del segnale.
E’ adatto a qualsiasi tipo di utenti specializzati o meno, infatti, ha un’interfaccia semplicissima e funzionale
Può essere usato in modalità stand-alone ma può anche essere integrato in altre applicazioni ed è estendibile medianti opportuni plug-ins.
Consente l’etichettatura e la segmentazione su multilivelli
WaveSurfer è uno strumento Open Source per la visualizzazione e la manipolazione del segnale.
E’ adatto a qualsiasi tipo di utenti specializzati o meno, infatti, ha un’interfaccia semplicissima e funzionale
Può essere usato in modalità stand-alone ma può anche essere integrato in altre applicazioni ed è estendibile medianti opportuni plug-ins.
Consente l’etichettatura e la segmentazione su multilivelli
WaveSurfer
WaveSurfer: http://www.speech.kth.se/wavesurfer/
Jonas Beskow ([email protected]), Kåre Sjölander ([email protected]) Centre for Speech Technology (CTT) at KTH in Stockholm, Sweden
WaveSurfer per CLIPS
Massimo Petrillo ([email protected]), Francesco Cutugno ([email protected])CIRASS
Copyright, 2006 © ISTC-SPFD-CNR
Aneto
Copyright, 2006 © ISTC-SPFD-CNR
Aneto è uno strumento per l’analisi prosodica oltre che per la visualizzazione e la manipolazione del segnale
E’ adatto a qualsiasi tipo di utenti specializzati o meno
Si puo modificare il contorno stilizzato di f0 e risintetizzare il segnale con la nuova prosodia
Consente l’etichettatura e la segmentazione
Aneto funziona su Windows 9x e NT ed è disponibile liberamente a scopi di ricerca e su licenza per scopi commerciali
Aneto è uno strumento per l’analisi prosodica oltre che per la visualizzazione e la manipolazione del segnale
E’ adatto a qualsiasi tipo di utenti specializzati o meno
Si puo modificare il contorno stilizzato di f0 e risintetizzare il segnale con la nuova prosodia
Consente l’etichettatura e la segmentazione
Aneto funziona su Windows 9x e NT ed è disponibile liberamente a scopi di ricerca e su licenza per scopi commerciali
Aneto
Aneto: http://gps-tsc.upc.es/veu/soft/soft/index.php3
Miquel Febrer, Albert Febrer, Antonio Bonafonte ([email protected]) e Ignasi EsquerraDepartment of Signal Theory and Communications
Universitat Politècnica de CatalunyaSignal Processing Group
Copyright, 2006 © ISTC-SPFD-CNR
SFSWin &WASP
Copyright, 2006 © ISTC-SPFD-CNR
SFSWin
SFSWin (WASP) è simile a WaveSurfer, con la differenza che può essere usato solo in modalità stand-alone, anche se c’è la possibilità di utilizzare degli script per automatizzare le procedure.
Consente l’etichettatura e la segmentazione su multilivelli
SFSWin (WASP) è simile a WaveSurfer, con la differenza che può essere usato solo in modalità stand-alone, anche se c’è la possibilità di utilizzare degli script per automatizzare le procedure.
Consente l’etichettatura e la segmentazione su multilivelli
SFSWin: http://www.phon.ucl.ac.uk/resource/sfs/
Mark Huckvale ([email protected])University College London: http://www.phon.ucl.ac.uk/
Copyright, 2006 © ISTC-SPFD-CNR
SpeechAnalyzer
Copyright, 2006 © ISTC-SPFD-CNR
SpeechAnalyzer
SpeechAnalyzer è simile a WaveSurfer, con la differenza che può essere usato solo in modalità stand-alone.
E’ possibile utilizzarlo assieme a Speech Manager, un programma per la gestione di database vocali, specificatamente progettato per consentire ai linguisti l’analisi di più linguaggi parlati.
Consente l’etichettatura (anche IPA da tastiera ) e la segmentazione su più livelli
SpeechAnalyzer è simile a WaveSurfer, con la differenza che può essere usato solo in modalità stand-alone.
E’ possibile utilizzarlo assieme a Speech Manager, un programma per la gestione di database vocali, specificatamente progettato per consentire ai linguisti l’analisi di più linguaggi parlati.
Consente l’etichettatura (anche IPA da tastiera ) e la segmentazione su più livelliSpeechAnalyzer: http://www.sil.org/computing/speechtools/speechanalyzer.htm
SIL International (Summer Institute of Linguistics): http://www.sil.org/
Copyright, 2006 © ISTC-SPFD-CNR
SpeechViewer
Copyright, 2006 © ISTC-SPFD-CNR
SpeechViewerSpeechViewer è uno strumento Open Source integrato nel software Cslu Speech Toolkit (http://www.cse.ogi.edu/CSLU/toolkit/supported.html ) per la visualizzazione e la manipolazione del segnale.
Come WaveSurfer è adatto a qualsiasi tipo di utenti specializzati o meno, infatti, ha un’interfaccia semplicissima e funzionale
E’ disponibile il sorgente, quindi, oltre a poter essere usato in modalità stand-alone può anche essere integrato in altre applicazioni.
Consente l’etichettatura e la segmentazione su multilivelli
SpeechViewer è uno strumento Open Source integrato nel software Cslu Speech Toolkit (http://www.cse.ogi.edu/CSLU/toolkit/supported.html ) per la visualizzazione e la manipolazione del segnale.
Come WaveSurfer è adatto a qualsiasi tipo di utenti specializzati o meno, infatti, ha un’interfaccia semplicissima e funzionale
E’ disponibile il sorgente, quindi, oltre a poter essere usato in modalità stand-alone può anche essere integrato in altre applicazioni.
Consente l’etichettatura e la segmentazione su multilivelli
SpeechViewer, Cslu Speech Toolkit: http://cslu.cse.ogi.edu/
Centre for Spoken Language Understanding @ OGI, Portland OR, USA
Copyright, 2006 © ISTC-SPFD-CNR
Praat
Copyright, 2006 © ISTC-SPFD-CNR
Praat
PRAAT è un potentissimo strumento per l’analisi, la sintesi, la visualizzazione e la manipolazione del segnale.
E’ ottimo soprattutto per l’analisi e la sintesi del segnale, ma è principalmente adatto ad utenti specializzati, infatti, l’interfaccia non è semplicissima.
È disponibile il sorgente, quindi può essere “personalizzato” e si possono inoltre creare utilissimi script di lavoro per automatizzare le procedure di analisi
Consente l’etichettatura e la segmentazione su più livelli
PRAAT è un potentissimo strumento per l’analisi, la sintesi, la visualizzazione e la manipolazione del segnale.
E’ ottimo soprattutto per l’analisi e la sintesi del segnale, ma è principalmente adatto ad utenti specializzati, infatti, l’interfaccia non è semplicissima.
È disponibile il sorgente, quindi può essere “personalizzato” e si possono inoltre creare utilissimi script di lavoro per automatizzare le procedure di analisi
Consente l’etichettatura e la segmentazione su più livelli
PRAAT: http://www.fon.hum.uva.nl/praat/
Paul Boersma ([email protected]) Institute of Phonetic Sciences of the University of Amsterdam: http://www.fon.hum.uva.nl/
Copyright, 2006 © ISTC-SPFD-CNR
SegWin
Copyright, 2006 © ISTC-SPFD-CNR
SegWin
SegWin è uno software di ausilio alla costruzione della base di dati ed alla segmentazione del corpus AVIP
La sequenza di etichettatura è particolarmente rigida essendo le dipendenze dei livelli di etichettatura automaticamente determinate
Consente l’etichettatura e la segmentazione su multilivelliPHN: “fonetico stretto”, PHB: “fonetico largo” o “fonologico della varietà”, WRD: ortografico, PHM: “citation form” (conversione automatica grafema-fonema), TON: “intonativo”
Attualmente è specifico al corpus AVIP ma è adattabile anche ad altre basi di dati
SegWin è uno software di ausilio alla costruzione della base di dati ed alla segmentazione del corpus AVIP
La sequenza di etichettatura è particolarmente rigida essendo le dipendenze dei livelli di etichettatura automaticamente determinate
Consente l’etichettatura e la segmentazione su multilivelliPHN: “fonetico stretto”, PHB: “fonetico largo” o “fonologico della varietà”, WRD: ortografico, PHM: “citation form” (conversione automatica grafema-fonema), TON: “intonativo”
Attualmente è specifico al corpus AVIP ma è adattabile anche ad altre basi di dati
SegWin
M. Refice ([email protected]) , M. Savino, M. Altieri, R. Altieri e A. Enriquez - DEE - Politecnico di Bari
Copyright, 2006 © ISTC-SPFD-CNR
Transcriber
Copyright, 2006 © ISTC-SPFD-CNR
Transcriber è uno strumento distribuito come “free software”, su licenza GNU General Public License, che consente la creazione, l’organizzazione ed il mantenimento di corpora vocali. Transcriber è uno strumento rivolto principalmente alla trascrizione di registrazioni di lunga durata, come quelle, ad esempio, relative alle notizie radio televisive. Consente l’etichettatura di parlanti diversi e l’indicazione degli argomenti del dialogo. E’ stato progettato per essere il più semplice possibile ed è facilmente configurabile dall’utente.
Transcriber è sviluppato in Tcl/Tk con estensioni in C++ e si basa sul software Snack/WaveSurfer (KTH)
Transcriber è uno strumento distribuito come “free software”, su licenza GNU General Public License, che consente la creazione, l’organizzazione ed il mantenimento di corpora vocali. Transcriber è uno strumento rivolto principalmente alla trascrizione di registrazioni di lunga durata, come quelle, ad esempio, relative alle notizie radio televisive. Consente l’etichettatura di parlanti diversi e l’indicazione degli argomenti del dialogo. E’ stato progettato per essere il più semplice possibile ed è facilmente configurabile dall’utente.
Transcriber è sviluppato in Tcl/Tk con estensioni in C++ e si basa sul software Snack/WaveSurfer (KTH)
Transcriber
Transcriber - Copyright (C) 1998-2000, DGA
http://trans.sourceforge.net/en/presentation.php
Mathieu Manta, Fabien Antoine, Sylvain Galliano, DGA/CEP/GIP Claude Barras, CNRS/LIMSI ([email protected])
Copyright, 2006 © ISTC-SPFD-CNR
MultiSpeech
Copyright, 2006 © ISTC-SPFD-CNR
MultiSpeech
Multi-Speech (Model 3700), è un programma di analisi del segnale low-cost per Windows®.
Utilizza gli hardware multimediali standard (Sound Blaster™) per acquisire, analizzare e riprodurre il segnale.
Validissimo per l’analisi non altrettanto per l’etichettatura e la segmentazione
Multi-Speech (Model 3700), è un programma di analisi del segnale low-cost per Windows®.
Utilizza gli hardware multimediali standard (Sound Blaster™) per acquisire, analizzare e riprodurre il segnale.
Validissimo per l’analisi non altrettanto per l’etichettatura e la segmentazione
Kay Elemetricshttp://www.kayelemetrics.com/Product%20Info/3700/3700.htm
Copyright, 2006 © ISTC-SPFD-CNR
Scicon: Pc/MacQuirer,PitchWorks
Copyright, 2006 © ISTC-SPFD-CNR
Scicon: Pc/MacQuirer,PitchWorks
Programmi di analisi (Pc/MacQuirer) ed etichettatura (PitchWorks) del segnale low-cost per Windows®.
Utilizza gli hardware multimediali standard (Sound Blaster™) per acquisire, analizzare e riprodurre il segnale.
Utilizza le ultime convenzioni in fatto di etichettatura su multilivelli, soprattutto per quanto riguarda l’intonazione (TOBI) e dispone di un’ottimo algoritmo per l’estrazione di f0
Programmi di analisi (Pc/MacQuirer) ed etichettatura (PitchWorks) del segnale low-cost per Windows®.
Utilizza gli hardware multimediali standard (Sound Blaster™) per acquisire, analizzare e riprodurre il segnale.
Utilizza le ultime convenzioni in fatto di etichettatura su multilivelli, soprattutto per quanto riguarda l’intonazione (TOBI) e dispone di un’ottimo algoritmo per l’estrazione di f0
Sciconhttp://www.sciconrd.com/
Copyright, 2006 © ISTC-SPFD-CNR
ANVIL: Annotation of Video and Language Data
Copyright, 2006 © ISTC-SPFD-CNR
ANVIL: “ANnotation of VIdeo and Language data”
Anvil è uno strumento per l’annotazione di dati audio/video. Anvil consente un’annotazione gerarchica multi-livello con “oggetti” definibili dall’utente e, di conseguenza, di natura arbitraria.La visualizzazione sincronizzata delle immagini video con le annotazioni rendono la codifica assai intuitiva.Sono consentiti legami fra livelli ed è stato realizzato un “project manager” di ausilio alle procedure di ricerca.Anvil è scritto in Java e utilizza il linguaggio XML per la memorizazione dei dati .
Anvil è uno strumento per l’annotazione di dati audio/video. Anvil consente un’annotazione gerarchica multi-livello con “oggetti” definibili dall’utente e, di conseguenza, di natura arbitraria.La visualizzazione sincronizzata delle immagini video con le annotazioni rendono la codifica assai intuitiva.Sono consentiti legami fra livelli ed è stato realizzato un “project manager” di ausilio alle procedure di ricerca.Anvil è scritto in Java e utilizza il linguaggio XML per la memorizazione dei dati .
Anvil: http://www.dfki.de/~kipp/anvil/
Michael Oliver Kipp ([email protected]) German Research Center for Artificial Intelligence GmbH
DFKI GmbH, Stuhlsatzenhausweg 3, D-66123 Saarbrücken Phone: +49 (0) 681 302 5232, Fax: +49 (0) 681 302 5341, Email: [email protected]
Copyright, 2006 © ISTC-SPFD-CNR
sono ormai disponibili molti “buoni” sistemi per l’annotazione linguistica
vi sono, per ognuno, pro e contro visto che, non sempre rispondono a tutte le
esigenze, sono da preferirsi “sistemi aperti”, (basati su Tcl/tk, Java, ecc.) per consentire una facile interazione qualora sia necessaria una qualche modifica
scelte IFD (…………..da prendersi con le pinze!) EMU (etichettatura) o allineamento automatico
(mediante ASR allenato su APASCI) PRAAT (analisi)
buona annotazione!
sono ormai disponibili molti “buoni” sistemi per l’annotazione linguistica
vi sono, per ognuno, pro e contro visto che, non sempre rispondono a tutte le
esigenze, sono da preferirsi “sistemi aperti”, (basati su Tcl/tk, Java, ecc.) per consentire una facile interazione qualora sia necessaria una qualche modifica
scelte IFD (…………..da prendersi con le pinze!) EMU (etichettatura) o allineamento automatico
(mediante ASR allenato su APASCI) PRAAT (analisi)
buona annotazione!
considerazioni finali
Copyright, 2006 © ISTC-SPFD-CNR
WWW Annotazione Linguistica
WWW Annotazione Linguistica http://www.ldc.upenn.edu/annotation/
(Steven Bird, Mark Liberman, LDC)
versione italiana (P. Cosi) http://www.pd.istc.cnr.it/biblos/annotazione-linguistica.htm
WWW Annotazione Linguistica http://www.ldc.upenn.edu/annotation/
(Steven Bird, Mark Liberman, LDC)
versione italiana (P. Cosi) http://www.pd.istc.cnr.it/biblos/annotazione-linguistica.htm