Verification of the four Spanish official languages on TV show recordings

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/14712
Información del item - Informació de l'item - Item information
Título: Verification of the four Spanish official languages on TV show recordings
Título alternativo: Verificación de las cuatro lenguas oficiales españolas en grabaciones de programas de televisión
Autor/es: Varona Fernández, Amparo | Peñagarikano Badiola, Mikel | Rodríguez Fuentes, Luis Javier | Díez Sánchez, Mireia | Bordel García, Germán
Palabras clave: Verificación de la lengua | Gaussian mixture models | Support vector machines | Language verification/recognition
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: oct-2010
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: VARONA FERNÁNDEZ, Amparo, et al. “Verification of the four Spanish official languages on TV show recordings”. Procesamiento del Lenguaje Natural. N. 45 (2010). ISSN 1135-5948
Resumen: En este trabajo se presentan resultados de verificación sobre las cuatro lenguas oficiales españolas: castellano, catalán, euskera y gallego. Se analizan los resultados obtenidos en tests cerrados y abiertos (estos últimos incluyendo segmentos en francés, portugués, alemán o inglés) y considerando segmentos de voz de 30 segundos. Se realiza también un estudio detallado del rendimiento del sistema por cada lengua objetivo. Se usa la base de datos KALAKA creada especialmente para la Evaluación Albayzín 2008 de sistemas de verificación de la lengua. El sistema de verificación principal resulta de la fusión de un sistema acústico y 6 subsistemas fonotácticos. El sistema acústico toma información de las características espectrales de la señal de audio, mientras que los sistemas fonotácticos utilizan secuencias de fonemas producidas por varios decodificadores acústicos. En este trabajo se alcanza una tasa EER= 3,58 % y un coste CLLR = 0.30 en test cerrado, lo que implica una mejora relativa del 24,5 % con respecto a los mejores resultados obtenidos en la evaluación Albayzin 2008 VL. | This paper presents language recognition results obtained for the four official Spanish languages: Spanish, Catalan, Basque and Galician. Results were obtained in closed and open tests (these latter including segments in French, Portuguese, German or English) on a subset of 30 second segments. A detailed study per target language is also included. Experiments were carried out on the KALAKA database, especially recorded for The Albayzin 2008 Language Recognition Evaluation. The main verification system resulted from the fusion of an acoustic system and 6 phonotactic subsystems. To model the target language, the acoustic subsystem takes information from the spectral characteristics of the audio signal, whereas phonotactic subsystems use sequences of phones produced by several acoustic-phonetic decoders. The best fused system attained a 3,58 % EER and CLLR = 0.30 in closed tests, which means 24,5 % improvement with regard to the best result obtained in the Albayzin 2008 LRE.
Patrocinador/es: This work has been supported by the Government of the Basque Country, under program SAIOTEK (project S-PE09UN47), and the Spanish MICINN, under Plan Nacional de I+D+i (project TIN2009-07446, partially financed by FEDER funds).
URI: http://hdl.handle.net/10045/14712
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 45 (2010)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_45_11.pdf215,44 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.