Ir al contenido

Documat


Resumen de Language Recognition on Albayzin 2010 LRE using PLLR features

Mireia Díez Sánchez Árbol académico, Amparo Varona Fernández Árbol académico, Mikel Peñagaricano Badiola, Luis Javier Rodríguez Fuentes, Germán Bordel García Árbol académico

  • español

    Los as´ý denominados Phone Log-Likelihood Ratios (PLLR), han sido introducidos como caracter´ýsticas alternativas a los MFCC-SDC para sistemas de Reconocimiento de la Lengua (RL) mediante iVectors. En este art´ýculo, tras una breve descripci´on de estas caracter´ýsticas, se proporcionan nuevas evidencias de su utilidad para tareas de RL, con un nuevo conjunto de experimentos sobre la base de datos Albayzin 2010 LRE, que contiene habla multi-locutor de banda ancha en seis lenguas diferentes: euskera, catal´an, gallego, espa�nol, portugu´es e ingl´es. Los sistemas de iVectors entrenados con PLLRs obtienen mejoras relativas significativas respecto a los sistemas fonot´acticos y sistemas de iVectors entrenados con caracter´ýsticas MFCC-SDC, tanto en condiciones de habla limpia como con habla ruidosa. Las fusiones de los sistemas PLLR con los sistemas fonot´acticos y/o sistemas basados en MFCC-SDC proporcionan mejoras adicionales en el rendimiento, lo que revela que las caracter´ýsticas PLLR aportan informaci´on complementaria en ambos casos

  • English

    Phone Log-Likelihood Ratios (PLLR) have been recently proposed as alternative features to MFCC-SDC for iVector Spoken Language Recognition (SLR).

    In this paper, PLLR features are first described, and then further evidence of their usefulness for SLR tasks is provided, with a new set of experiments on the Albayzin 2010 LRE dataset, which features wide-band multi speaker TV broadcast speech on six languages: Basque, Catalan, Galician, Spanish, Portuguese and English. iVector systems built using PLLR features, computed by means of three open-source phone decoders, achieved significant relative improvements with regard to the phonotactic and MFCC-SDC iVector systems in both clean and noisy speech conditions. Fusions of PLLR systems with the phonotactic and/or the MFCC-SDC iVector systems led to improved performance, revealing that PLLR features provide complementary information in both cases


Fundación Dialnet

Mi Documat