José Miguel Benedí Ruiz , Francisco Casacuberta Nolla , Enrique Vidal Ruiz
Recientemente se ha propuesto un modelo de arquitectura homogénea y modular para la implementación de diversos sistemas de Reconocimiento Automático del Habla. En este trabajo se presenta una nueva versión del primer nivel de dicho modelo, consistente en un procedimiento de etiquetado microfonético difuso robusto y fiable. La representación paramétrica elegida para este nivel, está formada por los coeficientes cepstrales de la salida de un Bancos de Filtros escala mel. A partir de la definición de las categorías microfonéticas se calculan los prototipos asociados a las mismas, y el etiquetado difuso se realiza en función de la distancia de las muestras a dichos prototipos. Se presentan resultados comparativos de distintas representaciones paramétricas, junto con la obtención de los prototipos asociados a las categorías definidas y el poder discriminante de los mismos. Finalmente, se proporcionan los resultados de un experimento sintáctico-difuso de los dígitos castellanos, en base al etiquetado microfonético difuso finalmente adoptado.
Recently, a homogeneus and modular model of architecture has been proposed in order to implement Automatic Speech Recognition Systems. In this paper, we present a new version of a first level in this model. It is composed of a reliable and robust microphonetic fuzzy-labeling level. The parametric representation used for this level, consist of the cepstral coeficients of the output of a scale mel Filter Banck. Beginning from the definition of the microphonetic categories, the corresponding prototypes are computed and the fuzzy-labeling is then achieved as a function of the sample-to-prototype distances. We give comparative results of different parametric representations along with the process of obtaining the prototypes and the discriminative ability in this achieved. Finally, we present an experiment in which the fuzzy microphonetic labelling here proposed is used for a fuzzy syntactic recognition of the Spanish digits.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados