En este artículo estudiamos el problema de la estimación de gramáticas incontextuales estocásticas en formato general y su oso en un modelo de lenguaje híbrido. En este trabajo se propone la colimación de una gramática incontextual estocástica osando una nueva versión del algoritmo de Earley que permite manejar muestras parentizadas. El modelo de lenguaje híbrido es definido como una conbinación lineal de un modelo de o-gramas basado en palabras, que se utiliza para capturar las relaciones locales entre palabras, y una gramática estocástica, basada en categorías junto con una distribución de palabras en categorías, que se utiliza para representar las relaciones a largo término entre estas categorías. Se han realizado experimentos usando el corpus UPenn Treebank. La evaluación de los modelos se ha realizado desde el punto de vista de la perplejidad de un conjunto de test, y desde el punto de vista de la tasa de errores por palabra en un experimento de reconocimiento automático del habla.
In this paper, we study the problem of estimating Stochastic Context-Free Grammars (SCFGs) in general format and their use in a hybrid language model. In this work, we propose the estimation of a SCFG by means of a new bracketed version of the Earley algorithm. A hybrid language model is defined as a combination of a word-based n-gram, which is used to capture the local relations between words, and a category-based SCFG with a word distribution in categories, which is defined to represent the long-term relations between these categories. Experiments on the UPenn Treebank corpus are reported. These experiments have been carried out in terms of the test set perplexity and the word error rate in a speech recognition experiment.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados