Earley-based stochastic context-free grammar estimation from bracketed corpora and its use in a hybrid languaje model

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/1509
Información del item - Informació de l'item - Item information
Título: Earley-based stochastic context-free grammar estimation from bracketed corpora and its use in a hybrid languaje model
Autor/es: Linares, Diego | Benedí Ruiz, José Miguel | Sánchez Peiró, Joan Andreu
Palabras clave: Modelado del lenguaje | Estimación de gramáticas | Reconocimiento automático del habla | Language modelling | Grammar estimation | Automatic speech recognition
Fecha de publicación: sep-2003
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: LINARES, Diego; BENEDÍ RUIZ, José Miguel; SÁNCHEZ PEIRÓ, Joan Andreu. “Earley-based stochastic context-free grammar estimation from bracketed corpora and its use in a hybrid languaje model”. Procesamiento del lenguaje natural. Nº 31 (septiembre 2003), pp. 183-190
Resumen: En este artículo estudiamos el problema de la estimación de gramáticas incontextuales estocásticas en formato general y su uso en un modelo de lenguaje híbrido. En este trabajo se propone la estimación de una gramática incontextual estocástica usando una nueva versión del algoritmo de Earley que permite manejar muestras parentizadas. El modelo de lenguaje híbrido es definido como una combinación lineal de un modelo de ngramas basado en palabras, que se utiliza para capturar las relaciones locales entre palabras, y una gramática estocástica, basada en categorías junto con una distribución de palabras en categorías, que se utiliza para representar las relaciones a largo término entre estas categorías. Se han realizado experimentos usando el corpus UPenn Treebank. La evaluación de los modelos se ha realizado desde el punto de vista de la perplejidad de un conjunto de test, y desde el punto de vista de la tasa de errores por palabra en un experimento de reconocimiento automático del habla. | In this paper, we study the problem of estimating Stochastic Context-Free Grammars (SCFGs) in general format and their use in a hybrid language model. In this work, we propose the estimation of a SCFG by means of a new bracketed version of the Earley algorithm. A hybrid language model is defined as a combination of a word-based n-gram, which is used to capture the local relations between words, and a category-based SCFG with a word distribution in categories, which is defined to represent the long-term relations between these categories. Experiments on the UPenn Treebank corpus are reported. These experiments have been carried out in terms of the test set perplexity and the word error rate in a speech recognition experiment.
Patrocinador/es: This work has been partially supported by the Spanish CICYT under contract (TIC2002/04103-C03-03).
URI: http://hdl.handle.net/10045/1509
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 31 (septiembre 2003)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_31_22.pdf104,51 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.