Presentamos el trabajo realizado para conseguir un sistema que, integrado en el proyecto GALENA (Generador de Analizadores de LEnguajes NAturales), logre eliminar, de forma estadística, las ambigüedades que provocan las palabras al ser tratadas por el módulo de análisis léxico. El análisis léxico proporciona a las palabras unas etiquetas, es decir, descripciones que contienen toda la información (tipológica, morfológica...) necesaria para caracterizarlas en el conjunto del léxico de la lengua. A cada palabra aislada, fuera de contexto, pueden corresponderle varias etiquetas. Esta situación imposibilita el análisis sintáctico de los textos. Surge, por tanto, la necesidad de eliminar las ambigüedades en el proceso de etiquetación. El objetivo del presente trabajo es proveer de una única etiqueta a cada palabra, asignando la que en cada caso sea más probable según la historia del texto en estudio. Para ello, es necesario un análisis estadístico de textos del mismo estilo literario que el que va a ser tratado, y la aplicación de ese estudio al texto en cuestión. El supresor de ambigüedades que proponemos permite la selección, por parte del usuario, de la información léxica a utilizar en la desambiguación, y ofrece funcionalidades complementarias para el tratamiento de las matrices de aprendizaje.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados