Ir al contenido

Documat


Resumen de Lexical Complexity Assessment of Spanish in Ecuadorian Public Documents

Jenny Alexandra Ortiz Zambrano, César Espin Riofrio, Arturo Montejo Ráez Árbol académico

  • español

    Este estudio presenta una evaluación integral de la complejidad léxica (CL) en textos de instituciones publicas ecuatorianas, con un enfoque particular en el desarrollo y aplicación de técnicas avanzadas de procesamiento del lenguaje natural (PLN). El análisis incluye una evaluación comparativa de varios modelos y enfoques aplicados al corpus GovAIEc, una colección recientemente desarrollada de textos gubernamentales ecuatorianos. El estudio examina el impacto de la incorporación de características lingüísticas y la variación del número de épocas de entrenamiento, proporcionando un análisis profundo de su contribución al rendimiento del modelo. Además, se propone una solución práctica y accesible a través de una plataforma web diseñada para facilitar la comprensión de palabras complejas en documentos públicos, que a menudo obstaculizan la ejecución exitosa de procesos burocráticos. Este trabajo tiene como objetivo mejorar las interacciones con los sistemas gubernamentales promoviendo una comunicación más eficiente y comprensible. El mejor rendimiento se alcanzó con bert-base-spanish-wwm-uncased, combinando características lingüísticas y codificaciones, con un MAE = 0.1551. Los resultados indican que las características lingüísticas son esenciales para mejorar el rendimiento, sugiriendo que los enfoques híbridos son más efectivos que los basados únicamente en aprendizaje profundo.

  • English

    This study presents a comprehensive assessment of lexical complexity (LC) in texts from Ecuadorian public institutions, with a particular focus on the development and application of advanced natural language processing (NLP) techniques. The analysis includes a comparative evaluation of several models and approaches applied to the GovAIEc corpus, a recently developed collection of Ecuadorian government texts. The study examines the impact of incorporating linguistic features and varying the number of training epochs, providing an in-depth analysis of their contribution to model performance. Furthermore, a practical and accessible solution is proposed through a web platform designed to facilitate the understanding of complex words in public documents, which often hinder the successful execution of bureaucratic processes. This work aims to improve interactions with government systems by promoting more efficient and comprehensible communication. The best performance was achieved with bert-base-spanish-wwm-uncased, combining linguistic features and encodings, with a MAE = 0.1551. The results indicate that linguistic features are essential to improve performance, suggesting that hybrid approaches are more effective than those based solely on deep learning.


Fundación Dialnet

Mi Documat