Tuning BART models to simplify Spanish health-related content

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/133240
Información del item - Informació de l'item - Item information
Título: Tuning BART models to simplify Spanish health-related content
Título alternativo: Ajuste de modelos BART para simplificación de textos sobre salud en español
Autor/es: Alarcon, Rodrigo | Martínez Fernández, Paloma | Moreno López, Lourdes
Palabras clave: Lexical simplification | Spanish | Language models | Multilingual BART | Simplificación léxica | Modelos del lenguaje | Español | BART multilingüe
Fecha de publicación: mar-2023
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2023, 70: 111-122. https://doi.org/10.26342/2023-70-9
Resumen: Health literacy has become an increasingly important skill for citizens to make health-relevant decisions in modern societies. Technology to support text accessibility is needed to help people understand information about their health conditions. This paper presents a transfer learning approach implemented with BART (Bidirectional AutoRegressive Transformers), a sequence-to-sequence technique that is trained as a denoising autoencoder. To accomplish this task, pre-trained models have been fine-tuned to simplify Spanish texts. Since fine tuning of language models requires sample data to adapt it to a new task, the process of creating of a synthetic parallel dataset of Spanish health-related texts is also introduced in this paper. The results on the test set of the fine-tuned models reached SARI values of 59.7 in a multilingual BART (mBART) model and 29.74 in a pre-trained mBART model for the Spanish summary generation task. They also achieved improved readability of the original texts according to the Inflesz scale. | La alfabetización sanitaria se ha convertido en una habilidad cada vez más importante para que los ciudadanos tomen decisiones sobre su salud en las sociedades modernas. Para ayudar a las personas a comprender la información sobre su estado de salud, es necesaria una tecnología que facilite la accesibilidad de los textos. Este artículo presenta un enfoque de transfer learning implementado con BART (Bidirectional AutoRegressive Transformers), una técnica sequence-to-sequence que se entrena como un autoencoder de eliminación de ruido. Para llevar a cabo esta tarea, se han ajustado modelos preentrenados para simplificar textos en español. Dado que el ajuste de los modelos lingüísticos requiere datos de muestra para adaptarlos a una nueva tarea, en este artículo también se presenta el proceso de creación de un conjunto de datos paralelos sintéticos de textos en español relacionados con la salud. Los resultados en el conjunto de prueba de los modelos afinados alcanzaron valores SARI de 59,7 en un modelo multilingual BART (mBART) y 29,74 en un modelo mBART pre-entrenado para la tarea de generación de resúmenes en español. Además lograron mejorar la legibilidad de los textos originales según la escala de Inflesz.
Patrocinador/es: This work is part of the R&D&i ACCESS2MEET (PID2020-116527RB-I00) project financed by MCIN AEI/10.13039/501100011033/, and the ”Intelligent and interactive home care system for the mitigation of the COVID-19 pandemic” project (PRTR-REACT UE) awarded by CAM. CONSEJERÍA DE EDUCACIÓN E INVESTIGACIÓN.
URI: http://hdl.handle.net/10045/133240
ISSN: 1135-5948
DOI: 10.26342/2023-70-9
Idioma: eng
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Revisión científica: si
Versión del editor: https://doi.org/10.26342/2023-70-9
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 70 (2023)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_70_09.pdf1,03 MBAdobe PDFAbrir Vista previa


Este ítem está licenciado bajo Licencia Creative Commons Creative Commons