La tecnología basada en Inteligencia Artificial tiene una gran potencialidad para desarrollar asistentes que ayuden a profesionales médicos en la toma de decisiones, las cuales en muchos casos están basadas en el procesamiento de una gran cantidad de textos no-estructurados. En este contexto, la minería de argumentos (AM) puede ayudar a estructurar los datos textuales en componentes argumentativos y las relaciones discursivas existentes entre ellos. Sin embargo, al igual que todavía ocurre en muchas tareas de Procesamiento del Lenguaje Natural, la gran mayoría del trabajo sobre argumentación computacional en el dominio medico se ha centrado únicamente en ingles. En este articulo investigamos varias estrategias para realizar AM en textos médicos para un idioma como el español, para el cual no existen datos manualmente etiquetados. Nuestro trabajo muestra que traducir y proyectar automáticamente anotaciones del ingles a un idioma de destino determinado como el español es una forma eficaz de generar datos anotados sin necesidad de realizar anotación manual. Por otra parte, se demuestra experimentalmente que traducir y proyectar obtiene mejores resultados que los métodos basados en las capacidades de transferencia crosslingüe de modelos de lenguaje multilingües. Finalmente, usamos los datos automáticamente generados para español para mejorar los resultados originales en inglés, proporcionando así una estrategia de aumento de datos totalmente automática.
Nowadays the medical domain is receiving much more attention in applications involving Artificial Intelligence as clinicians decision-making is increasingly dependent on dealing with enormous amounts of unstructured textual data. In this context, Argument Mining (AM) helps to meaningfully structure textual data by identifying the argumentative components in the text and classifying the relations between them. However, as it is the case for many tasks in Natural Language Processing in general and in medical text processing in particular, the large majority of the work on computational argumentation has been focusing only on the English language. In this paper, we investigate several strategies to perform AM in medical texts for a language such as Spanish, for which no annotated data is available. Our work shows that automatically translating and projecting annotations (data-transfer) from English to a given target language is an effective way to generate annotated data without costly manual intervention. Furthermore, and contrary to conclusions from previous work for other sequence labelling tasks, our experiments demonstrate that data-transfer outperforms methods based on the the crosslingual transfer capabilities of multilingual pre-trained language models (model-transfer). Finally, we show how the automatically generated data in Spanish can also be used to improve results in the original English monolingual setting, providing thus a fully automatic data augmentation strategy. Data, code, and fine-tuned models are publicly available at https://huggingface.co/datasets/HiTZ/AbstRCT-ES.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados