RoBERTime: A novel model for the detection of temporal expressions in Spanish

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/133235
Información del item - Informació de l'item - Item information
Título: RoBERTime: A novel model for the detection of temporal expressions in Spanish
Título alternativo: RoBERTime: un nuevo modelo para la detección de expresiones temporales en español
Autor/es: Sánchez-de-Castro-Fernández, Alejandro | Araujo Serna, Lourdes | Martínez Romo, Juan
Palabras clave: Temporal expressions | TimeML | Language models | Clinical domain | Expresiones temporales | Modelos del lenguaje | Dominio clínico
Fecha de publicación: mar-2023
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2023, 70: 39-51. https://doi.org/10.26342/2023-70-3
Resumen: Temporal expressions are all those words that refer to temporality. Their detection or extraction is a complex task, since it depends on the domain of the text, the language and the way they are written. Their study in Spanish and more specifically in the clinical domain is scarce, mainly due to the lack of annotated corpora. In this paper we propose the use of large language models to address the task, comparing the performance of five models of different characteristics. After a process of experimentation and fine tuning, a new model called RoBERTime is created for the detection of temporal expressions in Spanish, especially focused in the clinical domain. This model is publicly available. RoBERTime achieves state-of-the-art results in the E3C and Timebank corpora, being the first public model for the detection of temporal expressions in Spanish specialized in the clinical domain. | Las expresiones temporales son todas aquellas palabras que refieran temporalidad. Su detección o extracción es una tarea compleja, ya que depende del dominio del texto, del idioma y de la forma de escritura. Su estudio en español y más específicamente en el dominio clínico es escaso, debido principalmente a la falta de corpora anotados. En este trabajo se propone el uso de grandes modelos del lenguaje para abordar la tarea, comparando el rendimiento de cinco modelos de distintas características. Tras un proceso de experimentación y fine tuning, se logra crear un nuevo modelo llamado RoBERTime para la detección de expresiones temporales en español, especialmente centrado en el dominio clínico. Este modelo se encuentra disponible de forma pública. RoBERTime alcanza resultados del estado del arte en los corpus E3C y Timebank, siendo este el primer modelo público en detección de expresiones temporales en español especializado en el dominio clínico.
Patrocinador/es: This work has been funded by the following projects DOTT-HEALTH (MCI/AEI/FEDER, UE with identification PID2019-106942RB-C32), OBSER-MENH(MCIN/AEI/10.13039/501100011033 and NextGenerationEU”/PRTR with identification TED2021-130398B-C21) and by the project RAICES (IMIENS 2022).
URI: http://hdl.handle.net/10045/133235
ISSN: 1135-5948
DOI: 10.26342/2023-70-3
Idioma: eng
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Revisión científica: si
Versión del editor: https://doi.org/10.26342/2023-70-3
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 70 (2023)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_70_03.pdf1,05 MBAdobe PDFAbrir Vista previa


Este ítem está licenciado bajo Licencia Creative Commons Creative Commons