Overview of ADoBo 2021: Automatic Detection of Unassimilated Borrowings in the Spanish Press

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/117497
Información del item - Informació de l'item - Item information
Título: Overview of ADoBo 2021: Automatic Detection of Unassimilated Borrowings in the Spanish Press
Título alternativo: Resumen de ADoBo 2021: detección automática de préstamos léxicos no asimilados en la prensa española
Autor/es: Álvarez Mellado, Elena | Espinosa-Anke, Luis | Gonzalo Arroyo, Julio | Lignos, Constantine | Porta Zamorano, Jordi
Palabras clave: Automatic detection of borrowings | Loanword detection | Linguistic borrowing | Anglicisms | Préstamo léxico | Anglicismos | Detección automática de préstamos
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: sep-2021
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2021, 67: 277-285. https://doi.org/10.26342/2021-67-24
Resumen: This paper summarizes the main findings of the ADoBo 2021 shared task, proposed in the context of IberLef 2021. In this task, we invited participants to detect lexical borrowings (coming mostly from English) in Spanish newswire texts. This task was framed as a sequence classification problem using BIO encoding. We provided participants with an annotated corpus of lexical borrowings which we split into training, development and test splits. We received submissions from 4 teams with 9 different system runs overall. The results, which range from F1 scores of 37 to 85, suggest that this is a challenging task, especially when out-of-domain or OOV words are considered, and that traditional methods informed with lexicographic information would benefit from taking advantage of current NLP trends. | En este artículo presentamos los resultados de ADoBo 2021, la tarea compartida de IberLEF 2021 sobre detección de préstamos léxicos en la prensa española. En esta tarea abordamos la detección de préstamos como un problema de etiquetado de secuencias. A los participantes de la tarea se les proporcionó un corpus de prensa española anotado con préstamos léxicos no asimilados (mayoritariamente anglicismos) siguiendo el esquema BIO. Recibimos nueve sistemas distintos provenientes de cuatro equipos diferentes. Los resultados obtenidos oscilan entre los 37 y los 85 puntos de valor F1, lo que indica que la detección de préstamos léxicos es un problema no resuelto (sobre todo cuando se abordan préstamos no vistos anteriormente) y que el trabajo lexicográfico tradicional podría beneficiarse de incorporar las técnicas actuales del PLN.
URI: http://hdl.handle.net/10045/117497
ISSN: 1135-5948
DOI: 10.26342/2021-67-24
Idioma: eng
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica: si
Versión del editor: https://doi.org/10.26342/2021-67-24
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 67 (2021)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_67_24.pdf724,57 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.