Elena Álvarez Mellado
Las lenguas no viven aisladas, Las lenguas conviven. El contacto entre lenguas es uno de los principales motores del cambio lingüístico. Los hablantes de un idioma usan en ocasiones palabras provenientes de otras lenguas, un proceso que se conoce como préstamo léxico.
El préstamo léxico es una fuente prolífica de palabras nuevas y, en consecuencia, la identificación automática de préstamos léxicos es relevante tanto en Lingüística (pues facilita la recogida de datos en disciplinas como la lingüística histórica o la lexicografía) como en Procesamiento de Lenguaje Natural (como pre-procesamiento para otras tareas de PLN o a la hora de trabajar con lenguas con pocos recursos). Sin embargo, el trabajo de identificación de préstamos léxicos en Lingüística se ha hecho tradicionalmente a mano, lo que resulta muy limitante para estudiar un fenómeno continuo y disperso como es la incorporación de préstamos léxicos. Por otro lado, trabajos previos en PLN han abordado la detección de préstamos léxicos como un problema de clasificación binaria, en el que la tarea consiste en clasificar palabras sueltas desprovistas de contexto. Esta aproximación pasa por alto el hecho de que es fundamental considerar el contexto en el que aparece un término para decidir si es un préstamo, y no permite dar cuenta adecuadamente de fenómenos como los préstamos multipalabra, los préstamos adyacentes o la ambigüedad contextual, fenómenos prevalentes todos ellos en la lengua real.
El objetivo de esta tesis es proponer métodos computacionales para la recuperación automática de préstamos léxicos en textos, con especial interés en la identificación de préstamos léxicos del inglés (también llamados anglicismos) en español. A diferencia de otros trabajos previos, proponemos abordar la identificación de préstamos léxicos como un problema de etiquetado de secuencias, en el que el objetivo es recuperar spans relevantes de longitud variable a partir de una frase, de un modo semejante a como se aborda el reconocimiento de entidades nombradas o la identificación de expresiones multipalabra.
En la primera mitad de esta tesis proponemos métodos para la recolección y anotación de conjuntos de datos que contengan préstamos en contexto y lo aplicamos para producir COALAS, un corpus de prensa española anotado con anglicismos usando codificación BIO. A continuación, usamos COALAS para analizar el rendimiento y los errores de varios modelos supervisados de etiquetado de secuencias (un CRF, modelos basados en Transformers y varios BiLSTM-CRF con distintos tipos de embeddings),así como de un gran modelo de lenguaje en modo few shot (8B Llama3). Nuestros experimentos muestran que un BiLSTM-CFR alimentado con embeddings de palabra y subpalabra obtiene mejores resultados que todos lo demás modelos (incluyendo los modelos basados en Transformers y el LLM, que obtiene resultados decepcionantes), y que todos los modelos son sensibles en mayor o menos medida a la posición que ocupa el anglicismo dentro de la oración, la presencia de mayúsculas o la combinación de caracteres que lo conforman.
En la segunda mitad de la tesis ahondamos en los problemas que acarrea usar métricas agregadas a la hora de evaluar tareas de etiquetado de secuencias como la nuestra. Proponemos una nueva metodología basada en conjuntos de datos de etiquetado de secuencias y la aplicamos a la creación de BLAS, un benchmark para la identificación de anglicismos en español con capacidad predictiva: los resultados que los modelos obtienen sobre el benchmark BLAS permiten anticipar el rendimiento que esos mismos modelos obtendrán en colecciones de datos externas.
Por último, presentamos Observatorio Lázaro, un observatorio del anglicismo en la prensa española que implementa las técnicas y recursos producidos a lo largo de esta tesis. El observatorio monitoriza el uso diario de anglicismos en la prensa española e identifica nuevos préstamos que aparecen en los periódicos. Desde su lanzamiento en abril de 2020 hasta febrero de 2025, el observatorio ha registrado más de 1.400.000 apariciones de anglicismos (con una media de 1.050 anglicismos diarios detectados; 450 de ellos únicos, de los cuales 45 serán nuevos), lo que convierte a Observatorio Lázaro en la mayor base de datos léxica pública de este tipo automáticamente generada y en constante crecimiento.
Los resultados de esta tesis muestran que la identificación automática de préstamos léxicos puede efectivamente ser formulada como un problema de etiquetado de secuencias, y que esta aproximación permita dar cuenta mejor de la variabilidad lingüística que caracteriza el uso de préstamos léxicos en la lengua real.
Languages do not exist in isolation. Language coexist; speakers of different languages interact. Contact between languages is one of the inducers of language change, a process that is known as lexical borrowing.
As lexical borrowings are a source of new words, the automatic identification of borrowings has been shown to be useful both for Linguistics (to assit data-driven research in contact linguistic, historical linguistic and lexicographt) and in Natural Language Processing (as a pre-processing step for NLP downstream tasks, or when working on low-resource settings). However, previous work on lexical borrowing within Linguistics has mainly relied on manual inspection of corpora, an approach that is insufficient to account for an on-going ans spare phenomenon like borrowing incorporation. On the other hand, research within NLP has usually framed lexical borrowing identification as a word classification problem, in which isolated words deprived from context are classified as being a borrowing or not. This approach ignores the fact that context is key when deciding whether a given word is a borrowing or not, and is insufficient to account for multiword borrowings, adjacency or contextual ambiguity, which are all prevalent phenomena in real-world data.
This dissertation aims to provide computer-assisted methods for automatically retrieving lexical borrowings from text, with a focus on the identification of English lexical borrowings (or anglicisms) in Spanish. Contrary to previous work, we propose to frame lexical borrowing identification as a sequence labeling task, in which relevant spans of text are retrieved from sentences, in a similar fashion to how named entity recognition and multiword expressions are handled.
In the first half of this dissertation, we propose methods for collecting and annotating datasets of lexical borrowings in context, and apply them to produce COALAS, a novel corpus of Spanish journalistic texts annotated with anglicisms using BIO encoding. We use COALAS to analyze the performance and errors of several supervised sequence labelling models (CRF, BiLSTM-CFR, and Transformers-based models) and a large language model on a few-shot approach (8B Llama3). Our results show that a BiLSTM-CFR model fed with word and subword embeddings outperforms all other models (including Transformer-based models and the LLM, which performs poorly), and that all models are sensitive in varying degrees to capitalization, sentence position and shape.
In the second half of this dissertation, we explore the limitations that standard evaluation based on aggregated metrics produces when evaluating sequence labeling models in general and lexical borrowing indentification systems in particular. We propose en evaluation methodology based on formal dimensions to characterize spans in sequence labeling tasks an apply it to build BLAS, a linguistically-motivated benchmark for anglicism identification in Spanish that can predict how a system will generalize to outside data.
Finally, we present Observatorio Lázaro, an observatory of anglicism usage in the Spanish press that implements the techniques and resources introduced in the course of this dissertation. The observatory monitors the daily usage of English lexical borrowings in the Spanish press and detects novel anglicisms that appear in Spanish newspapers. As of February 2025, it has registered more than 1,400,000 occurences of anglicisms since it was launched (with an average od 1,050 anglicisms retrieved daily; 450 of them unique, 45 of those previously unattested), which, to the best of our knowledge, makes Observatorio Lázaro the largest continuously-growing self-population context-based database of anglicism usage ever compiled.
The results of this dissertation show that automatic identification of borrowings can indeed be framed as a sequence labeling task and that this approach is better suited than previous methods for capturing the linguistic nuances of borrowing usage in the wild and can successfully be applied to real-world scenarios.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados