Cross-Domain and Multilingual Temporal Information Extraction

Alejandro Sánchez Castro Fernández

Ayuda

Cross-Domain and Multilingual Temporal Information Extraction

Autores: Alejandro Sánchez Castro Fernández
Directores de la Tesis: Lourdes Araujo (dir. tes.) , Juan Martínez Romo (dir. tes.)
Lectura: En la UNED. Universidad Nacional de Educación a Distancia ( España ) en 2026
Idioma: inglés
Número de páginas: 229
Tribunal Calificador de la Tesis: Rodrigo Agerri Gascón (presid.) , Enrique Amigó (secret.) , Ricardo Nuno Taboda Campos (voc.)
Enlaces
- Tesis en acceso abierto en: e-spacio
Resumen
- español
  El campo del Procesamiento del Lenguaje Natural (PLN) avanza cada vez más hacia una compresión completa del contenido textual, un objetivo que requiere la extracción e interpretación precisa de la información textual, un objetivo que requiere la extracción e interpretación precisa de la información temporal. Esta tesis doctoral presenta un estudio exhaustivo de las principales subtareas implicadas en dicho proceso: la detección de eventos, la extracción y normalización de expresiones temporales y la extracción de relaciones temporales. La investigación surge de la necesidad crítica de superar las limitaciones de los sistemas existentes, los cuales suelen carecer de robustez y de capacidad de adaptación a diferentes lenguas y dominios. La hipótesis central de este trabajo sostiene que la integración de técnicas avanzadas de aprendizaje profundo puede mejorar significativamente la precisión y la capacidad de generalización de los sistemas de extracción temporal. En particular, los modelos de lenguaje preentrenddos (PTLMs), los grandes modelos del lenguaje (LLMs) y el aprendizaje de refuerzo (RL) combinados con razonamiento estructurado. Este enfoque tiene el potencial de superar las metodologías actuales de referencia, al abordar las complejidades inherentes al procesamiento de datos multidominio y multilingües.
  
  Los resultados obtenidos aportan evidencia sólida en favor de la hipótesis planteada. En la detección de eventos, un PTLM entrenado demostró una notable capacidad para identificar segmentos de eventos en narrativas clínicas en español, alcanzando un rendimiento robusto incluso en un conjunto de datos con múltiples subdominios. En cuanto a la extracción de expresiones temporales, el desafío de lograr una adaptabilidad multidominio fue resuelto de manera eficaz mediante el uso de un PTLM combinado con diversas técnicas de aprendizaje profundo, superando el estado del arte actual. En la normalización de las expresiones temporales, se resolvió el problema de presentar de forma estandarizada expresiones temporales heterogéneas mediante la introducción de una nueva representación intermedia de valores (VIR), y se mostró el desempeño superior de los LLMs generativos en esta tarea en múltiples lenguas. Asimismo, la investigación sobre la extracción de relaciones temporales, un problema particularmente complejo, demostró que la integración de LLMs con aprendizaje por refuerzo y representaciones híbridas (tanto point-wise como span-wise) mejoró significativamente el rendimiento y abrió una vía tangible hacia una mayor explicabilidad de los procesos de razonamiento de los modelos. La utilidad práctica de la investigación se validó aplicando los enfoques propuestos a datos clínicos privados del mundo real, lo que puso de relieve su eficacia en un ámbito delicado.
  
  En conclusión, esta tesis ha contribuido de manera significativa al avance en la extracción de información temporal, ofreciendo soluciones innovadoras y validadas empíricamente a sus principales desafíos. La investigación traza además una hoja de ruta para trabajos futuros en el área, que abarca desde la exploración de distintas variantes de aprendizaje por refuerzo en la extracción de relaciones temporales hasta el desarrollo de marcos de aprendizaje multitarea. La capacidad de extraer información temporal de manera precisa y robusta tiene implicaciones profundas en aplicaciones posteriores, como la construcción de líneas temporales, la generación inteligente de resúmenes y los sistemas de respuesta a preguntas que requieren razonamiento temporal complejo, en especial en dominios de gran impacto como la medicina clínica. Finalmente, mediante la difusión pública del código, los modelos y los procedimientos de entrenamiento desarrollados, este trabajo no solo aporta al avance de la comunidad científica, sino que también sienta las bases para futuras investigaciones y aplicaciones prácticas en esta área fundamental del PLN.
- English
  The field of Natural Language Processing (NLP) is increasingly moving toward a deeper understanding of textual content, a goal that necessitates the accurate extraction and in-terpretation of temporal information. This doctoral thesis presents a comprehensive ex-ploration into the subtasks of temporal information extraction-namely, event detection, temporal expression extraction and normalization, and temporal relation extraction. The research was mainly motivated by a critical need to overcome the limitations of existing systems, which often lack robustness and adaptability across diverse languages and do-mains. This work posits the central hypothesis that integrating advanced deep learning techniques, specifically pre-trained language models (PTLMs), large language models (LLMs), and reinforcement learning (RL) with structured reasoning, can significantly en-hance the accuracy and generalizability of temporal information extraction systems. This approach stands to outperform current state-of-the-art methodologies by addressing the inherent complexities of multi-domain and cross-lingual data.
  
  The findings of this thesis provide strong evidence in support of the central hypothe-sis. For event detection, a fine-tuned PTLM was shown to effectively identify event spans in Spanish clinical narratives, demonstrating robust performance even within a multi-subdomain dataset. On the other hand, the challenge of ensuring multi-domain adapt-ability in temporal expression extraction has been effectively addressed by leveraging a PTLM combined with multiple deep-learning techniques, surpassing the current state of the art. The work on temporal expression normalization successfully addressed the challenge of representing diverse temporal expressions in a standardized format by in-troducing a novel Value Intermediate Representation (VIR), and showcased the superior performance of generative LLMs in this task across multiple languages. Moreover, the re-search on temporal relation extraction, a particularly complex problem, demonstrated that the integration of LLMs with reinforcement learning and hybrid temporal representations (both span-wise and point-wise) significantly enhanced performance and provided a tan-gible path towards greater explainabilityin the models' reasoning processes. The practica! utility of the research was validated by applying the proposed approaches to real-world private clinical data, highlighting their effectiveness in a sensitive domain.
  
  In conclusion, this thesis successfully advanced the field of temporal information ex-traction by providing innovative and empirically validated solutions to its core challenges. The research provides a comprehensive roadmap for future work in the field, from the exploration of various RL techniques in temporal relation extraction to the exploration of multi-task learning frameworks. The ability to accurately and robustly extract tempo-ral information has profound implications for downstream applications such as timeline extraction, intelligent text summarization, and question answering systems that require deep temporal reasoning, particularly in high-impact domains like clinical medicine. By publicly disseminating the developed code, models, and training procedures, this work not only contributes to the scientific community but also lays the groundwork for future research and practica! applications in this crucial area of NLP.