Biomedical Information Extraction: Exploring new entities and relationships

Hermenegildo Fabregat

Ayuda

Biomedical Information Extraction: Exploring new entities and relationships

Autores: Hermenegildo Fabregat
Directores de la Tesis: Lourdes Araujo (dir. tes.) , Juan Martínez Romo (dir. tes.)
Lectura: En la UNED. Universidad Nacional de Educación a Distancia ( España ) en 2021
Idioma: inglés
Tribunal Calificador de la Tesis: Isabel Segura Bedmar (presid.) , Víctor Fresno Fernández (secret.) , Arkaitz Zubiaga (voc.)
Enlaces
- Tesis en acceso abierto en: hdl.handle.net
Resumen
- español
  En la actualidad, los diferentes procesos de digitalización y difusión de información en los que está inmersa la sociedad han dado lugar a un incremento de la información disponible, sobre todo en el dominio biomédico. Debido al esfuerzo requerido para procesar tales cantidades de información, una línea de investigación notablemente activa en la última década es la exploración de técnicas de procesamiento de lenguaje natural y aprendizaje automático para la extracción de información de documentos no estructurados. Estas técnicas están suponiendo grandes hitos en el dominio biomédico, en especial en algunas tareas de extracción de información como el reconocimiento de entidades nombradas y la extracción de relaciones. En esta tesis presentamos una investigación centrada en el análisis automático de documentos de este dominio, profundizando en el procesamiento de documentos acerca de discapacidades y limitaciones funcionales. Este tipo de patologías tienen un alto impacto social ya que afectan al día a día de una gran parte de la población, conllevando en algunos casos serios impedimentos sobre la autonomía de las personas afectadas. Además, muchas enfermedades raras tienen asociadas diversas discapacidades, por lo que frecuentemente se usan para caracterizarlas y pueden ser rasgos de gran utilidad en el diagnóstico de estas enfermedades, para las que por su naturaleza se suele contar con poca información. El objetivo principal de esta tesis es la exploración de documentos del dominio biomédico para el reconocimiento de menciones a discapacidades y la identificación de sus relaciones con enfermedades raras. La detección de estas entidades presenta dificultades específicas, que van desde la falta de concreciones formales para la definición de discapacidad, hasta la necesidad de considerar el gran número de formas diferentes de expresar una misma discapacidad. Con el fin de abordar este objetivo, resultó necesaria la recolección y anotación de diferentes colecciones de datos, incluyendo documentos en diferentes idiomas. Tras la generación de las diferentes colecciones de datos, proseguimos con la exploración de sistemas de reconocimiento de entidades para la identificación de menciones a enfermedades raras y discapacidades, y con el estudio de sistemas para la extracción de relaciones entre discapacidades y enfermedades raras. Profundizando en el análisis de este tipo de entidades, extendimos la exploración de las dificultades para la generación de sistemas automáticos orientados al reconocimiento de discapacidades mediante la proposición de una tarea de evaluación. Las diferentes lecciones aprendidas durante la tarea de evaluación propuesta nos sirvieron para el desarrollo y refinamiento de un sistema automático basado en deep learning para el reconocimiento de discapacidades. El sistema desarrollado se basó en el uso mixto de diferentes tipos de redes recurrentes y planteó mejoras sobre sistemas actuales del estado del arte. Al mismo tiempo, este sistema nos sirvió de base para la exploración de sistemas de reconocimiento de entidades y extracción de relaciones de forma conjunta. El estudio de la sinergia existente entre ambas tareas supuso la obtención de mejoras significativas. Por ultimo y con el objetivo de explorar los efectos de la negación sobre sistemas de extracción de información, analizamos el rendimiento de enfoques para el procesamiento automático de la negación en documentos en español e inglés. Durante este análisis comprobamos el rendimiento de diferentes propuestas basadas en deep learning para la detección de disparadores de negación y sus alcances, obteniendo mejoras sobre propuestas del estado del arte para el procesamiento de documentos en español. Los resultados obtenidos durante el procesamiento de la negación supusieron además interesantes mejoras en la extracción de relaciones y en el reconocimiento de entidades.
- English
  The different processes of digitization and dissemination of information that the society is currently experiencing have led to an increase of the available information, especially in the biomedical domain. Due to the effort required to process this volume of information, a research line that has been notably active in the last decade is the exploration of natural language processing and machine learning techniques for the extraction of information from unstructured documents. These techniques represent major milestones in the biomedical domain, especially in some information extraction tasks such as named entity recognition and relation extraction. In this thesis we present a research focused on the automatic analysis of biomedical documents, deepening in the processing of documents about disabilities and functional impairments. These disorders have a significant impact on the social impact, since they affect to the daily life of a large part of the population, leading in some cases to serious limitations on the autonomy of the affected people. In addition, several rare diseases are associated with a wide range of disabilities, so they are frequently used to define them and they can represent very useful features for the diagnosis of these diseases, for which, and due to their nature, not much information is usually available. The main objective of this thesis is the exploration of documents from the biomedical domain for the recognition of mentions to disabilities and the identification of their relationships with rare diseases. The processing of these entities involves specific difficulties, such as the lack of formal concretions for the definition of disability, and the wide range of ways to express the same disability. In order to address this objective, it was necessary to collect and annotate different datasets, including documents written in different languages. After the generation of these resources, we proceeded with the exploration of entity recognition systems for the identification of mentions of rare diseases and disabilities, and with the study of systems for the extraction of relationships between disabilities and rare diseases. Deepening in the analysis of these entities, we advanced on the exploration of the challenges for the generation of automatic systems oriented to the recognition of disabilities by proposing an evaluation task. The different lessons learned during the evaluation task were used for the development and enhancement of an automatic system for disability recognition based on deep learning techniques. The developed system is based on the mixed use of different types of recurrent networks and it presented improvements over current state-of-theart systems. At the same time, this system served as an initial architecture for the exploration of joint entity recognition and relation extraction systems. The study of the synergy between both tasks led to significant improvements. Finally, in order to explore the effects of negation on information extraction systems, we analyzed several approaches for the automatic processing of negation in Spanish and English documents. During this analysis we examined the performance of proposals for the detection of negation triggers and their scopes, obtaining performance improvements over state-of-the-art proposals for the processing of Spanish documents. The results obtained for negation processing also led to interesting improvements on relation extraction and entity recognition.