Ir al contenido

Documat


Resumen de Mejorando la extracción automática de relaciones biomédicas usando diferentes características lingüísticas de los textos

Behrouz Bokharaeian

  • español

    La extracción de relaciones entre entidades es una tarea muy importante dentro del procesamiento de textos biomédicos. Cada vez hay más información sobre este tipo de interacciones almacenada en bases de datos, pero sin embargo la mayor cantidad de información relacionada con el tema está presente en artículos científicos o en recursos donde la información se almacena en formato textual.

    Las interacciones entre fármacos son, en particular, una preocupación generalizada en medicina, por esa razón la extracción automática de este tipo de relaciones es una tarea muy demandada en el procesamiento de textos biomédicos. Una interacción entre 2 fármacos normalmente se produce cuando un fármaco altera el nivel de actividad de otro fármaco. De acuerdo a los informes presentados por la Administración Nacional de Alimentos y Fármacos de Estados Unidos y otros estudios reconocidos, cada año se producen más de 2 millones de interacciones mortales entre fármacos. Muchos investigadores y compañías farmacéuticas han desarrollado bases de datos donde estas interacciones son almacenadas. Sin embargo, la información más actualizada y valiosa sigue apareciendo sólo en documentos no estructurados en formato textual, incluyendo publicaciones científicas e informes técnicos.

    En esta tesis se estudian 3 conjuntos de características lingüísticas de los textos: negación, dependencia clausal y candidatos neutros. El objetivo final de la investigación es mejorar el rendimiento de la tarea de extracción de interacciones entre fármacos considerando las combinaciones de las características lingüísticas extraídas de los textos con métodos de aprendizaje basados en kernel.

    Nuestros experimentos indican que las características propuestas mejoran la tarea de extracción de relaciones de manera significativa. También se han caracterizado la contribución de cada una de las características por separado, lo que ha llevado a la conclusión de que los candidatos neutros juegan el papel más importante dentro de las 3 categorías.

    Otra relación biomédica que ha sido estudiada es la asociación entre Polimorfismos de Nucleótido Simple (SNP) y Fenotipos (SNPPhenA). Los SNPs son considerados como los cambios genéticos más significativos que contribuyen a enfermedades comunes. Un SNP es una variación en la secuencia de ADN que afecta un nucleótido simple ¿ A, T, C o G ¿ de una secuencia del genoma y que varía dentro de una población significativa entre miembros de una especie biológica. El elevado número de asociaciones entre SNPs y fenotipos implica la necesidad del desarrollo de una herramienta de extracción automática de estas asociaciones.

    En esta tesis se ha desarrollado un corpus para la extracción de asociaciones entre SNPs y fenotipos. Es el primer corpus anotado con el grado de confianza de la relación. El proceso de generación del corpus (formatos xml y standoff para BRAT) incluye la recopilación de resúmenes de artículos, reconocimiento de entidades, anotación de la asociación con su grado de confianza, así como anotación de negaciones y marcadores modales. La anotación del grado de confianza de las asociaciones positivas ha sido realizada en 3 niveles: fuerte, moderada y débil. También se ha habilitado un sitio web con toda la información relevante.

    Por último, se ha desarrollado un método supervisado para la extracción de asociaciones entre SNPs y Fenotipos que utiliza la información asociada a la detección de la negación y la presencia de candidatos neutros. Los experimentos han mostrado que la detección de la negación y la detección de candidatos neutros pueden ser utilizadas para desarrollar un método mejor que los basados en kernel tradicionales. Estos resultados son debidos, principalmente, a la polaridad intrínseca de la mayoría de las sentencias del corpus, así como al pequeño número de sentencias complejas. Además, se ha implementado un método supervisado basado en modalidad para identificar el nivel de confianza de las asociaciones extraídas.

  • English

    Extracting biomedical relations from texts is a relatively new, but rapidly growing researchfield in natural language processing (NLP). Due to the increasing number of biomedicalresearch publications and the key role of databases of biomedical relations in biological andmedical research, extracting biomedical relations from scientific articles and text resourcesis of utmost importance.Drug-drug interactions (DDI) are, in particular, a widespread concern in medicine, and thus,extracting this kind of interactions automatically from texts is of high demand in BioNLP. Adrug-drug interaction usually occurs when one drug alters the activity level of another drug.According to the reports prepared by the U. S. Food and Drug Administration (the FDA) andother acknowledged studies [1], over 2 million life-threatening DDIs occur in the UnitedStates every year. Many academic researchers and pharmaceutical companies havedeveloped relational and structural databases, where DDIs are recorded. Nevertheless,most up-to-date and valuable information is still found only in unstructured research textdocuments, including scientific publications and technical reports.In this thesis, three complementary, linguistically driven, feature sets, are studied: negation,clause dependency, and neutral candidates. The ultimate aim of this research is to enhancethe performance of the DDI extraction task by considering the combinations of theextracted features with well-established kernel methods...


Fundación Dialnet

Mi Documat