An Overview of Drugs, Diseases, Genes and Proteins in the CORD-19 Corpus

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/127441
Información del item - Informació de l'item - Item information
Título: An Overview of Drugs, Diseases, Genes and Proteins in the CORD-19 Corpus
Título alternativo: Una visión general de los Fármacos, Enfermedades, Genes y Proteínas en el corpus CORD-19
Autor/es: Badenes-Olmedo, Carlos | Alonso, Álvaro | Corcho, Oscar
Palabras clave: NER | Normalization | Bioentities | Document retrieval | Identificación de entidades | Normalización | Bio-entidades | Recuperación de documentos
Fecha de publicación: sep-2022
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2022, 69: 165-176. https://doi.org/10.26342/2022-69-14
Resumen: Several initiatives have emerged during the COVID-19 pandemic to gather scientific publications related to coronaviruses. Among them, the COVID-19 Open Research Dataset (CORD-19) has proven to be a valuable resource that provides full-text articles from the PubMed Central, bioRxiv and medRxiv repositories. Such a large amount of biomedical literature needs to be properly managed to facilitate and promote its use by health professionals, for example by tagging documents with the biomedical entities that appear on them. We created a biomedical named entity recognizer (NER) that normalizes (NEN) the drugs, diseases, genes and proteins mentioned in texts with the codes of the main standardization systems such as MeSH, ICD-10, ATC, SNOMED, ChEBI, GARD and NCBI. It is based on fine-tuning the BioBERT language model independently for each entity type using domain-specific datasets and an inverse index search to normalize the references. We have used the resultant BioNER+BioNEN system to process the CORD-19 corpus and offer an overview of the drugs, diseases, genes and proteins related to coronaviruses in the last fifty years. | Durante la pandemia del COVID-19 han surgido varias iniciativas para recopilar publicaciones científicas relacionadas con el coronavirus. Entre ellos, el conjunto de datos de investigación abierta sobre COVID-19 (CORD-19) ha demostrado ser un recurso valioso que proporciona el texto completo de artículos extraídos de los repositorios PubMed Central, bioRxiv y medRxiv. Una cantidad tan grande de literatura biomédica debe gestionarse adecuadamente para facilitar y promover su uso por parte de los profesionales de la salud, por ejemplo, etiquetando documentos con las entidades biomédicas que aparecen mencionadas. Hemos creado un reconocedor biomédico de entidades nombradas (NER) que normaliza (NEN) los fármacos, enfermedades, genes y proteínas mencionados en textos con los códigos de los principales sistemas de estandarización como MeSH, ICD-10, ATC, SNOMED, ChEBI, GARD y NCBI. Se basa en afinar el modelo de lenguaje BioBERT de forma independiente para cada tipo de entidad utilizando conjuntos de datos específicos de dominio y una búsqueda de índice inverso para normalizar las referencias. Hemos utilizado el sistema BioNER+BioNEN resultante para procesar el corpus CORD-19 y ofrecer una visión general de los fármacos, enfermedades, genes y proteínas relacionados con el coronavirus en los últimos cincuenta años.
Patrocinador/es: Work supported by the DRUGS4COVID++ project, financed by Ayudas Fundación BBVA a equipos de investigación científica SARS-CoV-2 y COVID-19.
URI: http://hdl.handle.net/10045/127441
ISSN: 1135-5948
DOI: 10.26342/2022-69-14
Idioma: eng
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica: si
Versión del editor: https://doi.org/10.26342/2022-69-14
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 69 (2022)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_69_14.pdf1,76 MBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.