Alicia Ramírez Arrabe, Andrés Duque Fernández
, Juan Martínez Romo 
La codificación automática clínica de informes médicos sirve como intersección entre la atención sanitaria y el Procesamiento de Lenguaje Natural (PLN), facilitando la extracción de información relevante de documentos clínicos no estructurados. Este trabajo presenta un sistema de codificación automática explicable en tres etapas, desarrollado dentro del marco experimental de la competición CodiEsp 2020, una tarea orientada a la clasificación clínica automática en español. El sistema propuesto integra dos modelos basados en el Reconocimiento de Entidades Nombradas (NER), un modelo de clasificación de texto supervisado y un modelo de similitud no supervisado enriquecido con la extracción de frases clave. Esta metodología permite la detección de evidencias de texto superpuestas y/o discontinuas, así como la inclusión de códigos de fuera de la distribución. Nuestro enfoque supera a la mayoría de los modelos del estado del arte, logrando una mejora del 4,2%, 0,2% y 4,1% de la métrica F1 en las subtareas CodiEsp-D, CodiEsp-P y CodiEsp-X, respectivamente, además de un aumento de hasta el 2,4% en los valores de la métrica MAP.
Automatic clinical coding of medical reports sits at the intersection of healthcare and Natural Language Processing (NLP), facilitating the extraction of relevant information from unstructured clinical documents. This study introduces a three-stage explainable automatic coding system, developed within the experimental framework of the 2020 CodiEsp competition, a task devoted to automatic clinical coding in Spanish. The proposed system integrates two Named Entity Recognition (NER)-based models, a supervised text classification model, and an unsupervised similarity model enhanced with keyphrase extraction. This methodology allows for the detection of overlapped and discontinuous evidence texts, as well as for the inclusion of Out-Of-Distribution (OOD) codes. Our approach outperforms most state-of-the-art models, achieving an F1-score improvement of 4.2%, 0.2%, and 4.1% in the CodiEsp-D, CodiEsp-P and CodiEsp-X subtasks, respectively, and an increase of up to 2.4% in the MAP values.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados