Ir al contenido

Documat


Resumen de Development of a system based on ontologies and machine learning methods to support the early dectection of MCI

Alba Gómez-Valadés Batanero

  • español

    El deterioro cognitivo ligero (DCL) es un estadio previo a la enfermedad de Alzheimer (EA), que actúa como estado de transición entre el envejecimiento normal y la demencia. Identificar el DCL en sus etapas más iniciales es crítico, ya que se espera que la incidencia del EA y otras enfermedades neurodegerativas se incremente conforme envejece la población. La detección precoz puede mejorar significativamente la calidad de vida de los pacientes al permitir tratamientos preventivos al mejorar la comprensión de cómo progresa la enfermedad desde sus fases más tempranas, lo que en última instancia permitiría el desarrollo de tratamientos más eficaces tanto prevenir y retrasar el avance y los efectos de la enfermedad.

    Los rastreos poblacionales son esenciales en la detección precoz, para los cuales las test neurológicos se postulan como las herramientas más adecuadas, debido a su rapidez de administración, capacidad diagnóstica, relación coste-efectividad e independencia de equipamiento especializado. Para maximizar la información extraída de estos test, numerosos estudios se han centrado en su análisis, empleando modelos de aprendizaje automático (ML) para proponer nuevas métricas, combinaciones de test y métodos de evaluación. Sin embargo, trasladar estas propuestas a la práctica clínica habitual puede suponer un reto. Una de las razones principales es el incremento de la carga de trabajo para los facultativos, ya sea en términos de tiempo, equipamiento o coste, que puede hacer que su implementación sea poco práctica. Otro problema común es la falta de explicabilidad de los modelos ML empleados, cuya complejidad dificulta obtener el razonamiento interno seguido por el modelo en sus diagnósticos y, por tanto, haciendo desconfiar del diagnóstico emitido. Por otro lado, esas investigaciones generan una gran cantidad de datos, a menudos almacenados bajo los estándares propios de cada centro. Esto provoca que los datos estén dispersos, lo que dificulta su reutilización por parte de otros centros como del mismo centro, especialmente en caso de cambio de protocolos o personal.

    En este contexto es esencial el desarrollo de métodos que permitan rastreos más eficientes para la detección del DCL y que, al mismo tiempo, ahorren tiempo a los facultativos. Para lograrlo, varios enfoques han sido explorados. Uno de ellos consiste en optimizar el tiempo y la eficacia de las pruebas neuropsicológicas incluidas en las baterías. Otras propuestas consisten en el desarrollo de una marco unificado para estandarizar el conocimiento, un paso crucial para facilitar la compartición y reutilización de la información.

    Esta tesis propone un sistema que integra una ontología, NIO, con un conjunto de árboles de decisión, junto a un análisis de uno de los test neurológicos mas utilizados, la prueba de fluencia semántica. El sistema integrado es capaz de evaluar automáticamente las baterías de test neuropisológicos ofreciendo cierta capacidad para explicar el razonamiento seguido por el modelo en sus clasificaciones. El test de fluencia semántica se analiza para encontrar una combinación de categorías semánticas y variables que optimicen tanto el tiempo de administración domo la eficiencia diagnóstica, con el objetivo de ser incorporado eventualmente a la batería de test del sistema integrado.

    La ontología NIO representa un primer paso hacia una ontología que integre cuatro dominios clave relacionados con el DCL: test diagnóstico, áreas cerebrales, funciones cognitivas y enfermedades neurodegenerativas, Por otro lado, se presenta un sistema de ayuda al diagnóstico durante los rastreos poblacionales que integra la ontología de NIO con un conjunto de árboles de decisión. A través de varios casos de uso práctico, el sistema demuestra su capacidad para clasificar nuevos casos, mostrar cómo puede ser adaptada a nuevas bases de datos, enlazar diferentes áreas modeladas en la ontología para un diagnóstico más completo, cómo puede ser adaptarse a nuevas bases de datos. Del análisis del test de fluencia semántica se propone la combinación de animales y prendas junto a las variables de correctas, switching, clustering y total de clusters como la más eficiente en términos de tiempo de ejecución y capacidad diagnóstica.

  • English

    Mild cognitive impairment (MCI) is a prior stage of Alzheimer’s disease (AD), acting as a transitional state between normal aging and dementia. Identifying MCI in its initial stages is crucial, especially as the incidence of AD and other neurodegenerative diseases is expected to rise with the aging of the population. Early detection can significantly enhance patients’ quality of life by allowing preventive treatments in these first stages when they are most effective. Additionally, it can contribute to research by improving the understanding of how the disease progresses from its earliest stages, which ultimately could lead to the development of more effective treatments to prevent and delay the progression and effects of the disease.

    Population screening is essential for the early detection of MCI, for which neuropsychological tests are postulated as the most suitable tools due to their speed of administration, diagnostic capacity, cost-efficiency, and independence from specialized equipment. To maximize the information extracted from these tests, several studies have focused on their analysis, using machine learning (ML) models to propose new metrics, test combinations, and evaluation methods. However, translating these proposals into routine clinical practice can be challenging. One of the main reasons is the increased workload for physicians and psychologists, whether in terms of time, equipment, or cost, which can make their implementation impractical. Another common issue is the lack of explainability of the ML models used, whose complexity makes it difficult to obtain the internal reasoning behind their diagnoses, leading to mistrust in the classifications. On the other hand, research efforts generate a large amount of data, often stored under each center’s standards. This leads to scattered data, making it difficult for other centers or even the original center to reuse the information,especially if protocols or staff change.

    In this context, it is essential to develop methods that enable more efficient population screenings for MCI detection while also saving time for physicians. Several approaches have been explored to achieve this, from optimizing the time and efficiency of the neuropsychological tests included in test batteries to developing a unified framework for standardizing knowledge, which is a crucial step for easing information sharing and reuse.

    This thesis proposes a system that integrates an ontology, NIO, with an ensemble of decision trees, as well as the analysis of one of the most used neuropsychological tests, the semantic fluency test. The integrated system can automatically evaluate neuropsychological test batteries and offers some capacity to explain the reasoning behind its classifications. The semantic fluency test is analyzed to find a combination of semantic categories and variables that optimize both administration time and diagnostic effectiveness, with the idea of being inserted in the test battery used by the integrated system.

    The NIO ontology represents a first step towards an ontology that integrates four key domains related to MCI: diagnostic tests, brain areas, cognitive functions, and neurodegenerative diseases. On the other hand, a diagnosis support system for population screenings that integrates the NIO ontology with an ensemble of decision trees is presented. Through several practical use cases, this system demonstrates its ability to classify new cases, link different areas modeled in the ontology for a more comprehensive diagnosis, and how it can be adapted to new databases. Based on the analysis of the semantic fluency test, the combination of animals and clothes, along with the variables of corrects, switching, clustering, and total clusters is proposed as the most efficient in terms of execution time and diagnostic capacity.


Fundación Dialnet

Mi Documat