Ir al contenido

Documat


Resumen de Evaluome: Automated discovery of an underlying latent factor in research methods

José Antonio Bernabé

  • español

    Esta tesis desarrolla Evaluome, un marco de trabajo capaz de evaluar métricas cuantitativas mediante procesos de validación externa e interna, y métodos de clustering, para poder obtener el número de conjuntos (k clústeres) en los que las métricas se pueden agrupar. El marco de trabajo se aplicará sobre conjuntos de datos de métricas del dominio biomédico y ontológico.

    Los objetivos principales incluyen establecer un marco para la validación automatizada de métricas, determinar el número óptimo de k clústeres, mejorar la robustez del clustering en datos con valores atípicos, y aumentar la accesibilidad del trabajo para investigadores no expertos en esta materia. Estos objetivos se desarrollan y completan a través de tres publicaciones y dos recursos de software.

    La metodología se fundamenta en una revisión exhaustiva de la literatura, que condujo al desarrollo de métodos para calcular índices de validación externa e interna. El índice de Jaccard se utiliza para evaluar la estabilidad mediante remuestreo (bootstrapping) en ausencia de un estándar de referencia (gold standard), y para la validación externa cuando existe un estándar de referencia. Para la calidad de los clústeres o validación interna, se usa el índice de Silhouette. Estos índices de validación se integran en un algoritmo que determina el número óptimo de k clústeres, encargado de maximizar la estabilidad y calidad en un rango de k (por ejemplo, k ∈ [2,6]).

    Para procesar datos con valores atípicos (outliers), se incorporaron técnicas de preprocesamiento de datos, como el Análisis de Componentes Principales (ACP), y se desarrolló el método “Automated Trimmed & Sparse Clustering” (ATSC), el cual determina automáticamente los parámetros como la porción de recorte (α) y esparsididad (s), con el fin de determinar el número de particiones k óptimo para datos con valores atípicos.

    Los resultados de la tesis se reflejan en tres publicaciones indexadas en Journal Citation Reports (JCR). El primer artículo estableció las bases de Evaluome, presentando métodos de validación de clústeres automatizados y un algoritmo para determinar el k óptimo en datos de métricas de ontologías. El segundo, generalizó los métodos del marco para su aplicabilidad en otros dominios, como el bibliométrico y de meta-análisis, introduciendo a su vez un portal web basado en R Shiny para mejorar la accesibilidad. El tercero incorporó técnicas de preprocesamiento de datos y ATSC, mejorando la fiabilidad del clustering en datos biomédicos con un estándar de referencia y con valores atípicos.

    Todos estos avances del marco Evaluome se implementan en el paquete R “evaluomeR”, de código abierto, disponible tanto en GitHub como en Bioconductor, permitiendo así el uso de los métodos desarrollados para la comunidad. Estos esfuerzos han consolidado Evaluome como un marco de trabajo versátil para investigadores, con aplicaciones demostradas en diferentes dominios como el de ontologías, bibliometría y datos biomédicos. A su vez, los recursos de software mejoran la accesibilidad, permitiendo análisis avanzados con un mínimo de experiencia técnica. En conjunto, esta tesis proporciona una base sólida para la investigación basada en métricas, con implicaciones para estudios futuros en escalabilidad y optimización computacional.

  • English

    This thesis develops Evaluome, a framework designed to assess quantitative metrics through internal and external validation processes, as well as clustering methods, to determine the optimal number of k clusters into which metrics can be grouped. The framework is applied to datasets of metrics from the biomedical and ontological domains.

    The main objectives include establishing a framework for automated metric validation, determining the optimal number of clusters (k), improving the robustness of clustering in datasets with outliers, and enhancing accessibility for researchers with limited expertise in this area. These goals are achieved through three publications and two software resources.

    The methodology consists of an exhaustive literature review, which led to the development of methods for calculating external and internal validation indices. The Jaccard index is used to assess stability through bootstrapping in the absence of a gold standard and for external validation when a gold standard is available. For cluster quality or internal validation, the Silhouette Index is used. These validation indices are integrated into an algorithm that determines the optimal number of k clusters, aiming to maximize both stability and quality within a range of k (e.g., k ∈ [2,6]).

    To handle datasets with outliers, data preprocessing techniques such as Principal Component Analysis (PCA) were included in the framework, and the “Automated Trimmed & Sparse Clustering” (ATSC) method was developed. ATSC automatically determines parameters such as the trimming portion (α) and sparsity (s) to identify the optimal number of k partitions for datasets with outliers.

    The thesis results are reflected in three publications indexed in the Journal Citation Reports (JCR). The first article laid the foundation for Evaluome, introducing automated cluster validation methods and an algorithm to determine the optimal k for ontology metric datasets. The second article generalized the framework’s methods for applicability to other domains, such as bibliometrics and meta-analysis, while also introducing an R Shiny-based web portal to enhance accessibility. The third article incorporated data preprocessing techniques and ATSC, improving the reliability of clustering in biomedical datasets with a gold standard and data outliers.

    These advancements in the Evaluome framework are implemented in the open-source R package evaluomeR, available on both GitHub and Bioconductor, enabling the community to use the developed methods. These efforts have established Evaluome as a versatile framework for researchers, with demonstrated applications in domains such as ontologies, bibliometrics, and biomedical data. Additionally, the software resources improve accessibility, allowing advanced analyses with minimal technical expertise. Together, this thesis provides a robust foundation for metric-based research, with implications for future studies in scalability and computational optimization.


Fundación Dialnet

Mi Documat