Ir al contenido

Documat


Validación Cruzadada: una herramienta crucial para mejorar la eficiencia de modelos de clasificación con datos biomédicos

  • Daniel Felipe Zuleta Fuerte ; Osnamir Elias Bru Cordero [1] ; Karina Susana Pastor Sierra [2]
    1. [1] Universidad Nacional de Colombia

      Universidad Nacional de Colombia

      Colombia

    2. [2] Universidad del Sinú

      Universidad del Sinú

      Colombia

  • Localización: Comunicaciones en Estadística, ISSN 2027-3355, ISSN-e 2339-3076, Vol. 18, Nº. 1, 2025, págs. 51-85
  • Idioma: español
  • Títulos paralelos:
    • Cross-Validation: A Crucial Tool to Enhance the Efficiency of Classification Models in the Medical Field
  • Enlaces
  • Resumen
    • español

      El presente trabajo se centra en la implementación de técnicas de validación cruzada para comparar diversos modelos de clasificación en distintos escenarios relacionados con datos biomédicos. Estos métodos robustos de clasificación son esenciales para garantizar diagnósticos precisos y tratamientos efectivos. Sin embargo, la variabilidad inherente en los datos reales del ámbito biomédico y la complejidad de los conjuntos de datos requieren enfoques sólidos de validación. Como propuesta investigativa, el estudio aborda la aplicación de técnicas de validación cruzada, incluyendo k-fold (validación cruzada con partición en k subconjuntos), Leave-One-Out (validación excluyendo una observación por iteración), StratifiedK Fold (validación estratificada en k subconjuntos) y Shuffle Split (validación cruzada basada en particiones aleatorias). Estas técnicas, comúnmente utilizadas, buscan mejorar la precisión y generalización de los modelos de clasificación, así como identificar y mitigar posibles sesgos y problemas de sobreajuste. Además, se presentan diversos algoritmos de clasificación, como el método de los k vecinos más cercanos (K-Nearest Neighbors, KNN), la regresión logística (Logistic Regression), bosques aleatorios (Random Forest) y los árboles de decisión (Decision Tree), para enfrentar los retos asociados a la naturaleza heterogénea de los datos biomédicos recolectados en cuatro municipios de Colombia bajo exposición a metales pesados. Finalmente, se analiza como la validación cruzada puede contribuir a incrementar la robustez de los modelos, favoreciendo una aplicación más efectiva en entornos clínicos. Este artículo busca proporcionar una visión clara y significativa de los métodos de validación cruzada aplicados a algoritmos de clasificación en este tipo de datos, con el objetivo de adoptar modelos que se ajusten a las particularidades del contexto.

    • English

      This study focuses on the implementation of cross-validation techniques to compare various classificationmodels in different scenarios related to biomedical data. These robust classification methods are essential to ensure accurate diagnoses and effective treatments. However, the inherent variability of real-world datain the biomedical field and the complexity of data sets require robust validation approaches. As an investigative proposal, the study addresses the application of cross validation techniques, includingk-fold, Leave-One-Out, StratifiedKFold, and Shuffle Split. These techniques, widely used, aim to enhance the accuracy and generalization of classification models, as well as to identify and mitigate potential biases and overfitting issues. Additionally, various classification algorithms are presented, such as theK-Nearest Neighbors, KNN, Logistic Regression, Random Forest, and Decision Tree, to address the challenges posed by the heterogeneous nature of biomedical data collected from four municipalities in Colombia under exposure to heavy metals. Finally, this study analyzes how cross-validation can help increase the robustness of models, enabling a more effective application in clinical environments. This article aims to provide a clear and meaningful overview of cross-validation methods applied to classification algorithms for this type of data, with thegoal of adopting models tailored to the specific context.

  • Referencias bibliográficas
    • Amazon. (2014). AWS Amazon. https://aws.amazon.com/es/what-is/logistic-regression/
    • AWS. (2024). Amazon Web Services. https://docs.aws.amazon.com/es_es/machine-learning/latest/dg/cross-validation.html
    • Datacamp. (2024). Random forests classifier in Python. https://www.datacamp.com/tutorial/random-forests-classifier-python
    • Emura, T., & Hsu, J.-H. (2020). Estimation of the Mann–Whitney effect in the two-sample problem under dependent censoring. Computational...
    • Geron, A. (2019). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow (2nd ed.). O’Reilly Media.
    • Guido, A. C. (2016). Introduction to Python. O’Reilly Media, Inc.
    • Huertas Mora, A. (2020). Algoritmos de aprendizaje supervisado utilizando datos de monitoreo de condiciones: un estudio para el pronóstico...
    • IBM. (2024). Logistic regression. https://www.ibm.com/docs/es/spss-statistics/saas?topic=regression-logistic
    • Japkowicz, N. (2011). Evaluating learning algorithms: A classification perspective. Cambridge University Press.
    • Kuhn, M., & Johnson, K. (2013). Applied predictive modeling. Springer.
    • McCarthy, J. (2007). What is artificial intelligence? https://www-formal.stanford.edu/jmc/whatisai/whatisai.html
    • Narkhede, S. (2024). Understanding logistic regression. https://towardsdatascience.com/understanding-logistic-regression-9b02c2aec102
    • Nefrología. (2024). La regresión logística, una herramienta. https://www.revistanefrologia.com/es-la-regresion-logistica-una-herramienta-articulo-X0211699500035664
    • Norvig, S. J. (2022). Instructor’s solution manual artificial intelligence. Pearson Education.
    • Nti, I. K., Nyarko-Boateng, O., & Aning, J. (2021). Performance of machine learning algorithms with different K values in K-fold cross-validation....
    • Parra, F. (2019). Estadística y machine learning con R. ICANE.
    • Pastor, … (2023). Micronuclei frequency and exposure to chemical mixtures in three Colombian mining populations. Science of the Total Environment,...
    • Raschka, S. (2024). STAT 479: Machine learning. Department of Statistics, University of Wisconsin–Madison.
    • scikit-learn. (2024). Decision trees (DTs). https://scikit-learn.org/stable/modules/tree.html
    • Simeone, O. (2018). arXiv preprint. https://arxiv.org/pdf/1808.02342
    • Tougui, I., Jilbab, A., & El Mhamdi, J. (2021). Impact of the choice of cross-validation techniques on the results of machine learning-based...

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno