Daniel Felipe Zuleta Fuerte, Osnamir E. Bru Cordero, Karina Susana Pastor Sierra
El presente trabajo se centra en la implementación de técnicas de validación cruzada para comparar diversos modelos de clasificación en distintos escenarios relacionados con datos biomédicos. Estos métodos robustos de clasificación son esenciales para garantizar diagnósticos precisos y tratamientos efectivos. Sin embargo, la variabilidad inherente en los datos reales del ámbito biomédico y la complejidad de los conjuntos de datos requieren enfoques sólidos de validación. Como propuesta investigativa, el estudio aborda la aplicación de técnicas de validación cruzada, incluyendo k-fold (validación cruzada con partición en k subconjuntos), Leave-One-Out (validación excluyendo una observación por iteración), StratifiedK Fold (validación estratificada en k subconjuntos) y Shuffle Split (validación cruzada basada en particiones aleatorias). Estas técnicas, comúnmente utilizadas, buscan mejorar la precisión y generalización de los modelos de clasificación, así como identificar y mitigar posibles sesgos y problemas de sobreajuste. Además, se presentan diversos algoritmos de clasificación, como el método de los k vecinos más cercanos (K-Nearest Neighbors, KNN), la regresión logística (Logistic Regression), bosques aleatorios (Random Forest) y los árboles de decisión (Decision Tree), para enfrentar los retos asociados a la naturaleza heterogénea de los datos biomédicos recolectados en cuatro municipios de Colombia bajo exposición a metales pesados. Finalmente, se analiza como la validación cruzada puede contribuir a incrementar la robustez de los modelos, favoreciendo una aplicación más efectiva en entornos clínicos. Este artículo busca proporcionar una visión clara y significativa de los métodos de validación cruzada aplicados a algoritmos de clasificación en este tipo de datos, con el objetivo de adoptar modelos que se ajusten a las particularidades del contexto.
This study focuses on the implementation of cross-validation techniques to compare various classificationmodels in different scenarios related to biomedical data. These robust classification methods are essential to ensure accurate diagnoses and effective treatments. However, the inherent variability of real-world datain the biomedical field and the complexity of data sets require robust validation approaches. As an investigative proposal, the study addresses the application of cross validation techniques, includingk-fold, Leave-One-Out, StratifiedKFold, and Shuffle Split. These techniques, widely used, aim to enhance the accuracy and generalization of classification models, as well as to identify and mitigate potential biases and overfitting issues. Additionally, various classification algorithms are presented, such as theK-Nearest Neighbors, KNN, Logistic Regression, Random Forest, and Decision Tree, to address the challenges posed by the heterogeneous nature of biomedical data collected from four municipalities in Colombia under exposure to heavy metals. Finally, this study analyzes how cross-validation can help increase the robustness of models, enabling a more effective application in clinical environments. This article aims to provide a clear and meaningful overview of cross-validation methods applied to classification algorithms for this type of data, with thegoal of adopting models tailored to the specific context.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados