Ir al contenido

Documat


Nested and Repeated Cross Validation for Classification Model With High-dimensional Data

  • Autores: Yi zhong, Jianghua He, Prabhakar Chalise
  • Localización: Revista Colombiana de Estadística, ISSN-e 2389-8976, ISSN 0120-1751, Vol. 43, Nº. 1, 2020, págs. 103-125
  • Idioma: inglés
  • DOI: 10.15446/rce.v43n1.80000
  • Títulos paralelos:
    • Validación cruzada anidada y repetida para el modelo de clasificación con datos de alta dimensión
  • Enlaces
  • Resumen
    • español

      Resumen Con la llegada de las tecnologías de alto rendimiento, los conjuntos de datos de alta dimensión están cada vez más disponibles. Esto no sólo ha abierto una nueva visión acerca de los sistemas biológicos, sino que también plantea desafíos analíticos. Un problema importante es la selección de subconjuntos de variables y la predicción de resultados futuros. Es crucial que los modelos no sean sobreajustados y que den resultados precisos con nuevos datos. Además, la identificación confiable de variables informativas con alto poder predictivo (selección de características) es de interés en entornos clínicos. Proponemos un procedimiento de dos etapas para la selección de variables y la construcción de modelos de clasificación, el cual utiliza un método de validación cruzada anidada y repetida. Evaluamos nuestro enfoque utilizando tanto datos simulados como dos conjuntos de datos de expresión génica disponibles públicamente. El método propuesto mostró una precisión predictiva comparativamente mejor para casos nuevos en comparación con el método estándar de validación cruzada.

    • English

      Abstract With the advent of high throughput technologies, the high-dimensional datasets are increasingly available. This has not only opened up new insight into biological systems but also posed analytical challenges. One important problem is the selection of informative feature-subset and prediction of the future outcome. It is crucial that models are not overfitted and give accurate results with new data. In addition, reliable identification of informative features with high predictive power (feature selection) is of interests in clinical settings. We propose a two-step framework for feature selection and classification model construction, which utilizes a nested and repeated cross-validation method. We evaluated our approach using both simulated data and two publicly available gene expression datasets. The proposed method showed comparatively better predictive accuracy for new cases than the standard cross-validation method.

  • Referencias bibliográficas
    • Braga-Neto, U. M.,Dougherty, E. R. (2004). Is cross-validation valid for small-sample microarray classification?. Bioinformatics. 20. 374
    • Breiman, L. (2001). Random Forest. Machine Learning. 5.
    • Cortes, C.,Vapnik, V. (1995). Support-Vector Networks. Machine Learning. 45. 5-32
    • Dash, M.,Liu, H. (1997). Feature Selection for Classification. Intell. Data Anal. 1. 131
    • Golub, T. R.,Slonim, D. K.,Tamayo, P.,Huard, C.,Gaasenbeek, M.,Mesirov, J. P.,Coller, H.,Loa, M. L.,Downing, J. R.,Caligiuri, M. A.,Bloom-field,...
    • Guyon, I. (2006). Feature extraction: foundations and applications. Springer Verlag. Berlin.
    • Hastie, T.,Tibshirani, R.,H., F. J. (2009). The elements of statistical learning: data mining, inference, and prediction. 2. Springer. New...
    • Hernández, F.,Correa, J. C. (2009). Comparison for three classification techniques. Revista Colombiana de Estadística. 32. 247
    • Hira, Z. M.,Gillies, D. F. (2015). A review of feature selection and feature extraction methods applied on microarray data. Advances in Bioinformatics....
    • Krstajic, D.,Buturovic, L. J.,Leahy, D. E.,Thomas, S. (2014). Cross-validation pitfalls when selecting and assessing regression and classification...
    • Kumar, V.,Minz, S. (2014). Feature Selection: A Literature Review. Smart Computing Review. 4. 211
    • Lu, Y.,Han, J. W. (2003). Cancer classification using gene expression data. Information Systems. 28. 243
    • Nguyen, M. H.,de la Torre, F. (2010). Optimal feature selection for support vector machines. Pattern Recognition. 43. 584
    • Pomeroy, S. L.,Tamayo, P.,Gaasenbeek, M.,Sturla, L. M.,Angelo, M.,McLaughlin, M. E.,Kim, J. Y. H.,Goumnerova, L. C.,Black, P. M.,Lau, C.....
    • Saeys, Y.,Inza, I.,Larranaga, P. (2007). A review of feature selection techniques in bioinformatics.. Bioinformatics. 23. 2507
    • Salazar, D. A. (2012). Comparison between SVM and Logistic Regression: Which One is Better to Discriminate?. Revista Colombiana de Estadística....
    • Shalev-Shwartz, S.,Singer, Y.,Srebro, N.,Cotter, A. (2011). Pegasos: primal estimated sub-gradient solver for SVM. Mathematical Programming....
    • Stone, M. (1974). Cross-Validatory Choice and Assessment of Statistical Predictions. Journal of the Royal Statistical Society. 36. 111
    • Strobl, C.,Boulesteix, A.-L.,Kneib, T.,Augustin, T.,Zeileis, A. (2008). Conditional variable importance for random forests. BMC bioinformatics....
    • (2017). TCGA Network Integrated genomic and molecular characterization of cervical cancer. Nature. 543. 378
    • Trevino, V.,Falciani, F.,Barrera-Saldana, H. A. (2007). DNA microarrays: a powerful genomic tool for biomedical and clinical research. Molecular...
    • Van't Veer, L. J.,Dai, H.,Van De Vijver, M. J.,He, Y. D.,Hart, A. A.,Mao, M.,Peterse, H. L.,Van Der Kooy, K.,Marton, M. J.,Witteveen,...
    • Varma, S.,Simon, R. (2006). Bias in error estimation when using cross-validation for model selection. BMC bioinformatics. 7. 91
    • Whelan, R.,Watts, R.,Orr, C. A.,Althoff, R.,Artiges, E.,Banaschewski, T.,Barker, G. J.,Bokde, A. L. W.,Büchel, C.,Carvalho, F. M.. (2014)....
    • Zhang, L.,Zhou, W.,Velculescu, V. E.,Kern, S. E.,Hruban, R. H.,Hamilton, S. R.,Vogelstein, B.,Kinzler, K. W. (1997). Gene expression profiles...
    • Zhang, T. (2004). Solving large scale linear prediction problems using stochastic gradient descent algorithms, in 'Proceedings of the...
    • Zou, H.,Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society. Series B-Statistical...
Los metadatos del artículo han sido obtenidos de SciELO Colombia

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno