Ir al contenido

Documat


Comparison between SVM and Logistic Regression: Which One is Better to Discriminate?

  • DIEGO ALEJANDRO SALAZAR [1] ; JORGE IVÁN VÉLEZ [1] ; JUAN CARLOS SALAZAR [1] Árbol académico
    1. [1] Universidad Nacional de Colombia

      Universidad Nacional de Colombia

      Colombia

  • Localización: Revista Colombiana de Estadística, ISSN-e 2389-8976, ISSN 0120-1751, Vol. 35, Nº. Extra 2, 2012 (Ejemplar dedicado a: Número especial en Bioestadística), págs. 223-237
  • Idioma: inglés
  • Títulos paralelos:
    • Comparación entre SVM y regresión logística: ¿cuál es más recomendable para discriminar?
  • Enlaces
  • Resumen
    • español

      La clasificación de individuos es un problema muy común en el trabajo estadístico aplicado. Si X es un conjunto de datos de una población en la que sus elementos pertenecen a g clases, el objetivo de los métodos de clasificación es determinar a cuál de ellas pertenecerá una nueva observación. Cuando g=2, uno de los métodos más utilizados es la regresión logística. Recientemente, las Máquinas de Soporte Vectorial se han convertido en una alternativa importante. En este trabajo se exponen los principios básicos de ambos métodos y se da respuesta a la pregunta de cuál es más recomendable para discriminar, vía simulación. Finalmente, se presenta una aplicación con datos provenientes de un experimento con microarreglos.

    • English

      The classification of individuals is a common problem in applied statistics. If X is a data set corresponding to a sample from an specific population in which observations belong to g different categories, the goal of classification methods is to determine to which of them a new observation will belong to. When g=2, logistic regression (LR) is one of the most widely used classification methods. More recently, Support Vector Machines (SVM) has become an important alternative. In this paper, the fundamentals of LR and SVM are described, and the question of which one is better to discriminate is addressed using statistical simulation. An application with real data from a microarray experiment is presented as illustration.

  • Referencias bibliográficas
    • Anderson, T.. (1984). An Introduction to Multivariate Statistical Analysis. John Wiley & Sons.
    • Asparoukhova, K.,Krzanowskib, J.. (2001). 'A comparison of discriminant procedures for binary variables'. Computational Statistics...
    • Cornfield, J.. (1962). 'Joint dependence of the risk of coronary heart disease on serum cholesterol and systolic blood pressure: a discriminant...
    • Cortes, C.,Vapnik, V.. (1995). 'Support-vector networks'. Machine Learning. 20. 273-297
    • Cover, T. M.. (1965). 'Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition'....
    • Cox, D.. (1966). Some Procedures Associated with the Logistic Qualitative Response Curve. John Wiley & Sons.
    • David, A.,Lerner, B.. (2005). 'Support vector machine-based image classification for genetic syndrome diagnosis'. Pattern Recognition...
    • Day, N.,Kerridge, D.. (1967). 'A general maximum likelihood discriminant'. Biometrics. 23. 313-323
    • (2011). Dimitriadou, E., Hornik, K., Leisch, F., Meyer, D., , & Weingessel, A.. e1071: Misc Functions of the Department of Statistics...
    • Fisher, R.. (1936). 'The use of multiple measurements in taxonomic problems'. Annual Eugenics. 7. 179-188
    • Furey, T. S.,Cristianini, N.,Duffy, N.,Bednarski, D. W.,Schummer, M.,Haussler, D.. (2000). 'Support vector machine classification and...
    • (2011). Gentleman, R., Carey, V., Huber, W. & Hahne, F.. Genefilter: Methods for filtering genes from microarray experiments.
    • Golub, T.,Slonim, D.,Tamayo, P.,Huard, C.,Gaasenbeek, M.,Mesirov, J.,Coller, H.,Loh, M.,Downing, J.,Caligiuri, M.,Bloomfield, C.,Lander, E.....
    • Hernández, F.,Correa, J. C.. (2009). 'Comparación entre tres técnicas de clasificación'. Revista Colombiana de Estad\'ística....
    • Hosmer, D.,Lemeshow, S.. (1989). Applied Logistic Regression. John Wiley & Sons.
    • Karatzoglou, A.,Meyer, D.,Hornik, K.. (2006). 'Support vector machines in R'. Journal of Statistical Software. 15. 267
    • Lee, J. B.,Park, M.,Song, H. S.. (2005). 'An extensive comparison of recent classification tools applied to microarray data'. Computational...
    • Li, L.,Jiang, W.,Li, X.,Moser, K. L.,Guo, Z.,Du, L.,Wang, Q.,Topol, E. J.,Wang, Q.,Rao, S.. (2005). 'A robust hybrid between genetic algorithm...
    • Moguerza, J.,Mu\~noz, A.. (2006). 'Vector machines with applications'. Statistical Science. 21. 322-336
    • Mootha, V. K.,Lindgren, C. M.,Eriksson, K. F.,Subramanian, A.,Sihag, S.,Lehar, J.,Puigserver, P.,Carlsson, E.,Ridderstrele, M.,Laurila, E.,Houstis,...
    • Noble, W.. (2006). 'What is a support vector machine?'. Nature Biotechnology. 24. 1565-1567
    • Peng, S.,Xum, Q.,Bruce Ling, X.,Peng, X.,Du, W.,Chen, L.. (2003). 'Molecular classification of cancer types from microarray data using...
    • (2011). R Development Core Team, R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. Vienna.
    • Salazar, D.. (2012). Comparación de Máquinas de Soporte vectorial vs. Regresión Logística: cuál es más recomendable para discriminar?.
    • Shou, T.,Hsiao, Y.,Huang, Y.. (2009). 'Comparative analysis of logistic regression, support vector machine and artificial neural network...
    • Tibshirani, R.,Friedman, J.. (2008). The Elements of Statistical Learning. Springer.
    • Verplancke, T.,Van Looy, S.,Benoit, D.,Vansteelandt, S.,Depuydt, P.,De Turck, F.,Decruyenaere, J.. (2008). 'Support vector machine versus...
    • Wang, G.,Huan, G.. (2011). 'Application of support vector machine in cancer diagnosis'. Med. Oncol.. 28. 613-618
    • Westreich, D.,Lessler, J.,Jonsson, M.. (2010). 'Propensity score estimation: Neural networks, support vector machines, decision trees...
Los metadatos del artículo han sido obtenidos de SciELO Colombia

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno