Ir al contenido

Documat


Statistical analysis of the performance of four Apache Spark ML algorithms

  • Genaro Camele [1] ; Waldo Hasperué [1] ; Franco Ronchetti [1] ; Facundo Manuel Quiroga [1]
    1. [1] Universidad Nacional de La Plata

      Universidad Nacional de La Plata

      Argentina

  • Localización: Journal of Computer Science and Technology, ISSN-e 1666-6038, Vol. 22, Nº. 2, 2022
  • Idioma: inglés
  • DOI: 10.24215/16666038.22.e14
  • Títulos paralelos:
    • Análisis Estadístico del Rendimiento de Cuatro Algoritmos de Apache Spark ML
  • Enlaces
  • Resumen
    • español

      Las técnicas de selección de características suelen requerir el entrenamiento y la evaluación repetida de modelos con el fin de evaluar la importancia de cada característica para una tarea concreta. Sin embargo, debido al aumento del tamaño de las bases de datos disponibles actualmente, el procesamiento distribuido se ha convertido en una necesidad para muchas tareas. En este contexto, la librería Apache Spark ML es una de las más utilizadas para realizar clasificación y otras tareas con grandes conjuntos de datos. Por ello, conocer tanto el rendimiento predictivo como la eficiencia de sus principales algoritmos antes de aplicar una técnica de selección de características es crucial para planificar los cálculos y ahorrar tiempo. En este trabajo se realiza un estudio comparativo de cuatro algoritmos de clasificación de Spark ML, midiendo estadísticamente los tiempos de ejecución y el poder predictivo en función del número de atributos de una base de datos de cáncer de colon. Los resultados fueron analizados estadísticamente, mostrando que, aunque Random Forest y Naïve Bayes son los algoritmos con menores tiempos de ejecución, Support Vector Machine obtiene modelos con el mejor poder predictivo. El estudio de la performance de estos algoritmos resulta interesante ya que los mismos son utilizados en problemas muy diversos, como por ejemplo, la clasificación de diferentes patologías a partir de datos epigenómicos, clasificación de imágenes, la predicción de ataques informáticos en problemas de seguridad en redes, entre otros.

    • English

      Feature selection (FS) techniques generally require repeatedly training and evaluating models to assess the importance of each feature for a particular task. However, due to the increasing size of currently available databases, distributed processing has become a necessity for many tasks. In this context, the Apache Spark ML library is one of the most widely used libraries for performing classification and other tasks with large datasets. Therefore, knowing both the predictive performance and efficiency of its main algorithms before applying a FS technique is crucial to planning computations and saving time. In this work, a comparative study of four Spark ML classification algorithms is carried out, statistically measuring execution times and predictive power based on the number of attributes from a colon cancer database. Results were statistically analyzed, showing that, although Random Forest and Na¨ıve Bayes are the algorithms with the shortest execution times, Support Vector Machine obtains models with the best predictive power. The study of the performance of these algorithms is interesting as they are applied in many different problems, such as classification of pathologies from epigenomic data, image classification, prediction of computer attacks in network security problems, among others.

  • Referencias bibliográficas
    • G. Hern´andez, E. Zamora, H. Sossa, G. T´ellez, and F. Furl´an, “Hybrid neural networks for big data classification,” Neurocomputing, vol....
    • W. Xing and Y. Bei, “Medical health big data classification based on knn classification algorithm,” IEEE Access, vol. 8, pp. 28808–28819,...
    • S. Lakshmanaprabu, K. Shankar, M. Ilayaraja, A. W. Nasir, V. Vijayakumar, and N. Chilamkurti, “Random forest for big data classification in...
    • E. M. Hassib, A. I. El-Desouky, L. M. Labib, and E.-S. M. El-kenawy, “Woa+ brnn: An imbalanced big data classification framework using...
    • A. K. Dubey, A. Kumar, and R. Agrawal, “An efficient aco-pso-based framework for data classification and preprocessing in big data,” Evolutionary...
    • U. Gurav and N. Sidnal, “Predict stock market behavior: Role of machine learning algorithms,” in Intelligent Computing and Information and...
    • F. Ronchetti, F. Quiroga, G. Camele, W. Hasperu´e, and L. Lanzarini, “Un estudio de la generalizaci´on en la clasificaci´on de peatones,”...
    • K. Kourou, T. P. Exarchos, K. P. Exarchos, M. V. Karamouzis, and D. I. Fotiadis, “Machine learning applications in cancer prognosis and prediction,”...
    • G. Kou, P. Yang, Y. Peng, F. Xiao, Y. Chen, and F. E. Alsaadi, “Evaluation of feature selection methods for text classification with small...
    • J. Cai, J. Luo, S.Wang, and S. Yang, “Feature selection in machine learning: A new perspective,” Neurocomputing, vol. 300, pp. 70–79, 2018.
    • S. Alelyani, J. Tang, and H. Liu, “Feature selection for clustering: A review,” Data Clustering, pp. 29–60, 2018.
    • S. Solorio-Fern´andez, J. A. Carrasco-Ochoa, and J. F. Mart´ınez-Trinidad, “A review of unsupervised feature selection methods,” Artificial...
    • R. Zebari, A. Abdulazeez, D. Zeebaree, D. Zebari, and J. Saeed, “A comprehensive review of dimensionality reduction techniques for feature...
    • G. Camele, W. Hasperu´e, F. Ronchetti, and F. Quiroga, “A comparative study of the performance of four classification algorithms from the...
    • E. Pashaei and N. Aydin, “Binary black hole algorithm for feature selection and classification on biological data,” Applied Soft Computing,...
    • T. Pranckeviˇcius and V. Marcinkeviˇcius, “Comparison of naive bayes, random forest, decision tree, support vector machines, and logistic...
    • H. Ahmed, E. M. Younis, A. Hendawi, and A. A. Ali, “Heart disease identification from patients’ social posts, machine learning solution on...
    • D. Moldovan, M. Antal, C. Pop, A. Olosutean, T. Cioara, I. Anghel, and I. Salomie, “Spark-based classification algorithms for daily living...
    • S. Saravanan et al., “Performance evaluation of classification algorithms in the design of apache spark based intrusion detection system,”...
    • J. Xianya, H. Mo, and L. Haifeng, “Stock classification prediction based on spark,” Procedia Computer Science, vol. 162, pp. 243–250, 2019.
    • W. S. Albaldawi and R. M. Almuttairi, “Comparative study of classification algorithms to analyze and predict a twitter sentiment in apache...
    • S. Yasrobi, J. Alston, B. Yadranjiaghdam, and N. Tabrizi, “Performance analysis of sparks machine learning library.,” Trans. MLDM, vol. 10,...
    • Z. Botev and A. Ridder, Variance Reduction, pp. 1–6. American Cancer Society, 2017.

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno