Ir al contenido

Documat


Classifier ensemble algorithm for learning from non-stationary data stream

  • Autores: Alberto Verdecia Cabrera, Isvani Frías Blanco, Agustín A Ortiz Díaz, Yanet Rodríguez Zarabia, Héctor Raúl González Diez
  • Localización: Revista Cubana de Ciencias Informáticas, ISSN-e 2227-1899, Vol. 13, Nº. 1, 2019
  • Idioma: inglés
  • Títulos paralelos:
    • Ensamble de clasificadores para el aprendizaje a partir de flujos de datos no estacionarios.
  • Enlaces
  • Resumen
    • español

      En la actualidad, muchas fuentes generan flujos de datos ilimitados a altas tasas de entrada. Es imposible almacenar estos grandes volúmenes de datos por lo que es necesario procesarlos en tiempo real. Debido a que estos datos se adquieren a lo largo del tiempo y la dinámica de muchas situaciones reales, la función objetivo que se debe aprender puede cambiar con el tiempo, un problema que comúnmente conocido como cambio de concepto. En este artículo se presenta un nuevo algoritmo de ensamble denominado Algoritmo de Ensamble de Clasificadores (CEA), capaz de aprender de flujos de datos con cambios de concepto. CEA manipula estos cambios utilizando un detector de cambios en cada clasificador base. Cuando el detector estima un cambio, el clasificador en el que se estimó el cambio se reemplaza por uno nuevo. CEA combina la simplicidad del algoritmo de bagging para entrenar clasificadores base y el esadístico EWMA para estimar los pesos de cada clasificador base. El algoritmo propuesto se compara empíricamente con varios algoritmos de ensamble basados en bagging capaces de aprender de flujos de datos con cambios de concepto. Los experimentos muestran que el algoritmo propuesto muestra resultados prometedores (con respecto a la precisión), manipulando diferentes tipos de cambios de concepto.

    • English

      Nowadays, many sources generate unbounded data streams at high incoming rates. It is impossible to store these large volumes of data and it is necessary to process them in real time. Because these data are acquired over time and the dynamism of many real world situations, the target function to be learned can change over time, a problem commonly called concept drift. This paper presents a new ensemble algorithm called Classifier Ensemble Algorithm (CEA), able for learning from data streams with concept drift. CEA manipulates these changes using a change detector in each base classifier. When the detector estimates a change, the classifier in which the change was estimated is replaced by a new one. CEA combines the simplicity of the bagging algorithm to train base classifiers and Exponentially Weighted Moving Average (EWMA) control charts to estimate the weights of each base classifier. The proposed algorithm is compared empirically with several bagging family ensemble algorithms able to learn from concept-drifting data. The experiments show promising results from the proposed algorithm (regarding accuracy), handling different types of concept drifts.

  • Referencias bibliográficas
    • Bifet, A. (2010). Adaptive Stream Mining: Pattern Learning and Mining from Evolving Data Streams.. IOS Press. Amsterdam, The Netherlands.
    • Bifet, A.,Holmes, G.,Kirkby, R.,Pfahringer, B.. (2010). Moa: Massive online analysis. The Journal of Machine Learning Research. 11. 1601
    • Bifet, A.,Holmes, G.,Pfahringer, B.. (2010). Leveraging bagging for evolving data streams.. Springer.
    • Bifet, A.,Holmes, G.,Pfahringer, B.,Kirkby, R.,Gavalda, R.. (2009). New ensemble methods for evolving data streams. 15thACM SIGKDD international...
    • Breiman, L.. (1996). Bagging predictors.. Machine learning. 24. 123
    • Cestnik, B.. (1990). Estimating probabilities: a crucial task in machine learning.. In ECAI. 90. 147
    • Clark, P.,Niblett, T.. (1989). The CN2 induction algorithm.. Machine learning. 3. 261
    • Dawid, A. P.. (1984). Present Position and Potential Developments: Some Personal Views. Statistical Theory: The Prequential Approach. Journal...
    • Domingos, P.,Pazzani, M.. (1997). On the optimality of the simple Bayesian classifier under zero-one loss.. Machine learning. 29. 103
    • Frias-Blanco, I.,Campo-Avila, J. d.,Ramos-Jimenez, G.,Morales-Bueno, R.,Ortiz-Diaz, A.,Caballero- Mota, Y.. (2015). Online and Non-Parametric...
    • Frías-Blanco, I.,Verdecia-Cabrera, A.,Ortiz-Díaz, A.,Carvalho, A.. (2016). Fast adaptive stacking of ensembles. 31sAnnual ACM Symposium on...
    • Gama, J.,Rodrigues, P. P.,Sebastiao, R.. (2009). Evaluating algorithms that learn from data streams.. 1496
    • Gama, J.,Zliobaite, I.,Bifet, A.,Pechenizkiy, M.,Bouchachia, A.. (2014). A Survey on Concept Drift Adaptation.. ACM Comput. Surv.. 46.
    • Ghomeshi, H.,Gaber, M. M.,Kovalchuk, Y.. (2019). Ensemble Dynamics in Non-stationary Data Stream Classification.. Springer International Publishing,....
    • Hunter, J. S.. (1986). The exponentially weighted moving average.. . Quality Technol. 18. 203
    • Kuncheva, L. I.. (2004). Combining pattern classifiers: methods and algorithms. John Wiley & Sons.
    • Nishida, K.. (2008). Learning and detecting concept drift.. School of Information Science and Technology, Hokkaido University.
    • Ortíz Díaz, A.,del Campo-Ávila, J.,Ramos-Jiménez, G.,Frías Blanco, I.,Caballero Mota, Y.,Mustelier Hechavarría, A.,Morales-Bueno, R.. (2014)....
    • Oza, N. C.,Russell, S.. (2001). Online Bagging and Boosting.. Morgan Kaufmann. Key West, Florida. USA.
    • Pereira-Toledo, A.,López-Cabrera, J. D.,Quintero-Domínguez, L. A.. (2017). Estudio experimental para la comparación del desempeño de Naıve...
    • Stanley, K. O. (2003). Learning concept drift with a committee of decision trees.. University of Texas at Austin. USA.
    • Verdecia-Cabrera, A.,Blanco, I. F.,Carvalho, A. C. P. L. F.. (2018). An online adaptive classifier ensemble for mining non-stationary data...
    • Zang, W.,Zhang, P.,Zhou, C.,Guo, L.. (2014). Comparative study between incremental and ensemble learning on data streams: Case study. Journal...
    • Montgomery, D. C.. (2007). Introduction to statistical quality control.. John Wiley & Sons.
Los metadatos del artículo han sido obtenidos de SciELO Cuba

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno