Modelos de clasificación multi-etiqueta para datos heterogéneos: un enfoque basado en ensembles

José María Moyano Murillo

Ayuda

Modelos de clasificación multi-etiqueta para datos heterogéneos: un enfoque basado en ensembles

Autores: José María Moyano Murillo
Directores de la Tesis: Eva Gibaja Galindo (dir. tes.) , Krzysztof Jozef Cios (dir. tes.) , Sebastián Ventura Soto (dir. tes.)
Lectura: En la Universidad de Córdoba (ESP) ( España ) en 2020
Idioma: español
Tribunal Calificador de la Tesis: Alberto Cano (presid.) , José María Luna Ariza (secret.) , Cao Thang Dinh (voc.)
Enlaces
- Tesis en acceso abierto en: Helvia
Resumen
- 1. introducción o motivación de la tesis En los últimos años, el paradigma de clasificación multi-etiqueta (Multi-Label Classification, MLC) ha ganado atención en la comunidad científica, dada su habilidad para resolver problemas reales donde cada instancia del conjunto de datos puede estar asociada con varias etiquetas de clase simultáneamente [1]. Por ejemplo, en problemas médicos cada paciente puede estar afectado por varias enfermedades a la vez [2], o en problemas de categorización multimedia, cada ítem a clasificar podría estar relacionado con varias etiquetas o temas [3]. Dada la naturaleza de estos problemas, tratarlos como problemas de clasificación tradicional donde cada instancia puede tener asociada únicamente una etiqueta de clase, conllevaría una pérdida de información. Sin embargo, el hecho de tener más de una etiqueta asociada con cada instancia conlleva la aparición de nuevos retos que deben ser abordados, como modelar las dependencias entre etiquetas, el desbalanceo de etiquetas, y la alta dimensionalidad del espacio de salida.
  
  En la literatura se han propuesto un gran número de métodos para MLC, incluyendo varios basados en ensembles. El aprendizaje basado en ensembles combina las salidas de varios modelos más simples y diversos entre sí, buscando un mejor rendimiento que cada miembro por separado [4]. Al igual que en multitud de campos, en MLC los ensembles han mostrado conseguir un mejor rendimiento que los clasificadores multi-etiqueta sencillos. Por tanto, dado su buen rendimiento, centramos nuestra investigación en el estudio de métodos basados en ensembles para MLC.
  
  Sin embargo, a pesar del gran número de ensembles para MLC propuestos en la literatura, la mayoría están basados en la creación de miembros diversos simplemente seleccionando de manera aleatoria instancias, atributos, o etiquetas [5, 6]. Por tanto, la motivación principal de esta tesis es proponer nuevos modelos de ensemble para MLC donde se tengan en cuenta las características de los datos, con el objetivo de aumentar el rendimiento predictivo.
  
  2.contenido de la investigación La primera tarea abordada en esta tesis es la realización de un amplio estudio experimental involucrando ensembles de clasificadores multi-etiqueta. El objetivo de este primer estudio es doble: I) estudiar diferentes ensembles de clasificadores multi-etiqueta propuestos en la literatura, y categorizarlos de acuerdo a sus características proponiendo una nueva taxonomía; y II) encontrar el método o familia de métodos que obtiene mejores resultados dependiendo de las características de los datos, así como ofrecer posteriormente algunas guías para seleccionar el mejor método de acuerdo a las características de un problema dado.
  
  Por otro lado, para cumplir el objetivo principal de esta tesis, se desarrollan dos nuevos modelos de ensemble para MLC. Primero proponemos un algoritmo evolutivo capaz de generar un ensemble de clasificadores multi-etiqueta, donde cada uno de los individuos de la población es un ensemble completo. Este enfoque es capaz de modelar las relaciones entre etiquetas con una complejidad y desbalanceo de etiquetas relativamente bajos, considerando también estas características para guiar el proceso de aprendizaje. Además, busca una estructura óptima para el ensemble, no solo considerando su capacidad predictiva, sino también teniendo en cuenta el número de veces que aparece cada etiqueta en él. De este modo, se espera que todas las etiquetas aparezcan un número de veces similar en el ensemble, sin despreciar ninguna de ellas independientemente de su frecuencia.
  
  Posteriormente, el segundo algoritmo evolutivo desarrollado es capaz de construir ensembles de clasificadores multi-etiqueta, donde cada individuo de la población es un hipotético miembro del ensemble, en lugar del ensemble completo. El hecho de evolucionar los miembros del ensemble por separado hace que el algoritmo sea menos complejo y capaz de determinar la calidad de cada miembro por separado. Sin embargo, también es necesario definir un método para seleccionar los miembros que formarán el ensemble. Este proceso selecciona aquellos clasificadores que sean tanto precisos como diversos entre ellos, también controlando que todas las etiquetas aparezcan un número similar de veces en el ensemble final.
  
  3.conclusión En todos los estudios experimentales realizados, los métodos son comparados utilizando rigurosas configuraciones experimentales y test estadísticos, involucrando varias métricas de evaluación y conjuntos de datos de referencia en MLC. En primer lugar, se indica qué métodos funcionan mejor dependiendo de las características de los datos, demostrando cuales son más aptos en casos donde el espacio de salida está muy desbalanceado, o las etiquetas están relacionadas entre sí. Por otro lado, se confirma que los dos modelos evolutivos propuestos obtienen un rendimiento significativamente mejor y más consistente que los métodos en el estado del arte; además, el segundo de los algoritmos propuestos es mucho más eficiente que el primero.
  
  4. bibliografía [1] Gibaja, E., & Ventura, S. (2014). Multi‐label learning: a review of the state of the art and ongoing research. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 4(6), 411-444.
  
  [2] Pestian, J., Brew, C., Matykiewicz, P., Hovermale, D. J., et al. (2007). A shared task involving multi-label classification of clinical free text. In Biological, translational, and clinical language processing (pp. 97-104).
  
  [3] Briggs, F., Huang, Y., Raich, R., Eftaxias, K., et al. (2013). The 9th annual MLSP competition: New methods for acoustic classification of multiple simultaneous bird species in a noisy environment. In IEEE International Workshop on Machine Learning for Signal Processing, MLSP 2013, (pp. 1-8).
  
  [4] Sagi, O., & Rokach, L. (2018). Ensemble learning: A survey. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 8(4), e1249.
  
  [5] Tsoumakas, G., Katakis, I., & Vlahavas, I. (2010). Random k-labelsets for multilabel classification. IEEE Transactions on Knowledge and Data Engineering, 23(7), 1079-1089.
  
  [6] Read, J., Pfahringer, B., Holmes, G., & Frank, E. (2011). Classifier chains for multi-label classification. Machine learning, 85(3), 333.