Novel methodologies for improving fuzzy classifiers: dealing with multi-class and big data classification problems

Mikel Elkano

Ayuda

Novel methodologies for improving fuzzy classifiers: dealing with multi-class and big data classification problems

Autores: Mikel Elkano
Directores de la Tesis: Mikel Galar Idoate (dir. tes.) , Edurne Barrenechea Tartas (dir. tes.)
Lectura: En la Universidad Pública de Navarra ( España ) en 2018
Idioma: inglés
Número de páginas: 192
Enlaces
- Tesis en acceso abierto en: Academica-e
Resumen
- Los Sistemas de Clasificación Basados en Reglas Difusas (SCBRDs) son métodos de aprendizaje automático que permiten construir modelos predictivos capaces de predecir la clase a la que pertenecen los datos de entrada. La ventaja de estos sistemas es que proporcionan un modelo formado por una serie de reglas que contienen etiquetas lingüísticas interpretables por el ser humano (por ejemplo, “bajo”, “medio”, “alto”), lo que les permite explicar el razonamiento llevado a cabo al realizar una predicción. Estas etiquetas lingüísticas permiten a los SCBRDs no solamente explicar el porqué de las predicciones, sino también manejar la incertidumbre proveniente de información imprecisa. Los problemas de clasificación pueden dividirse en dos grupos dependiendo del número de clases que los componen: binarios (dos clases) y multi-clase (más de dos clases). En general, los problemas multi-clase implican fronteras de decisión más complejas que son más difíciles de aprender que en problemas binarios, debido al mayor número de clases. Una forma eficaz de lidiar con esta situación es descomponer el problema multi-clase original en problemas binarios más sencillos que son afrontados por clasificadores independientes, cuyas predicciones son agregadas cuando se clasifican los datos de entrada. Esta metodología ha mostrado ser eficaz a la hora de mejorar el rendimiento de una gran variedad de clasificadores, incluidos los SCBRDs. Sin embargo, el uso de estrategias de descomposición en SCBRDs plantea una nueva problemática: lidiar con diferentes estructuras de reglas y métodos de razonamiento difuso (FRM). Las diferencias estructurales en las reglas vienen dadas por la variedad de métodos de construcción de reglas existentes en la literatura. Estos métodos pueden diferir, por ejemplo, en el tipo de etiquetas lingüísticas generadas, en el operador de conjunción/disyunción empleado en reglas con más de un antecedente, o en la longitud media de las reglas. Por otro lado, el FRM encargado de inferir la salida adecuada a partir de las reglas construidas puede variar notablemente de un SCBRD a otro. Estos factores hacen que el comportamiento de las técnicas de descomposición sea dependiente del SCBRD empleado. Por consiguiente, algunos de los métodos de agregación más populares no son capaces de aprovechar el potencial mostrado en otro tipo de clasificadores. Además de la dificultad añadida de los problemas multi-clase, en los últimos años las técnicas de aprendizaje automático se han topado con un nuevo reto: en ocasiones la cantidad de información a procesar excede la capacidad de cómputo o almacenamiento de un ordenador convencional moderno, lo que denominamos problemas Big Data. Para solventar este problema se hace uso de la computación distribuida, la cual consiste en distribuir los datos a través de múltiples nodos (ordenadores) con el objetivo de procesarlos en paralelo. A pesar de que esta metodología soluciona los problemas asociados con las exigencias de cómputo y almacenamiento, el procesamiento distribuido de la información implica diseñar métodos que soporten dicha funcionalidad. En el caso de los SCBRDs diseñados para Big Data, la dificultad añadida de la computación distribuida ha impedido explotar el potencial que han mostrado estos sistemas cuando se han aplicado de forma local y secuencial. Además de la computación distribuida, otra metodología (complementaria) para poder manejar grandes volúmenes de datos son las técnicas de reducción de prototipos (PR). Los métodos de PR permiten que algoritmos de aprendizaje automático que no están diseñados para Big Data puedan ejecutarse en estos entornos empleando una versión reducida de los datos. Sin embargo, gran parte de las aproximaciones de PR propuestas hasta la fecha presentan serias limitaciones de escalabilidad que afectan a su eficiencia, debido en gran parte a la complejidad computacional cuadrática que generalmente caracteriza a este tipo de técnicas. El objetivo de esta tesis es mejorar el rendimiento de los SCBRDs en problemas multi-clase y Big Data. En el caso de los problemas multi-clase, hemos estudiado y analizado el efecto de diferentes métodos de aprendizaje y razonamiento difuso de varios SCBRDs en el rendimiento de las estrategias de descomposición. Una vez identificados algunos de los problemas que presenta esta sinergia, hemos propuesto una modificación del FRM que permite mejorar su rendimiento. En cuanto a las metodologías planteadas para Big Data, hemos presentado dos nuevos algoritmos de aprendizaje distribuido para SCBRDs que solucionan algunas de las limitaciones presentes en los métodos existentes. De forma transversal, hemos aprovechado uno de estos algoritmos para desarrollar un nuevo método de PR de complejidad lineal.