Diseño y análisis de redes neuronales convolucionales ordinales: aplicaciones

Victor Manuel Vargas Yun

Ayuda

Diseño y análisis de redes neuronales convolucionales ordinales: aplicaciones

Autores: Victor Manuel Vargas Yun
Directores de la Tesis: Pedro Antonio Gutiérrez Peña (dir. tes.) , César Hervás Martínez (dir. tes.)
Lectura: En la Universidad de Córdoba (ESP) ( España ) en 2023
Idioma: español
Tribunal Calificador de la Tesis: Ezequiel López Rubio (presid.) , Ángel Carmona Poyato (secret.) , David Alberto Elizondo Giménez (voc.)
Enlaces
- Tesis en acceso abierto en: Helvia
Resumen
- 1. Introducción o motivación de la tesis:
  
  En los últimos años, un gran número de áreas han empezado a aplicar técnicas de aprendizaje profundo para mejorar sus procesos y resolver multitud de tareas de diferente índole [1,2]. El principal motivo para el auge de este tipo de técnicas es el hecho de que actualmente se produce una cantidad de información que sería imposible de procesar de manera manual por el ser humano. Por su parte, las técnicas de aprendizaje automático tradicionales requerían un preprocesamiento previo por parte del ser humano para poder utilizar la información generada por los diferentes procesos para entrenar un modelo que pudiera extraer conocimiento a partir de dicha información. Sin embargo, gracias al uso de técnicas de aprendizaje profundo [3], este paso previo de preprocesamiento ya no es necesario, de manera que el modelo puede trabajar directamente con la información en crudo. De este modo, se pueden resolver multitud de problemas relacionados con diferentes tareas de aprendizaje automático, tales como clasificación [4], regresión [5] o agrupamiento [6], además de nuevas tareas específica del aprendizaje profundo, como pueden ser la localización [7] o la segmentación [8].Esta Tesis se centra fundamentalmente en resolver tareas de clasificación. Una tarea de clasificación consiste en encontrar la etiqueta correcta para cada patrón dentro de un conjunto discreto de posibles categoriías a partir de las características de entrada asociadas con el mismo. Más concretamente, en esta tesis se tratan problemas de clasificación ordinal [9], que son una variante de los problema de clasificación en la que las posibles categorías a las que puede pertenecer un patrón siguen un determinado orden que viene determinado por el problema real. En estos casos, el objetivo es intentar predecir la clase correcta o, en su defecto, una clase cercana, con el objetivo de minimizar el coste de los errores. Un error de clasificación en una clase muy lejana implica un coste mayor que un error en la clase adyacente. De igual forma, en este tipo de problemas, la similitud entre clases cercanas añade cierta incertidumbre [10] al proceso de etiquetado, debido a la dificultad para discernir entre dichas clases. Por ello, en tesis se propone diferente metodologías de aprendizaje profundo para clasificación ordinal teniendo en cuenta las características de este tipo de problemas, de manera que se consiga minimizar el coste de los errores asociados a este tipo de tareas.Por otro lado, también se explora la influencia de las funciones de activación [11] en el rendimiento de los modelos de aprendizaje profundo. Estas funciones transforman la salida de cada neurona del modelo con el objetivo de introducir transformaciones no lineales que puedan modelar información más compleja. Así, las funciones de activación constituyen uno de los numerosos elementos que deben ser seleccionados en un modelo de aprendizaje profundo. Por este motivo, en esta tesis, también se aborda el uso de metaheurísticas que no requieren parámetros para determinar la arquitectura óptima de este tipo de modelos, así como los valores óptimos para sus hiperparámetros.Finalmente, los métodos desarrollados en esta tesis se aplican a diferentes problemas reales relacionados con biomedicina e industria, tales como la detección de daños neurológicos asociados a la enfermedad de Parkinson, la predicción del tiempo de supervivencia en trasplantes hepáticos, la clasificación de cálidad estética del material empleado para fabricar una pieza o el mantenimiento predictivo en cajeros automáticos.
  
  2.Contenido de la investigación:
  
  De forma más concreta, los contenidos de esta tesis se pueden organizar en las siguientes categorías:Técnicas de clasificación ordinal para aprendizaje profundo. La primera parte de la tesis consiste en el desarrollo de nuevas técnicas de clasificación ordinal que se pueden emplear con modelos de aprendizaje profundo y que mejoran el rendimiento en clasificación en comparación con modelos ya existentes en el estado del arte y modelos estándar de clasificación nominal. Principalmente se han seguido dos ideas para el desarrollo de estos modelos: la primera consiste en modificar la capa de salida de la red profunda con el objetivo de calcular las probabilidades de pertenencia a cada clase teniendo en cuenta la ordinalidad del problema [12]. La segunda está basada en la modificación de la función de coste que se usa para entrenar el modelo mediante un algoritmo de descenso de gradiente con el objetivo de penalizar cada error de diferente forma según la distancia existente entre la clase predicha y la clase correcta [13].Funciones de activación para aprendizaje profundo. En esta parte de la tesis se exploran las principales funciones de activación existentes para aprendizaje profundo. En la actualidad, la función más ampliamente utilizada es la Rectified Linear Unit (ReLU) [14] debido al equilibrio entre su simplicidad y el rendimiento que proporciona. Sin embargo, existen trabajos [15] que han demostrado que no siempre es la mejor alternativa, y que es posible obtener mejor rendimiento usando otro tipo de funciones. Por ello, en uno de los trabajos se han comparado las principales funciones existentes, incluyendo aquellas que son variantes de la ReLU como otras funciones no derivadas de la misma. Además, se proponen dos nuevas funciones, que también son comparadas con el resto, mostrando un mejor rendimiento en clasificación.Evolución de redes neuronales profundas usando metaheurísticas. Esta parte de la tesis está destinada a explorar el uso de metaheurísticas que no requieren el ajuste de parámetros para determinar la arquitectura y los hiperparámetros óptimos en modelos de redes profundas. Más concretamente, primero se propone una metodología para determinar la arquitectura óptima de la parte final de la red profunda utilizando una metodología híbrida que combina el uso de un algoritmo de arrecife de colar (SCRO) [16] con el algoritmo de descenso de gradiente, comúnmente utilizado para entrenar redes neuronales. Por otro lado, en otro trabajo, se utiliza la misma metaheurística para determinar la arquitectura completa de una red profunda, incluyendo capas convolucionales, de pooling, funciones de activación, etc.Aplicación de los métodos propuestos a problemas reales. Finalmente, los métodos de clasificación ordinal para aprendizaje profundo desarrollados en esta tesis han sido aplicados a diferentes problemas reales relacionados con el área de la biomedicina y la industria. Así, se han abordado dos problemas de biomedicina relacionados con la detección de daños neurológicos causados por la enfermedad de Parkinson, y, por otro lado, un problema relacionado con la asignación de pares donante-receptor para trasplantes hepáticos. En el área de la industria, se ha abordado un problema relacionado con la clasificación de piezas de madera en función de su calidad estética y, por otro lado, una tarea de mantenimiento predictivo de cajeros automáticos, que trata de detectar una avería antes de que se produzca.
  
  3.Conclusión:
  
  En esta tesis, se han abordado diferentes temas relacionados con aprendizaje profundo y clasificación ordinal haciendo uso de una variedad de métodos de aprendizaje profundo. Las principales propuestas han sido publicadas en 12 artículos en revistas internacionales, 2 artículos en revistas nacionales, 9 congresos internacionales y 1 congreso nacional. Más concretamente, esta tesis ha explorado los siguientes temas: 1) el desarrollo de metodologías de clasificación ordinal, donde se han propuesto diferentes técnicas de clasificación ordinal para aprendizaje profundo, incluyendo algunas destinadas a resolver problemas de clasificación ordinal jerárquica; 2) la exploración de las principales funciones de activación para aprendizaje profundo y la posterior propuesta de dos nuevas funciones que mejoran a todas las anteriores; 3) la evolución de redes neuronales profundas mediante metaheurísticas que no necesitan parámetros, incluyendo el ajuste de la arquitectura de la red, así como de los parámetros de la misma; 4) las metodologías de clasificación ordinal propuestas en esta Tesis se han aplicado para resolver problemas reales en el ámbito de la biomedicina y la industria.
  
  4. Bibliografía:
  
  [1] Schwendemann, S., Amjad, Z., & Sikora, A. (2021). A survey of machine-learning techniques for condition monitoring and predictive maintenance of bearings in grinding machines. Computers in Industry, 125, 103380.[2] Toledo-Cortés, S., Useche, D. H., Müller, H., & González, F. A. (2022). Grading diabetic retinopathy and prostate cancer diagnostic images with deep quantum ordinal regression. Computers in biology and medicine, 145, 105472.[3] Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.[4] Litjens, G., Kooi, T., Bejnordi, B. E., Setio, A. A. A., Ciompi, F., Ghafoorian, M., ... & Sánchez, C. I. (2017). A survey on deep learning in medical image analysis. Medical image analysis, 42, 60-88.[5] Fernández-Delgado, M., Sirsat, M. S., Cernadas, E., Alawadi, S., Barro, S., & Febrero-Bande, M. (2019). An extensive experimental survey of regression methods. Neural Networks, 111, 11-34.[6] Murtagh, F., & Contreras, P. (2012). Algorithms for hierarchical clustering: an overview. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2(1), 86-97.[7] Tao, X., Gong, X., Zhang, X., Yan, S., & Adak, C. (2022). Deep learning for unsupervised anomaly localization in industrial images: A survey. IEEE Transactions on Instrumentation and Measurement.[8] Minaee, S., Boykov, Y., Porikli, F., Plaza, A., Kehtarnavaz, N., & Terzopoulos, D. (2021). Image segmentation using deep learning: A survey. IEEE transactions on pattern analysis and machine intelligence, 44(7), 3523-3542.[9] Gutiérrez, P. A., Perez-Ortiz, M., Sanchez-Monedero, J., Fernandez-Navarro, F., & Hervas-Martinez, C. (2015). Ordinal regression methods: survey and experimental study. IEEE Transactions on Knowledge and Data Engineering, 28(1), 127-146.[10] Vargas, V. M., Gutiérrez, P. A., Barbero-Gómez, J., & Hervás-Martínez, C. (2023). Soft labelling based on triangular distributions for ordinal classification. Information Fusion, 93, 258-267.[11] Bishop, C. M., & Nasrabadi, N. M. (2006). Pattern recognition and machine learning (Vol. 4, No. 4, p. 738). New York: springer.[12] Vargas, V. M., Gutiérrez, P. A., & Hervas-Martinez, C. (2020). Cumulative link models for deep ordinal classification. Neurocomputing, 401, 48-58.[13] de La Torre, J., Puig, D., & Valls, A. (2018). Weighted kappa loss function for multi-class classification of ordinal data in deep learning. Pattern Recognition Letters, 105, 144-154.[14] Fukushima, K. (1975). Cognitron: A self-organizing multilayered neural network. Biological cybernetics, 20(3-4), 121-136.[15] Clevert, D. A., Unterthiner, T., & Hochreiter, S. (2015). Fast and accurate deep network learning by exponential linear units (elus). arXiv preprint arXiv:1511.07289.[16] Duran-Rosal, A. M., Gutierrez, P. A., Salcedo-Sanz, S., & Hervas-Martinez, C. (2018). A statistically-driven Coral Reef Optimization algorithm for optimal size reduction of time series. Applied Soft Computing, 63, 139-153.