Las técnicas de Inteligencia Artificial, y en concreto de aprendizaje profundo, o en inglés \emph{Deep Learning}, se han convertido en el estado del arte para lidiar con problemas de Visión por Computador en casi cualquier ámbito. Este crecimiento se debe a la gran cantidad de imágenes que se capturan diariamente, el incremento de la capacidad de cálculo gracias al desarrollo de hardware específico, y el acceso libre a las herramientas necesarias para crear modelos de \textit{Deep Learning}. A pesar de su éxito, los métodos de \textit{Deep Learning} presentan una serie de problemas. Esta tecnología no es sencilla de utilizar y requiere de cierta experiencia y conocimientos técnicos. Además, no hay siempre un algoritmo, o una librería, que consiga los mejores resultados para cualquier situación, por lo que es necesario conocer y probar múltiples de ellos. Otro problema añadido es la necesidad de obtener un gran número de imágenes anotadas para poder construir modelos precisos. Esto puede ser un reto en contextos como el biomédico donde puede ser difícil conseguir un número suficiente de imágenes, y donde el proceso de anotación es costoso y requiere de conocimiento experto. Por último, una vez que un modelo de \textit{Deep Learning} se ha construido, este debe ser capaz de generalizar a contextos no previstos en el momento de su construcción; sin embargo, en muchas ocasiones los modelos no funcionan correctamente cuando se usan imágenes de un dominio, o estilo, diferente al que se usó originalmente para entrenar dichos modelos. Este problema se conoce como el problema del cambio de dominio.
El objetivo de nuestro trabajo ha sido dar solución a los problemas mencionados anteriormente mediante el desarrollo de técnicas y herramientas que sean accesibles a la mayor cantidad de usuarios posibles. En primer lugar hemos desarrollado herramientas que permiten crear de manera sencilla modelos precisos de \textit{Deep Learning} para la clasificación y la detección de objetos en imágenes. Para ello se han empleado técnicas de AutoML que buscan de forma automática el mejor modelo para un conjunto de imágenes dadas. Además, hemos desarrollado un método para aplicar aumento de datos a distintos problemas de Visión por Computador. Este método ha sido implementado en una herramienta que permite generar datasets de imágenes lo suficientemente grandes para alimentar a los modelos de \textit{Deep Learning} en distintas tareas de Visión por Computador como son la clasificación, la detección de objetos o la segmentación semántica de imágenes y vídeos. Además de herramientas para facilitar la creación de modelos de \textit{Deep Learning}, se ha desarrollado una herramienta que mediante técnicas de traducción desparejada de imágenes (en inglés, \textit{unpaired image-to-image translation}) y transferencia de estilos (en inglés, \textit{style transfer}), permite lidiar con el problema del cambio de dominio en cualquier problema de Visión por Computador. Es importante notar que no solo hemos desarrollado métodos y herramientas desde un punto de vista teórico, sino que todo el conocimiento adquirido durante el desarrollo de dichas herramientas ha servido para abordar problemas biomédicos realeas como son la segmentación de esferoides, la clasificación y segmentación de imágenes de motilidad, o la predicción de enfermedades de la retina a partir de imágenes del fondo del ojo. Finalmente, los conocimientos obtenidos al resolver estos problemas biomédicos nos han servido para mejorar las herramientas desarrolladas.
Artificial Intelligence, and specifically Deep Learning, methods have become the state-of-the-art approach to deal with Computer Vision problems in almost any field. This growth is due to the large amount of images that is produced in a daily basis, the increment of calculation capacity thanks to the development of specific hardware, and the open-source nature of the tools that allow us to build Deep Learning models. Despite their success, Deep Learning methods have several drawbacks. This technology might be difficult to use and requires some experience and technical knowledge. In addition, there is not always an algorithm, or library, that produces the best results for all the situations; hence, it is necessary to know and try different alternatives. Moreover, Deep Learning methods require a large number of labeled images to produce accurate models. This might be a challenge in contexts like biomedicine where it is difficult to acquire large enough datasets of images, and the annotation of those images require expert knowledge. Finally, once Deep Learning models are built, they should be able to generalize to contexts that were unforeseen during their construction. However, in many cases, models do not work properly when they are used with images from a domain, or style, different to the one used for training those models --- this is known as the domain shift problem.
The goal of our work has been to tackle the aforementioned problems by means of techniques and tools that are user-friendly. First of all, we have developed tools that allow users to create accurate Deep Learning models for image classification and object detection tasks. To this aim, we have applied AutoML techniques that automatically search the best model for a given dataset of images. Moreover, we have developed a method to apply data augmentation to several Computer Vision problems. Such a method has been implemented in a tool that allows users to generate large enough datasets of images to feed Deep Learning models in several Computer Vision tasks such as image and video classification, object detection or semantic segmentation. In addition to tools that simplify the construction of Deep Learning models, we have developed a tool that tackles the domain shift problem by means of unpaired image-to-image translation methods and style transfer techniques. It is worth noting that we have not only developed methods and tools from a theoretical point of view, but all the knowledge acquired during the development of those tools has been applied to deal with actual biomedical problems such as spheroid segmentation, the classification and segmentation of motility images, or the diagnosis of retinal diseases from fundus images. Finally, the experience provided by tackling actual problems has served to improve the developed tools.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados