Isaac Pérez Borrero
En esta tesis doctoral se ha llevado a cabo un estudio teórico y experimental en el campo del aprendizaje profundo. El objetivo de este estudio ha sido mejorar las técnicas actuales que se emplean en diferentes problemas de interés para la sociedad. Los principales problemas que presentan los modelos de aprendizaje profundo a la hora de ser implementados en entornos reales son la falta de precisión y el elevado coste computacional de su ejecución. Existen problemas en los que es necesario que la precisión del modelo sea lo más alta posible para que este tipo de soluciones puedan ser utilizadas. Además, la demanda de procesamiento de los modelos puede impedir su uso en ciertos problemas en los que la capacidad de procesamiento se encuentra muy limitada o se precisa de una elevada velocidad de procesamiento, como en el caso de los sistemas que trabajan en tiempo real. Por lo tanto, se hace necesario encontrar nuevas técnicas y paradigmas que permitan mejorar los resultados de las soluciones actuales además de reducir el tiempo de procesamiento sin que ello suponga una pérdida de precisión. Para la realización de esta tesis se han escogido dos problemas en los que se evidencian la necesidad de las mejoras mencionadas anteriormente. Por un lado, el primer problema consiste en la segmentación del árbol vascular en imágenes de fondo de ojo. Este problema tiene especial interés ya que permite crear una herramienta de apoyo al especialista para la monitorización del árbol vascular con el objetivo de detectar diferentes patologías. No obstante, al tratarse de un sistema destinado al ámbito médico, cualquier mejora de los resultados del modelo dota al especialista de una mayor confianza en esta herramienta. Por otro lado, el segundo problema consiste en la segmentación por instancia de fresas en imágenes. Este problema supone una pieza clave en la creación de cosechadoras automática de fresas y, por ende, es necesario utilizar modelos que puedan trabajar en tiempo real en equipos con gran limitación de procesamiento y memoria. El trabajo llevado a cabo en esta tesis ha dado lugar a tres publicaciones en las que se han propuesto soluciones que abordan las principales limitaciones de los modelos de aprendizaje profundo en los dos problemas de interés: la mejora de los resultados y la velocidad de procesamiento. En concreto, para el caso de la segmentación del árbol vascular, se ha propuesto un nuevo modelo basado en U-Net (modelo de referencia para la segmentación semántica) y nuevas técnicas para el entrenamiento que, en su conjunto, logran mejorar los resultados del estado del arte. De este modo, el modelo propuesto, con una arquitectura mucho más eficiente que la del modelo original y sin necesidad de aplicar un procesamiento a la imagen antes ni después de ser procesada por el modelo, presenta unos valores de AUC superiores a los obtenidos por los modelos más representativos del estado del arte. En el caso de la segmentación por instancia de fresas, se ha propuesto una modificación de Mask R-CNN (uno de los modelos de referencia en segmentación por instancias) con el objetivo de mejorar la velocidad de procesamiento del modelo original de forma considerable sin que ello repercuta de forma notable en los resultados. Las modificaciones propuestas han permitido trabajar a 10 fps, lo que supone doblar la velocidad del modelo original sin que ello repercuta de forma notable en el valor de mAP. Además, se ha propuesto un nuevo paradigma para abordar el problema de la segmentación por instancia de fresas, así como un nuevo modelo, que por primera vez en este problema es capaz de trabajar en tiempo real (30 fps) con un incremento en el valor de mAP superior al 15% respecto a Mask R-CNN. Los resultados alcanzados en los trabajos realizados en esta tesis para los dos problemas de interés escogidos permiten considerar a las soluciones propuestas como las mejores alternativas para su implementación en entornos reales de trabajo.
In this doctoral thesis a theoretical and experimental study has been carried out in the field of deep learning. The objective of this study has been to improve the current techniques used in problems from different fields of interest of society. The main problems that deep learning models present when implemented in real environments are the lack of precision and the high computational cost of their execution. There are problems in which the accuracy of the model must be as high as possible for this type of solutions to be used. In addition, the processing demands of the models may prevent their use in certain problems where the processing capacity is very limited or a high processing speed is required, as in the case of systems working in real time. Therefore, it is necessary to find new techniques and paradigms to improve the results of the current solutions and to reduce the processing time without losing accuracy. For the development of this thesis, two problems have been chosen in which the need for the mentioned above improvements is evident. On the one hand, the first problem consists of the segmentation of the vascular tree in fundus images. This problem is of special interest since it allows the creation of a tool to support the specialist in monitoring the vascular tree with the purpose of detecting different pathologies. However, as this is a system intended for use in the medical field, any improvement in the model results gives the specialist greater confidence in this tool. On the other hand, the second problem consists in the segmentation by instance of strawberries in images. This problem is a key part in the creation of automatic strawberry harvesters and, therefore, it is necessary to use models that can work in real time on equipment with processing and memory limitations. The result of the work done in this thesis has led to three publications in which solutions have been proposed that address the main limitations of deep learning models in the two problems of interest: performance improvement and processing speed. Specifically, for the case of vascular tree segmentation, a new model based on U-Net (reference model for semantic segmentation) and new techniques for training have been proposed that, as a whole, manage to improve the state-of-the-art results. Thus, the proposed model, with a much more efficient architecture than the original model and without the need to apply processing to the image before or after being processed by the model, presents higher AUC values than those obtained by the most representative models of the state of the art. In the case of strawberry instance segmentation, a modification of Mask R-CNN (one of the reference models in instance segmentation) has been proposed with the goal of improving the processing speed of the original model considerably without notably affecting the results. The proposed modifications have made it possible to work at 10 fps, which means doubling the speed of the original model without notably affecting the mAP value. In addition, a new paradigm has been proposed to address the problem of strawberry instance segmentation, as well as a new model, which for the first time in this problem is able to work in real time (30 fps) with a 15% increase of mAP value compared to Mask R-CNN. The results achieved in the work done in this thesis for the two chosen problems allow us to consider the proposed solutions as the best alternatives for implementation in commercial working environments.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados