Ir al contenido

Documat


Resumen de Metodologías de aprendizaje basadas en Deep Learning: preprocesamiento de datos y postprocesamiento

Alberto Castillo Lamas

  • Actualmente los modelos deep learning son la referencia en todas las competiciones de visión por computador. Especialmente destacan los modelos de detección de objetos, capaces de aprender a resolver problemas tan complejas como son la localización y clasificación de objetos en imágenes, aprendiendo al mismo tiempo y retroalimentándose ambos procesos mutuamente. Estos modelos se construyen sobre redes neuronales convolucionales, capaces de extraer patrones complejos de imágenes igualando e incluso superando a los seres humanos en ciertas tareas, pero requieren de cantidades descomunales de datos no siempre disponibles para su entrenamiento. El entrenamiento de los modelos de detección especializados en problemas muy concretos, además de la cantidad, requiere de un conjunto de datos de calidad. Existen técnicas que permiten partir de un conocimiento previamente adquirido con grandes conjuntos de datos, para posteriormente modificar ese conocimiento ajustándose a otro problema distinto mediante un conjunto de imágenes de un tamaño más reducido. Sin embargo, en casos como la detección de armas, el modelo de detección sigue produciendo un número de errores inaceptables para un problema tan sensible que requiere de mucha precisión y un número mínimo de errores. Para abordar el problema en el ámbito de la seguridad inteligente como la detección de armas, próximo a tiempo real en entornos de videovigilancia, se requiere de un modelo robusto frente a condiciones visualmente perjudiciales, patrones complejos en estos escenarios, y que cometa el mínimo número de errores posible. Diseñar dicho modelo es un reto complejo debido a que: La construcción de un nuevo conjunto de datos de imágenes suficientemente grande y de calidad es un proceso costoso y manual. En ciertos casos, el conocimiento en el diseño de la estrategia de anotación determina el comportamiento del modelo, lo que hace esta tarea aún más difícil. El uso de arquitecturas a la vanguardia en detección de objetos en imágenes, y diferentes modelos de redes convolucionales sobre los que se construyen las arquitecturas de detección en ciertos aspectos no tienen un rendimiento suficiente en el ámbito de vídeo al estar diseñados para imagen, pudiendo producir un elevado número de falsos positivos. Los modelos de detección de objetos pueden tener problemas ante condiciones adversas como contextos complejos en interior, elementos externos como el clima y la luminosidad, u objetos demasiado pequeños en la imagen. Utilizar técnicas de transfer learning y fine-tunning con modelos pre-entrenados en conjuntos de imágenes masivo como ImageNet o COCO en ciertos aspectos no son suficientes. Por estos motivos, es necesario el diseño de técnicas específicas de preprocesamiento de imágenes y postprocesado para hacer más robusto un sistema de detección de armas. En esta tesis se presentan técnicas novedosas de preprocesamiento de imágenes y postprocesado aplicadas sobre modelos deep learning de detección de objetos con el objetivo de reducir el impacto ante situaciones complejas y condiciones visualmente adversas mediante propuestas como: 1. Diseño de estrategias de preprocesamiento de imágenes basada en la luminosidad para reducir el número de falsos positivos producidos en escenarios interiores y especialmente exteriores. 2. Diseño de estrategias de postprocesado para minimizar el número de falsos negativos utilizando información extraída de la pose humana.


Fundación Dialnet

Mi Documat