Ir al contenido

Documat


Resumen de Estrategias de pre y postprocesado en deep learning para problemas multiclase en el ámbito de la seguridad y la biodiversidad

Francisco Pérez Hernández

  • Los modelos de deep learning o redes neuronales profundas representan el estado del arte en las tareas principales de visión por computador como clasificación, detección y segmentación en imágenes. De hecho, un tipo concreto de deep learning llamado redes neuronales convolucionales superan la precisión humana en la tarea de clasificación de imágenes. Para afrontar un problema nuevo de un ámbito especifico se usa normalmente la técnica transfer learning, que consiste en usar una de las redes más relevantes preentrenada sobre una de las bases de datos de ámbito general más populares, en concreto, ImageNet en clasificación y COCO en detección. Sin embargo, en la mayoría de estos casos, este enfoque produce un numero de falsos positivos y falsos negativos inaceptable. Abordar problemas nuevos de diferentes ámbitos de la seguridad, como la videovigilancia, o de la biodiversidad, como la seguridad medioambiental, requiere de un modelo robusto que genere un numero mínimo de errores. Diseñar dicho modelo es una tarea compleja por los siguientes motivos:• El diseño de una nueva base de datos grande y de calidad es costoso, tedioso y manual. En algunos casos, se requiere de conocimiento experto para anotar los datos, lo que complica aun más esta tarea.• Usar las arquitecturas más potentes del estado del arte en un problema nuevo no es suficiente para obtener modelos que se puedan usar en producción.• El uso de optimizaciones como transfer learning o fine-tuning con ImageNet y COCO sigue siendo insuficiente.Por estos motivos, es necesario el diseño de técnicas específicas de pre y postprocesado ad hoc para cada tipo de objetos, imágenes y problemas.En esta tesis se proponen técnicas novedosas de pre y postprocesado para los modelos deep learning de forma que se adapten de forma propia a diferentes problemas de detección con el objetivo de mitigar falsos positivos y falsos negativos en tres aplicaciones del ámbito de la seguridad y la biodiversidad:• Detección de objetos pequeños que se manejan de forma similar a un arma con deep learning en videovigilancia.• Detección de infraestructuras críticas en distintos niveles de zoom con deep learning en imágenes de satélite.• Detección del cambio en arbustos de alta montaña a través de imágenes de satélite en distintos momentos temporales con deep learning.


Fundación Dialnet

Mi Documat