Ir al contenido

Documat


Resumen de Object detection for video-monitoring using fixed multi-camera systems

Rafael Martín Nieto

  • La detección de objetos es una de las principales tareas de visión por ordenador. Esta tarea tiene una gran complejidad debido a la dificultad para modelar objetos, ya que estos contienen un alto grado de variabilidad y su rendimiento es además muy dependiente de los datos usados para su entrenamiento. Hay múltiples algoritmos de detección en el estado del arte, pero todos ellos presentan problemas con uno o varios factores tales como: oclusiones, cambios de iluminación, cambios de perspectiva, etc. Esta tesis aborda tareas relacionadas con la detección de objetos: el marco de entrenamiento y evaluación, aproximaciones y aplicaciones de detección, y mejoras de detección en escenarios multi-cámara. En la primera parte de esta tesis, nos centramos en el entrenamiento y marco de evaluación. Analizamos los conjuntos de datos existentes en el estado del arte que cumplen los requisitos que necesitamos para evaluar los distintos sistemas desarrollados.

    Estos conjuntos de datos deben ser multi-cámara, en los que las cámaras poseen una orientación que genera solapamiento entre los puntos de vista. Para completar estos conjuntos de datos, se han diseñado, grabado y publicado dos nuevos conjuntos de datos: el primero contiene usuarios de sillas de ruedas, y el segundo contiene vehículos en un parking. Continuando con el marco de evaluación, presentamos las métricas usadas comúnmente para la evaluación de detectores de objetos. Primero se formulan las métricas de evaluación ’clásicas’, precisión y exhaustividad, y sus combinaciones. Para la evaluación de algunas de las distintas aplicaciones desarrolladas, adaptamos estas métricas para, por un lado, considerar una tercera dimensión (profundidad) en los escenarios y, por otro lado, evaluar la capacidad de detectar plazas de aparcamiento ocupadas y vacías. Para terminar esta parte, presentamos una técnica para la generación de conjuntos de entrenamiento sintéticos, que permiten entrenar un modelo de detección en situaciones en las que no se dispone de suficientes datos de entrenamiento. Se ha entrenado un modelo de usuario de sillas de ruedas considerando conjuntos de datos sintéticos de sillas de ruedas desocupadas y personas de pie. Se han creado tres conjuntos de datos sintéticos con el fin de entrenar tres modelos distintos, evaluando qué modelo es más óptimo y, finalmente, analizando su viabilidad comparándolos con un modelo de detector de personas para usuarios de sillas de ruedas entrenado con imágenes reales. En la segunda parte, esta tesis presenta dos aproximaciones de detección de objetos, con aplicación final. Con la idea de proveer a un detector de objetos existente con la capacidad de detectar variantes del objeto deseado, las cuales no han sido consideradas en su diseño inicial, presentamos un modelo de persona en silla de ruedas y lo incluimos en un detector de personas genérico, obteniendo una solución más general para detectar personas en entornos tales como casas adaptadas para la vida independiente y asistida, hospitales, centros de salud y residencias de ancianos. Como aplicación del trabajo presentado, se muestra un ejemplo de una sala de una residencia de ancianos en la que las detecciones se mapean en el plano del suelo con el fin de monitorizar a las personas. Para concluir esta parte, presentamos un sistema automático multi-cámara para detección de vehículos y su correspondiente mapeo en las plazas de aparcamiento de un parking. Los resultados claramente muestran que el sistema propuesto funciona correctamente en escenarios que presentan dificultades como oclusiones casi totales, cambios de iluminación y diferentes condiciones climáticas. Finalmente, la tercera parte de esta tesis toma como punto de partida la salida de los algoritmos de detección ejecutados en las imágenes y secuencias, añadiendo mejoras de rendimiento y autoparametrización de algoritmos, combinando información obtenida de las distintas cámaras con el fin de mejorar el rendimiento de los algoritmos de detección de objetos. Mediante el uso de múltiples cámaras e información del escenario grabado, llamada información contextual (distancia entre los objetos detectados y las cámaras, posición de las cámaras, etc.), el rendimiento de las detecciones se mejora, aprovechando los resultados de las otras cámaras, transfiriendo información de unas cámaras a otras, y después combinando las detecciones. Esta técnica además permite, usando un marco de correlación adicional, adaptar automáticamente (definiendo un umbral óptimo para cada cámara) y mejorando cualquier detector en escenarios multi-cámara, durante el tiempo de ejecución.


Fundación Dialnet

Mi Documat