Ir al contenido

Documat


Resumen de Robust human detection through fusion of color and infrared video

Juan Serrano Cuerda

  • Hoy en día los sistemas de detección de humanos constituyen un desafío en boga dentro del campo de la visión artificial. Muchos de estos sistemas se encuentran basados en el uso de cámaras en color, aunque pueden presentar problemas ante condiciones adversas de iluminación, ya sea debidas a la oscuridad o a cambios súbitos de luz. Una alternativa interesante la constituye el uso de cámaras térmico-infrarrojas, las cuales funcionan bien en entornos fríos, pero son problemáticas en ambientes cálidos, ya que la temperatura de los humanos es la misma que la del resto de elementos presentes en la escena y es difícil distinguir a los primeros del resto del entorno. Esta tesis persigue el diseño e implementación de un sistema robusto de detección de personas basado en la fusión de la información proporcionada por la segmentación de humanos en los espectros infrarrojo y color. El sistema se ha elaborado a partir de la arquitectura INT3-Horus, diseñada e implementada en colaboración con otros miembros y doctorandos del grupo de investigación n&aIS. Contenido de la investigación En primer lugar, se ha realizado una aproximación inicial a la segmentación, incidiendo especialmente en la detección de humanos en color y en infrarrojo con el fin de tener una perspectiva general de como llevan a cabo este proceso los diversos autores que podemos encontrar en la literatura. Se ha llegado a la conclusión de que resulta especialmente interesante utilizar las características térmicas de los humanos en el espectro infrarrojo, mientras que en el espectro visible se ha observado que existen pocos algoritmos que utilicen la información proporcionada por el color a la hora de caracterizar a los diversos humanos. Análogamente, se ha llevado a cabo un proceso similar con la fusión de imágenes, núcleo principal de la presente tesis. Tras caracterizar este proceso y plasmar su utilidad, se han explicado las fases necesarias para llevarlo a cabo, realizándose una clasificación de los diversos algoritmos estudiados en base a su aproximación a estas fases. Finalmente, se ha llevado a cabo un resumen final de los diversos métodos estudiados, obteniéndose como principal conclusión que la fusión a nivel de regiones es especialmente interesante, ya que proporciona mayor independencia de las características de las diversas cámaras y presenta mayor invariabilidad frente a problemas puntuales de ruido. Finalmente, se ha realizado un estudio de las diversas técnicas de seguimiento que se pueden encontrar en la literatura incidiéndose nuevamente de forma especial en el seguimiento de humanos. Nuevamente se ha concluido este estudio con una clasificación de los algoritmos estudiados, obteniéndose como conclusión que los métodos basados en características pueden ser especialmente apropiados para los objetivos de la tesis al no requerir entrenamiento previo, lo que les proporciona mayor versatilidad. El sistema desarrollado parte de un nivel inicial de adquisición que se encarga de capturar las imágenes de ambas cámaras y sincronizarlas. Además, las características de las imágenes capturadas sirven para asignar un nivel de confianza a cada espectro. Este nivel de confianza es decisivo a la hora de realizar la fusión entre ambos espectros. El siguiente nivel lo constituye la segmentación de los vídeos infrarrojo y visible. En esta etapa se han implementado una serie de algoritmos de detección de humanos, tanto en el espectro infrarrojo como en el visible, usando en este último la información del color, con el fin de poder comparar sus resultados en distintas situaciones. Los diversos algoritmos son comparados entre sí con el fin de elegir únicamente una técnica de detección de humanos en cada espectro. Los resultados de estos algoritmos son los que se tienen en cuenta en el nivel de fusión. El nivel de fusión se encarga de analizar los resultados obtenidos en las detecciones de humanos en cada espectro. La fusión se basa en un sistema de reglas que utiliza la confianza asignada a cada espectro. También se tiene en cuenta la localización de los humanos detectados por cada algoritmo de segmentación. La decisión tomada a partir de estas reglas puede ser (1) incorporar el humano al resultado final, (2) ajustar mejor las dimensiones y el número de personas detectadas a partir del análisis de los resultados del otro espectro, o (3) ignorar la detección actual por no tener asignada un nivel de confianza suficiente el espectro analizado. Los humanos incorporados al resultado final del sistema por estas reglas son comparados con los humanos detectados anteriormente en la escena. Para ello se utiliza un algoritmo de identificación que establece correspondencias entre los humanos actuales y aquellos detectados en la escena en la iteración anterior. Finalmente, un algoritmo de seguimiento decide si todavía permanecen en la escena aquellos humanos que se encontraban anteriormente en el escenario y no han sido localizados en el fotograma actual. Con el fin de evaluar el sistema, se ha escogido un entorno de exteriores, en el cual se han grabado una serie de secuencias en diversas condiciones atmosféricas y de iluminación. Además, las secuencias presentan una complejidad variable, donde pueden aparecer distintas cantidades de humanos en diferentes situaciones, desde las más simples, como un humano caminando sólo, a las más complejas, como personas caminando en grupo. Conclusiones Las pruebas realizadas demuestran una mejora significativa entre los resultados alcanzados por los algoritmos de detección en cada espectro en solitario y aquellos logrados gracias a la fusión. Esta mejora no se da únicamente en situaciones adversas para uno de los dos espectros, sino en aquéllas en las que los dos espectros colaboran reforzando mutuamente sus resultados. Con ello, se confirma que el sistema presenta un funcionamiento estable independientemente de las condiciones en que se encuentre el entorno monitorizado en cada momento. Bibliografía Antonio Fernández-Caballero, José Carlos Castillo, Juan Serrano-Cuerda y Saturnino Maldonado-Bascón (2011). Real-time human segmentation in infrared videos. Expert Systems with Applications 38 (3), pp. 2577-2584. Elsevier Science. ISSN 0957-4174. Juan Serrano-Cuerda, José Carlos Castillo, Marina V. Sokolova y Antonio Fernández-Caballero (2013). Efficient people counting from indoor overhead video camera. Advances in Intelligent and Soft Computing 221, pp. 129-137. Springer-Verlag. Juan Serrano-Cuerda, Marina V. Sokolova, Antonio Fernández-Caballero, María T. López y José Carlos Castillo (2013). Fusion of overhead and lateral view video for enhanced people counting. 5th International Work-Conference on the Interplay between Natural and Artificial Computation, IWINAC 2013. Lecture Notes in Computer Science. Springer-Verlag. ISSN 0302-9743.


Fundación Dialnet

Mi Documat