Ir al contenido

Documat


Recognition of driving objects in real time with computer vision and deep neural networks

  • Autores: Alejandro Domínguez Sánchez
  • Directores de la Tesis: Miguel Cazorla Quevedo (dir. tes.) Árbol académico, Sergio Orts Escolano (codir. tes.) Árbol académico
  • Lectura: En la Universitat d'Alacant / Universidad de Alicante ( España ) en 2018
  • Idioma: español
  • Tribunal Calificador de la Tesis: Domènec Puig Valls (presid.) Árbol académico, Ester Martínez Martín (secret.) Árbol académico, José María Cañas Plaza (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: RUA
  • Resumen
    • Introducción o motivación de la tesis En esta tesis doctoral se ha hecho una investigación teórica y práctica, explorando el problema de la conducción de un vehículo asistido, específicamente desde el punto de vista de la seguridad. La conducción asistida se está convirtiendo en una realidad hoy en día.

      Las nuevas técnicas de deep learning son de gran valor para el proceso de resolución en esta situación en la que los objetos deben ser detectados para que el conductor o la persona con necesidades no tenga que hacerlo.

      El fundamento de los trabajos y experimentos en esta tesis son las redes neuronales y, en particular, las redes neuronales convolucionales que son la herramienta perfecta para la detección y reconocimiento de objetos de una cámara o video.

      Este trabajo surge como resultado de los estudios de doctorado desarrollados dentro del Doctorado en Ingeniería Informática, finalizados entre 2015 y 2018 en la Universidad de Alicante y en el Instituto Universitario de Investigación Informática (España).

      En 1995, durante mis estudios en la Universidad de Westminster (Londres) comencé a interesarme en la inteligencia artificial y, en particular, en la visión por ordenador. Concluyendo en el Master en Ciencias (Msc) un proyecto para reconocer matrículas de vehículos, provocó el comienzo de un interés en investigar las formas de hacer que los entornos de tráfico sean más seguros.

      Hoy en día, la llegada de mejores recursos computacionales tales como GPUs, CPUs con nucleos trabajando en paralelo más rápidas y eficientes, y una mayor cantidad de memoria RAM, ha posibilitado la implementación de técnicas ya conocidas que demandan una gran capacidad computacional. Las más relevantes son las Redes Neuronales Convolucionales (RNC). Con redes neuronales, podemos clasificar una imagen en función de su apariencia visual. Por otro lado, las RNC nos permiten obtener una lista de posibilidades que representan la probabilidad de la presencia de un objeto en una escena.

      Estos avances en visión por ordenador se han vuelto cada vez más relevantes en este campo, hasta el punto de que podríamos decir que actualmente es la técnica mas utilizada en cualquier proyecto relacionado con la clasificación y localización de imágenes.

      Y para terminar, la seguridad en las carreteras y en general en cualquier ámbito de tráfico rodado ha sido el mantra principal en todo momento en el tráfico y los accidentes en carreteras. Un nuevo concepto que ahora se aplica en algunos automóviles comerciales es la capacidad de conducir de forma autónoma, la ayuda al aparcar y la detección de peatones. En todas esas características de seguridad, la necesidad de detectar objetos en la escena del tráfico es obvia. Los objetos como carriles, señales de tráfico, bicicletas, personas en las carreteras, semáforos, etc. necesitan ser detectados, medidos y ubicados varias veces por segundo o en tiempo real, en cualquier condición de iluminación y a cualquier distancia relativa. Para todas esas necesidades, se necesitan modelos de redes neuronales mejores y más rápidos, los cuales se desarrollan cada día más eficazmente y con mayor nivel de precisión.

      Desarrollo teórico Para el desarrollo de esta tesis se han creado varios datasets de datos y usados distintas arquitecturas y modelos de redes neuronales, las cuales se han modificado para las necesidades especificas de los experimentos con peatones, objetos de trafico, señales de trafico y aprendizaje del volante.

      Dataset de peatones Este conjunto de datos (dataset) se creó con el propósito de reconocer peatones y su movimiento. Fue creado completamente desde cero. Hay muchos conjuntos de datos públicos para peatones, pero ninguno tenía las características de movimiento que se necesitaban y, como se necesitaba capturar el movimiento de la persona, tuve que crear mi propio dataset.

      Se filmaron varias horas de video con una resolución de 640x480 y se adquirieron en 5 ubicaciones diferentes en la ciudad de Alicante. Hubo un total de 45497 de imágenes, y de esas, 10800 se clasificaron en tres categorías según el movimiento del peatona: de frente, izquierdo y derecho.

      Dataset de tráfico Otro conjunto de datos que se ha creado está relacionado con objetos de tráfico. Este conjunto de datos fue una mezcla de diferentes datasets públicos como PascalVoc2012 [26] y Udacity [81] además de otros objetos añadidos, creados y etiquetados por mí. En este caso, como se necesitaba una anotación del tipo de objeto, adopté el formato PascalVoc con imágenes y anotaciones de recuadros delimitadores (bounding box) etiqueta dos en formato XML. Luego, como necesitábamos completar el conjunto de datos con más objetos, agregamos más imágenes con autobuses y motos de videos de Internet y videos de bicicletas grabados en carreteras y calles de Alicante. El conjunto de datos final tenía más de 400, 000 objetos divididos en siete clases: automóvil, motocicleta, persona, semáforo, autobús, bicicleta y señal de tráfico.

      Dataset de señales de tráfico Hemos creado un nuevo conjunto de datos de tráfico que fusiona un conjunto de datos de tráfico alemán (GTSRB) [76] y uno español creado por mí. El conjunto de datos alemán tiene una gran cantidad de señales de tráfico diferentes, específicamente 39495 imágenes dentro de 43 señales de tráfico diferentes. Además, el creado a partir de las carreteras españolas tiene 3300 imágenes divididas en 45 señales de tráfico.

      Un sistema de detección del movimiento y dirección de los peatones usando técnicas de visión clásicas y redes neuronales.

      El reconocimiento de la dirección del movimiento de peatones es un factor importante en la asistencia autónoma del conductor y en los sistemas de vigilancia de seguridad. Los peatones son los objetos en movimiento más cruciales y frágiles en calles, caminos y eventos donde miles de personas pueden reunirse regularmente. El análisis del flujo de personas en los cruces de cebra y en centros comerciales o eventos, como manifestaciones, es un elemento clave para mejorar la seguridad y permitir que los autos autónomos conduzcan en entornos de la vida real. Este Trabajo se centra en las técnicas de deep learning como las redes neuronales convolucionales (CNN) para lograr una detección de peatones que se mueven en una dirección particular. Proponemos una técnica basada en CNN que aprovecha las técnicas actuales de detección de peatones (HOG-linSVM) para generar una suma de cuadros sustraídos (estimación de flujo alrededor del peatón detectado), que se utilizan como entrada para las versiones modificadas propuestas de varios estados del estado. Las redes CNN de última generación como AlexNet, GoogleNet y ResNet. Además, también hemos creado un nuevo conjunto de datos para este propósito, y analizamos la importancia de la capacitación en un conjunto de datos conocido para que las redes neuronales obtengan resultados confiables.

      Deteccion de objetos urbanos en tiempo real.

      En los últimos años, hemos visto un gran crecimiento en el número de aplicaciones que utilizan detectores de objetos basados ​​en deep learning. Los Sistemas de Asistencia de Conducción Autónoma (ADAS) son una de las áreas donde tiene mayor impacto.

      Este trabajo presenta un estudio novedoso que evalúa una técnica de vanguardia para la localización de objetos urbanos. En particular, investigamos el rendimiento del método Faster R-CNN para detectar y localizar objetos urbanos en una variedad de videos urbanos al aire libre que involucran a peatones, automóviles, bicicletas y otros objetos que se mueven en la escena. Proponemos un nuevo conjunto de datos que se utiliza para evaluar la precisión de un detector de objetos en tiempo real (Faster R-CNN). Parte de los datos se recopilaron utilizando una cámara HD montada en un vehículo. Además, algunos de los datos están escasamente anotados, por lo que se pueden utilizar para probar técnicas de aprendizaje supervisadas. Ya existen conjuntos de datos de objetos urbanos, pero ninguno de ellos incluye todos los objetos urbanos esenciales, en particular las 43 señales de tráfico existentes. Llevamos a cabo numerosos experimentos que demostraron la efectividad del enfoque de línea de base, que logró una precisión del 74.2% en el conjunto de datos propuesto. Además, proponemos una técnica de rastreo R-CNN plus para acelerar el proceso de detección de objetos urbanos en tiempo real.

      Conducción autónoma Los vehículos autónomos tienen muchos aspectos que deben considerarse aparte de la tecnología en sí, por ejemplo, marcos legales y normativas gubernamentales. En un mundo ideal, las decisiones de conducción deben tomarse en tiempo real. Existen variables a tener en cuenta como objetos en la carretera, peatones que cruzan, control de la velocidad del vehículo y qué dirección tomar, entre otras. La operación del volante es una de las decisiones más importantes que debe resolverse en cualquier momento durante un proceso de auto conducción. A medida que el vehículo comienza a moverse, cada fracción de segundo debe tomar la decisión de "dónde moverse", "En qué dirección debe ir el automóvil", y esta respuesta debe ser sólida, correcta y, sobre todo, segura.

      El vehículo debe ir en una dirección donde no haya obstáculos como otros vehículos, peatones, bicicletas, etc., y también debe estar en todo momento en la direccion exacta y correcta dentro de la carretera, calle o autopista. En este trabajo investigaremos un sistema de deep learning de principio a fin para operar de manera autónoma el volante de un vehículo. Iremos un poco más lejos al implementar un sistema de este tipo en un vehículo eléctrico real diseñado y construido por nosotros.

      Conclusión Hemos demostrado cómo con una RNC simple y un prefiltrado de imágenes donde los peatones están en movimiento, esta tarea se puede conseguir y cómo se pueden mejorar los resultados mediante la búsqueda de los mejores valores para los parámetros de la red una vez que se ha ajustado la RNC.

      Se hizo una evaluación del estado del arte de las RNC, y ResNet demostró ser la RNC con mejores resultados para nuestro problema de reconocimiento de peatones.

      Después, para avanzar más en el objetivo de seguridad de este trabajo, quisimos localizar el resto de los objetos clave en el entorno urbano, tales como automóviles, bicicletas, señales de tráfico, etc.

      Por lo tanto, con un nuevo conjunto de datos de objetos urbanos y una arquitectura RNC-R más rápida, demostramos que se puede aprovechar este conjunto de datos para el tráfico en la vida real. Y más aún, al reentrenar la arquitectura propuesta siguiendo un aprendizaje semi-supervisado, hemos demostrado cómo la red propuesta puede mejorar notablemente su precisión. Además, podemos concluir con que las técnicas de seguimiento también pueden mejorar la detección de objetos de una RNC-R al hacer un uso equilibrado de la detección y el seguimiento.

      Ahora, toda esta percepción automática del entorno urbano no solo ayudará a la seguridad del vehículo en movimiento, sino también a la seguridad de otros actores externos en dicho entorno. La detección constante y en tiempo real de automóviles, peatones, semáforos, etc. alrededor de un vehículo en movimiento podría ayudar a las acciones de conducción (paradas, giros, aceleraciones, etc.) dentro del vehículo que definitivamente eviten situaciones peligrosas.

      Pero queríamos ir un paso más allá e implementar una ayuda adicional dentro de esas acciones en la conducción. Girar el volante en un ángulo determinado en un momento particular también podría mejorar la seguridad evitando un control humano de la dirección del 100%.

      Implementamos una RNC basada en un "sistema de aprendizaje de principio a fin" que funcionaba con un buen rendimiento razonable y también con apenas errores para predecir el ángulo de un volante basado en la imagen de una carretera.

      Y como paso final en la implementación, hemos diseñado y desarrollado un automóvil totalmente eléctrico, basado en un antiguo Renault Twingo y adaptado para integrar nuestro "detector de objetos urbanos" y la "predicción de ángulo del volante de principio a fin". Esto nos permite poder estudiar una implementación real de nuestros sistemas en entornos urbanos reales.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno