Ir al contenido

Documat


Resumen de Deep learning for enhancing object detection in autonomous driving

Manuel Carranza García

  • español

    La conducción autónoma es uno de los retos tecnológicos más importantes de este siglo. Su desarrollo está destinado a revolucionar nuestra manera de entender la movilidad y a solventar numerosos problemas asociados a ella. Esta tecnología tiene un gran potencial para mejorar aspectos tan relevantes como la seguridad en la carretera, o la reducción del tráfico y la contaminación. A pesar de los recientes avances en inteligencia artificial, aún existen numerosos retos a resolver para que los vehículos autónomos lleguen a ser una realidad completamente fiable y segura. Entre ellos, la correcta percepción del entorno es fundamental. Los vehículos tienen que ser capaces de detectar los distintos elementos participantes del tráfico y anticipar sus movimientos de forma precisa, robusta, y en tiempo real, lo cual aumenta la complejidad del problema. En esta tesis doctoral, presentada por compendio de artículos, se exploran nuevos enfoques para mejorar los sistemas de percepción de los vehículos autónomos usando los datos que proporcionan los sensores a bordo. En concreto, se desarrollan nuevas técnicas de aprendizaje profundo (deep learning) para mejorar el rendimiento en la tarea de detección de objetos, abordando el problema desde distintas perspectivas. Los trabajos de investigación realizados utilizan datos reales de empresas de conducción autónoma como Waymo o Motional, los cuales han sido compartidos recientemente para que la comunidad investigadora pueda ayudar al progreso de esta tecnología. En primer lugar, se lleva a cabo una revisión experimental de detectores deep learning para el vehículo autónomo. En este trabajo se analiza el balance entre eficiencia y eficacia de treinta detectores distintos, lo cual es esencial en esta aplicación en tiempo real. Esto permite identificar los modelos más adecuados en este contexto, así como posibles líneas de investigación para mejorar el rendimiento. En segundo lugar, se diseña un detector específicamente adaptado a las particularidades de este escenario. Se desarrolla un método de optimización de anchors, basado en algoritmos evolutivos, que tiene en cuenta la perspectiva de las cámaras del vehículo. Además, se exploran distintas estrategias de aprendizaje para tratar el problema del desbalanceo entre las distintas clases de objetos, diseñando una nueva función de coste más efectiva y un modelo ensemble. Las modificaciones propuestas proporcionan una mejora significativa respecto a la configuración genérica por defecto, sin aumentar el coste computacional requerido en inferencia. En tercer lugar, se desarrolla una nueva arquitectura de fusión de datos de cámaras y sensores LiDAR para crear un sistema de detección más robusto. En concreto, se propone integrar dentro del detector una red neuronal eficiente que densifica de los mapas de profundidad LiDAR. Mediante aprendizaje por transferencia, se consigue mejorar la resolución de estos datos y obtener una fusión más efectiva con las imágenes RGB. Este método incrementa la precisión bajo condiciones de luminosidad muy diversas, especialmente de noche, respecto a otros enfoques que usan algoritmos clásicos para preprocesar las proyecciones LiDAR. Por último, se ha implementado un método para explotar la información temporal naturalmente presente en las secuencias de datos LiDAR recogidas por el vehículo. La propuesta añade una capa Transformer con un mecanismo de atención capaz de capturar las dependencias espacio-temporales en los datos, alcanzando así un mejor rendimiento en la detección de objetos.

  • English

    Autonomous driving is one of the most important technological challenges of this century. Its development will revolutionize mobility and solve many problems associated with it. The popularity of self-driving vehicles is growing, given their great potential to improve relevant aspects such as road safety or reducing traffic and pollution. Despite the recent advances in artificial intelligence, there are still many challenges to be solved for autonomous vehicles to become completely reliable and safe. Among them, the correct perception of the environment is fundamental. The vehicles have to detect the different elements involved in traffic and predict their movement precisely, robustly, and in real-time, which increases the complexity of the problem. In this Ph.D. dissertation, presented as a compendium of research articles, we explore new approaches to improve the perception systems of autonomous vehicles using onboard sensors’ data. Specifically, we develop novel deep learning techniques to enhance the performance in the object detection task, approaching the problem from different perspectives. The presented studies use real datasets from autonomous driving companies such asWaymo or Motional, which were recently shared to enable researchers to contribute to the progress of this technology. First, we conduct an experimental review of deep learning detectors for autonomous driving. This work analyzes the speed/accuracy trade-off of thirty different detectors, which is essential in this real-time application. This evaluation allows identifying the most suitable models in this context and possible lines of research to be addressed. Second, we design a detector that is specifically adapted to the particularities of this scenario. We develop a novel anchor optimization method, based on evolutionary algorithms, that considers the perspective of the vehicle’s cameras. Furthermore, different learning strategies are explored to deal with the class imbalance issues. For this purpose, we implement a more effective loss function for the network and an ensemble model. The proposed modifications provide a significant improvement compared to the default generic configuration without increasing the computational cost required in inference. Third, we develop an efficient RGB and LiDAR data fusion architecture to build a more robust detection system. Our proposal integrates a neural network for LiDAR depth completion into the detection pipeline. With this network, the resolution of depth data is improved using transfer learning, resulting in a more effective fusion with RGB images. The proposed method increases the detection precision under diverse lighting conditions, especially at night, compared to other approaches that use classical algorithms to upsample the sparse LiDAR projections. Finally, we implement an enhanced detection architecture to fully leverage the temporal information naturally present in the recorded LiDAR data. Our approach uses a Transformer layer with an attention mechanism that captures spatio-temporal dependencies in the sequential data, thus achieving better accuracy in object detection.


Fundación Dialnet

Mi Documat