Design and implementation of end-to-end deep neural network architectures for autonomous driving

Leanne Rebecca Miller Hayhurst

Ayuda

Design and implementation of end-to-end deep neural network architectures for autonomous driving

Autores: Leanne Rebecca Miller Hayhurst
Directores de la Tesis: Pedro Javier Navarro Lorente (dir. tes.) , María Francisca Rosique Contreras (codir. tes.) , Juan Suardíaz Muro (tut. tes.)
Lectura: En la Universidad Politécnica de Cartagena ( España ) en 2025
Idioma: inglés
Número de páginas: 121
Títulos paralelos:
- Diseño e implementación de arquitecturas de redes neuronales profundas end-to-end para la conducción autónoma
Tribunal Calificador de la Tesis: Bárbara Álvarez Torres (presid.) , José María Armingol Moreno (secret.) , Pedro Miguel Núñez Trujillo (voc.)
Enlaces
- Tesis en acceso abierto en: Repositorio Digital de la UPCT
Resumen
- español
  Esta tesis presenta el diseño e implementación de arquitecturas end-to-end de redes neuronales profundas para la predicción de variables de control de vehículos autónomos. Dada la complejidad de las tareas de conducción, el mapeo directo de datos de sensores a comandos de control mediante arquitecturas end-to-end representa un enfoque innovador. Esta investigación tiene como finalidad desarrollar arquitecturas de aprendizaje profundo capaces de predecir con precisión el ángulo de giro y la velocidad del vehículo utilizando directamente los datos de los sensores.
  
  Para ello, se ha realizado una revisión bibliográfica de las arquitecturas end-to-end existentes y un estudio de los conjuntos de datos de conducción. Se recopiló un conjunto de datos reales utilizando el UPCT-CICar, un vehículo autónomo equipado con múltiples sensores. Este conjunto de datos sirvió como base para el entrenamiento y evaluación de las arquitecturas propuestas.
  
  Se diseñaron varias arquitecturas de redes neuronales convolucionales, optimizando hiperparámetros como la profundidad de las redes y la configuración de las capas convolucionales. Los resultados demostraron que la integración de datos de imagen y de velocidad angular como entrada fusionada mejora significativamente la precisión de las predicciones, demostrando la efectividad de la fusión de datos multimodales para mejorar el rendimiento de las arquitecturas end-to-end.
  
  Además, se generó un conjunto de datos sintéticos mediante el simulador de conducción CARLA, para obtener datos con una gran variedad de condiciones, incluyendo distintos estados meteorológicos y escenarios de tráfico. Las arquitecturas fueron entrenadas y evaluadas con el conjunto de datos sintético, y los resultados se compararon con los obtenidos usando los datos reales.
  
  Para estudiar la brecha entre los dominios sintético y real, se exploraron técnicas de adaptación de dominio. Se diseñaron e implementaron arquitecturas end-to-end utilizando como base la arquitectura EfficientNet. Se observó que las arquitecturas preentrenadas con el conjunto de datos sintético y posteriormente ajustadas con datos reales alcanzaban una convergencia más rápida y con una mayor eficiencia. Sin embargo, a pesar de estas ventajas, las arquitecturas entrenadas exclusivamente con datos reales obtuvieron mejores resultados que aquellas entrenadas con datos sintéticos.
  
  Los resultados obtenidos se compararon con estudios similares, y demuestran que las arquitecturas end-to-end son capaces de predecir eficazmente los comandos de control del vehículo a partir de datos en bruto de sensores. El uso de conjuntos de datos reales y sintéticos, combinada con estrategias de fusión de sensores y aprendizaje por transferencia, ha demostrado mejoras significativas en el rendimiento y la eficiencia de las arquitecturas. En conclusión, esta tesis demuestra las ventajas del uso de redes neuronales end-to-end para automatizar tareas de conducción autónoma, resaltando consideraciones importantes de diseño y líneas de investigación futura orientadas a mejorar la generalización y eficiencia de las arquitecturas.
- English
  This thesis presents the design and implementation of end-to-end deep neural network architectures for predicting vehicle control variables in autonomous driving. Given the complexity of driving tasks, direct sensor-to-control mapping using end-to-end architectures presents a promising approach. This research aims to develop effective and efficient deep learning architectures capable of accurately predicting steering angles and vehicle speed using raw sensor data. For this purpose, a thorough review of existing end-to-end neural network architectures and data fusion techniques was conducted, as well as a study of the existing driving datasets available. A real-world dataset was collected using the UPCT-CICar, a specially designed autonomous vehicle platform equipped with multiple sensors. This dataset served as the foundation for training and testing the proposed architectures. Various deep convolutional neural network architectures were designed, optimising network hyperparameters such as kernel sizes, network depths, and convolutional layer configurations. Experimental results demonstrated that the integration of image data and angular velocity as a fused input modality significantly improved the accuracy of the predictions, proving the effectiveness of multimodal data fusion in enhancing the performance of end-to-end architectures. Additionally, a synthetic dataset was generated using the CARLA driving simulator to obtain data from a variety of driving conditions, including a wide range of weather and traffic scenarios. The architectures were trained and tested with the synthetic dataset and the results were compared to those obtained with the real-world data. To address the challenges presented by the domain gap between synthetic and real-world datasets, transfer learning and domain adaptation techniques were explored and end-to-end architectures were designed and implemented using an EfficientNet backbone. It was found that architectures pretrained on the synthetic dataset and subsequently fine-tuned with the real-world dataset achieved faster convergence and improved training efficiency. However, despite these benefits, architectures trained exclusively with real-world data outperformed those trained with synthetic data. The results obtained were compared with similar studies and show that end-to-end deep neural network architectures are capable of effectively predicting vehicle control commands from raw sensor data. The use of real and synthetic datasets, combined with sensor fusion and transfer learning strategies, has led to significant improvements in architecture performance and computational efficiency. Overall, this thesis demonstrates the advantages of using end-to-end deep neural networks to perform autonomous driving tasks, highlighting important design considerations and future research directions for enhancing architecture generalisability and efficiency.