Ir al contenido

Documat


Resumen de Detection and segmentation of images with synthetic data

Roberto Alcover Couso

  • En esta tesis presentamos contribuciones en el campo de segmentación semántica con un foco en el uso de datos sintéticos para entrenar modelos robustos y generalizables para su aplicación. Nuestra investigación explora múltiples aproximaciones, incluyendo combinaciones de modelos, funciones de pérdida y algoritmos diseñados para aliviar los costes de entreno en términos de recursos computacionales y de datos. Además, nos centramos en problemas intrínsecos de segmentación semántica como desbalanceo de clases, robustez de modelos y generalización a objetos no vistos durante entreno. La tesis se organiza en tres principales áreas de contribución. En primer lugar, proponemos técnicas para reducir los costes computacionales en el entrenamiento de modelos de segmentación semántica. Introducimos una estrategia de etiquetado suave que optimiza el rendimiento del modelo a resoluciones reducidas, logrando resultados comparables al estado del arte, pero con un uso significativamente menor de recursos. En segundo lugar, abordamos los requisitos de datos mediante el uso de datos sintéticos, presentando métodos para entrenar modelos con acceso limitado o nulo a datos reales etiquetados. Esto incluye soluciones para mitigar el desbalanceo de clases mediante el uso de ponderación adaptativa, mejorando significativamente la precisión del modelo incluso sin datos del mundo real. Finalmente, abordamos el problema inherente al entrenamiento con datos sintéticos: predicciones de baja entropía, incluso para categorías de objetos no vistas durante el entrenamiento. Este comportamiento compromete la fiabilidad de los modelos en entornos reales, donde se espera cierta incertidumbre. Para resolver esta limitación, proponemos el primer marco de adaptación de dominio no supervisado que permite a los modelos generalizar a clases no vistas. Al integrar modelos de visión-lenguaje con datos sintéticos, superamos los resultados de referencia anteriores, reduciendo a su vez la dependencia de grandes conjuntos de datos etiquetados. Los métodos propuestos son validados mediante una exhaustiva experimentación en múltiples conjuntos de datos, demostrando un rendimiento superior a las aproximaciones existentes tanto en segmentación semántica como panóptica. Esta investigación abre el camino hacia un entrenamiento más accesible, eficaz y flexible de modelos, contribuyendo al futuro de las aplicaciones que dependen del razonamiento visual. Todos los codigos estan disponibles en GitHub


Fundación Dialnet

Mi Documat