Ir al contenido

Documat


Resumen de Real-time metric localisation with wearable vision systems

Daniel Gutierrez Gómez

  • Con el rápido desarrollo de la electrónica y la informática en los últimos años, las cámaras se han convertido en dispositivos omnipresentes en nuestra vida diaria, hasta tal extremo que hoy en día casi todo el mundo dispone de una en todo momento acoplada a su teléfono móvil. Lo que hace especialmente atractivas las cámaras para las personas es su capacidad para capturar rápidamente una gran cantidad de información del entorno codificada en una imagen o vídeo, lo que nos permite inmortalizar momentos especiales en nuestra vida o compartir en pocos segundos gran cantidad de información con otras personas. Sin embargo, mientras que la tarea de extraer la información de una imagen puede ser trivial para nosotros, en el caso de un computador se requieren algoritmos complejos con una alta carga computacional para transformar una imagen en información útil para la máquina.

    En este sentido, el mismo rápido desarrollo de la electrónica y la informática que permitió la universalización de las cámaras, ha permitido también la posibilidad de aplicación en tiempo real de algoritmos cada vez más complejos y potentes.

    Entre los campos de investigación actuales en la comunidad de visión por computador, esta tesis está particularmente involucrada con algoritmos de localización métrica y reconstrucción 3D. Estos algoritmos son un componente clave en muchas aplicaciones prácticas, tales como la navegación de robots, realidad aumentada 3D o la reconstrucción de modelos del entorno.

    El objetivo de esta tesis es profundizar en la localización visual y la reconstrucción del entorno a partir de sensores de visión, prestando especial atención tanto a cámaras convencionales como no convencionales que se pueden llevar o ser manejadas por una persona con facilidad. En esta tesis se aportan contribuciones en los siguientes aspectos de los procesos de odometría visual y SLAM (del inglés, Simultaneous Localisation and Mapping):

    SLAM monocular generalizado: Los algoritmos de SLAM actuales suelen estar diseñados para cámaras convencionales, que pueden ser modeladas por un modelo simple de cámara estenopeica pero cuyo campo de vista es bastante limitado. Sistemas de visión consistentes en la combinación de una cámara y un espejo de forma cónica, conocidas como cámaras catadióptricas, ofrecen un campo de vista mucho más amplio, pero a cambio requieren de un modelo de calibración más complejo, que generaliza la proyección de los sistema de proyección centrales. Nuestra propuesta en este área es la adaptación para cámaras catadióptricas de un SLAM monocular en tiempo real diseñado inicialmente para cámaras convencionales.

    Problema de escala en visión monocular: Un problema de los algoritmos de localización y reconstrucción con sistemas monoculares es su incapacidad de proporcionar la escala real del movimiento de la camara y el entorno observado. Para resolver este problema, se debe obtener información adicional, bien de sensores adicionales, bien conocida \textit{a priori}. Nuestra propuesta en este área es un algoritmo para estimar la escala, y además evitar la deriva en la misma, en un SLAM monocular realizado con una cámara portable, obteniendo la velocidad al andar del usuario a partir de su frecuencia de paso.

    Odometría densa RGB-D: Los algoritmos recientes para la estimación de la odometría a partir de cámaras RGB-D estiman el movimiento de la cámara por medio de una minimización pixel a pixel del error fotométrico y geométrico entre dos imágenes. Sin embargo, en muchos casos propiedades importantes del modelo de error del error de profundidad son ignoradas, lo que puede afectar a la precisión del cálculo de la odometría. En esta tesis proponemos un método para odometría con cámaras RGB-D que usa la profundidad inversa, cuya distribución de probabilidad es más cercana al modelo de error del sensor, para la parametrización del error geométrico, mejorando los resultados del estado del arte.

    Reconocimiento robusto de lugares: En SLAM visual un módulo de reconocimiento de lugares es un componente clave para la relocalización de la cámara cuando se pierde el seguimiento o para cerrar bucles en lugares revisitados. Sin embargo, en el reconocimiento de lugares se asume frecuentemente que la escena no sufre cambios entre dos visitas, lo cual puede ser fuente de fallos, afectando a la robustez de los algoritmos de reconocimiento de lugares. Nuestro trabajo en este área y en el contexto de sensores RGB-D propone descartar partes de la escena con una entropía alta en las normales de sus superficie para aumentar la robustez del reconocimiento de lugares frente a cambios a largo plazo en la escena.

    Optimización de grafos de localizaciones: En diferentes métodos de SLAM, la optimización de grafos de localizaciones es un enfoque usado frecuentemente para imponer restricciones de cerrado de bucle entre pares de localizaciones. Los problemas de grafos de localizaciones suelen mezclar rotación y traslación en la misma función de optimización. Dado que traslación y rotación se miden en unidades diferentes es necesario la normalización de estas variables, lo cual se puede realizar siempre de una manera rigurosa. También, parece innecesario tener que optimizar la orientación junto con la traslación, cuando el objetivo principal es deformar una curva que representa la trayectoria de la cámara. A partir de estas observaciones proponemos una reparametrización del problema de optimización de grafos, eliminado las orientaciones del vector a optimizar y haciendo posible la optimización solo de la posición de la cámara.


Fundación Dialnet

Mi Documat