Ir al contenido

Documat


Resumen de Contributions to camera pose estimation and three-dimensional reconstruction

Sergio Garrido Jurado

  • 1. Introducción o motivación de la tesis La estimación de la pose de la cámara [1] consiste en determinar la transformación 3D necesaria para mover un punto de la escena del sistema de coordenadas global al sistema de coordenadas de la cámara. Este es un paso fundamental en muchas aplicaciones de visión artificial tales como navegación de robots, realidad aumentada o reconstrucción 3D.

    Este proceso está compuesto por dos pasos, primero se extraen corresponedencias entre puntos del entorno y su proyección en la imagen utilizando técnicas de procesamiento de imágenes. A continuación, estas correspondencias son empleadas para estimar la pose mediante la minimización de una función de coste, generalmente el error de reproyección basado en el modelo pinhole.

    Esta tesis se centra en dos casos específicos relacionados con estimación de la pose: - Estimación de la pose utilizando marcadores sintéticos.

    - Estimación de la pose en sistemas de luz estructurada multivista para reconstrucción 3D.

    Los marcadores sintéticos son objetos artificiales que son colocados en la escena y que están especialmente diseñados para facilitar la detección de correspondencias. Entre los distintos tipos de marcadores, los marcadores cuadrados [2-4] han adquirido una gran repercusión debido a que su detección es rápida y robusta, y un único marcador proporciona las cuatro correspondencias necesarias para la estimación de la pose. Estos marcadores están compuestos por un borde negro y un patrón interno para su identificación, generalmente un patrón binario.

    Un aspecto fundamental de estos marcadores es la inter-marker distance, que es la distancia Hamming mínima entre los códigos binarios de los marcadores y que está directamente relacionada con la capacidad de corrección ante errores y, por tanto, con la robustez de la detección. La mayoría de los trabajos relacionados proponen su propio conjunto de marcadores con un número de marcadores y de bits predefinido, y por tanto una inter-marker distance constante. Sin embargo es preferible crear diccionarios personalizados que maximicen este parámetro. A pesar de ello existen pocos trabajos que exploren esta alternativa y ninguno asegura resultados óptimos.

    Los sistemas de luz estructurada [5] son una de las técnicas más populares para reconstrucción 3D ya que permiten obtener mediciones precisas con un coste reducido. El caso más simple está compuesto por una cámara y un proyector pero está limitado al campo de visión de éstos, por lo que no permite escanear áreas de gran tamaño. Una posible alternative es el uso de sistemas de luz estructurada multivista que se basan en emplear varias cámaras y proyectores, lo que permite abarcar un área mayor.

    Sin embargo, la calibración de estos sistemas es un proceso complejo y tedioso que normalmente requiere de intervención manual [6], equipamiento especial [7] o está limitada a condiciones específicas [8-9] tales como una distribución especial o un número máximo de dispositivos.

    2. Contenido de la investigación En esta tesis se presentan varias contribuciones relacionadas con la estimación automática de la pose de la cámara.

    Con respecto con la estimación utilizando marcadores sintéticos se han presentado las siguientes contribuciones:

    En primer lugar, se han propuesto tres nuevos métodos para la generación de diccionarios de marcadores personalizados para cualquier número de marcadores o bits. El primer método es una técnica heurística basada en los marcadores previamente generados y en el número de transiciones binarias [10]. Los otros dos métodos [11] están basados en el paradigma de programación lineal entera mixta (MILP), siendo una de ellas la primera técnica en la literatura que garantiza resultados óptimos en términos de inter-marker distance. Desgraciadamente, esta técnica tiene un alto coste computacional y solo puede emplearse para un número reducido de marcadores. Como alternativa, el segundo método basado en MILP obtiene resultados subóptimos que mejoran notablemente las alternativas de la literatura pero sin las limitaciones computacionales del método óptimo. Además, como parte del proceso, se ha derivado de forma teórica la inter-marker distance máxima basada en el número de bits.

    En segundo lugar, se ha presentado un sistema de marcadores sintéticos que detecta marcadores en imágenes de forma automática e incluye corrección de errores basándose en los diccionarios generados en las anteriores propuestas. Este sistema está disponible de forma pública como el proyecto de código abierto ArUco.

    En tercer lugar, se ha propuesto un nuevo método para tratar el problema de la oclusión en aplicaciones de realidad aumentada [12] específicamente diseñado para marcadores cuadrados y basado en segmentación por color.

    En relación con la estimación de la pose en sistemas de luz estructurada multivista se ha presentado un nuevo método para la reconstrucción 3D y la estimación de la pose de forma simultánea [13]. El método propuesto no presenta las limitaciones de las alternativas existentes en la literatura. Esta técnica se basa en un proceso iterativo que emplea las correspondencias entre los distintos dispositivos obtenidos de las proyecciones estándar de luz estructurada. El orden óptimo de los dispositivos se obtiene a partir de un modelo MILP.

    3. Conclusión La estimación de la pose de la cámara es un paso fundamental en numerosas aplicaciones de visión por computador. Esta tesis se ha enfocado en dos situaciones específicas donde la estimación de la pose tiene especial relevancia.

    En relación con la estimación de la pose usando marcadores sintéticos:

    - Se han propuesto tres nuevos métodos para la generación de la codificación binaria de este tipo de marcadores. Esta nueva codificación permite una detección más robusta en comparación con las alternativas existentes en la literatura. Además, una de las propuestas asegura, por primera vez, resultados óptimos en términos de inter-marker distance.

    - Se ha derivado de forma teórica la máxima inter-marker distance para marcadores con un número específico de bits. Este valor se utiliza como referencia en los métodos de generación de diccionarios y puede servir como referencia en trabajos futuros.

    - Se ha presentado un sistema para la detección e identificación de los marcadores generados con los métodos propuestos.

    - Basándose en el sistema anterior, se ha propuesto un nuevo método para tratar con el problema de la oclusión en aplicaciones de realidad aumentada basado en segmentación por color.

    Como conclusión adicional, se puede señalar que los logros conseguidos en esta tesis relacionados con marcadores sintéticos han sido publicados como parte de la librería de código abierto ArUco. Estas contribuciones se están aplicando actualmente en un amplio número de aplicaciones, tanto en el ámbito de la investigación como en el comercial. Además, en 2015, el autor de esta tesis desarrolló el módulo de ArUco para la conocida librería de visión por computador OpenCV [14], como parte del programa Google Summer of Code.

    En relación con las contribuciones para estimación de la pose en sistemas de luz estructurada multivista:

    - Se ha presentado un sistema completo para calibración y reconstrucción 3D simultánea que no presenta las restricciones de los métodos anteriores de la literatura.

    - Como parte del proceso, se ha presentado un modelo MILP que determina el orden óptimo de los dispositivos durante el proceso iterativo. Este modelo puede ser de utilidad para aplicaciones futuras relacionadas.

    4. Bibliografía [1] R. I. Hartley and A. Zisserman. Multiple View Geometry in Computer Vision. Cambridge University Press, ISBN: 0521540518, second edition, 2004.

    [2] Hirokazu Kato and Mark Billinghurst. Marker tracking and HMD calibration for a video-based augmented reality conferencing system. In Proceedings of the 2nd IEEE and ACM International Workshop on Augmented Reality, IWAR ’99, pages 85–94, 1999.

    [3] Mark Fiala. Designing highly reliable fiducial markers. IEEE Trans. Pattern Anal. Mach. Intell., 32(7):1317–1324, 2010.

    [4] Edwin Olson. AprilTag: A robust and flexible visual fiducial system. In Proceed-ings of the IEEE International Conference on Robotics and Automation (ICRA), pages 3400–3407. IEEE, May 2011.

    [5] Robert J Valkenburg and Alan M McIvor. Accurate 3d measurement using a structured light system. Image and Vision Computing, 16(2):99–110, 1998.

    [6] Andreas Griesser and Luc Van Gool. Automatic Interactive Calibration of Multi- Projector-Camera Systems. 2006 Conference on Computer Vision and Pattern Recognition Workshop CVPRW06, 00(c):8–8, 2006.

    [7] R.R. Garcia and A Zakhor. Geometric calibration for a multi-camera-projector system. In Applications of Computer Vision (WACV), 2013 IEEE Workshop on, pages 467–474, Jan 2013.

    [8] Y. Li and S.K. Lee. Stratified self-calibration and metric reconstruction of a trinocular structured light vision system. In 3-D Digital Imaging and Modeling, 2007. 3DIM ’07. Sixth International Conference on, pages 328–336, Aug 2007.

    [9] Daniel G. Aliaga and Yi Xu. A self-calibrating method for photogeometric acquisition of 3d objects. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 32(4):747–754, April 2010.

    [10] S. Garrido-Jurado, R. Muñoz Salinas, F.J. Madrid-Cuevas, and M.J. Marín-Jiménez. Automatic generation and detection of highly reliable fiducial markers under occlusion. Pattern Recognition, 47(6):2280 – 2292, 2014.

    [11] S. Garrido-Jurado, R. Muñoz Salinas, F.J. Madrid-Cuevas, and R. Medina- Carnicer. Generation of fiducial marker dictionaries using mixed integer linear programming. Pattern Recognition, 51:481 – 491, 2016.

    [12] Ernst Kruijff, J Edward Swan II, and Steven Feiner. Perceptual issues in aug-mented reality revisited. In ISMAR, volume 9, pages 3–12, 2010.

    [13] S. Garrido-Jurado, R. Muñoz Salinas, F.J. Madrid-Cuevas, and M.J. Marín- Jiménez. Simultaneous reconstruction and calibration for multi-view structured light scanning. J. Vis. Comun. Image Represent., 39(C):120–131, August 2016.

    [14] Gary Bradski and Adrian Kaehler. Learning OpenCV: Computer Vision with the OpenCV Library. O’Reilly, Cambridge, MA, 2008.


Fundación Dialnet

Mi Documat