Ir al contenido

Documat


Resumen de Viewpoint invariant features and robust monocular Camera pose estimation

Luis Ferraz Colomina

  • La pose de la càmera respecte a una escena del món real determina la projecció perspectiva de l'escena sobre el pla imatge. L'anàlisi de les deformacions entre parelles d'imatges degudes a la perspectiva i la pose de la càmera han portat a molts investigadors en Visió per Computador a tractar amb problemes com, la capacitat per detectar i buscar coincidències de les mateixes característiques locals a diferents imatges o recuperar per cada imatge la pose original de la càmera. La diferencia entre els dos problemes recau en la localitat de la informació que es mostra a la imatge, mentre en el cas de les característiques es busca la invariància local, per al cas de la pose de la càmera es busquen fonts d'informació més global, com ara conjunts de característiques locals. La detecció de característiques locals és una peça clau per un ampli rang d'aplicacions de Visió per Computador donat que permet buscar coincidències i localitzar regions específiques de la imatge. A la primera part d'aquest treball la invariància de les característiques és abordada proposant algoritmes per millorar la robustesa a les pertorbacions de la imatge, canvis de perspectiva i poder de discriminació des de dos punts de vista: (i) detecció precisa de cantonades i taques a les imatges evitant redundàncies mitjançant el seu moviment a través de diferents escales, i (ii) aprenentatge de descriptors robustos. Concretament, proposem tres detectors invariants a escala on un d'ells detecta cantonades i taques simultàniament amb un increment de la càrrega computacional insignificant. També proposem un detector invariant afí de taques. Sobre descriptors, proposem aprendre'ls mitjançant xarxes neurals de convolució i grans conjunts de regions d'imatges anotades sota diferents condicions. Malgrat que és un tema investigat durant dècades, l'estimació de la pose de la càmera encara és un repte. L'objectiu dels algorismes de Perspective-n-Point (PnP) és estimar la localització i orientació d'una càmera calibrada a partir de n correspondències 3D-a-2D conegudes entre un prèviament conegut model 3D d'una escena real i característiques 2D obtingudes d'una única imatge. A la segona part d'aquesta tesi l'estimació de la pose de la càmera és adreçada amb nous mètodes de PnP, els quals redueixen dràsticament el cost computacional permetent aplicacions en temps real independentment del nombre de correspondències. A més, proporcionem un mecanisme integrat de rebuig de correspondències incorrectes amb una càrrega computacional insignificant i un nou mètode per incrementar la precisió que modela l'error de reprojecció de cada correspondència. A escenaris complexos i grans, amb potser centenars de milers de característiques, és difícil i computacionalment car trobar correspondències correctes. En aquest cas, proposem un mètode robust i precís per estimar la pose de la càmera. El nostre mètode s'aprofita de classificadors d'alt nivell, que estimen la pose de la càmera de manera poc precisa, per tal de restringir les correspondències a ser utilitzades pels nostres precisos algorismes de PnP.


Fundación Dialnet

Mi Documat