Pablo Arias Martínez
En esta tesis abordamos dos problemas de interpolación de datos: inpainting de imágenes (usamos el término en inglés, ya que no existe en castellano un vocablo estándar para describir el problema) y edición de vídeo a partir de algunos fotogramas editados. Ambos problemas tratan el completado de la información en una región de la imagen o el vídeo, donde los datos faltan o se quieren sustituir.
Aunque ambos problemas están relacionados, los hemos atacado usando enfoques diferentes, por razones que explicaremos en breve. Como consecuencia, esta tesis está divida en dos partes que pueden leerse de forma independiente.
La primera parte esta dedicada al problema de inpainting de imágenes. El objetivo aquí es obtener una completación de una imagen visualmente plausible en una región en la que no se conocen los datos por una oclusión (o porque la imagen está dañada). El inpainting en una herramienta estándar en programas de edición profesional de imágen, con aplicaciones como quitar las manchas que provoca el polvo en el sensor de una máquina de fotos digital. En casos como este, el dominio de inpainting (la región a editar) es pequeño. Pero avances recientes en el campo, en particular con el desarrollo de los llamados métodos basados en ejemplares, permite modificaciones mayores, como quitar objetos enteros y completar la parte del fondo de la imagen ocluída por el objeto. Observar que el objetivo aquí no es recuperar el verdaro fondo sino crear uno que parezca natural a un observador humano.
Los métodos basados en ejemplares explotan la auto-similitud de las imagenes (la repetición aproximada de patrones de textura y geometría). Para completar el dominio de inpainting, buscan copiar fragmentos de la parte conocida de la imagen de forma que la composición resulte en una imagen coherente. El trabajo que presentamos en la primera parte de la tesis es un modelo variacional de este tipo de métodos, así como el análisis de varios aspectos vinculados al modelo y su implementación numérica.
La segunda parte de la tesis, trata del siguiente problema de edición de vídeo. Nos es dado (por un usuario) un vídeo en el cual la superficie visible de un objeto ha sido editada en uno o dos fotogramas (que supondremos el primero o el primero y el último). El objetivo es propagar esta edición a través del video. El resultado tiene que ser temporalmente y espacialmente consistente.
Consistencia temporal quiere decir que la edición debe respetar el movimiento de los objetos en la escena. Con consistencia espacial, nos referimos a que no haya discontinuidades en la frontera espacial del dominio de edición en cada fotograma. En caso de edición de imágenes, la consistencia espacial se logra manipulando los gradientes de la imagen, en lugar de manipular directamente el color. Los gradientes manipulados se integran resolviendo una ecuación de Poisson. Este procedimiento evita que se generen discontinuidades en la frontera del dominio de edición.
El problema que atacamos es cómo extender a vídeo, las técnicas de edición de imágenes en el dominio del gradiente. Para esto necesitamos propagar seguiendo el movimiento en el vídeo, la información codificada en los gradientes de los fotogramas editados. Este es un problema fundamental del procesamiento de vídeo, que es pieza constitutiva en varias aplicaciones. Presentamos un enfoque variacional al problema, con especial cuidado en su implementación numérica.
Si hay algo que ambas partes de la tesis tienen en común, es la idea de explotar la redundancia de una señal (imagen o vídeo) para interpolar datos faltantes en una región. Las diferencias en los enfoques surgen porque en cada caso, la principal fuente de redundancia es de distinta naturaleza. En el caso de vídeo, la principal fuente de redundancia es la continuidad temporal de los objetos que conforman el vídeo. Este tipo de redundancia permite una formulación local: dos imágenes de un píxel, en instantes sucesivos de su trayectoria, se tiene que parecer. Esta formulación local se modela de forma natural mediante operadores diferenciales locales, que dan lugar a PDEs de propagación o interpolación a lo largo de las trayectorias.
Por otro lado, en imágenes estáticas, la principal fuente de autosimilitud esta dada por la repetición de patrones en diferentes posiciones en la imagen. Estas posiciones pueden ser distantes entre sí, y por lo tanto no pueden modelarse con técnicas locales. Se necesitan técnicas no-locales que busquen en toda la imagen las piezas que puedan ensamblarse de forma coherente en el dominio de inpainting.
Publicaciones durante la tesis:
Sadek, R., Facciolo, G., Arias, P., Caselles, V., A variational model for gradient-based video editing. International Journal of Computer Vision, 2013; 103(1):127-162.
Arias, P., Caselles, V., Facciolo, G., Lazcano, V., Sadek, R., Nonlocal Variational Models for Inpainting and Interpolation. Mathematical Models in the Applied Sciences, 2012; 22(2).
Arias, P., Caselles, V., Facciolo, G., Analysis of a Variational Framework for Exemplar-Based Image Inpainting. Multiscale Model. Simul., 2012;10(2):473-514.
Arias, P., Facciolo, G., Caselles, V., Sapiro, G.. A Variational Framework for Exemplar-Based Image Inpainting. International Journal of Computer Vision, 2011; 93(3):319-347.
Arias, P., Caselles, V., Sapiro, G., A variational framework for non-local image inpainting. In: 7th International Conference on Energy Minimization Methods in Computer Vision and Pattern Recognition. Bonn: Springer Verlag LNCS; 2009.
Facciolo, G., Arias, P., Caselles, V., Sapiro, G., Exemplar-based interpolation of sparsely sampled images. In: 7th International Conference on Energy Minimization Methods in Computer Vision and Pattern Recognition EMMCVPR. Bonn: Springer Verlag LNCS; 2009.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados