Model-based deep learning approaches for multi-modal image super-resolution

Ivan Pereira Sánchez

Ayuda

Model-based deep learning approaches for multi-modal image super-resolution

Autores: Ivan Pereira Sánchez
Directores de la Tesis: Joan Duran Grimalt (dir. tes.) , Julia Navarro Oliver (dir. tes.)
Lectura: En la Universitat de les Illes Balears ( España ) en 2025
Idioma: inglés
Número de páginas: 182
Tribunal Calificador de la Tesis: Gabriele Facciolo (presid.) , Glòria Haro Ortega (secret.) , Panagiotis Agrafiotis (voc.)
Enlaces
- Tesis en acceso abierto en: RepositoriUIB
Resumen
- español
  En una imagen digital, el número de píxeles determina su resolución espacial. De manera análoga, la resolución espectral hace referencia al número de canales en que cada píxel recoge información sobre el espectro de la luz. Resoluciones espaciales o espectrales altas son esenciales para numerosas aplicaciones, como el análisis médico, la agricultura, la teledetección, la monitorización ambiental o la cartografía.
  
  Esta tesis se centra en el estudio de la superresolución de imágenes a partir de diferentes modalidades. En particular, se investigan la superresolución espacial, la fusión de imágenes por satélite, la superresolución guiada de imágenes del satélite Sentinel-2 y la superresolución espacial y espectral conjunta. En estos problemas, se adopta un marco de unfolding basado en modelos matemáticos que consiste en desplegar los esquemas iterativos obtenidos de formulaciones variacionales o algoritmos de retroproyección, sustituyendo los operadores por redes neuronales.
  
  La superresolución espacial implica reconstruir una imagen de alta resolución a partir de una observación de baja resolución. En este problema, se explora la autosimilitud de las imágenes dentro del modelo de observación, en lugar de su tradicional uso en el regularizador. Se propone un modelo variacional de restauración y, a continuación, se focaliza en el problema de superresolución para integrar el esquema iterativo en un marco de aprendizaje. En particular, se sustituye el componente no local por un módulo multi-head attention.
  
  La mayoría de satélites de observación terrestre capturan una imagen pancromática de alta resolución y una imagen multiespectral o hiperespectral de baja resolución. La fusión tiene como objetivo combinar el contenido espectral de esta última con los detalles espaciales de la primera. Se propone un modelo variacional que incorpora el modelo clásico de observación, una restricción que inyecta altas frecuencias y un regularizador genérico. En el marco de unfolding, se diseñan capas de upsampling y downsampling que aprovechan la información de la pancromática. Además, se combinan capas de atención con redes residuales para captar autosimilitudes mediante operadores no locales.
  
  Posteriormente, nos centramos en la superresolución de imágenes del satélite Sentinel-2. En particular, tratamos de aumentar la resolución de las bandas de 20m para que coincida con la de 10m mediante superresolución guiada. Se propone un modelo de unfolding basado en un algoritmo de retroproyección que integra un operador no local junto con el núcleo de convergencia. Adicionalmente, se introduce un procedimiento de aprendizaje basado en clústeres que genera la imagen guía a partir de la información de las bandas de 10m.
  
  Finalmente, la superresolución espacial y espectral conjunta consiste en reconstruir una imagen con alta resolución en ambos dominios a partir de una imagen con resoluciones inferiores. El problema se descompone en superresolución espacial, superresolución espectral y fusión. Cada tarea se aborda desplegando una formulación variacional con términos específicos de fidelidad y un regularizador genérico. Se adopta un único paso de retroproyección para diseñar el operador de upsampling espacial. Para el upsampling y downsampling espectrales, se divide la imagen en clústeres mediante un módulo entrenable, y se aplica un perceptrón multicapa para calcular las transformaciones de cada clúster. Para la fusión, el modelo inyecta la geometría de la imagen espacialmente mejorada en el resultado. También se propone un módulo de post-procesamiento que aprovecha la autosimilitud de las imágenes.
  
  Todos los enfoques propuestos combinan la flexibilidad e interpretabilidad de la modelización matemática con la capacidad del aprendizaje profundo para captar la estructura intrínseca de las imágenes a partir de los datos de entrenamiento. Además, el aprovechamiento de la autosimilitud mediante los mecanismos de atención permite a los modelos codificar de manera efectiva las dependencias no locales. Experimentos exhaustivos demuestran que los métodos propuestos son competitivos y consiguen resultados de vanguardia.
- English
  In a digital image, the total number of pixels determines its spatial resolution. Similarly, spectral resolution refers to the number of bands in which each pixel gathers information about the light spectrum of the captured scene. High spatial and/or spectral resolutions are essential for numerous applications, such as medical analysis, agriculture, remote sensing, environmental monitoring, change detection, or cartography.
  
  This thesis focuses on the study of image super-resolution given diverse image modalities. In particular, we investigate the problems of spatial super-resolution, satellite image fusion, guided image super-resolution of Sentinel-2 satellite imagery, and joint spatio-spectral super-resolution. For all these problems, we adopt a model-based deep unfolding framework built upon either a variational formulation or a back-projection algorithm. This consists of replacing certain operators and steps of the resulting iterative schemes with specifically tailored neural networks.
  
  Spatial super-resolution involves reconstructing a high-resolution image from a low-resolution observation. For this problem, we explore the suitability of exploiting the self-similarity of natural images within the observation model, rather than its traditional use in the prior regularizer. We propose a variational model for a general restoration task, and then focus on the super-resolution problem to unfold the iterative scheme and embed it into a learning-based framework. Specifically, we replace the core operators with neural networks and the nonlocal component with a multi-head attention module.
  
  Most Earth observation satellites capture a high-resolution panchromatic image and a low-resolution multispectral or hyperspectral image. Satellite image fusion aims to combine the rich spectral content of the latter with the fine spatial details of the former into a single enhanced image. We propose an unfolded approach relying on a variational formulation that incorporates the classic observation model, a high-frequency injection constraint, and a general prior. For the learning-based framework, we design upsampling and downsampling layers that leverage the geometric information of the panchromatic image. In addition, we combine multi-head attention layers with residual networks to capture image self-similarities using nonlocal patch-based operators.
  
  Next, we concentrate on the super-resolution of Sentinel-2 satellite images. In particular, we address the problem of increasing the resolution of the 20m bands to match that of the 10m bands through guided super-resolution. We propose an unfolded model based on a back-projection algorithm that integrates a nonlocal operator along with the convergence kernel. Additionally, we introduce a cluster-based learning procedure that generates the guiding image by extracting the geometric information encoded in the 10m bands.
  
  Finally, joint spatio-spectral super-resolution consists of reconstructing an image with high spatial and spectral resolutions from an observation with lower resolution in both domains. We decompose the problem into spatial super-resolution, spectral super-resolution, and image fusion. Each task is addressed by unfolding a variational formulation with specific data-fidelity terms and a general regularizer. We adopt a single step of classical back-projection to design the learning-based spatial upsampling operator. For spectral upsampling and downsampling, we divide the image into clusters using a learnable module, and apply a multi-layer perceptron with tailored weights to compute the transformations for each cluster. For image fusion, our model injects the geometry of the spatially-upsampled image into the fused product. Also, we propose a post-processing module that leverages image self-similarities.
  
  All proposed approaches combine the flexibility and interpretability of mathematical modeling with the capability of deep learning to capture the geometry and intrinsic structure of images directly from training data. In addition, exploiting image self-similarities through the proposed attention mechanisms enables the models to effectively encode nonlocal dependencies. Exhaustive experiments and comparisons demonstrate that the proposed methods are competitive with existing approaches and achieve state-of-the-art results across the addressed problems.
- català
  En una imatge digital, el nombre de píxels determina la seva resolució espacial. De manera anàloga, la resolució espectral fa referència al nombre de canals en què cada píxel recull informació sobre l'espectre de la llum. Resolucions espacials o espectrals altes són essencials per a nombroses aplicacions, com ara l'anàlisi mèdica, l'agricultura, la teledetecció, el monitoratge ambiental o la cartografia.
  
  Aquesta tesi se centra en l'estudi de la superresolució d'imatges a partir de diferents modalitats. En particular, s'investiguen la superresolució espacial, la fusió d'imatges per satèl·lit, la superresolució guiada d'imatges del satèl·lit Sentinel-2 i la superresolució espacial i espectral conjunta. Per a tots aquests problemes, s'adopta un marc d'unfolding basat en models matemàtics que consisteix a desplegar els esquemes iteratius obtinguts a partir de formulacions variacionals o algorismes de retroprojecció, substituint certs operadors per xarxes neuronals específicament dissenyades.
  
  La superresolució espacial implica reconstruir una imatge d'alta resolució a partir d'una observació de baixa resolució. En aquest problema, s'explora la conveniència d'aprofitar l'autosimilitud de les imatges dins del model d'observació, en lloc del seu tradicional ús en el regularitzador. Es proposa un model variacional de restauració i, tot seguit, es focalitza en el problema de superresolució per integrar l'esquema iteratiu en un marc d'aprenentatge. Concretament, se substitueixen els operadors per xarxes neuronals i el component no local per un mòdul multi-head attention.
  
  La majoria dels satèl·lits d'observació terrestre capturen una imatge pancromàtica d'alta resolució i una imatge multiespectral o hiperespectral de baixa resolució. La fusió té com a objectiu combinar el ric contingut espectral d'aquesta última amb els detalls espacials de la primera en una única imatge millorada. Es proposa un model variacional que incorpora el model clàssic d'observació, una restricció que injecta altes freqüències i un regularitzador genèric. Per al marc d'unfolding, es dissenyen capes d'upsampling i downsampling que aprofiten la informació de la imatge pancromàtica. A més, es combinen capes d'atenció amb xarxes residuals per captar autosimilituds mitjançant operadors no locals.
  
  Posteriorment, ens concentram en la superresolució d'imatges produïdes pel satèl·lit Sentinel-2. En particular, es tracta el problema d'augmentar la resolució de les bandes de 20m per tal que coincideixi amb la de les bandes de 10m mitjançant superresolució guiada. Es proposa un model d'unfolding basat en un algorisme de retroprojecció que integra un operador no local juntament amb el nucli de convergència. Addicionalment, s'introdueix un procediment d'aprenentatge basat en clústers que genera la imatge guia a partir de l'extracció de la informació de les bandes de 10m.
  
  Finalment, la superresolució espacial i espectral conjunta consisteix en reconstruir una imatge amb alta resolució en ambdós dominis a partir d'una imatge amb resolucions inferiors. El problema es descompon en superresolució espacial, superresolució espectral i fusió. Cada tasca s'aborda desplegant una formulació variacional amb termes específics de fidelitat i un regularitzador ge-neral. S'adopta un únic pas de retroprojecció clàssica per dissenyar l'operador d'upsampling espacial. Per a l'upsampling i downsampling espectrals, es divideix la imatge en clústers mitjançant un mòdul entrenable, i s'aplica un perceptró multicapa amb pesos específics per calcular les transformacions de cada clúster. Per a la fusió, el model injecta la geometria de la imatge espacialment millorada en el producte fusionat. També es proposa un mòdul de postprocessament que aprofita l'autosimilitud de les imatges.
  
  Tots els enfocaments proposats combinen la flexibilitat i interpretabilitat de la modelització matemàtica amb la capacitat de l'aprenentatge profund per captar l'estructura intrínseca de les imatges a partir de les dades d'entrenament. A més, l'aprofitament de l'autosimilitud mitjançant els mecanismes d'atenció permet als models codificar de manera efectiva les dependències no locals. Experiments exhaustius demostren que els mètodes proposats són competitius i aconsegueixen resultats d'avantguarda.