Preprocessing Techniques for more Robust Deep Learning Models: Application to Biomedical and Satellite Images

Yassir Benhammou

Ayuda

Preprocessing Techniques for more Robust Deep Learning Models: Application to Biomedical and Satellite Images

Autores: Yassir Benhammou
Directores de la Tesis: Siham Tabik (codir. tes.) , Boujemâa Achchab (codir. tes.)
Lectura: En la Universidad de Granada ( España ) en 2022
Idioma: inglés
ISBN: 9788411176781
Número de páginas: 152
Tribunal Calificador de la Tesis: El Hassan Essoufi (presid.) , Pablo Mesejo Santiago (secret.) , Rafik Lasri (voc.) , Hamid Hrimech (voc.) , Lamia Karim (voc.)
Enlaces
- Tesis en acceso abierto en: DIGIBUG
Resumen
- español
  La visión por ordenador (CV) es un campo de la Inteligencia Artificial (AI) que replica la capacidad de los ojos y el cerebro humanos para percibir imágenes y comprenderlas. Los modelos de aprendizaje profundo (DL) y, en especial, las redes neuronales convolucionales (CNNs) se han convertido en el estado del arte en las tareas más complejas de CV. Estos modelos aprenden automáticamente a tomar decisiones en función de los datos sin necesidad de ser programados explícitamente para ello, como ocurre en los coches autoconducidos o en los sistemas de reconocimiento facial de los smartphones. Las CNNs consisten en un gran cantidad de redes neuronales artificiales (ANNs) interconectadas con parámetros entrenables inspirados de la forma en que las neuronas del cerebro humano aprenden y se transmiten conocimientos. Por lo tanto, entrenarlas para una tarea específica requiere un gran cantidad de imágenes cuidadosamente anotadas. Sin embargo, para problemas complejos, como los que se abordan en esta tesis, la creación de datos de entrenamiento de alta calidad es muy cara y requiere un alto nivel de experiencia. Para superar estas limitaciones, las principales técnicas adoptadas en la literatura son el preprocesamiento de datos y el aprendizaje por transferencia (TL). En este ´ultimo, las CNNs se preentrenan primero en grandes conjuntos de datos de imágenes naturales como ImageNet, y luego se reentrenan en datos del dominio de destino. Por su parte, el preprocesamiento de datos implica todas las transformaciones aplicadas a los datos para mejorar su tamaño y valor. En esta tesis, propusimos técnicas de preprocesamiento para mejorar la robustez de modelos DL en dos aplicaciones complejas: la clasificación de imágenes biomédicas y de satélite. En la primera aplicación, combinamos la CNN de última generación, los métodos de preprocesamiento y de aprendizaje de transferencia más adecuados con el conjunto de datos de referencia utilizado en ese problema llamado BreakHis, para elaborar un sistema automático ideal para el diagnóstico del cáncer de mama tanto desde el punto de vista clínico como técnico. Y nuestro análisis ha demostrado que la complejidad de este problema relacionada con la calidad de sus datos y su anotación, afecta enormemente al rendimiento del modelo DL entrenado incluso en un enfoque metodológico bien construido. En el segundo caso, entrenamos modelos DL con nuestro propio conjunto de datos para la clasificación automática del uso y la cobertura del suelo (LULC). Hasta donde sabemos, el conjunto de datos que propusimos, llamado Sentinel2LULC, es el mayor conjunto de datos global de imágenes de satélite de alta resolución y gratuitas adaptado para el uso de DL. Este conjunto de datos fue cuidadosamente construido utilizando la gran cantidad de datos de teledeteccón disponibles hoy en plataformas gratuitas como Google Earth Engine (GEE) y una metodología cuidadosamente diseñada para transformar todos estos datos en un conjunto de datos de alto valor. El análisis experimental con los modelos DL en este segundo escenario ha logrado resultados muy prometedores y ha demostrado la importancia de la calidad de datos. La conclusión particular en cada uno de estos estudios nos permitió construir nuestra conclusión principal de esta tesis: incluso cuando se adoptan y combinan los modelos y métodos más avanzados, la calidad de los datos sigue siendo el factor clave para alcanzar un buen rendimiento en tareas complejas de CV.
- English
  Computer Vision (CV) is an Artificial Intelligence (AI) field that replicate the human eyes and brain’s ability in perceiving images and understanding them. Deep learning (DL) models and especially Convolutional Neural Networks (CNNs) have become the state-of-the-art in most complex CV tasks. These models learn automatically to take decisions based on imagery data without being explicitly programmed for this purpose as it is the case in self-driving cars or smartphones face recognition systems. CNNs consist in a huge number of interconnected Artificial Neural Networks (ANNs) with trainable parameters widely inspired from the way the human brain neurons learn and transmit knowledge to each other. Hence, training them for a specific task requires a large number of carefully annotated images. However, for complex problems, such as those addressed in this thesis, creating high quality training datasets is very expensive, requires a high level of expertise and a huge amount of work. To overcome these limitations, the main adopted techniques in the literature are data preprocessing and Transfer Learning (TL). In the latter, CNNs are firstly pretrained on available large natural images datasets such as ImageNet, then retrained on target domain datasets containing less images. Whereas, data preprocessing involves all the transformations applied to datasets in order to improve their size and value. In this thesis, we proposed preprocessing techniques to improve the robustness of DL models in two complex applications: biomedical and satellite images classification. In the first application, we combined the state-of-the-art CNN, the most adequate data preproccesing and transfer learning methods with the benchmark dataset used in that problem called BreakHis, to elaborate an ideal automatic system for breast cancer diagnosis from both clinical and technical standpoints. And our analysis has demonstrated that the complexity of this problem related to its data quality and annotation, hugely affect the performance of the trained DL model even in a well built methodological approach. In the second use case, we trained DL models on our own built dataset for automatic Land Use/Land Cover (LULC) classification. To our knowledge, the dataset we proposed called Sentinel2LULC, is the largest global high resolution and free satellite images dataset adapted for DL usage in this problem. This dataset was carefully built using the big amount of remote sensing data available nowadays on free platforms such as Google Earth Engine and a carefully designed methodology to transform all these data into a high value dataset for this specific problem. The experimental analysis in conjunction with DL models in this second scenario has achieved very promising results and proved the dataset quality importance. The particular conclusion in each one of these two studies allowed us to build our main conclusion of this thesis: even when the state-of-the-art models and methods are adopted and combined, the data quality remains the major source gold for CNNs training and constitute the key factor to reach a good performance in complex CV tasks.
- français
  La vision par ordinateur (CV) est un domaine de l’intelligence artificielle (AI) qui reproduit la capacit´e des yeux et du cerveau humains `a percevoir les images et `a les comprendre. Les mod`eles d’apprentissage profond (DL), et en particulier les r´eseaux de neurones convolutifs (CNNs), sont devenus l’´etat de l’art pour les tˆaches du CV les plus complexes. Ces mod`eles apprennent automatiquement `a prendre des d´ecisions en utilisant un ensemble d’images sans ˆetre explicitement programm´es pour cette fin, notamment dans les voitures `a conduite autonome ou les syst`emes de reconnaissance faciale des smartphones. Les CNNs sont constitu´es d’un grand nombre de r´eseaux neuronaux artificiels (ANNs) avec des param`etres entraˆınables inspir´es de la fac¸on dont les neurones du cerveau humain apprennent et se transmettent les connaissances entre eux; et leur entraˆınement n´ecessite un grand nombre d’images soigneusement annot´ees. Cependant, pour des probl`emes complexes, tels que ceux abord´es dans cette th`ese, la cr´eation d’un ensembles d’images d’entraˆınement de haute qualit´e est tr`es coˆuteuse et exige une haut expertise. Pour surmonter ces limitations, les principales techniques adopt´ees dans la litt´erature sont le pr´etraitement des donn´ees et l’apprentissage par transfert. Dans ce dernier, les CNNs sont d’abord pr´e-entraˆın´es sur de grands ensembles d’images naturelles tels que ImageNet, puis r´e-entraˆın´es sur des ensembles du domaine cible contenant moins d’images. Alors que le pr´etraitement des donn´ees implique toutes les transformations appliqu´ees pour augmenter la taille et am´eliorer la valeur des donn´ees. Dans cette th`ese, on propose des techniques de pr´etraitement pour am´eliorer la robustesse des mod`eles du DL dans deux applications complexes : la classification d’images biom´edicales et d’images satellitaires. Dans la premi`ere application, nous avons combin´e avec l’ensemble de donn´ees appel´e BreakHis, l’´etat de l’art CNN, ainsi que les m´ethodes de pr´etraitement et d’apprentissage par transfert les plus ad´equates, afin de construire un syst`eme automatique id´eal pour le diagnostic automatique du cancer du sein, tant du point de vue clinique que technique. Notre analyse a d´emontr´e que la complexit´e de ce probl`eme, li´ee `a la qualit´e de ses donn´ees, affecte consid´erablement la performances du DL, mˆeme avec m´ethodologie bien construite. Dans le deuxi`eme cas d’utilisation, nous avons entraˆın´e des mod`eles DL sur notre propre ensemble de donn´ees appel´e Sentinel2LULC pour la classification automatique de l’utilisation et couverture des sols. `A notre connaissance, Sentinel2LULC est le plus grand ensemble d’images satellitaires `a ´echelle mondiale, `a haute r´esolution et gratuit adapt´ees au DL. il a ´et´e soigneusement construit `a partir de la grande quantit´e de donn´ees de t´el´ed´etection disponibles aujourd’hui sur les plateformes gratuites telles que Google Earth Engine avec une m´ethodologie soigneusement conc¸ue pour r´esoudre ce probl`eme. L’analyse des mod`eles DL dans ce deuxi`eme sc´enario a aboutit `a des r´esultats prometteurs et a prouv´e l’importance de la qualit´e des donn´ees. La conclusion particuli`ere de chacune de ces deux applications nous a permis de formuler notre conclusion principale de cette th`ese : mˆeme lorsque les mod`eles DL et m´ethodes de pointe sont adopt´es et combin´es, la qualit´e initiale des donn´ees reste le facteur le plus imporatnt pour atteindre une bonne performance dans les tˆaches complexes du CV.