[1]
;
Fernández-Robles, Laura
[1]
;
Fidalgo, Eduardo
[1]
;
González-Castro, Víctor
[1]
;
Alegre, Enrique
[1]
;
Mirjalili, Milad
[1]
León, España
Los transformadores de visión han adquirido recientemente una importancia significativa en las tareas de visión por ordenador debido a sus mecanismos de autoatención. Anteriormente, las CNN dominaban el campo de la visión por ordenador al lograr resultados notables en diversas aplicaciones como la clasificación de imágenes o el reconocimiento de objetos, entre otras. Sin embargo, con la llegada de los Transformadores de Visión, ha surgido una intensa competencia entre ambos. Este artículo presenta un análisis comparativo del rendimiento de las CNNs y los Transformadores de Visión para la tarea de estimación de la edad en los conjuntos de datos FG-NET y UTKFace. Realizamos la estimación de la edad utilizando seis modelos, incluidos tres modelos de CNN (VGG-16, ResNet-50, EfficientNet-B0) y tres modelos de transformadores de visión (ViT, CaiT, Swin). Nuestros resultados experimentales muestran que el transformador Swin superó tanto a la CNN como a los demás transformadores de visión.
Vision Transformers have recently gained significant importance in computer vision tasks due to their self-attention mechanisms. Previously, CNNs dominated the computer vision field by achieving remarkable results in various applications such as image classification, object recognition, and more. However, with the arrival of Vision Transformers, an intense competition has emerged between the two. This paper presents a comparative analysis of the performance of CNNs and Vision Transformers for the task of age estimation on the FG-NET and UTKFace datasets. We performed age estimation using six models, including three CNN models (VGG-16, ResNet-50, EfficientNet-B0) and three Vision Transformer models (ViT, CaiT, Swin). Our experimental results show that the Swin Transformer outperformed both CNN and other Vision Transformers, achieving a mean absolute error (MAE) of 2.79 years on FG-NET and 4.37 years on UTKFace.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados