Ir al contenido

Documat


Resumen de Creación de un Modelo de Descripciones de Imágenes Especializado en Arqueología Griega

Enrique Garcia Arias, Ana M. García Serrano Árbol académico

  • español

    La generación automatizada de descripciones de imágenes (IM, Image Captioning) ha experimentado un considerable impulso en los últimos años con la incorporación de los LLM (Large Language Models). En contextos generalistas, los resultados son bastante ajustados, sin embargo, los desafíos son significativos en dominios especializados, como es el caso del proyecto Arqueogriegos. El corpus multimodal de este trabajo está formado por fotos, planos y textos en un contexto arqueológico y se refieren a yacimientos, artefactos y su entorno histórico, un ámbito complejo para interpretar estas imágenes descontextualizadas y carentes de un texto descriptivo (caption) adecuado. El objetivo principal de este estudio es generar descripciones automáticas optimizadas que superen esta desconexión entre imágenes y textos, abordando las limitaciones de las imágenes arqueológicas aisladas. Para ello, en lugar de recurrir a soluciones directas o vía API, que han resultado insuficientes para la complejidad del problema, se ha diseñado una metodología innovadora que divide los componentes clave en fases, evaluando e implementando en cada una la solución más efectiva, constituyendo así la principal contribución del trabajo al superar las deficiencias de los modelos de IM y LLM multimodal existentes.

  • English

    The automated generation of image descriptions (IM, Image Captioning) has seen significant progress in recent years with the integration of LLMs (Large Language Models). In generalist contexts, the results are quite accurate; however, challenges remain substantial in specialized domains, as exemplified by the Arqueogriegos project. The multimodal corpus of this study comprises photos, plans, and texts within an archaeological context, encompassing sites, artifacts, and their historical environment—a particularly complex domain due to the difficulty of interpreting these decontextualized images, lacking an adequate descriptive text (caption). The primary objective of this study is to generate optimized automatic descriptions that address the disconnect between images and texts, tackling the limitations of isolated archaeological images. To achieve this, rather than relying on direct solutions or APIs, which have proven insufficient for the problem's complexity, an innovative methodology was designed, breaking down key components into phases and evaluating and implementing the most effective solution at each stage. This approach constitutes the main contribution of the work, overcoming the shortcomings of existing IM and multimodal LLM models.


Fundación Dialnet

Mi Documat