, Eneko Agirre Bengoa
, Ainhoa Latatu, Izortze Santin Gomez, 2025, ISBN 978-84-8438-928-6, págs. 195-202izkuntza naturalaren prozesamendua (NLP) eta konputagailu bidezko ikusmenaren (CV) alorrak asko hazi dira azkenaldian. NLP eta CV-ren arteko zubian aurrerapenak lortu badira ere, gaur egun testuak eta irudiak prozesatzen dituzten sistemek hainbat ahulezia erakusten dituzte. Lan honetan, doktorego-tesi baten ekarpenak aurkezten dira, non ikusizko hizkuntza-ereduen bi ahulezi aztertu diren: munduko ezagutzaren integrazioa eta arrazonamendu espaziala. Alde batetik, irudietatik goiburukoak sortu ditugu hizkuntza-ereduetan inplizituki kodetuta dagoen munduko ezagutza hobeto aprobetxatzeko. Bestetik, objektu anotazioetatik datu sintetikoak sortzen zentratu gara, bai hizkuntza-ereduetan eta baita testu bidezko irudi sortzaileetan ere arrazonamendu espaziala hobetzeko.
The fields of natural language processing (NLP) and computer vision (CV) have lately emerged. Although the bridge between NLP and CV has also advanced, nowadays these systems still face weaknesses with no trivial solution. In this work, we present the findings of a PhD thesis, where we analyzed two limitations of current Vision-and-language models: world knowledge integration and spatial reasoning. On the one hand, we verbalized images to leverage better world knowledge that is implicitly encoded in language models. On the other hand, we exploited the generation of synthetic data from object annotations to aid the spatial reasoning of both language models and text-to-image generators.
© 2008-2026 Fundación Dialnet · Todos los derechos reservados