Ikusizko Hizkuntza-ereduetan Kanpo Ezagutza eta Arrazoimendu Espaziala Txertatzen

Ander Salaberria Saizar; Gorka Azkune Galparsoro; Eneko Agirre Bengoa

Ayuda

Ikusizko Hizkuntza-ereduetan Kanpo Ezagutza eta Arrazoimendu Espaziala Txertatzen

Autores: Ander Salaberria Saizar, Gorka Azkune Galparsoro , Eneko Agirre Bengoa
Localización: Ingeniaritza eta Arkitektura: VI. Ikergazte Nazioarteko ikerketa euskaraz: 2025eko maitzaren 28, 29 eta 30 Bilbo, Euskal Herria / coord. por Olatz Arbelaiz Gallego , Ainhoa Latatu, Izortze Santin Gomez, 2025, ISBN 978-84-8438-928-6, págs. 195-202
Idioma: euskera
Enlaces
- Texto Completo Libro
Resumen
- euskara
  izkuntza naturalaren prozesamendua (NLP) eta konputagailu bidezko ikusmenaren (CV) alorrak asko hazi dira azkenaldian. NLP eta CV-ren arteko zubian aurrerapenak lortu badira ere, gaur egun testuak eta irudiak prozesatzen dituzten sistemek hainbat ahulezia erakusten dituzte. Lan honetan, doktorego-tesi baten ekarpenak aurkezten dira, non ikusizko hizkuntza-ereduen bi ahulezi aztertu diren: munduko ezagutzaren integrazioa eta arrazonamendu espaziala. Alde batetik, irudietatik goiburukoak sortu ditugu hizkuntza-ereduetan inplizituki kodetuta dagoen munduko ezagutza hobeto aprobetxatzeko. Bestetik, objektu anotazioetatik datu sintetikoak sortzen zentratu gara, bai hizkuntza-ereduetan eta baita testu bidezko irudi sortzaileetan ere arrazonamendu espaziala hobetzeko.
- English
  The fields of natural language processing (NLP) and computer vision (CV) have lately emerged. Although the bridge between NLP and CV has also advanced, nowadays these systems still face weaknesses with no trivial solution. In this work, we present the findings of a PhD thesis, where we analyzed two limitations of current Vision-and-language models: world knowledge integration and spatial reasoning. On the one hand, we verbalized images to leverage better world knowledge that is implicitly encoded in language models. On the other hand, we exploited the generation of synthetic data from object annotations to aid the spatial reasoning of both language models and text-to-image generators.