Integrating Outside Knowledge and Spatial Reasoning in Vision-and-language Models

Ander Salaberria Saizar

Ayuda

Integrating Outside Knowledge and Spatial Reasoning in Vision-and-language Models

Autores: Ander Salaberria Saizar
Directores de la Tesis: Eneko Agirre Bengoa (dir. tes.) , Gorka Azkune Galparsoro (codir. tes.)
Lectura: En la Universidad del País Vasco - Euskal Herriko Unibertsitatea ( España ) en 2024
Idioma: euskera
Enlaces
- Tesis en acceso abierto en: ADDI
Resumen
- Hizkuntza naturalaren prozesamendua (NLP) eta konputagailu bidezko ikusmenaren (CV) alorrak asko hazi dira azkenaldian. Bultzada hau ordenagailuen kalkulu-ahalmen eta eskuruagarri dagoen datu kopuruaren hazkundeari esker lortu da, baita etengabe hazten ari den ikerketa-komunitateari esker ere.
  
  NLP eta CV-ren arteko zubian aurrerapenak lortu dira ere bai, batez ere testu eta ikusmen modalitateen oinarritzea eskatzen duten zereginetan, hala nola, galdera-erantzute bisuala eta testuan baldintzatutako irudi sorkuntza. Horrek sistema eta aplikazio sofistikatuagoetarako bidea zabaltzen du hainbat domeinutan. Dena den, sistema hauek konponbide errazik ez dituzten ahuleziak dituzte oraindik.
  
  Tesi honen helburua egungo ikusizko hizkuntza ereduen (VLM) bi ahulezi aztertzea da: munduko ezagutzaren integrazioa eta arrazonamendu espaziala. Tesi hau bi zati nagusitan bana daiteke, jorratzen dugun ahulezi bakoitzeko bana alegia. Lehenengo zatian, irudietatik goiburukoak sortzen ditugu hizkuntza-ereduetan inplizituki kodetuta dagoen munduko ezagutza hobeto aprobetxatzeko. Bigarrenean, aldiz, objektu anotazioetatik datu sintetikoak sortzen zentratu gara, bai hizkuntza-ereduetan eta baita testu bidezko irudi sortzaileetan ere arrazonamendu espaziala laguntzeko.