, Gorka Azkune Galparsoro (codir. tes.) 
Hizkuntza naturalaren prozesamendua (NLP) eta konputagailu bidezko ikusmenaren (CV) alorrak asko hazi dira azkenaldian. Bultzada hau ordenagailuen kalkulu-ahalmen eta eskuruagarri dagoen datu kopuruaren hazkundeari esker lortu da, baita etengabe hazten ari den ikerketa-komunitateari esker ere.
NLP eta CV-ren arteko zubian aurrerapenak lortu dira ere bai, batez ere testu eta ikusmen modalitateen oinarritzea eskatzen duten zereginetan, hala nola, galdera-erantzute bisuala eta testuan baldintzatutako irudi sorkuntza. Horrek sistema eta aplikazio sofistikatuagoetarako bidea zabaltzen du hainbat domeinutan. Dena den, sistema hauek konponbide errazik ez dituzten ahuleziak dituzte oraindik.
Tesi honen helburua egungo ikusizko hizkuntza ereduen (VLM) bi ahulezi aztertzea da: munduko ezagutzaren integrazioa eta arrazonamendu espaziala. Tesi hau bi zati nagusitan bana daiteke, jorratzen dugun ahulezi bakoitzeko bana alegia. Lehenengo zatian, irudietatik goiburukoak sortzen ditugu hizkuntza-ereduetan inplizituki kodetuta dagoen munduko ezagutza hobeto aprobetxatzeko. Bigarrenean, aldiz, objektu anotazioetatik datu sintetikoak sortzen zentratu gara, bai hizkuntza-ereduetan eta baita testu bidezko irudi sortzaileetan ere arrazonamendu espaziala laguntzeko.
© 2008-2026 Fundación Dialnet · Todos los derechos reservados