Antonio Clavelli
La cerca d’objectes de text en imatges d’escena reals és un problema obert i una àrea de cerca molt activa la visió per computador. S’han proposat un gran nombre de mètodes basats en l’extensió dels mètodes des de l’anàlisi de documents o inspirat en mètodes de detecció d’objectes. No obstant això, el problema de la cerca d’objectes en imatges d’escena reals segueix sent un problema extremadament difícil a causa de la gran variabilitat en l’aparen¸ca dels objectes. Aquesta tesi es basa en els més recents troballes en la literatura de l’atenció visual, introduint un nou model computacional de visió guiada que apunta descriure la cerca de text en imatges d’escenes reals. En primer lloc es presenten els resultats més pertinents de la literatura científica en relació amb l’atenció visual, els moviments oculars i la cerca visual. Els més rellevants models d’atenció són discutits i integrats amb recents observacions sobre la funció dels anomenats ’top-down constraints’ i l’emergent necessitat d’un model estratificat d’atenció en què la saliència no és l’únic factor guia d’atenció. L’atenció visual s’explica per la interacció de diversos factors moduladors, com ara objectes, valor, plans i saliència. S’introdueix la nostra formulació probabilística dels mecanismes d’atenció en es- cenes reals per a la tasca de cerca d’objectes. El model es basa en l’argument que el desplegament d’atenció depèn de dos processos diferents però interactuants: un procés d’atenció que assigna valor a les fonts d’informació i un procés motor que uneix flexiblement informació amb l’acció. En aquest marc, l’elecció d’on buscar la propera tasca és dependent i orientada a les classes d’objectes incrustats en imatges d’escenes reals. La dependència de la tasca es té en compte en explotar el valor i la recompensa de contemplar certes parts o proto-objectes de la imatge que proporcionen una esclarissada representació dels objectes en l’escena. A la secció experimental prova el model en condicions de laboratori, comparant les simulacions del model amb dades d’experiments de eye tracking. La comparació és qualitativa en termes de trajectòries d’exploració i quantitativa, en termes de similitud estadística de l’amplitud de moviments oculars. Els experiments s’han realitzat amb dades de eye tracking tant d’un conjunt de dades públic de rostre humans i text, tant amb un nou conjunt de dades de eye tracking i d’imatges urbanes amb text. L’última part d’aquesta tesi es dedica a estudiar en quina mesura el model proposat pot respondre del desplegament d’atenció en un entorn complex. S’ha utilitzat un dispositiu mòbil de eye tracking i una metodologia desenvolupada específicament per comparar les dades simulades amb les dades gravades de eye tracking. Tal configuració permet posar a prova el model en la tasca de cerca de text molt semblant a una cerca real, en la condició d’informació visual incompleta.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados