Ir al contenido

Documat


Resumen de Exploiting similarity hierarchies for multi-script scene text understanding

Luis Gómez Bigordà Árbol académico

  • En aquesta tesi s'aborda el problema de la comprensió de text automàtic en condicions sense restriccions. En particular, abordem les tasques de detecció, el seguiment, i el reconeixement de text multi-idioma amb orientació arbitrària en imatges i vídeos d'escena natural. Per a això s'ha desenvolupat un conjunt de mètodes genèrics que es basen de la premissa bàsica que el text té sempre algunes característiques claus visuals que són independents de la llengua o escriptura en el qual està escrit. Les metodologies d'extracció de text en escena es basen generalment en la classificació de regions o regions individuals, utilitzant el coneixement a priori d'un script o llenguatge determinat. La percepció humana de text, per contra, es basa en l'organització perceptiva a través del qual el text apareix com un grup perceptualment rellevant d'objectes atòmics. En aquesta tesi, s'argumenta que el problema de l'extracció de text pot ser plantejat com a detecció de grups significatius de regions de la imatge. Ens ocupem del problema de la segmentació del text en escenes naturals des d'una perspectiva jeràrquica, fent ús explícit de l'estructura del text, enfocant directament la detecció d'agrupacions de regions que corresponen a elements de text dins d'una jerarquia produïda per un procés d'aglomeració per similitud sobre les regions individuals. Proposem una manera òptima per construir aquesta jerarquia de manera que s'estableix un espai de característiques dissenyat per produir hipòtesis de grup de text, i una regla de detenció que combina un classificador discriminatiu i una mesura probabilística de rellevancia dels grups amb base en l'organització perceptiva. Proposem un nou algoritme de propostes d'objecte que està dissenyat específicament per a detectar text, i el comparem amb altres mètodes genèrics en l'estat de la tècnica. Alhora, s'estudia en quina mesura els mètodes existents de propostes d'objectes genèrics poden ser útils per a la detecció de text d'escena. A continuació, presentem un algoritme híbrid per a la detecció i seguiment de text d'escena en el qual la noció de groups de regions també juga paper central. Un mòdul d'extracció de text escena basada en MSER ??s'utilitza per detectar el text de forma asíncrona, mentre que paral·lelament els objectes de text detectates són seguits per propagació de MSER. La cooperació d'aquests dos mòduls va més enllà del seguiment per detecció en termes d'optimització de temps, i pot oferir processament de vídeo en temps real fins i tot en dispositius de baixos recursos. Finalment, ens centrem en el problema de la identificació de l'escriptura en imatges de text d'escena per tal de construir un sistema de lectura d'extrem a extrem en escenris multi-idioma. Afrontar aquest problema amb classificadors CNN no és una tasca senzilla, ja que aquests no tenen en compte una característica clau de les instàncies de text d'escena: la seva relació d'aspecte es extremadament variable. En lloc de canviar la mida d'imatges d'entrada a una mida fixa, com en l'ús típic dels classificadors CNN holístics, proposem un marc de classificació basat en caracteristiques locals amb la finalitat de preservar les parts discriminatives de la imatge que són característiques de la seva classe. Es descriu un nou mètode basat en l'ús de conjunts de xarxes unides per aprendre conjuntament representacions discriminatives de regions locals de la imatge i alhora la seva importància relativa en un esquema de classificació global. Els nostres experiments amb aquest procediment d'aprenentatge demostren la viabilitat d'identificació d'alfabet en imatges d'escena natural, aplanant el camí cap als sistemes de comprensió de text d'escena d'extrem a extrem en diversos idiomes.


Fundación Dialnet

Mi Documat