Jorge Juan Sueiras Revuelta
El reconocimiento de texto manuscrito es un problema abierto y de gran interés en área del análisis automático de documentos. La transcripción del contenido manuscrito que aparece escrito en documentos digitalizados es especialmente importante en el análisis de archivos históricos o en la digitalización de la información de documentos, formularios y comunicaciones manuscritas. El problema ha tenido un gran interés desde prácticamente los inicios del desarrollo de algoritmos de aprendizaje automático. En estos últimos 10 años se han producido grandes avances en el mismo a raíz de la aplicación de técnicas de aprendizaje profundo a su resolución.
En esta Tesis se aborda el problema del reconocimiento de texto manuscrito continuo, consistente en desarrollar algoritmos y modelos capaces de transcribir el texto presente en una imagen sin necesidad de que dicho texto esté segmentado en caracteres. Para ello, se ha propuesto un nuevo modelo de reconocimiento basado en la integración de dos tipos de arquitecturas de aprendizaje profundo, las redes convolucionales y los modelos sequence-to-sequence (seq2seq), respectivamente. El componente convolucional del modelo se orienta a identificar las caracteristicas relevantes de los caracteres presentes en el texto y el componente seq2seq construye la transcripción del mismo modelando la naturaleza secuencial del texto.
Para el diseño de este nuevo modelo se ha realizado un extensivo análisis de las capacidades de distintas arquitecturas convolucionales en el problema simplificado de reconocimiento de caracteres aislados con el objetivo de identificar las más adecuadas para integrarlas en el modelo continuo. Adicionalmente, se ha realizado una extensiva experimentación del modelo propuesto para el problema de reconocimiento de texto continuo a nivel de palabras, lo que ha permitido determinar su robustez frente a cambios en la parametrización. También se ha validado la capacidad de generalización del modelo mediante la evaluación del mismo usando tres bases de datos de texto manuscrito en diferentes idiomas: IAM en inglés, RIMES en francés y Osborne en español, respectivamente.
El nuevo modelo proporciona resultados competitivos con los obtenidos aplicando otras metodologías bien establecidas y abre nuevas puertas a líneas de investigación centradas en la aplicación de modelos seq2seq al problema del reconocimiento de texto manuscrito continuo.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados