Named entity recognition in handwritten documents

David Villanova Aparisi

Ayuda

Named entity recognition in handwritten documents

Autores: David Villanova Aparisi
Directores de la Tesis: Moisés Pastor Gadea (codir. tes.) , Verónica Romero Gómez (codir. tes.)
Lectura: En la Universitat Politècnica de València ( España ) en 2025
Idioma: inglés
Tribunal Calificador de la Tesis: Laurence Likforman sulem (presid.) , Jon Ander Gómez Adrián (secret.) , Dominique Stutzmann (voc.)
Enlaces
- Tesis en acceso abierto en: RiuNet
Resumen
- Esta tesis propone un método para evaluar el Reconocimiento de Entidades Nombradas (NER) basado en transcripciones automáticas de documentos. Considerando este método, se proponen estrategias para mejorar el rendimiento de un modelo base, las cuales se analizan en diferentes conjuntos de datos.
  
  La tarea combinada de Reconocimiento de Texto Automático (ATR) y Reconocimiento de Entidades Nombradas (NER) es un campo de investigación novedoso y lleno de desafíos únicos. La entrada al sistema es una imagen completa y el objetivo es determinar qué partes del texto transcrito automáticamente pueden considerarse como una Entidad Nombrada (NE) y su categoría. Sin embargo, mientras las NEs sean correctamente etiquetadas y transcritas, el orden en que se extraen es irrelevante para la tarea. Por lo tanto, a diferencia del ATR tradicional, esta tarea no debería requerir que el sistema siga un orden de lectura estricto. Otro fenómeno que puede ocurrir es la aparición de NEs anidadas. Aunque poco comunes, en los corpus empleados encontramos casos en los que se representan explícitamente relaciones padre-hijo, aportando mayor complejidad a la tarea. En la literatura, encontramos dos enfoques principales para abordar la tarea combinada: dividir la tarea en dos pasos o resolver ambas tareas con un único modelo. Aunque ambos métodos tienen sus fortalezas y debilidades, resolver la tarea en un solo paso parece ser la opción más adecuada para el procesamiento de corpus históricos. Este enfoque de un solo paso, al que nos referiremos como el enfoque acoplado, es el que seguiremos a lo largo de nuestro trabajo.
  
  Al ser un área de investigación novedosa, la literatura muestra una gran variedad de métodos de evaluación. Dada esta variedad, parece haber una falta de consenso sobre qué método es el más adecuado para su aplicación en todas las tareas. Para abordar esta cuestión, nuestro trabajo se centró primeramente en proponer un método de evaluación que pueda aplicarse a cualquier conjunto de datos y sistema. En esta tesis, hemos conceptualizado un método de propósito general para la tarea combinada de ATR+NER. Este método puede evaluar la extracción de NEs con anidamiento de cualquier orden y sin considerar restricciones de orden de lectura entre NEs. Estas restricciones son comunes en tareas donde la salida del sistema es una secuencia, aunque no son necesarias para evaluar la extracción de NEs como tal. Con ello, el método de evaluación propuesto puede aplicarse a cualquier sistema que aborde la tarea combinada, independientemente del nivel de segmentación que emplee.
  
  Por otra parte, en esta tesis presentamos nuestros esfuerzos para mejorar los modelos que atacan la tarea combinada. Las propuestas que detallamos buscan aprovechar las características de la tarea combinada adaptando el modelo base. En términos generales, estas propuestas tienen como objetivo mejorar la precisión del modelo sin ralentizar el proceso de decodificación. Por ello, primero presentamos dos métodos para garantizar la consistencia en la etiquetación de NEs anidadas. A continuación, mostramos un estudio sobre el impacto de la notación empleada para etiquetar las muestras en el rendimiento del modelo. Finalmente, exploramos cómo se puede mejorar el reconocimiento incluyendo una tarea auxiliar en el proceso de entrenamiento de la arquitectura. Los resultados obtenidos en todos nuestros experimentos muestran que es beneficioso considerar las características de la tarea al modelar la solución, ya que esto permite lograr mejoras sustanciales con un sobrecoste computacional mínimo.