Ir al contenido

Documat


Transcripción de periódicos históricos: aproximación CLARA-HD

  • Antonio Menta [1] ; Eva Sánchez-Salido [1] ; Ana García-Serrano [1]
    1. [1] ETSI Informática, UNED, Madrid, Spain
  • Localización: SEPLN-PD 2022: Annual Conference of the Spanish Association for Natural Language Processing 2022: Projects and Demonstrations / Miguel Á. Alonso (ed. lit.) Árbol académico, Margarita Alonso-Ramos (ed. lit.) Árbol académico, Carlos Gómez Rodríguez (ed. lit.) Árbol académico, David Vilares Calvo (ed. lit.) Árbol académico, Jesús Vilares (ed. lit.) Árbol académico, 2022, págs. 70-74
  • Idioma: español
  • Títulos paralelos:
    • Transcription in historical newspapers: the CLARA-HD approach
  • Enlaces
  • Resumen
    • español

      Analizar periódicos de los siglos XVIII, XIX y principios del XX exige cierta calidad de lasfuentes digitalizadas y la utilización de recursos específicos de dominio o de la lengua.Cualquier aproximación utilizando las tecnologías actuales, se encuentra con que la mayoría delos modelos PLN disponibles para la transcripción o el reconocimiento de entidades estánentrenados con textos en “lenguajes actuales”. Si además el reto consiste en extraer informaciónde periódicos históricos en español, la complejidad aumenta, ya que la normalización delespañol es relativamente “moderna” y hay que intentar refinar los modelos de PLN o generarnuevos recursos. En esta presentación del corpus construido desde los textos disponibles en laHemeroteca Digital de la BNE, Diario de Madrid (1788-1825), se mostrarán los pasos seguidospara su transcripción automática generando un modelo (99% de rendimiento) en el marco delproyecto CLARA-HD. Finalmente se incluyen unas conclusiones iniciales

    • English

      The analysis of historical newspapers from the 18th, 19th, and early 20thcenturies requires a certain quality of digitized sources and the use of specific domain orlanguage resources. Any approach using current technologies finds that most of the NLP modelsavailable for transcription or entity recognition are trained with texts in "current languages". If,in addition, the challenge consists of extracting information from historical newspapers inSpanish, the complexity increases since the normalization of Spanish is relatively “modern”and it is necessary to try to refine the NLP models or generate new resources. In thisdemonstration for the corpus built from the BNE Digital Hemeroteca, Diario de Madrid (1788-1825) the steps followed will be shown for its automatic transcription using a defined model(99% performance), within the framework of the CLARA-HD project. Finally, some initialconclusions are included.


Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno