Analizar periódicos de los siglos XVIII, XIX y principios del XX exige cierta calidad de lasfuentes digitalizadas y la utilización de recursos específicos de dominio o de la lengua.Cualquier aproximación utilizando las tecnologías actuales, se encuentra con que la mayoría delos modelos PLN disponibles para la transcripción o el reconocimiento de entidades estánentrenados con textos en “lenguajes actuales”. Si además el reto consiste en extraer informaciónde periódicos históricos en español, la complejidad aumenta, ya que la normalización delespañol es relativamente “moderna” y hay que intentar refinar los modelos de PLN o generarnuevos recursos. En esta presentación del corpus construido desde los textos disponibles en laHemeroteca Digital de la BNE, Diario de Madrid (1788-1825), se mostrarán los pasos seguidospara su transcripción automática generando un modelo (99% de rendimiento) en el marco delproyecto CLARA-HD. Finalmente se incluyen unas conclusiones iniciales
The analysis of historical newspapers from the 18th, 19th, and early 20thcenturies requires a certain quality of digitized sources and the use of specific domain orlanguage resources. Any approach using current technologies finds that most of the NLP modelsavailable for transcription or entity recognition are trained with texts in "current languages". If,in addition, the challenge consists of extracting information from historical newspapers inSpanish, the complexity increases since the normalization of Spanish is relatively “modern”and it is necessary to try to refine the NLP models or generate new resources. In thisdemonstration for the corpus built from the BNE Digital Hemeroteca, Diario de Madrid (1788-1825) the steps followed will be shown for its automatic transcription using a defined model(99% performance), within the framework of the CLARA-HD project. Finally, some initialconclusions are included.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados