Evaluation of transformer-based models for punctuation and capitalization restoration in Catalan and Galician

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/133234
Información del item - Informació de l'item - Item information
Título: Evaluation of transformer-based models for punctuation and capitalization restoration in Catalan and Galician
Título alternativo: Evaluación de modelos basados en Transformers para el sistema de recuperación de puntuación y mayúsculas en Catalán y Gallego
Autor/es: Pan, Ronghao | García-Díaz, José Antonio | Vivancos Vicente, Pedro J. | Valencia García, Rafael
Palabras clave: Automatic Speech Recognition | Transformers | Punctuation Restoration | Capitalization Restoration | Catalan | Galician | Reconocimiento Automático del Habla | Recuperación de puntuación | Recuperación de mayúsculas | Catalán | Gallego
Fecha de publicación: mar-2023
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2023, 70: 27-38. https://doi.org/10.26342/2023-70-2
Resumen: In recent years, the performance of Automatic Speech Recognition systems (ASR) has increased considerably due to new deep learning methods. However, the raw output of an ASR system consists of a sequence of words without capital letters and punctuation marks. Therefore, a capitalization and punctuation restoration system are one of the most important post-processes of ASR to improve readability and to enable the subsequent use of these results in other NLP models. Most models focus solely on English punctuation resolution, and recently new models of Spanish punctuation restoration have emerged. However, none focus on capitalization and punctuation restoration in Galician and Catalan. In this sense, we propose a system for capitalization and punctuation restoration based on Transformers models for Catalan and Galician. Both models perform very well, with an overall performance of 90.2% for Galician and 90.86% for Catalan, and have the ability to identify proper names, country names, and organizations for uppercase restoration. | En los últimos años, el rendimiento de sistemas de Reconocimiento Automático del habla ha aumentado considerablemente gracias a nuevos métodos de deep learning. Sin embargo, la salida bruta de estos sistemas consiste en secuencias de palabras sin mayúsculas ni signos de puntuación. Recuperar esta información mejora la legibilidad y permite su posterior uso en otros modelos de PLN. La mayoría de las soluciones existentes se centran únicamente en inglés; aunque recientemente han surgido nuevos modelos de restauración de la puntuación en español. Sin embargo, ninguno se centra en gallego y catalán. En este sentido, proponemos un sistema de restauración de mayúsculas y puntuación basado en modelos Transformers para estos idiomas. Ambos modelos tienen un rendimiento muy bueno: 90,2% para el gallego y 90,86% para el catalán. Además, también tienen la capacidad de identificar nombres propios, nombres de países y organizaciones para la restauración de mayúsculas.
Patrocinador/es: This work is part of the research project (2021/C005/00150076) funded by Spanish Government - Ministerio de Asuntos Económicos y Transformación and by the European Union NextGenerationEU/PRTR. This work is also part of the research project LaTe4PSP (PID2019-107652RB-I00/AEI/ 10.13039/501100011033) funded by MCIN/AEI/10.13039/501100011033.
URI: http://hdl.handle.net/10045/133234
ISSN: 1135-5948
DOI: 10.26342/2023-70-2
Idioma: eng
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Revisión científica: si
Versión del editor: https://doi.org/10.26342/2023-70-2
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 70 (2023)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_70_02.pdf1,18 MBAdobe PDFAbrir Vista previa


Este ítem está licenciado bajo Licencia Creative Commons Creative Commons