Ir al contenido

Documat


Resumen de Open Generative Large Language Models for Galician

Pablo Gamallo Otero Árbol académico, Pablo Rodríguez, Iria de Dios Flores, Susana Sotelo Docío, Silvia Paniagua, Daniel Bardanca Outeiriño, José Ramón Pichel Campos, Marcos García González

  • español

    Los grandes modelos de lengua (LLM por su nombre en inglés) han transformado el procesamiento del lenguaje natural, pero la predominancia del uso de datos en inglés para su entrenamiento ha dado lugar a sesgos y disparidades de rendimiento entre lenguas. Este desequilibrio margina a las lenguas minoritarias, dificultando el acceso equitativo a las tecnologías de PLN para las lenguas con menos recursos, como el gallego. Para hacer frente a esta situación, presentamos los dos primeros LLM generativos centrados en el gallego. Estos modelos, disponibles gratuitamente como recursos de código abierto, han sido entrenados utilizando una arquitectura GPT con 1,3 mil millones de parámetros, a partir de un corpus de 2,1 mil millones de palabras. Aprovechando la técnica de pre-entrenamiento continuado, hemos adaptado al gallego dos LLM existentes entrenados en corpus más grandes, mitigando así las limitaciones de datos que surgirían si el entrenamiento se realizara desde cero. Los modelos se han evaluado utilizando juicios humanos y conjuntos de datos basados en tareas de referencia estandarizadas. Estas evaluaciones revelan un rendimiento prometedor, subrayando la importancia de la diversidad lingüística en los modelos generativos.

  • English

    Large language models (LLMs) have transformed natural language processing. Yet, their predominantly English-centric training has led to biases and performance disparities across languages. This imbalance marginalizes minoritized languages, making equitable access to NLP technologies more difficult for languages with lower resources, such as Galician. We present the first two generative LLMs focused on Galician to bridge this gap. These models, freely available as open-source resources, were trained using a GPT architecture with 1.3B parameters on a corpus of 2.1B words. Leveraging continual pretraining, we adapt to Galician two existing LLMs trained on larger corpora, thus mitigating the data constraints that would arise if the training were performed from scratch. The models were evaluated using human judgments and task-based datasets from standardized benchmarks. These evaluations reveal a promising performance, underscoring the importance of linguistic diversity in generative models.


Fundación Dialnet

Mi Documat