Andrés Fernández García, Javier de la Rosa, Julio Gonzalo Arroyo
, Roser Morante
, Enrique Amigó
, Alejandro Benito Santos, Jorge Carrillo de Albornoz
, Víctor Fresno Fernández
, Adrián Ghajari Espinosa, Guillermo Marco Remón, Laura Plaza Morales
, Eva Sánchez Salido
La capacidad de resumir documentos largos de forma concisa es cada vez más importante en la vida cotidiana debido a la sobrecarga de información, pero existe una notable escasez de este tipo de resúmenes para documentos en español en general, y en el ámbito jurídico en particular. En este trabajo, presentamos BOEXSUM, un conjunto de datos de 3648 resúmenes extremadamente breves en lenguaje claro creados a partir de las entradas del Boletín Oficial del Estado (BOE). El conjunto de datos contiene tanto los resúmenes como los textos originales etiquetados con el tipo de documento. Además, presentamos los resultados de experimentar en modo de fine-tuning y de zero-shot con modelos generativos. Nuestros resultados indican que los modelos generativos supervisados mediante fine tuning funcionan significativamente mejor que los modelos generativos en modo no supervisado, incluso siendo modelos más pequeños. El mejor modelo con finetuning de nuestra experimentación, BERTIN GPT-J 6B (precisión de 32 bits), obtiene resultados un 24% mejores que el mejor modelo no supervisado, DeepSeek-R1 (41,6% vs 33,5%).
The ability to summarize long documents succinctly is increasingly important in daily life due to information overload, yet there is a notable lack of such summaries for Spanish documents in general, and in the legal domain in particular. In this work, we present BOE-XSUM, a curated dataset comprising 3,648 concise, plain-language summaries of documents sourced from Spain’s "Boletín Oficial del Estado" (BOE), the State Official Gazette. Each entry in the dataset includes a short summary, the original text, and its document type label. We evaluate the performance of medium-sized large language models (LLMs) fine-tuned on BOEXSUM, comparing them to general-purpose generative models in a zero-shot setting. Results show that fine-tuned models significantly outperform their non-specialized counterparts. Notably, the best-performing model—BERTIN GPT-J 6B (32-bit precision)—achieves a 24% performance gain over the top zero-shot model, DeepSeek-R1 (accuracies of 41.6% vs. 33.5%).
© 2008-2025 Fundación Dialnet · Todos los derechos reservados