Ir al contenido

Documat


Resumen de Towards Quality Benchmarking in Question Answering over Tabular Data in Spanish

Jorge Osés Grijalba, Luis Alfonso Ureña López Árbol académico, José Camacho Collados Árbol académico, Eugenio Martínez Cámara Árbol académico

  • español

    La evolución constante y veloz de la capacidad de compresión y generación de lenguaje de los modelos de lenguaje grandes (LLMs) va acompañada del descubrimiento de nuevas habilidades. La evaluación de estas precisa de que la comunidad científica proporcione marcos de evaluación que permita el estudio, comparación y análisis de estas nuevas capacidades en diversos LLMs. La respuesta a preguntas a partir de datos en tablas es una de las nuevas capacidades de los LLMs, que aún carece de un benchmark de evaluación que permita analizarla en diferentes escenarios. Por tanto, en este trabajo se presenta Spa-DataBench, un benchmark de evaluación formado por diez conjuntos de datos sobre diferentes aspectos de la sociedad española. Cada conjunto de datos tiene asociado un conjunto de preguntas en español con sus respectivas respuestas, las cuales escrutan al LLM para estudiar su capacidad de responder preguntas que involucran una columna o varias sobre distintos tipos de datos, y de generar código fuente que permite la resolución de la pregunta. Se evalúan seis LLMs en Spa-DataBench, y se compara su rendimiento mediante el uso del mismo prompt escrito en ingles, debido a que los LLMs evaluados no han sido ajustados a usar prompts en español. Los resultados indican que los LLMs pueden razonar sobre datos tabulares, pero su rendimiento en español es inferior que en inglés, evidenciando que aùn se debe seguir trabajando en mejorar el procesamiento del español de los LLMs.

  • English

    The rapid and incessant progress of language understanding and language generation capacity of large language models (LLMs) is followed by the discovery of new capabilities. The research community has to provide evaluation benchmarks to asses these emerging capabilities by studying, analysing and comparing different LLMs under fair and realistic settings. Question answering on tabular data is an important task to assess that lacks reliable evaluation benchmarks to assess LLMs in distinct scenarios, particularly for Spanish. Hence, in this paper we present Spa-DataBench, an evaluation benchmark composed of ten datasets about different topics of the Spanish society. Likewise, each dataset is linked to a set of questions written in Spanish and their corresponding answers. These questions are used to assess LLMs and analyse their capacity for answering questions that involve one single or multiple columns of different data types, and for generating source code to resolve the questions. We evaluate six LLMs on Spa-DataBench, and we compare their performance using both Spanish and English prompts. The results on Spa-DataBench show that LLMs are able to reason on tabular data, but their performance in Spanish is worse, which means that there is still room for improvement of LLMs in the Spanish language.


Fundación Dialnet

Mi Documat