Pablo Ascorbe, María Soledad Campos Burgui, César Domínguez , Jónathan Heras Vicente , Magdalena Pérez, Ana Rosa Terroba Reinares
Los chatbots tienen un gran potencial en campos delicados como la salud mental, pero para asegurar su correcto funcionamiento es necesaria una evaluación cuidadosa, ya sea por métodos manuales o por métodos automáticos. En este trabajo se presenta una librería para evaluar automáticamente chatbots en castellano de Generación Mejorada por Recuperación (en ingles Retrieval Augmented Generation o RAG) utilizando grandes modelos de lenguaje (en inglés, LLMs). A continuación, se realiza una evaluación exhaustiva de varios modelos candidatos a ser utilizados en un sistema RAG para proporcionar información sobre la prevención del suicidio, utilizando una evaluación manual, una automática basada en métricas y una automática basada en LLMs. Todos los métodos coinciden al escoger el mejor modelo, pero presentan sutiles diferencias. Los métodos automáticos basados en métricas se correlacionan en precisión y exhaustividad con la evaluación humana, pero no en fidelidad; y algunos métodos automáticos basados en LLMs no detectan algunos errores, como respuestas no relacionadas con la pregunta; o pueden pasar por alto respuestas inseguras. Como conclusión, podemos decir que los métodos automáticos pueden reducir el esfuerzo de evaluación manual, no obstante, ´esta sigue siendo esencial, sobre todo en contextos sensibles como los relacionados con la salud mental.
Chatbots have a great potential in sensitive fields like mental health; however, a careful evaluation, either by manual or automatic methods is a must to ensure the reliability of these systems. In this work, a library for automatically evaluating Spanish Retrieval Augmented Generation (RAG) chatbots using Large Language Models (LLMs) is presented. Then, a thorough analysis of several LLMs candidates to be used in a RAG system which provides suicide prevention information is conducted. Towards that aim, we use a manual evaluation, an automatic evaluation based on metrics, and an automatic evaluation based on LLMs. All evaluation methods agree on a preferred model, but they exhibit subtle differences. Automatic methods may overlook unsafe answers; the automatic methods based on metrics are correlated on precision and completeness with human evaluation but not on faithfulness; and some automatic methods based on LLMs do not detect some errors. As a general conclusion, even if automatic methods can reduce manual evaluation efforts, manual evaluation remains essential, particularly in sensitive contexts like those related to mental health.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados