Ir al contenido

Documat


Resumen de Automatic and Manual Evaluation of a Spanish Suicide Information Chatbot

Pablo Ascorbe, María Soledad Campos Burgui, César Domínguez Árbol académico, Jónathan Heras Vicente Árbol académico, Magdalena Pérez, Ana Rosa Terroba Reinares

  • español

    Los chatbots tienen un gran potencial en campos delicados como la salud mental, pero para asegurar su correcto funcionamiento es necesaria una evaluación cuidadosa, ya sea por métodos manuales o por métodos automáticos. En este trabajo se presenta una librería para evaluar automáticamente chatbots en castellano de Generación Mejorada por Recuperación (en ingles Retrieval Augmented Generation o RAG) utilizando grandes modelos de lenguaje (en inglés, LLMs). A continuación, se realiza una evaluación exhaustiva de varios modelos candidatos a ser utilizados en un sistema RAG para proporcionar información sobre la prevención del suicidio, utilizando una evaluación manual, una automática basada en métricas y una automática basada en LLMs. Todos los métodos coinciden al escoger el mejor modelo, pero presentan sutiles diferencias. Los métodos automáticos basados en métricas se correlacionan en precisión y exhaustividad con la evaluación humana, pero no en fidelidad; y algunos métodos automáticos basados en LLMs no detectan algunos errores, como respuestas no relacionadas con la pregunta; o pueden pasar por alto respuestas inseguras. Como conclusión, podemos decir que los métodos automáticos pueden reducir el esfuerzo de evaluación manual, no obstante, ´esta sigue siendo esencial, sobre todo en contextos sensibles como los relacionados con la salud mental.

  • English

    Chatbots have a great potential in sensitive fields like mental health; however, a careful evaluation, either by manual or automatic methods is a must to ensure the reliability of these systems. In this work, a library for automatically evaluating Spanish Retrieval Augmented Generation (RAG) chatbots using Large Language Models (LLMs) is presented. Then, a thorough analysis of several LLMs candidates to be used in a RAG system which provides suicide prevention information is conducted. Towards that aim, we use a manual evaluation, an automatic evaluation based on metrics, and an automatic evaluation based on LLMs. All evaluation methods agree on a preferred model, but they exhibit subtle differences. Automatic methods may overlook unsafe answers; the automatic methods based on metrics are correlated on precision and completeness with human evaluation but not on faithfulness; and some automatic methods based on LLMs do not detect some errors. As a general conclusion, even if automatic methods can reduce manual evaluation efforts, manual evaluation remains essential, particularly in sensitive contexts like those related to mental health.


Fundación Dialnet

Mi Documat