, Jónathan Heras Vicente
, Magdalena Pérez Trenado
Los chatbots tienen un gran potencial para proporcionar información valiosa en campos sensibles como la salud mental. Sin embargo, garantizar la fiabilidad y la seguridad de estos sistemas es fundamental y representa un paso crucial antes del despliegue de los chatbots. En este articulo, presentamos nuestro trabajo orientado a mejorar la seguridad de un chatbot en español basado en el modelo Retrieval-Augmented Generation (RAG) y diseñado para ofrecer información sobre el suicidio. A través de un proceso de validación en múltiples etapas, identificamos y clasificamos las respuestas inseguras del chatbot utilizando modelos de clasificación de red-teaming y mediante una validación manual por parte de expertos. Este proceso nos permitió descubrir varias fuentes de respuestas inseguras y aplicar estrategias especificas para mitigarlas. Como resultado, menos del 1h de las preguntas formuladas por los usuarios y menos del 5h de las preguntas de red-teaming fueron clasificadas como inseguras. Las acciones propuestas se centraron en mejorar los componentes clave del chatbot (incluyendo la base de datos de documentos, el diseño del prompt y el modelo de lenguaje) y pueden extrapolarse para mejorar la seguridad de otros chatbots similares basados en RAG. Advertencia: Este documento contiene contenidos que pueden resultar molestos.
Chatbots hold great potential for providing valuable information in sensitive fields such as mental health. However, ensuring the reliability and safety of these systems is essential and represents a crucial first step before the deployment of those chatbots. In this paper, we report our work aimed at enhancing the safeness of a Spanish suicide information chatbot based on Retrieval Augmented Generation (RAG). Namely, after a multi-stage validation process, we identified and classified unsafe answers of the chatbot by applying red-teaming classification models and manual validation by experts. This process allowed us to uncover several sources of unsafe responses, and to implement targeted mitigation strategies. As a result, fewer than 1h user-generated questions and fewer than 5h of red-teaming questions were classified by experts as unsafe. Our proposed actions focused on improving the chatbot's key components — including the document database, prompt engineering, and the underlying large language model — and can be extrapolated to enhance the safety of similar RAG-based chatbots.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados