, Eugenio Martínez Cámara
Los modelos de lenguaje presentan vulnerabilidades de seguridad inherentes donde incluso modificaciones sutiles en las entradas pueden manipular sus salidas, estas debilidades representan una preocupación significativa. Esta investigación explora ataques adversarios sin objetivo específico contra modelos de lenguaje en español utilizando un enfoque de dos etapas: identificar palabras influyentes en el proceso de toma de decisiones y reemplazarlas con sinónimos apropiados. Las pruebas realizadas en diversos conjuntos de datos contra modelos preentrenados revelan que los modelos generativos, guiados por palabras relevantes seleccionadas mediante XAI, pueden alterar significativamente las predicciones de estos modelos de lenguaje.
Language models face inherent security vulnerabilities where even subtle input modifications can manipulate their outputs, these weaknesses represent a significant concern. This research explores untargeted adversarial attacks against Spanish language models using a two-stage approach: identifying influential words in the decision-making process and replacing them with appropriate synonyms. The evaluation of the attack against pre-trained Spanish language models reveals that generative models, guided by XAI-selected salient words, can significantly alter their predictions.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados