Practical Methods for the Mechanistic Interpretability of Large Language Models

Jorge García Carrasco

Ayuda

Practical Methods for the Mechanistic Interpretability of Large Language Models

Autores: Jorge García Carrasco
Directores de la Tesis: Juan Trujillo Mondéjar (dir. tes.) , Alejandro Maté Morga (dir. tes.)
Lectura: En la Universitat d'Alacant / Universidad de Alicante ( España ) en 2025
Idioma: español
Número de páginas: 57
Tribunal Calificador de la Tesis: Francisco Herrera Triguero (presid.) , Ana Lavalle López (secret.) , Verónica Bolón-Canedo (voc.)
Enlaces
- Tesis en acceso abierto en: RUA
Resumen
- Los Large Language Models (LLM) han demostrado una capacidad asombrosa en una amplia gama de tareas relacionadas con el lenguaje, lo que los convierte en herramientas de gran interés. Sin embargo, debido a su elevado número de parámetros e interacciones internas, este tipo de modelos se comporta como una caja negra. Esto representa un problema importante en contextos donde una predicción incorrecta puede acarrear un coste elevado. En estos casos, resulta crucial comprender el mecanismo o proceso que subyace a una predicción para poder anticipar posibles errores. Por este motivo, el campo de investigación de la interpretabilidad ha adquirido una relevancia creciente. En particular, el reciente enfoque de la interpretabilidad mecanística ha planteado una nueva manera de abordar este problema, al centrarse en la inspección del interior de los modelos con el fin de descomponer su funcionamiento de forma comprensible. En esta línea, diversos trabajos han presentado evidencia de que, para una tarea específica, es posible localizar e interpretar el subconjunto del modelo responsable de llevarla a cabo. Esto abre un abanico de oportunidades de investigación muy prometedoras. El objetivo de la presente tesis es contribuir al emergente campo de la interpretabilidad mecanística, con especial atención a las aplicaciones prácticas que derivan de estos avances. En concreto, la tesis se centra en: (i) extender los métodos actuales de interpretabilidad mecanística para abordar tareas más complejas, en las que la predicción se compone de múltiples tokens; (ii) desarrollar un método para localizar vulnerabilidades dentro de los LLM; y (iii) diseñar un procedimiento que permita extraer el subconjunto del LLM responsable de una tarea concreta, con el fin de utilizarlo de manera independiente. Los resultados obtenidos durante la realización de esta tesis doctoral se han plasmado en una serie de artículos científicos presentados en congresos internacionales y publicados en revistas de alto impacto. Por este motivo, la tesis se presenta en formato de compendio de publicaciones.