Ir al contenido

Documat


Practical Methods for the Mechanistic Interpretability of Large Language Models

  • Autores: Jorge García Carrasco
  • Directores de la Tesis: Juan Trujillo Mondéjar (dir. tes.) Árbol académico, Alejandro Maté Morga (dir. tes.) Árbol académico
  • Lectura: En la Universitat d'Alacant / Universidad de Alicante ( España ) en 2025
  • Idioma: español
  • Número de páginas: 57
  • Tribunal Calificador de la Tesis: Francisco Herrera Triguero (presid.) Árbol académico, Ana Lavalle López (secret.) Árbol académico, Verónica Bolón-Canedo (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: RUA
  • Resumen
    • Los Large Language Models (LLM) han demostrado una capacidad asombrosa en una amplia gama de tareas relacionadas con el lenguaje, lo que los convierte en herramientas de gran interés. Sin embargo, debido a su elevado número de parámetros e interacciones internas, este tipo de modelos se comporta como una caja negra. Esto representa un problema importante en contextos donde una predicción incorrecta puede acarrear un coste elevado. En estos casos, resulta crucial comprender el mecanismo o proceso que subyace a una predicción para poder anticipar posibles errores. Por este motivo, el campo de investigación de la interpretabilidad ha adquirido una relevancia creciente. En particular, el reciente enfoque de la interpretabilidad mecanística ha planteado una nueva manera de abordar este problema, al centrarse en la inspección del interior de los modelos con el fin de descomponer su funcionamiento de forma comprensible. En esta línea, diversos trabajos han presentado evidencia de que, para una tarea específica, es posible localizar e interpretar el subconjunto del modelo responsable de llevarla a cabo. Esto abre un abanico de oportunidades de investigación muy prometedoras. El objetivo de la presente tesis es contribuir al emergente campo de la interpretabilidad mecanística, con especial atención a las aplicaciones prácticas que derivan de estos avances. En concreto, la tesis se centra en: (i) extender los métodos actuales de interpretabilidad mecanística para abordar tareas más complejas, en las que la predicción se compone de múltiples tokens; (ii) desarrollar un método para localizar vulnerabilidades dentro de los LLM; y (iii) diseñar un procedimiento que permita extraer el subconjunto del LLM responsable de una tarea concreta, con el fin de utilizarlo de manera independiente. Los resultados obtenidos durante la realización de esta tesis doctoral se han plasmado en una serie de artículos científicos presentados en congresos internacionales y publicados en revistas de alto impacto. Por este motivo, la tesis se presenta en formato de compendio de publicaciones.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno