La Toma de Decisiones Secuenciales (o SDM, por sus siglas en inglés) es un importante subcampo dentro de la Inteligencia Artificial (IA) que estudia cómo crear agentes, ya sean físicos o virtuales, capaces de tomar decisiones de manera inteligente con el fin de alcanzar un objetivo o realizar una tarea determinada. La SDM constituye un marco general que ha sido aplicado con éxito a campos tan diversos como la robótica, la logística, los juegos, las finanzas y el procesamiento del lenguaje natural, entre otros muchos.
A lo largo de los años del campo, se han propuesto una gran cantidad de métodos que pueden categorizarse en dos enfoques principales: Planificación Automática (AP) y Aprendizaje por Refuerzo (RL). Estos dos paradigmas difieren principalmente en la forma de resolver las tareas de SDM y en cómo representan su conocimiento. La AP aprovecha el conocimiento disponible sobre las dinámicas del entorno, codificado en lo que se conoce como un dominio de planificación o modelo de acciones, para llevar a cabo un proceso de búsqueda y razonamiento con el fin de encontrar una política o plan (secuencia de acciones) que resuelva la tarea correspondiente. Este conocimiento a menudo se describe de manera simbólica, por ejemplo, utilizando lógica. Por otro lado, los métodos de RL permiten a los agentes aprender a actuar de manera óptima utilizando, en la mayoría de casos, solo los datos obtenidos al interactuar con su entorno, no requiriendo conocimiento a priori sobre sus dinámicas y sin llevar a cabo ningún proceso de planificación. El conocimiento inferido del entorno a menudo se codifica de manera subsimbólica, por ejemplo, mediante valores numéricos que representan los parámetros o pesos de un modelo de Aprendizaje Automático (ML).
En los últimos años, ha surgido un gran interés por integrar los campos de la AP y el RL, con la esperanza de obtener un método de SDM que exhiba las habilidades de aprendizaje de RL junto con las capacidades de razonamiento de AP. Entre los distintos acercamientos para realizar esta integración se encuentran: el RL basado en modelos, los métodos de ML para aprender el conocimiento utilizado en AP (por ejemplo, para aprender dominios de planificación y heurísticas), y aquellos enfoques denominados neuro-simbólicos, en los cuales se centra esta tesis, que combinan las redes neuronales profundas (DNN) empleadas en los métodos actuales de RL con las representaciones simbólicas comúnmente utilizadas en AP.
El objetivo de esta tesis doctoral es avanzar el campo de la SDM mediante el estudio y desarrollo de métodos novedosos de IA neuro-simbólica. El trabajo realizado durante el desarrollo de la tesis puede agruparse en cuatro contribuciones principales.
Como primera contribución, se realizó una amplia revisión (review) del campo de la SDM, abarcando tanto métodos para resolver tareas de SDM como métodos para aprender su estructura, y poniendo especial énfasis en la representación del conocimiento empleada por las distintas técnicas: simbólica, subsimbólica o híbrida. Hasta donde sabemos, ningún otro trabajo en la literatura ofrece una visión tan completa del campo. Como parte de esta revisión, se propusieron una serie de características que un método ideal de SDM debería cumplir y se utilizaron para analizar las ventajas y desventajas de las distintas técnicas de SDM. Como resultado de este análisis, argumentamos que un método ideal de SDM debería integrar los paradigmas del AP y el RL, al mismo tiempo que emplea una representación híbrida (simbólica y subsimbólica) para su conocimiento. Dado que la IA neuro-simbólica es el enfoque que actualmente más se acerca a esta integración, se concluyó que representa un acercamiento muy prometedor para la consecución de un método ideal de SDM. Por lo tanto, la revisión realizada sirve para justificar la importancia y relevancia de la presente tesis doctoral.
Como segunda contribución, se desarrolló un método neuro-simbólico para mejorar la eficiencia de los algoritmos de AP en escenarios de tiempo real mediante la selección de objetivos. Nuestra propuesta, denominada Deep Q-Planning (DQP), integra el algoritmo de RL profundo Deep Q-Learning con el planificador simbólico FastForward. En cada iteración, Deep Q-Learning se utiliza para seleccionar el siguiente subobjetivo a alcanzar, mientras que el planificador FastForward se encarga de encontrar un plan para conseguir el subobjetivo elegido desde el estado actual. Gracias a la combinación de RL profundo para seleccionar objetivos con la AP para alcanzarlos, DQP es capaz de aprovechar la sinergia existente entre la AP y el RL para obtener soluciones de calidad de manera eficiente. Para evaluar la propuesta, se recurrió al juego conocido como Bounder Dash que proporciona el entorno General Video Game AI (GVGAI). Los resultados obtenidos muestran que, en comparación con Deep Q-Learning, DQP requiere considerablemente menos datos (como mínimo un orden de magnitud menos) y generaliza mucho mejor a nuevos niveles. En comparación con el planificador FastDownward, DQP reduce drásticamente los tiempos de resolución de tareas a cambio de obtener planes solo un 9% más largos (peores) de media.
La tercera contribución fue fruto de una colaboración con el MIT-IBM Watson AI Lab y se correspondió con un enfoque neuro-simbólico para mejorar el rendimiento de los algoritmos de AP mediante el aprendizaje de heurísticas. Esta propuesta conllevó el desarrollo de un método para aprovechar el conocimiento simbólico codificado en las heurísticas admisibles de cara a aprender mejores heurísticas. Nuestro método modela la heurística aprendida como una distribución Gaussiana Truncada (TN) en lugar de una Gaussiana sin truncar (N). La cota inferior de esta distribución TN se establece al valor de una heurística admisible, asegurando de esta forma que las predicciones heurísticas siempre sean mayores que dicha heurística admisible. El modelo elegido (TN en lugar de N) resulta en una nueva función de pérdida a minimizar durante el entrenamiento, diferente al Error Cuadrático Medio (MSE) utilizado normalmente. Llevamos a cabo experimentos donde nuestra función de pérdida se comparó con el MSE de cara a aprender heurísticas en una gran variedad de escenarios, incluyendo cuatro clásicos dominios de planificación. Los resultados obtenidos muestran que nuestra función de pérdida basada en TN provoca que el entrenamiento converja más rápido y, en general, produce heurísticas más precisas que mejoran el rendimiento de los algoritmos de planificación.
Por último, como cuarta contribución, se implementó un método neuro-simbólico para generar problemas de planificación válidos (es decir, resolubles y consistentes), diversos y difíciles para cualquier dominio de planificación clásica. El enfoque propuesto, denominado NeSIG (Neuro-Symbolic Instance Generator), formula la generación de problemas como un Proceso de Decisión de Markov (MDP). El estado inicial del problema se genera añadiendo secuencialmente átomos y objetos a un estado vacío. A continuación, el objetivo del problema se obtiene ejecutando una secuencia de acciones en el estado inicial generado. Dos políticas generativas, codificadas como NLMs y entrenadas con RL profundo, son las encargadas de guiar este proceso generativo hacia problemas consistentes, diversos y difíciles. La diversidad se define como la distancia o disimilitud entre problemas, mientras que la dificultad se mide resolviendo los problemas generados con un algoritmo de AP. Por el contrario, la consistencia depende de la semántica del dominio PDDL y de las preferencias humanas, por lo que la información acerca de esta debe ser proporcionada por el diseñador humano. Para reducir el esfuerzo humano lo máximo posible, se implementó un lenguaje semideclarativo que combina Python y lógica de primer orden, lo que permite codificar las reglas de consistencia con facilidad. Se llevaron a cabo experimentos en cinco dominios de planificación distintos, comparando el enfoque propuesto con generadores de problemas creados a mano para cada dominio. Los resultados obtenidos muestran que NeSIG aprende a generar problemas válidos y diversos de mucha mayor dificultad, 6.8 veces más de media (geométrica), que los generadores manuales, al mismo tiempo que reduce el esfuerzo humano necesario para generarlos. Además, NeSIG también presenta notables capacidades de generalización, siendo capaz de generalizar tanto a distintos tamaños de problema como a distintos planificadores.
En conclusión, las cuatro aportaciones presentadas en esta tesis doctoral han contribuido al avance del campo de la SDM, tanto desde una perspectiva teórica, gracias a la revisión bibliográfica y análisis de los distintos enfoques existentes en el campo, como desde una perspectiva empírica, mediante el desarrollo de novedosos métodos neuro-simbólicos tanto para resolver MDP como para aprender su estructura. Esperamos que el trabajo desarrollado en la presente tesis haya servido para mostrar el gran potencial que posee la IA neuro-simbólica para mejorar la SDM, especialmente mediante la integración de la AP y el RL, y el campo de la IA en su totalidad.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados