En la actualidad, las técnicas de Big Data y aprendizaje profundo (Deep Learning) están cambiando la forma en la que interactuamos con la tecnología. Desde recomendadores de contenido hasta tecnologías capaces de crear arte, la ubucuidad de las redes neuronales es evidente hoy día, y se preveé creciente en el medio/largo plazo. Por ello, y ante la inmensidad de campos en los que el Deep Learning es aplicable, resulta interesante extrapolar o “reutilizar” el conocimiento generado en un problema para resolver otros problemas relacionados con mayor eficacia y rapidez. Este procedimiento, conocido como aprendizaje por transferencia (Transfer Learning), es una técnica muy extendida en Deep Learning. En este sentido, un paradigma del aprendizaje en el que la transferencia de conocimiento entre problemas ha demostrado ser muy efectiva es el aprendizaje por refuerzo (Reinforcement Learning), ya que atiende varias de las debilidades inherentes al proceso de entrenamiento de un agente: la eficiencia de muestreo en la exploración del espacio de soluciones, o la posibilidad de que el entrenamiento del agente se estanque en políticas sub-óptimas. Además de las técnicas tradicionalmente empleadas para paliar estos inconvenientes, como la utilización de múltiples agentes o el uso de mecanismos de inducción de curiosidad comportamental, se ha demostrado que la computación evolutiva puede dar lugar a procedimientos híbridos de entrenamiento eficientes en tiempo para agentes de aprendizaje por refuerzo en entornos de aplicación complejos. En este contexto, la presente tesis doctoral estudia cómo la computación evolutiva puede ayudar a que los modelos de aprendizaje por refuerzo basados en Deep Learning sean capaces de adaptarse rápidamente a nuevos escenarios merced a la reutilización del conocimiento generado en problemas precedentes. Para ello, la investigación se centrará en el uso de una rama concreta de reciente aparición en la computación evolutiva, denominados algoritmos multifactoriales, que permiten resolver varios problemas de optimización de manera simultánea, aprovechando las posibles sinergias existentes entre sus espacios de búsqueda y/o soluciones. La tesis parte de la observación de que el entrenamiento de un modelo de aprendizaje por refuerzo basado en Deep Learning puede ser formulado como un problema de optimización y por tanto, abordable mediante computación evolutiva. Esta observación abre la posibilidad de que, en escenarios de aprendizaje por refuerzo con múltiples tareas (multitask reinforcement learning), los algoritmos multifactoriales anteriormente citados puedan ser empleados para automatizar el intercambio de conocimiento modelado para cada una de las tareas entre los agentes que atacan cada una de ellas. Esta primera hipótesis de investigación abordada por la tesis se complementa con una segunda idea: la generación de conocimiento generalizable a nuevas tareas de aprendizaje por refuerzo a partir del entrenamiento conjunto de agentes en otras tareas previas. En particular la tesis se centra en la casuística zero-shot, por la que no es posible conocer a priori nada de las nuevas tareas, ni actualizar el modelo a posteriori con información recolectada de dichas tareas. Este escenario, también abordado mediante computación evolutiva y algoritmos multifactoriales, supone un paso más allá hacia la capacidad de los modelos de Inteligencia Artificial para generar conocimiento generalizable que le permita adaptarse autónoma y eficientemente a nuevas tareas de aprendizaje, avanzando firmemente hacia un nuevo paradigma del aprendizaje: GPAI (General-Purpose Artificial Intelligence).
Currently, Big Data techniques and Deep Learning are changing the way humankind interacts with technology. From content recommendation to technologies capable of creating art, the ubiquity of neural networks is evident today, and is expected to grow in the medium to long term. Given the diversity of fields where Deep Learning is applied nowadays, it is interesting to extrapolate or “reuse” the knowledge generated in one problem to solve other related problems with proficiency, efficiency and speed. This procedure, known as Transfer Learning, is widely used in modeling tasks resorting to Deep Learning models. In this sense, a paradigm in which knowledge transfer between tasks has been shown to be very effective is Reinforcement Learning. Indeed, Transfer Learning addresses several of the inherent weaknesses in the learning process of an agent: the sampling efficiency when exploring the environment to be solved, or the possibility that the agent’s training may get stuck in sub-optimal policies. Besides traditionally used techniques to alleviate these drawbacks, such as the use of multiple agents or mechanisms to induce behavioral curiosity, it has been shown that evolutionary computation can give rise to efficient hybrid training procedures for developing reinforcement learning agents suited to deal with challenging environments. In this context, this Thesis studies how evolutionary computation can help Reinforcement Learning models based on Deep Learning to quickly adapt to new scenarios through the reuse of knowledge generated in previous modeling problems. For this purpose, the research focus is placed on the use of a specific branch of recently appeared in evolutionary computation, known as multi-factorial algorithms. Techniques belonging to this family of evolutionary optimization methods allow solving several problem instances simultaneously, taking advantage of possible synergies existing between their search space and/or solutions. The Thesis departs from the observation that the training process of a Reinforcement Learning model based on Deep Learning can be formulated as an optimization problem, and therefore, is feasible to be tackled by using evolutionary computation. This observation paves the way towards the possibility that, in multitask Reinforcement Learning scenarios, the previously mentioned multi-factorial algorithms can be used to automate the exchange of knowledge modeled for each of the tasks among the agents addressing each of such tasks. This first research hypothesis addressed by the Thesis is complemented by a second idea: the generation of generalizable knowledge to new Reinforcement Learning tasks from the simultaneous training of agents on previous Reinforcement Learning tasks. In particular, the Thesis focuses on the zero-shot assumption, by which it is not possible to know beforehand anything about the new tasks to be addressed, nor to update the model with information collected from these tasks during inference time. This scenario, also tackled through evolutionary computation and multi-factorial algorithms, represents a step forward towards the ability of Artificial Intelligence models to generate knowledge that allows them to adapt autonomously and efficiently to new tasks, advancing steadily towards a new paradigm: GPAI (General-Purpose Artificial Intelligence).
© 2008-2024 Fundación Dialnet · Todos los derechos reservados