Ir al contenido

Documat


Q-learning with a degenerate function approximation

  • Autores: Alejandro Gabriel Agostini
  • Directores de la Tesis: Enric Celaya Llover (dir. tes.) Árbol académico, Angela Nebot Castells (dir. tes.) Árbol académico
  • Lectura: En la Universitat Politècnica de Catalunya (UPC) ( España ) en 2011
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: Ramón López de Mántaras (presid.) Árbol académico, Mario Martín Muñoz (secret.) Árbol académico, Luis Montesano (voc.) Árbol académico, Justus Piater (voc.) Árbol académico, Cecilio Angulo Bahón (voc.) Árbol académico
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • En esta tesis proponemos una estrategia de generalización para aprendizaje por refuerzo en entornos continuos que, en lugar de usar un solo aproximador de funciones, prueba m¿ultiples aproximadores de funciones en paralelo, cada uno definido en una región diferente del dominio, que compiten para proveer la inferencia en un punto dado. El uso de una estrategia competitiva incrementa las oportunidades de tener un buen aproximador entre los que compiten, evitando la restricci¿on de estar supeditado a el desempe ño de un solo aproximador. La estrategia propuesta permite reducir el número de experiencias necesarias para la convergencia y conseguir una convergencia más estable con respecto a la que se obtiene usando un solo aproximador. La reducción en el n¿umero de experiencias se debe a que, en cada punto evaluado, en general existe un aproximador dentro de los que compiten que generaliza mejor que un aproximador único y global. La convergencia más estable se debe a que, si la aproximación de un aproximador se degrada, éste será respaldado por otro aproximador que normalmente tendrá mejor desempeño, manteniendo un buen desempeño global del sistema.

      Para la selección del mejor aproximador en un punto el método asocia a cada aproximador una función de relevancia que cuantifica la calidad de su aproximación en el punto dado. El aproximador con mayor relevancia en el punto es seleccionado para la inferencia. La función de relevancia se define usando una estimaci¿on paramétrica de la varianza muestral y una estimaci¿on paramétrica de la densidad muestral en el dominio, las cuales se usan para cuantificar la precisi¿on y la confianza en la aproximación en ese punto, respectivamente. Todas las estimaciones paramétricas involucradas en la competición, i.e. la recompensa acumulada, la varianza muestral y la densidad muestral en el dominio, se obtienen de un modelo de densidad de probabilidad definido en el espacio conjunto entrada-salida de cada aproximador. De este modelo de densidad conjunta es posible obtener la distribución de probabilidad de la recompensa acumulada condicionada a una situación y una acci¿on. De este distribución podemos obtener una estimaci ón del valor esperado de la recompensa acumulada en esa situación y acción, la cual se usa como el valor inferido por el aproximador, y la varianza de los valores de recompensa acumulada, usada en la función de relevancia.

      La densidad muestral en el dominio se obtiene a partir del número de ejemplos recolectados en el dominio del aproximador y de la distribución de probabilidad en el dominio obtenida de la marginalización de la variable de salida en el modelo de densidad conjunto. El modelo de densidad está representado por un modelo de mezclas Gaussianas. Los parámetros del modelo se actualizan usando una versión incremental del algoritmo de Esperanza-Maximizaci¿on que usa la información de densidad para producir un olvido basado en la nueva información provista en lugar del tiempo, previniendo de esta manera la distorsión que normalmente ocurre cuando se usa un olvido basado en el tiempo para olvidar las entradas pasadas en la aproximación de una función no estacionaria.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno