Aprendizaje por refuerzo en espacios de estados continuos

Fernando Fernández Rebollo

Ayuda

Aprendizaje por refuerzo en espacios de estados continuos

Autores: Fernando Fernández Rebollo
Directores de la Tesis: Daniel Borrajo Millán (dir. tes.)
Lectura: En la Universidad Carlos III de Madrid ( España ) en 2003
Idioma: español
Tribunal Calificador de la Tesis: Arturo Ribagorda Garnacho (presid.) , Pedro Isasi Viñuela (secret.) , Miguel Ángel Salichs Sánchez-Caballero (voc.) , Eva Onaindia de la Rivaherrera (voc.) , Darío Maravall Gómez-Allende (voc.)
Enlaces
- Tesis en acceso abierto en: e-Archivo Redined
Resumen
- El aprendizaje por refuerzo es un modelo de aprendizaje que permite implementar comportamientos inteligentes de forma automática. La mayor parte de la teoría del aprendizaje por refuerzo tiene su fundamento en la programación dinámica, y por tanto, en lo que se denominan funciones de valor. Sin embargo, la implementación tradicional de estas funciones en forma tabular no es práctica cuando el espacio de estados es muy grande, o incluso infinito. Cuando se produce esta situación, se deben aplicar métodos de generalización que permitan extrapolar la experiencia adquirida para un conjunto limitado de estados, a la totalidad del espacio. Existen dos aproximaciones básicas para resolver este problema. Por un lado, están aquellas técnicas que se basan en obtener una discretización adecuada del espacio de estados. Por otro lado, están los métodos basados en implementar las funciones de valor con algún método supervisado de aproximación de funciones, como, por ejemplo, una red de neuronas. En esta tesis doctoral se pretende desarrollar métodos de aprendizaje por refuerzo que sean aplicables en dominios con espacios de estados continuos, partiendo de las dos aproximaciones planteadas anteriormente, fundiendo las ventajas de una y otra en un método eficaz y eficiente que permita que el aprendizaje sea un proceso totalmente automático.