Miguel Carlos Martín Blanco
Dentro del ámbito de la toma de decisiones secuenciales en entornos estocásticos, el equilibrio entre explotación y exploración juega un papel clave a la hora de diseñar algoritmos que generen el conjunto de decisiones óptimas que produzcan el mayor premio o valor esperado.
Este tipo de problema, conocido como Multi-armed Bandit, es abordado en la literatura actual a través de una gran variedad de métodos que ofrecen soluciones óptimas o aproximadamente óptimas a modelos simplificados de la realidad, donde se conoce el tipo de distribución que tienen las recompensas de las acciones y, además, éstas son recibidas de forma inmediata.
Sin embargo, en muchas situaciones reales, estas simplificaciones no se cumplen provocando una degradación considerable en el rendimiento de mucho de estos métodos. Un ámbito concreto en el que esta situación se produce es el de los servicios de marketing digital y recomendación de contenidos. Estos servicios tienen que ofrecer a sus clientes uno entre conjunto de contenidos u ofertas con el objetivo de maximizar algún ratio o indicador (conversiones, ventas, etc.). En muchas situaciones el gestor de los contenidos desconoce la distribución que puede seguir el indicador a optimizar (por ejemplo, tiempo leyendo un contenido, o ingresos por cliente y oferta) y en la mayoría de los casos se producen retardos a la hora de actualizar dichas recompensas.
En esta Tesis Doctoral proponemos una nueva familia de métodos que ofrezca una buena solución al problema Multi-armed Bandit en este tipo de situaciones comunes en sistemas reales donde la distribución de los premios es desconocida y además estos se actualizan con retardo. Para ello, además hacemos una evaluación de estos métodos y los comparamos con el estado del arte en sistemas de marketing digital y gestores de contenido. Los resultados obtenidos reflejan que esta nueva familia de métodos mejora en la mayoría de los escenarios a los métodos del estado del arte, convirtiéndose por tanto en una solución recomendable para este tipo de problemas en entornos reales con las características anteriormente descritas.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados