, Francesc Bonada (dir. tes.) 
Esta tesis doctoral investiga el uso del aprendizaje por refuerzo (RL) para el control dinámico en entornos industriales, con un enfoque en el Problema de Control del Prensado en Caliente en la industria del conformado de metales. Los enfoques de control tradicionales son en gran medida estáticos y reactivos, lo que limita el rendimiento en contextos industriales cada vez más dinámicos. El RL se presenta como una alternativa proactiva y adaptable, capaz de optimizar procesos en tiempo real. La investigación evalúa diversos métodos de RL—programación dinámica, RL tabular, RL profundo y RL offline—en entornos deterministas y estocásticos, utilizando simulaciones, modelos sustitutos y conjuntos de datos offline. Los resultados demuestran que el control basado en RL supera de forma consistente a los métodos tradicionales, especialmente bajo condiciones estocásticas. Para reducir la brecha entre la simulación y la implementación en entornos reales, se propone un enfoque híbrido de entrenamiento que combina simulación y recopilación de datos en entornos controlados. Asimismo, el entrenamiento de RL offline con datos obtenidos a partir de políticas expertas dinámicas y tasas de exploración del 20–40 % resulta particularmente eficaz. No obstante, persisten desafíos relacionados con la seguridad, la calidad de los datos y la resistencia organizacional, los cuales deben abordarse para facilitar una adopción más amplia del RL en entornos industriales.
Aquesta tesi doctoral investiga l’ús de l’aprenentatge per reforç (RL) per al control dinàmic en entorns industrials, amb un enfocament en el Problema de Control del Premsat en Calent dins la indústria del conformament de metalls. Els enfocaments de control tradicionals són majoritàriament estàtics i reactius, cosa que limita el rendiment en contextos industrials cada vegada més dinàmics. El RL es presenta com una alternativa proactiva i adaptable, capaç d’optimitzar processos en temps real. La recerca avalua diversos mètodes de RL—programació dinàmica, RL tabular, RL profund i RL offline—en entorns deterministes i estocàstics, utilitzant simulacions, models substitutius i conjunts de dades offline. Els resultats demostren que el control basat en RL supera de manera consistent els mètodes tradicionals, especialment sota condicions estocàstiques. Per reduir la bretxa entre la simulació i la implementació en entorns reals, es proposa un enfocament híbrid d’entrenament que combina simulació i recollida de dades en entorns controlats. Així mateix, l’entrenament de RL offline amb dades obtingudes a partir de polítiques expertes dinàmiques i taxes d’exploració del 20–40 % resulta especialment eficaç. Tanmateix, persisteixen desafiaments relacionats amb la seguretat, la qualitat de les dades i la resistència organitzativa, els quals cal abordar per facilitar una adopció més àmplia del RL en entorns industrials.
This doctoral thesis investigates the use of reinforcement learning (RL) for dynamic control in industrial environments, focusing on the Press Hardening Control Problem in the metal forming industry. Traditional control approaches are largely static and reactive, limiting performance in increasingly dynamic industrial contexts. RL offers a proactive and adaptive alternative, capable of optimizing processes in real time. The research evaluates various RL methods—dynamic programming, tabular RL, deep RL, and offline RL—across deterministic and stochastic environments, using simulations, surrogate models, and offline datasets. The results demonstrate that RL-based control consistently outperforms traditional methods, particularly under stochastic conditions. To bridge the gap between simulation and real-world implementation, a hybrid training approach is proposed, combining simulation with data collection in controlled environments. Additionally, offline RL training using data collected from expert dynamic policies with exploration rates between 20–40% proves especially effective. Nonetheless, challenges related to safety, data quality, and organizational resistance remain and must be addressed to enable broader adoption of RL in industrial settings.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados