Evaluation of blood glucose level control in type 1 diabetic patients using online and offline reinforcement learning

Phuwadol Viroonluecha

Ayuda

Evaluation of blood glucose level control in type 1 diabetic patients using online and offline reinforcement learning

Autores: Phuwadol Viroonluecha
Directores de la Tesis: Esteban Egea López (dir. tes.) , José Santa Lozano (codir. tes.)
Lectura: En la Universidad Politécnica de Cartagena ( España ) en 2023
Idioma: español
Número de páginas: 96
Títulos paralelos:
- Evaluación del control del nivel de glucosa en sangre en pacientes diabéticos tipo 1 usando aprendizaje reforzado
Tribunal Calificador de la Tesis: María del Carmen Garrido Carrera (presid.) , María Victoria Bueno Delgado (secret.) , Virginie Dos Santos Felizardo (voc.)
Enlaces
- Tesis en acceso abierto en: Repositorio Digital de la UPCT
Resumen
- español
  Resumen de la tesis:
  
  Los pacientes con diabetes tipo 1 deben monitorear de cerca sus niveles de glucemia y administrar insulina para controlarlos. Se han propuesto métodos de control automatizado de la glucemia que eliminan la necesidad de intervención humana, y recientemente, el aprendizaje por refuerzo, un tipo de algoritmo de aprendizaje automático, se ha utilizado como un método efectivo de control en entornos simulados. Actualmente, los métodos utilizados para los pacientes con diabetes, como el régimen basal- bolus y los monitores continuos de glucemia, tienen limitaciones y todavía requieren intervención manual. Los controladores PID se utilizan ampliamente por su simplicidad y robustez, pero son sensibles a factores externos que afectan su efectividad. Las obras existentes en la literatura de investigación se han enfocado principalmente en mejorar la precisión de estos algoritmos de control. Sin embargo, todavía hay margen para mejorar la adaptabilidad a los pacientes individuales. La siguiente fase de investigación tiene como objetivo optimizar aún más los métodos actuales y adaptar los algoritmos para controlar mejor los niveles de glucemia. Una solución potencial es usar el aprendizaje por refuerzo (RL) para entrenar los algoritmos en base a datos individuales del paciente. En esta tesis, proponemos un control en lazo cerrado para los niveles de glucemia basado en el aprendizaje profundo por refuerzo. Describimos la evaluación inicial de varias alternativas llevadas a cabo en un simulador realista del sistema glucorregulador y proponemos una estrategia de implementación particular basada en reducir la frecuencia de las observaciones y recompensas pasadas al agente, y usar una función de recompensa simple. Entrenamos agentes con esa estrategia para tres grupos de clases de pacientes, los evaluamos y los comparamos con otras alternativas. Nuestros resultados muestran que nuestro método con Proximal Policy Optimization es capaz de superar a los métodos tradicionales, así como a propuestas similares recientes, al lograr períodos más prolongados de estado glicémico seguro y de bajo riesgo. Como extensión del aporte anterior, constatamos que la aplicación práctica de los algoritmos de control de glucemia requeriría interacciones de prueba y error con los pacientes, lo que es una limitación para entrenar el sistema de manera efectiva. Como alternativa, el aprendizaje reforzado sin conexión no requiere interacción con humanos y la investigación previa sugiere que se pueden lograr resultados prometedores con conjuntos de datos obtenidos sin interacción, similar a los algoritmos de aprendizaje automático clásicos. Sin embargo, aún no se ha evaluado la aplicación del aprendizaje reforzado sin conexión al control de la glucemia. Por lo tanto, en esta tesis, evaluamos exhaustivamente dos algoritmos de aprendizaje reforzado sin conexión para el control de glucemia y examinamos su potencial y limitaciones. Evaluamos el impacto del método utilizado para generar los conjuntos de datos de entrenamiento, el tipo de trayectorias (secuencias de estados, acciones y recompensas experimentadas por un agente en un entorno,) empleadas (método único o mixto), la calidad de las trayectorias y el tamaño de los conjuntos de datos en el entrenamiento y el rendimiento, y los comparamos con las alternativas como PID y Proximal Policy Optimization. Nuestros resultados demuestran que uno de los algoritmos de aprendizaje reforzado sin conexión evaluados, Trajectory Transformer, es capaz de rendir al mismo nivel que alternativas, pero sin necesidad de interacción con pacientes reales durante el entrenamiento.
- English
  Patients with Type 1 diabetes are required to closely monitor their blood glucose levels and administer insulin to manage them. Automated glucose control methods that eliminate the need for human intervention have been proposed, and recently, reinforcement learning, a type of machine learning algorithm, has been used as an effective control method in simulated environments.
  
  Currently, the methods used for diabetes patients, such as the basal-bolus regime and continuous glucose monitors, have limitations and still require manual intervention. The PID controllers are widely used for their simplicity and robustness, but they are sensitive to external factors affecting their effectiveness. The existing works in the research literature have mainly focused on improving the accuracy of these control algorithms. However, there is still room for improvement regarding adaptability to individual patients. The next phase of research aims to further optimize the current methods and adapt the algorithms to better control blood glucose levels. Machine learning proposals have paved the way partially, but they can generate generic models with limited adaptability. One potential solution is to use reinforcement learning (RL) to train the algorithms based on individual patient data.
  
  In this thesis, we propose a closed-loop control for blood glucose levels based on deep reinforcement learning. We describe the initial evaluation of several alternatives conducted on a realistic simulator of the glucoregulatory system and propose a particular implementation strategy based on reducing the frequency of the observations and rewards passed to the agent, and using a simple reward function. We train agents with that strategy for three groups of patient classes, evaluate and compare it with alternative control baselines. Our results show that our method with Proximal Policy Optimization is able to outperform baselines as well as similar recent proposals, by achieving longer periods of safe glycemic state and low risk.
  
  As an extension of the previous contribution, we have noticed that, practical application of blood glucose control algorithms would necessitate trial-and-error interaction with patients, which could be a limitation for effectively training the system. As an alternative, offline reinforcement learning does not require interaction with subjects and preliminary research suggests that promising results can be achieved with datasets obtained offline, similar to classical machine learning algorithms. However, application of offline reinforcement learning to glucose control has to be evaluated yet. Thus, in this thesis, we comprehensively evaluate two offline reinforcement learning algorithms for blood glucose control and examine their potential and limitations. We assess the impact of the method used to generate training datasets, the type of trajectories employed (sequences of states, actions, and rewards experienced by an agent in an environment over time), the quality of the trajectories, and the size of the datasets on training and performance, and compare them to commonly used baselines such as PID and Proximal Policy Optimization. Our results demonstrate that one of the offline reinforcement learning algorithms evaluated, Trajectory Transformer, is able to perform at the same level as the baselines, but without the need for interaction with real patients during training.