Tesis Doctorales de la Universidad de Alcalá |
A DEEP REINFORCEMENT LEARNING METHODOLOGY FOR DC-DC POWER ELECTRONIC CONVERTER CONTROL | Autor/a | Mazaheri Tehrani, Nafiseh | Departamento | Electrónica | Director/a | Cóbreces Álvarez, Santiago | Codirector/a | Santamargarita Mayor, Daniel | Fecha de defensa | 10-04-2025 | Calificación | Sobresaliente | Programa | Electrónica: Sistemas Electrónicos Avanzados. Sistemas Inteligentes (RD 99/2011) | Mención internacional | No | Resumen | Los recientes avances en aprendizaje por refuerzo profundo (DRL) han incrementado el interés en su uso como una solución sin modelo para el control de convertidores de potencia DC–DC. A diferencia de los controladores convencionales basados en señales pequeñas, que presentan dificultades para adaptarse a incertidumbres y perturbaciones, los controladores basados en DRL ofrecen adaptabilidad dinámica y un mejor desempeño, particularmente en convertidores más complejos y en sistemas con comportamientos no lineales adicionales y mayores complejidades de modelado. Esta tesis propone una metodología de diseño que utiliza el algoritmo Proximal Policy Optimization (PPO) como un método eficiente de DRL para lograr un control casi óptimo en diversas topologías de convertidores de potencia DC–DC, con un enfoque en la regulación de voltaje y la limitación de corriente. Para demostrar el desempeño del controlador propuesto, se examina un convertidor buck operando en modo de conducción continua (CCM) y modo de conducción discontinua (DCM) bajo diversas condiciones de carga, junto con un convertidor Dual Active Bridge (DAB).
La tesis aborda desafíos de implementación en tiempo real, como los retrasos en componentes de hardware, como FPGAs, ADCs y otros sistemas relacionados, así como el tamaño de la red. Las contribuciones clave incluyen la introducción de una función de recompensa para la reducción de chattering, el diseño de características de entrada, y la optimización de la arquitectura de la red neuronal. Estas mejoras fortalecen la regulación del voltaje, implementan la limitación de corriente y mejoran la eficiencia computacional de la red neuronal para su implementación práctica. Los resultados de simulación y experimentales demuestran la efectividad del controlador basado en DRL en escenarios del mundo real, mostrando su robustez frente a perturbaciones periódicas de entrada con diferentes frecuencias, incertidumbres en parámetros, grandes variaciones y condiciones no vistas.
Además, se evalúa un método safe DRL para la limitación de corriente a través de dos enfoques : uno mediante la incorporación de un mecanismo de seguridad dentro de la función de recompensa, y el otro mediante la adición de un mecanismo de seguridad externo al método DRL en el modelo de un convertidor buck. Ambos enfoques aseguran un funcionamiento seguro, y las comparaciones con métodos convencionales resaltan su efectividad para mantener la estabilidad del sistema y garantizar un funcionamiento seguro bajo diversas condiciones de carga.
La adaptabilidad de la metodología se demuestra a través de su aplicación a los convertidores DAB, donde los fundamentos de entrenamiento están estrechamente alineados con los del convertidor buck. Esta aplicación demuestra que la metodología puede mejorar el rendimiento de sistemas de convertidores complejos proporcionando regulación de voltaje precisa y comportamiento dinámico robusto a través de resultados de simulación y experimentales. Otra contribución clave de esta tesis es la introducción de una ganancia ajustable en la entrada del error integral, que permite controlar las respuestas transitorias sin la necesidad de reentrenar el agente DRL. Los resultados de simulación y experimentales confirman que este enfoque permite ajustar la respuesta dinámica simplemente modificando la ganancia integral en la entrada de la red neuronal artificial (ANN), mejorando así la flexibilidad del sistema.
Además, este trabajo explora el equilibrio entre el uso de memoria, la complejidad computacional y el rendimiento en tiempo real, demostrando cómo los tamaños optimizados de las redes neuronales pueden lograr un control eficiente en tiempo real con una menor sobrecarga. Aunque implementado en un simulador en tiempo real OPAL-RT para prototipado rápido, esta tesis también incluye un estudio de viabilidad que demuestra el potencial de implementar el controlador propuesto en dispositivos restringidos como FPGAs y microcontroladores, destacando la facilidad de implementación de las ANN. Adicionalmente, se realiza una comparación de diferentes algoritmos DRL, mostrando que el agente PPO supera a los demás en términos de eficiencia. El controlador basado en DRL también se compara con los controladores convencionales, demostrando su superioridad tanto en rendimiento como en robustez.
Esta tesis proporciona pautas para la aplicación de controladores basados en DRL en convertidores de electrónica de potencia en escenarios del mundo real y ofrece perspectivas para diseños futuros en otras topologías de convertidores. |
|