ESCUELA DE DOCTORADO

 
Tesis Doctorales de la Universidad de Alcalá
HYBRID ONLINE POMDP AND DEEP REINFORCEMENT LEARNING IN DECISION MAKING FOR AUTONOMOUS DRIVING
Autor/aGutiérrez Moreno, Rodrigo
DepartamentoElectrónica
Director/aBergasa Pascual, Luis Miguel
Codirector/aLópez Guillén, María Elena
Fecha de defensa27-05-2024
CalificaciónSobresaliente
ProgramaElectrónica: Sistemas Electrónicos Avanzados. Sistemas Inteligentes (RD 99/2011)
Mención internacional
ResumenLa toma de decisiones es un tema fundamental en el ámbito de los vehículos inteligentes, donde la conducción autónoma representa desafíos significativos debido a los distintos comportamientos de los vehículos encontrados en la carretera y a los variados escenarios posibles en un entorno urbano. Esta tesis doctoral se centra en la implementación de un módulo de toma de decisiones híbrido en una pila de conducción autónoma para estos entornos, aprovechando una combinación de aprendizaje por refuerzo profundo basado en POMDP para las decisiones de alto nivel y metodologías de control tradicionales para la planificación local. El objetivo principal de esta tesis es desarrollar una arquitectura realista, validable en un vehículo real, que combine la fiabilidad de las técnicas tradicionales con la adaptabilidad de los enfoques de aprendizaje profundo. La arquitectura híbrida de toma de decisiones propuesta comprende distintas capas estratégica, táctica y operativa. La capa estratégica se encarga de la generación de una trayectoria a seguir, mientras que la capa táctica toma decisiones de alto nivel. Se evaluaron cuatro algoritmos de aprendizaje por refuerzo profundo (DQN, A2C, TRPO y PPO), resultando TRPO el más eficiente para esta aplicación. La capa operativa aplica un controlador LQR (Linear-Quadratic Regulator) para el seguimiento de la trayectoria y un controlador MPC (Model Predictive Controller) para ejecutar las maniobras. La integración en línea de estos dos controladores permite la ejecución segura y confortable de las acciones de alto nivel. Esta arquitectura se evaluó en varios escenarios urbanos, como cambios de carril, rotondas, incorporaciones y cruces, utilizando las plataformas de simulación SUMO (Simulation of Urban MObility) y CARLA (Car Learning to Act). Esta propuesta no solo resuelve casos de uso complejos de manera individual, sino también en secuencias concatenadas. Además, este trabajo investiga la transición desde entornos de entrenamiento simulados a experimentos reales de la arquitectura de conducción autónoma modular. Esta transición se realiza mediante un aprendizaje curricular a través de la implementación de gemelos digitales y tecnologías de inteligencia paralela, reduciendo significativamente la brecha entre simulacion y realidad. La viabilidad de este enfoque se evidencia a través de una ejecucion paralela, donde las pruebas simuladas y las reales se realizan de forma sincronizada. Nuestro módulo táctico se compara cuantitativamente en SUMO con arquitecturas del estado del arte dentro del marco estándar SMARTS (Scalable Multi-Agent Reinforcement Learning Training School), logrando resultados competitivos en varios escenarios. Además, el rendimiento de la arquitectura completa de navegación autónoma se evalúa en CARLA utilizando métricas como la tasa de éxito, las dinámicas de aceleración, la sobreaceleración y el tiempo para completar escenarios, comparando nuestro sistema con el Autopilot de CARLA. Los resultados demuestran que, aunque las tasas de éxito son similares, nuestro sistema destaca significativamente en términos de suavidad y eficiencia en la conducción. En última instancia, esta tesis sienta las bases para un sistema de decision autónomo más versátil, seguro y eficiente. Muestra el potencial de las arquitecturas híbridas para impulsar la vanguardia de la investigación en conducción autónoma y sienta las bases para futuras exploraciones en la integración del entrenamiento basado en simulación con la aplicación en el mundo real.