Tesis Doctorales de la Universidad de Alcalá |
PREDICTING PEDESTRIAN CROSSING INTENTIONS USING CONTEXTUAL INFORMATION | Autor/a | Lorenzo Diaz, Javier | Departamento | Teoría de la Señal y Comunicaciones | Director/a | Sotelo Vázquez, Miguel Ángel | Codirector/a | Parra Alonso, Ignacio | Fecha de defensa | 27-06-2022 | Calificación | Sobresaliente cum laude | Programa | Tecnologías de la Información y las Comunicaciones (RD 99/2011) | Mención internacional | Sí | Resumen | El entorno urbano es uno de los escenarios más complejos para un vehículo autónomo, ya que lo comparte con otros tipos de usuarios conocidos como usuarios vulnerables de la carretera, con los peatones como mayor representante. Estos usuarios se caracterizan por su gran dinamicidad. A pesar del gran número de interacciones entre vehículos y peatones, la seguridad de estos últimos no ha aumentado al mismo ritmo que la de los ocupantes de los vehículos. Por esta razón, es necesario abordar este problema. Una posible estrategia estaría basada en conseguir que los vehículos anticipen el comportamiento de los peatones para minimizar situaciones de riesgo, especialmente presentes en el momento de cruce.
El objetivo de esta tesis doctoral es alcanzar dicha anticipación mediante el desarrollo de técnicas de predicción de la acción de cruce de peatones basadas en aprendizaje profundo.
Previo al diseño e implementación de los sistemas de predicción, se ha desarrollado un sistema de clasificación con el objetivo de discernir a los peatones involucrados en la escena vial. El sistema, basado en redes neuronales convolucionales, ha sido entrenado y validado con un conjunto de datos personalizado. Dicho conjunto se ha construido a partir de varios conjuntos existentes y aumentado mediante la inclusión de imágenes obtenidas de internet. Este paso previo a la anticipación permitiría reducir el procesamiento innecesario dentro del sistema de percepción del vehículo.
Tras este paso, se han desarrollado dos sistemas como propuesta para abordar el problema de predicción. El primer sistema, basado en redes convolucionales y recurrentes, obtiene una predicción a corto plazo de la acción de cruce realizada un segundo en el futuro. La información de entrada al modelo está basada principalmente en imagen, que permite aportar contexto adicional del peatón. Además, el uso de otras variables relacionadas con el peatón junto con mejoras en la arquitectura, permiten mejorar considerablemente los resultados en el conjunto de datos JAAD.
El segundo sistema se basa en una arquitectura end-to-end basado en la combinación de redes neuronales convolucionales tridimensionales y/o el codificador de la arquitectura Transformer. En este modelo, a diferencia del anterior, la mayoría de las mejoras están centradas en transformaciones de los datos de entrada. Tras analizar dichas mejoras, una serie de modelos se han evaluado y comparado con otros métodos utilizando tanto el conjunto de datos JAAD como PIE. Los resultados obtenidos han conseguido liderar el estado del arte, validando la arquitectura propuesta. |
|