ESCUELA DE DOCTORADO

 
Tesis Doctorales de la Universidad de Alcalá
ANOMALY DETECTION FOR VIDEO SURVEILLANCE APPLICATIONS
Autor/aSarker, Mohammad Ibrahim
DepartamentoElectrónica
Director/aMarrón Romera, Marta
Codirector/aLosada Gutiérrez, Cristina
Fecha de defensa22-03-2024
CalificaciónSobresaliente
ProgramaElectrónica: Sistemas Electrónicos Avanzados. Sistemas Inteligentes (RD 99/2011)
Mención internacional
ResumenEsta Tesis Doctoral presenta un enfoque innovador para mejorar la seguridad pública mediante la automatización de la detección de anomalías en secuencias de videovigilancia, abordando amenazas críticas como robos, accidentes y comportamientos antisociales. En el centro de esta investigación está la integración del Aprendizaje de Múltiples Instancias (Multiple Instance Learning, MIL), una metodología de aprendizaje supervisado débilmente, con arquitecturas de aprendizaje profundo (Deep Learning, DL) de vanguardia. Esta fusión representa un avance notable en el campo de la videovigilancia y la detección de anomalías, aprovechando eficazmente las fortalezas combinadas de ambos: MIL y técnicas avanzadas de visión por computador. El estudio introduce tres arquitecturas principales de DL: Attention 3D-ResNet-152, Transformer 3D-ResNet-152 y modelos de Transformer 3D-ResNet-152 Ensemble. Todos ellos están meticulosamente diseñados para detectar y clasificar eventos anómalos en escenarios del mundo real, mostrando un rendimiento excepcional en conjuntos de datos extensos como ShanghaiTech y UCF-Crime. El modelo Attention 3D-ResNet-152 sobresale en la extracción de características espaciotemporales, mientras que el Transformer 3D-ResNet-152 aprovecha las redes de Transformers para capturar dependencias de largo alcance en datos de video. El modelo Ensemble 3D-ResNet-152 Transformer, que combina las fortalezas de los anteriores, ofrece una robustez y precisión sin igual. Los hallazgos de este estudio subrayan la eficacia del sistema de detección de anomalías propuesto, demostrando su capacidad para aprender de datos débilmente etiquetados y detectar anomalías con precisión. La combinación de MIL con arquitecturas de DL de última generación, incluidos los mecanismos de atención y Transformers, representan un avance importante en la tecnología de videovigilancia. Una contribución significativa de esta investigación es el desarrollo de una arquitectura de detección de anomalías en tiempo real, que integra los modelos avanzados de DL con capacidades eficientes de procesamiento en tiempo real. Este sistema, respaldado por una interfaz gráfica de usuario (Graphical User Interface, GUI) amigable, permite un procesamiento rápido de los frames de video y una detección de anomalías oportuna, mejorando la aplicación práctica del sistema propuesto. Con todo ello puedo concluir que esta investigación no solo proporciona una solución robusta, eficiente y escalable para la detección de anomalías en escenas de videovigilancia y en tiempo real, sino que también establece un nuevo punto de referencia en el ámbito de la seguridad pública, allanando el camino para futuras innovaciones en estas tecnologías de vigilancia.