| Tesis Doctorales de la Universidad de Alcalá |
| AUDIOVISUAL TRACKING OF MULTIPLE SPEAKERS IN SMART SPACES | | Autor/a | Sanabria Macías, Frank | | Departamento | Electrónica | | Director/a | Marrón Romera, Marta | | Codirector/a | Macías Guarasa, Javier | | Fecha de depósito | 31-10-2025 | | Periodo de exposición pública | 1 de noviembre a 14 de noviembre de 2025 | | Fecha de defensa | Sin especificar | | Programa | Electrónica: Sistemas Electrónicos Avanzados. Sistemas Inteligentes (RD 99/2011) | | Mención internacional | No | | Resumen | Esta tesis aborda el seguimiento tridimensional (3D) de múltiples hablantes en espacios inteligentes usando información audiovisual. Estos entornos combinan sensores de visión y audio, sistemas de comunicación e infraestructura computacional para interpretar el comportamiento humano y sus interacciones. El objetivo es aumentar la precisión y la robustez de la localización en condiciones realistas, considerando configuraciones multisensoriales diversas y retos.
La tesis integra modelos visuales probabilísticos, fusión audiovisual y estimación de la pose de cabeza, validado en tareas con uno y varios hablantes. En el componente visual se extiende el detector facial de Viola–Jones para producir salidas probabilísticas mediante plantillas dependientes de la pose, de modo que la localización de la boca sea robusta frente a rotaciones en azimut. Este modelo se incorpora a un filtro de partículas y se evalúa en 2D (una cámara) y en 3D (múltiples cámaras) sobre secuencias de AV16.3. Los resultados muestran precisión en la localización de la boca y en la estimación de profundidad a partir de la dimensión de escala, y ponen de manifiesto la ventaja del seguimiento 3D frente al 2D, especialmente bajo oclusión o ambigüedad de escala.
El marco se amplía a sensores distribuidos combinando una cámara con arreglos de micrófonos separados espacialmente para triangular la posición 3D del hablante. La dirección de llegada estimada con SRP-PHAT (azimut y elevación) se fusiona con el modelo visual multipose dentro del filtro de partículas. En el conjunto AV16.3 esta estrategia reduce errores de profundidad, acelera la recuperación tras pérdidas temporales del seguimiento y supera a métodos del estado del arte en modalidades visual y audiovisual.
También se estudia una configuración con sensores co-localizados, en la que la triangulación no es posible. Se propone GAVT, un algoritmo multimodal orientado a múltiples hablantes y a distintas configuraciones audiovisuales. En su parte visual, el método incorpora plantillas rotadas en roll para manejar rotaciones en el plano imagen, introduce un detector de oclusiones basado en la dispersión de la verosimilitud que refuerza la asociación entre detecciones y trayectorias, e integra dos términos de apoyo basados en histogramas de color y en el modelado primer plano/fondo para aportar evidencia cuando el modelo principal falla. En audio, se formula un SRP-PHAT probabilístico mediante mezclas gaussianas y se diseña una estrategia de asociación entre fuentes acústicas y objetivos rastreados. En AV16.3 y CAV3D, para tareas SOT, SOT2 y MOT, GAVT ofrece mejoras significativas frente a enfoques solo visuales, solo acústicos y audiovisuales del estado del arte.
Por último, se exploran técnicas de estimación de la pose de cabeza con vídeo monocular para reforzar la observación visual mediante una representación continua de la pose orientada a la localización de la boca en 3D. Se estudian dos estrategias LandPoseVLoc, basada en puntos faciales, y LandFreeVLoc sin puntos faciales. Ambos métodos reutilizan módulos de aprendizaje profundo existentes y se adaptan para estimar con precisión la posición 3D de la boca. En AV16.3 y CAV3D, considerando SOT, SOT2 y MOT, LandPoseVLoc mejora la localización facial 3D frente a métodos de referencia.
En conjunto, la investigación demuestra que la incorporación explícita de la pose, la fusión probabilística y la integración audiovisual, junto con técnicas HPE robustas, incrementan de forma sustancial el rendimiento del seguimiento de hablantes en entornos complejos. Las contribuciones proponen trayectorias más fiables, mayor resiliencia ante o oclusiones y pérdidas temporales y una estimación de profundidad más precisa. |
|