Online analysis of streaming videos for human action understanding

Marcos Baptista Ríos

Ayuda

Online analysis of streaming videos for human action understanding

Autores: Marcos Baptista Ríos
Directores de la Tesis: Roberto Javier López Sastre (dir. tes.)
Lectura: En la Universidad de Alcalá ( España ) en 2020
Idioma: español
Tribunal Calificador de la Tesis: Manuel J. Marín Jiménez (presid.) , María del Pilar Martín Martín (secret.) , Fabian Caba Heilbron (voc.)
Enlaces
- Tesis en acceso abierto en: TESEO
Resumen
- español
  Esta tesis forma parte del proyecto de investigación PREPEATE, llevado a cabo en el grupo de investigación GRAM de la Universidad de Alcalá. En él se pretende desarrollar una plataforma de robótica asistencial basada en técnicas avanzadas de inteligencia artificial. El robot estudiará el comportamiento humano mediante el análisis de vídeo. Para ello, la tesis aborda los problemas de Propuestas Temporales de Acciones (PTA) y Detección de Acciones Online (DAO) en vídeos.
  
  En cuanto al primer problema, las soluciones más recientes lo abordan con un proceso “offline” y supervisado, que implica tener el vídeo con anterioridad y datos completamente anotados. En el escenario definido por el robot, el vídeo se procesa según se recoge y las anotaciones no siempre están disponibles. Por ello, se presenta una solución “online” y no supervisada. Ésta genera propuestas de acción mediante un “clustering” basado en Máquinas de Vectores Soporte, y utiliza “Rank Pooling” sobre las dinámicas de las características para eliminar propuestas que no pertenezcan a un segmento de acción. El modelo se evalúa en las bases de datos Activitynet and THUMOS14, alcanzando el 41% y el 26%, respectivamente, del rendimiento de los mejores modelos supervisados.
  
  En cuanto a DAO, a diferencia de los enfoques offline de detección de acciones, donde las métricas están bien establecidas, el problema de DAO presenta pocos trabajos y apenas consenso sobre los protocolos de evaluación. Esta tesis propone repensar el escenario de DAO, definiéndolo claramente y detallando las principales características que deben cumplir los modelos “online”. Se introduce también una nueva métrica llamada Instantaneous Accuracy (IA), la cual es “online” y resuelve las limitaciones de las métricas anteriores. La tesis realiza una evaluación exhaustiva en 3 conjuntos de datos y se compara el rendimiento de varios métodos de referencia con el de los del estado del arte. Los resultados confirman los problemas de los protocolos de evaluación anteriores y sugieren que un protocolo basado en la IA es más adecuado.
- English
  This thesis is part of the PREPEATE research project, conducted in the GRAM research group of the University of Alcalá, which aims to develop an assistive robotic platform based on advanced artificial intelligent techniques. The robot will analyse the human behaviour by processing live video content. To this end, this work tackles the topics of Temporal Action Proposals (TAP) and Online Action Detection (OAD).
  
  For the first problem, state-of-the-art approaches address it following an offline and supervised setting, which implies having access to the whole video beforehand and a fully annotated dataset. In the robotic platform scenario, the video must be processed as it is collected and labels are not always available. For this reason, an unsupervised online solution is introduced. It generates action proposals through a Support Vector Classifier used as a clustering module to identify action candidates. To refine them it employs rank pooling over feature dynamics as a filter, removing those proposals that belong to the background of the video. An experimental evaluation is conducted on ActivityNet and THUMOS14 datasets, achieving more than 41% and 26% of the recall performance of the best supervised models, respectively.
  
  Regarding OAD, unlike traditional offline action detection approaches, where the evaluation metrics are clear and well established, the OAD setting presents very few works and no consensus on the evaluation protocols to be used. This thesis proposes to rethink the OAD scenario, clearly defining the problem itself and the main characteristics that the models which are considered online must comply with. Additionally, the thesis also introduces a novel metric: the Instantaneous Accuracy (IA), which exhibits an online nature and solves most of the limitations of the previous metrics. A thorough experimental evaluation on 3 challenging datasets is conducted, where the performance of various baseline methods is compared to that of the state of the art. Results confirm the problems of the previous evaluation protocols, and suggest that an IA-based protocol is more adequate to the online scenario.