Ir al contenido

Documat


Resumen de Learning to recognize human actions: from hand-crafted to deep-learning based visual representations

Albert Clapes Sintes

  • El reconocimiento de acciones es un reto de gran relevancia para la visión por computador. Los investigadores que se hallan trabajando en el campo aspiran a dotar a los ordenadores de la habilidad de percibir visualmente las acciones humanas - esto es observar, interpretar y comprender a partir de datos visuales los eventos que involucran humanos y que trascurren en el entorno físico. Las apllcaclones de esta tecnología son numerosas: interacción hombre -máquina, e-salud, monltorlzación/vldeovigllancia, u obtención de vfdeocontenldo basado en contenido, entre otros. Los métodos de diseño manual han dominado el campo hasta los primeros éxitos del aprendizaje profundo en el reconocimiento de acciones. Aunque éstos últimos obtuvieran peores resultados que los manualmente diseñados, han mejorado lenta pero constantemente hasta convertirse hoy en estado del arte. No obstante, los métodos de diseño manual pueden resultar particularmente adecuados en ciertos escenarios, así como cuando los datos de entrenamiento son escasos o, simplemente, para aportar un conocimiento adicional que las redes profundas no son capaces de aprender fácilmente . Es por eso que a menudo encontramos ambos paradigmas combinados, consiguiendo una mejora de los resultados de los métodos en general.

    Esta tesis ha concurrido en el tiempo con este cambio de paradigma y, por tanto, lo refleja en sus dos partes claramente diferenciadas. En la primera parte, analizamos las posibles mejoras sobre los métodos ya existentes de diseño manual para el reconocimiento de acciones, y lo hacemos desde diferentes perspectivas. Haciendo uso de las trayectorias densas como fundamento de nuestro trabajo: primero, exploramos el uso de datos de entrada de diversas modalidades visuales y diferentes vistas para enriquecer los descriptores de las trayectorias. Segundo, nos centramos en la parte de clasificación del reconocimiento de acciones, proponiendo un ensamblado de clasificadores que actúen sobre distintos conjuntos de características y fusionando las salidas de éstos con una estrategia basada en la Teorfa de Dempster -Shaf er. Y tercero, proponemos un nuevo método de diseño manual de extracción de características que construye una descripción Intermedia para modelar de manera más efectiva las dinámicas espaclotemporales de largo plazo presentes en los vídeos. La segunda parte de la tesis, empieza con un estudio exhaustivo de los métodos actuales de aprendizaje profundo para el reconocimiento de acciones. Analizamos las metodologías y presentamos una taxonomía que resume sus aspectos más Importantes. Más concretamente, analizamos y discutimos como las propuestas tratan la Información temporal de los datos. Por último, pero no menos Importante, proponemos una nueva red de neuronas recurrente con conexiones residuales que integra de forma Implícita nuestras contribuciones previas en un marco teórico potente y experimentalmente prometedor.


Fundación Dialnet

Mi Documat