Deep spatio-temporal neural network for facial analysis

Author

Aspandi Latif, Decky

Director

Binefa i Valls, Xavier

Date of defense

2021-03-05

Pages

212 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

Automatic Facial Analysis is one of the most important field of computer vision due to its significant impacts to the world we currently live in. Among many applications of Automatic Facial Analysis, Facial Alignment and Facial-Based Emotion Recognition are two most prominent tasks considering their roles in this field. That is, the former serves as intermediary steps enabling many higher facial analysis tasks, and the latter provides direct, real-world high level facial-based analysis and applications to the society. Together, they have significant impacts ranging from biometric recognition, facial recognition, health, and many others. These facial analysis tasks are currently even more relevant given the emergence of big-data, that enables rapid development of machine learning based models advancing their current state of the arts accuracy. In regard to this, the uses of video-based data as the part of the development of current datasets have been more frequent. These sequence based data have been explicitly exploited in the other relevant machine learning fields through the use of inherent temporal information, that in contrast, it has not been the case for both of Facial Alignment and Facial-Based Emotion Recognition tasks. Furthermore, the in-the-wild characteristics of the data that exist on the current datasets present additional challenge for developing an accurate system to these tasks. In this context, the main purpose of this thesis is to evaluate the benefit of incorporating both temporal information and the in-the-wild data characteristics that are largely overlooked on both Facial Alignment and Facial-Based Emotion Recognition. We mainly focus in the use of deep learning based models given their capability and capacity to leverage on the current sheer size of input data. Also, we investigate the introduction of an internal noise modellings in order to assess their impacts to the proposed works. Specifically, this thesis analyses the benefit of sequence modelling through progressive learning applied to facial tracking task, while it is also fully end to end trainable. This arrangement allows us to evaluate the optimum sequence length to increase the quality of our models estimation. Subsequently, we expand our investigations to the introduction of internal noise modelling to benefit from the characteristics of each image degradation for single-image facial alignment, alongside the facial tracking task. Following this approach, we can study and quantify its direct impacts. We then combine both sequence based approach and internal noise modelling by proposing the unified systems that can simultaneously perform both of single-image facial alignment and facial tracking, with state of the art accuracy result. Motivated by our findings from Facial Alignment task, we then expand these approaches to Facial-Based Emotion Recognition problem. We first explore the use of adversarial learning to enhance our image degradation modelling, and simultaneously increase the efficiency of our approaches through the formation of internal visual latent features. We then equip our base sequence modelling with soft attention modules to allow the proposed model to adjust their focus using the adaptive weighting scheme. Subsequently, we introduce a more effective fusion method for both facial features modality and visual representation of audio using gating mechanism. In this stage, we also analyse the impacts of our proposed gating mechanisms along with the attention enhanced sequence modelling. Finally, we found that these approaches improve our models estimation quality leading to the high level of accuracy, outperforming the results from other alternatives.


L’anàlisi facial es un dels camps importants en Visió per Ordinador degut a l’impacte que té en el mon on vivim. L’alineament facial i el reconeixement d’emocions basat en cares son dues tasques fonamentals en aquest camp. Mentre la primera tasca pot ser un pas intermedi per tasques d’anàlisi posterior, la segona aporta aplicacions directes, socialment útils. Les dues juntes tenen un impacte que va del reconeixement biomètric a captar l’estat emocional de la persona. En l’era actual del Big Data, aquestes tasques d’anàlisi facial son encara més rellevants ja que es possible un progrés continuat de l’estat de l ‘art. L’ús de grans bases de dades basades en vídeo ha permès l’ús de models temporals en l’aprenentatge automàtic i en Visió per Ordinador. Malgrat això, l’ús de models temporals es encara insuficient. A més a més, la presentació de les dades en forma natural -sense restriccions- afegeix nous desafiaments per desenvolupar sistemes precisos. En aquest context, el principal objectiu d’aquesta tesi consisteix en avaluar el benefici d’incorporar les dues coses, informació temporal i dades amb característiques naturals ja que aquests fets encara es tenen poc en compte tant en l’alineament facial com en el reconeixement d’emocions facials. Ens centrarem principalment en l’ús de models basats en l’aprenentatge profund, atesa la seva capacitat per aprofitar grans quantitats de dades, i també utilitzarem el modelatge del soroll en les dades per avaluar l’impacte sobre els algoritmes desenvolupats. Concretament, en aquesta tesi s’analitza l’impacte de modelar les seqüències mitjançant aprenentatges progressius aplicades al seguiment facial i que es poden aprendre del principi al final. D’aquesta manera podem avaluar la longitud temporal òptima per evitar una precisió subòptima. Posteriorment, investiguem la incorporació de models de soroll interns per poder treure profit de les característiques de cada degradació visual i aconseguir l’alineació facial de cada imatge. D’aquesta manera, podem estudiar-ne els impactes i quantificar-ne els efectes directes. A continuació , combinant tant el modelatge basat en seqüències com el modelat de soroll intern, vam crear un sistema unificat que pot realitzar un seguiment de la imatge i del rostre amb precisió. Aquest model de seguiment de l’alineació facial robust a imprevistos i a degradacions, l’ampliem a la computació afectiva, basada en el reconeixement d’emocions facials. Explorem primer l’ús de l’aprenentatge adversari per millorar tan el model de degradació de la imatge com el model de característiques latents. D’aquí resulta una millora de l’eficiència del sistema. A continuació, equipem el model amb mòduls d’atenció per deixar que el model processi la seqüència segons aquesta ponderació adaptativa. Finalment, introduïm un mètode de fusió més eficaç tant per model de trets facials com per a la representació visual d’àudio mitjançant un mecanisme de selecció (gated). A més, també analitzem els impactes d’aquests mecanismes de selecció i el modelatge de seqüències millorat per l’atenció. Hem trobat que aquests enfocaments milloren la qualitat de la nostra estimació i hem aconseguit la precisió actual de l’estat de l’art.

Keywords

Temporal modeling; Facial alignment; Emotion recognition; Image denoising; Deep learning; Modelització temporal; Alineació facial; Reconeixement d’emocions; Neteja d’imatges; Aprenentatge profund

Subjects

62 - Engineering. Technology in general

Documents

tdal.pdf

28.00Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/

This item appears in the following Collection(s)