Vous êtes ici : GIPSA-lab > Formation > Thèses soutenues
AL CHANTI Dawood

French: Analyse Automatique des Macro et Micro Expressions Faciales: Détection et Reconnaissance par Machine Learning
English: Automatic Analysis of Macro and Micro Facial Expressions: Dete

 

Directeur de thèse :     Alice CAPLIER

École doctorale : Electronique, electrotechnique, automatique, traitement du signal (EEATS)

Spécialité : Signal, image, parole, télécoms

Structure de rattachement : Grenoble-INP

Établissement d'origine : Université Jean Monet (UJM - St Etienne)

Financement(s) : Contrat doctoral

 

Date d'entrée en thèse : 01/10/2016

Date de soutenance : 05/11/2019

 

Composition du jury :
Madame Alice CAPLIER Professeur, Communauté Université Grenoble Alpes, Directeur de thèse
Monsieur Renaud SEGUIER Professeur, CentraleSupelec Rennes, Rapporteur
Monsieur Mohammed Daoudi Professeur, Université de Lille, Rapporteur
Monsieur Olivier Alata Professeur, Telecom Saint-Etienne, Jean Monnet University, Saint-Etienne, Lyon University, Examinateur
Madame Michèle ROMBAUT, Professeur, Université Grenoble Alpes, Examinateur et Président du Jury

 

Résumé : Français
L'analyse automatique des expressions faciales représente à l'heure actuelle une problématique importante associée à de multiples applications telles que la reconnaissance de visages, l'animation de visages ou encore les interactions homme machine. Dans cette thèse, nous nous attaquons au problème de la reconnaissance d'expressions faciales à partir d'une image ou d'une séquence d'images. Nous abordons le problème sous trois angles.
Tout d'abord, nous étudions les macro-expressions faciales et nous proposons de comparer l'efficacité de trois descripteurs différents tenant compte d'informations de plus ou moins haut niveau. Cela conduit au développement d'un algorithme de reconnaissance d'expressions basé sur des descripteurs bas niveau encodés dans un modèle de type sac de mots, puis d'un algorithme basé sur des descripteurs de moyen niveau associés à une représentation éparse et enfin d'un algorithme d'apprentissage profond tenant compte de descripteurs haut niveau. Notre objectif lors de la comparaison de ces trois algorithmes est de trouver la représentation des informations de visages la plus discriminante pour reconnaitre des expressions faciales en étant donc capable de s'affranchir des sources de variabilités que sont 1) les facteurs de variabilité intrinsèques tels que l'apparence du visage ou encore la manière de réaliser une expression donnée et 2) les facteurs de variabilité extrinsèques tels que les variations d'illumination, de pose, d'échelle, de résolution, de bruit ou d'occultations. Dans le même temps, nous examinons aussi l'apport de descripteurs spatio-temporels capables de prendre en compte des informations dynamiques utiles pour séparer les classes ambigües.
La grosse limitation des méthodes de classification supervisée est qu'elles sont très coûteuses en termes de labélisation de données. Afin de s'affranchir en partie de cette limitation, nous avons étudié dans un second temps, comment utiliser des méthodes de transfert d'apprentissage de manière à essayer d'étendre les modèles appris sur un ensemble donné de classes d'émotions à des expressions inconnues du processus d'apprentissage. Ainsi nous nous sommes intéressés à l'adaptation de domaine et à l'apprentissage avec peu ou pas de données labélisées. La méthode proposée nous permet de traiter des données non labélisées provenant de distributions différentes de celles du domaine source de l'apprentissage ou encore des données qui ne concernent pas les mêmes labels mais qui partagent le même contexte. Le transfert de connaissance s'appuie sur un apprentissage euclidien et des réseaux de neurones convolutifs de manière à définir une fonction de mise en correspondance entre les informations visuelles provenant des expressions faciales et un espace sémantique issu d'un modèle de langage naturel. La correspondance entre les deux espaces est optimisée par alignement basé sur la distribution des descripteurs visuels.
Dans un troisième temps, nous nous sommes intéressés à la reconnaissance des micro-expressions faciales. Nous proposons un algorithme destiné à localiser ces micro-expressions dans une séquence d'images depuis l'image initiale (onset image) jusqu'à l'image finale (offset image) et à déterminer les régions des images qui sont affectées par les micro-déformations associées aux micro-expressions. Le problème est abordé sous un angle de détection d'anomalies ce qui se justifie par le fait que les déformations engendrées par les micro-expressions sont a priori un phénomène beaucoup plus rare que celles produites par toutes les autres causes de déformation du visage telles que les macro-expressions, les clignements des yeux, les mouvements de la tête… Ainsi nous proposons un réseau de neurones auto-encodeur récurrent destiné à capturer les changements spatiaux et temporels associés à toutes les déformations du visage autres que celles dues aux micro-expressions. Ensuite, nous apprenons un modèle statistique basé sur un mélange de gaussiennes afin d'estimer la densité de probabilité de ces déformations autres que celles dues aux micro-expressions. Finalement les micro-expressions sont détectées au moyen d'une opération de seuillage sur cette densité de probabilité.
Tous nos algorithmes sont testés et évalués sur des bases d'expressions faciales actées et/ou spontanées.
Anglais
Facial expression analysis is an important problem in many biometric tasks, such as face recognition, face animation, affective computing and human computer interface. In this thesis, we aim at analyzing facial expressions using images and video sequences. We divided the problem into three leading parts.
First, we study textbf{Macro Facial Expressions for Emotion Recognition} and we propose three different levels of feature representations. Low-level feature through a Bag of Visual Word model, mid-level feature through Sparse Representation and hierarchical features through a Deep Learning based method. The objective of doing this is to find the most effective and efficient representation that contains distinctive information of expressions and that overcomes various challenges coming from: 1) intrinsic factors such as appearance and expressiveness variability and 2) extrinsic factors such as illumination, pose, scale and imaging parameters,~textit{e.g.}, resolution, focus, imaging, noise. Then, we incorporate the temporal dimension to extract spatio-temporal features with the objective to describe subtle feature deformations to discriminate ambiguous classes.
Second, we direct our research toward transfer learning, where we aim at textbf{Adapting Facial Expression Models to New Domains and Tasks}. Thus we study domain adaptation and zero shot learning for developing a method that solves the two tasks jointly. Our method is suitable for unlabelled target datasets coming from different data distributions than the source domain and for unlabelled target datasets with different label distributions but sharing the same context as the source domain. Therefore, to permit knowledge transfer between domains and tasks, we use Euclidean learning and Convolutional Neural Networks to design a mapping function that maps the visual information coming from facial expressions into a semantic space coming from a Natural Language model that encodes the visual attribute description or uses the label information. The consistency between the two subspaces is maximized by aligning them using the visual feature distribution.
Third, we study textbf{Micro Facial Expression Detection}. We propose an algorithm to spot micro-expression segments including the onset and offset frames and to spatially pinpoint in each image the regions involved in the micro-facial muscle movements. The problem is formulated into Anomaly Detection due to the fact that micro-expressions occur infrequently and thus leading to few data generation compared to natural facial behaviours. In this manner, first, we propose a deep Recurrent Convolutional Auto-Encoder to capture spatial and motion feature changes of natural facial behaviours. Then, a statistical based model for estimating the probability density function of normal facial behaviours while associating a discriminating score to spot micro-expressions is learned based on a Gaussian Mixture Model. Finally, an adaptive thresholding technique for identifying micro expressions from natural facial behaviours is proposed.
Our algorithms are tested over deliberate and spontaneous facial expression benchmarks.


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31