Vous êtes ici : GIPSA-lab > Formation > Thèses en cours
Chargement
LIU Li

Continuous Cued Speech Recognition in French using Machine Learning Methods

 

Directeur de thèse :     Denis BEAUTEMPS

Co-directeur de thèse :     Gang FENG

École doctorale : Electronique, electrotechnique, automatique, traitement du signal (eeats)

Spécialité : Signal, image, parole, télécoms

Structure de rattachement : Grenoble-INP

Établissement d'origine : UJF

Financement(s) : Contrat doctoral

 

Date d'entrée en thèse : 01/10/2015

Date de soutenance : 11/09/2018

 

Composition du jury :
SCHWARTZ Jean-Luc, Directeur de Recherche, CNRS, Président du jury
ANDRE-OBRECHT Régine, Professeur des Universités, Université de Toulouse, Rapporteur
MAYNARD Hélène, Maître de Conférences, Université d'Orsay, Habilitée à Diriger des Recherches, Rapporteur
LEYBAERT Jacqueline, Professeur, Université Libre de Bruxelles, Examinateur
BEAUTEMPS Denis, Chargé de Recherche, CNRS, Habilité à Diriger des Recherches, Directeur de thèse
FENG Gang, Professeur des Universités, Grenoble INP, Co-directeur de thèse
HUEBER Thomas, Chargé de Recherche, CNRS, Invité

 

Résumé : Cette thèse de doctorat traite de la reconnaissance automatique de la langue française Par- lée Complétée (LPC), version française du Cued Speech (CS), à partir de l'image vidéo et sans marquage de l'information préalable à l'enregistrement vidéo. Afin de réaliser cet objec- tif, nous cherchons à extraire les caractéristiques de haut niveau de trois flux d'information (lèvres, positions de la main et formes), et fusionner ces trois modalités dans une approche optimale pour un système de reconnaissance de LPC robuste. Dans ce travail, nous avons introduit une méthode d'apprentissage profond avec les réseaux neurono convolutifs (CNN) pour extraire les formes de main et de lèvres à partir d'images brutes. Un modèle de mélange de fond adaptatif (ABMM) est proposé pour obtenir la position de la main. De plus, deux nouvelles méthodes nommées Modified Constraint Local Neural Fields (CLNF Modifié) et le modèle Adaptive Ellipse Model ont été proposés pour extraire les paramètres du contour in- terne des lèvres (étirement et ouverture aux lèvres). Le premier s'appuie sur une méthode avancée d'apprentissage automatique (CLNF) en vision par ordinateur. Toutes ces méthodes constituent des contributions significatives pour l'extraction des caractéristiques du LPC. En outre, en raison de l'asynchronie des trois flux caractéristiques du LPC, leur fusion est un en- jeu important dans cette thèse. Afin de le résoudre, nous avons proposé plusieurs approches, y compris les stratégies de fusion au niveau données et modèle avec une modélisation HMM dépendant du contexte. Pour obtenir le décodage, nous avons proposé trois architectures CNNs-HMMs. Toutes ces architectures sont évaluées sur un corpus de phrases codées en LPC en parole continue sans aucun artifice, et la performance de reconnaissance du LPC confirme l'efficacité de nos méthodes proposées. Le résultat (74%) est comparable à l'état de l'art qui utilisait des bases de données où l'information pertinente était préalablement repérée. En même temps, nous avons réalisé une étude spécifique concernant l'organisation temporelle des mouvements de la main, révélant une avance de la main en relation avec l'emplacement dans la phrase. En résumé, ce travail de doctorat propose les méthodes avancées d'apprentissage au- tomatique issues du domaine de la vision par ordinateur et les méthodologies d'apprentissage profond dans le travail de reconnaissance du LPC, qui constituent un pas important vers le problème général de conversion automatique du LPC en parole audio.
Abstract in English
This PhD thesis deals with the automatic continuous Cued Speech (CS) recognition in French based on the images of subjects without marking any artificial landmark. In order to realize this objective, we extract high-level features of three information flows (lips, hand positions and shapes), and find an optimal approach to merge them for a robust CS recognition system. We first introduce a novel and powerful deep learning method based on the Convolutional Neural Networks (CNNs) for extracting the hand shape/lips features from raw images. The adaptive background mixture models (ABMMs) are applied to obtain the hand position fea- tures for the first time. Meanwhile, based on an advanced machine learning method Modified Constrained Local Neural Fields (CLNF), we propose the Modified CLNF to extract the inner lips parameters (lip width A and and lip hight B ), as well as another method named adaptive ellipse model. All these methods make significant contributions to the feature extraction in CS. Then, due to the asynchrony problem of three feature flows (i.e., lips, hand shape and hand position) in CS, the fusion of them is a challenging issue. In order to resolve it, we propose several approaches including feature-level and model-level fusion strategies combined with the context-dependent HMM. To achieve the CS recognition, we propose three tandem CNNs-HMM architectures. All these architectures are evaluated on the corpus without any artifice, and the CS recognition performance confirms the efficiency of our proposed methods. The result of 74% continuous phonemes recognition is comparable with the state of the art which uses the corpus with artifices and is in the isolated CS recognition case. In parallel, we investigate a specific study about the temporal organization of hand movements in CS, especially about its temporal segmentation, and the evaluations confirm the superior perfor- mance of our methods. In summary, this PhD thesis applies the advanced machine learning (especially the deep learning) methods to CS recognition work, which make a significant step to the general automatic conversion problem of CS to audio speech.


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31