Vous êtes ici : GIPSA-lab > Animation > Soutenances
Chargement

Deep learning methods for style extraction and transfer

Soutenance de la thèse de Omar Samir MOHAMMED le 12/11/2019 à 13:30:00

Lieu :Salle Mont Blanc, GIPSA-LAB, 11 Rue des mathématiques, 38402 Saint Martin d’Hères


Ecole Doctorale :Electronique, electrotechnique, automatique, traitement du signal (EEATS)
Structure de rattachement :
Directeur de thèse : Gérard BAILLY

 

Financement(s) :
-Bourse attribuée par un organisme

 

Date d'entrée en thèse: 01/10/2016
Date de soutenance: 12/11/2019


Composition du jury :Gérard BAILLY, Directeur de Recherche, CNRS, Directeur de thèse
Damien PELLIER, Professeur associé, Université Grenoble Alpes, CoDirecteur de thèse
Christian VIARD-GAUDIN, Professeur, Université de Technologie de Nantes, Rapporteur
Sylvain CALINON, Ingénieur de Recherche, Ecole Polytechnique Fédérale de Lausanne (EPFL), Rapporteur
Eric GAUSSIER, Professeur, Université Grenoble Alpes, Examinateur
Vincent BARRA, Professeur, Université Clermont Auvergne, Examinateur


Résumé:RÉSUME DE THÈSE (anglais)
One aspect of a successful human-machine interface (e.g. human-robot interaction, chatbots, speech, handwriting…,etc) is the ability to have a personalized interaction. This affects the overall human experience, and allow for a more fluent interaction. At the moment, there is a lot of work that uses machine learning in order to model such interactions. However, these models do not address the issue of personalized behavior: they try to average over the different examples from different people in the training set. Identifying the human styles (persona) opens the possibility of biasing the models output to take into account the human preference. In this thesis, we focused on the problem of styles in the context of handwriting.
Defining and extracting handwriting styles is a challenging problem, since there is no formal definition for those styles (i.e., it is an ill-posed problem). Styles are both social - depending on the writer’s training, especially in middle school - and idiosyncratic - depends on the writer’s shaping (letter roundness, sharpness…,etc) and force distribution over time. As a consequence, there are no easy/generic metrics to measure the quality of style in a machine behavior.
We may want to change the task or adapt to a new person. Collecting data in the human-machine interface domain can be quite expensive and time consuming. Although most of the time the new task has many things in common with the old task, traditional machine learning techniques fail to take advantage of this commonality, leading to a quick degradation in performance. Thus, one of the objectives of my thesis is to study and evaluate the idea of transferring knowledge about the styles between different tasks, within the machine learning paradigm.
The objective of my thesis is to study these problems of styles, in the domain of handwriting. Available to us is IRONOFF dataset, an online handwriting datasets, with 410 writers, with ~25K examples of uppercase, lowercase letters and digits drawings. For transfer learning, we used an extra dataset, QuickDraw!, a sketch drawing dataset containing ~50 million drawing over 345 categories.
Major contributions of my thesis are:
1) Propose a work pipeline to study the problem of styles in handwriting. This involves proposing methodology, benchmarks and evaluation metrics.
We choose temporal generative models paradigm in deep learning in order to generate drawings, and evaluate their proximity/relevance to the intended/ground truth drawings. We proposed two metrics, to evaluate the curvature and the length of the generated drawings. In order to ground those metics, we proposed multiple benchmarks - which we know their relative power in advance -, and then verified that the metrics actually respect the relative power relationship.
2) Propose a framework to study and extract styles, and verify its advantage against the previously proposed benchmarks.
We settled on the idea of using a deep conditioned-autoencoder in order to summarize and extract the style information, without the need to focus on the task identity (since it is given as a condition). We validate this framework to the previously proposed benchmark using our evaluation metrics. We also to visualize on the extracted styles, leading to some exciting outcomes!
3) Using the proposed framework, propose a way to transfer the information about styles between different tasks, and a protocol in order to evaluate the quality of transfer.
We leveraged the deep conditioned-autoencoder used earlier, by extract the encoder part in it - which we believe had the relevant information about the styles - and use it to in new models trained on new tasks. We extensively test this paradigm over a different range of tasks, on both IRONOFF and QuickDraw! datasets. We show that we can successfully transfer style information between different tasks.
RÉSUME DE THÈSE (français)
----------------------------------------
L’un des aspects d’une interface homme-machine réussie (p. ex. interaction homme-robot, chatbots, parole, écriture manuscrite, etc.) est la possibilité d’avoir une interaction personnalisée. Cela affecte l’expérience humaine globale et permet une interaction plus fluide. Actuellement, il y a beaucoup de travaux qui utilisent l’apprentissage machine afin de modéliser de telles interactions. Cependant, ces modèles n’abordent pas la question du comportement personnalisé : ils tentent de faire la moyenne des différents exemples provenant de différentes personnes. L’identification des styles humains (persona) ouvre la possibilité de biaiser la sortie des modèles pour prendre en compte la préférence humaine. Dans cette thèse, nous nous sommes concentrés sur le problème des styles dans le contexte de l’écriture manuscrite.
L’objectif de cette thèse est d’étudier ces problèmes de styles, dans le domaine de l’écriture. Nous disposons d’un jeu de données IRONOFF, un jeu de données d’écriture manuscrite en ligne, avec 410 rédacteurs, avec ~25K exemples de dessins en majuscules, minuscules et chiffres. Pour le problème de l’apprentissage par transfert, nous avons utilisé un jeu de données supplémentaire, QuickDraw ! (disponible gratuitement sur Google), un jeu de données de dessin d’esquisses contenant environ 50 millions de dessins sur 345 catégories.
Les principales contributions de ma thèse sont :
1) Proposer un pipeline de travail pour étudier le problème des styles d’écriture. Il s’agit de proposer une méthodologie, des repères et des paramètres d’évaluation (et de fonder ces paramètres d’évaluation). Nous choisissons le paradigme des modèles génératifs temporels dans l’apprentissage profond afin de générer des dessins et d’évaluer leur proximité/pertinence par rapport aux dessins de vérité voulus/de terrain. Nous avons proposé deux métriques, pour évaluer la courbure et la longueur des dessins générés. Afin d’enraciner ces métis, nous avons proposé de multiples repères - dont nous connaissons le pouvoir relatif à l’avance -, puis vérifié que les mesures respectent effectivement la relation de pouvoir relatif.
2) Proposer un cadre pour l’étude et l’extraction des styles, et vérifier son avantage par rapport aux repères proposés précédemment. Nous nous sommes mis d’accord sur l’idée d’utiliser un auto-encodeur conditionné en profondeur pour résumer et extraire les informations de style, sans avoir besoin de nous concentrer sur l’identité de la tâche (puisqu’elle est donnée comme une condition). Nous validons ce cadre par rapport au repère proposé précédemment à l’aide de nos paramètres d’évaluation. Nous visualisons également les styles extraits, ce qui nous permet d’obtenir des résultats passionnants !
3) En utilisant le cadre proposé, proposer un moyen de transférer l’information sur les styles entre les différentes tâches, et un protocole afin d’évaluer la qualité du transfert.
Nous avons exploité le codeur automatique conditionné profond utilisé précédemment, en extrayant la partie codeur - qui, selon nous, contenait les informations pertinentes sur les styles - et en l’utilisant dans de nouveaux modèles formés sur de nouvelles tâches. Nous testons intensivement ce paradigme sur une gamme différente de tâches, à la fois sur les ensembles de données IRONOFF et QuickDraw!. Nous montrons que nous pouvons transférer avec succès les informations de style entre différentes tâches.


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31