Directory Intranet
Chargement
VALDES VARGAS Julian Andrčs

Adaptation de clones orofaciaux à la morphologie et aux stratégies de contrôle de locuteurs cibles pour l'articulation de la parole

 

Directeur de thèse :     Pierre BADIN

École doctorale : Electronique, electrotechnique, automatique, traitement du signal (EEATS)

Spécialité : Signal, image, parole, tĂ©lĂ©coms

Structure de rattachement : Université Grenoble Alpes

Établissement d'origine : FacultĂ© de Turin (Italie)

Financement(s) : contrat à durée déterminée ; contrat à durée déterminée

 

Date d'entrée en thèse : 01/01/2010

Date de soutenance : 28/06/2013

 

Composition du jury :
M Michel DESVIGNES , Professeur INP, GIPSA-Lab, Grenoble, Président
M Yves LAPRIE, DR CNRS, LORIA, Nancy, Rapporteur
M Rudolph SOCK, Professeur, IPS, Université de Strasbourg, Rapporteur
M Thierry LEGOU, IR1 CNRS, Laboratoire Parole et Langage, Marseille, Examinateur
M Pierre BADIN, Directeur de recherche, GIPSA-Lab, Grenoble, Directeur de thèse

 

Résumé : La capacitĂ© de production de la parole est apprise et maintenue au moyen d’une boucle de perception-action qui permet aux locuteurs de corriger leur propre production en fonction du retour perceptif reçu. Ce retour est auditif et proprioceptif, mais pas visuel. Ainsi, les sons de parole peuvent ĂŞtre complĂ©tĂ©s par l’affichage des articulateurs sur l'Ă©cran de l’ordinateur, y compris ceux qui sont habituellement cachĂ©s tels que la langue ou le voile du palais, ce qui constitue de la parole augmentĂ©e. Ce type de système a des applications dans des domaines tels que l’orthophonie, la correction phonĂ©tique et l’acquisition du langage. Ce travail a Ă©tĂ© menĂ© dans le cadre du dĂ©veloppement d’un système de retour articulatoire visuel, basĂ© sur la morphologie et les stratĂ©gies articulatoires d’un locuteur de rĂ©fĂ©rence, qui anime automatiquement une tĂŞte parlante 3D Ă  partir du son de la parole. La motivation de cette recherche Ă©tait d'adapter ce système Ă  plusieurs locuteurs. Ainsi, le double objectif de cette thèse Ă©tait d’acquĂ©rir des connaissances sur la variabilitĂ© inter-locuteur, et de proposer des modèles pour adapter un clone de rĂ©fĂ©rence, composĂ© de modèles des articulateurs de la parole (lèvres, langue, voile du palais, etc.), Ă  d’autres locuteurs qui peuvent avoir des morphologies et des stratĂ©gies articulatoires diffĂ©rentes. Afin de construire des modèles articulatoires pour diffĂ©rents contours du conduit vocal, nous avons d’abord acquis des donnĂ©es qui couvrent l’espace articulatoire dans la langue française. Des Images mĂ©dio-sagittales obtenues par RĂ©sonance MagnĂ©tique (IRM) pour onze locuteurs francophones prononçant 63 articulations ont Ă©tĂ© recueillis. L’un des principaux apports de cette Ă©tude est une base de donnĂ©es plus dĂ©taillĂ©e et plus grande que celles disponibles dans la littĂ©rature. Cette base contient, pour plusieurs locuteurs, les tracĂ©s de tous les articulateurs du conduit vocal, pour les voyelles et les consonnes, alors que les Ă©tudes prĂ©cĂ©dentes dans la littĂ©rature sont principalement basĂ©es sur les voyelles. Les contours du conduit vocal visibles dans l’IRM ont Ă©tĂ© tracĂ©s Ă  la main en suivant le mĂŞme protocole pour tous les locuteurs. Afin d’acquĂ©rir de la connaissance sur la variabilitĂ© inter-locuteur, nous avons caractĂ©risĂ© nos locuteurs en termes des stratĂ©gies articulatoires des diffĂ©rents articulateurs tels que la langue, les lèvres et le voile du palais. Nous avons constatĂ© que chaque locuteur a sa propre stratĂ©gie pour produire des sons qui sont considĂ©rĂ©es comme Ă©quivalents du point de vue de la communication parlĂ©e. La variabilitĂ© de la langue, des lèvres et du voile du palais a Ă©tĂ© dĂ©composĂ© en une sĂ©rie de mouvements principaux par moyen d'une analyse en composantes principales (ACP). Nous avons remarquĂ© que ces mouvements sont effectuĂ©s dans des proportions diffĂ©rentes en fonction du locuteur. Par exemple, pour un dĂ©placement donnĂ© de la mâchoire, la langue peut globalement se dĂ©placer dans une proportion qui dĂ©pend du locuteur. Nous avons Ă©galement remarquĂ© que la protrusion, l'ouverture des lèvres, l’influence du mouvement de la mâchoire sur les lèvres, et la stratĂ©gie articulatoire du voile du palais peuvent Ă©galement varier en fonction du locuteur. Par exemple, certains locuteurs replient le voile du palais contre la langue pour produire la consonne /ʁ/. Ces rĂ©sultats constituent Ă©galement une contribution importante Ă  la connaissance de la variabilitĂ© inter-locuteur dans la production de la parole. Afin d’extraire un ensemble de patrons articulatoires communs Ă  diffĂ©rents locuteurs dans la production de la parole (normalisation), nous avons basĂ© notre approche sur des modèles linĂ©aires construits Ă  partir de donnĂ©es articulatoires. Des mĂ©thodes de dĂ©composition linĂ©aire multiple ont Ă©tĂ© appliquĂ©es aux contours de la langue, des lèvres et du voile du palais. L’Ă©valuation de nos modèles repose sur deux critères: l’explication de la variance et l’erreur quadratique moyenne. Les modèles ont Ă©galement Ă©tĂ© Ă©valuĂ©s en utilisant une procĂ©dure de validation croisĂ©e. Le but de l’utilisation de telle procĂ©dure Ă©tait de vĂ©rifier la capacitĂ© de gĂ©nĂ©ralisation des modèles en Ă©valuant leurs performances sur des donnĂ©es qui n’ont pas Ă©tĂ© utilisĂ©es pour leur construction. Afin de modĂ©liser la langue, les lèvres et le voile du palais avec un ensemble commun de composantes pour tous les locuteurs, plusieurs mĂ©thodes de dĂ©composition linĂ©aires multiple ont Ă©tĂ© utilisĂ©es et comparĂ©es. L'ACP conjointe a donnĂ© les meilleurs rĂ©sultats. En conclusion, nous avons constatĂ© une rĂ©duction considĂ©rable en termes de nombre de composantes nĂ©cessaires lors de l’utilisation d'ACP conjointe, par rapport au nombre total de composantes nĂ©cessaires par les modèles ACP individuels de tous les locuteurs. Ces rĂ©sultats de modĂ©lisation constituent une extension importante des Ă©tudes disponibles dans la littĂ©rature, Ă  des locuteurs plus nombreux, incluant de plus nombreuses articulations (en particulier les consonnes) et de plus nombreux articulateurs (lèvres, voile du palais).


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31