Équipe

Perception, Contrôle, Multimodalité et Dynamiques de la parole
Responsable(s) d'équipe : Coriandre VILAIN    Maeva GARNIER


1er axe: Unités, représentations et indices de parole


Détail de l'axes représentations et indices : Interactions sensori-motrices , Multimodalité et gestualité


Multimodalité

 

Objectifs

Cet axe de recherche touche aux interactions audition-vision en parole et à la coordination parole-geste. Il s’agit d’explorer comment les multiples systèmes sensoriels et moteurs (larynx, conduit vocal, face, main) interagissent dans la communication langagière.

 

Participants

Permanents : Frédéric Berthommier, Marion Dohen, Maëva Garnier, Takayuki Ito, Amélie Rochet-Capellan, Jean-Luc Schwartz, Anne Vilain, Coriandre Vilain

Doctorants : Ganesh Attigodu, Lucie Scarbel,  Avril Treille

 

Projets

Plasmody (ANR, 2011-2015), Communiquons ensemble (FIRAH, 2014-2016), Speech Units (ERC, 2013-2018), StopNCo (ANR 2015-2019)

 

Mots-clés

Structuration prosodique, deixis multimodale, articulation, gestualité vocale et manuelle, coverbalité, développement. 





La multimodalité de la communication est depuis longtemps une thématique prioritaire de notre équipe. La parole n’est en effet pas seulement perçue par les oreilles mais aussi par les yeux et même les mains (cf. méthode Tadoma pour les aveugles). De plus, on ne communique pas seulement par la parole mais avec le corps dans son intégralité et plus particulièrement nos mains. 

 

 

Analyse de scènes audiovisuelles, liage, interactions multisensorielles

D’un point de vue perceptif, nous avons exploré au cours de la période écoulée les processus de liage sensoriel et d’analyse de scènes, dans une variété de situations d’interactions multisensorielles, allant jusqu’à la modalité haptique. Nos propositions sur les mécanismes d’analyse de scènes multisensorielles ont ouvert une voie qu’il conviendra d’explorer plus systématiquement, à la recherche des "primitives audiovisuelles" (étendant les primitives auditives de Bregman à des scènes de parole audiovisuelle), de leurs interactions avec les "schémas phonétiques" par nature audiovisuels, et du rôle de ces processus d’analyse de scènes dans les mécanismes généraux de traitement de la parole.    

Un premier champ de recherches vise à démontrer l’existence d’un mécanisme « d’analyse de scènes audiovisuelles » en lien avec la perception multisensorielle de la parole. Nous avons montré que la vision du mouvement des lèvres accentue la ségrégation auditive d’un flux audio concurrent avec des voyelles (Devergie et al. 2010) et avec des syllabes (Berthommier & Schwartz 2011). D’autre part, le contexte précédant l’arrivée d’un stimulus ambigu peut influencer son identification en fonction de son degré de cohérence (Arnaud et al. 2011) et du niveau de bruit (Attigodu et al. 2013). Enfin, nous montrons que le poids de l’information visuelle est réduit chez des enfants sourds implantés lorsqu’elle est dégradée (Huyse et al. 2013).

Pour expliquer ces observations, nous proposons un modèle à deux niveaux dans lequel l’intégration des composantes auditives et visuelles est contrôlée par une étape de bas-niveau précédant l’identification des objets (des phonèmes ou des syllabes pour la parole). Dans ce premier niveau de liage, les informations auditives sont aiguillées dans des flux en fonction du niveau de cohérence audio-visuelle. Lorsque les informations auditives et visuelles ne sont pas cohérentes entre elles, ou lorsque les informations sont bruitées, le poids de l’information visuelle dans l’identification d’un stimulus ambigu varie assez rapidement. 




Fig. 1 – Modèle de fusion audiovisuelle en parole à 1 vs 2 niveaux. (a) Dans le modèle à 1 niveau, l’extraction d’indices auditifs et visuels se fait de manière indépendante et la fusion est automatique. (b) dans le modèle à 2 niveaux, un indice de cohérence guide l’extraction auditive et visuelle et contrôle la fusion.

Nous avons également intégré ces réflexions sur le liage multisensoriel en lien avec nos hypothèses sur les relations perceptuo-motrices (Basirat et al. 2011). Ceci conduit à un second champ de recherches portant sur les mécanismes d’intégration entre représentations auditives, visuelles et somatosensorielles dans la perception de la parole en utilisant une large palette d’outils expérimentaux (données psychophysiques, électrophysiologie, TMS, accès à des populations spécifiques – sujets aveugles, sujets sourds implantés cochléaire (Sato et al. 2010, Sato et al. 2010, Treille et al. 2014). 




Fig. 2 - Activité visuelle chez des aveugles de naissance pendant une tâche de perception auditive de voyelles ([Sato et al. 2010]).

Production de gestes et de mouvements articulatoires visibles

Nos travaux se sont centrés sur les aspects de coordination avec la parole en termes temporel et informationnel grâce à des études utilisant des protocoles contrôlés puis plus libre (type jeu interactif). Ces études ont permis de mettre en évidence des phénomènes de couplage moteur et informationnel entre parole et geste manuel dans le cadre de la désignation notamment.

D’une part, la production conjointe de gestes de pointage et de focalisation prosodique semble régie par au moins deux types de coordination, l’une purement motrice, avec une coordination synergétique des deux systèmes moteurs impliqués (orofacial et bracchio-manuel) et l’autre guidée par des enjeux communicationnels, avec un affinage de la coordination par coordination informationnelle (Sato et al. 2013). Cette coordination, qui implique pour la parole des cibles articulatoires plutôt qu’acoustiques, est également modulée par les conditions de communication : en situation de perturbation d’un des canaux communicatifs (auditif par le bruit), on observe une adaptation de la modalité non perturbée (geste manuel) à celle qui est perturbée (parole) maintenant ainsi une cohérence communicative multimodale. 




Fig. 3 - Deux dispositifs expérimentaux utilisés pour étudier la coordination parole-gestes en fonction de la structure communicative (à gauche) et la deixis spatiale (à droite, [Gonseth et al. 2013]).



Nous avons pu également mettre en évidence des mécanismes d’encodage de la distance spatiale dans les propriétés phonétiques et cinématiques du pointage multimodal : désigner un objet distant implique de produire des gestes, vocaux et manuels, plus larges, ce qui peut être rapporté à l’encodage phonologique de la distance dans les langues du monde. Les interactions sensorimotrices s’avèrent également contribuer à la perception de la deixis spatiale : le geste manuel joue un rôle dans le mécanisme de perception/production des unités sémantiques du langage (Gonseth et al. 2013).


Nous continuous également d'explorer comment la production d'indices visibles (gestes articulatoires, mais également autres gestes orofaciaux et gestes brachiaux-manuels) peut être contrôlée délibérément, et indépendamment ou non des indices audibles (sons de parole) (Garnier et al. 2012).

 

Enjeux cliniques

Une thématique en émergence au cours du dernier quadriennal a été l’orientation de nos recherches vers les populations cliniques, à la fois dans le but de tester nos théories et modèles et leur capacité à rendre compte de l’ensemble des processus possibles dans le traitement du langage, mais aussi évidemment dans le but de fournir aux thérapeutes des outils de diagnostic et/ou de rééducation.

Par exemple, le projet ANR Plasmody teste ainsi les modèles de traitement audio-visuel de la parole en les confrontant à la situation des personnes porteuses d’implants cochléaires, et évalue chez ces patients les capacités de traitement de la parole de façon à orienter la pratique thérapeutique.

Le projet «  Déficits de langage de l’enfant et communication gestuelle » vise à comprendre le couplage geste/parole en observant la compensation spontanée de troubles du langage oral par l’utilisation de gestes manuels chez les enfants dysphasiques, et à fournir des outils de développement du langage par le biais de la modalité manuelle.

Enfin le projet « Communiquons ensemble », en cours de lancement, a pour objet d’évaluer les capacités articulatoires et manuelles des personnes porteuses de trisomie 21, afin de fournir des supports à leurs pratiques langagières. Ces projets sont menés en collaboration étroite avec les praticiens du CHU de Grenoble, mais aussi avec des associations de patients (ARIST, CISIC, CAMSP, etc.).


Enjeux technologiques

Le murmure inaudible et le chuchotement sont des modes de production de parole qui représentent des défis scientifiques et technologiques pour le traitement du signal avancé ainsi que pour la compréhension des mécanismes de phonation et des représentations mentales de la parole. Ils sont aussi de forts enjeux de recherche appliqués en interface homme-machine et en télécommunications.

Dans le cadre d’un projet BQR-INPG, en collaboration avec l’équipe MAGIC, le DIS et des chercheurs du Nara Institute of Science and Technology (NAIST) au Japon, nous avons cherché à améliorer le système NAM (Non Audible Murmur, Fig. 5) permettant de rendre audible la parole murmurée. Les améliorations ont notamment concerné le rendu de l’intonation, en intégrant des informations phonétiques et l’intégration de données visuelles, complémentaires aux données acoustiques (Tran et al. 2010, Heracleous et al. 2009).




Fig. 5 - Intégration de données articulatoires acquises par EMG de surface et de données acoustiques enregistrées par le système NAM pour la conversion de parole silencieuse en parole audible.

Références bibliographiques

 

  • Arnaud, L., Ménard, L., Sato, M. et Gracco, V. (2011) Auditory speech processing and predictive coding activate the visual cortex in congenitally blind adults. Dans 9th International Seminar on Speech Production (ISSP 2011), Mo,treal, CA.
  • Attigodu, G., Berthommier, F., Nahorna, O. et Schwartz, J.-L. (2013). Effect of context, rebinding and noise, on audiovisual speech fusion. Dans Interspeech 2013, Lyon, France.
  • Basirat, A., Schwartz, J.-L. et Sato, M. (2011) Perceptuo-motor interactions in the perceptual organization of speech : Evidence from the verbal transformation effect. Philosophical Transactions B : Biological Sciences, 367(1591) :965–976.
  • Berthommier, F. et Schwartz, J.-L. (2011) Audiovisual streaming in voicing perception : new evidence for a low-level interaction between audio and visual modalities. Dans 10th International Conference on Auditory-Visual Speech Processing (AVSP 2011), Volterra, IT.
  • Devergie, A., Grimault, N., Tillmann, B. et Berthommier, F. (2010) Effect of rhythmic attention on the segregation of interleaved melodies. Journal of the Acoustical Society of America, 128(1) :EL1–EL7.
  • Garnier, M., Ménard, L. et Richard, G. (2012). Effect of being seen on the production of visible speech cues. a pilot study on lombard speech. Dans InterSpeech 2012, Portland, US. 
  • Gonseth, C., Vilain, A. et Vilain, C. (2013) An experimental study of speech/gesture interactions and distance encoding. Speech Communication, 55(4) :553–571.
  • Heracleous, P., Beautemps, D., Tran, V-A., Loevenbruck, H. et Bailly, G. (2009) Exploiting visual information for nam recognition. IEICE Electronics Express, 6(2) :77–82.
  • Huyse, A., Berthommier, F. et Leybaert, J. (2013) Degradation of labial information modifies audiovisual speech perception in cochlear-implanted children. Ear and Hearing, 34(1) :110–21.
  • Nahorna, O., Berthommier, F., & Schwartz, J.L. (2012). Binding and unbinding the auditory and visual streams in the McGurk effect. J. Acoust. Soc. Am, 132, 1061-1077.
  • Sato, M., Buccino, G., Gentilucci, M. et Cattaneo, L. (2010). On the tip of the tongue : Modulation of the primary motor cortex during audiovisual speech perception. Speech Communication, 52(6) :533–541. 
  • Sato, M., Cavé, C., Ménard, L. et Brasseur, A. (2010) Auditory-tactile speech perception in conge- nitally blind and sighted adults. Neuropsychologia, 48(12) :3683–3686.
  • Schwartz, J.L., & Savariaux, C. (2014). No, there is no 150 ms lead of visual speech on auditory speech, but a range of audiovisual asynchronies varying from small audio lead to large audio lag. Plos Computational Biology, 10, 7, e1003743.
  • Schwartz, J.-L., Grimault, N., Hupé, J.-M., Moore, B.C.J. et Pressnitzer, D. (2012) Multistabi- lity in perception : binding sensory modalities, an overview. Philosophical Transactions B : Biological Sciences, 367(1591) :896–905.
  • Tran, V.-A., Bailly, G., Loevenbruck, H. et Toda, T. (2010) Improvement to a nam-captured whisper-to-speech system. Speech Communication, 52(4) :314–326.
  • Treille, A. Coeurdeboeuf, C., Vilain, C. et Sato, M. (2014) Haptic and visual information speed up the neural processing of auditory speech in live dyadic interactions. Neuropsychologia, 57 :71–77.

 


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31