Des conseillers virtuels capables d'exprimer des émotions

Le Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur (LIMSI) mène un travail de recherche autour de l'expression faciale, la gestuelle et le contenu verbal des agents conversationnels. Ces derniers ont à présent acquis des compétences sociales pour interagir avec les humains.

Les agents conversationnels sont parfois le premier interlocuteur avec qui l’on échange lorsqu’on contacte une entreprise. Apparus dans les années 2000 sur Internet pour remplacer les FAQ (Foires aux questions) et basés sur le langage écrit, ils ont progressivement conquis le langage oral. Au téléphone, ces conseillers virtuels vous orientent vers la bonne personne. Inutile de taper sur son smartphone la touche correspondant au bon service, ils nous demandent de prononcer à haute voix notre demande. Et sur Internet, ils prennent à présent l’apparence d’un personnage virtuel. Ils sont censés mimer une interaction avec un être humain, mais ont rapidement montré leur limite. « Ces machines sont très performantes sur le plan technique pour vous rediriger vers les bonnes sources d’information, explique Nicolas Sabouret, professeur à l’Université Paris-Saclay et chercheur au LIMSI (Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur). Par contre, il leur manquait cette couche de compétences sociales qui font qu’un interlocuteur humain va essayer d’être chaleureux, d’être en empathie avec la personne avec qui il est en contact. Aujourd’hui, on demande à ces agents conversationnels d’aller au-delà du champ métier pour lequel ils sont programmés à l’origine. »

Pour y parvenir, le LIMSI réunit une équipe composée de psychologues et d’informaticiens. Les premiers conceptualisent ce qui fonde la condition humaine, en particulier l’aspect émotionnel, personnel et individuel des relations humaines. Les seconds vont simuler à l’aide de modèles informatiques ces concepts pour les rendre opérationnels sur des agents conversationnels.

Reproduire plusieurs nuances de sourires

Leur objectif : parvenir à créer des émotions au cours d’une conversation avec un conseiller virtuel. Pour cela, l’équipe de recherche s’appuie sur les comportements verbaux de ces derniers mais aussi non verbaux. Beaucoup étudié au cours des années 2000, le contrôle du visage est aujourd’hui très bien identifié dans la littérature en psychologie. Des automates ont ainsi pu être créés et sont capables d’animer assez finement les mouvements d’un visage virtuel. « Il ne s’agit pas de produire des expressions caricaturales, qui étaient un peu le défaut des premiers agents virtuels et qui ont entraîné un désintérêt pour ces personnages animés, car ils n’apportaient pas grand-chose à la relation. La tendance aujourd’hui est de produire des micro-émotions ». Les chercheurs savent à présent reproduire plusieurs nuances de sourires, notamment celui dit de Duchenne caractérisé par un plissement au niveau des yeux, mais aussi des haussements de sourcils, des mouvements des joues, des hochements de la tête… Ces expressions du visage sont complétées par des mouvements des bras et des mains. Ces agents ont ainsi acquis une dimension sociale et sont en mesure d’exprimer la joie, l’empathie, l’encouragement ou au contraire la tristesse et la déception.

Sur le plan informatique, le défi est de relier ces comportements avec les mots. Pour l’instant, beaucoup de règles restent écrites à la main. « Selon tel contexte, à l’intérieur de telle entreprise et en fonction de tels mots prononcés par un client, nous programmons la machine pour provoquer telle micro-expression. Ces règles sont écrites manuellement afin de garder l’intégralité du contrôle sur le système et être sûr que l’agent aura des comportements adaptés ». Même si les corpus de données s’enrichissent et qu’il serait possible d’utiliser les techniques d’apprentissage automatique pour générer une réponse de l’agent virtuel sans avoir à le spécifier manuellement, les chercheurs ne laissent pas la machine totalement autonome. « Les entreprises sont très frileuses et ne veulent pas que les conseillers virtuels fassent des erreurs. Surtout depuis la mésaventure avec l’agent de Microsoft qui apprenait automatiquement à dialoguer à partir des réponses trouvées sur Internet. Il s’est mis à insulter les personnes car il est fréquent que les internautes emploient un vocabulaire grossier, ce qui peut être accepté entre amis, mais pas avec un agent professionnel. »

Classer les mots dans des catégories générales d’émotions

Au LIMSI, les chercheurs conçoivent des modèles informatiques à mi-chemin entre les règles écrites manuellement et le « machine learning ». L’un d’eux, à base de raisonnement, consiste à catégoriser les différentes formes d’émotions en fonction du contexte dans lequel elles apparaissent. Ce modèle fonctionne en deux temps. Les mots prononcés par le client sont d’abord classés dans des catégories générales d’émotions à l’aide de règles manuelles bien identifiées. Ensuite, la machine est libre d’exprimer l’émotion identifiée comme elle le souhaite. Pour cela, les chercheurs s’appuient sur de nombreux travaux établis en psychologie et en informatique qui relient des catégories d’émotions avec des comportements aussi bien verbaux que non verbaux. « Grâce à ces modèles, on sait que la réponse du conseiller virtuel ne sera pas hors des clous, car la machine va agir à l’intérieur d’une catégorie d’émotions bien précise. Pour l’instant, les techniques d’apprentissage automatique ne sont pas suffisamment matures pour laisser le système se débrouiller entièrement seul. »

Pour se confronter à des problématiques terrains, le LIMSI travaille avec plusieurs entreprises dont la start-up Davi spécialisée dans le traitement du langage naturel et l’informatique affective. Ensemble, ils ont déjà conçu plusieurs agents conversationnels, notamment de l’entraînement aux entretiens d’embauche, pour l’office du tourisme de Nevers ou pour L’Oréal. Pour cette entreprise, il a pris la forme d’un conseiller maquillage. « Actuellement, nous développons beaucoup d’outils avec plusieurs entreprises différentes autour du coaching pour la santé et le bien-être. Il ne s’agit pas de créer un conseiller virtuel pour simplement convaincre une personne, pour par exemple arrêter de fumer. Nous analysons les déterminants psychologiques du changement de comportement pour ensuite, à travers les interactions avec les agents, amener les personnes à adopter un nouveau mode de vie. »

Ces travaux de recherche autour de l’expression faciale, la gestuelle et le contenu verbal des agents conversationnels, permettent aux clients d’avoir la sensation d’être en interaction avec un humain. Même si l’objectif n’est pas de les tromper en leur faisant croire qu’ils ne sont pas face à une machine. « L’intelligence artificielle a fait beaucoup de progrès ces dernières années, mais ne réussira jamais à égaler la richesse d’une interaction entre deux humains. Il y a beaucoup trop d’implicites et de sous-entendus au cours d’une conversation. Ces agents virtuels sont très performants lorsque leur domaine d’interaction est fermé, mais beaucoup moins lorsqu’il est ouvert. »