La reconnaissance d’émotions dans la voix – Partie 1

Modulation de fréquence

Titre : La reconnaissance d’émotions dans la voix – Partie 1
Intervenant·e·s : Laurence Devillers - Carole Lailler - Jean-Luc Marini
Lieu : Lab Pod, Axys Consultants
Date : juillet 2020
Durée : 23 min
Écouter ou enregistrer le podcast
Licence de la transcription : Verbatim
Illustration : Modulation-de-frequence, Wikimedia Commoons - Domaine public
NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Transcription

Jean-Luc Marini : Bonjour Carole et bienvenue pour ce nouveau Lab Pod.

Carole Lailler : Bonjour Jean-Luc, ravie de te voir sous la pluie orageuse aujourd’hui.

Jean-Luc Marini : Aujourd’hui nous ne sommes pas seuls, car nous avons le plaisir d’accueillir Laurence Devillers qui est professeure en intelligence artificielle et chercheuse au LIMSI [Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur] pour parler ensemble de la reconnaissance d’émotions dans la voix.
Bonjour Laurence. Vous allez bien ?

Laurence Devillers : Bonjour Jean-Luc. Très bien. Merci. Bonjour Carole.

Carole Lailler : Bonjour Laurence, ravie de te retrouver.

Jean-Luc Marini : Laurence, avant d’entrer dans le vif du sujet, vous serait-il possible de vous présenter et de rappeler aux auditeurs qui ne vous connaissent pas encore quel est votre domaine de recherche au LIMSI ?

Laurence Devillers : Je vais me présenter en disant aussi ce que je fais.
Je suis professeure en informatique à la Sorbonne sur des domaines autour de la langue. Je parle aussi beaucoup d’éthique, des systèmes automatiques et d’IA. J’ai une chaire en IA au CNRS qui s’appelle HUMAAINE, HUman-MAchine on Affective INteraction & Ethics. L’idée c’est de travailler sur l’interaction humain-machine, que ce soit un robot ou un agent conversationnel ou toute forme de système capable de converser avec les humains. Je travaille aussi avec des robots, comme j’ai dit, dans l’idée d’aider par exemple dans des situations de vulnérabilité, donc des personnes âgées, ou aussi sur l’interaction avec des enfants pour regarder quels sont les comportements des enfants devant ces machines.
Mon sujet d’expertise maintenant depuis les années 2000 c’est principalement l’affective computing, qu’on appelle l’informatique émotionnelle, qui comprend trois grands domaines : reconnaître les émotions, faire un traitement conversationnel, trouver une stratégie en prenant en compte ces informations et puis générer et synthétiser des stimuli par la voix, le visage, les gestes, qui soient émotionnels.

Jean-Luc Marini : C’est parfait. C’est très clair Laurence, et ce sont des domaines qui intéressent beaucoup nos auditeurs.
Si vous le voulez bien, je vous propose de rentrer dans le vif du sujet. Une première question c’est tout bêtement qu’est-ce qu’une émotion ? Laurence, Carole ? Laurence peut-être.

Laurence Devillers : Je peux répondre à cette question. C’est un sujet délicat. Il y a énormément de papiers dont c’est le titre, qu’est-ce qu’une émotion ?, avec finalement des chercheurs de différents champs, différentes disciplines, qui ne vont pas avoir tous les mêmes définitions, c’est la première complexité. Je dirais qu’on confond souvent dans le langage, en tout cas en informatique, émotion avec affect qui est un terme qu’on utilise plutôt en psychologie. Les affects regroupent les émotions, les humeurs, les dispositions affectives, en fait beaucoup de réactions qui sont différentes. Klaus Scherer est quelqu’un qui en a très bien parlé ; il était professeur en psychologie à l’Université de Genève, UniGe. Il s’est beaucoup intéressé pendant toute sa carrière aux émotions, il avait classé ces différents affects avec différentes dimensions. Par exemple, quelle est la plus rapide et la plus courte ? Eh bien c’est par exemple l’émotion, quand vous réagissez à quelque chose en peu de temps, c’est précis, il y a un événement qui suscite cette émotion et elle va durer peu de temps. Si je pense maintenant par exemple à l’humeur, pour différencier, peut-être qu’il n'y a pas un événement particulier qui va susciter votre humeur, elle risque de durer peut-être toute la journée. Elle est donc très différente de par son amplitude, sa durée, de l’émotion.
Pour chaque catégorie il avait fourni un tableau sur cinq dimensions différentes, proposant de classifier ces différentes réactions affectives que la machine ne sait absolument pas, en ce moment, catégoriser de la même façon.

Jean-Luc Marini : C’est clair. Carole, tu veux peut-être ajouter quelque chose par rapport à ce que vient de nous expliquer Laurence ?

Carole Lailler : Avec plaisir.
Effectivement, elle a très bien dit la nécessité de distinguer une émotion, une acmé, quelque chose qui se passe et qui peut se traduire aussi bien par votre discours que votre posture physique ou même l’absence de discours, et un état d’esprit : différencier la tristesse d’un pic de tristesse, d’une mélancolie qui vous prend le dimanche soir au seuil de cette nouvelle semaine qui arrive. Effectivement on est dans la nécessité d’une définition et de rester pragmatique, de rester dans ce pic d’activité qui peut être appréhendé dans le langage par exemple.

Jean-Luc Marini : D’accord.

Laurence Devillers : Je dirais aussi quelque chose qui est quand même important, c’est que la machine ne sait pas les détecter les émotions, elle ne sait détecter que l’expression de nos émotions puisque nos émotions sont internes, elles se rapportent plus aux sentiments qu’on ressent ou qu’on interprète, et pas, en fait, à ce qu’on est forcément en train d’exprimer ; elles sont cachées. Ce que la machine va détecter c’est finalement ce qu’on veut bien laisser apparaître ou qu’on laisse apparaître malgré nous.

Carole Lailler : Le « malgré nous » est important. Tu te souviens bien, Laurence, de la petite anecdote que tu pourras commenter. Laurence mène de nombreuses expérimentations parfois avec des petits robots connus, pensez à certaines pubs télévisées, et j’ai été amenée à l’occasion d’une visite sur un tout autre projet à entrer, pour le jeu, dans cette expérimentation. Comme Laurence en était encore aux balbutiements de l’expérimentation et que je n’étais pas du tout représentative de son corpus d’apprentissage, eh bien l’émotion détectée me concernant, parce que j’ai une voix qui se pose, parce que je parle vite et fort, était la colère, alors que c’était, pour reprendre une expression un peu célèbre, malgré lui aussi, « à l’insu de mon plein gré », si j’ose dire, puisque je n’étais pas du tout en colère et ravie de rendre visite à Laurence. Voilà !

Laurence Devillers : Tu as tout à fait raison de le noter et c’est principalement ce que j’essaie de dire maintenant, c’est qu’en fait ces systèmes ne sont absolument pas robustes. En ce moment les systèmes de détection des émotions faciales ou à travers les indices acoustiques, si je prends ces deux-là, mais c’est la même chose avec des indices physiologiques, n’apportent pas des solutions qui sont plus que 70 % de bonnes classifications dans les cas de contexte réel. En laboratoire on peut avoir moins lorsqu’on restreint le champ des possibles, mais, lorsqu’on se retrouve dans un contexte très spontané, on a souvent ces 30 % d’erreurs, ce qui n’est déjà pas si mal. La machine arrive à donner par exemple quatre émotions, à distinguer quatre émotions différentes, mais c’est absolument insuffisant pour un grand nombre de développements qu’on voit pourtant arriver en ce moment que ce soit pour parler de justice, de recrutement ou même en médecine.
J’ai tendance à penser, pour l’instant en tout cas, que si on ne rajoute pas du sens par rapport à ce qu’on fait actuellement qui est principalement lié à l’expressivité non-verbale, que ce soit dans la musique de la voix, les gestes ou le comportement facial, si on ne rajoute pas le sens du contexte dans lequel on est et le sens des mots qu’on vient de prononcer, en tout cas s’il y avait des mots, qu’on comprenne un peu plus le sens de ce qui est en train de se passer, on n’arrivera pas à des systèmes suffisamment robustes.
De la même façon, les émotions qu’on appelle la peur – par exemple la peur de perdre de l’argent, la peur de perdre sa vie, la peur pour quelqu’un – se manifestent de façons très différentes et surtout, toutes ces émotions sont très liées à l’individu, à sa personnalité. On parle d’idiosyncrasie, c’est lié à ce ressenti ; c’est lié aussi à sa culture, même à son enfance, au milieu dans lequel il vit, et c’est vrai que tous ces facteurs de variabilité additionnelle montrent toute la complexité de la détection automatique des émotions.

Jean-Luc Marini : Très bien. Du coup ça m’amène une question : pourquoi est-ce qu’on est amené à détecter l’expression de nos émotions ?, puisque j’ai bien compris qu’il fallait parler d’expression de nos émotions.

Laurence Devillers : Pourquoi ? On peut imaginer des applications dédiées à un individu, par exemple pour un suivi de pathologie, que ça soit une maladie comme la maladie de Parkinson ou que ça soit une dépression. Si on pouvait suivre la personne tout au long de la journée à travers l’exploitation de ses données audio ou comportementales pour savoir dans quel état elle se trouve, on serait plus à même de l’aider et de la soigner, par exemple pour modifier les médicaments qu’on donne ou bien pour affiner un diagnostic. C’est évident que quand on va chez son médecin, que ça soit un psychiatre, un psychologue ou un médecin généraliste, on y va au temps t et lorsqu’on a des crises dépressives ou des crises de différentes pathologies, ce n’est pas forcément au moment où on va voir son médecin, ça peut être dans le temps. C’est vrai que c’est important de comprendre comment le malade, finalement, réagit à différentes interactions autour de lui. Je pensais par exemple les troubles bipolaires qui sont une maladie liée aux émotions ; c’est ne pas maîtriser sa colère. C’est une maladie qui affecte beaucoup les familles parce que souvent la personne se met dans des colères noires quand elle est dans son intimité. Vous voyez ! Le médecin ne s’en rend pas forcément compte, donc après ce sont les dires des uns et des autres et ce n’est pas forcément facile d´aider la personne qui n’arrive pas à maîtriser ce type d’émotions.
Tout va se jouer si on sait contextualiser suffisamment et personnifier, c’est-à-dire qu’on a adapté le système à la voix de la personne. Sans cela c’est un peu magicien, donc on aura beaucoup de bêtises.

Carole Lailler : Dans ce que tu dis il y a aussi une notion d’historicité, de capture de la longueur des différents moments de la journée. Tu parlais de la prise de médicaments, ça peut être aussi la détection de la non-prise de médicaments et arrêter le problème ou aider le patient avant qu’on arrive à un paroxysme où les conséquences et pour la famille et pour l’individu sont terribles.

Laurence Devillers : Donc on voit que c’est important d’essayer de faire ça. C’est important aussi de le faire pour surveiller les différents objets qui viennent d’autres mondes, peut-être d’autres cultures, et pour lesquels il faut être vigilant. On n’a pas tous les mêmes règles et normes, je pense qu’on l’a vu tous vu en Europe avec la GDPR1 [General Data Protection Regulation]. On a cette attention à la vie privée en Europe qu’on n’a pas forcément en Chine, qu’on n’a pas forcément de la même façon aux États-Unis, donc il est faut être vigilant suivant ce qu’on veut mettre en place comme outils autour de nous pour soigner les gens les plus âgés, pour éduquer les enfants, etc.
On a besoin, en fait, de construire des environnements qui permettent d’auditer les systèmes, de les évaluer et de vérifier sur le long terme comment ils vont aussi modifier nos comportements. Tout ce champ de recherche est actuellement très émergent et c’est bien qu’on commence à en prendre conscience. C’est bien aussi qu’on voie des lois arriver. Si je parle des premières personnes qui travaillent sur des lois autour des chatbots et des agents conversationnels ce sont les Américains qui, en Californie, ont sorti une loi pour dire « il ne faut pas faire une machine qui soit confusable, qu’on puisse confondre, en fait, la voix d’un humain et celle d’un artifice, d’une machine ». On devrait aussi adopter ce genre de lois.
Je sais que sur la reconnaissance faciale un grand nombre de chercheurs en affective computing, donc sur les émotions, sont en train de monter au créneau en disant que ce n’est pas assez fiable, ce n’est pas assez robuste pour qu’on puisse utiliser comme on commence à le faire en France aussi, pour le recrutement par exemple. Pour trier des dossiers d’étudiants, on va leur demander d’interagir verbalement avec un système, de répondre à des questions et sur leurs réponses on va aller chercher les inflexions de la voix, la fluidité, le rythme, mais aussi sur le langage : est-ce qu’il a une complexité de langage très importante ou pas ?, et juger à partir de ces différents facteurs, qui sont quand même très liés à sa personnalité, si on va regarder le CV de plus près ou pas. Donc je vous dis pas, si vous avez un enfant qui a un cheveu sur la langue ou qui a une petite modification de prononciation, il ne passera pas avec ce genre de système !

Jean-Luc Marini : Très clair, c’est très clair. Du coup une question qui me vient tout de suite à l’esprit, c’est comment est-ce qu’on détecte les émotions dans la voix ? Quels sont les systèmes qu’on met en place ?

Laurence Devillers : Bonne question. Bien sûr, vous avez raison.
Pour construire un système de détection d’émotions dans la voix ou de détection d’objets ou de détection de cancer dans une zone, ce sont les mêmes problématiques de reconnaissance des formes. C’est-à-dire qu’on va utiliser des algorithmes d’apprentissage, il y en a de plusieurs sortes, qui nécessitent, non pas comme dans les algorithmes qu’on utilisait précédemment de spécifier le problème, là on va chercher à nourrir un algorithme de connaissances à partir de données. Donc on doit collecter ces données et la plupart des systèmes actuels marchent sur des apprentissages dit supervisés, c’est-à-dire qu’il ne suffit pas de collecter par exemple des sons si je parle de détection d’émotions dans la voix, il faut aussi avoir étiqueté c’est-à-dire, en fait, annoté des segments d’audio en disant « là c’est de la tristesse, là c’est de la joie », ou les étiqueter avec des dimensions d’expressivité : ici c’est peut-être positif, ici c’est très actif.
Il y a différentes façons de procéder, en tout cas il est nécessaire d’avoir des données, de bien les choisir et d’avoir vérifié aussi l’annotation qui est présente. À partir de là, on utilise un grand nombre de différents outils. Les derniers outils en vogue que tout le monde connaît maintenant ce sont les outils de deep learning, d’apprentissage profond, qui sont des réseaux de neurones. Je les ai utilisés la première fois pour faire de la reconnaissance de la parole dans les années 92 pour ma thèse, et depuis ça marche. Il y avait déjà deux couches cachées et c’était déjà avec une espèce de récurrence temporelle, ça ressemble à l’ancêtre de ce qu’on utilise actuellement dans les meilleurs systèmes dits de deep learning. Mais surtout, le grand progrès qu’on a fait ce n’est pas au niveau des concepts qu’on manipule mais c’est au niveau de fulgurance des moyens de calcul qu’on a actuellement. Sinon ce sont les mêmes problématiques. Il faut bien choisir ses données et les équilibrer pour que ce ne soit pas discriminant. Vous imaginez un système où il n’y a que des voix d’hommes, eh bien on ne va pas reconnaître les voix de femmes.
C’est la même chose avec un système, c’est la majorité des systèmes actuels, de reconnaissance d’émotions dans la voix qui ne marchent pas sur les voix âgées ou des voix d’enfants, donc on a tout cette variabilité qui n’est pas prise en compte. Ils ne sont peut-être pas dans la cible, mais une voix âgée de 60 ans qui chercherait du travail ne passerait pas non plus. On va donc chercher des voix et standardiser. Or ces standardisations sont tout sauf ce qui est utile à mon avis actuellement, surtout si on pense à des systèmes qui marchent dans différentes cultures.
L’implication serait peut-être qu’on pourrait niveler la façon de se comporter et être devant un système qui a appris sur un corpus que l’on dit générique, pour que finalement la machine nous reconnaisse ou éviter d’être reconnu par la machine.
Ces systèmes apprennent et ensuite les modèles qui sont obtenus à partir d’un corpus de données, donc de certaines voix, sont utilisés pour qu’une voix inconnue qui est en train de dire « je ne suis pas content » [prononcé en imitant la colère, NdT] puisse être analysée de la même façon et que la machine prédise que c’est plutôt de la colère ou de la joie.
Comme l’a très bien dit tout à l’heure Carole, ce n’est pas toujours évident de reconnaître des stimuli dans différents contextes, surtout si on a pas assez de contextes qui rentrent en compte.

Carole Lailler : C’est ça aussi le problème du contexte et de ce qu’on accepte de prendre en compte, la préparation des données comme l’a si bien dit Laurence, que ce soit pour la transcription, mais, plus encore, sur l’annotation pour l’accord inter-annotateurs, pour que cette annotation ait du sens et ne soit pas non plus le fait d’une interprétation du « labellisateur » qui engendre donc un apprentissage pour le coup biaisé par ce regard. Donc vraiment un travail en amont sur la préparation des données et également en aval, voire en flux continu, d’évaluation pour être bien sûr qu’on reste dans un cœur d’apprentissage qui soit éthiquement maintenu, responsable et lié aux cas d’usage que l’on cherche à obtenir, avec pragmatisme évidemment.

Laurence Devillers : C’est compliqué. En plus les émotions, en tout cas dans ce que j’avais monté dans mon HDR [habilitation à diriger des recherches], sont souvent mélangées, c’est-à-dire qu’on n’a pas forcément conscience de ces aspects-là. J’avais traité des corpus dans des call centers, dans des centres d’appel. Les personnes pouvaient être à la fois tristes et soulagées par exemple. Dans dans des contextes particuliers d’urgence ou de santé, on a des réactions où on réagit face à quelque chose d’anxiogène qu’on est en train de vivre et, en même temps, on vient vous aider, donc il y a aussi dans la voix une tessiture liée à quelque chose de très positif où justement on pousse l’autre à venir nous aider donc en étant très reconnaissant. Ce mélange d’indices est très difficile à comprendre. Nous, humains, utilisons énormément de stratagèmes et avons l’habitude de nous adapter à tout ça, pour les machines c’est extrêmement difficile. Il n’y en a pas encore.

Carole Lailler : Il y a une réalité à comprendre qui est celle de l’interaction, c’est-à-dire qu’il y a cette volonté de se préserver et de présenter à l’autre sa meilleure face, son meilleur aspect, son meilleur jour, aussi bien dans le sourire ou dans les yeux brillants que l’on peut faire, que dans la tonalité de sa voix. Et en même temps, en fonction du type d’interaction, de la volonté d’aller asticoter l’autre ou au contraire de maintenir avec lui une communication réussie et apaisée, la volonté de lui proposer des choses ou de lui en interdire d’autres. Donc ce jeu de construction à deux qui avance, mais qui, de temps en temps, se permet de stagner, qui prend des chemins de traverse, c’est une réalité que nous possédons, nous, humains à des degrés différents et qu’il devient extrêmement complexe de faire apprendre à un système quel qu’il soit.

Laurence Devillers : Oui, principalement dans la communication quand même.

Jean-Luc Marini : Au niveau des indices pour discriminer les émotions, comment est-ce que vous procédez ? Est-ce qu’il y a des indices plus pertinents que les autres ou, je dirais, c’est vraiment selon les cas qu’il faut travailler ?

Carole Lailler : Le pitch des voyelles ! J’aime bien les voyelles en français.

Laurence Devillers : Il n’y a pas que les voyelles, il y a aussi des bruits à haute fréquence. Il y a beaucoup d’indices. On avait beaucoup travaillé avec Klaus Scherer et avec des collègues à l’international avec des corpus assez variables. J’avais justement mis des voix âgées pour que ce soit encore plus compliqué. En fait, pendant quinze ans le Graal a été de trouver le set d’indices les plus utiles, donc on a travaillé sur du cross corpus pour vérifier la robustesse de différents indices et essayer d’établir une liste minimale d’indices. On était arrivé à moins de 100 caractéristiques ; avec Klaus Scherer et d’autres gens, on a fait de belles publications là-dessus. Et puis sont arrivés en 2010 à nouveau les réseaux de neurones avec une puissance de calcul et de projection qu’on n’avait pas. C’est-à-dire qu’au lieu de donner des critères qu’on va pré-calculer avec tout un tas d’outils d’analyse du signal comme la fréquence fondamentale, les variabilités de la fréquence fondamentale ou les harmoniques sept moins l’harmonique trois, il y avait tout un tas de connaissances perceptives et de cas d’analyse du signal sur les données audio, au lieu de faire ça on est parti sur du brute force, c’est-à-dire partir directement du signal ou de sa représentation spectrographique pour essayer de détecter des émotions. C’est alors le deep learning multi-couches et les CNN [Convolutional Neural Networks] qu’on va utiliser, qui sont des façons de filtrer le signal, mais en partant du bas niveau, réellement du bas niveau sans à priori, sans l’à priori de ces calculs experts. On a pu montrer – c’est la dernière thèse que j’ai fait soutenir – qu’on avait les mêmes résultats avec un système qui est nourri en brute force, donc à partir du signal sans faire d’expertise para-linguistique, sans extraire les indices, et puis un système où on a cette première couche qui est une expertise quand même puisqu’on sait quels sont les meilleurs paramètres. Évidemment ils sont liés à la prosodie, c’est-à-dire la variation de l’énergie dans la voix, la variation du rythme, la variation de la fréquence fondamentale, du timbre de la voix, et puis aussi quelques indices de qualité vocale : vous chuintez, vous avez une particularité ou beaucoup d’hésitations aussi.

Donc on a des indices de tous ces différents niveaux qui sont utilisés normalement dans les systèmes à expertise. Mais depuis peu on va au-delà des performances de ces machines grâce à des outils qui utilisent brute force, c’est-à-dire le signal brut.

Jean-Luc Marini : À très bientôt pour un prochain Lab Pod. Bonne soirée à vous.

Carole Lailler : Merci.

Laurence Devillers : Merci Carole. Merci à vous. À bientôt.

Carole Lailler : Merci à toi.