Publié

Supprimer les accents d'une voix peut la rendre plus compréhensible

Casque pour traduction simultanée. (image d'illustration) [Fotolia - nukul2533]
Une application neutralise les accents en temps réel pour faciliter la communication / Tout un monde / 6 min. / le 18 janvier 2022
Les développements technologiques autour de la voix se multiplient, qu'il s'agisse de transformation de la voix ou de reconnaissance vocale. Ce marché, qui s'appuie sur l'intelligence artificielle, prend de l'ampleur.

Une start-up californienne a ainsi développé une application capable de neutraliser les accents en temps réel afin de faciliter les échanges, par exemple avec des centres d'appels. C'est en tout cas ce qu'ont étudié deux des trois jeunes fondateurs de la start-up, qui se sont rencontrés à l'université de Stanford. Ils sont d'origine latino-américaine, russe, chinoise et ont constaté ce que cela signifie d'être mal compris et peut-être mal jugés à cause d'un accent.

L'un d'eux, Shawn Zhangz, écrit par exemple que sa mère venue de Chine il y a 20 ans a encore honte de s'adresser directement à un vendeur dans un magasin.

Des applications qui aident à améliorer la prononciation d'une langue existent déjà. Mais pas un logiciel capable de supprimer purement et simplement un accent lors d'une conversation téléphonique. Et comme l'anglais est parlé par un milliard et demi de personnes, dont ce n'est pas forcément la langue maternelle, il y a du potentiel.

Une technologie déjà ancienne

La technologie sur laquelle s'appuie cette start-up est déjà ancienne: "Les tentatives humaines d'analyser la voix pour comprendre de quoi parle la personne ont démarré il y a très longtemps", explique Silvia Quarteroni, ingénieure spécialisée en langage naturel au Swiss Data Science Center de l'EPFL, dans Tout un monde. "Les premiers systèmes fonctionnels qui étaient utilisés dans l'industrie datent des années 70. Ces dix-quinze dernières années, il y a eu des progrès énormes dans le traitement automatique de la voix, grâce à des réseaux de neurones notamment."

Ces quinze dernières années, il y a eu des progrès énormes dans le traitement automatique de la voix, grâce à des réseaux de neurones notamment

Silvia Quarteroni

Les réseaux neuronaux forment une intelligence artificielle, inspirée de notre propre cerveau. Par exemple, on prend une onde sonore, on la passe à travers un filtre et ensuite "il y a une séparation du contenu et de l'intonation, - ce qui est le message principal apporté par la voix- , et de l'accent et du style", décrit Silvia Quarteroni. "Cette deuxième partie qui est identifiée par le réseau de neurones est ensuite manipulée pour ressembler le plus possible à un autre style, notamment le style neutre ou le style américain."

Sans accent, une communication facilitée

Le fait d'éliminer les accents peut être utile non seulement entre humains, mais aussi dans des opérations de reconnaissance vocale par une machine grâce à l'intelligence artificielle, même si elle a fait des pas de géant. Dans l'application de commande vocale Siri, lancée par Apple il y a dix ans, il y avait beaucoup d'erreurs de transcription, ce qui a bien été amélioré depuis.

Grâce à l'amélioration des algorithmes et à l'augmentation de la puissance des ordinateurs, la technologie de la reconnaissance vocale fonctionne désormais aussi pour les dialectes suisses allemands

David Imseng

"Pour l'anglais, la reconnaissance vocale fonctionne bien depuis longtemps déjà", explique David Imseng, le fondateur d'une société qui reconnaît les dialectes suisses pour les transformer en allemand écrit. "Grâce à l'amélioration des algorithmes et à l'augmentation de la puissance des ordinateurs, la technologie de la reconnaissance vocale fonctionne désormais aussi pour les dialectes suisses allemands ou même pour le romanche."

Des applications entraînées sans accent

En fait, grâce à des milliers de données enregistrées, on peut développer la reconnaissance de centaines de langues, mais des intonations comme celle des enfants ou des accents particuliers peuvent encore être des obstacles, y compris en anglais.

"On sait que Siri, Alexa, Google Home, ce genre d'applications, fonctionnent moins bien avec des voix qui ont des accents, parce qu'elles ont été entraînées avec des voix qui n'en avaient pas", précise François Yvon, chercheur en langage naturel au CNRS à Paris. "Certains locuteurs qui parlent des sous-variétés de l'anglais - "sous" n'étant pas du tout péjoratif - sont moins bien compris."

Siri, Alexa ou Google Home fonctionnent moins bien avec des voix qui ont des accents, parce qu'elles ont été entraînées avec des voix qui n'en avaient pas

François Yvon

Un filtre pour faciliter la compréhension

Lors de dialogues avec des chatbot, ces programmes informatiques qui simulent une conversation humaine, François Yvon imagine qu'il pourrait "y avoir un filtre à l'entrée de ce genre de systèmes, qui va transformer votre voix en quelque chose de plus standard", de manière à ce que la reconnaissance vocale fonctionne mieux. "Cela peut marcher autant dans des applications où la conversation se passe par téléphone, ou lors d'interactions avec un robot ou un agent virtuel, qui nous reconnaîtra mieux une fois que notre voix aura été modifiée."

Une chose est sûre, ce marché de la voix attire les investisseurs: "Les principales levées de fonds de start-up sur le domaine du traitement des langues, donc pas seulement de la voix, représentaient un milliard de dollars l'an passé aux Etats-Unis", indique François Yvon.

Les principales levées de fonds de start-up sur le domaine du traitement des langues représentaient un milliard de dollars l'an passé aux Etats-Unis

François Yvon

Les anciens étudiants de Stanford, eux, ont levé plus de 5 millions de dollars.

Modifier l'accent n'améliore pas toujours le service

Dans les centrales téléphoniques souvent délocalisées, l'accent peut être source d'erreurs ou d'incompréhension.

Pourtant, pour François Yvon, il faut se méfier de certaines hypothèses trop faciles: "Il faut bien imaginer que parmi les personnes qui appellent les call centers, dont on voudrait par exemple masquer l'accent indien, il y a aussi des personnes d'origine indienne. Pour elles, on va dégrader le service en leur faisant entendre un accent anglais standard, alors qu'elles seraient plus à l'aise avec un accent indien, leur langue à elles."

La question des accents est plus complexe qu'on le croit. Des études sur les call centers en Grande- Bretagne montrent que certains accents attirent la sympathie et d'autres non, car ils sont associés à des images mentales des lieux où sont supposés vivre les employés.

Des manipulations imperceptibles qui changent la perception

Plus généralement, les modifications de la voix ne sont pas anodines si l'on pense que l'empreinte vocale devient un moyen d'identification aussi important que l'empreinte digitale.

La voix est un véhicule incroyable pour l'émotion. En manipulant la voix, on peut la rendre plus chaleureuse, plus enjouée, plus rieuse

François Yvon

"Au-delà de l'usurpation, il y a toutes les manipulations imperceptibles qu'on peut faire sur la voix", souligne François Yvon. "La voix est un véhicule incroyable pour l'émotion. En manipulant la voix, on peut la rendre plus chaleureuse, plus enjouée, plus rieuse, et donc on peut non seulement changer l'accent, mais aussi donner l'impression que la personne à l'autre bout du fil est plus enthousiaste ou plus engagée."

Les technologies sont déjà là, il faut pouvoir les encadrer, selon François Yvon,  avec beaucoup plus de transparence - en indiquant par exemple quand la voix est modifiée - et des législations précises.

Sujet radio: Francesca Argiroffo

Adaptation web: Eric Butticaz

Publié