andres-urena-39MVKfRm3TA-unsplash
< < Articles

La voix : une approche multimodale nécessaire

12/11/2020

Les services vocaux ont connu une croissance massive ces dernières années, avec une vitesse d'adoption plus rapide que celle du mobile les années précédentes. La croissance de la voix ne repose pas seulement sur le recours aux assistants vocaux intelligents, tels qu’Alexa d’Amazon, mais aussi sur la voix intégrée dans de nombreux appareils tels que les voitures, les maisons et les villes. L'interaction humaine avec les services vocaux a conduit à la nécessité de modèles clairement définis pour gérer les interactions des utilisateurs. C'est là que le design conversationnel entre en jeu.

Le design conversationnel est le principe de conception d'expériences sans recourir aux moyens traditionnels tels que le clavier, la souris ou une interface utilisateur graphique. Alors, comment créer des expériences utilisant la voix ? Les conversations doivent être fluides, humaines, répondre aux attentes des utilisateurs et, surtout, ne pas contenir d'erreurs. Les interactions humaines n’ont pas d'erreurs, alors celles entre un utilisateur et un assistant vocal ne devraient pas non plus en avoir. Cet article vous propose de plonger dans l’univers de la voix en vous partageant nos retours d’expérience sur des projets concrets.

Qu’est-ce que le multimodal ?

Le mot “conversation” est défini par un échange de mots. Cependant, il a une portée plus large et doit être multimodal. Le terme "multimodal" fait référence au débit de conversation et à la cohérence dans le système des assistants vocaux, aux services multicanaux et à l'expérience de l'interaction humaine.

Toutefois, la technologie de la voix à elle seule est une solution à court terme, mais ne peut être viable sur le long terme. Une expérience multimodale représente le résultat idéal à atteindre. Cela permettra une expérience centrée utilisateur solide avec de nombreuses fonctionnalités et plus pertinente.

Une approche multimodale optimale pourrait donc commencer par une conversation vocale sur Alexa, puis passer sur une interface visuelle pour un service de cartographie par exemple, ou livrer un document par courrier électronique à la demande de l'utilisateur. La vraie puissance des expériences multimodales est de couvrir l'ensemble de l'écosystème.

Nous développons actuellement des expériences multimodales pour nos clients. J'aimerais toutefois dire que nous avons commencé il y a quelques années avec un système entièrement défini, mais avec tous les nouveaux processus, il faut parfois des échecs et des changements d'approche pour arriver à ce stade de la démarche.

Comment en sommes-nous arrivés au design conversationnel ?

Nous avons commencé à construire des services vocaux il y a quelques années, avant même que les enceintes connectées n'arrivent sur le marché, en nous procurant le premier appareil Alexa des États-Unis. Bien qu'utilisés de manière simple lors de la réalisation de prototypes client ou de démonstrations durant nos pitchs, ces services étaient bien fonctionnels : la grande majorité des requêtes vocales qui leur étaient adressés généraient une réponse, et ce, sans passer par la phase d'entraînement que requiert le machine learning. Leurs réponses étaient très singulières et, à l'époque, provenaient d'écosystèmes plus vastes.

Cependant, depuis cette époque, nous avons constaté un changement d’approche, qui s’éloigne de ce que nous considérons comme une méthode ascendante avec la technologie comme point de départ, pour en adopter une plus descendante. Nous centrons maintenant notre approche sur l'expérience utilisateur et sur son besoin, en intégrant avec nos clients des écosystèmes plus vastes.

Dans certains cas, nous avons commencé par développer des plateformes qui nous permettent, non seulement d’extraire facilement le contenu d'un service vocal, mais aussi de faire bénéficier à l’écosystème du client l’ensemble de ses services, du web marketing ou du emailing. En élargissement ainsi l’accès à l'écosystème, nous pouvons désormais fournir à nos clients des solutions multimodales parfaitement adaptées à leurs besoins.

Notre approche du design conversationnel nous permet de déterminer ce que les utilisateurs sont capables de faire grâce à cette plateforme tout en comprenant leurs besoins et les contraintes techniques de celle-ci. En approfondissant cette méthodologie dans un tel projet, nous pouvons orienter et développer les discussions. En définissant le débit et la logique, nous pouvons donc créer une expérience utilisateur robuste. Cette approche, dans la plupart des cas, utilise d'autres aspects des écosystèmes clients, ce qui rend la solution la plus efficace possible. Le concept de design conversationnel englobe la rédaction, l'interaction avec l'utilisateur, la création audio et les compétences techniques de développement pour parvenir à la solution souhaitée.

L’analyse et la mesurabilité deviennent également essentielles. La magie du modèle conversationnel est que nous disposons de retours utilisateurs en temps réel. Nous pouvons voir la façon dont ils interagissent avec le service, identifier leurs besoins et utiliser ces informations pour redéfinir le produit afin de l’améliorer et le rendre meilleur et plus utile à l'avenir.

L’avenir de la voix

Le design conversationnel nous a aidé à développer et concevoir de meilleurs produits pour nos clients. Alors que les services vocaux gagnent en maturité, les interactions les plus simples deviennent rares et les expériences fictives sont sans intérêt. Les services vocaux interactifs et engageants avec un réel objectif et qui s'intègrent dans l'écosystème global d'une entreprise sont désormais monnaie courante. Les réelles expériences multimodales, qui transmettent le message à la bonne interface et au bon moment, ne peuvent qu'améliorer le développement de ces produits.

Avec l’ajout fréquent de nouvelles fonctionnalités, les assistants vocaux fournis par Google, Microsoft et Amazon arrivent à maturité. L’expérience utilisateur devient alors essentielle. Le marché arrivera à maturité avec des offres de voix de synthèse, de référencement vocal et de voix intégrées de plus en plus courantes dans les foyers et les smart cities.

Conclusion & Conseils

Le design conversationnel consiste à apprendre aux ordinateurs à être plus humains dans leurs discussions et dans leurs habitudes. Bien évidemment, ceci est plus facile à dire qu'à faire, mais suivre ces principes peuvent aider :

  • Faites comme les humains : les conversations avec ces machines doivent être naturelles, sans friction et surtout explicites.
  • Adaptez-vous aux contraintes techniques : nous voulons reproduire le comportement d’humain à humain, mais les systèmes informatiques ne sont pas humains, des erreurs se produiront. Nous devons contourner cette contrainte et d'autres comme les mots par invocation (le “Ok Google” d’Alexa*).
  • Tirez le meilleur parti des atouts techniques : les systèmes informatiques peuvent être plus puissants que les humains car ils ne se lassent jamais des questions. Ils peuvent également trouver et partager facilement des informations et peuvent dépasser nos attentes.

À force d'adopter des dispositifs vocaux, la relation entre les humains et les robots se développera, et pour que cela fonctionne au mieux, ils doivent d’ores et déjà apprendre à communiquer entre eux. C'est là que concept de design conversationnel montrera sa véritable valeur et son utilité.

  • Il pourrait bien être supprimé dans les 12 prochains mois. Si c'est le cas, cela rendra le référencement plus critique.

Contactez-nous pour discuter de vos projets autour de la voix !