Concevoir l'invisible : 3 choses que j'ai apprises Concevoir pour la voix

Publié: 2022-03-10

Résumé rapide ↬ Il y a des gens partout dans le monde qui sont incapables d'accomplir facilement les tâches quotidiennes par eux-mêmes. Heureusement, les développeurs et les concepteurs peuvent aider en expérimentant la technologie vocale qui leur permet d'accomplir des tâches que d'autres peuvent considérer comme allant de soi.

L'itération actuelle des assistants numériques à commande vocale a encore du mal à s'intégrer de manière aussi transparente que le souhaiteraient les trois grands acteurs vocaux d'Amazon, Google et Apple. Un rapport de 2017 de Voicelabs indique qu'il n'y a que 3 % de chances qu'un utilisateur soit actif au cours de la deuxième semaine après avoir téléchargé une application vocale et que 62 % des compétences d'Alexa n'obtiennent toujours aucune évaluation sur son magasin (en septembre 2017).

En tant que concepteurs, nous avons une réelle opportunité de donner un sens précieux à ces assistants, mais nous essayons toujours de déterminer où la technologie peut apporter de réels avantages à l'utilisateur. Pour beaucoup, se lancer dans un projet d'interface utilisateur vocale (VUI) peut être un peu comme entrer dans l'inconnu . Il y a peu d'exemples de réussite dont les concepteurs ou les ingénieurs peuvent s'inspirer, en particulier dans des contextes qui illustrent comment cette technologie naissante pourrait aider les gens à prospérer de nouvelles façons.

Expérimenter la `speechSynthesis`

L'API Web Speech vous permet d'activer la voix de votre site Web dans deux directions : écouter vos utilisateurs via l'interface SpeechRecognition et leur répondre via l'interface speechSynthesis . Tout cela se fait via une API JavaScript, ce qui facilite le test de prise en charge. Lire un article connexe →

Dans le cadre des docu-séries Big Life Fix de BBC2 où des équipes d'inventeurs créent de nouvelles solutions qui changent la vie des personnes dans le besoin, j'ai eu l'occasion de tester et de construire un assistant à commande vocale pour une femme appelée Susan. Susan vit avec une forme progressive de sclérose en plaques depuis plus de 20 ans et est maintenant incapable d'accomplir facilement les tâches quotidiennes par elle-même. Avec des soignants à plein temps, elle compte sur les autres pour la laver et l'habiller et n'a même pas la possibilité de changer de chaîne à la télévision sans aide.

Alors que la technologie vocale semblait offrir la voie la plus douce pour surmonter les difficultés physiques de Susan, Susan n'a jamais utilisé de smartphone, donc la propulser directement dans une interaction avec un assistant vocal n'allait jamais être facile - nous avons dû réfléchir intelligemment pour l'aider apprendre à communiquer avec une technologie incroyablement extraterrestre.

Plus après saut! Continuez à lire ci-dessous ↓

Le résultat pour Susan est un assistant à commande vocale hautement personnalisé qui lui permet désormais d'accomplir des tâches quotidiennes avec la liberté que les autres tiennent pour acquise, qu'il s'agisse de passer un appel téléphonique à sa famille ou d'écouter de la musique. Construit comme une version améliorée de la technologie Amazon Alexa sur leur appareil Echo Dot, l'assistant vocal de Susan impliquait également une personnalisation physique puisque nous avons imprimé en 3D un boîtier en forme de son animal préféré, un hibou.

Alors que nous expérimentions et réitérions rapidement une solution pour Susan, mon équipe et moi avons découvert des dizaines de subtilités qui accompagnent la conception pour la voix d'une manière plus inclusive et accessible. Bien qu'il s'agisse d'un projet unique, trois éléments clés s'appliquent à tout projet VUI.

1. Rendez-le personnel

La technologie fonctionne. Il ne s'agit pas seulement de s'asseoir et d'attendre que la puissance de calcul augmente en fonction des attentes des utilisateurs. Nous avons trouvé la détection, la reconnaissance et la synthèse de la voix de chacun des appareils bien plus puissantes que prévu. Et ce n'est pas comme s'il y avait un manque de choix. Il existe plus de 30 000 compétences Alexa sur Amazon, avec une moyenne de 50 nouvelles publiées quotidiennement. Les compétences sont des capacités spécifiques qui permettent aux concepteurs et aux développeurs de créer une expérience vocale plus personnalisée lors de l'utilisation d'appareils comme Amazon Echo Dot. Ils fonctionnent un peu comme une application dans l'App Store sur votre smartphone, vous permettant de personnaliser votre assistant vocal comme bon vous semble .

Cependant, il y a actuellement un gros obstacle à l'accès. Les compétences doivent être ajoutées via l'application plutôt que l'appareil, annulant souvent les avantages d'un VUI et brisant le flux conversationnel (sans parler de l'exclusion de ceux qui ne peuvent pas/ne veulent pas utiliser un smartphone). Cela rend le processus au mieux maladroit et décousu, au pire complètement isolant. Même une fois qu'une compétence est installée, aucune visibilité des compétences et un délai d'interaction limité entraînent un manque de confiance et d'anxiété ; peut-il faire ce que je veux? Comment lui parler ? M'a-t-il entendu ? Alors, comment établissez-vous cette connexion et cette confiance ?

Pour Susan, cela signifiait éliminer l'inutile et présenter une sélection organisée de fonctionnalités de base. En personnalisant le contenu en fonction des comportements et des exigences uniques, nous avons présenté une clarté indispensable et une expérience plus significative. Susan voulait effectuer des tâches clés : répondre au téléphone, passer un appel, changer de chaîne de télévision, écouter de la musique, etc. En apprenant à la comprendre ainsi qu'à ses besoins, nous avons créé une assistante qui s'est toujours sentie pertinente et utile . C'était un processus assez manuel, mais il y a ici une énorme opportunité pour l'apprentissage automatique et l'IA. Si chaque assistant vocal pouvait offrir un élément de personnalisation, cela pourrait rendre l'expérience plus pertinente pour tout le monde.

Comme nous concevions pour une seule personne, nous pouvions facilement adapter les éléments physiques du produit à Susan. Cela signifiait concevoir - puis imprimer en 3D - un diffuseur de lumière en forme de hibou (son animal préféré et quelque chose qui a une signification importante pour elle). Le hibou a agi comme une manifestation visuelle de la technologie et lui a donné quelque chose à qui parler et vers quoi se projeter. C'est son guide qui lui a donné accès aux compétences qu'elle voulait, comme écouter de la musique. Comme c'était personnel pour elle, cela rendait la technologie potentiellement extraterrestre et intimidante beaucoup plus accessible et familière .

L'humanisation de la technologie contribue à la rendre plus accessible : la chouette personnalisée de Susan brille en réponse à sa voix, lui faisant savoir qu'elle est entendue et comprise. — L'humanisation de la technologie contribue à la rendre plus accessible : la chouette personnalisée de Susan s'illumine en réponse à sa voix, lui indiquant qu'elle est entendue et comprise. ( Grand aperçu )

Bien qu'un boîtier imprimé en 3D entièrement personnalisé ne soit pas une option pour chaque projet VUI, il existe une opportunité de créer un appareil plus pertinent avec lequel les gens peuvent communiquer, surtout si leurs besoins ou l'utilisation des assistants à domicile sont assez spécifiques. Par exemple, vous pouvez parler à une lampe à commande vocale de l'éclairage de votre maison et à un réfrigérateur de vos courses.

2. Pensez aux offres audio

Actuellement, l'utilisateur fait tout le travail lourd. Avec un modèle mental obscurci et aucune prise en main de la technologie, nous sommes obligés d'imaginer notre point final souhaité et de travailler à rebours à travers les commandes nécessaires. Les tâches les plus simples mises à part (régler une minuterie sur 5 minutes, jouer à Abba sur Spotify, etc.), c'est incroyablement difficile à faire, surtout si vous souffrez de "moments de brouillard", ce que Susan nous a expliqué : la difficulté à trouver les bons mots.

Lorsque Apple a utilisé des éléments visuels skeuomorphes pour ses premières applications iPhone, l'utilisateur a acquis des points de référence précieux et familiers qui ont permis son utilisation et sa méthode d'interaction. Ce n'est qu'une fois que le modèle mental est devenu plus établi qu'ils ont eu la liberté de s'éloigner de cette représentation littérale, dans leur interface utilisateur plate actuelle.

Lors de la conception de notre VUI, nous avons décidé de nous appuyer sur le système de menus bien établi que l'on retrouve dans la navigation numérique et Web. C'est un outil familier qui exige moins de traitement cognitif de la part de l'utilisateur et nous a permis d'incorporer des méthodes d'orientation qui n'ont pas pour effet de recommencer depuis le début si les choses tournent mal.

À titre d'exemple, Susan a trouvé que verbaliser ce qu'elle voulait, dans le laps de temps offert par les assistants numériques actuels, était une expérience stressante et souvent désagréable ; souvent aggravé par un message d'erreur de l'appareil à la fin de celui-ci. Plutôt que de s'attendre à ce qu'elle donne une commande explicite telle que "Alexa, joue Abba à partir de ma liste de lecture Spotify", nous avons décidé de créer un outil de menu guidé qui pourrait l'aider à démarrer lentement et à devenir progressivement plus précise sur ce qu'elle voulait qu'Alexa fasse.

Le hibou de Susan lui propose maintenant une liste organisée d'options telles que "Jouer de la musique" ou "Regarder quelque chose". Si elle choisit la musique, elle devient plus précise au fur et à mesure qu'elle progresse à travers chaque porte de décision, pour découvrir le genre qu'elle a envie d'écouter ; dans le cas d'Abba, elle sélectionnerait "la musique des années 60". Cela permet à Susan de naviguer beaucoup plus facilement vers le résultat souhaité et à un rythme qui lui convient. Pendant tout ce temps, la chouette brillait et répondait à sa voix, lui faisant savoir qu'elle était entendue et comprise.

L'assistant vocal de Susan lui redonne une partie de l'indépendance qu'elle a perdue à cause de son état, qu'il s'agisse de l'autonomiser, de passer un appel téléphonique à sa famille ou simplement d'écouter de la musique. ( Grand aperçu )

3. Il n'y a pas que la voix dans les VUI

Les composantes non lexicales de la communication verbale donnent beaucoup de sens à une conversation. Certains peuvent être reproduits par la voix synthétisée (l'intonation, la hauteur et la vitesse de la parole, les bruits d'hésitation, pour n'en nommer que quelques-uns), mais beaucoup ne le peuvent pas (comme les gestes et l'expression faciale). Les éléments tangibles du produit doivent remplacer ces repères visuels traditionnels pour que l'interaction soit même légèrement naturelle. Mais il y a plus que cela.

Premièrement, lorsqu'une personne interagit avec un produit conçu pour reproduire des comportements humains, les composants visuels sont interprétés par les notions préconçues du monde de l'utilisateur (à la fois inhérentes et apprises) et affectent leurs réponses émotionnelles. Si quelque chose a l'air imposant et froid, vous êtes beaucoup moins susceptible d'engager une conversation qu'avec quelque chose qui a l'air mignon et câlin.

Dans notre cas, comme la technologie était si étrangère à l'utilisateur, nous devions la rendre aussi familière et invitante que possible - un hibou. Ce faisant, nous espérions supprimer les sentiments d'anxiété et de frustration que nous avions ressentis avec d'autres produits. Nous avons également amplifié le côté visuel de celui-ci - il y a une couleur pour un état d'inactivité - une douce lueur, presque comme une respiration, mais lorsque Susan prononce les mots de réveil, la lumière change pour s'éveiller et écouter.

Vous pouvez aller plus loin. Apple, par exemple, a un écran couleur sur son Homepod qui offre un niveau de nuance plus élevé à son interaction et à sa visualisation. L'ajout d'une expérience visuelle peut sembler contre-intuitif, mais les visualisations peuvent être très utiles pour l'utilisateur.

Conclusion

Bien qu'appliqués à un cas d'utilisation individuel, ces apprentissages de haut niveau peuvent aider tout projet espérant utiliser les avantages inhérents à la voix. La personnalisation du contenu (si possible) offre une clarté indispensable et un système de navigation logique et relatable réduit la charge cognitive. Enfin, ne sous-estimez pas l'importance des composants visuels ; lorsqu'ils sont bien faits, ils ne fournissent pas seulement des indices de conversation fondamentaux, ils donnent le ton à toute l'interaction.

Pour ceux qui cherchent à expérimenter la voix, Amazon présente désormais des dizaines de milliers de compétences d'entreprises telles que Starbucks et Uber, ainsi que celles créées par d'autres concepteurs et développeurs innovants. Le kit de compétences Alexa (ASK) est une collection d'API, d'outils, de documentation et d'échantillons de code en libre-service qui vous permettent d'ajouter facilement des compétences à Alexa et de commencer à créer vos propres solutions. Vous vous demandez si la voix a même un sens ? Voici quelques considérations avant de commencer.