Tout ce que vous voulez savoir sur la création d'interfaces utilisateur vocales

Publié: 2022-03-10

Résumé rapide ↬ La création d'interfaces utilisateur vocales nécessite une grande expertise en conception dans divers domaines tels que la conception de conversation, la conception d'interaction, la conception visuelle et la conception de mouvement. Cet article couvre les aspects les plus critiques de la conception d'interfaces utilisateur vocales - la conception de la conversation et la conception d'interfaces visuelles.

La voix est un outil puissant que nous pouvons utiliser pour communiquer entre nous. Les conversations humaines inspirent les concepteurs de produits à créer des interfaces utilisateur vocales (VUI), une nouvelle génération d'interfaces utilisateur qui donne aux utilisateurs le pouvoir d'interagir avec les machines en utilisant leur langage naturel.

Pendant longtemps, l'idée de contrôler une machine en lui parlant simplement relevait de la science-fiction. Peut-être le plus célèbre, en 1968, Stanley Kubrick a sorti un film intitulé 2001 : L'Odyssée de l'espace , dans lequel l'antagoniste central n'était pas un humain. HAL 9000 était une intelligence artificielle sophistiquée contrôlée par la voix.

HAL 9000, un assistant vocal du film "2001 : L'Odyssée de l'Espace". (Regarder la vidéo sur YouTube)

Depuis lors, les progrès du traitement du langage naturel et de l'apprentissage automatique ont aidé les créateurs de produits à introduire des interfaces utilisateur vocales moins meurtrières dans divers produits, des téléphones portables aux appareils électroménagers intelligents et aux automobiles.

Une brève histoire des interfaces vocales

Si nous retournons dans le monde réel et analysons l'évolution des VUI, il est possible de définir trois générations de VUI. La première génération de VUI date des années 1950. En 1952, Bell Labs a construit un système appelé Audrey. Le système tire son nom de sa capacité à décoder les chiffres - Reconnaissance automatique des chiffres. En raison des limitations techniques, le système ne pouvait reconnaître que les chiffres prononcés de « 0 » à « 9 ». Pourtant, Audrey a prouvé que les VUI pouvaient être construites.

Bell Labs Audrey avec commandes d'entrée et de sortie. — 1952 Bell Labs Audrey. La photo ne montre que les commandes d'entrée et de sortie mais ne montre pas l'électronique de soutien. (Crédit image: Computerhistory) ( Grand aperçu )

La deuxième génération de VUI date des années 1980 et 1990. C'était l'ère de la réponse vocale interactive (IVR). L'un des premiers IVR a été développé en 1984 par Speechworks et Nuance, principalement pour la téléphonie, et ils ont révolutionné l'entreprise. Pour la première fois dans l'histoire, un système numérique pourrait reconnaître les appels en voix off humaine et effectuer les tâches qui leur sont confiées. Il était possible d'obtenir le statut de votre vol, de faire une réservation d'hôtel, de transférer de l'argent entre des comptes en utilisant rien de plus qu'un téléphone fixe ordinaire et la voix humaine.

Qu'est-ce que le RVI ? (Crédits vidéo : YouTube)

La troisième (et actuelle) génération de VUI a commencé à gagner du terrain dans la deuxième décennie du 21e siècle. La différence essentielle entre les 2e et 3e générations est que la voix est couplée à la technologie de l'IA. Des assistants intelligents comme Apple Siri, Google Assistant et Microsoft Cortana peuvent comprendre ce que dit l'utilisateur et proposer des options appropriées. Cette génération de VUI est disponible dans différents types de produits, des téléphones portables aux interfaces homme-machine (IHM) de voiture. Ils deviennent rapidement la norme.

Voix couplée à la technologie AI. (Crédit vidéo : Gleb Kuznetsov)

Plus après saut! Continuez à lire ci-dessous ↓

Six propriétés fondamentales de la conception VUI

Avant de passer à des recommandations de conception spécifiques, il est essentiel d'énoncer les principes de base d'une bonne conception de VUI.

1. Conception axée sur la voix

Vous devez concevoir des interfaces utilisateur mains libres et yeux libres. Même lorsqu'un appareil VUI a un écran, nous devons toujours concevoir pour les interactions vocales d'abord. Bien que l'écran puisse compléter l'interaction vocale, l'utilisateur doit être en mesure de terminer l'opération en regardant l'écran avec un minimum ou sans regarder.

Bien sûr, certaines tâches deviennent inefficaces ou impossibles à accomplir à la voix seule. Par exemple, faire en sorte que les utilisateurs écoutent et parcourent vocalement les résultats de la recherche peut être fastidieux. Mais vous devez éviter de créer une action qui repose uniquement sur l'interaction des utilisateurs avec un écran. Si vous concevez l'une de ces tâches, vous devez envisager une expérience dans laquelle vos utilisateurs commencent par la voix, puis passent à une interface visuelle ou tactile.

2. Conversation naturelle

L'interaction avec VUI ne devrait pas ressembler à une interaction avec un robot. Le flux de conversation doit être centré sur l'utilisateur (ressemblant à une conversation humaine naturelle). L'utilisateur ne devrait pas avoir à se souvenir de phrases spécifiques pour que le système fasse ce qu'il veut faire.

Il est important d'utiliser un langage courant et d'inviter les utilisateurs à dire les choses comme ils le font habituellement. Si vous remarquez que vous devez expliquer les commandes, cela indique clairement que quelque chose ne va pas avec votre conception et que vous devez revenir à la planche à dessin et la reconcevoir.

3. Personnalisation

La personnalisation ne se limite pas à dire "Bienvenue, %username%". La personnalisation consiste à connaître les véritables besoins et désirs des utilisateurs et à y adapter les informations. VUI offre aux concepteurs de produits une opportunité unique d'individualiser l'ensemble de l'interaction de l'utilisateur. Le système doit être capable de reconnaître les nouveaux utilisateurs et ceux qui reviennent, de créer des profils d'utilisateurs et de stocker les informations que le système y collecte. Plus le système en apprend sur les utilisateurs, plus il devrait offrir une expérience personnalisée. Les concepteurs de produits doivent décider des types d'informations à collecter auprès des utilisateurs pour personnaliser l'expérience.

4. Ton de voix

La voix est plus qu'un simple moyen d'interaction. En quelques secondes, on écoute la voix de l'autre ; nous créons une impression sur cette personne - un sentiment de sexe, d'âge, d'éducation, d'intelligence, de fiabilité et de nombreuses autres caractéristiques. Nous le faisons intuitivement, juste en écoutant une voix. C'est pourquoi il est essentiel de donner une personnalité à votre VUI - créez le bon personnage de marque qui correspond aux valeurs de la marque. Un bon personnage est suffisamment spécifique pour évoquer une voix et une personnalité uniques.

Créez un discours sur la personnalité de la marque par Wally Brill. (Crédits vidéo : Google)

5. Contexte d'utilisation

Vous devez comprendre où et comment le produit à commande vocale sera utilisé. Sera-t-il utilisé par une seule personne ou partagé entre plusieurs personnes ? Dans les espaces publics ou privés ? À quel point l'environnement est-il bruyant ? Le contexte d'utilisation aura un impact sur de nombreuses décisions de conception de produits que vous prendrez.

6. Sentiment de confiance

La confiance est un principe fondamental d'une bonne expérience utilisateur - l'engagement des utilisateurs repose sur la confiance. Une bonne interaction avec l'interface utilisateur vocale devrait toujours conduire à l'établissement de la confiance.

Voici quelques choses que les concepteurs de produits peuvent faire pour atteindre cet objectif :

Ne partagez jamais de données privées avec qui que ce soit.
Veillez à verbaliser les données sensibles telles que les données médicales car les utilisateurs pourraient ne pas être seuls.
Évitez les contenus offensants.
Introduisez des changements offensants ou sensibles par âge et région/pays.
Essayez d'éviter le contenu purement promotionnel.
Ne mentionnez pas de produits ou de noms de marque hors contexte, car les utilisateurs pourraient le percevoir comme un contenu promotionnel.

Recommandations de conception

Lorsqu'il s'agit de concevoir une VUI, il est possible de définir deux grands domaines :

Conception conversationnelle
Aspect visuel

1. Concevoir la conversation

À première vue, la différence significative entre GUI et VUI est le support d'interaction. Dans GUI, nous utilisons un clavier, une souris ou un écran tactile, tandis que pour VUI, nous utilisons la voix. Cependant, en y regardant de plus près, nous verrons que la différence fondamentale entre les deux types d'interfaces est un modèle d'interaction. Avec la voix, les utilisateurs peuvent simplement demander ce qu'ils veulent au lieu d'apprendre à naviguer dans l'application et à découvrir ses fonctionnalités. Lorsque nous concevons pour la voix, nous concevons des interactions conversationnelles.

En savoir plus sur vos utilisateurs

Les conversations avec un ordinateur ne doivent pas être gênantes. Les utilisateurs doivent pouvoir interagir avec une interface utilisateur vocale comme ils le feraient avec une autre personne. C'est pourquoi le processus de conception de la conversation doit toujours commencer par se renseigner sur les utilisateurs. Vous devez trouver des réponses aux questions suivantes :

Qui sont vos utilisateurs ?
(Démographie, portrait psychologique)
Comment sont-ils familiarisés avec les interactions vocales ? Utilisent-ils actuellement des produits vocaux ?
(Niveau d'expertise technique)

Comprendre l'espace des problèmes et définir les cas d'utilisation clés

Lorsque vous savez qui sont vos utilisateurs, vous devez développer une compréhension approfondie des problèmes des utilisateurs. Quels sont leurs objectifs ? Créez des cartes d'empathie pour identifier les principaux points faibles des utilisateurs. Dès que vous aurez compris l'espace problématique, il vous sera plus facile d'anticiper les fonctionnalités souhaitées par les utilisateurs et de définir des cas d'utilisation spécifiques. (Que peut faire un utilisateur avec le système vocal ?)

Pensez à la fois au problème que votre utilisateur essaie de résoudre et à la manière dont l'interface utilisateur vocale peut aider l'utilisateur à résoudre ce problème. Voici quelques questions qui peuvent vous y aider :

Quelles sont les tâches de l'utilisateur clé ? (En savoir plus sur les besoins/souhaits des utilisateurs.)
Quelles situations déclenchent ces tâches ? (Dans quel contexte les utilisateurs interagiront avec le système.)
Comment les utilisateurs effectuent-ils ces tâches aujourd'hui ? (Quel est le parcours utilisateur ?)

Il est également essentiel de s'assurer qu'une interface utilisateur vocale est la bonne solution au problème de l'utilisateur. Par exemple, l'interface utilisateur vocale peut bien fonctionner pour la tâche de trouver un restaurant à proximité pendant que vous êtes sur la route, mais cela peut sembler maladroit pour des tâches telles que la navigation dans les critiques de restaurants.

Flux de dialogue d'écriture

À la base, la conception de la conversation concerne le flux de la conversation. Le flux de dialogue ne doit pas être une réflexion après coup ; au lieu de cela, cela devrait être la première chose que vous créez car cela aura un impact sur le développement.

Voici quelques conseils pour créer une base pour votre flux de dialogue :

Commencez avec un exemple de boîte de dialogue qui représente le chemin heureux.
Le chemin heureux est le chemin le plus simple et le plus facile vers le succès qu'un utilisateur puisse suivre. N'essayez pas de rendre l'exemple de dialogue parfait à cette étape.
Concentrez-vous sur la conversation parlée.
Essayez d'éviter les situations dans lesquelles vous écrivez un dialogue différemment des gens qui le parlent. Cela conduit généralement à des dialogues bien structurés mais plus longs et plus formels. Lorsque les gens veulent résoudre une tâche particulière, ils sont plus au point quand ils parlent.
Lisez à haute voix un exemple de dialogue pour vous assurer qu'il semble naturel.
Idéalement, vous devriez inviter des personnes qui n'appartiennent pas à l'équipe de conception et recueillir des commentaires.

L'exemple de dialogue vous aidera à identifier le contexte de la conversation (quand, où et comment l'utilisateur déclenche l'interface vocale) et les énoncés et réponses courants.

Une fois que vous avez fini d'écrire des exemples de dialogues, la prochaine chose à faire est d'ajouter divers chemins (pensez à la façon dont le système réagira dans de nombreuses situations, en ajoutant des tours dans les conversations, etc.). Cela ne signifie pas que vous devez tenir compte de toutes les variations possibles dans les dialogues. Considérez le principe de Pareto (80 % des utilisateurs suivront les 20 % de chemins possibles les plus courants dans une discussion) et définissez les chemins logiques les plus probables qu'un utilisateur peut emprunter.

Principes de conception des conversations. (Crédits vidéo : Google)

Il est également recommandé de recruter un concepteur de conversation - un professionnel qui peut vous aider à créer des conversations naturelles et intuitives pour les utilisateurs.

Conception pour le langage humain

Plus une interface exploite la conversation humaine, moins les utilisateurs doivent apprendre à l'utiliser. Investissez dans la recherche d'utilisateurs et apprenez le vocabulaire de vos utilisateurs réels ou potentiels. Essayez d'utiliser les mêmes expressions et phrases dans la réponse du système. Cela créera une conversation plus conviviale.

N'enseignez pas les commandes.
Laissez les utilisateurs s'exprimer avec leurs propres mots.
Évitez le jargon technique.
Laissez les utilisateurs interagir naturellement avec le système en utilisant les phrases qu'ils préfèrent.

L'utilisateur démarre toujours la conversation

Aussi sophistiqué que soit le système vocal, il ne devrait jamais démarrer la conversation. Ce sera gênant si le système atteint l'utilisateur avec un sujet dont il ne veut pas discuter.

Évitez les longues réponses

Lorsque vous concevez des réponses système, tenez toujours compte d'une charge cognitive. Les utilisateurs de VUI ne lisent pas, ils écoutent, et plus vous faites de réponses système, plus ils doivent conserver d'informations dans leur mémoire de travail. Certaines de ces informations peuvent ne pas être utilisables pour l'utilisateur, mais il n'existe aucun moyen d'avancer rapidement les réponses pour avancer.

Faites en sorte que chaque mot compte et conçoive de brèves conversations. Lorsque vous écrivez des réponses système, lisez-les à haute voix. La longueur est probablement bonne si vous pouvez dire les mots à un rythme conversationnel avec une seule respiration. Si vous avez besoin de respirer un peu plus, réécrivez les réponses et réduisez la longueur.

Minimiser le nombre d'options dans les invites du système

Il est également possible de minimiser la charge cognitive en réduisant le nombre d'options que les utilisateurs entendent. Idéalement, lorsque les utilisateurs demandent une recommandation, le système devrait proposer immédiatement la meilleure option possible. S'il est impossible de le faire, essayez de fournir les trois meilleures options possibles et verbalisez d'abord la plus pertinente.

Offrir des choix définitifs

Évitez les questions ouvertes dans les réponses du système. Ils peuvent amener les utilisateurs à répondre d'une manière que le système n'attend pas ou ne prend pas en charge. Par exemple, lorsque vous concevez une invite d'introduction, au lieu de dire "Bonjour, sa société ACME, que voulez-vous faire ?" vous devriez dire, "Bonjour, sa société ACME, vous pouvez faire [Option A], [Option B] ou [Option C]."

Ajouter des pauses entre la question et les options

Les pauses et la ponctuation imitent la cadence de parole réelle, et elles sont utiles dans les situations où le système pose une question et propose quelques options parmi lesquelles choisir.

Ajoutez une pause de 500 millisecondes après avoir posé la question. Cette pause donnera aux utilisateurs suffisamment de temps pour comprendre la question.

Donnez aux utilisateurs le temps de réfléchir

Lorsque le système demande quelque chose à l'utilisateur, il peut avoir besoin de penser à répondre à la question. Le délai d'attente par défaut pour que les utilisateurs répondent à la demande est de 8 à 10 secondes. Après ce délai, le système doit répéter la demande ou la relancer. Par exemple, supposons qu'un utilisateur réserve une table dans un restaurant. L'exemple de dialogue pourrait ressembler à ceci :

Utilisateur : "Assistant, je veux aller au restaurant."

Système : "Où voudrais-tu aller ?"

(Aucune réponse pendant 8 secondes)

Système : « Je peux te réserver une table dans un restaurant. Quel restaurant aimeriez-vous visiter ? »

Demander plus d'informations si nécessaire

Il est assez courant que les utilisateurs demandent quelque chose sans fournir suffisamment de détails. Par exemple, lorsque les utilisateurs demandent à l'assistant vocal de réserver un voyage, ils peuvent dire quelque chose comme "Assistant, réservez un voyage en mer". L'utilisateur suppose que le système les connaît et offrira la meilleure option possible. Lorsque le système ne dispose pas de suffisamment d'informations sur l'utilisation, il doit demander plus d'informations plutôt que de proposer une option qui pourrait ne pas être pertinente.

Utilisateur : "Je voudrais réserver un voyage au bord de la mer."

Système : "Quand voulez-vous y aller ?"

Ne posez jamais de questions rhétoriques ou ouvertes

En posant des questions rhétoriques ou ouvertes, vous imposez une charge cognitive élevée aux utilisateurs. Au lieu de cela, posez des questions directes. Par exemple, au lieu de demander à l'utilisateur "Que voulez-vous faire de votre invitation ?" vous devez dire « Vous pouvez annuler votre invitation ou la reprogrammer. Qu'est-ce qui fonctionne pour vous ? »

Ne faites pas attendre les gens en silence

Lorsque les gens n'entendent/ne voient aucun retour du système, ils peuvent penser qu'il ne fonctionne pas. Parfois, le système a besoin de plus de temps pour traiter la demande de l'utilisateur, mais cela ne signifie pas que les utilisateurs doivent attendre dans un silence absolu/sans aucun retour visuel. Au moins, vous devriez offrir un signal d'audition et l'associer à un retour visuel.

retour visuel mazon Echo — Retour visuel Amazon Echo. (Crédit image : ténor)

Minimiser la saisie des données utilisateur

Essayez de réduire le nombre de cas où les utilisateurs doivent fournir des numéros de téléphone, des adresses postales ou des mots de passe alphanumériques. Il peut être difficile pour les utilisateurs de lire des chaînes de numéros ou des informations détaillées sur le système vocal. Cela est particulièrement vrai pour les utilisateurs ayant des troubles de la parole. Proposez des méthodes alternatives pour saisir ce type d'informations, comme l'utilisation de l'application mobile associée.

Prise en charge de la répétition

Que les utilisateurs utilisent le système dans une zone bruyante ou qu'ils aient simplement des problèmes pour comprendre la question, ils doivent pouvoir demander au système de répéter la dernière invite à tout moment.

Découverte des fonctionnalités

La découvrabilité des fonctionnalités peut être un énorme problème dans les interfaces vocales. Dans l'interface graphique, vous disposez d'un écran que vous pouvez utiliser pour présenter de nouvelles fonctionnalités, tandis que dans les interfaces utilisateur vocales, vous n'avez pas cette option.

Voici deux techniques que vous pouvez utiliser pour améliorer la découvrabilité :

Intégration solide. Un utilisateur novice doit être intégré au système pour comprendre ses capacités. Rendez-le pratique - laissez les utilisateurs effectuer certaines actions à l'aide de commandes vocales.
Lors de la première rencontre avec une application vocale particulière, vous voudrez peut-être discuter de ce qui est possible.

Confirmer les demandes des utilisateurs

Les gens apprécient un sentiment de reconnaissance. Ainsi, faites savoir à l'utilisateur que le système les entend et les comprend. Il est possible de définir deux types de confirmation : la confirmation implicite et explicite.

Des confirmations explicites sont requises pour les tâches à haut risque telles que les transferts d'argent. Ces confirmations nécessitent l'approbation verbale de l'utilisateur pour continuer.

Utilisateur : "Transférez mille dollars à Alice."

System : "Vous voulez transférer mille dollars à Alice Young, n'est-ce pas ?"

Dans le même temps, toutes les actions ne nécessitent pas la confirmation de l'utilisateur. Par exemple, lorsqu'un utilisateur demande d'arrêter de jouer de la musique, le système doit mettre fin à la lecture sans demander « Voulez-vous arrêter la musique ? »

Gérer l'erreur avec grâce

Il est presque impossible d'éviter les erreurs dans les interactions vocales. Les états d'erreur mal gérés peuvent affecter l'impression qu'a l'utilisateur du système. Quelle que soit la cause de l'erreur, il est important de la gérer avec grâce, ce qui signifie que l'utilisateur doit avoir une expérience positive de l'utilisation d'un système même lorsqu'il est confronté à une condition d'erreur.

Minimisez le nombre de situations « Je ne vous comprends pas ».
Évitez les messages d'erreur indiquant uniquement qu'ils n'ont pas bien compris l'utilisateur. Un flux de dialogue bien conçu doit prendre en compte toutes les branches de dialogue possibles, y compris les branches avec une entrée utilisateur incorrecte.
Introduire un mécanisme de réparations contextuelles.
Aidez la situation du système lorsque quelque chose d'inattendu se produit pendant que l'utilisateur parle. Par exemple, le système de reconnaissance vocale n'a pas réussi à entendre l'utilisateur en raison du bruit fort en arrière-plan.
Dites clairement ce que le système ne peut pas faire.
Lorsque les utilisateurs sont confrontés à des messages d'erreur tels que "Je ne peux pas vous comprendre", ils commencent à se demander si le système n'est pas capable de faire quelque chose ou s'ils verbalisent la demande de manière incorrecte. Il est recommandé de fournir une réponse explicite dans les situations où le système ne peut pas faire quelque chose. Par exemple, "Désolé, je ne peux pas faire ça. Mais je peux vous aider avec [option]. "
Acceptez les corrections.
Parfois, les utilisateurs apportent des corrections lorsqu'ils savent que le système s'est trompé ou lorsqu'ils ont décidé de changer d'avis. Lorsque les utilisateurs veulent corriger leur entrée, ils diront quelque chose comme "Non" ou "J'ai dit", suivi d'un énoncé valide.

Testez vos dialogues

Plus tôt vous commencez à tester votre flux de conversation, mieux c'est. Idéalement, commencez à tester et à itérer sur vos conceptions dès que vous avez des exemples de boîtes de dialogue. La collecte de commentaires pendant le processus de conception expose les problèmes d'utilisabilité et vous permet de corriger la conception plus tôt.

La meilleure façon de tester si votre dialogue fonctionne est de le mettre en scène. Vous pouvez utiliser des techniques comme Wizard of Oz , où une personne prétend être un système et l'autre un utilisateur. Dès que vous commencerez à pratiquer le script, vous remarquerez s'il sonne bien ou mal lorsqu'il est prononcé à haute voix.

N'oubliez pas que vous devez empêcher les gens de partager des indices non verbaux. Lorsque nous interagissons avec d'autres personnes, nous utilisons généralement un langage non verbal (regard oculaire, langage corporel). Les signaux non verbaux sont extrêmement précieux pour transmettre des informations, mais malheureusement, les systèmes VUI ne peuvent pas les comprendre. Lorsque vous testez vos dialogues, essayez de faire asseoir les participants dos à dos pour éviter tout contact visuel.

La prochaine partie des tests consiste à observer le comportement réel des utilisateurs. Idéalement, vous devriez observer les utilisateurs qui utilisent votre produit pour la première fois. Cela vous aidera à comprendre ce qui fonctionne et ce qui ne fonctionne pas. Tester avec 5 participants vous aidera à révéler la plupart de vos problèmes d'utilisabilité.

2. Conception visuelle

Un écran joue un rôle secondaire dans les interactions vocales. Pourtant, il est essentiel de prendre en compte un aspect visuel de l'interaction de l'utilisateur, car des expériences visuelles de haute qualité créent de meilleures impressions sur les utilisateurs. De plus, les visuels sont bons pour certaines tâches particulières telles que la numérisation et la comparaison des résultats de recherche. Le but ultime est de concevoir une expérience multimodale plus agréable et engageante.

Conception pour les petits écrans d'abord

Lorsque vous adaptez du contenu sur plusieurs écrans, commencez par la plus petite taille d'écran. Cela vous aidera à prioriser le contenu le plus important.

Lorsque vous ciblez des appareils avec des écrans plus grands, ne vous contentez pas d'augmenter le contenu. Essayez de tirer pleinement parti de l'espace supplémentaire sur l'écran. Mettez l'accent sur la qualité des images et des vidéos - les images ne doivent pas perdre de leur qualité à mesure qu'elles évoluent.

Optimisez le contenu pour une analyse rapide

Comme mentionné précédemment, les écrans sont très pratiques dans les cas où vous devez fournir quelques options à comparer. Parmi tous les conteneurs de contenu que vous pouvez utiliser, les cartes sont celles qui fonctionnent le mieux pour une analyse rapide. Lorsque vous devez fournir une liste d'options parmi lesquelles choisir, vous pouvez mettre chaque option sur la carte.

Nest Hub utilise des cartes comme conteneurs de contenu. (Crédit image : Google) ( Grand aperçu )

Concevoir avec une distance de visualisation spécifique à l'esprit

Concevez le contenu de manière à ce qu'il puisse être visualisé à distance. La portée de visionnement des appareils à commande vocale à petit écran doit être comprise entre 1 et 2 mètres, tandis que pour les grands écrans tels que les téléviseurs, elle doit être de 3 mètres. Vous devez vous assurer que la taille de la police et la taille des images et des éléments de l'interface utilisateur que vous afficherez à l'écran sont confortables pour les utilisateurs.

Google recommande d'utiliser une taille de police minimale de 32 pt pour le texte principal, comme les titres, et d'au moins 24 pt pour le texte secondaire, comme les descriptions ou les paragraphes de texte.

Sur la photo, Echo Show se tient sur une table de cuisine à côté d'une planche à découper avec de la nourriture dessus. — Un contexte d'utilisation typique pour Echo Show, l'appareil vocal d'Amazon. (Crédit image : Amazon) ( Grand aperçu )

Connaître les attentes des utilisateurs concernant un appareil particulier

Les appareils à commande vocale peuvent aller des appareils embarqués aux appareils de télévision. Chaque mode d'appareil a son propre contexte d'utilisation et un ensemble d'attentes de l'utilisateur. Par exemple, les hubs domestiques sont généralement utilisés pour la musique, les communications et le divertissement, tandis que les systèmes embarqués sont généralement utilisés à des fins de navigation.

Lecture complémentaire : Concevoir des interfaces homme-machine pour les véhicules du futur

Hiérarchie des informations sur les écrans

Lorsque nous concevons des pages de site Web, nous commençons généralement par la structure de la page. Une approche similaire doit être suivie lors de la conception pour VUI - décidez où chaque élément doit être situé. La hiérarchie des informations doit aller du plus important au moins important. Essayez de minimiser les informations que vous affichez à l'écran - uniquement les informations requises qui aident les utilisateurs à faire ce qu'ils veulent faire.

Hiérarchie visuelle claire des informations sur le portail, premier appareil vocal de Sber. (Crédit image : Sber) ( Grand aperçu )

Gardez le visuel et la voix synchronisés

Il ne devrait pas y avoir de décalage significatif entre la voix et les éléments visuels. L'interface graphique doit être vraiment réactive - juste après que l'utilisateur a entendu l'invite vocale ; l'interface doit être actualisée avec des informations pertinentes.

Le langage du mouvement joue un rôle important dans la façon dont les utilisateurs comprennent les informations. Il est essentiel d'éviter les coupures brutales et d'utiliser des transitions douces entre les états individuels. Lorsque les utilisateurs parlent, nous devons également fournir un retour visuel qui reconnaît que le système écoute l'utilisateur.

Hiérarchie claire des informations du gestionnaire de fichiers vocaux. (Crédit vidéo : Gleb Kuznetsov)

Conception accessible

Un produit bien conçu est inclusif et universellement accessible. Les utilisateurs ayant une déficience visuelle (personnes handicapées telles que la cécité, la basse vision et le daltonisme) ne devraient pas avoir de problèmes pour interagir avec votre produit. Pour rendre votre conception accessible, suivez les directives WCAG.

Assurez-vous que le texte à l'écran est lisible. Assurez-vous que votre texte a un rapport de contraste suffisamment élevé. La couleur et le contraste du texte respectent les ratios AAA.
Les utilisateurs qui utilisent des lecteurs d'écran doivent comprendre ce qui est affiché sur les écrans. Ajoutez des descriptions aux images.
Ne concevez pas d'éléments d'écran qui scintillent, clignotent ou clignotent. Généralement, tout ce qui clignote plus de trois flashs par seconde peut causer des maux de tête aux utilisateurs souffrant du mal des transports.

Lecture connexe : Comment un utilisateur de lecteur d'écran accède au Web

Conclusion

Nous sommes à l'aube de la prochaine révolution numérique. La prochaine génération d'ordinateurs offrira aux utilisateurs une occasion unique d'interagir avec la voix. Mais la fondation pour cette génération est créée aujourd'hui. C'est aux concepteurs de développer des systèmes qui seront naturels pour les utilisateurs.

Lecture connexe recommandée

« Guide de conception Alexa », documentation du développeur Amazon
"Processus de conception de conversation", Google Assistant Docs
"Concevoir des interfaces utilisateur vocales : principes des expériences conversationnelles", Cathy Pearl (2017)
"Appliquer des hacks de conversation intégrés à votre interface utilisateur vocale", James Giangola (vidéo)
"Création d'un personnage : à quoi ressemble votre produit ? », Wally Brill (vidéo)
« Voice Principles », une collection de ressources créée par Clearleft.