Todo lo que desea saber sobre la creación de interfaces de usuario de voz

Publicado: 2022-03-10
Resumen rápido ↬ La creación de interfaces de usuario de voz requiere mucha experiencia en diseño en varias áreas, como diseño de conversación, diseño de interacción, diseño visual y de movimiento. Este artículo cubre los aspectos más críticos del diseño de interfaces de usuario de voz: diseño de la conversación y diseño de interfaces visuales.

La voz es una herramienta poderosa que podemos usar para comunicarnos entre nosotros. Las conversaciones humanas inspiran a los diseñadores de productos a crear interfaces de usuario de voz (VUI), una próxima generación de interfaces de usuario que brinda a los usuarios el poder de interactuar con las máquinas utilizando su lenguaje natural.

Durante mucho tiempo, la idea de controlar una máquina simplemente hablándole fue materia de ciencia ficción. Quizás lo más famoso es que en 1968 Stanley Kubrick estrenó una película llamada 2001: A Space Odyssey , en la que el antagonista central no era un humano. HAL 9000 era una inteligencia artificial sofisticada controlada por voz.

HAL 9000, un asistente de voz de la película “2001: A Space Odyssey”. (Ver vídeo en YouTube)

Desde entonces, el progreso en el procesamiento del lenguaje natural y el aprendizaje automático ha ayudado a los creadores de productos a introducir interfaces de usuario de voz menos asesinas en varios productos, desde teléfonos móviles hasta electrodomésticos inteligentes y automóviles.

Una breve historia de las interfaces de voz

Si volvemos al mundo real y analizamos la evolución de las VUI, es posible definir tres generaciones de VUI. La primera generación de VUI data de la década de 1950. En 1952, Bell Labs construyó un sistema llamado Audrey. El sistema deriva su nombre de su capacidad para decodificar dígitos: reconocimiento automático de dígitos. Debido a las limitaciones tecnológicas, el sistema solo podía reconocer los números hablados del "0" al "9". Sin embargo, Audrey demostró que se podían construir VUI.

Bell Labs Audrey con controles de entrada y salida.
1952 Laboratorios Bell Audrey. La foto muestra solo los controles de entrada y salida, pero no muestra la electrónica de apoyo. (Crédito de la imagen: Computerhistory) (Vista previa grande)

La segunda generación de VUI data de los años 80 y 90. Era la era de la respuesta de voz interactiva (IVR). Uno de los primeros IVR fue desarrollado en 1984 por Speechworks y Nuance, principalmente para telefonía, y revolucionaron el negocio. Por primera vez en la historia, un sistema digital podría reconocer llamadas de voz en off humanas y realizar las tareas que se les encomendaron. Era posible obtener el estado de su vuelo, hacer una reserva de hotel, transferir dinero entre cuentas utilizando nada más que un teléfono fijo normal y la voz humana.

¿Qué es IVR? (Créditos del video: YouTube)

La tercera (y actual) generación de VUI comenzó a cobrar fuerza en la segunda década del siglo XXI. La diferencia fundamental entre la segunda y la tercera generación es que la voz se combina con la tecnología de IA. Los asistentes inteligentes como Apple Siri, Google Assistant y Microsoft Cortana pueden entender lo que dice el usuario y ofrecer opciones adecuadas. Esta generación de VUI está disponible en varios tipos de productos, desde teléfonos móviles hasta interfaces hombre-máquina (HMI) para automóviles. Se están convirtiendo rápidamente en la norma.

Voz junto con tecnología AI. (Crédito del video: Gleb Kuznetsov)
¡Más después del salto! Continúe leyendo a continuación ↓

Seis propiedades fundamentales del diseño VUI

Antes de pasar a recomendaciones de diseño específicas, es esencial establecer los principios básicos de un buen diseño de VUI.

1. Diseño de voz primero

Necesita diseñar interfaces de usuario manos libres y ojos libres. Incluso cuando un dispositivo VUI tiene una pantalla, siempre debemos diseñar para interacciones de voz primero. Si bien la pantalla puede complementar la interacción de voz, el usuario debería poder completar la operación con un mínimo o ningún vistazo a la pantalla.

Por supuesto, algunas tareas se vuelven ineficientes o imposibles de completar solo con la voz. Por ejemplo, hacer que los usuarios escuchen y exploren los resultados de búsqueda por voz puede ser tedioso. Pero debe evitar crear una acción que se base en que los usuarios interactúen solo con una pantalla. Si diseña una de esas tareas, debe considerar una experiencia en la que sus usuarios comiencen con la voz y luego cambien a una interfaz visual o táctil.

2. Conversación Natural

La interacción con VUI no debería sentirse como una interacción con un robot. El flujo de la conversación debe estar centrado en el usuario (parecido a una conversación humana natural). El usuario no debería tener que recordar frases específicas para que el sistema haga lo que quiere hacer.

Es importante utilizar un lenguaje cotidiano e invitar a los usuarios a decir las cosas de la forma en que lo hacen habitualmente. Si nota que tiene que explicar los comandos, es una clara indicación de que algo anda mal con su diseño y necesita volver a la mesa de dibujo y rediseñarlo.

3. Personalización

La personalización es más que simplemente decir "Bienvenido de nuevo, %username%". La personalización se trata de conocer las necesidades y deseos genuinos del usuario y adaptar la información a ellos. VUI brinda a los diseñadores de productos una oportunidad única para individualizar toda la interacción del usuario. El sistema debe poder reconocer usuarios nuevos y recurrentes, crear perfiles de usuario y almacenar la información que el sistema recopila en él. Cuanto más aprenda el sistema sobre los usuarios, más experiencia personalizada debería ofrecer. Los diseñadores de productos deben decidir qué tipo de información recopilar de los usuarios para personalizar la experiencia.

4. Tono de voz

La voz es más que un simple medio de interacción. En unos segundos, escuchamos la voz de la otra persona; creamos una impresión en esa persona: un sentido de género, edad, educación, inteligencia, confiabilidad y muchas otras características. Lo hacemos de manera intuitiva, simplemente escuchando una voz. Es por eso que es vital darle personalidad a su VUI: cree la personalidad de marca adecuada que coincida con los valores de la marca. Una buena persona es lo suficientemente específica como para evocar una voz y una personalidad únicas.

Crear una charla de personalidad de marca por Wally Brill. (Créditos del vídeo: Google)

5. Contexto de uso

Debe comprender dónde y cómo se utilizará el producto habilitado para voz. ¿Será utilizado por una persona o compartido entre muchas personas? ¿En áreas públicas o privadas? ¿Qué tan ruidoso es el ambiente? El contexto de uso afectará muchas decisiones de diseño de productos que tomará.

6. Sentido de confianza

La confianza es un principio fundamental de una buena experiencia de usuario: la participación del usuario se basa en una base de confianza. Una buena interacción con la interfaz de usuario de voz siempre debe generar confianza.

Aquí hay algunas cosas que los diseñadores de productos pueden hacer para lograr este objetivo:

  • Nunca comparta datos privados con nadie.
    Tenga cuidado de verbalizar datos confidenciales, como datos médicos, porque es posible que los usuarios no estén solos.
  • Evite el contenido ofensivo.
    Introduzca cambios ofensivos o sensibles por edad y región/país.
  • Trate de evitar el contenido puramente promocional.
    No mencione productos o marcas fuera de contexto porque los usuarios pueden percibirlo como contenido promocional.

Recomendaciones de diseño

Cuando se trata de diseñar VUI, es posible definir dos áreas principales:

  1. Diseño conversacional
  2. Diseño visual

1. Diseñar la conversación

A primera vista, la diferencia significativa entre GUI y VUI es el medio de interacción. En GUI, usamos un teclado, mouse o pantalla táctil, mientras que para VUI, usamos voz. Sin embargo, cuando miramos más de cerca, veremos que la diferencia fundamental entre los dos tipos de interfaces es un modelo de interacción. Con la voz, los usuarios pueden simplemente pedir lo que quieren en lugar de aprender a navegar por la aplicación y conocer sus funciones. Cuando diseñamos para la voz, diseñamos interacciones conversacionales.

Aprenda sobre sus usuarios

Las conversaciones con una computadora no deben sentirse incómodas. Los usuarios deberían poder interactuar con una interfaz de usuario de voz como lo harían con otra persona. Es por eso que el proceso de diseño de conversaciones siempre debe comenzar con el aprendizaje de los usuarios. Necesitas encontrar respuestas a las siguientes preguntas:

  • ¿Quiénes son sus usuarios?
    (Demografía, retrato psicológico)
  • ¿Cómo están familiarizados con las interacciones basadas en la voz? ¿Están utilizando actualmente productos de voz?
    (Nivel de experiencia tecnológica)

Comprender el espacio del problema y definir casos de uso clave

Cuando sabe quiénes son sus usuarios, necesita desarrollar una comprensión profunda de los problemas de los usuarios. ¿Cuáles son sus objetivos? Cree mapas de empatía para identificar los puntos débiles clave de los usuarios. Tan pronto como comprenda el espacio del problema, le resultará más fácil anticipar las funciones que los usuarios desean y definir casos de uso específicos. (¿Qué puede hacer un usuario con el sistema de voz?)

Piense tanto en el problema que su usuario está tratando de resolver como en cómo la interfaz de usuario de voz puede ayudar al usuario a resolver este problema. Aquí hay algunas preguntas que pueden ayudarlo con eso:

  • ¿Cuáles son las tareas del usuario clave? (Aprenda sobre las necesidades/deseos de los usuarios).
  • ¿Qué situaciones desencadenan estas tareas? (En qué contexto los usuarios interactuarán con el sistema).
  • ¿Cómo están completando los usuarios estas tareas hoy? (¿Qué es el viaje del usuario?)

También es vital asegurarse de que una interfaz de usuario de voz sea la solución adecuada para el problema del usuario. Por ejemplo, la interfaz de usuario de voz puede funcionar bien para la tarea de encontrar un restaurante cercano mientras está de viaje, pero puede parecer torpe para tareas como buscar reseñas de restaurantes.

Escribir flujo de diálogo

En esencia, el diseño de la conversación se trata del flujo de la conversación. El flujo de diálogo no debe ser una ocurrencia tardía; en cambio, debe ser lo primero que cree porque afectará el desarrollo.

Aquí hay algunos consejos para crear una base para su flujo de diálogo:

  • Comience con un cuadro de diálogo de muestra que represente el camino feliz.
    El camino feliz es el camino más simple y fácil hacia el éxito que un usuario puede seguir. No intente hacer que el diálogo de muestra sea perfecto en este paso.
  • Enfócate en la conversación hablada.
    Trate de evitar situaciones en las que escriba el diálogo de manera diferente a como lo hablan las personas. Por lo general, conduce a diálogos bien estructurados pero más largos y formales. Cuando las personas quieren resolver una tarea en particular, van más al grano cuando hablan.
  • Lea un diálogo de muestra en voz alta para asegurarse de que suene natural.
    Idealmente, debe invitar a personas que no pertenecen al equipo de diseño y recopilar comentarios.

El cuadro de diálogo de muestra lo ayudará a identificar el contexto de la conversación (cuándo, dónde y cómo el usuario activa la interfaz de voz) y las declaraciones y respuestas comunes.

Después de terminar de escribir diálogos de muestra, lo siguiente que debe hacer es agregar varias rutas (considere cómo responderá el sistema en numerosas situaciones, agregando turnos en las conversaciones, etc.). No significa que deba tener en cuenta todas las variaciones posibles en los diálogos. Considere el principio de Pareto (el 80 % de los usuarios seguirán el 20 % de los caminos posibles más comunes en una discusión) y defina los caminos lógicos más probables que puede tomar un usuario.

Principios de diseño de conversación. (Créditos del vídeo: Google)

También se recomienda contratar a un diseñador de conversaciones, un profesional que pueda ayudarlo a crear conversaciones naturales e intuitivas para los usuarios.

Diseño para el lenguaje humano

Cuanto más aprovecha una interfaz la conversación humana, menos usuarios tienen que aprender a usarla. Invierte en investigación de usuarios y aprende el vocabulario de tus usuarios reales o potenciales. Trate de usar las mismas frases y oraciones en la respuesta del sistema. Creará una conversación más fácil de usar.

  • No enseñes órdenes.
    Deje que los usuarios hablen con sus propias palabras.
  • Evite la jerga técnica.
    Permita que los usuarios interactúen con el sistema de forma natural utilizando las frases que prefieran.

El usuario siempre inicia la conversación

No importa cuán sofisticado sea el sistema basado en voz, nunca debe iniciar la conversación. Será incómodo si el sistema llega al usuario con un tema que no quiere discutir.

Evite las respuestas largas

Cuando diseñe las respuestas del sistema, siempre tenga en cuenta una carga cognitiva. Los usuarios de VUI no están leyendo, están escuchando, y cuanto más tiempo responda el sistema, más información tendrán que retener en su memoria de trabajo. Es posible que el usuario no pueda utilizar parte de esta información, pero no hay forma de acelerar las respuestas para saltar hacia adelante.

Haga que cada palabra cuente y diseñe para conversaciones breves. Cuando esté escribiendo respuestas del sistema, léalas en voz alta. La longitud es probablemente buena si puedes decir las palabras a un ritmo de conversación con una sola respiración. Si necesita tomar un respiro extra, reescriba las respuestas y reduzca la longitud.

Minimice el número de opciones en los avisos del sistema

También es posible minimizar la carga cognitiva al reducir la cantidad de opciones que escuchan los usuarios. Idealmente, cuando los usuarios solicitan una recomendación, el sistema debe ofrecer la mejor opción posible de inmediato. Si es imposible hacer eso, intente proporcionar las tres mejores opciones posibles y verbalice primero la más relevante.

Proporcionar opciones definitivas

Evite las preguntas abiertas en las respuestas del sistema. Pueden hacer que los usuarios respondan de formas que el sistema no espera ni admite. Por ejemplo, cuando diseña un mensaje de introducción, en lugar de decir "Hola, es la empresa ACME, ¿qué quiere hacer?" debe decir: "Hola, su empresa ACME, puede hacer [Opción A], [Opción B] u [Opción C]".

Agregar pausas entre la pregunta y las opciones

Las pausas y la puntuación imitan la cadencia real del habla y son beneficiosas para situaciones en las que el sistema hace una pregunta y ofrece algunas opciones para elegir.

Agregue una pausa de 500 milisegundos después de hacer la pregunta. Esta pausa dará a los usuarios tiempo suficiente para comprender la pregunta.

Dé a los usuarios tiempo para pensar

Cuando el sistema le pregunta algo al usuario, es posible que deba pensar en responder la pregunta. El tiempo de espera predeterminado para que los usuarios respondan a la solicitud es de 8 a 10 segundos. Después de ese tiempo de espera, el sistema debe repetir la solicitud o volver a solicitarla. Por ejemplo, supongamos que un usuario está reservando una mesa en un restaurante. El cuadro de diálogo de muestra puede sonar así:

Usuario : “Asistente, quiero ir al restaurante”.

Sistema : “¿A dónde te gustaría ir?”

(Sin respuesta durante 8 segundos)

Sistema : “Puedo reservarte una mesa en un restaurante. ¿Qué restaurante te gustaría visitar?”

Solicite más información cuando sea necesario

Es bastante común que los usuarios soliciten algo pero no proporcionen suficientes detalles. Por ejemplo, cuando los usuarios le piden al asistente de voz que reserve un viaje, pueden decir algo como "Asistente, reserve un viaje al mar". El usuario asume que el sistema los conoce y le ofrecerá la mejor opción posible. Cuando el sistema no tiene suficiente información sobre el uso, debe solicitar más información en lugar de ofrecer una opción que podría no ser relevante.

Usuario : “Me gustaría reservar un viaje a la orilla del mar.”

Sistema : “¿Cuándo te gustaría ir?”

Nunca haga preguntas retóricas o abiertas

Al hacer preguntas retóricas o abiertas, pones una gran carga cognitiva en los usuarios. En su lugar, haz preguntas directas. Por ejemplo, en lugar de preguntarle al usuario “¿Qué quieres hacer con tu invitación?” debes decir “Puedes cancelar tu invitación o reprogramarla. ¿Qué funciona para ti?

No hagas que la gente espere en silencio

Cuando las personas no escuchan ni ven ningún comentario del sistema, pueden pensar que no está funcionando. A veces, el sistema necesita más tiempo para continuar con la solicitud del usuario, pero eso no significa que los usuarios deban esperar en absoluto silencio/sin ninguna respuesta visual. Al menos, debe ofrecer alguna señal de audición y combinarla con comentarios visuales.

retroalimentación visual de eco de mazon
Comentarios visuales de Amazon Echo. (Crédito de la imagen: tenor)

Minimizar la entrada de datos del usuario

Intente reducir la cantidad de casos en los que los usuarios deben proporcionar números de teléfono, direcciones de calles o contraseñas alfanuméricas. Puede ser difícil para los usuarios decir al sistema de voz cadenas de números o información detallada. Esto es especialmente cierto para los usuarios con impedimentos del habla. Ofrezca métodos alternativos para ingresar este tipo de información, como usar la aplicación móvil complementaria.

Repetición de soporte

Ya sea que los usuarios estén usando el sistema en un área ruidosa o simplemente tengan problemas para entender la pregunta, deberían poder pedirle al sistema que repita el último aviso en cualquier momento.

Descubrimiento de características

La capacidad de detección de características puede ser un problema enorme en las interfaces basadas en voz. En GUI, tiene una pantalla que puede usar para mostrar nuevas funciones, mientras que en las interfaces de usuario de voz, no tiene esta opción.

Aquí hay dos técnicas que puede usar para mejorar la visibilidad:

  • Incorporación sólida. Un usuario nuevo requiere incorporarse al sistema para comprender sus capacidades. Hágalo práctico: permita que los usuarios completen algunas acciones usando comandos de voz.
  • El primer encuentro con una aplicación de voz en particular, es posible que desee discutir lo que es posible.

Confirmar solicitudes de usuario

Las personas disfrutan de una sensación de reconocimiento. De esta manera, que el usuario sepa que el sistema lo escucha y lo comprende. Es posible definir dos tipos de confirmación: confirmación implícita y explícita.

Se requieren confirmaciones explícitas para tareas de alto riesgo, como transferencias de dinero. Estas confirmaciones requieren la aprobación verbal del usuario para continuar.

Usuario : "Transferir mil dólares a Alice".

Sistema : "Quieres transferir mil dólares a Alice Young, ¿correcto?"

Al mismo tiempo, no todas las acciones requieren la confirmación del usuario. Por ejemplo, cuando un usuario solicita dejar de reproducir música, el sistema debe finalizar la reproducción sin preguntar "¿Desea detener la música?"

Manejar el error con gracia

Es casi imposible evitar errores en las interacciones de voz. Los estados de error que no se manejan con precisión pueden afectar la impresión que tiene el usuario del sistema. Independientemente de la causa del error, es importante manejarlo con gracia, lo que significa que el usuario debe tener una experiencia positiva al usar un sistema incluso cuando enfrenta una condición de error.

  • Minimiza el número de situaciones de “No te entiendo”.
    Evite los mensajes de error que solo indican que no entendieron correctamente al usuario. El flujo de diálogo bien diseñado debe considerar todas las ramas de diálogo posibles, incluidas las ramas con entrada de usuario incorrecta.
  • Introducir un mecanismo de reparaciones contextuales.
    Ayuda a la situación del sistema cuando sucede algo inesperado mientras el usuario está hablando. Por ejemplo, el sistema de reconocimiento de voz no pudo escuchar al usuario debido al fuerte ruido de fondo.
  • Decir claramente lo que el sistema no puede hacer.
    Cuando los usuarios se encuentran con mensajes de error como “No puedo entenderte”, comienzan a pensar si el sistema no es capaz de hacer algo o verbalizan incorrectamente la solicitud. Se recomienda proporcionar una respuesta explícita en situaciones en las que el sistema no puede hacer algo. Por ejemplo, “Lo siento, no puedo hacer eso. Pero puedo ayudarte con [opción]”.
  • Aceptar correcciones.
    A veces, los usuarios hacen correcciones cuando saben que el sistema se equivocó o cuando decidieron cambiar de opinión. Cuando los usuarios quieran corregir su entrada, dirán algo como "No" o "Dije", seguido de una expresión válida.

Pruebe sus diálogos

Cuanto antes comience a probar el flujo de su conversación, mejor. Idealmente, comience a probar e iterar sus diseños tan pronto como tenga cuadros de diálogo de muestra. La recopilación de comentarios durante el proceso de diseño expone problemas de usabilidad y le permite corregir el diseño antes de tiempo.

La mejor manera de probar si su diálogo funciona es representarlo. Puede usar técnicas como el Mago de Oz , donde una persona finge ser un sistema y la otra es un usuario. Tan pronto como empieces a practicar el guión, notarás si suena bien o mal cuando lo dices en voz alta.

Recuerde que debe evitar que las personas compartan señales no verbales. Cuando interactuamos con otras personas, normalmente usamos lenguaje no verbal (mirada, lenguaje corporal). Las señales no verbales son extremadamente valiosas para transmitir información, pero desafortunadamente, los sistemas VUI no pueden entenderlas. Cuando pruebe sus diálogos, intente sentar a los participantes de la prueba espalda con espalda para evitar el contacto visual.

La siguiente parte de las pruebas es observar el comportamiento real del usuario. Lo ideal es que observe a los usuarios que utilizan su producto por primera vez. Le ayudará a entender lo que funciona y lo que no. Probar con 5 participantes lo ayudará a revelar la mayoría de sus problemas de usabilidad.

2. Diseño Visual

Una pantalla juega un papel secundario en las interacciones de voz. Sin embargo, es vital considerar un aspecto visual de la interacción del usuario porque las experiencias visuales de alta calidad crean mejores impresiones en los usuarios. Además, las imágenes son buenas para algunas tareas particulares, como escanear y comparar resultados de búsqueda. El objetivo final es diseñar una experiencia multimodal más placentera y atractiva.

Diseño para pantallas más pequeñas primero

Al adaptar el contenido entre pantallas, comience primero con el tamaño de pantalla más pequeño. Te ayudará a priorizar cuál es el contenido más importante.

Cuando se dirija a dispositivos con pantallas más grandes, no solo amplíe el contenido. Intente aprovechar al máximo el espacio adicional de la pantalla. Preste atención a la calidad de las imágenes y los videos: las imágenes no deberían perder su calidad a medida que se amplían.

Optimice el contenido para un escaneo rápido

Como se mencionó anteriormente, las pantallas son muy útiles para los casos en los que necesita proporcionar algunas opciones para comparar. Entre todos los contenedores de contenido que puede usar, las tarjetas son las que mejor funcionan para un escaneo rápido. Cuando necesite proporcionar una lista de opciones para elegir, puede poner cada opción en la tarjeta.

Nest Hub usa tarjetas
Nest Hub usa tarjetas como contenedores de contenido. (Crédito de la imagen: Google) (Vista previa grande)

Diseño con una distancia de visualización específica en mente

Diseña el contenido para que se pueda ver a distancia. El rango de visualización de los dispositivos habilitados para voz en pantallas pequeñas debe ser de 1 a 2 metros, mientras que para las pantallas grandes, como los televisores, debe ser de 3 metros. Debe asegurarse de que el tamaño de la fuente y el tamaño de las imágenes y los elementos de la interfaz de usuario que mostrará en la pantalla sean cómodos para los usuarios.

Google recomienda utilizar un tamaño de fuente mínimo de 32 puntos para el texto principal, como títulos, y un mínimo de 24 puntos para el texto secundario, como descripciones o párrafos de texto.

En la imagen, Echo Show se para en una mesa de cocina junto a una tabla de cortar con algo de comida.
Un contexto típico de uso para Echo Show, el primer dispositivo de voz de Amazon. (Crédito de la imagen: Amazon) (Vista previa grande)

Conozca las expectativas del usuario sobre un dispositivo en particular

Los dispositivos habilitados para voz pueden variar desde dispositivos en el vehículo hasta dispositivos de TV. Cada modo de dispositivo tiene su propio contexto de uso y conjunto de expectativas del usuario. Por ejemplo, los concentradores domésticos se utilizan normalmente para la música, las comunicaciones y el entretenimiento, mientras que los sistemas del automóvil se utilizan normalmente con fines de navegación.

Lectura adicional : Diseño de interfaces hombre-máquina para vehículos del futuro

Jerarquía de información en pantallas

Cuando diseñamos páginas de sitios web, generalmente comenzamos con la estructura de la página. Se debe seguir un enfoque similar al diseñar para VUI: decida dónde se debe ubicar cada elemento. La jerarquía de la información debe ir de la más importante a la menos importante. Trate de minimizar la información que muestra en la pantalla, solo la información requerida que ayuda a los usuarios a hacer lo que quieren hacer.

Clara jerarquía visual de información en el Portal, dispositivo de voz primero de Sber.
Clara jerarquía visual de información en el Portal, dispositivo de voz primero de Sber. (Crédito de la imagen: Sber) (Vista previa grande)

Mantenga la imagen y la voz sincronizadas

No debería haber un retraso significativo entre la voz y los elementos visuales. La interfaz gráfica debe ser realmente receptiva, justo después de que el usuario escuche el mensaje de voz; la interfaz debe actualizarse con información relevante.

El lenguaje de movimiento juega un papel importante en la forma en que los usuarios comprenden la información. Es esencial evitar cortes bruscos y usar transiciones suaves entre estados individuales. Cuando los usuarios hablan, también debemos proporcionar comentarios visuales que reconozcan que el sistema está escuchando al usuario.

Clara jerarquía de información del administrador de archivos de voz. (Crédito del video: Gleb Kuznetsov)

Diseño Accesible

Un producto bien diseñado es inclusivo y universalmente accesible. Los usuarios con discapacidad visual (personas con discapacidades como ceguera, baja visión y daltonismo) no deberían tener problemas para interactuar con su producto. Para que su diseño sea accesible, siga las pautas de WCAG.

  • Asegúrese de que el texto en la pantalla sea legible. Asegúrese de que su texto tenga una relación de contraste lo suficientemente alta. El color del texto y el contraste cumplen con las proporciones AAA.
  • Los usuarios que confían en los lectores de pantalla deben comprender lo que se muestra en las pantallas. Agregue descripciones a las imágenes.
  • No diseñe elementos de pantalla que parpadeen, parpadeen o parpadeen. En general, todo lo que destella más de tres destellos por segundo puede causar a los usuarios dolores de cabeza por mareo.

Lectura relacionada : Cómo un usuario de lector de pantalla accede a la Web

Conclusión

Estamos en los albores de la próxima revolución digital. La próxima generación de computadoras brindará a los usuarios una oportunidad única de interactuar con la voz. Pero la base para esta generación se crea hoy. Depende de los diseñadores desarrollar sistemas que sean naturales para los usuarios.

Lectura relacionada recomendada

  • "Guía de diseño de Alexa", documentación para desarrolladores de Amazon
  • "Proceso de diseño de conversación", Google Assistant Docs
  • "Diseño de interfaces de usuario de voz: principios de experiencias conversacionales", Cathy Pearl (2017)
  • “Aplicación de trucos de conversación incorporados a la interfaz de usuario de voz”, James Giangola (video)
  • “Creando una Persona: ¿Cómo suena tu producto? , Wally Brill (vídeo)
  • "Principios de voz", una colección de recursos creada por Clearleft.