Diseño de experiencias de voz

Publicado: 2022-03-10

Resumen rápido ↬ Las interfaces basadas en voz se están volviendo comunes. Los asistentes de voz como Siri y Cortana existen desde hace algunos años, pero en la última temporada navideña, los dispositivos de voz de Amazon y Google llegaron a millones de hogares. Un análisis reciente de VoiceLabs estima que este año se enviarán 24,5 millones de dispositivos controlados por voz, casi cuatro veces más que el año pasado. Como diseñadores de experiencias, ¡ahora tenemos la oportunidad de diseñar interfaces y experiencias de voz!

Un análisis reciente de VoiceLabs estima que este año se enviarán 24,5 millones de dispositivos controlados por voz, casi cuatro veces más que el año pasado. Como diseñadores de experiencias, ¡ahora tenemos la oportunidad de diseñar interfaces y experiencias de voz!

Una nueva interfaz no significa que tengamos que descartar todo lo que hemos aplicado con éxito a las interfaces anteriores; necesitaremos adaptar nuestro proceso a los matices de las interfaces de voz, incluidas las interacciones conversacionales y la falta de una pantalla. Veremos cómo funciona un genio en una botella típico, discutiremos los pasos involucrados en el diseño de experiencias de voz e ilustraremos estos pasos mediante el diseño de una aplicación de voz para Alexa (o Skill, como lo llama Amazon).

### Lecturas adicionales en SmashingMag:

Mejora de la experiencia del usuario con la Web Speech API
Pautas para diseñar con audio
Experimentando con SpeechSynthesis
¿Qué es el diseño de la experiencia del usuario? Descripción general, herramientas y recursos

¡Más después del salto! Continúe leyendo a continuación ↓

## Comprender las interfaces de voz Así como las aplicaciones móviles se ejecutan en un sistema operativo y un dispositivo, tres capas deben trabajar juntas para permitir las interacciones de voz:

Capas de interfaz de usuario de voz — Las capas que permiten las interacciones de voz

aplicación de voz (Amazon Skills and Actions for Google);
plataforma de inteligencia artificial (Amazon Alexa, Google Assistant, Apple Siri, Microsoft Cortana);
dispositivo (Echo, Home, teléfonos inteligentes, computadoras).

Cada capa usa la de abajo y soporta la de arriba. La interfaz de voz se encuentra en las dos capas superiores, las cuales residen en la nube, no en el dispositivo en sí. ¡Echemos un vistazo debajo del capó para ver cómo estas capas funcionan juntas, usando Alexa Jeopardy! Habilidad como ejemplo.

Cómo funcionan las interfaces de voz: ejemplo de habilidad Jeopardy — Las capas que permiten las interacciones de voz. (Ver versión grande)

Los dispositivos controlados por voz, como Amazon Echo y Google Home, escuchan constantemente, esperando una palabra de activación ("Alexa..." o "OK, Google...") para entrar en acción. Una vez activado, el dispositivo envía el audio que sigue a la plataforma de IA en la nube ("... ¡juega Jeopardy!"). La plataforma utiliza una combinación de reconocimiento automático de voz (ASR) y comprensión del lenguaje natural (NLU) para descifrar la intención del usuario (iniciar un juego de trivia) y enviarla a la aplicación de soporte (Jeopardy! J6 Skill en Alexa). La aplicación procesa la solicitud y responde a través de texto (y una imagen, si corresponde). La plataforma convierte el texto en voz y lo reproduce a través del dispositivo ("Bienvenido a Jeopardy J6. Aquí están las pistas de hoy..."). Todo esto en cuestión de segundos.

Creación de experiencias de voz

El año pasado, Mark Zuckerberg asumió un desafío personal para construir una IA simple para administrar su hogar. Lo hizo, lo llamó Jarvis y le dio la voz de Morgan Freeman.

Mark Zuckerberg le presenta a Morgan Freeman la IA que usa su voz. (Imagen: Mark Zuckerberg)

El resto de nosotros, que no tenemos la capacidad o los recursos para hacer lo mismo, podemos crear aplicaciones de voz que se ejecutan en plataformas de inteligencia artificial complejas que ya se han creado. Esto nos libera para tener que preocuparnos únicamente por el diseño y desarrollo de la aplicación de voz, eso también con un proceso de desarrollo simplificado. Amazon y Google han brindado acceso abierto a plantillas, código e instrucciones detalladas paso a paso para crear diferentes tipos de aplicaciones de voz, hasta el punto de que incluso los que no son desarrolladores pueden desarrollar una aplicación en aproximadamente una hora.

Su inversión en simplificar el desarrollo de aplicaciones está dando sus frutos, con el lanzamiento de miles de nuevas aplicaciones de voz cada mes. El crecimiento de las aplicaciones de voz trae recuerdos de la fiebre del oro web de los 90, así como la explosión de las aplicaciones móviles que siguió al lanzamiento de las tiendas de aplicaciones.

Desglose de las habilidades de Alexa por categoría a partir de mayo de 2017. (Ver versión grande)

En un mercado de voz abarrotado, un buen diseño es lo que diferenciará su aplicación de voz de cientos de otras aplicaciones similares.

Diseño de experiencias de voz

Diseñar una buena experiencia de usuario de voz es un proceso de cinco pasos que debe realizarse antes de comenzar el desarrollo. Aunque saltar directamente al desarrollo puede ser tentador, el tiempo que se dedica a hacer el diseño correcto es un tiempo bien empleado.

Discutiremos y aplicaremos cada paso para diseñar una aplicación de voz, que podría desarrollarse fácilmente utilizando una de las muchas plantillas de habilidades para Alexa.

1. Descubre

El viaje de diseño comienza con la pregunta: "¿Cómo proporcionará valor esta aplicación de voz a mis usuarios?" Esta pregunta se aplica si está desarrollando una aplicación de voz independiente (como nuestro ejemplo) o si su aplicación de voz es solo uno de los muchos puntos de contacto para sus clientes. Tenga en cuenta por qué y dónde las personas usan aplicaciones de voz. Las personas usan interfaces de voz debido a los beneficios de la interacción de manos libres, la velocidad de la interacción y la facilidad de uso, principalmente en el hogar o en el automóvil, como se muestra en el Informe de Tendencias de Internet 2016 de Mary Meeker.

Razones principales para usar interfaces de voz (llamadas del autor) (Fuente: KPCB) (Ver versión grande)

La clave es encontrar necesidades de usuario consistentes que sean más fáciles o más convenientes a través de una aplicación de voz en lugar de un teléfono o una computadora. Algunos ejemplos incluyen bancos que brindan información de cuenta o un cinéfilo que encuentra nuevas películas cerca.

Si tiene competidores que ya tienen aplicaciones de voz, tenga en cuenta lo que están haciendo y las revisiones y comentarios que sus aplicaciones han recibido en el mercado de aplicaciones (como Alexa Skill Store de Amazon). El objetivo no es imitar ciegamente, sino ser consciente de la barra de capacidades que se ha fijado, así como de las expectativas de los usuarios.

(En el momento de escribir esto, había más de 1,500 habilidades de Alexa de "conocimiento y curiosidades", lo que las convierte en las categorías de habilidades más concurridas en Amazon. Sin embargo, no había una sola habilidad de curiosidades que se adaptara al área de la experiencia del usuario. Para ilustrar el proceso de diseño de voz, crearemos una habilidad de diseño de UX, para que nuestros lectores prueben sus conocimientos o tal vez incluso aprendan algo nuevo).

2. Definir

Durante este paso, definiremos la personalidad de nuestra aplicación y las capacidades que tendrá.

Personalidad

Al diseñar interfaces de voz, no tenemos acceso a muchos de los elementos visuales que usamos en las interfaces web y móviles para mostrar una personalidad. La personalidad tiene que llegar a través de la voz y el tono de las interacciones verbales. Y a diferencia de Zuckerberg, que escucha la voz tranquilizadora de Freeman, estamos obligados a escuchar la voz predeterminada del dispositivo. Eso hace que el tono y la redacción sean cruciales para transmitir la personalidad que queremos transmitir.

La buena noticia es que la mayor parte del trabajo preliminar en esta área ya debería haberse completado y documentado en una guía de marca corporativa o en una guía de estilo del sitio web (pista: busque la sección "tono de voz"). Aproveche esas pautas para su aplicación de voz, así como para mantener una personalidad consistente en todos los canales y puntos de contacto.

Cuando pienso en la personalidad y el tono, inmediatamente me viene a la mente Virgin Group. Definen claramente quiénes son y cómo transmiten eso a los usuarios. Para Virgin America, el tono ideal es “moderno, tranquilo, informal, juguetón e irónico”, y se manifiesta claramente en todas sus comunicaciones.

Personalidad de la marca Virgin America — Personalidad de marca de Virgin America (Fuente: Virgin America)

Si alguna vez le has pedido a Alexa que cante o has probado alguno de los numerosos Huevos de Pascua de Alexa, entonces sabrás que tiene personalidad propia. Curiosa, contacté al equipo responsable de su personalidad, y esto es lo que tenían que decir:

Al diseñar la voz de Alexa, tratamos de darle una personalidad que refleje los atributos que más valoramos en Amazon. Queríamos que se sintiera útil, humilde e inteligente, pero que al mismo tiempo mantuviera un sentido de diversión. Este es un proceso continuo y esperamos que la voz de Alexa evolucione a medida que más desarrolladores se enfoquen en hacerla más inteligente.

La personalidad también se puede reflejar en el nombre, el icono y la descripción de la aplicación que se muestran a los usuarios en la lista del directorio de la aplicación, así como en el nombre que se usa para invocar la aplicación (el nombre de invocación). Por lo tanto, asegúrese de que brille mientras publica su aplicación.

Para nuestra habilidad de diseño de UX, podríamos adoptar un enfoque sencillo o divertido, y eso se reflejaría en la redacción de las opciones de preguntas y respuestas de nuestro cuestionario.

Un ejemplo de un tono normal sería:

¿Qué principio de diseño de UX favorece la simplicidad sobre la complejidad?
La navaja de Occam
Ley de Hick
Efecto estética-usabilidad
satisfactorio

Y un ejemplo de un tono divertido sería:

Aparentemente, existe un principio de diseño de UX que favorece la simplicidad sobre la complejidad. ¡En realidad! ¿Puedes adivinar cómo se llama?
La navaja de Occam: lo mejor que puede obtener un tipo de UX.
Ley de Hick: suena como algo que se le ocurriría a un paleto de UX.
Efecto de usabilidad estética: esa es una jerga elegante de UX.
Satisfactorio: No puedo conseguir nada satisfactorio... disculpas a los Rolling Stones.

Sí, sigamos con la normalidad.

Capacidades

Aquí es donde piensa cuidadosamente en la funcionalidad que será valiosa para los usuarios de su aplicación de voz. Revise su trabajo desde el primer paso para identificar las capacidades que son fundamentales o están relacionadas con su negocio. A veces, ofrecer capacidades básicas es una obviedad, como un banco que ofrece información sobre el saldo, las transacciones y las fechas de vencimiento. Otros ofrecen valor en forma de características relacionadas, como la aplicación de voz de la guía de eliminación de manchas de Tide, o las aplicaciones de voz de Glad (fabricantes de almacenamiento de alimentos y bolsas de basura), una de las cuales ayuda a los usuarios a recordar dónde almacenaron sus sobras, o la otra uno que permite a los usuarios verificar qué artículos deben reciclarse o desecharse en la basura.

Si hizo un ejercicio similar al pasar de la web al móvil, eso puede servir como punto de partida. Para las capacidades de voz, considere qué capacidades beneficiarían a sus usuarios en un dispositivo controlado por voz en un espacio compartido. Si una habilidad tiene implicaciones de seguridad o privacidad, considere agregar un nivel de protección (la habilidad Capital One Alexa permite a los usuarios crear una clave personal para acceder a la cuenta). Si bien puede terminar con una larga lista de funcionalidades que funcionarían con la voz, comience con una a cinco capacidades básicas y use el análisis de voz para actualizar y mejorar después del lanzamiento.

Las capacidades principales de una habilidad de diseño de UX podrían ser:

proporcionar un principio de diseño de UX a pedido;
interrogar al usuario (un solo jugador) sobre un principio de UX aleatorio;
Pregunte al usuario (un solo jugador) sobre el principio de UX múltiple y mantenga la puntuación;
organiza una competencia de prueba de UX con varios jugadores.

Debido a que estamos construyendo esta habilidad de diseño de UX utilizando las plantillas de habilidades de Amazon, nuestras opciones actualmente están restringidas a la primera (plantilla de habilidades de hechos) o la tercera (plantilla de habilidades de trivia) arriba. Suponiendo que nuestra investigación haya demostrado que nuestros usuarios encontrarían un cuestionario más valioso que simplemente escuchar un principio de UX recitado, nuestra capacidad principal será interrogar al usuario sobre los principios de UX y llevar la puntuación.

3. Detalle del flujo de conversación

Ahora que ha preseleccionado las capacidades de su aplicación de voz, comience a concentrarse en el flujo de conversación detallado que la aplicación tendrá con sus usuarios. La conversación humana es compleja; a menudo tiene muchos giros y vueltas y puede girar en cualquier momento, con personas que a menudo saltan de un tema a otro. Las plataformas Voice AI aún tienen un largo camino por recorrer para igualar ese nivel de complejidad, por lo que debe enseñarle a su Habilidad cómo responder a los usuarios.

Su aplicación de voz solo puede admitir las capacidades que ha definido en el paso anterior, pero los usuarios siempre tienen la capacidad de preguntarle a la aplicación cualquier cosa y en cualquier formato. Detallar un flujo de conversación le permite responder al usuario o dirigir la conversación hacia lo que la aplicación puede hacer por el usuario.

Para cada capacidad que admitirá la aplicación de voz, comience a crear diálogos conversacionales entre el usuario y la aplicación, similares a los diálogos en un guión. Mientras escribe estos diálogos, recuerde la personalidad, así como las características de la voz y el tono. Comience a crear y seleccionar el contenido real para su aplicación de voz; para nuestro cuestionario, esto significaría construir la lista de preguntas del cuestionario.

Comience con el "camino feliz", un flujo de conversación en el que la aplicación de voz puede responder a la solicitud del usuario sin excepciones ni errores. Luego, pase a detallar el flujo de conversación para excepciones (en las que el usuario no proporciona información completa) y errores (en los que la aplicación de voz no entiende o no puede hacer lo que el usuario está pidiendo).

Debido a que la conversación se escuchará y no se leerá, una buena práctica es leerla en voz alta para ver si suena como una conversación hablada natural y verificar que transmita el tono de voz que desea.

Si su aplicación de voz necesita complementar la conversación con el contenido que se muestra en la aplicación del teléfono, diseñe estas interacciones juntas, de modo que parezcan perfectas para el usuario. Por ejemplo, la habilidad de eliminación de manchas de Tide informa al usuario que también puede consultar los pasos de eliminación de manchas en la aplicación Alexa, además de escuchar las instrucciones. Esto puede ser necesario pronto si los rumores de una pantalla táctil en el nuevo Echo son ciertos.

Aquí hay un diálogo de muestra para el camino feliz, la capacidad central de nuestra habilidad de diseño de UX:

Usuario : "Alexa, inicia el cuestionario de diseño de UX".
Alexa : “Te haré cinco preguntas, con respuestas de opción múltiple. Intenta acertar tantos como puedas. Sólo di el número de la respuesta. Vamos a empezar. Pregunta 1…"
Usuario : [responde correctamente]
Alexa : “¡Eso es correcto! Su puntaje es 1. Aquí está la pregunta 2…”
Usuario : [responde incorrectamente]
Alexa : “Vaya, esa es la respuesta incorrecta. La respuesta correcta es [respuesta correcta]. Su puntaje es 1. Aquí está la pregunta 3…”
…
Alexa (al final de cinco preguntas): “¡Eso es correcto! Respondiste correctamente cuatro de cinco preguntas. ¡Gracias por jugar!"

4. Describir frases alternativas

Las personas no siempre usan las mismas palabras para decir lo mismo, y las aplicaciones de voz deben aprender eso. El mapeo de frases es un ejercicio para enseñar a las aplicaciones de voz a adaptarse a la variación en la forma en que los usuarios expresan sus solicitudes.

Para cada ruta de conversación que detalló en el paso anterior, piense en las diferentes formas en que los usuarios podrían formular esas solicitudes. Luego, desglose la redacción de cada solicitud e identifique las variaciones de palabras y los sinónimos que podrían usar, teniendo en cuenta las variaciones regionales y los dialectos. Tendrá las manos ocupadas si su aplicación de voz se ocupa de bebidas carbonatadas endulzadas (refrescos, refrescos, coca cola, tónica, refrescos, bebidas gaseosas), sándwiches largos (sub, molinillo, hoagie, héroe, chico pobre, bombardero, sándwich italiano, baguette) o calzado deportivo (zapatillas, zapatos, zapatillas de deporte, zapatillas para la arena, jerséis, zapatillas de tenis, zapatillas de correr, runner, deportivas).

Haga que esta lista de variaciones sea lo más completa y exhaustiva posible, para que su aplicación de voz pueda comprender las solicitudes de los usuarios. Alexa necesita estas variaciones en forma de "expresiones" y recomienda proporcionar "... tantas frases representativas como sea posible". Dependiendo de las capacidades de su aplicación de voz, la cantidad de expresiones podría ascender fácilmente a cientos, pero hay formas de simplificar la generación de expresiones.

Aquí hay un mapeo de frases de muestra para una capacidad de nuestro cuestionario de diseño de UX. La plataforma de inteligencia artificial de Alexa hace un buen trabajo al traducir la intención del usuario para Skills en función de sus plantillas. Sin embargo, si realiza cambios (como que cambiamos "juego de preguntas" por "cuestionario"), entonces tendrá que agregar estas frases.

Asignación de frases de muestra — Ver versión grande

5. Refinar

El paso final en el proceso de diseño es validar y refinar la aplicación de voz antes de dedicar tiempo y esfuerzo al desarrollo. Durante el paso de "detalle", leer los flujos de la conversación en voz alta ayudó a asegurarse de que sonaran naturales y conversacionales. El paso actual consiste en probar la interfaz de voz con los usuarios.

La forma más sencilla de probar es usar la técnica del Mago de Oz, con una persona que desempeña el papel del dispositivo controlado por voz y responde al usuario según el guión de la interfaz de voz. Otra opción es usar un software de creación de prototipos como SaySpring para crear y probar prototipos interactivos.

Si su aplicación de voz se crea utilizando plantillas de código (como nuestra aplicación), entonces podría ser más fácil crear la aplicación y probarla con las herramientas de prueba proporcionadas por Amazon y Google dentro del área de desarrollo de habilidades (como se muestra a continuación), o en modo de prueba en un dispositivo real.

Esta prueba le dará una buena idea de la experiencia de voz en el mundo real, incluido el manejo de errores, respuestas repetitivas y respuestas no naturales, forzadas o similares a las de una máquina.

Desarrollar

Ahora que se ha diseñado la experiencia de voz, es hora de pasar a la fase de creación, prueba y envío. Cada plataforma tiene guías y tutoriales detallados para ayudar a cualquier persona a desarrollar y probar habilidades, incluidos Alexa Skills Kit, Develop Actions for Google y Cortana, que ofrece reutilizar su código de habilidad personalizado de Alexa.

Piense en su ciclo de comentarios y los análisis que lo ayudarán a comprender el uso de su aplicación de voz. Puede obtener métricas de habilidades (usuarios, sesiones, expresiones, intenciones) dentro de su cuenta de desarrollador sin necesidad de codificación adicional, pero hay análisis avanzados disponibles a través de servicios gratuitos como VoiceLabs (no pude hacerlo funcionar, probablemente debido a mi falta de codificación habilidades o la falta de una guía de configuración de VoiceLabs for Dummies ).

Una vez que termine de crear y probar su aplicación de voz, el último paso es un proceso de envío simplificado. Debido a que el mercado de habilidades de Alexa ha crecido rápidamente, descubrir aplicaciones nuevas y útiles se está volviendo difícil. Hasta que Amazon mejore esto, use elementos visibles de su lista de aplicaciones de voz para ayudar a los usuarios a encontrar y probar su Habilidad, incluido un icono, nombre y descripción de habilidad atractivos y relevantes.

La habilidad complementaria que se creó como ilustración se puede tomar para una prueba de manejo en la tienda Amazon Alexa Skill: UX Design Quiz

Principios rectores

Aquí hay algunos principios rectores para diseñar experiencias de voz. Amazon y Google ofrecen más principios y qué hacer y qué no hacer.

Incorpore al usuario y ayúdelo a comenzar

Presente la aplicación y las formas en que el usuario puede interactuar con ella.

Bienvenido al concurso de diseño de UX. Te haré cinco preguntas sobre el diseño de UX y veré cuántas aciertas. Puede pedirme que repita una pregunta o haga una pausa si es necesario. ¿Te gustaría comenzar una nueva prueba?

Mantenga breves los intercambios de conversación para reducir la carga cognitiva.

Con una interfaz de usuario de voz, el usuario tiene que usar su memoria a corto plazo mientras interactúa con la aplicación de voz. Por lo tanto, manténgalo breve y dulce.

Alexa : “Este principio se atribuye a un lógico y fraile franciscano del siglo XIV y lleva el nombre del pueblo del condado inglés de Surrey donde nació. En pocas palabras, afirma que la simplicidad es mejor que la complejidad. Este principio de resolución de problemas se puede aplicar fácilmente al diseño de la experiencia del usuario, optando por la solución de diseño más simple. ¿Cómo se llama este principio?
Su primera opción es la navaja de Occam, a veces conocida como la navaja de Ockham o la ley de la parsimonia.
Su siguiente opción es la Ley de Hick, también conocida como Ley de Hick-Hyman.
Tu siguiente opción es el efecto estético-usabilidad.
Su última opción se llama "satisfacer", que no debe confundirse con "satisfacer" o "sacrificar".
Por favor, diga A, B, C o D para hacer su selección”.
Usuario : “¿¡Eh!? Alexa, repite. ¡Pensándolo bien, finalice el cuestionario!

Los ejemplos funcionan mejor que las instrucciones

Instrucción: "Por favor, diga su fecha de nacimiento en el formato mes/día/año". Ejemplo: "Por favor, diga su fecha de nacimiento, como el 15 de abril de 1990".

Deléitese sin interferir con la tarea

Este es un acto de equilibrio. Demasiado y se vuelve aburrido rápidamente.

Use confirmaciones explícitas para acciones importantes e implícitas para acciones menos riesgosas

Si le pides a Alexa que apague las luces, puedes verlo suceder y no necesitas una confirmación verbal, aunque a veces lo confirma con un breve “OK”.

No interfieras, reduce la repetitividad — Los comentarios de los usuarios sobre la habilidad Glad Leftover destacan dos principios anteriores.

Diseño para el fracaso

Las cosas saldrán mal: diseño para esas situaciones. Los ejemplos incluyen preguntas o información ininteligible, información incompleta, silencio o solicitudes que no se pueden atender. Reconocer y dar al usuario opciones para recuperarse.

Respetar la Privacidad y Seguridad del Usuario

Conclusión

Cada vez que tratas de interactuar con un ser humano, debes pensar en los humanos como sistemas operativos muy avanzados. Su mayor objetivo es tratar de emularlos. – KK Barrett, diseñador de producción de su película, Wired, 2014

Si no has visto la película Her, tómate un par de horas para ver esta película futurista sobre una escritora solitaria que desarrolla una relación con un sistema operativo. Si bien es ciencia ficción, en el mundo actual, las experiencias de voz están aumentando con la adopción de dispositivos autónomos controlados por voz, como la familia Amazon Echo y Google Home. El desarrollo de una aplicación de voz es un proceso relativamente simple basado en plantillas, con instrucciones similares a las de IKEA proporcionadas por Amazon y Google en un intento por establecer sus plataformas. Aunque saltar al desarrollo puede ser tentador, una buena experiencia de usuario de voz no sucede de la nada; tiene que ser diseñado siguiendo los pasos descritos en este artículo.

Utilice el área de comentarios para compartir otros comentarios, consejos y recursos con otros lectores.

Recursos

Herramientas de plataforma de IA

Kit de habilidades de Alexa, Amazon
Acciones para Google
"Prácticas recomendadas de diseño de voz de Alexa Skills Kit", Amazon
Acciones para los recursos de diseño de Google

Tono de voz

"El impacto del tono de voz en la percepción de marca de los usuarios", Kate Meyer, Nielsen Norman Group
"Encontrar tu tono de voz", Robert Mills, Smashing Magazine
"Encontrar la voz de su marca", Harriet Cummings, destilada

Frases y Dialectos

"How Y'all, Youse and You Guys Talk (cuestionario interactivo), New York Times
Definición de la interfaz de voz (y las declaraciones de Alexa), Amazon
"Definición de declaraciones para Alexa Skills Kit" (incluida la herramienta), Maker Musings

Prototipos y Pruebas