Diseñando lo invisible: 3 cosas que aprendí diseñando para Voice

Publicado: 2022-03-10

Resumen rápido ↬ Hay personas en todo el mundo que no pueden completar fácilmente las tareas cotidianas por sí mismos. Afortunadamente, los desarrolladores y diseñadores pueden ayudar experimentando con la tecnología de voz que les permite completar tareas que otros pueden dar por sentadas.

La iteración actual de asistentes digitales controlados por voz todavía está luchando por integrarse tan perfectamente como los tres grandes reproductores de voz de Amazon, Google y Apple esperarían. Un informe de 2017 de Voicelabs afirma que solo hay un 3 por ciento de posibilidades de que un usuario esté activo en la segunda semana después de descargar una aplicación de voz y el 62 por ciento de las habilidades de Alexa aún no obtienen ningún tipo de calificación en su tienda (a partir de septiembre de 2017).

Como diseñadores, tenemos una oportunidad real de brindar un significado valioso a estos asistentes, pero todavía estamos tratando de averiguar dónde la tecnología puede agregar beneficios reales para el usuario. Para muchos, embarcarse en un proyecto de interfaz de usuario de voz (VUI) puede ser un poco como ingresar a lo desconocido . Hay pocas historias de éxito en las que los diseñadores o ingenieros puedan inspirarse, especialmente en contextos que ilustran cómo esta tecnología incipiente podría ayudar a las personas a prosperar de nuevas maneras.

Experimentando con `speechSynthesis`

Web Speech API le brinda la capacidad de habilitar la voz de su sitio web en dos direcciones: escuchar a sus usuarios a través de la interfaz SpeechRecognition y responderles a través de la interfaz speechSynthesis . Todo esto se hace a través de una API de JavaScript, lo que facilita la prueba de soporte. Leer un artículo relacionado →

Como parte de la serie documental Big Life Fix de BBC2, donde los equipos de inventores crean soluciones nuevas y que cambian la vida de las personas necesitadas, tuve la oportunidad de probar y construir un asistente controlado por voz para una mujer llamada Susan. Susan ha estado viviendo con una forma progresiva de esclerosis múltiple durante más de 20 años y ahora no puede completar fácilmente las tareas diarias por sí misma. Con cuidadores de tiempo completo, depende de otros para que la laven y la vistan y no puede ni siquiera cambiar el canal de la televisión sin ayuda.

Si bien parecía que la tecnología de voz proporcionaría el camino más fácil para superar las dificultades físicas de Susan, Susan nunca ha usado un teléfono inteligente, por lo que llevarla directamente a una interacción con un asistente de voz nunca iba a ser fácil: teníamos que pensar inteligentemente para ayudarla. aprende a comunicarte con una tecnología increíblemente alienígena.

¡Más después del salto! Continúe leyendo a continuación ↓

El resultado para Susan es un asistente controlado por voz altamente personalizado que ahora le permite completar las tareas cotidianas con la libertad que otros dan por sentada, desde hacer una llamada telefónica a la familia hasta escuchar música. Construido como una versión mejorada de la tecnología Amazon Alexa en su dispositivo Echo Dot, el asistente de voz de Susan también implicó la personalización física cuando imprimimos en 3D una carcasa con la forma de su animal favorito, un búho.

Mientras experimentamos e iteramos rápidamente en una solución para Susan, mi equipo y yo descubrimos docenas de complejidades que surgen con el diseño de voz de una manera más inclusiva y accesible. Aunque fue un proyecto único, hubo tres conclusiones clave que son aplicables a cualquier proyecto de VUI.

1. Hazlo personal

La tecnología funciona. No se trata simplemente de sentarse y esperar a que la potencia informática aumente de acuerdo con las expectativas del usuario. Descubrimos que la detección, el reconocimiento y la síntesis de voz de cada uno de los dispositivos son mucho más potentes de lo que esperábamos. Y no es como si hubiera una falta de elección. Hay más de 30,000 habilidades de Alexa en Amazon con un promedio de 50 nuevas que se publican diariamente. Las habilidades son capacidades específicas que permiten a los diseñadores y desarrolladores crear una experiencia de voz más personalizada al usar dispositivos como Amazon Echo Dot. Funcionan como una aplicación dentro de la tienda de aplicaciones de su teléfono inteligente, lo que le permite personalizar su asistente de voz de la manera que desee .

Sin embargo, actualmente existe una gran barrera de acceso. Las habilidades deben agregarse a través de la aplicación en lugar del dispositivo, lo que a menudo anula los beneficios de una VUI y rompe el flujo de conversación (sin mencionar la exclusión de aquellos que no pueden o no quieren usar un teléfono inteligente). Esto hace que el proceso se sienta torpe e inconexo en el mejor de los casos, y completamente aislado en el peor. Incluso una vez que se instala una habilidad, la falta de visibilidad de la habilidad y un marco de tiempo restringido para la interacción dan como resultado una falta de confianza y ansiedad; puede hacer lo que quiero? ¿Cómo le hablo? ¿Me ha escuchado? Entonces, ¿cómo construyes esa conexión y confianza?

Para Susan, significó eliminar lo innecesario y presentar una selección curada de la funcionalidad central. Al personalizar el contenido según los comportamientos y requisitos únicos, presentamos una claridad muy necesaria y una experiencia más significativa. Susan quería realizar tareas clave: contestar el teléfono, hacer una llamada, cambiar el canal de televisión, reproducir música, etc. Al entenderla a ella y sus necesidades, creamos un asistente que siempre se sintió relevante y útil . Este fue un proceso bastante manual, pero aquí hay una gran oportunidad para el aprendizaje automático y la IA. Si cada asistente de voz pudiera ofrecer un elemento de personalización, podría hacer que la experiencia se sintiera más relevante para todos.

Como estábamos diseñando para una persona, pudimos adaptar fácilmente los elementos físicos del producto para Susan. Esto significó diseñar, luego imprimir en 3D, un difusor de luz en forma de búho (su animal favorito y algo con un significado importante para ella). El búho actuó como una manifestación visual de la tecnología y le dio algo con lo que hablar y proyectar. Fue su guía la que le dio acceso a las habilidades que deseaba, como escuchar música. Como era personal para ella, hizo que la tecnología potencialmente alienígena e intimidante se sintiera mucho más accesible y familiar .

La tecnología humanizadora ayuda a que sea más accesible: el búho personalizado de Susan brilla en respuesta a su voz, haciéndole saber que está siendo escuchada y comprendida. (Vista previa grande)

Aunque una carcasa impresa en 3D completamente personalizada no es una opción para todos los proyectos de VUI, existe la oportunidad de crear un dispositivo más relevante para que las personas se comuniquen, especialmente si sus necesidades o el uso de asistentes domésticos es bastante específico. Por ejemplo, puede hablar con una luz habilitada por voz sobre la iluminación de su hogar y con un refrigerador sobre sus compras.

2. Piense en las prestaciones de audio

Actualmente, el usuario hace todo el trabajo pesado. Con un modelo mental oscurecido y sin la mano de la tecnología, nos vemos obligados a imaginar nuestro punto final deseado y trabajar hacia atrás a través de los comandos necesarios. Dejando a un lado las tareas más simples (establecer un temporizador durante 5 minutos, reproducir Abba en Spotify, etc.), eso es increíblemente difícil de hacer, especialmente si sufres de "momentos confusos", algo que Susan nos explicó: dificultad para encontrar las palabras correctas.

Cuando Apple usó elementos visuales skeuomorphic para sus primeras aplicaciones de iPhone, el usuario obtuvo puntos de referencia valiosos y familiares que permitieron su uso y método de interacción. Solo una vez que el modelo mental se estableció más, tuvieron la libertad de alejarse de esta representación literal, a su interfaz de usuario plana actual.

Al diseñar nuestra VUI, decidimos apoyarnos en el sistema de menús bien establecido que se ve en la navegación web y digital. Es una herramienta familiar que requiere menos procesamiento cognitivo por parte del usuario y nos permitió incorporar métodos de búsqueda de caminos que no resultaban en comenzar desde el principio si las cosas salían mal.

Como ejemplo, Susan encontró verbalizar lo que quería, en el marco de tiempo que ofrecen los asistentes digitales actuales, una experiencia estresante y, a menudo, desagradable; a menudo agravado por un mensaje de error del dispositivo al final de la misma. En lugar de esperar que ella diera un comando explícito como "Alexa, toca Abba desde mi lista de reproducción de Spotify", decidimos crear una herramienta de menú guiado que pudiera ayudarla a comenzar lentamente y ser cada vez más específica sobre lo que quería que Alexa hiciera.

La lechuza de Susan ahora le muestra una lista seleccionada de opciones como "Reproducir música" o "Ver algo". Si elige música, se vuelve más específica a medida que avanza a través de cada puerta de decisión, para descubrir el género que le apetece escuchar; en el caso de Abba, seleccionaría “música de los 60”. Esto le permite a Susan navegar hacia el resultado deseado mucho más fácilmente y al ritmo que le conviene. Mientras tanto, la lechuza brillaba y respondía a su voz, haciéndole saber que estaba siendo escuchada y entendida.

El asistente de voz de Susan le devuelve parte de la independencia que perdió debido a su condición, desde empoderarla hasta hacer una llamada telefónica a la familia o simplemente escuchar música. (Vista previa grande)

3. Hay más en las VUI que en la voz

Los componentes no léxicos de la comunicación verbal imparten una gran cantidad de significado a una conversación. Algunos pueden ser replicados por la voz sintetizada (entonación, tono y velocidad del habla, ruidos de vacilación, por nombrar algunos), pero muchos no pueden (como gestos y expresiones faciales). Los elementos tangibles del producto deben reemplazar estas señales visuales tradicionales para que la interacción se sienta incluso ligeramente natural. Pero hay más que eso.

En primer lugar, cuando alguien interactúa con un producto diseñado para replicar comportamientos humanos, los componentes visuales son interpretados por las nociones preconcebidas del mundo del usuario (tanto inherentes como aprendidas) y afectan sus respuestas emocionales. Si algo se ve imponente y frío, es mucho menos probable que inicies una conversación que con algo que se ve lindo y tierno.

En nuestro caso, como la tecnología era tan extraña para el usuario, necesitábamos que se sintiera lo más familiar y atractivo posible : un búho. Al hacerlo, esperábamos eliminar los sentimientos de ansiedad y frustración que habíamos experimentado con otros productos. También amplificamos el lado visual: hay un color para un estado inactivo: un brillo suave, casi como respirar, pero cuando Susan dice las palabras de despertar, la luz cambia a despierto y escuchando.

Puedes ir más lejos. Apple, por ejemplo, tiene una pantalla a todo color en su Homepod que brinda un mayor nivel de matices a su interacción y visualización. Agregar una experiencia visual puede parecer contradictorio, pero las visualizaciones pueden ser muy útiles para el usuario.

Conclusión

Aunque se aplican a un caso de uso individual, estos aprendizajes de alto nivel pueden ayudar a cualquier proyecto que desee utilizar los beneficios inherentes que ofrece la voz. La personalización del contenido (siempre que sea posible) proporciona una claridad muy necesaria y un sistema de navegación lógico e identificable reduce la carga cognitiva. Finalmente, no subestimes la importancia de los componentes visuales ; cuando se hacen bien, no solo brindan pistas fundamentales de conversación, sino que marcan el tono de toda la interacción.

Para aquellos que buscan experimentar con la voz, Amazon ahora muestra decenas de miles de habilidades de compañías como Starbucks y Uber, así como las creadas por otros diseñadores y desarrolladores innovadores. Alexa Skills Kit (ASK) es una colección de API de autoservicio, herramientas, documentación y muestras de código que le facilitan agregar habilidades a Alexa y comenzar a crear sus propias soluciones. ¿Se pregunta si la voz tiene sentido? He aquí algunas consideraciones antes de empezar.