Projetando o invisível: 3 coisas que aprendi projetando para voz

Publicados: 2022-03-10

Resumo rápido ↬ Há pessoas em todo o mundo que não conseguem concluir facilmente as tarefas diárias por conta própria. Felizmente, desenvolvedores e designers podem ajudar experimentando a tecnologia de voz que os capacita a concluir tarefas que outros podem dar como certas.

A iteração atual de assistentes digitais controlados por voz ainda está lutando para se integrar tão perfeitamente quanto os três grandes players de voz da Amazon, Google e Apple esperariam. Um relatório de 2017 da Voicelabs afirma que há apenas 3% de chance de um usuário estar ativo na segunda semana após o download de um aplicativo de voz e 62% das habilidades do Alexa ainda precisam obter qualquer tipo de classificação em sua loja (em setembro de 2017).

Como designers, temos uma oportunidade real de fornecer um significado valioso a esses assistentes, mas ainda estamos tentando descobrir onde a tecnologia pode agregar benefícios reais ao usuário. Para muitos, embarcar em um projeto de interface de usuário de voz (VUI) pode ser um pouco como entrar no Unknown . Existem poucas histórias de sucesso para designers ou engenheiros se inspirarem, especialmente em contextos que ilustram como essa tecnologia nascente pode ajudar as pessoas a prosperar de novas maneiras.

Experimentando com a síntese de `speechSynthesis`

A Web Speech API oferece a capacidade de habilitar seu site por voz em duas direções: ouvindo seus usuários por meio da interface SpeechRecognition e respondendo a eles por meio da interface speechSynthesis . Tudo isso é feito por meio de uma API JavaScript, facilitando o teste de suporte. Leia um artigo relacionado →

Como parte da série documental Big Life Fix da BBC2, onde equipes de inventores criam soluções novas e transformadoras para pessoas necessitadas, tive a oportunidade de testar e construir um assistente controlado por voz para uma mulher chamada Susan. Susan vive com uma forma progressiva de Esclerose Múltipla há mais de 20 anos e agora é incapaz de completar as tarefas diárias facilmente. Com cuidadores em tempo integral, ela depende de outras pessoas para lavá-la e vesti-la e não tem capacidade de mudar de canal na TV sem ajuda.

Embora a tecnologia de voz parecesse fornecer o caminho mais fácil para superar as dificuldades físicas de Susan, Susan nunca usou um smartphone, então impulsioná-la diretamente para uma interação com um assistente de voz nunca seria fácil - tivemos que pensar inteligentemente para ajudá-la aprenda a se comunicar com uma tecnologia incrivelmente alienígena.

Mais depois do salto! Continue lendo abaixo ↓

O resultado para Susan é um assistente controlado por voz altamente personalizado que agora a capacita a concluir as tarefas diárias com a liberdade que os outros consideram garantida - desde fazer uma ligação telefônica para a família até ouvir música. Construído como uma versão aprimorada da tecnologia Amazon Alexa em seu dispositivo Echo Dot, o assistente de voz de Susan também envolveu personalização física, pois imprimimos em 3D um invólucro na forma de seu animal favorito, uma coruja.

À medida que experimentávamos e iterávamos rapidamente em uma solução para Susan, minha equipe e eu descobrimos dezenas de complexidades que acompanham o design de voz de uma maneira mais inclusiva e acessível. Embora fosse um projeto único, havia três tópicos importantes que são aplicáveis a qualquer projeto de VUI.

1. Torne-o pessoal

A tecnologia funciona. Não é apenas uma questão de sentar e esperar que o poder de computação aumente de acordo com a expectativa do usuário. Descobrimos que a detecção, o reconhecimento e a síntese de voz de cada um dos dispositivos são muito mais poderosos do que prevíamos. E não é como se houvesse uma falta de escolha. Existem mais de 30.000 habilidades de Alexa na Amazon, com uma média de 50 novas sendo publicadas diariamente. As habilidades são recursos específicos que permitem que designers e desenvolvedores criem uma experiência de voz mais personalizada ao usar dispositivos como o Amazon Echo Dot. Eles funcionam como um aplicativo dentro da App Store em seu smartphone, permitindo que você personalize seu assistente de voz da maneira que desejar .

No entanto, atualmente existe uma grande barreira ao acesso. As habilidades devem ser adicionadas por meio do aplicativo em vez do dispositivo, muitas vezes negando os benefícios de uma VUI e interrompendo o fluxo de conversação (sem mencionar a exclusão daqueles que não podem/não usarão um smartphone). Isso faz com que o processo pareça desajeitado e desarticulado na melhor das hipóteses, isolando completamente na pior. Mesmo quando uma habilidade é instalada, nenhuma visibilidade de habilidade e um período de tempo restrito para interação resultam em falta de confiança e ansiedade; pode fazer o que eu quero? Como eu falo com isso? Ele me ouviu? Então, como você constrói essa conexão e confiança?

Para Susan, isso significava eliminar o desnecessário e apresentar uma seleção com curadoria de funcionalidades principais. Ao personalizar o conteúdo para os comportamentos e requisitos exclusivos, apresentamos a clareza necessária e uma experiência mais significativa. Susan queria realizar tarefas importantes: atender o telefone, fazer uma ligação, mudar o canal da TV, tocar música e assim por diante. Ao entendê-la e às suas necessidades, criamos uma assistente que sempre se sentiu relevante e útil . Este foi um processo bastante manual, mas há uma grande oportunidade para aprendizado de máquina e IA aqui. Se cada assistente de voz pudesse oferecer um elemento de personalização, isso poderia tornar a experiência mais relevante para todos.

Como estávamos projetando para um indivíduo, poderíamos facilmente adaptar os elementos físicos do produto para Susan. Isso significou projetar – depois a impressão 3D – um difusor de luz em forma de coruja (seu animal favorito e algo com um significado significativo para ela). A coruja atuou como uma manifestação visual da tecnologia e deu a ela algo para conversar e projetar. Foi seu guia que lhe deu acesso às habilidades que ela queria, como ouvir música. Como era pessoal para ela, fez com que a tecnologia potencialmente alienígena e intimidadora parecesse muito mais acessível e familiar .

A tecnologia de humanização ajuda a torná-la mais acessível: a coruja personalizada de Susan brilha em resposta à sua voz, deixando-a saber que está sendo ouvida e compreendida. (Visualização grande)

Embora uma caixa impressa em 3D totalmente personalizada não seja uma opção para todos os projetos de VUI, há uma oportunidade de criar um dispositivo mais relevante para as pessoas se comunicarem, especialmente se suas necessidades ou o uso de assistentes domésticos forem bastante específicos. Por exemplo, você pode falar com uma luz habilitada por voz sobre a iluminação da sua casa e uma geladeira sobre suas compras.

2. Pense nas possibilidades de áudio

Atualmente, o usuário faz todo o trabalho pesado. Com um modelo mental obscuro e sem ajuda da tecnologia, somos forçados a imaginar nosso ponto final desejado e trabalhar de trás para frente através dos comandos necessários. Deixando as tarefas mais simples de lado (definir um cronômetro para 5 minutos, tocar Abba no Spotify, etc.), isso é incrivelmente difícil de fazer, especialmente se você sofre de 'momentos nebulosos', algo que Susan nos explicou - dificuldade em encontrar as palavras certas.

Quando a Apple usou elementos visuais skeumórficos para seus primeiros aplicativos para iPhone, o usuário ganhou pontos de referência valiosos e familiares que permitiram seu uso e método de interação. Apenas uma vez que o modelo mental se tornou mais estabelecido, eles tiveram a liberdade de se afastar dessa representação literal, em sua interface plana atual.

Ao projetar nossa VUI, decidimos nos apoiar no sistema de menus bem estabelecido visto em toda a navegação digital e na web. É uma ferramenta familiar que exige menos processamento cognitivo do usuário e nos permitiu incorporar métodos de localização que não resultavam em começar do início se as coisas dessem errado.

Como exemplo, Susan achou verbalizar o que queria, no prazo oferecido pelos atuais assistentes digitais, uma experiência estressante e muitas vezes desagradável; muitas vezes composto por uma mensagem de erro do dispositivo no final do mesmo. Em vez de esperar que ela desse um comando explícito como “Alexa, toque Abba da minha playlist do Spotify”, decidimos criar uma ferramenta de menu guiada que poderia ajudá-la a começar devagar e ser cada vez mais específica sobre o que ela queria que a Alexa fizesse.

A coruja de Susan agora solicita a ela uma lista com curadoria de opções, como “Tocar música” ou “Assistir algo”. Se ela escolhe música, fica mais específico à medida que ela progride em cada portão de decisão, para descobrir o gênero que ela sente vontade de ouvir; no caso do Abba, ela selecionaria “música dos anos 60”. Isso permite que Susan navegue até o resultado desejado com muito mais facilidade e em um ritmo adequado a ela. O tempo todo, a coruja estava brilhando e respondendo à sua voz, deixando-a saber que estava sendo ouvida e compreendida.

A assistente de voz de Susan devolve a ela um pouco da independência que ela perdeu para sua condição, desde capacitá-la a fazer um telefonema para a família ou simplesmente ouvir música. (Visualização grande)

3. Há mais em VUIs do que voz

Os componentes não lexicais da comunicação verbal conferem muito significado a uma conversa. Alguns podem ser replicados pela voz sintetizada (entonação, tom e velocidade de fala, ruídos de hesitação, para citar alguns), mas muitos não podem (como gestos e expressões faciais). Os elementos tangíveis do produto precisam substituir essas dicas visuais tradicionais para que a interação pareça um pouco natural. Mas há mais do que isso.

Em primeiro lugar, quando alguém interage com um produto projetado para replicar comportamentos humanos, os componentes visuais são interpretados pelas noções preconcebidas do usuário sobre o mundo (tanto inerentes quanto aprendidas) e afetam suas respostas emocionais. Se algo parece imponente e frio, é muito menos provável que você inicie uma conversa do que com algo que parece fofo e fofinho.

No nosso caso, como a tecnologia era tão estranha para o usuário, precisávamos torná-la o mais familiar e convidativa possível – uma coruja. Ao fazer isso, esperávamos remover os sentimentos de ansiedade e frustração que experimentamos com outros produtos. Também amplificamos o lado visual disso - há uma cor para um estado ocioso - um brilho suave, quase como respirar, mas quando Susan diz as palavras de vigília, a luz muda para acordado e ouvindo.

Você pode ir mais longe. A Apple, por exemplo, tem uma tela colorida em seu Homepod que oferece um nível mais alto de nuance para sua interação e visualização. Adicionar uma experiência visual pode parecer contra-intuitivo, mas as visualizações podem ser muito úteis para o usuário.

Conclusão

Embora aplicados a um caso de uso individual, esses aprendizados de alto nível podem ajudar qualquer projeto que pretenda utilizar os benefícios inerentes que a voz oferece. Personalizar o conteúdo (sempre que possível) fornece a clareza necessária e um sistema de navegação lógico e relacionável reduz a carga cognitiva. Finalmente, não subestime a importância dos componentes visuais ; quando bem feitos, eles não apenas fornecem dicas fundamentais de conversação, mas também definem o tom de toda a interação.

Para aqueles que desejam experimentar a voz, a Amazon agora apresenta dezenas de milhares de habilidades de empresas como Starbucks e Uber, bem como aquelas criadas por outros designers e desenvolvedores inovadores. O Alexa Skills Kit (ASK) é uma coleção de APIs de autoatendimento, ferramentas, documentação e exemplos de código que facilitam a adição de habilidades ao Alexa e começam a criar suas próprias soluções. Quer saber se a voz ainda faz sentido? Aqui estão algumas considerações antes de começar.