设计无形：我学到的 3 件事语音设计

已发表: 2022-03-10

快速总结↬世界各地都有人无法轻松地为自己完成日常任务。幸运的是，开发人员和设计人员可以通过试验语音技术来提供帮助，使他们能够完成其他人可能认为理所当然的任务。

当前的语音控制数字助理迭代仍在努力实现亚马逊、谷歌和苹果三大语音播放器所希望的无缝集成。 Voicelabs 2017 年的一份报告指出，用户在下载语音应用程序后的第二周内只有 3% 的机会处于活跃状态，并且 62% 的 Alexa 技能仍会在其商店中获得任何类型的评级（截至 2017 年 9 月）。

作为设计师，我们有真正的机会为这些助手提供有价值的意义，但我们仍在努力找出技术可以在哪些方面为用户带来真正的好处。对于许多人来说，开始一个语音 UI (VUI) 项目可能有点像进入 Unknown 。很少有成功案例可供设计师或工程师借鉴，尤其是在说明这种新兴技术如何帮助人们以新方式茁壮成长的背景下。

尝试`speechSynthesis`

Web Speech API 使您能够在两个方向为您的网站启用语音功能：通过speechSynthesis SpeechRecognition与他们对话。所有这些都是通过 JavaScript API 完成的，因此很容易测试支持。阅读相关文章 →

作为 BBC2 的 Big Life Fix 纪录片系列的一部分，发明家团队为有需要的人创造了新的改变生活的解决方案，我有机会为一位名叫 Susan 的女性测试并构建了一个语音控制的助手。苏珊患有渐进性多发性硬化症已有 20 多年，现在无法轻松完成自己的日常任务。有全职照顾者，她靠别人帮她洗衣服、换衣服，连电视换台都没有能力。

虽然语音技术似乎可以为克服苏珊的身体困难提供最顺畅的途径，但苏珊从未使用过智能手机，因此让她直接与语音助手互动绝非易事——我们必须聪明地思考才能帮助她学习与令人难以置信的外星技术交流。

跳跃后更多！继续往下看↓

苏珊的成果是一个高度定制的语音控制助手，现在让她能够以别人认为理所当然的自由来完成日常任务——从打电话给家人，到听音乐。作为 Amazon Alexa 技术的增强版，在他们的 Echo Dot 设备上构建，Susan 的语音助手还涉及物理定制，因为我们 3D 打印了她最喜欢的动物猫头鹰形状的外壳。

当我们快速地为 Susan 试验和迭代解决方案时，我和我的团队发现了数十个复杂的问题，这些问题都伴随着以更具包容性和可访问性的方式进行语音设计。尽管这是一个独特的项目，但有三个关键要点适用于任何 VUI 项目。

1. 个性化

技术有效。这不仅仅是坐下来等待计算能力增加符合用户期望的问题。我们发现每个设备的语音检测、识别和合成功能远比我们预期的要强大。这并不是没有选择的余地。亚马逊上有超过 30,000 种 Alexa 技能，平均每天发布 50 种新技能。技能是使设计人员和开发人员在使用 Amazon Echo Dot 等设备时能够创建更加个性化的语音体验的特定能力。它们的运行方式很像智能手机应用商店中的应用程序，让您可以随心所欲地自定义语音助手。

但是，目前存在很大的访问障碍。必须通过应用程序而不是设备来添加技能，这通常会否定 VUI 的好处并破坏对话流程（更不用说排除那些不能/不会使用智能手机的人）。这让这个过程感觉很笨拙，充其量是脱节的，最坏的情况是完全孤立的。即使安装了一项技能，没有技能可见性和有限的互动时间框架也会导致缺乏信心和焦虑；它可以做我想做的吗？我怎么跟它说话？它听到我了吗？那么，你如何建立这种联系和信任呢？

对于 Susan 来说，这意味着去除不必要的内容并展示精选的核心功能。通过将内容个性化为独特的行为和要求，我们提供了急需的清晰度和更有意义的体验。 Susan 想要执行关键任务：接听电话、拨打电话、更换电视频道、播放音乐等等。通过了解她和她的需求，我们创建了一个始终感觉相关且有用的助手。这是一个相当手动的过程，但机器学习和人工智能在这里有巨大的机会。如果每个语音助手都可以提供个性化元素，那么它可以让每个人的体验都更加相关。

当我们为一个人设计时，我们可以轻松地为 Susan 定制产品的物理元素。这意味着设计——然后是 3D 打印——一个猫头鹰形状的光扩散器（她最喜欢的动物，对她来说具有重要意义的东西）。猫头鹰充当了这项技术的视觉表现，并给了她一些可以交谈和投射的东西。正是她的向导让她获得了她想要的技能，比如听音乐。由于这对她来说是个人的，它让潜在的外星人、令人生畏的技术感觉更加平易近人和熟悉。

人性化技术有助于使其更易于使用：苏珊的个性化猫头鹰会根据她的声音发光，让她知道自己正在被倾听和理解。 — 人性化技术有助于使其更易于使用：Susan 的个性化猫头鹰会根据她的声音发光，让她知道自己正在被倾听和理解。（大预览）

虽然完全定制的 3D 打印房屋并不是每个 VUI 项目的选择，但仍有机会为人们创建一个更相关的设备进行交流，特别是如果他们对家庭助理的需求或使用非常具体。例如，您可能会与支持语音的灯谈论您的家庭照明和冰箱谈论您的杂货。

2. 考虑音频可供性

目前，用户完成了所有繁重的工作。由于心智模型模糊且没有技术支持，我们被迫想象我们想要的终点并通过必要的命令向后工作。除了最简单的任务（设置一个 5 分钟的计时器，在 Spotify 上播放 Abba 等），这很难做到，尤其是如果你遇到 Susan 向我们解释的“模糊时刻”——难以找到合适的词。

当 Apple 在其早期的 iPhone 应用程序中著名地使用拟物化视觉元素时，用户获得了有价值的、熟悉的参考点，这些参考点为其提供了使用和交互方法。只有当心智模型变得更加成熟时，他们才能自由地摆脱这种文字表示，进入他们当前的平面 UI。

在设计我们的 VUI 时，我们决定依靠在数字和网络导航中看到的完善的菜单系统。 这是一个熟悉的工具，它需要用户进行较少的认知处理，并允许我们结合寻路方法，如果出现问题，这种方法不会导致从一开始就开始。

例如，苏珊发现，在当前数字助理提供的时间范围内，用语言表达她想要的东西是一种压力大且通常不愉快的体验；通常会因设备末尾的错误消息而复杂化。与其期望她给出明确的命令，例如“Alexa，从我的 Spotify 播放列表中播放 Abba”，我们决定创建一个引导菜单工具，可以帮助她慢慢开始，并逐步更具体地了解她希望 Alexa 做什么。

苏珊的猫头鹰现在会提示她一个精选的选项列表，例如“播放音乐”或“看点什么”。如果她选择音乐，随着她通过每个决策门的进展，它会变得更加具体，以发现她喜欢听的类型；就 Abba 而言，她会选择“60 年代的音乐”。这使苏珊能够更轻松地以适合她的速度导航到她想要的结果。一直以来，猫头鹰都在发光并回应她的声音，让她知道她被听到和理解了。

苏珊的语音助手让她恢复了她因病情而失去的一些独立性，从赋予她权力到给家人打电话，或者只是听音乐。（大预览）

3. VUI 不仅仅是语音

语言交流的非词汇成分赋予对话大量意义。有些可以通过合成的声音（语调、音高和说话速度、犹豫的声音等等）来复制，但很多不能（例如手势和面部表情）。产品的有形元素需要取代这些传统的视觉提示，以使交互感觉更加自然。但不仅如此。

首先，当有人与旨在复制人类行为的产品进行交互时，视觉组件会被用户对世界的先入为主的概念（固有的和习得的）解释并影响他们的情绪反应。如果某件东西看起来气势磅礴而冷酷无情，那么与看起来可爱可爱的东西相比，你发起对话的可能性要小得多。

在我们的案例中，由于该技术对用户来说是如此陌生，我们需要让它感觉尽可能地熟悉和吸引人——一只猫头鹰。通过这样做，我们希望消除我们在使用其他产品时所经历的焦虑和挫败感。我们还放大了它的视觉方面——空闲状态有一种颜色——柔和的光芒，几乎就像呼吸一样，但是当苏珊说出唤醒词时，光线会变成清醒和倾听。

你可以走得更远。例如，Apple 的 Homepod 上有一个全彩显示屏，这为他们的交互和可视化提供了更高水平的细微差别。添加视觉体验可能听起来违反直觉，但可视化对用户非常有帮助。

结论

尽管适用于个人用例，但这些顶级学习可以帮助任何希望利用语音提供的固有好处的项目。个性化内容（在可能的情况下）提供了急需的清晰度，并且逻辑、相关的导航系统减少了认知负担。最后，不要低估视觉组件的重要性；如果做得好，它们不仅能提供基本的对话线索，还能为整个互动定下基调。

对于那些希望尝试语音的人来说，亚马逊现在展示了星巴克和优步等公司以及其他创新设计师和开发人员创造的数以万计的技能。 Alexa Skills Kit (ASK) 是自助服务 API、工具、文档和代码示例的集合，可让您轻松地向 Alexa 添加技能并开始创建自己的解决方案。想知道声音是否有意义？在您开始之前，这里有一些注意事项。