Проектирование невидимого: 3 вещи, которым я научился при проектировании голоса

Опубликовано: 2022-03-10

Краткое резюме ↬ Во всем мире есть люди, которые не могут легко выполнять повседневные задачи самостоятельно. К счастью, разработчики и дизайнеры могут помочь, экспериментируя с голосовыми технологиями, которые позволяют им выполнять задачи, которые другие считают само собой разумеющимися.

Нынешняя итерация цифровых помощников с голосовым управлением все еще пытается интегрироваться так же гладко, как на это надеются три больших голосовых плеера Amazon, Google и Apple. В отчете Voicelabs за 2017 год говорится, что вероятность того, что пользователь будет активен в течение второй недели после загрузки голосового приложения, составляет всего 3%, а 62% навыков Alexa еще не получили какой-либо рейтинг в своем магазине (по состоянию на сентябрь 2017 г.).

Как дизайнеры, у нас есть реальная возможность придать этим помощникам ценный смысл, но мы все еще пытаемся выяснить, где технология может принести пользователю реальные преимущества. Для многих запуск проекта голосового пользовательского интерфейса (VUI) может быть чем-то вроде входа в Unknown . Есть несколько историй успеха, которыми дизайнеры или инженеры могли бы вдохновиться, особенно в контексте, иллюстрирующем, как эта зарождающаяся технология может помочь людям процветать по-новому.

Эксперименты с `speechSynthesis`

Web Speech API дает вам возможность озвучить ваш веб-сайт в двух направлениях: прослушивание ваших пользователей через интерфейс SpeechRecognition и общение с ними через интерфейс speechSynthesis . Все это делается через JavaScript API, что упрощает проверку поддержки. Читать статью по теме →

В рамках документального сериала BBC2 Big Life Fix, в котором группы изобретателей создают новые и изменяющие жизнь решения для нуждающихся людей, у меня была возможность протестировать и создать помощника с голосовым управлением для женщины по имени Сьюзен. Сьюзен более 20 лет живет с прогрессирующей формой рассеянного склероза и теперь не может легко выполнять повседневные задачи самостоятельно. С постоянными опекунами она полагается на других, которые моют и одевают ее, и не имеет возможности даже переключить канал на телевизоре без посторонней помощи.

Хотя казалось, что голосовые технологии обеспечат самый плавный путь к преодолению физических трудностей Сьюзен, Сьюзен никогда не использовала смартфон, поэтому подтолкнуть ее прямо к взаимодействию с голосовым помощником никогда не было легко — нам пришлось думать умно, чтобы помочь ей. научиться общаться с невероятно инопланетной технологией.

Еще после прыжка! Продолжить чтение ниже ↓

Результатом для Сьюзен стал настраиваемый помощник с голосовым управлением, который теперь позволяет ей выполнять повседневные задачи со свободой, которую другие считают само собой разумеющейся, — от телефонного звонка семье до прослушивания музыки. Созданный как улучшенная версия технологии Amazon Alexa на их устройстве Echo Dot, голосовой помощник Сьюзан также подвергся физической настройке, поскольку мы напечатали корпус в форме ее любимого животного, совы, на 3D-принтере.

По мере того, как мы быстро экспериментировали и дорабатывали решение для Сьюзан, мы с моей командой обнаружили десятки тонкостей, связанных с проектированием голоса более инклюзивным и доступным способом. Хотя это был уникальный проект, было три ключевых вывода, применимых к любому проекту VUI.

1. Сделайте это личным

Техника работает. Дело не только в том, чтобы сидеть сложа руки и ждать, пока вычислительная мощность увеличится в соответствии с ожиданиями пользователя. Мы обнаружили, что обнаружение, распознавание и синтез голоса каждого из устройств намного мощнее, чем мы ожидали. И дело не в отсутствии выбора. На Amazon есть более 30 000 навыков Alexa, и в среднем ежедневно публикуется 50 новых. Навыки — это специальные возможности, которые позволяют дизайнерам и разработчикам создавать более персонализированный голосовой опыт при использовании таких устройств, как Amazon Echo Dot. Они работают так же, как приложение в магазине приложений на вашем смартфоне, позволяя вам настроить голосового помощника так, как вам нравится .

Однако в настоящее время существует большой барьер для доступа. Навыки должны добавляться через приложение, а не через устройство, что часто сводит на нет преимущества VUI и нарушает ход разговора (не говоря уже об исключении тех, кто не может/не хочет использовать смартфон). Это делает процесс в лучшем случае неуклюжим и бессвязным, а в худшем — полностью изолирующим. Даже после того, как навык установлен, отсутствие видимости навыка и ограниченные временные рамки для взаимодействия приводят к отсутствию уверенности и беспокойству; может ли он делать то, что я хочу? Как мне с этим поговорить? Оно меня услышало? Итак, как вы строите эту связь и доверие?

Для Сьюзен это означало избавиться от ненужного и представить тщательно подобранный набор основных функций. Персонализируя контент в соответствии с уникальным поведением и требованиями, мы представили столь необходимую ясность и более содержательный опыт. Сьюзан хотела выполнять ключевые задачи: отвечать на звонки, звонить, переключать телеканалы, включать музыку и так далее. Поняв ее и ее потребности, мы создали помощника, который всегда чувствовал себя актуальным и полезным . Это был довольно ручной процесс, но здесь есть огромные возможности для машинного обучения и ИИ. Если бы каждый голосовой помощник мог предложить элемент персонализации, это могло бы сделать опыт более актуальным для всех.

Поскольку мы проектировали для одного человека, мы могли легко адаптировать физические элементы продукта для Сьюзен. Это означало разработку — затем 3D-печать — рассеивателя света в форме совы (ее любимого животного и чего-то, что имело для нее большое значение). Сова действовала как визуальное проявление технологии и давала ей возможность говорить и проектировать. Именно ее проводник дал ей доступ к тем навыкам, которые она хотела, например, к прослушиванию музыки. Поскольку это было лично для нее, это сделало потенциально чуждую, пугающую технологию гораздо более доступной и знакомой .

Очеловечивающие технологии помогают сделать его более доступным: персонализированная сова Сьюзен светится в ответ на ее голос, давая ей понять, что ее слышат и понимают. — Очеловечивающие технологии помогают сделать его более доступным: персонализированная сова Сьюзан светится в ответ на ее голос, давая ей понять, что ее слышат и понимают. (Большой превью)

Хотя полностью индивидуальный 3D-печатный корпус подходит не для каждого проекта VUI, существует возможность создать более подходящее устройство для общения людей, особенно если их потребности или использование домашних помощников весьма специфичны. Например, вы можете поговорить со светом с голосовым управлением о домашнем освещении, а с холодильником — о своих продуктах.

2. Подумайте об аудиовозможностях

В настоящее время пользователь делает всю тяжелую работу. С неясной ментальной моделью и отсутствием поддержки со стороны техники мы вынуждены представлять желаемую конечную точку и выполнять необходимые команды в обратном направлении. Если не считать самых простых задач (установить таймер на 5 минут, поиграть в Abba на Spotify и т. д.), это невероятно сложно, особенно если вы страдаете от «туманных моментов», как объяснила нам Сьюзен, — трудности с подбором правильных слов.

Когда Apple, как известно, использовала скевоморфные визуальные элементы для своих ранних приложений для iPhone, пользователь получил ценные, знакомые ориентиры, которые позволили использовать его и метод взаимодействия. Только после того, как ментальная модель стала более устоявшейся, у них появилась свобода отойти от этого буквального представления к своему нынешнему плоскому пользовательскому интерфейсу.

При разработке нашего VUI мы решили опираться на хорошо зарекомендовавшую себя систему меню, используемую в цифровой и веб-навигации. Это знакомый инструмент, который требует от пользователя меньше когнитивной обработки и позволяет нам использовать методы поиска путей, которые не приводят к тому, что все идет не так, как надо начинать с самого начала.

Например, Сьюзен обнаружила, что озвучивание того, что она хочет, в сроки, предлагаемые современными цифровыми помощниками, является стрессовым и часто неприятным опытом; часто усугубляется сообщением об ошибке от устройства в конце. Вместо того, чтобы ожидать, что она даст явную команду, такую как «Алекса, включи Abba из моего плейлиста Spotify», мы решили создать инструмент управляемого меню, который мог бы помочь ей начать медленно и постепенно уточнять, что она хочет от Алексы.

Теперь сова Сьюзен предлагает ей тщательно подобранный список опций, таких как «Воспроизвести музыку» или «Посмотреть что-нибудь». Если она выбирает музыку, она становится более конкретной по мере того, как она проходит через все ворота принятия решения, чтобы раскрыть жанр, который ей хочется слушать; в случае с Abba она бы выбрала «музыку 60-х». Это позволяет Сьюзен гораздо легче ориентироваться в желаемом результате и в подходящем для нее темпе. Все это время сова светилась и реагировала на ее голос, давая понять, что ее слышат и понимают.

Голосовой помощник Сьюзен возвращает ей часть независимости, которую она потеряла из-за своего состояния, от предоставления полномочий до телефонных звонков семье или просто прослушивания музыки. (Большой превью)

3. VUI — это больше, чем голос

Нелексические компоненты вербальной коммуникации придают разговору большое значение. Некоторые из них могут быть воспроизведены синтезированным голосом (интонация, высота тона и скорость речи, шумы колебаний и многие другие), но многие не могут (например, жесты и выражение лица). Осязаемые элементы продукта должны заменить эти традиционные визуальные подсказки, чтобы взаимодействие было хоть немного естественным. Но это еще не все.

Во-первых, когда кто-то взаимодействует с продуктом, предназначенным для воспроизведения человеческого поведения, визуальные компоненты интерпретируются в соответствии с предвзятыми представлениями пользователя о мире (как врожденными, так и приобретенными) и влияют на его эмоциональные реакции. Если что-то выглядит внушительно и холодно, у вас гораздо меньше шансов начать разговор, чем с чем-то, что выглядит мило и приятно.

В нашем случае, поскольку технология была настолько чужда пользователю, нам нужно было сделать ее максимально знакомой и привлекательной — сова. При этом мы надеялись устранить чувство беспокойства и разочарования, которое мы испытывали при использовании других продуктов. Мы также усилили его визуальную сторону — есть один цвет для состояния бездействия — мягкое свечение, почти похожее на дыхание, но когда Сьюзен произносит слова пробуждения, свет меняется на пробуждение и прислушивание.

Вы можете пойти дальше. Apple, например, имеет полноцветный дисплей на своем Homepod, который обеспечивает более высокий уровень нюансов их взаимодействия и визуализации. Добавление визуального опыта может показаться нелогичным, но визуализации могут быть очень полезными для пользователя.

Заключение

Несмотря на то, что эти знания применимы к конкретному варианту использования, они могут помочь любому проекту, надеющемуся использовать неотъемлемые преимущества, которые предоставляет голосовая связь. Персонализация контента (там, где это возможно) обеспечивает столь необходимую ясность, а логичная система навигации снижает когнитивную нагрузку. Наконец, не стоит недооценивать важность визуальных компонентов ; когда все сделано хорошо, они не только дают основные реплики разговора, но и задают тон всему взаимодействию.

Для тех, кто хочет поэкспериментировать с голосом, Amazon теперь демонстрирует десятки тысяч навыков от таких компаний, как Starbucks и Uber, а также созданных другими новаторскими дизайнерами и разработчиками. Alexa Skills Kit (ASK) — это набор API самообслуживания, инструментов, документации и примеров кода, которые упрощают добавление навыков в Alexa и создание собственных решений. Хотите знать, если голос вообще имеет смысл? Вот несколько соображений, прежде чем вы начнете.