Projektowanie niewidzialnego: 3 rzeczy, których się nauczyłem: Projektowanie dla głosu
Opublikowany: 2022-03-10Obecna iteracja cyfrowych asystentów sterowanych głosem wciąż ma problemy z integracją tak bezproblemową, jak oczekiwaliby trzy duże odtwarzacze głosowe Amazon, Google i Apple. Raport Voicelabs z 2017 roku stwierdza, że istnieje tylko 3 procent szansy, że użytkownik będzie aktywny w drugim tygodniu po pobraniu aplikacji głosowej, a 62 procent umiejętności Alexy wciąż nie otrzyma jakiejkolwiek oceny w swoim sklepie (stan na wrzesień 2017 r.).
Jako projektanci mamy realną szansę na nadanie cennego znaczenia tym asystentom, ale wciąż staramy się ustalić, gdzie technologia może przynieść użytkownikowi realne korzyści. Dla wielu rozpoczęcie projektu głosowego interfejsu użytkownika (VUI) może być trochę jak wejście do Nieznanego . Niewiele jest historii sukcesu dla projektantów lub inżynierów, którymi można by się zainspirować, zwłaszcza w kontekstach, które ilustrują, w jaki sposób ta rodząca się technologia może pomóc ludziom rozwijać się w nowy sposób.
Eksperymentowanie z speechSynthesis
Interfejs API Web Speech umożliwia głosowe włączanie witryny w dwóch kierunkach: słuchanie użytkowników za pośrednictwem interfejsu SpeechRecognition
i mówienie do nich za pośrednictwem interfejsu speechSynthesis
. Wszystko to odbywa się za pośrednictwem interfejsu API JavaScript, co ułatwia testowanie wsparcia. Przeczytaj powiązany artykuł →
W ramach serii filmów dokumentalnych BBC2 Big Life Fix, w których zespoły wynalazców tworzą nowe i zmieniające życie rozwiązania dla osób w potrzebie, miałam okazję przetestować i zbudować sterowanego głosem asystenta dla kobiety o imieniu Susan. Susan od ponad 20 lat żyje z postępującą postacią stwardnienia rozsianego i obecnie nie jest w stanie z łatwością wykonywać codziennych zadań. Z pełnoetatowymi opiekunami polega na innych, którzy ją myją i ubierają, i nie ma nawet możliwości zmiany kanału w telewizji bez pomocy.
Chociaż wydawało się, że technologia głosowa zapewni najłatwiejszą drogę do pokonania fizycznych trudności Susan, Susan nigdy nie korzystała ze smartfona, więc nakłonienie jej do interakcji z asystentem głosowym nigdy nie było łatwe — musieliśmy sprytnie myśleć, aby jej pomóc nauczyć się komunikować z niesamowicie obcą technologią.
Rezultatem dla Susan jest wysoce spersonalizowany asystent sterowany głosem, który teraz umożliwia jej wykonywanie codziennych zadań ze swobodą, którą inni uważają za pewnik — od wykonywania połączeń telefonicznych z rodziną po słuchanie muzyki. Zbudowany jako ulepszona wersja technologii Amazon Alexa na ich urządzeniu Echo Dot, asystent głosowy Susan obejmował również fizyczną personalizację, gdy drukowaliśmy w 3D obudowę w kształcie jej ulubionego zwierzęcia, sowy.
Gdy szybko eksperymentowaliśmy i iterowaliśmy rozwiązanie dla Susan, mój zespół i ja odkryliśmy dziesiątki zawiłości, które wiążą się z projektowaniem głosu w bardziej inkluzywny i przystępny sposób. Chociaż był to wyjątkowy projekt, istniały trzy kluczowe wnioski, które można zastosować w każdym projekcie VUI.
1. Spraw, aby to było osobiste
Technologia działa. To nie tylko kwestia siedzenia i czekania, aż moc obliczeniowa wzrośnie zgodnie z oczekiwaniami użytkowników. Odkryliśmy, że wykrywanie, rozpoznawanie i synteza głosu każdego z urządzeń jest znacznie wydajniejsze, niż się spodziewaliśmy. I nie jest tak, że brakuje wyboru. Na Amazon jest ponad 30 000 umiejętności Alexa, a codziennie publikowanych jest średnio 50 nowych. Umiejętności to specyficzne możliwości, które umożliwiają projektantom i programistom tworzenie bardziej spersonalizowanych wrażeń głosowych podczas korzystania z urządzeń takich jak Amazon Echo Dot. Działają one podobnie jak aplikacja w App Store na smartfonie, umożliwiając dostosowanie asystenta głosowego tak, jak chcesz .
Jednak obecnie istnieje duża bariera dostępu. Umiejętności należy dodawać za pośrednictwem aplikacji, a nie urządzenia, często negując zalety VUI i przerywając przepływ konwersacji (nie wspominając o wykluczeniu tych, którzy nie mogą/nie chcą korzystać ze smartfona). Sprawia to, że proces jest w najlepszym razie niezdarny i chaotyczny, aw najgorszym całkowicie izolujący. Nawet po zainstalowaniu umiejętności brak widoczności umiejętności i ograniczone ramy czasowe interakcji powodują brak pewności siebie i niepokój; czy może robić to, czego chcę? Jak mam z tym rozmawiać? Czy mnie usłyszał? Jak więc zbudować to połączenie i zaufanie?
Dla Susan oznaczało to usunięcie zbędnych elementów i zaprezentowanie wyselekcjonowanego zestawu podstawowych funkcji. Personalizując treść do unikalnych zachowań i wymagań, zapewniliśmy bardzo potrzebną przejrzystość i bardziej znaczące wrażenia. Susan chciała wykonać kluczowe zadania: odebrać telefon, nawiązać połączenie, zmienić kanał telewizyjny, odtwarzać muzykę i tak dalej. Rozumiejąc ją i jej potrzeby, stworzyliśmy asystentkę, która zawsze czuła się odpowiednia i przydatna . To był dość ręczny proces, ale jest tu ogromna szansa na uczenie maszynowe i sztuczną inteligencję. Gdyby każdy asystent głosowy mógł oferować element personalizacji, mogłoby to sprawić, że doświadczenie byłoby bardziej odpowiednie dla wszystkich.
Ponieważ projektowaliśmy dla jednej osoby, mogliśmy z łatwością dostosować fizyczne elementy produktu do Susan. Oznaczało to zaprojektowanie — a następnie wydrukowanie 3D — dyfuzora światła w kształcie sowy (jej ulubione zwierzę i coś, co ma dla niej duże znaczenie). Sowa działała jako wizualna manifestacja technologii i dała jej coś, z czym mogła porozmawiać i coś do czego projektować. To jej przewodnik dał jej dostęp do tych umiejętności, których pragnęła, takich jak słuchanie muzyki. Ponieważ było to dla niej osobiste, sprawiało, że potencjalnie obca, zastraszająca technologia wydawała się znacznie bardziej przystępna i znajoma .
Chociaż w pełni zindywidualizowana obudowa drukowana w 3D nie jest opcją dla każdego projektu VUI, istnieje możliwość stworzenia bardziej odpowiedniego urządzenia, z którym ludzie będą się komunikować, zwłaszcza jeśli ich potrzeby lub wykorzystanie asystentów domowych są dość specyficzne. Na przykład możesz porozmawiać z włączonym głosem światłem o oświetleniu domu i lodówce o swoich produktach spożywczych.
2. Pomyśl o afordancjach audio
Obecnie to użytkownik wykonuje wszystkie ciężkie prace. Z zaciemnionym modelem mentalnym i bez trzymania się za rękę przez technika, jesteśmy zmuszeni wyobrazić sobie nasz pożądany punkt końcowy i pracować wstecz, wykonując niezbędne polecenia. Pomijając najprostsze zadania (ustaw minutnik na 5 minut, graj w Abbę na Spotify itp.), jest to niezwykle trudne do wykonania, zwłaszcza jeśli cierpisz na „mgliste momenty”, coś, co wyjaśniła nam Susan — trudności ze znalezieniem właściwych słów.
Kiedy Apple słynie ze skeuomorficznych elementów wizualnych w swoich wczesnych aplikacjach na iPhone'a, użytkownik zyskał cenne, znajome punkty odniesienia, które umożliwiły jego użycie i sposób interakcji. Dopiero gdy model mentalny stał się bardziej ugruntowany, mieli swobodę odejścia od tej dosłownej reprezentacji do obecnego płaskiego interfejsu użytkownika.
Projektując nasz VUI, postanowiliśmy oprzeć się na dobrze ugruntowanym systemie menu widocznym w nawigacji cyfrowej i internetowej. Jest to znane narzędzie, które wymaga mniej przetwarzania poznawczego od użytkownika i pozwoliło nam zastosować metody odnajdywania drogi, które nie skutkowały zaczynaniem od początku, jeśli coś poszło nie tak.
Na przykład Susan uznała werbalizowanie tego, czego chciała, w ramach czasowych oferowanych przez obecnych asystentów cyfrowych, za stresujące i często nieprzyjemne doświadczenie; często spotęgowany komunikatem o błędzie z urządzenia na końcu. Zamiast oczekiwać, że wyda wyraźne polecenie, takie jak „Alexa, zagraj w Abbę z mojej playlisty Spotify”, postanowiliśmy stworzyć narzędzie z menu z przewodnikiem, które może pomóc jej zacząć powoli i coraz bardziej szczegółowo określać, czego chce, aby Alexa zrobiła.
Sowa Susan wyświetla teraz wyselekcjonowaną listę opcji, takich jak „Odtwórz muzykę” lub „Obejrzyj coś”. Jeśli wybiera muzykę, staje się ona bardziej szczegółowa, gdy przechodzi przez każdą bramkę decyzyjną, aby odkryć gatunek, którego chce słuchać; w przypadku Abby wybrała „muzykę lat 60”. Dzięki temu Susan może znacznie łatwiej dotrzeć do pożądanego rezultatu i w tempie, które jej odpowiada. Przez cały czas sowa świeciła i reagowała na jej głos, dając jej do zrozumienia, że została wysłuchana i zrozumiana.
3. VUI to coś więcej niż głos
Nieleksykalne elementy komunikacji werbalnej nadają rozmowie wiele znaczenia. Niektóre mogą być odtworzone przez zsyntetyzowany głos (intonacja, wysokość i szybkość mówienia, odgłosy wahania, żeby wymienić tylko kilka), ale wiele nie (takie jak gesty i wyraz twarzy). Namacalne elementy produktu muszą zastąpić te tradycyjne, wizualne wskazówki, aby interakcja wydawała się choć trochę naturalna. Ale jest w tym coś więcej.
Po pierwsze, gdy ktoś wchodzi w interakcję z produktem zaprojektowanym do replikowania ludzkich zachowań, komponenty wizualne są interpretowane przez z góry przyjęte przez użytkownika wyobrażenia o świecie (zarówno wrodzone, jak i wyuczone) i wpływają na jego reakcje emocjonalne. Jeśli coś wygląda imponująco i chłodno, jest mniej prawdopodobne, że zainicjujesz rozmowę, niż z czymś, co wygląda słodko i przytulnie.
W naszym przypadku, ponieważ technologia była tak obca dla użytkownika, musieliśmy sprawić, by była jak najbardziej znajoma i zachęcająca — sowa. Robiąc to, mieliśmy nadzieję, że usuniemy uczucie niepokoju i frustracji, których doświadczaliśmy w przypadku innych produktów. Wzmocniliśmy także stronę wizualną — jest jeden kolor dla stanu bezczynności — delikatny blask, prawie jak oddychanie, ale kiedy Susan wypowiada słowa „budzenia”, światło zmienia się, by się obudzić i nasłuchiwać.
Możesz iść dalej. Apple, na przykład, ma pełnokolorowy wyświetlacz na swoim Homepod, który zapewnia wyższy poziom niuansów w ich interakcji i wizualizacji. Dodanie wrażeń wizualnych może wydawać się sprzeczne z intuicją, ale wizualizacje mogą być bardzo pomocne dla użytkownika.
Wniosek
Te nauki na najwyższym poziomie, chociaż mają zastosowanie do indywidualnego przypadku użycia, mogą pomóc w każdym projekcie, mając nadzieję na wykorzystanie nieodłącznych korzyści, jakie daje głos. Personalizacja treści (tam, gdzie to możliwe) zapewnia bardzo potrzebną przejrzystość, a logiczny, powiązany system nawigacji zmniejsza obciążenie poznawcze. Wreszcie, nie lekceważ znaczenia komponentów wizualnych ; dobrze zrobione, nie tylko dostarczają podstawowych wskazówek do rozmowy, ale nadają ton całej interakcji.
Dla tych, którzy chcą eksperymentować z głosem, Amazon prezentuje teraz dziesiątki tysięcy umiejętności takich firm jak Starbucks i Uber, a także tych stworzonych przez innych innowacyjnych projektantów i programistów. Zestaw umiejętności Alexa (ASK) to zbiór samoobsługowych interfejsów API, narzędzi, dokumentacji i próbek kodu, które ułatwiają dodawanie umiejętności do Alexy i tworzenie własnych rozwiązań. Zastanawiasz się, czy głos ma w ogóle sens? Oto kilka uwag, zanim zaczniesz.