Wszystko, co chcesz wiedzieć o tworzeniu głosowych interfejsów użytkownika

Opublikowany: 2022-03-10
Szybkie podsumowanie ↬ Tworzenie głosowych interfejsów użytkownika wymaga dużej wiedzy projektowej w różnych obszarach, takich jak projektowanie rozmów, projektowanie interakcji, projektowanie wizualne i ruchowe. W tym artykule omówiono najważniejsze aspekty projektowania głosowych interfejsów użytkownika — projektowanie konwersacji i projektowanie interfejsów wizualnych.

Głos to potężne narzędzie, za pomocą którego możemy się ze sobą komunikować. Rozmowy międzyludzkie inspirują projektantów produktów do tworzenia głosowych interfejsów użytkownika (VUI), nowej generacji interfejsów użytkownika, która daje użytkownikom możliwość interakcji z maszynami przy użyciu ich naturalnego języka.

Przez długi czas pomysł kontrolowania maszyny poprzez zwykłą rozmowę z nią był tematem science fiction. Być może najsłynniej, w 1968 roku Stanley Kubrick wypuścił film zatytułowany 2001: Odyseja kosmiczna , w którym głównym antagonistą nie był człowiek. HAL 9000 to wyrafinowana sztuczna inteligencja sterowana głosem.

HAL 9000, asystent głosowy z filmu „2001: Odyseja kosmiczna”. (Obejrzyj wideo na YouTube)

Od tego czasu postęp w przetwarzaniu języka naturalnego i uczeniu maszynowym pomógł twórcom produktów wprowadzić mniej mordercze głosowe interfejsy użytkownika w różnych produktach — od telefonów komórkowych po inteligentne urządzenia domowe i samochody.

Krótka historia interfejsów głosowych

Jeśli wrócimy do realnego świata i przeanalizujemy ewolucję VUI, możliwe będzie zdefiniowanie trzech generacji VUI. Pierwsza generacja VUI pochodzi z lat 50. XX wieku. W 1952 Bell Labs zbudowało system o nazwie Audrey. System wywodzi swoją nazwę od zdolności do dekodowania cyfr — Automatycznego Rozpoznawania Cyfr. Ze względu na ograniczenia techniczne system mógł rozpoznawać tylko wypowiadane cyfry od „0” do „9”. Audrey udowodniła jednak, że można zbudować VUI.

Bell Labs Audrey z kontrolą wejścia i wyjścia.
1952 Bell Labs Audrey. Zdjęcie pokazuje tylko kontrolki wejścia i wyjścia, ale nie pokazuje wspierającej elektroniki. (Źródło zdjęcia: Historia komputerów) (duży podgląd)

Druga generacja VUI pochodzi z lat 80. i 90. XX wieku. To była era interaktywnej odpowiedzi głosowej (IVR). Jeden z pierwszych IVR został opracowany w 1984 roku przez Speechworks i Nuance, głównie dla telefonii i zrewolucjonizował biznes. Po raz pierwszy w historii system cyfrowy potrafił rozpoznawać głosy ludzi i wykonywać powierzone im zadania. Można było uzyskać status swojego lotu, dokonać rezerwacji hotelu, przelać pieniądze między kontami za pomocą zwykłego telefonu stacjonarnego i ludzkiego głosu.

Co to jest IVR? (Napisy wideo: YouTube)

Trzecia (i obecna) generacja VUI zaczęła zyskiwać na popularności w drugiej dekadzie XXI wieku. Krytyczna różnica między drugą a trzecią generacją polega na tym, że głos jest połączony z technologią AI. Inteligentni asystenci, tacy jak Apple Siri, Google Assistant i Microsoft Cortana, mogą zrozumieć, co mówi użytkownik i zaoferować odpowiednie opcje. Ta generacja VUI jest dostępna w różnych typach produktów — od telefonów komórkowych po samochodowe interfejsy człowiek-maszyna (HMI). Szybko stają się normą.

Głos w połączeniu z technologią AI. (Źródło wideo: Gleb Kuzniecow)
Więcej po skoku! Kontynuuj czytanie poniżej ↓

Sześć podstawowych właściwości projektowania VUI

Zanim przejdziemy do konkretnych zaleceń projektowych, konieczne jest określenie podstawowych zasad dobrego projektowania VUI.

1. Projekt z pierwszym głosem

Musisz zaprojektować interfejsy użytkownika bez użycia rąk i oczu. Nawet jeśli urządzenie VUI ma ekran, powinniśmy zawsze projektować z myślą o interakcjach głosowych. Chociaż ekran może uzupełniać interakcję głosową, użytkownik powinien być w stanie ukończyć operację przy minimalnym lub bez patrzenia na ekran.

Oczywiście niektóre zadania stają się nieefektywne lub niemożliwe do wykonania samym głosem. Na przykład zmuszanie użytkowników do słuchania i przeglądania wyników wyszukiwania za pomocą głosu może być uciążliwe. Należy jednak unikać tworzenia akcji, która polega na interakcji użytkowników z samym ekranem. Jeśli projektujesz jedno z tych zadań, musisz wziąć pod uwagę środowisko, w którym użytkownicy zaczynają od głosu, a następnie przełączają się na interfejs wizualny lub dotykowy.

2. Naturalna rozmowa

Interakcja z VUI nie powinna przypominać interakcji z robotem. Przepływ rozmowy powinien być skoncentrowany na użytkowniku (przypominający naturalną ludzką rozmowę). Użytkownik nie powinien pamiętać określonych fraz, aby system zrobił to, co chce.

Ważne jest, aby używać języka codziennego i zachęcać użytkowników do mówienia rzeczy w sposób, w jaki zwykle to robią. Jeśli zauważysz, że musisz wyjaśnić polecenia, jest to wyraźna wskazówka, że ​​coś jest nie tak z twoim projektem i musisz wrócić do deski kreślarskiej i przeprojektować ją.

3. Personalizacja

Personalizacja to coś więcej niż tylko powiedzenie „Witaj ponownie, %username%”. Personalizacja polega na poznaniu rzeczywistych potrzeb i pragnień użytkowników oraz dostosowaniu do nich informacji. VUI daje projektantom produktów wyjątkową możliwość zindywidualizowania całej interakcji użytkownika. System powinien być w stanie rozpoznawać nowych i powracających użytkowników, tworzyć profile użytkowników i przechowywać w nim informacje, które system gromadzi. Im więcej system dowiaduje się o użytkownikach, tym bardziej spersonalizowane doświadczenie powinien oferować. Projektanci produktów muszą zdecydować, jakie rodzaje informacji mają zbierać od użytkowników, aby spersonalizować wrażenia.

4. Ton głosu

Głos to coś więcej niż tylko środek interakcji. W ciągu kilku sekund słuchamy głosu drugiej osoby; tworzymy na tej osobie wrażenie — poczucie płci, wieku, wykształcenia, inteligencji, wiarygodności i wielu innych cech. Robimy to intuicyjnie, po prostu słuchając głosu. Dlatego tak ważne jest, aby nadać swojemu VUI osobowość — stworzyć odpowiednią osobowość marki, która pasuje do wartości marki. Dobra persona jest na tyle specyficzna, że ​​wywołuje wyjątkowy głos i osobowość.

Stwórz rozmowę o wizerunku marki autorstwa Wally'ego Brilla. (Napisy wideo: Google)

5. Kontekst użycia

Musisz zrozumieć, gdzie i jak będzie używany produkt obsługujący głos. Czy będzie używany przez jedną osobę, czy będzie współdzielony przez wiele osób? W miejscach publicznych czy prywatnych? Jak hałaśliwe jest środowisko? Kontekst użycia będzie miał wpływ na wiele decyzji dotyczących projektowania produktu, które podejmiesz.

6. Poczucie zaufania

Zaufanie to podstawowa zasada dobrego doświadczenia użytkownika — zaangażowanie użytkownika opiera się na zaufaniu. Dobra interakcja z głosowym interfejsem użytkownika powinna zawsze prowadzić do budowania zaufania.

Oto kilka rzeczy, które projektanci produktów mogą zrobić, aby osiągnąć ten cel:

  • Nigdy nie udostępniaj nikomu prywatnych danych.
    Uważaj, aby werbalizować dane wrażliwe, takie jak dane medyczne, ponieważ użytkownicy mogą nie być sami.
  • Unikaj obraźliwych treści.
    Wprowadzaj obraźliwe lub drażliwe zmiany według wieku i regionu/kraju.
  • Staraj się unikać treści czysto promocyjnych.
    Nie wymieniaj produktów ani nazw marek poza kontekstem, ponieważ użytkownicy mogą je postrzegać jako treści promocyjne.

Zalecenia projektowe

Jeśli chodzi o projektowanie VUI, można zdefiniować dwa główne obszary:

  1. Projekt konwersacyjny
  2. Projekt wizualny

1. Projektowanie rozmowy

Na pierwszy rzut oka istotną różnicą między GUI a VUI jest medium interakcji. W GUI korzystamy z klawiatury, myszy lub ekranu dotykowego, podczas gdy w VUI używamy głosu. Gdy jednak przyjrzymy się bliżej, zobaczymy, że podstawową różnicą między tymi dwoma typami interfejsów jest model interakcji. Dzięki głosowi użytkownicy mogą po prostu zapytać o to, czego chcą, zamiast uczyć się, jak poruszać się po aplikacji i poznawać jej funkcje. Projektując na głos, projektujemy interakcje konwersacyjne.

Dowiedz się o swoich użytkownikach

Rozmowy z komputerem nie powinny być niezręczne. Użytkownicy powinni mieć możliwość interakcji z interfejsem głosowym, tak jak z inną osobą. Dlatego proces projektowania rozmów należy zawsze zaczynać od poznania użytkowników. Musisz znaleźć odpowiedzi na następujące pytania:

  • Kim są Twoi użytkownicy?
    (Demografia, portret psychologiczny)
  • Jak są zaznajomieni z interakcjami głosowymi? Czy obecnie używają produktów głosowych?
    (Poziom wiedzy technicznej)

Zrozum przestrzeń problemu i zdefiniuj kluczowe przypadki użycia

Kiedy wiesz, kim są Twoi użytkownicy, musisz dobrze zrozumieć ich problemy. Jakie są ich cele? Twórz mapy empatii, aby zidentyfikować kluczowe problemy użytkowników. Gdy tylko zrozumiesz obszar problemów, łatwiej będzie Ci przewidzieć funkcje, których potrzebują użytkownicy, i zdefiniować konkretne przypadki użycia. (Co użytkownik może zrobić z systemem głosowym?)

Pomyśl zarówno o problemie, jaki próbuje rozwiązać Twój użytkownik, jak i o tym, jak interfejs użytkownika głosowego może pomóc użytkownikowi rozwiązać ten problem. Oto kilka pytań, które mogą Ci w tym pomóc:

  • Jakie są zadania kluczowego użytkownika? (Dowiedz się o potrzebach/chcech użytkowników.)
  • Jakie sytuacje uruchamiają te zadania? (W jakim kontekście użytkownicy będą wchodzić w interakcję z systemem.)
  • W jaki sposób użytkownicy wykonują dziś te zadania? (Czym jest podróż użytkownika?)

Ważne jest również, aby interfejs użytkownika głosowego był właściwym rozwiązaniem problemu użytkownika. Na przykład interfejs głosowy może dobrze sprawdzać się w przypadku znalezienia pobliskiej restauracji podczas podróży, ale może wydawać się nieporęczny w przypadku zadań takich jak przeglądanie recenzji restauracji.

Zapisz przebieg okna dialogowego

U podstaw projektu konwersacji leży jej przebieg. Przepływ dialogu nie powinien być refleksją; zamiast tego powinna być pierwszą rzeczą, którą stworzysz, ponieważ wpłynie to na rozwój.

Oto kilka wskazówek dotyczących tworzenia podstaw dla przepływu dialogów:

  • Zacznij od przykładowego okna dialogowego, które przedstawia szczęśliwą ścieżkę.
    Szczęśliwa ścieżka to najprostsza i najłatwiejsza droga do sukcesu, jaką może podążać użytkownik. Na tym etapie nie próbuj poprawiać przykładowego okna dialogowego.
  • Skoncentruj się na rozmowie mówionej.
    Staraj się unikać sytuacji, w których piszesz dialog inaczej niż ludzie mówią. Zwykle prowadzi to do dobrze zorganizowanych, ale dłuższych i bardziej formalnych dialogów. Kiedy ludzie chcą rozwiązać określone zadanie, są bardziej rzeczowi, kiedy mówią.
  • Przeczytaj na głos przykładowe okno dialogowe, aby upewnić się, że brzmi ono naturalnie.
    Najlepiej byłoby zaprosić osoby, które nie należą do zespołu projektowego i zebrać informacje zwrotne.

Przykładowe okno dialogowe pomoże Ci zidentyfikować kontekst rozmowy (kiedy, gdzie i jak użytkownik uruchamia interfejs głosowy) oraz wspólne wypowiedzi i odpowiedzi.

Po zakończeniu pisania przykładowych dialogów następną rzeczą do zrobienia jest dodanie różnych ścieżek (zastanów się, jak system zareaguje w wielu sytuacjach, dodając zwroty w rozmowach itp.). Nie oznacza to, że musisz uwzględnić wszystkie możliwe odmiany w oknach dialogowych. Rozważ zasadę Pareto (80% użytkowników będzie podążać najczęstszymi 20% możliwych ścieżek w dyskusji) i zdefiniuj najbardziej prawdopodobne ścieżki logiczne, które użytkownik może obrać.

Zasady projektowania konwersacji. (Napisy wideo: Google)

Zaleca się również zatrudnienie projektanta konwersacji — profesjonalisty, który pomoże ci stworzyć naturalne i intuicyjne konwersacje dla użytkowników.

Projekt dla ludzkiego języka

Im bardziej interfejs wykorzystuje ludzką konwersację, tym mniej użytkowników trzeba nauczyć, jak z niego korzystać. Zainwestuj w badania użytkowników i poznaj słownictwo swoich prawdziwych lub potencjalnych użytkowników. Spróbuj użyć tych samych fraz i zdań w odpowiedzi systemu. Stworzy to bardziej przyjazną dla użytkownika rozmowę.

  • Nie ucz poleceń.
    Pozwól użytkownikom mówić własnymi słowami.
  • Unikaj technicznego żargonu.
    Pozwól użytkownikom na naturalną interakcję z systemem za pomocą fraz, które preferują.

Użytkownik zawsze rozpoczyna rozmowę

Bez względu na to, jak zaawansowany jest system głosowy, nigdy nie powinien rozpoczynać rozmowy. Będzie niezręcznie, jeśli system dotrze do użytkownika z tematem, o którym nie chce rozmawiać.

Unikaj długich odpowiedzi

Projektując odpowiedzi systemu, zawsze bierz pod uwagę obciążenie poznawcze. Użytkownicy VUI nie czytają, tylko słuchają, a im dłużej udzielasz odpowiedzi systemu, tym więcej informacji muszą zachować w swojej pamięci roboczej. Niektóre z tych informacji mogą być nieprzydatne dla użytkownika, ale nie ma możliwości szybkiego przewijania odpowiedzi w celu przeskoczenia do przodu.

Niech każde słowo będzie się liczyło i zaprojektuj na krótkie rozmowy. Kiedy tworzysz skrypty odpowiedzi systemu, czytaj je na głos. Długość jest prawdopodobnie dobra, jeśli możesz wypowiedzieć słowa w tempie konwersacyjnym na jednym oddechu. Jeśli potrzebujesz wziąć dodatkowy oddech, przepisz odpowiedzi i skróć ich długość.

Zminimalizuj liczbę opcji w monitach systemowych

Możliwe jest również zminimalizowanie obciążenia poznawczego poprzez zmniejszenie liczby opcji słyszanych przez użytkowników. W idealnym przypadku, gdy użytkownicy proszą o rekomendację, system powinien od razu oferować najlepszą możliwą opcję. Jeśli nie możesz tego zrobić, spróbuj podać trzy najlepsze możliwe opcje i najpierw zwerbalizuj tę najtrafniejszą.

Zapewnij ostateczne wybory

Unikaj pytań otwartych w odpowiedziach systemowych. Mogą powodować, że użytkownicy będą odpowiadać w sposób, którego system nie oczekuje ani nie obsługuje. Na przykład, gdy projektujesz monit wprowadzający, zamiast mówić „Cześć, firma ACME, co chcesz zrobić?” powinieneś powiedzieć: „Witaj, firma ACME, możesz zrobić [Opcja A], [Opcja B] lub [Opcja C]”.

Dodaj przerwy między pytaniem a opcjami

Pauzy i znaki interpunkcyjne naśladują rzeczywisty rytm mowy i są przydatne w sytuacjach, gdy system zadaje pytanie i oferuje kilka opcji do wyboru.

Dodaj 500-milisekundową przerwę po zadaniu pytania. Ta przerwa da użytkownikom wystarczająco dużo czasu na zrozumienie pytania.

Daj użytkownikom czas do namysłu

Kiedy system pyta użytkownika o coś, może być zmuszony do zastanowienia się nad odpowiedzią na to pytanie. Domyślny limit czasu na odpowiedź użytkowników na żądanie wynosi 8-10 sekund. Po upływie tego czasu system powinien powtórzyć żądanie lub ponownie je monitować. Załóżmy na przykład, że użytkownik rezerwuje stolik w restauracji. Przykładowe okno dialogowe może brzmieć tak:

Użytkownik : „Asystencie, chcę iść do restauracji”.

System : „Gdzie chciałbyś pojechać?”

(Brak odpowiedzi przez 8 sekund)

System : „Mogę zarezerwować ci stolik w restauracji. Jaką restaurację chciałbyś odwiedzić?”

Pytaj o więcej informacji, gdy jest to konieczne

Użytkownicy często proszą o coś, ale nie podają wystarczających szczegółów. Na przykład, gdy użytkownicy proszą asystenta głosowego o zarezerwowanie wycieczki, mogą powiedzieć coś w stylu „Asystencie, zarezerwuj wycieczkę na morze”. Użytkownik zakłada, że ​​system je zna i zaoferuje najlepszą możliwą opcję. Gdy system nie ma wystarczających informacji o użyciu, powinien poprosić o więcej informacji, zamiast oferować opcję, która może nie być istotna.

Użytkownik : „Chciałbym zarezerwować wycieczkę nad morze.”

System : „Kiedy chciałbyś jechać?”

Nigdy nie zadawaj pytań retorycznych ani otwartych

Zadając pytania retoryczne lub otwarte, obciążasz użytkowników dużym obciążeniem poznawczym. Zamiast tego zadawaj bezpośrednie pytania. Na przykład zamiast pytać użytkownika „Co chcesz zrobić z zaproszeniem?” powinieneś powiedzieć „Możesz anulować zaproszenie lub przełożyć je. Co na ciebie działa?”

Nie każ ludziom czekać w milczeniu

Kiedy ludzie nie słyszą/nie widzą żadnych informacji zwrotnych z systemu, mogą myśleć, że nie działa. Czasami system potrzebuje więcej czasu, aby wykonać żądanie użytkownika, ale nie oznacza to, że użytkownicy powinni czekać w absolutnej ciszy/bez żadnych wizualnych informacji zwrotnych. Przynajmniej powinieneś zaoferować jakiś sygnał odsłuchowy i sparować go z wizualnym sprzężeniem zwrotnym.

mazon Echo wizualna informacja zwrotna
Wizualna informacja zwrotna Amazon Echo. (Źródło zdjęcia: Tenor)

Minimalizuj wprowadzanie danych użytkownika

Spróbuj zmniejszyć liczbę przypadków, w których użytkownicy muszą podawać numery telefonów, adresy lub hasła alfanumeryczne. Użytkownikom może być trudno określić ciągi liczb lub szczegółowe informacje w systemie głosowym. Dotyczy to zwłaszcza użytkowników z zaburzeniami mowy. Zaoferuj alternatywne metody wprowadzania tego rodzaju informacji, takie jak korzystanie z towarzyszącej aplikacji mobilnej.

Wsparcie Powtórz

Niezależnie od tego, czy użytkownicy korzystają z systemu w hałaśliwym miejscu, czy po prostu mają problemy ze zrozumieniem pytania, powinni móc w dowolnym momencie poprosić system o powtórzenie ostatniego monitu.

Wykrywanie funkcji

Wykrywanie funkcji może stanowić ogromny problem w interfejsach głosowych. W GUI masz ekran, którego możesz użyć do zaprezentowania nowych funkcji, podczas gdy w głosowych interfejsach użytkownika nie masz tej opcji.

Oto dwie techniki, których możesz użyć, aby poprawić wykrywalność:

  • Solidne wdrożenie. Użytkownik po raz pierwszy wymaga wprowadzenia do systemu, aby zrozumieć jego możliwości. Uczyń to praktycznym — pozwól użytkownikom wykonywać niektóre czynności za pomocą poleceń głosowych.
  • Przy pierwszym spotkaniu z konkretną aplikacją głosową warto przedyskutować, co jest możliwe.

Potwierdź prośby użytkownika

Ludzie cieszą się poczuciem uznania. W ten sposób poinformuj użytkownika, że ​​system je słyszy i rozumie. Możliwe jest zdefiniowanie dwóch rodzajów potwierdzeń — niejawnego i jawnego.

Wyraźne potwierdzenia są wymagane w przypadku zadań wysokiego ryzyka, takich jak przelewy pieniężne. Aby kontynuować, te potwierdzenia wymagają słownej zgody użytkownika.

Użytkownik : „Przelej tysiąc dolarów Alicji.”

System : „Chcesz przekazać tysiąc dolarów Alice Young, zgadza się?”

Jednocześnie nie każda akcja wymaga potwierdzenia użytkownika. Na przykład, gdy użytkownik prosi o zatrzymanie odtwarzania muzyki, system powinien zakończyć odtwarzanie bez pytania „Czy chcesz zatrzymać muzykę?”

Łagodnie obsługuj błąd

Prawie niemożliwe jest uniknięcie błędów w interakcjach głosowych. Luźno obsługiwane stany błędów mogą wpływać na wrażenie systemu przez użytkownika. Bez względu na przyczynę błędu ważne jest, aby poradzić sobie z nim z wdziękiem, co oznacza, że ​​użytkownik powinien mieć pozytywne doświadczenia z korzystania z systemu, nawet jeśli napotka błąd.

  • Zminimalizuj liczbę sytuacji „nie rozumiem cię”.
    Unikaj komunikatów o błędach, które tylko stwierdzają, że nie zrozumieli poprawnie użytkownika. Dobrze zaprojektowany przepływ okna dialogowego powinien uwzględniać wszystkie możliwe gałęzie okna dialogowego, w tym gałęzie z nieprawidłowymi danymi wprowadzonymi przez użytkownika.
  • Wprowadź mechanizm napraw kontekstowych.
    Pomóż sytuacji systemowej, gdy podczas mówienia dzieje się coś nieoczekiwanego. Na przykład system rozpoznawania głosu nie słyszał użytkownika z powodu głośnego hałasu w tle.
  • Wyraźnie powiedz, czego system nie może zrobić.
    Gdy użytkownicy napotykają komunikaty o błędach, takie jak „Nie mogę cię zrozumieć”, zaczynają myśleć, czy system nie jest w stanie czegoś zrobić, czy też nieprawidłowo zwerbalizują żądanie. Zaleca się udzielenie wyraźnej odpowiedzi w sytuacjach, gdy system nie może czegoś zrobić. Na przykład „Przepraszam, nie mogę tego zrobić. Ale mogę ci pomóc z [opcja]”.
  • Zaakceptuj poprawki.
    Czasami użytkownicy wprowadzają poprawki, gdy wiedzą, że system popełnił błąd lub gdy zdecydowali się zmienić zdanie. Gdy użytkownicy chcą poprawić swoje dane wejściowe, powiedzą coś w stylu „Nie” lub „Powiedziałem”, a następnie prawidłową wypowiedź.

Przetestuj swoje dialogi

Im szybciej zaczniesz testować przebieg rozmowy, tym lepiej. Najlepiej rozpocząć testowanie i iterację swoich projektów, gdy tylko pojawią się przykładowe okna dialogowe. Zbieranie informacji zwrotnych podczas procesu projektowania ujawnia problemy z użytecznością i umożliwia wczesne naprawienie projektu.

Najlepszym sposobem sprawdzenia, czy twoje okno dialogowe działa, jest odegranie go. Możesz użyć technik takich jak Wizard of Oz , gdzie jedna osoba udaje, że jest systemem, a druga jest użytkownikiem. Gdy tylko zaczniesz ćwiczyć skrypt, zauważysz, czy wypowiadany na głos brzmi dobrze, czy źle.

Pamiętaj, że powinieneś uniemożliwić ludziom dzielenie się niewerbalnymi wskazówkami. Kiedy wchodzimy w interakcję z innymi ludźmi, zazwyczaj używamy języka niewerbalnego (spojrzenie, mowa ciała). Wskazówki niewerbalne są niezwykle cenne przy przekazywaniu informacji, ale niestety systemy VUI nie mogą ich zrozumieć. Podczas testowania dialogów spróbuj posadzić uczestników testu plecami do siebie, aby uniknąć kontaktu wzrokowego.

Kolejna część testów to obserwacja rzeczywistych zachowań użytkowników. Najlepiej byłoby obserwować użytkowników, którzy używają Twojego produktu po raz pierwszy. Pomoże Ci zrozumieć, co działa, a co nie. Testowanie z 5 uczestnikami pomoże Ci ujawnić większość problemów z użytecznością.

2. Projekt wizualny

Ekran odgrywa drugorzędną rolę w interakcjach głosowych. Jednak ważne jest, aby wziąć pod uwagę wizualny aspekt interakcji użytkownika, ponieważ wysokiej jakości wrażenia wizualne zapewniają użytkownikom lepsze wrażenia. Ponadto wizualizacje są dobre w przypadku niektórych konkretnych zadań, takich jak skanowanie i porównywanie wyników wyszukiwania. Ostatecznym celem jest zaprojektowanie bardziej zachwycającego i wciągającego doświadczenia multimodalnego.

Najpierw projekt dla mniejszych ekranów

Podczas dostosowywania treści na różnych ekranach zacznij od najmniejszego rozmiaru ekranu. Pomoże Ci ustalić najważniejsze treści.

Kierując reklamy na urządzenia z większymi ekranami, nie ograniczaj tylko zwiększania zawartości. Postaraj się w pełni wykorzystać dodatkową nieruchomość ekranową. Zwróć uwagę na jakość obrazów i filmów — obrazy nie powinny tracić na jakości w miarę powiększania się.

Zoptymalizuj zawartość do szybkiego skanowania

Jak wspomniano wcześniej, ekrany są bardzo przydatne w przypadkach, gdy trzeba podać kilka opcji do porównania. Spośród wszystkich pojemników z zawartością, których możesz użyć, karty najlepiej sprawdzają się przy szybkim skanowaniu. Gdy musisz podać listę opcji do wyboru, możesz umieścić każdą opcję na karcie.

Nest Hub używa kart
Nest Hub używa kart jako pojemników na zawartość. (Źródło obrazu: Google) (duży podgląd)

Projekt z myślą o określonej odległości oglądania

Zaprojektuj treść tak, aby można ją było oglądać z daleka. Zasięg widzenia urządzeń głosowych z małym ekranem powinien wynosić od 1 do 2 metrów, podczas gdy w przypadku dużych ekranów, takich jak telewizory, powinien wynosić 3 metry. Musisz upewnić się, że rozmiar czcionki oraz rozmiar obrazów i elementów interfejsu użytkownika, które będą wyświetlane na ekranie, są wygodne dla użytkowników.

Google zaleca używanie minimalnego rozmiaru czcionki 32 pt dla tekstu podstawowego, takiego jak tytuły i minimum 24 pt dla tekstu dodatkowego, takiego jak opisy lub akapity tekstu.

Na zdjęciu Echo Show stoi na kuchennym stole obok deski do krojenia, na której leży trochę jedzenia.
Typowy kontekst użycia dla Echo Show, urządzenia Amazon Voice-first. (Źródło zdjęcia: Amazon) (duży podgląd)

Poznaj oczekiwania użytkowników dotyczące konkretnego urządzenia

Urządzenia obsługujące głos mogą mieć różne rozmiary, od w samochodzie po urządzenia telewizyjne. Każdy tryb urządzenia ma swój własny kontekst użytkowania i zestaw oczekiwań użytkownika. Na przykład koncentratory domowe są zwykle używane do muzyki, komunikacji i rozrywki, podczas gdy systemy samochodowe są zwykle używane do celów nawigacji.

Dalsza lektura : Projektowanie interfejsów człowiek-maszyna dla pojazdów przyszłości

Hierarchia informacji na ekranach

Kiedy projektujemy strony internetowe, zwykle zaczynamy od struktury strony. Podobne podejście należy zastosować przy projektowaniu VUI — zdecyduj, gdzie powinien znajdować się każdy element. Hierarchia informacji powinna przebiegać od najbardziej do najmniej ważnej. Postaraj się zminimalizować informacje wyświetlane na ekranie — tylko informacje wymagane, które pomagają użytkownikom robić to, co chcą.

Przejrzysta wizualna hierarchia informacji na Portalu, pierwsze urządzenie głosowe firmy Sber.
Przejrzysta wizualna hierarchia informacji na Portalu, pierwsze urządzenie głosowe firmy Sber. (Źródło zdjęcia: Sber) (duży podgląd)

Zachowaj synchronizację obrazu i głosu

Nie powinno być znaczącego opóźnienia między elementami głosowymi a wizualnymi. Interfejs graficzny powinien być naprawdę responsywny — zaraz po tym, jak użytkownik usłyszy komunikat głosowy; interfejs powinien zostać odświeżony odpowiednimi informacjami.

Język ruchu odgrywa znaczącą rolę w rozumieniu informacji przez użytkowników. Niezbędne jest unikanie ostrych cięć i stosowanie płynnych przejść między poszczególnymi stanami. Kiedy użytkownicy mówią, powinniśmy również zapewnić wizualną informację zwrotną, która potwierdza, że ​​system słucha użytkownika.

Przejrzysta hierarchia informacji menedżera plików głosowych. (Źródło wideo: Gleb Kuzniecow)

Przystępny projekt

Dobrze zaprojektowany produkt jest inkluzywny i powszechnie dostępny. Użytkownicy z upośledzeniem wzroku (osoby niepełnosprawne, takie jak niewidomi, słabowidzący i ślepota barw) nie powinni mieć żadnych problemów z interakcją z Twoim produktem. Aby Twój projekt był dostępny, postępuj zgodnie z wytycznymi WCAG.

  • Upewnij się, że tekst na ekranie jest czytelny. Upewnij się, że Twój tekst ma wystarczająco wysoki współczynnik kontrastu. Kolor i kontrast tekstu spełniają współczynniki AAA.
  • Użytkownicy korzystający z czytników ekranu powinni rozumieć, co jest wyświetlane na ekranach. Dodaj opisy do zdjęć.
  • Nie projektuj elementów ekranu, które migoczą, migają lub migają. Ogólnie rzecz biorąc, wszystko, co miga więcej niż trzy błyski na sekundę, może powodować bóle głowy związane z chorobą lokomocyjną.

Podobna lektura : Jak użytkownik czytnika ekranu uzyskuje dostęp do sieci?

Wniosek

Jesteśmy u progu kolejnej rewolucji cyfrowej. Nowa generacja komputerów da użytkownikom wyjątkową możliwość interakcji z głosem. Ale fundament dla tego pokolenia jest tworzony dzisiaj. To od projektantów zależy opracowanie systemów, które będą naturalne dla użytkowników.

Zalecane pokrewne lektury

  • „Alexa Design Guide”, dokumentacja programisty Amazon
  • „Proces projektowania rozmowy”, Dokumenty Asystenta Google
  • „Projektowanie głosowych interfejsów użytkownika: zasady prowadzenia konwersacji”, Cathy Pearl (2017)
  • „Stosowanie wbudowanych technik konwersacji w interfejsie głosowym” James Giangola (wideo)
  • „Tworzenie persony: jak brzmi Twój produkt? ”, Wally Brill (wideo)
  • „Zasady głosowe”, zbiór zasobów stworzonych przez Clearleft.