Designing The Invisible: 3 lucruri pe care le-am învățat proiectând pentru voce

Publicat: 2022-03-10

Rezumat rapid ↬ Există oameni de pe tot globul care nu pot îndeplini cu ușurință sarcinile de zi cu zi pentru ei înșiși. Din fericire, dezvoltatorii și designerii pot ajuta prin experimentarea cu tehnologia vocală, care le dă putere să îndeplinească sarcini pe care alții le pot considera de la sine înțelese.

Actuala iterație a asistenților digitali controlați prin voce încă se luptă să se integreze la fel de perfect pe cât s-ar spera cei trei mari jucători de voce Amazon, Google și Apple. Un raport din 2017 al Voicelabs afirmă că există doar 3 la sută șanse ca un utilizator să fie activ în a doua săptămână după descărcarea unei aplicații vocale și 62 la sută din abilitățile Alexa trebuie încă să obțină orice fel de evaluare pe magazinul său (din septembrie 2017).

În calitate de designeri, avem o oportunitate reală de a oferi un sens valoros acestor asistenți, dar încă încercăm să descoperim unde tehnologia poate adăuga beneficii reale pentru utilizator. Pentru mulți, lansarea într-un proiect de interfață vocală (VUI) poate fi un pic ca a intra în Necunoscut . Există puține povești de succes pentru designeri sau ingineri din care să se inspire, mai ales în contexte care ilustrează modul în care această tehnologie în curs de dezvoltare ar putea ajuta oamenii să prospere în moduri noi.

Experimentarea cu `speechSynthesis`

API-ul Web Speech vă oferă posibilitatea de a vă activa site-ul web în două direcții: ascultați utilizatorii prin interfața SpeechRecognition și vorbindu-le prin interfața speechSynthesis . Toate acestea se realizează printr-un API JavaScript, ceea ce facilitează testarea asistenței. Citiți un articol înrudit →

Ca parte a seriei documentare Big Life Fix de la BBC2, în care echipele de inventatori creează soluții noi și care schimbă viața pentru persoanele aflate în nevoie, am avut ocazia să testez și să construiesc un asistent controlat prin voce pentru o femeie pe nume Susan. Susan trăiește cu o formă progresivă de scleroză multiplă de peste 20 de ani și acum nu își poate îndeplini sarcinile de zi cu zi cu ușurință. Cu îngrijitori cu normă întreagă, se bazează pe ceilalți să o spele și să o îmbrace și nu are nici măcar capacitatea de a schimba canalul de la televizor fără ajutor.

În timp ce tehnologia vocală părea că ar oferi calea cea mai simplă pentru a depăși dificultățile fizice ale lui Susan, Susan nu a folosit niciodată un smartphone, așa că să o propulsăm direct într-o interacțiune cu un asistent vocal nu va fi niciodată ușor - a trebuit să gândim inteligent pentru a o ajuta. învață să comunici cu o tehnologie incredibil de extraterestră.

Mai multe după săritură! Continuați să citiți mai jos ↓

Rezultatul pentru Susan este un asistent controlat prin voce extrem de personalizat, care îi dă acum puterea să îndeplinească sarcinile de zi cu zi cu libertatea pe care ceilalți o consideră de la sine înțeles – de la a efectua un apel telefonic către familie, până la a asculta muzică. Construit ca o versiune îmbunătățită a tehnologiei Amazon Alexa pe dispozitivul lor Echo Dot, asistentul vocal al lui Susan a implicat și personalizare fizică, deoarece am imprimat 3D o carcasă în forma animalului ei preferat, o bufniță.

Pe măsură ce am experimentat și repetat rapid o soluție pentru Susan, echipa mea și cu mine am descoperit zeci de complexități care vin cu proiectarea pentru voce într-un mod mai incluziv și mai accesibil. Deși a fost un proiect unic, au existat trei concluzii cheie care sunt aplicabile oricărui proiect VUI.

1. Faceți-l personal

Tehnologia funcționează. Nu este doar o chestiune de a sta pe spate și de a aștepta ca puterea de calcul să crească în conformitate cu așteptările utilizatorilor. Am găsit că detectarea, recunoașterea și sinteza vocii ale fiecăruia dintre dispozitive sunt mult mai puternice decât ne-am anticipat. Și nu este ca și cum ar fi o lipsă de alegere. Există peste 30.000 de abilități Alexa pe Amazon, cu o medie de 50 de abilități noi publicate zilnic. Abilitățile sunt capabilități specifice care le permit designerilor și dezvoltatorilor să creeze o experiență vocală mai personalizată atunci când folosesc dispozitive precum Amazon Echo Dot. Acestea funcționează la fel ca o aplicație din magazinul de aplicații de pe smartphone-ul dvs., permițându-vă să vă personalizați asistentul vocal așa cum doriți .

Cu toate acestea, în prezent există o barieră mare în calea accesului. Abilitățile trebuie adăugate prin intermediul aplicației, mai degrabă decât prin intermediul dispozitivului, deseori anulând beneficiile unui VUI și întrerupând fluxul conversațional (să nu mai vorbim de excluderea celor care nu pot/nu vor folosi un smartphone). Acest lucru face ca procesul să se simtă stângaci și dezarticulat în cel mai bun caz, izolând complet în cel mai rău caz. Chiar și odată ce o abilitate este instalată, nicio vizibilitate a abilității și un interval de timp restrâns pentru interacțiune duc la o lipsă de încredere și anxietate; poate face ce vreau eu? Cum vorbesc cu ea? M-a auzit? Deci, cum construiți acea conexiune și încredere?

Pentru Susan, a însemnat eliminarea lucrurilor inutile și prezentarea unei selecții curate de funcționalități de bază. Personalizând conținutul la comportamentele și cerințele unice, am prezentat claritatea atât de necesară și o experiență mai semnificativă. Susan a vrut să îndeplinească sarcini cheie: să răspundă la telefon, să efectueze un apel, să schimbe canalul TV, să redă muzică și așa mai departe. Înțelegând-o pe ea și nevoile ei, am creat un asistent care sa simțit întotdeauna relevant și util . Acesta a fost un proces destul de manual, dar există o oportunitate uriașă pentru învățarea automată și AI aici. Dacă fiecare asistent vocal ar putea oferi un element de personalizare, ar putea face ca experiența să se simtă mai relevantă pentru toată lumea.

Pe măsură ce proiectam pentru o singură persoană, am putea adapta cu ușurință elementele fizice ale produsului pentru Susan. Aceasta a însemnat proiectarea – apoi imprimarea 3D – a unui difuzor de lumină în formă de bufniță (animalul ei preferat și ceva cu o semnificație semnificativă pentru ea). Bufnița a acționat ca o manifestare vizuală a tehnologiei și i-a oferit ceva cu care să vorbească și spre care să proiecteze. Ghidul ei a fost cel care ia dat acces la acele abilități pe care și le dorea, cum ar fi ascultarea muzicii. Deoarece era personal pentru ea, a făcut ca tehnologia potențial extraterestră și intimidantă să se simtă mult mai accesibilă și familiară .

Tehnologia de umanizare o ajută să o facă mai accesibilă: bufnița personalizată a lui Susan strălucește ca răspuns la vocea ei, anunțându-i că este auzită și înțeleasă. — Tehnologia de umanizare o ajută să o facă mai accesibilă: bufnița personalizată a lui Susan strălucește ca răspuns la vocea ei, făcând-o să știe că este auzită și înțeleasă. (Previzualizare mare)

Deși o carcasă imprimată 3D complet personalizată nu este o opțiune pentru fiecare proiect VUI, există o oportunitate de a crea un dispozitiv mai relevant cu care oamenii să comunice, mai ales dacă nevoile lor sau utilizarea asistenților la domiciliu este destul de specifică. De exemplu, ați putea vorbi cu o lumină activată vocal despre iluminatul casei dvs. și cu un frigider despre alimentele dvs.

2. Gândiți-vă la Affordanțe audio

În prezent, utilizatorul face toate sarcinile grele. Cu un model mental ascuns și fără ținere de mână din partea tehnologiei, suntem forțați să ne imaginăm punctul final dorit și să lucrăm înapoi prin comenzile necesare. Lăsând deoparte cele mai simple sarcini (setați un cronometru pentru 5 minute, jucați Abba pe Spotify etc.), este incredibil de greu de făcut, mai ales dacă suferiți de „momente de ceață”, ceva ce ne-a explicat Susan - dificultate în a găsi cuvintele potrivite.

Când Apple a folosit în mod faimos elemente vizuale skeuomorfe pentru aplicațiile lor timpurii pentru iPhone, utilizatorul a câștigat puncte de referință valoroase și familiare, care i-au permis utilizarea și metoda de interacțiune. Numai odată ce modelul mental a devenit mai bine stabilit, ei au avut libertatea de a se îndepărta de această reprezentare literală, în interfața lor plată actuală.

Când ne-am proiectat VUI, am decis să ne bazăm pe sistemul de meniuri bine stabilit, văzut în navigarea digitală și web. Este un instrument familiar care necesită mai puține procesări cognitive din partea utilizatorului și ne-a permis să încorporăm metode de găsire a căii care nu au avut ca rezultat să pornim de la început dacă lucrurile au mers prost.

Ca exemplu, Susan a găsit verbalizarea a ceea ce își dorește, în intervalul de timp oferit de actualii asistenți digitali, o experiență stresantă și adesea neplăcută; adesea agravat de un mesaj de eroare de la dispozitiv la sfârșitul acestuia. În loc să ne așteptăm să dea o comandă explicită, cum ar fi „Alexa, joacă Abba din lista mea de redare Spotify”, am decis să creăm un instrument de meniu ghidat care ar putea-o ajuta să înceapă încet și să devină din ce în ce mai precis despre ceea ce dorea să facă Alexa.

Bufnița lui Susan îi solicită acum o listă de opțiuni, cum ar fi „Reda muzică” sau „Uită-te la ceva”. Dacă alege muzica, aceasta devine mai specifică pe măsură ce trece prin fiecare poartă de decizie, pentru a descoperi genul pe care are chef să îl asculte; în cazul lui Abba, ea ar selecta „muzică anilor 60”. Acest lucru îi permite lui Susan să navigheze la rezultatul dorit mult mai ușor și într-un ritm care i se potrivește. În tot acest timp, bufnița strălucea și răspundea la vocea ei, anunțând-o că era auzită și înțeleasă.

Asistentul vocal al lui Susan îi dă înapoi o parte din independența pe care și-a pierdut-o din cauza condiției sale, de la împuternicirea ei până la efectuarea unui apel telefonic cu familia sau pur și simplu ascultând muzică. — Asistenta vocală a lui Susan îi dă înapoi o parte din independența pe care și-a pierdut-o din cauza condiției sale, de la împuternicirea ei până la efectuarea unui apel telefonic cu familia sau pur și simplu ascultând muzică. (Previzualizare mare)

3. Există mai mult la VUI decât la voce

Componentele non-lexicale ale comunicării verbale conferă o mare semnificație unei conversații. Unele pot fi replicate de vocea sintetizată (intonația, înălțimea și viteza de vorbire, zgomote de ezitare, pentru a numi câteva), dar multe nu pot (cum ar fi gestul și expresia facială). Elementele tangibile ale produsului trebuie să înlocuiască aceste indicii vizuale tradiționale pentru interacțiune, pentru ca acesta să se simtă chiar și ușor natural. Dar este mai mult decât atât.

În primul rând, atunci când cineva interacționează cu un produs conceput pentru a reproduce comportamentele umane, componentele vizuale sunt interpretate de noțiunile preconcepute ale utilizatorului despre lume (atât inerente, cât și învățate) și afectează răspunsurile emoționale ale acestuia. Dacă ceva pare impunător și rece, este mult mai puțin probabil să inițiezi o conversație decât cu ceva care arată drăguț și drăgălaș.

În cazul nostru, deoarece tehnologia era atât de străină utilizatorului, trebuia să o facem să pară cât mai familiară și primitoare posibil - o bufniță. Procedând astfel, am sperat să înlăturăm sentimentele de anxietate și frustrare pe care le-am experimentat cu alte produse. De asemenea, am amplificat partea vizuală a acesteia - există o culoare pentru o stare inactivă - o strălucire blândă, aproape ca respirația, dar când Susan spune cuvintele de trezire, lumina se schimbă în trează și ascultă.

Puteți merge mai departe. Apple, de exemplu, are un afișaj color pe Homepod-ul lor, care oferă un nivel mai ridicat de nuanță interacțiunii și vizualizării lor. Adăugarea unei experiențe vizuale poate suna contraintuitiv, dar vizualizările pot fi foarte utile pentru utilizator.

Concluzie

Deși aplicate la un caz de utilizare individual, aceste învățări de nivel superior pot ajuta orice proiect care speră să folosească beneficiile inerente pe care le oferă vocea. Personalizarea conținutului (acolo unde este posibil) oferă o claritate atât de necesară, iar un sistem de navigare logic și relatabil reduce sarcina cognitivă. În sfârșit, nu subestimați importanța componentelor vizuale ; când sunt făcute bine, nu numai că oferă indicii fundamentale de conversație, ci dau tonul pentru întreaga interacțiune.

Pentru cei care doresc să experimenteze cu vocea, Amazon prezintă acum zeci de mii de abilități de la companii precum Starbucks și Uber, precum și cele create de alți designeri și dezvoltatori inovatori. Alexa Skills Kit (ASK) este o colecție de API-uri, instrumente, documentație și eșantioane de cod cu autoservire care vă ajută să adăugați abilități la Alexa și să începeți să vă creați propriile soluții. Te întrebi dacă vocea are sens? Iată câteva considerații înainte de a începe.