O interfață de utilizare vocală alternativă la asistenții vocali

Publicat: 2022-03-10

Rezumat rapid ↬ Asistenții vocali sunt în prezent cel mai popular caz de utilizare pentru interfețele cu utilizatorul vocal. Cu toate acestea, deoarece asistenții vocali oferă feedback vorbind cu utilizatorul, asistenții pot rezolva doar sarcini simple ale utilizatorului, cum ar fi setarea unei alarme sau redarea muzicii. Pentru ca interfețele vocale cu utilizatorul să ajungă cu adevărat, feedback-ul către utilizator trebuie să fie vizual și nu auditiv.

Pentru majoritatea oamenilor, primul lucru care vine în minte atunci când ne gândim la interfețele de utilizator vocale sunt asistenții vocali, precum Siri, Amazon Alexa sau Google Assistant. De fapt, asistenții sunt singurul context în care majoritatea oamenilor au folosit vreodată vocea pentru a interacționa cu un sistem informatic.

În timp ce asistenții vocali au adus interfețele vocale cu utilizatorul în mod curent, paradigma asistentului nu este singura și nici măcar cea mai bună modalitate de a utiliza, proiecta și crea interfețe de utilizator vocale.

În acest articol, voi trece prin problemele de care suferă asistenții vocali și voi prezenta o nouă abordare pentru interfețele de utilizator vocale pe care le numesc interacțiuni vocale directe.

Asistenții vocali sunt chatbot-uri bazate pe voce

Un asistent vocal este un program care folosește limbajul natural în loc de pictograme și meniuri ca interfață cu utilizatorul. De obicei, asistenții răspund la întrebări și adesea încearcă să ajute utilizatorul în mod proactiv.

În loc de tranzacții și comenzi simple, asistenții imită o conversație umană și folosesc limbajul natural în mod bidirecțional ca modalitate de interacțiune, ceea ce înseamnă că primește atât input de la utilizator, cât și răspunsuri utilizatorului folosind limbajul natural.

Primii asistenți au fost sisteme de întrebări și răspunsuri bazate pe dialog. Un exemplu timpuriu este Clippy de la Microsoft, care a încercat în mod infamă să ajute utilizatorii Microsoft Office dându-le instrucțiuni bazate pe ceea ce credea că încearcă să realizeze utilizatorul. În zilele noastre, un caz tipic de utilizare pentru paradigma asistentului sunt chatboții, adesea folosiți pentru asistența clienților într-o discuție pe chat.

Asistenții vocali, pe de altă parte, sunt chatbot care folosesc vocea în loc să tasteze și să scrie text . Intrarea utilizatorului nu este selecții sau text, ci vorbire și răspunsul din partea sistemului este rostit și cu voce tare. Acești asistenți pot fi asistenți generali precum Google Assistant sau Alexa care pot răspunde la o multitudine de întrebări într-un mod rezonabil sau asistenți personalizați care sunt construiți pentru un scop special, cum ar fi comandarea fast-food.

Deși de multe ori intrarea utilizatorului este doar un cuvânt sau două și poate fi prezentată ca selecții în loc de text real, pe măsură ce tehnologia evoluează, conversațiile vor fi mai deschise și mai complexe . Prima caracteristică definitorie a chatbot-urilor și a asistenților este utilizarea unui limbaj natural și a stilului conversațional în locul pictogramelor, meniurilor și stilului tranzacțional care definește o aplicație mobilă tipică sau o experiență de utilizare a site-ului web.

Lectură recomandată : Construirea unui chatbot AI simplu cu API Web Speech și Node.js

A doua caracteristică definitorie care derivă din răspunsurile limbajului natural este iluzia unei persoane. Tonul, calitatea și limbajul pe care sistemul le folosește definesc atât experiența asistentului, iluzia empatiei și susceptibilitatea față de serviciu, cât și personalitatea acestuia. Ideea unei experiențe bune de asistent este ca și cum ai fi angajat cu o persoană reală .

Deoarece vocea este modalitatea cea mai naturală pentru noi de a comunica, acest lucru ar putea părea grozav, dar există două probleme majore cu utilizarea răspunsurilor în limbaj natural. Una dintre aceste probleme, legată de cât de bine pot imita computerele oamenii, ar putea fi rezolvată în viitor odată cu dezvoltarea tehnologiilor AI conversaționale , dar problema modului în care creierul uman gestionează informațiile este o problemă umană, care nu poate fi rezolvată în viitorul apropiat. Să ne uităm în continuare la aceste probleme.

Două probleme cu răspunsurile limbajului natural

Interfețele de utilizator vocale sunt desigur interfețe de utilizator care folosesc vocea ca modalitate. Dar modalitatea vocală poate fi folosită pentru ambele direcții: pentru introducerea informațiilor de la utilizator și pentru transmiterea informațiilor din sistem înapoi către utilizator. De exemplu, unele lifturi folosesc sinteza vorbirii pentru a confirma selecția utilizatorului după ce utilizatorul apasă un buton. Vom discuta mai târziu despre interfețele de utilizator vocale care folosesc doar vocea pentru introducerea informațiilor și folosesc interfețe grafice tradiționale pentru a afișa informațiile înapoi utilizatorului.

Asistenții vocali, pe de altă parte, folosesc vocea atât pentru intrare, cât și pentru ieșire . Această abordare are două probleme principale:

Problema #1: Imitația unui om eșuează

Ca oameni, avem o înclinație înnăscută de a atribui trăsături asemănătoare omului obiectelor non-umane. Vedem trăsăturile unui bărbat într-un nor plutind pe lângă sau ne uităm la un sandviș și ni se pare că ne rânjește. Acest lucru se numește antropomorfism .

Antropomorfism: vezi o față aici? (Foto: Wikimedia Creative Commons) (Previzualizare mare)

Acest fenomen se aplică și asistenților și este declanșat de răspunsurile lor în limbaj natural. În timp ce o interfață grafică de utilizator poate fi construită oarecum neutră, nu există nicio posibilitate ca un om să nu înceapă să se gândească dacă vocea cuiva aparține unei persoane tinere sau bătrâne sau dacă este bărbat sau femeie. Din această cauză, utilizatorul aproape începe să creadă că asistentul este într-adevăr un om.

Mai multe după săritură! Continuați să citiți mai jos ↓

Cu toate acestea, noi, oamenii, suntem foarte buni la detectarea falsurilor . În mod ciudat, cu cât ceva se aseamănă mai mult cu un om, cu atât micile abateri încep să ne tulbure. Există un sentiment de înfricoșare față de ceva care încearcă să fie asemănător unui om, dar care nu se ridică la înălțime. În robotică și animații pe computer, aceasta este denumită „valea neobișnuită”.

Valea misterioasă înfiorătoare în robotica umană. (Foto: Wikimedia Creative Commons) (Previzualizare mare)

Cu cât încercăm să facem asistentul mai bun și mai uman, cu atât mai înfiorătoare și dezamăgitoare poate fi experiența utilizatorului atunci când ceva nu merge bine. Toți cei care au încercat asistenți s-au împiedicat probabil de problema de a răspunde cu ceva care se simte idiot sau chiar nepoliticos.

Valea neobișnuită a asistenților vocali pune o problemă de calitate a experienței utilizatorului asistent, care este greu de depășit. De fapt, testul Turing (numit după celebrul matematician Alan Turing) este trecut atunci când un evaluator uman care prezintă o conversație între doi agenți nu poate face distincția între care dintre ei este o mașină și care este un om. Până acum, nu a fost trecut niciodată.

Aceasta înseamnă că paradigma asistentului stabilește o promisiune a unei experiențe de serviciu asemănătoare unui om, care nu poate fi niciodată îndeplinită, iar utilizatorul este obligat să fie dezamăgit. Experiențele de succes nu fac decât să creeze eventuala dezamăgire, deoarece utilizatorul începe să aibă încredere în asistentul lor asemănător uman.

Problema 2: Interacțiuni secvențiale și lente

A doua problemă a asistenților vocali este că natura pe rând a răspunsurilor în limbaj natural provoacă întârzieri în interacțiune. Acest lucru se datorează modului în care creierul nostru procesează informații.

Procesarea informațiilor în creier. (Credit: Wikimedia Creative Commons) (Previzualizare mare)

Există două tipuri de sisteme de procesare a datelor în creierul nostru:

Un sistem lingvistic care procesează vorbirea;
Un sistem vizual și spațial specializat în procesarea informațiilor vizuale și spațiale.

Aceste două sisteme pot funcționa în paralel, dar ambele sisteme procesează un singur lucru la un moment dat . Acesta este motivul pentru care puteți vorbi și conduce o mașină în același timp, dar nu puteți trimite mesaje text și conduce, deoarece ambele activități s-ar întâmpla în sistemul vizuo-spațial.

Persoanele de conversație vorbesc pe rând, dar se pot oferi unii altora indicii vizuale pentru a ajuta comunicarea. (Foto: Trung Thanh) (Previzualizare mare)

În mod similar, atunci când vorbiți cu asistentul vocal, acesta trebuie să rămână tăcut și invers. Acest lucru creează o conversație pe rând , în care cealaltă parte este întotdeauna complet pasivă.

Totuși, luați în considerare un subiect dificil pe care doriți să îl discutați cu prietenul dvs. Probabil ai discuta față în față mai degrabă decât la telefon, nu? Asta pentru că, într-o conversație față în față, folosim comunicarea non-verbală pentru a oferi feedback vizual în timp real partenerului nostru de conversație. Acest lucru creează o buclă de schimb de informații bidirecțională și permite ambelor părți să fie implicate activ în conversație simultan.

Asistenții nu oferă feedback vizual în timp real. Ei se bazează pe o tehnologie numită end-pointing pentru a decide când utilizatorul a încetat să mai vorbească și răspunde numai după aceea. Și când răspund, nu primesc nicio contribuție de la utilizator în același timp. Experiența este complet unidirecțională și pe ture.

Într -o conversație față în față bidirecțională și în timp real, ambele părți pot reacționa imediat la semnalele vizuale și lingvistice. Aceasta utilizează diferitele sisteme de procesare a informațiilor din creierul uman și conversația devine mai fluidă și mai eficientă.

Asistenții vocali sunt blocați în modul unidirecțional deoarece folosesc limbajul natural atât ca canale de intrare, cât și ca canale de ieșire. În timp ce vocea este de până la patru ori mai rapidă decât tastarea pentru intrare, este semnificativ mai lent de digerat decât de citit. Deoarece informațiile trebuie procesate secvențial , această abordare funcționează bine doar pentru comenzi simple, cum ar fi „stinge luminile”, care nu necesită multă ieșire din partea asistentului.

Mai devreme, am promis că voi discuta despre interfețele de utilizator vocale care folosesc voce doar pentru introducerea datelor de la utilizator. Acest tip de interfețe cu utilizatorul vocal beneficiază de cele mai bune părți ale interfețelor cu utilizatorul vocal - naturalețe, viteză și ușurință în utilizare - dar nu suferă de părțile rele - valea nemaipomenită și interacțiunile secvențiale

Să luăm în considerare această alternativă.

O alternativă mai bună la asistentul vocal

Soluția pentru a depăși aceste probleme în asistenții vocali este renunțarea la răspunsurile în limbaj natural și înlocuirea acestora cu feedback vizual în timp real. Trecerea feedback-ului la vizual va permite utilizatorului să ofere și să primească feedback simultan. Acest lucru va permite aplicației să reacționeze fără a întrerupe utilizatorul și va permite un flux de informații bidirecțional. Deoarece fluxul de informații este bidirecțional, debitul său este mai mare.

În prezent, cele mai importante cazuri de utilizare pentru asistenții vocali sunt setarea alarmelor, redarea muzicii, verificarea vremii și adresarea întrebărilor simple. Toate acestea sunt sarcini cu mize mici, care nu frustrează prea mult utilizatorul atunci când eșuează.

După cum a scris odată David Pierce de la Wall Street Journal :

„Nu îmi pot imagina să rezerv un zbor sau să-mi gestionez bugetul printr-un asistent vocal sau să-mi urmăresc dieta strigând ingrediente la difuzor.”

— David Pierce de la Wall Street Journal

Acestea sunt sarcini grele de informații care trebuie să meargă corect.

Cu toate acestea, în cele din urmă, interfața vocală cu utilizatorul va eșua. Cheia este să acoperiți acest lucru cât mai repede posibil. O mulțime de erori apar atunci când tastați pe o tastatură sau chiar într-o conversație față în față. Cu toate acestea, acest lucru nu este deloc frustrant, deoarece utilizatorul își poate recupera pur și simplu făcând clic pe backspace și încercând din nou sau cerând clarificări.

Această recuperare rapidă din erori îi permite utilizatorului să fie mai eficient și nu-l forțează să intre într-o conversație ciudată cu un asistent.

Rezervarea biletelor de avion folosind vocea.

Interacțiuni vocale directe

În majoritatea aplicațiilor, acțiunile sunt efectuate prin manipularea elementelor grafice de pe ecran, prin împingerea sau glisarea (pe ecranele tactile), făcând clic pe un mouse și/sau apăsând butoanele de pe o tastatură. Intrarea vocală poate fi adăugată ca o opțiune sau o modalitate suplimentară pentru manipularea acestor elemente grafice. Acest tip de interacțiune poate fi numit interacțiune vocală directă .

Diferența dintre interacțiunile vocale directe și asistenți este că, în loc să ceară unui avatar, asistentul, să execute o sarcină, utilizatorul manipulează direct interfața grafică cu utilizatorul cu vocea.

Căutarea vocală oferă feedback vizual în timp real pe măsură ce utilizatorul vorbește. (Credit: captură de ecran) (Previzualizare mare)

„Asta nu este semantică?”, ați putea întreba. Dacă ai de gând să vorbești cu computerul, chiar contează dacă vorbești direct cu computerul sau printr-o persoană virtuală? În ambele cazuri, doar vorbești cu un computer!

Da, diferența este subtilă, dar critică. Când faceți clic pe un buton sau pe un element de meniu într-o interfață GUI ( G rahical User I nterface) este evident că operam o mașină. Nu există iluzia unei persoane. Înlocuind acel clic cu o comandă vocală, îmbunătățim interacțiunea om-calculator. Cu paradigma asistent, pe de altă parte, creăm o versiune deteriorată a interacțiunii om la om și, prin urmare, călătorim în valea neobișnuită.

Combinarea funcționalităților vocale în interfața grafică cu utilizatorul oferă, de asemenea, potențialul de a valorifica puterea diferitelor modalități. În timp ce utilizatorul poate folosi vocea pentru a opera aplicația, ei au capacitatea de a utiliza și interfața grafică tradițională. Acest lucru permite utilizatorului să comute între atingere și voce fără probleme și să aleagă cea mai bună opțiune în funcție de contextul și sarcina sa.

De exemplu, vocea este o metodă foarte eficientă de introducere a informațiilor bogate. Selectarea dintre câteva alternative valide, atingere sau clic este probabil mai bine. Utilizatorul poate înlocui apoi tastarea și navigarea spunând ceva de genul „Arătați-mi zboruri de la Londra la New York cu plecare mâine” și să selecteze cea mai bună opțiune din listă folosind atingerea.

Acum s-ar putea să întrebați „OK, asta arată grozav, așa că de ce nu am văzut până acum exemple de astfel de interfețe vocale cu utilizatorul? De ce marile companii de tehnologie nu creează instrumente pentru așa ceva?” Ei bine, probabil că există multe motive pentru asta. Un motiv este că paradigma actuală a asistentului vocal este probabil cea mai bună modalitate prin care aceștia pot profita de datele pe care le primesc de la utilizatorii finali. Un alt motiv are de-a face cu modul în care este construită tehnologia lor vocală.

O interfață vocală de utilizator care funcționează bine necesită două părți distincte:

Recunoașterea vorbirii care transformă vorbirea în text;
Componentele de înțelegere a limbajului natural care extrag sensul din acel text.

A doua parte este magia care transformă pronunțările „Opriți luminile din camera de zi” și „Vă rugăm să stingeți luminile din camera de zi” în aceeași acțiune.

Lectură recomandată : Cum să vă construiți propria acțiune pentru Google Home folosind API.AI

Dacă ați folosit vreodată un asistent cu un afișaj (cum ar fi Siri sau Asistentul Google), probabil ați observat că obțineți transcrierea aproape în timp real, dar după ce ați încetat să vorbiți, este nevoie de câteva secunde înainte ca sistemul. realizează de fapt acțiunea pe care ați solicitat-o. Acest lucru se datorează atât recunoașterii vorbirii, cât și înțelegerii limbajului natural care au loc secvenţial.

Să vedem cum ar putea fi schimbat.

Înțelegerea limbajului vorbit în timp real: sosul secret pentru comenzi vocale mai eficiente

Cât de rapid reacționează o aplicație la intrarea utilizatorului este un factor major în experiența generală a utilizatorului a aplicației. Cea mai importantă inovație a iPhone-ului original a fost ecranul tactil extrem de receptiv și reactiv. Capacitatea unei interfețe vocale cu utilizatorul de a reacționa instantaneu la intrarea vocală este la fel de importantă.

Pentru a stabili o buclă rapidă de schimb de informații bidirecționale între utilizator și UI, GUI-ul cu voce activată ar trebui să poată reacționa instantaneu - chiar și la mijlocul propoziției - ori de câte ori utilizatorul spune ceva acționabil. Acest lucru necesită o tehnică numită streaming înțelegere a limbii vorbite .

Feedback-ul vizual în timp real necesită un API vocal complet de streaming care poate returna nu numai transcrierea, ci și intenția și entitățile utilizatorului în timp real. (Credit: autor) (Previzualizare mare)

Spre deosebire de sistemele tradiționale de asistență vocală pe rând, care așteaptă ca utilizatorul să se oprească din vorbit înainte de a procesa cererea utilizatorului, sistemele care folosesc înțelegerea limbajului vorbit în flux încearcă în mod activ să înțeleagă intenția utilizatorului din momentul în care utilizatorul începe să vorbească. De îndată ce utilizatorul spune ceva ce poate fi acționat, interfața de utilizare reacționează instantaneu la asta.

Răspunsul instantaneu validează imediat faptul că sistemul înțelege utilizatorul și îl încurajează pe utilizator să continue. Este analog cu un încuviințare din cap sau un scurt „a-ha” în comunicarea de la om la om. Acest lucru are ca rezultat susținerea unor enunțuri mai lungi și mai complexe. Respectiv, dacă sistemul nu înțelege utilizatorul sau utilizatorul vorbește greșit, feedback-ul instantaneu permite o recuperare rapidă . Utilizatorul se poate corecta și continua imediat, sau chiar se poate corecta verbal: „Vreau asta, nu, am vrut să spun, vreau asta.” Puteți încerca singur acest tip de aplicație în demonstrația noastră de căutare vocală.

După cum puteți vedea în demonstrație, feedback-ul vizual în timp real permite utilizatorului să se corecteze în mod natural și îl încurajează să continue cu experiența vocală. Deoarece nu sunt confundați de o persoană virtuală, se pot raporta la posibile erori într-un mod similar cu greșelile de scriere - nu ca insulte personale. Experiența este mai rapidă și mai naturală deoarece informațiile furnizate utilizatorului nu sunt limitate de rata tipică de vorbire de aproximativ 150 de cuvinte pe minut.

Lectură recomandată : Proiectarea experiențelor vocale de Lyndon Cerejo

Concluzii

În timp ce asistenții vocali au fost de departe cea mai comună utilizare pentru interfețele vocale cu utilizatorul până acum, utilizarea răspunsurilor în limbaj natural le face ineficiente și nenaturale. Vocea este o modalitate excelentă de introducere a informațiilor, dar ascultarea unei mașini care vorbește nu este foarte inspirată. Aceasta este marea problemă a asistenților vocali.

Prin urmare, viitorul vocii nu ar trebui să fie în conversațiile cu un computer, ci în înlocuirea sarcinilor obositoare ale utilizatorului cu cel mai natural mod de comunicare: vorbirea . Interacțiunile vocale directe pot fi utilizate pentru a îmbunătăți experiența de completare a formularelor în aplicațiile web sau mobile, pentru a crea experiențe de căutare mai bune și pentru a permite o modalitate mai eficientă de control sau navigare într-o aplicație.

Designerii și dezvoltatorii de aplicații caută în mod constant modalități de a reduce frecarea în aplicațiile sau site-urile lor web. Îmbunătățirea interfeței grafice cu utilizatorul actuale cu o modalitate vocală ar permite interacțiuni de mai multe ori mai rapide ale utilizatorului, mai ales în anumite situații, cum ar fi atunci când utilizatorul final este pe mobil și în mișcare, iar tastarea este dificilă. De fapt, căutarea vocală poate fi de până la cinci ori mai rapidă decât o interfață de utilizator tradițională de filtrare a căutării, chiar și atunci când utilizați un computer desktop.

Data viitoare, când vă gândiți la cum puteți face o anumită sarcină de utilizator din aplicația dvs. mai ușor de utilizat, mai plăcut de utilizat sau sunteți interesat să creșteți conversiile, luați în considerare dacă acea sarcină de utilizator poate fi descrisă cu acuratețe în limbaj natural. Dacă da, completați interfața cu utilizatorul cu o modalitate vocală, dar nu forțați utilizatorii să discute cu un computer.

Resurse

„Vocea mai întâi versus interfețele utilizator multimodale ale viitorului”, Joan Palmiter Bajorek, UXmatters
„Orientări pentru crearea de aplicații productive activate prin voce”, Hannes Heikinheimo, Speechly
„Șase motive pentru care aplicațiile cu ecran tactil ar trebui să aibă capacități de voce”, Ottomatias Peura, UXmatters
Amestecarea tangibilelor și intangibilelor: proiectarea interfețelor multimodale folosind Adobe XD, Nick Babich, Smashing Magazine
( Adobe XD poate fi pentru prototiparea ceva similar )
„Eficiență la viteza sunetului: Promisiunea operațiunilor activate prin voce”, Eric Turkington, RAIN
O demonstrație care prezintă feedback vizual în timp real în filtrarea căutării vocale pentru comerțul electronic (versiunea video)
Speechly oferă instrumente pentru dezvoltatori pentru acest tip de interfețe cu utilizatorul
Alternativă open source: voice2json