Merancang Yang Tak Terlihat: 3 Hal yang Saya Pelajari Merancang Untuk Suara
Diterbitkan: 2022-03-10Iterasi saat ini dari asisten digital yang dikendalikan suara masih berjuang untuk berintegrasi semulus yang diharapkan oleh tiga pemain suara besar Amazon, Google dan Apple. Laporan tahun 2017 oleh Voicelabs menyatakan hanya ada 3 persen kemungkinan pengguna akan aktif di minggu kedua setelah mengunduh aplikasi suara dan 62 persen keterampilan Alexa masih mendapatkan peringkat apa pun di tokonya (per September 2017).
Sebagai desainer, kami memiliki peluang nyata untuk memberikan makna yang berharga bagi para asisten ini, tetapi kami masih berusaha mencari tahu di mana teknologi dapat menambahkan manfaat nyata bagi pengguna. Bagi banyak orang, memulai proyek UI suara (VUI) bisa seperti memasuki Unknown . Ada beberapa kisah sukses yang dapat menginspirasi desainer atau insinyur, terutama dalam konteks yang menggambarkan bagaimana teknologi yang baru lahir ini dapat membantu orang berkembang dengan cara baru.
Bereksperimen Dengan speechSynthesis
Web Speech API memberi Anda kemampuan untuk mengaktifkan suara situs web Anda dalam dua arah: mendengarkan pengguna Anda melalui antarmuka SpeechRecognition
dan berbicara kembali kepada mereka melalui antarmuka speechSynthesis
. Semua ini dilakukan melalui JavaScript API, sehingga mudah untuk menguji dukungan. Baca artikel terkait →
Sebagai bagian dari dokumen Big Life Fix BBC2 di mana tim penemu menciptakan solusi baru dan mengubah hidup bagi orang yang membutuhkan, saya memiliki kesempatan untuk menguji dan membangun asisten yang dikontrol suara untuk seorang wanita bernama Susan. Susan telah hidup dengan bentuk progresif Multiple Sclerosis selama lebih dari 20 tahun dan sekarang tidak dapat menyelesaikan tugas sehari-hari untuk dirinya sendiri dengan mudah. Dengan pengasuh penuh waktu, dia bergantung pada orang lain untuk mencuci dan mendandaninya dan tidak memiliki kemampuan bahkan untuk mengubah saluran di TV tanpa bantuan.
Sementara teknologi suara sepertinya akan memberikan jalan paling mulus untuk mengatasi kesulitan fisik Susan, Susan tidak pernah menggunakan smartphone, jadi mendorongnya langsung ke interaksi dengan asisten suara tidak akan pernah mudah — kami harus berpikir cerdas untuk membantunya. belajar berkomunikasi dengan teknologi yang sangat asing.
Hasil untuk Susan adalah asisten yang dikontrol dengan suara yang sangat disesuaikan yang sekarang memberdayakannya untuk menyelesaikan tugas sehari-hari dengan kebebasan yang orang lain anggap remeh — mulai dari menelepon ke keluarga, hingga mendengarkan musik. Dibangun sebagai versi yang disempurnakan dari teknologi Amazon Alexa pada perangkat Echo Dot mereka, asisten suara Susan juga melibatkan penyesuaian fisik saat kami mencetak casing dalam bentuk hewan favoritnya, burung hantu, secara 3D.
Saat kami dengan cepat bereksperimen dan mengulangi solusi untuk Susan, tim saya dan saya menemukan lusinan seluk-beluk yang datang dengan mendesain untuk suara dengan cara yang lebih inklusif dan mudah diakses. Meskipun itu adalah proyek yang unik, ada tiga takeaways utama yang berlaku untuk setiap proyek VUI.
1. Jadikan Pribadi
Teknologinya bekerja. Ini bukan hanya masalah duduk dan menunggu daya komputasi meningkat sesuai dengan harapan pengguna. Kami menemukan bahwa deteksi suara, pengenalan, dan sintesis masing-masing perangkat jauh lebih kuat daripada yang kami perkirakan. Dan bukannya tidak ada pilihan. Ada lebih dari 30.000 keterampilan Alexa di Amazon dengan rata-rata 50 keterampilan baru diterbitkan setiap hari. Keterampilan adalah kemampuan khusus yang memungkinkan desainer dan pengembang menciptakan pengalaman suara yang lebih dipersonalisasi saat menggunakan perangkat seperti Amazon Echo Dot. Mereka beroperasi seperti aplikasi dalam App store di ponsel cerdas Anda, memungkinkan Anda menyesuaikan asisten suara sesuka Anda .
Namun, saat ini ada hambatan besar untuk mengakses. Keterampilan harus ditambahkan melalui aplikasi daripada perangkat, sering kali meniadakan manfaat VUI dan memutus alur percakapan (belum lagi mengecualikan mereka yang tidak dapat/tidak akan menggunakan smartphone). Ini membuat prosesnya terasa canggung dan terputus-putus, paling buruk benar-benar terisolasi. Bahkan setelah keterampilan dipasang, tidak ada visibilitas keterampilan dan kerangka waktu terbatas untuk interaksi mengakibatkan kurangnya kepercayaan diri dan kecemasan; dapat melakukan apa yang saya inginkan? Bagaimana saya berbicara dengannya? Apakah itu mendengar saya? Jadi, bagaimana Anda membangun koneksi dan kepercayaan itu?
Bagi Susan, itu berarti menghilangkan yang tidak perlu dan menghadirkan pilihan fungsionalitas inti yang dikuratori. Dengan mempersonalisasi konten dengan perilaku dan persyaratan yang unik, kami menghadirkan kejelasan yang sangat dibutuhkan dan pengalaman yang lebih bermakna. Susan ingin melakukan tugas-tugas utama: menjawab telepon, menelepon, mengganti saluran TV, memutar musik, dan sebagainya. Dengan memahami dia dan kebutuhannya, kami menciptakan asisten yang selalu merasa relevan dan berguna . Ini adalah proses yang cukup manual, tetapi ada peluang besar untuk pembelajaran mesin dan AI di sini. Jika setiap asisten suara dapat menawarkan elemen personalisasi, itu bisa membuat pengalaman terasa lebih relevan untuk semua orang.
Saat kami mendesain untuk satu individu, kami dapat dengan mudah menyesuaikan elemen fisik produk untuk Susan. Ini berarti mendesain — kemudian pencetakan 3D — sebuah diffuser ringan berbentuk burung hantu (binatang favoritnya dan sesuatu yang memiliki arti penting baginya). Burung hantu bertindak sebagai manifestasi visual dari teknologi dan memberinya sesuatu untuk diajak bicara dan diproyeksikan. Pemandunyalah yang memberinya akses ke keterampilan yang diinginkannya, seperti mendengarkan musik. Karena itu pribadi baginya, itu membuat teknologi yang berpotensi asing dan mengintimidasi terasa jauh lebih mudah didekati dan akrab .
Meskipun rumah cetak 3D yang sepenuhnya dapat disesuaikan bukanlah pilihan untuk setiap proyek VUI, ada peluang untuk membuat perangkat yang lebih relevan bagi orang-orang untuk berkomunikasi, terutama jika kebutuhan atau penggunaan asisten rumah mereka cukup spesifik. Misalnya, Anda dapat berbicara dengan lampu bersuara tentang penerangan rumah Anda dan lemari es tentang bahan makanan Anda.
2. Pikirkan Tentang Keterjangkauan Audio
Saat ini, pengguna melakukan semua angkat berat. Dengan model mental yang tidak jelas dan tidak ada pegangan tangan dari teknologi, kami dipaksa untuk membayangkan titik akhir yang kami inginkan dan bekerja mundur melalui perintah yang diperlukan. Selain tugas paling sederhana (setel timer selama 5 menit, mainkan Abba di Spotify, dll.), itu sangat sulit dilakukan, terutama jika Anda menderita 'momen berkabut' yang dijelaskan Susan kepada kami — kesulitan dalam menemukan kata yang tepat.
Ketika Apple terkenal menggunakan elemen visual skeuomorphic untuk aplikasi iPhone awal mereka, pengguna memperoleh poin referensi yang berharga dan familiar yang memberikan penggunaan dan metode interaksinya. Hanya setelah model mental menjadi lebih mapan, mereka memiliki kebebasan untuk menjauh dari representasi literal ini, ke UI datar mereka saat ini.
Saat merancang VUI kami, kami memutuskan untuk bersandar pada sistem menu mapan yang terlihat di seluruh navigasi digital dan web. Ini adalah alat yang sudah dikenal yang menuntut lebih sedikit pemrosesan kognitif dari pengguna dan memungkinkan kami untuk menggabungkan metode pencarian jalan yang tidak menghasilkan mulai dari awal jika ada yang salah.
Sebagai contoh, Susan menemukan verbalisasi apa yang dia inginkan, dalam kerangka waktu yang ditawarkan oleh asisten digital saat ini, pengalaman stres dan sering tidak menyenangkan; sering diperparah oleh pesan kesalahan dari perangkat di ujungnya. Daripada mengharapkan dia untuk memberikan perintah eksplisit seperti "Alexa, mainkan Abba dari daftar putar Spotify saya," kami memutuskan untuk membuat alat menu terpandu yang dapat membantunya memulai dengan lambat dan secara bertahap lebih spesifik tentang apa yang dia ingin Alexa lakukan.
Burung hantu Susan sekarang memintanya dengan daftar pilihan yang dikuratori seperti, "Mainkan Musik" atau "Tonton Sesuatu." Jika dia memilih musik, itu menjadi lebih spesifik saat dia melewati setiap gerbang keputusan, untuk mengungkap genre yang ingin dia dengarkan; dalam kasus Abba, dia akan memilih "musik 60-an." Ini memungkinkan Susan untuk menavigasi ke hasil yang diinginkannya dengan lebih mudah, dan dengan kecepatan yang sesuai untuknya. Sementara itu, burung hantu itu bersinar dan menanggapi suaranya, memberi tahu dia bahwa dia didengar dan dipahami.
3. Ada Lebih Banyak VUI Daripada Suara
Komponen non-leksikal dari komunikasi verbal memberikan banyak makna pada percakapan. Beberapa dapat direplikasi oleh suara yang disintesis (intonasi, nada, dan kecepatan berbicara, suara ragu-ragu, untuk beberapa nama), tetapi banyak yang tidak bisa (seperti gerakan dan ekspresi wajah). Elemen nyata dari produk perlu menggantikan isyarat visual tradisional ini agar interaksinya terasa sedikit alami. Tapi ada lebih dari itu.
Pertama, ketika seseorang berinteraksi dengan produk yang dirancang untuk meniru perilaku manusia, komponen visual ditafsirkan oleh praduga pengguna tentang dunia (baik yang melekat maupun yang dipelajari) dan memengaruhi respons emosional mereka. Jika sesuatu terlihat mengesankan dan dingin, kemungkinan kecil Anda memulai percakapan dibandingkan dengan sesuatu yang terlihat lucu dan menyenangkan.
Dalam kasus kami, karena teknologinya sangat asing bagi pengguna, kami perlu membuatnya seakrab dan semenyenangkan mungkin — burung hantu. Dengan melakukan itu, kami berharap dapat menghilangkan perasaan cemas dan frustrasi yang kami alami dengan produk lain. Kami juga memperkuat sisi visualnya — ada satu warna untuk keadaan diam — cahaya lembut, hampir seperti bernafas, tetapi ketika Susan mengucapkan kata-kata bangun, cahaya berubah menjadi terjaga dan mendengarkan.
Anda bisa melangkah lebih jauh. Apple, misalnya, memiliki layar penuh warna di Homepod mereka yang memberikan tingkat nuansa yang lebih tinggi untuk interaksi dan visualisasi mereka. Menambahkan pengalaman visual mungkin terdengar berlawanan dengan intuisi, tetapi visualisasi bisa sangat membantu pengguna.
Kesimpulan
Meskipun diterapkan pada kasus penggunaan individu, pembelajaran tingkat atas ini dapat membantu proyek apa pun yang berharap dapat memanfaatkan manfaat bawaan yang diberikan oleh suara. Personalisasi konten (jika memungkinkan) memberikan kejelasan yang sangat dibutuhkan dan sistem navigasi yang logis dan dapat dihubungkan mengurangi beban kognitif. Terakhir, jangan meremehkan pentingnya komponen visual ; ketika dilakukan dengan baik, mereka tidak hanya menyampaikan isyarat percakapan mendasar, mereka mengatur nada untuk seluruh interaksi.
Bagi mereka yang ingin bereksperimen dengan suara, Amazon sekarang memamerkan puluhan ribu keterampilan dari perusahaan seperti Starbucks dan Uber, serta yang dibuat oleh desainer dan pengembang inovatif lainnya. Alexa Skills Kit (ASK) adalah kumpulan API swalayan, alat, dokumentasi, dan contoh kode yang memudahkan Anda untuk menambahkan keterampilan ke Alexa, dan mulai membuat solusi Anda sendiri. Ingin tahu apakah suaranya masuk akal? Berikut beberapa pertimbangan sebelum Anda memulai.