Görünmezi Tasarlamak: Ses İçin Tasarlamayı Öğrendiğim 3 Şey
Yayınlanan: 2022-03-10Sesle kontrol edilen dijital asistanların mevcut yinelemesi, Amazon, Google ve Apple'ın üç büyük ses oynatıcısının umduğu kadar sorunsuz bir şekilde entegre olmak için hala mücadele ediyor. Voicelabs tarafından hazırlanan 2017 tarihli bir rapor, bir kullanıcının bir ses uygulamasını indirdikten sonraki ikinci haftada aktif olma şansının yalnızca yüzde 3 olduğunu ve Alexa'nın becerilerinin yüzde 62'sinin hala mağazasında herhangi bir derece elde etmek için (Eylül 2017 itibariyle) olduğunu belirtiyor.
Tasarımcılar olarak, bu asistanlara değerli anlamlar sağlamak için gerçek bir fırsatımız var, ancak yine de teknolojinin kullanıcıya gerçek faydaları nerede ekleyebileceğini bulmaya çalışıyoruz. Birçoğu için, bir sesli UI (VUI) projesine başlamak biraz Unknown'a girmek gibi olabilir . Tasarımcılar veya mühendisler için, özellikle de bu yeni gelişen teknolojinin insanların yeni yollarla gelişmesine nasıl yardımcı olabileceğini gösteren bağlamlarda, ilham alabilecekleri çok az başarı öyküsü vardır.
Konuşma Sentezi ile speechSynthesis
Web Speech API, web sitenizi iki yönde sesle etkinleştirme olanağı sağlar: SpeechRecognition
arabirimi aracılığıyla kullanıcılarınızı dinleme ve konuşma speechSynthesis
arabirimi aracılığıyla onlarla konuşma. Tüm bunlar, desteği test etmeyi kolaylaştıran bir JavaScript API aracılığıyla yapılır. İlgili bir makaleyi okuyun →
Mucit ekiplerinin ihtiyacı olan insanlar için yeni ve yaşamı değiştiren çözümler yarattığı BBC2'nin Big Life Fix belgesel dizisinin bir parçası olarak, Susan adında bir kadın için ses kontrollü bir asistanı test etme ve geliştirme fırsatı buldum. Susan, 20 yılı aşkın bir süredir ilerleyici bir Multipl Skleroz formuyla yaşıyor ve artık günlük görevleri kendi başına kolayca tamamlayamıyor. Tam zamanlı bakıcılarla, kendisini yıkayıp giydirmek için başkalarına güveniyor ve yardım almadan televizyonda kanalı bile değiştiremiyor.
Ses teknolojisi, Susan'ın fiziksel güçlüklerinin üstesinden gelmek için en yumuşak yolu sağlayacak gibi görünse de, Susan hiçbir zaman akıllı telefon kullanmadı, bu nedenle onu doğrudan bir sesli asistanla etkileşime sokmak asla kolay olmayacaktı - ona yardım etmek için akıllıca düşünmemiz gerekti. inanılmaz derecede uzaylı bir teknolojiyle iletişim kurmayı öğrenin.
Susan'ın sonucu, son derece özelleştirilmiş, ses kontrollü bir asistandır ve bu asistan, artık günlük görevlerini, ailesini aramaktan müzik dinlemeye kadar, diğerlerinin doğal olarak kabul ettiği özgürlükle tamamlamasını sağlar. Echo Dot cihazlarında Amazon Alexa teknolojisinin geliştirilmiş bir versiyonu olarak inşa edilen Susan'ın sesli asistanı, en sevdiği hayvan olan bir baykuş şeklinde bir kasayı 3D olarak yazdırırken fiziksel kişiselleştirmeyi de içeriyordu.
Susan için bir çözümü hızla deneyip yineledikçe, ekibim ve ben daha kapsayıcı ve erişilebilir bir şekilde ses tasarımının getirdiği düzinelerce inceliği ortaya çıkardık. Eşsiz bir proje olmasına rağmen, herhangi bir VUI projesine uygulanabilecek üç önemli çıkarım vardı.
1. Kişiselleştirin
Teknoloji çalışıyor. Bu sadece arkanıza yaslanıp bilgisayar gücünün kullanıcı beklentisiyle uyumlu olarak artmasını beklemek meselesi değildir. Cihazların her birinin ses algılama, tanıma ve sentezini beklediğimizden çok daha güçlü bulduk. Ve seçim eksikliği yok gibi değil. Amazon'da 30.000'den fazla Alexa becerisi var ve her gün ortalama 50 yenisi yayınlanıyor. Beceriler, tasarımcıların ve geliştiricilerin Amazon Echo Dot gibi cihazları kullanırken daha kişiselleştirilmiş bir ses deneyimi oluşturmasını sağlayan özel yeteneklerdir. Akıllı telefonunuzdaki App Store'daki bir uygulama gibi çalışırlar ve sesli asistanınızı istediğiniz gibi özelleştirmenize olanak tanırlar .
Ancak, şu anda erişim için büyük bir engel var. Beceriler, cihaz yerine uygulama aracılığıyla eklenmelidir, genellikle bir VUI'nin faydalarını reddeder ve konuşma akışını bozar (akıllı telefon kullanamayan/kullanmayacak olanlar hariç). Bu, süreci en iyi ihtimalle hantal ve kopuk, en kötü ihtimalle tamamen yalıtkan hissettirir. Bir beceri bir kez kurulduktan sonra bile, beceri görünürlüğünün olmaması ve etkileşim için kısıtlı bir zaman çerçevesi, güven ve endişe eksikliğine neden olur; istediğimi yapabilir mi? Onunla nasıl konuşurum? Beni duydu mu? Peki, bu bağlantıyı ve güveni nasıl kurarsınız?
Susan için bu, gereksiz olanı ortadan kaldırmak ve küratörlüğünde bir temel işlevsellik seçimi sunmak anlamına geliyordu. İçeriği benzersiz davranış ve gereksinimlere göre kişiselleştirerek, çok ihtiyaç duyulan netliği ve daha anlamlı bir deneyim sunduk. Susan önemli görevleri gerçekleştirmek istedi: telefona cevap vermek, arama yapmak, TV kanalını değiştirmek, müzik çalmak vb. Onu ve ihtiyaçlarını anlayarak, her zaman alakalı ve yararlı hisseden bir asistan yarattık. Bu oldukça manuel bir süreçti, ancak burada makine öğrenimi ve yapay zeka için büyük bir fırsat var. Her sesli asistan bir kişiselleştirme unsuru sunabilseydi, bu deneyimin herkes için daha alakalı hissetmesini sağlayabilirdi.
Tek bir kişi için tasarladığımız için, ürünün fiziksel unsurlarını Susan'a göre kolayca uyarlayabiliyorduk. Bu, baykuş şeklinde (en sevdiği hayvan ve onun için önemli bir anlamı olan bir şey) bir ışık difüzörü tasarlamak - daha sonra 3D baskı - anlamına geliyordu. Baykuş, teknolojinin görsel bir tezahürü gibi davrandı ve ona konuşacak ve yansıtacak bir şey verdi. Müzik dinlemek gibi istediği becerilere erişmesini sağlayan rehberiydi. Onun için kişisel olduğu için , potansiyel olarak yabancı, korkutucu teknolojiyi çok daha ulaşılabilir ve tanıdık hissettiriyordu .

Tamamen özel bir 3D baskılı muhafaza her VUI projesi için bir seçenek olmasa da, özellikle ihtiyaçları veya ev asistanlarının kullanımı oldukça spesifikse, insanların iletişim kurabileceği daha alakalı bir cihaz yaratma fırsatı var. Örneğin, evinizin aydınlatması hakkında sesli bir ışıkla ve bakkallarınız hakkında bir buzdolabıyla konuşabilirsiniz.
2. Ses Karşılığını Düşünün
Şu anda, kullanıcı tüm ağır kaldırma işlemlerini yapıyor. Gizlenmiş bir zihinsel modelle ve teknolojinin elini tutmadan, istediğimiz son noktayı hayal etmeye ve gerekli komutlar aracılığıyla geriye doğru çalışmaya zorlanıyoruz. En basit görevleri bir kenara bırakın (5 dakika için bir zamanlayıcı ayarlayın, Spotify'da Abba oynayın, vb.), bunu yapmak inanılmaz derecede zordur, özellikle de Susan'ın bize açıkladığı 'sisli anlardan' muzdaripseniz - doğru kelimeleri bulmakta zorluk.
Apple, ilk iPhone uygulamaları için ünlü skeuomorfik görsel öğeleri kullandığında, kullanıcı, kullanımı ve etkileşim yöntemini sağlayan değerli, tanıdık referans noktaları elde etti. Ancak zihinsel model daha yerleşik hale geldiğinde, bu gerçek temsilden şimdiki düz kullanıcı arayüzlerine geçme özgürlüğüne sahip oldular.
VUI'mizi tasarlarken, dijital ve web navigasyonunda görülen köklü menü sistemine dayanmaya karar verdik. Kullanıcıdan daha az bilişsel işlem talep eden ve bir şeyler ters gittiğinde baştan başlamakla sonuçlanmayan yol bulma yöntemlerini dahil etmemize izin veren tanıdık bir araçtır .
Örnek olarak, Susan, mevcut dijital asistanların sunduğu zaman çerçevesinde istediğini sözlü olarak ifade etmeyi stresli ve çoğu zaman nahoş bir deneyim olarak buldu; genellikle sonunda cihazdan gelen bir hata mesajı ile birleştirilir. "Alexa, Abba'yı Spotify çalma listemden çal" gibi açık bir komut vermesini beklemek yerine, yavaş başlamasına ve Alexa'nın yapmasını istediği şey hakkında adım adım daha spesifik hale gelmesine yardımcı olabilecek rehberli bir menü aracı oluşturmaya karar verdik.
Susan'ın baykuşu şimdi ona “Müzik Çal” veya “Bir Şey İzle” gibi seçilmiş bir seçenekler listesi sunuyor. Müziği seçerse, her karar kapısında ilerledikçe, dinlemekten hoşlandığı türü ortaya çıkarmak için daha spesifik hale geliyor; Abba söz konusu olduğunda, “60'ların müziğini” seçerdi. Bu, Susan'ın istediği sonuca çok daha kolay ve kendisine uygun bir hızda gitmesini sağlar. Bu arada baykuş parlıyor ve sesine tepki veriyor, duyulduğunu ve anlaşıldığını ona bildiriyordu.

3. VUI'lerde Sesten Daha Fazlası Var
Sözlü iletişimin sözcüksel olmayan bileşenleri, bir konuşmaya çok fazla anlam katar. Bazıları sentezlenmiş sesle (tonlama, ses perdesi ve konuşma hızı, tereddüt sesleri, birkaçını saymak gerekirse) çoğaltılabilir, ancak çoğu yapamaz (jest ve yüz ifadesi gibi). Etkileşimin biraz da doğal görünmesi için, ürünün somut öğelerinin bu geleneksel, görsel ipuçlarının yerini alması gerekir. Ama bundan daha fazlası var.
İlk olarak, biri insan davranışlarını taklit etmek için tasarlanmış bir ürünle etkileşime girdiğinde, görsel bileşenler kullanıcının (hem doğuştan gelen hem de öğrenilen) dünyaya ilişkin önyargılı fikirleri tarafından yorumlanır ve duygusal tepkilerini etkiler. Etkileyici ve soğuk görünen bir şey varsa, sohbet başlatma olasılığınız, sevimli ve sevimli görünen bir şeye kıyasla çok daha az olasıdır.
Bizim durumumuzda, teknoloji kullanıcıya çok yabancı olduğu için, onu mümkün olduğunca tanıdık ve davetkar hissettirmemiz gerekiyordu - bir baykuş. Bunu yaparken, diğer ürünlerle yaşadığımız endişe ve hayal kırıklığı duygularını ortadan kaldırmayı umduk. Ayrıca görsel tarafını da güçlendirdik - boşta kalma durumu için tek bir renk var - neredeyse nefes almaya benzer hafif bir parıltı, ancak Susan uyanma kelimelerini söylediğinde ışık uyanık ve dinlemeye dönüşüyor.
Daha ileri gidebilirsiniz. Örneğin Apple, Homepod'larında etkileşimlerine ve görselleştirmelerine daha yüksek düzeyde nüans sağlayan tam renkli bir ekrana sahiptir. Görsel bir deneyim eklemek mantıksız gelebilir, ancak görselleştirmeler kullanıcı için çok yardımcı olabilir.
Çözüm
Bireysel bir kullanım durumuna uygulansa da, bu üst düzey öğrenmeler, sesin sağladığı doğal faydaları kullanmayı umut eden herhangi bir projeye yardımcı olabilir. İçeriği kişiselleştirmek (mümkünse) çok ihtiyaç duyulan netliği sağlar ve mantıklı, ilişkilendirilebilir bir navigasyon sistemi bilişsel yükü azaltır. Son olarak, görsel bileşenlerin önemini küçümsemeyin ; İyi yapıldığında, yalnızca temel konuşma ipuçlarını vermekle kalmaz, tüm etkileşimin tonunu da belirlerler.
Amazon, sesle deneme yapmak isteyenler için Starbucks ve Uber gibi şirketlerin yanı sıra diğer yenilikçi tasarımcılar ve geliştiriciler tarafından oluşturulan on binlerce beceriyi sergiliyor. Alexa Skills Kit (ASK), Alexa'ya beceri eklemenizi ve kendi çözümlerinizi yaratmaya başlamanızı kolaylaştıran self servis API'ler, araçlar, belgeler ve kod örneklerinden oluşan bir koleksiyondur. Sesin mantıklı olup olmadığını mı merak ediyorsunuz? Başlamadan önce bazı düşünceler.