การออกแบบสิ่งที่มองไม่เห็น: 3 สิ่งที่ฉันเรียนรู้ การออกแบบเพื่อเสียง

เผยแพร่แล้ว: 2022-03-10

สรุปโดยย่อ ↬ มีผู้คนมากมายทั่วโลกที่ไม่สามารถทำงานประจำวันให้เสร็จด้วยตนเองได้อย่างง่ายดาย โชคดีที่นักพัฒนาและนักออกแบบสามารถช่วยได้ด้วยการทดลองใช้เทคโนโลยีเสียงที่ช่วยให้พวกเขาทำงานที่คนอื่นอาจมองข้ามไป

การทำซ้ำในปัจจุบันของผู้ช่วยดิจิทัลที่ควบคุมด้วยเสียงยังคงดิ้นรนเพื่อบูรณาการอย่างราบรื่นเหมือนกับผู้เล่นเสียงรายใหญ่สามรายของ Amazon, Google และ Apple ที่คาดหวัง รายงานปี 2017 โดย Voicelabs ระบุว่ามีโอกาสเพียง 3 เปอร์เซ็นต์เท่านั้นที่ผู้ใช้จะใช้งานได้ในสัปดาห์ที่สองหลังจากดาวน์โหลดแอปพลิเคชั่นเสียง และ 62 เปอร์เซ็นต์ของทักษะของ Alexa ยังคงได้รับคะแนนจากร้านค้า (ณ กันยายน 2017)

ในฐานะนักออกแบบ เรามีโอกาสที่แท้จริงในการมอบความหมายอันมีค่าแก่ผู้ช่วยเหล่านี้ แต่เรายังคงพยายามหาคำตอบว่าเทคโนโลยีจะช่วยเพิ่มประโยชน์ที่แท้จริงให้กับผู้ใช้ได้อย่างไร สำหรับหลายๆ คน การเริ่มต้นใช้งานโปรเจ็กต์ voice UI (VUI) อาจเหมือนกับการเข้าสู่ Unknown มีเรื่องราวความสำเร็จเล็กน้อยสำหรับนักออกแบบหรือวิศวกรที่จะได้รับแรงบันดาลใจ โดยเฉพาะอย่างยิ่งในบริบทที่แสดงให้เห็นว่าเทคโนโลยีที่เพิ่งเริ่มต้นนี้สามารถช่วยให้ผู้คนเติบโตในรูปแบบใหม่ได้อย่างไร

ทดลอง `speechSynthesis`

Web Speech API ช่วยให้คุณสามารถเปิดใช้งานเสียงของเว็บไซต์ของคุณได้ในสองทิศทาง: การฟังผู้ใช้ของคุณผ่านทางอินเทอร์เฟซ SpeechRecognition และการสนทนากับพวกเขาผ่านอินเทอร์เฟซการ speechSynthesis พูด ทั้งหมดนี้ดำเนินการผ่าน JavaScript API ทำให้ง่ายต่อการทดสอบการสนับสนุน อ่านบทความที่เกี่ยวข้อง →

ในฐานะที่เป็นส่วนหนึ่งของสารคดีเรื่อง Big Life Fix ของ BBC2 ที่ทีมนักประดิษฐ์สร้างโซลูชันใหม่ที่เปลี่ยนแปลงชีวิตผู้คนที่ต้องการความช่วยเหลือ ฉันมีโอกาสทดสอบและสร้างผู้ช่วยที่ควบคุมด้วยเสียงสำหรับผู้หญิงที่ชื่อซูซาน ซูซานอาศัยอยู่กับโรคปลอกประสาทเสื่อมแข็งรูปแบบก้าวหน้ามานานกว่า 20 ปี และขณะนี้ไม่สามารถทำงานประจำวันให้เสร็จสิ้นได้อย่างง่ายดาย กับผู้ดูแลเต็มเวลา เธอต้องอาศัยผู้อื่นในการล้างและแต่งตัวของเธอ และไม่มีความสามารถแม้แต่จะเปลี่ยนช่องบนทีวีโดยไม่ได้รับความช่วยเหลือ

ในขณะที่เทคโนโลยีเสียงดูเหมือนจะเป็นหนทางที่ราบรื่นที่สุดในการเอาชนะปัญหาทางร่างกายของซูซาน แต่ซูซานไม่เคยใช้สมาร์ทโฟน ดังนั้นการผลักดันให้เธอโต้ตอบกับผู้ช่วยเสียงโดยตรงจึงไม่ใช่เรื่องง่าย เราต้องคิดอย่างชาญฉลาดเพื่อช่วยเธอ เรียนรู้ที่จะสื่อสารกับเทคโนโลยีที่แปลกใหม่อย่างไม่น่าเชื่อ

เพิ่มเติมหลังกระโดด! อ่านต่อด้านล่าง↓

ผลลัพธ์สำหรับ Susan คือผู้ช่วยที่ควบคุมด้วยเสียงที่ปรับแต่งได้สูง ซึ่งขณะนี้ช่วยให้เธอทำงานประจำวันให้เสร็จสิ้นด้วยอิสระที่ผู้อื่นมองข้าม ตั้งแต่โทรศัพท์ถึงครอบครัว ไปจนถึงการฟังเพลง ผู้ช่วยเสียงของ Susan สร้างขึ้นเพื่อเป็นเวอร์ชันปรับปรุงของเทคโนโลยี Amazon Alexa บนอุปกรณ์ Echo Dot ของตน ผู้ช่วยเสียงของ Susan ยังเกี่ยวข้องกับการปรับแต่งทางกายภาพในขณะที่เราพิมพ์เคส 3 มิติในรูปทรงของนกฮูกที่เธอโปรดปราน

ขณะที่เราทดลองและทำซ้ำวิธีแก้ปัญหาสำหรับ Susan อย่างรวดเร็ว ทีมของฉันและฉันค้นพบความซับซ้อนมากมายที่มาพร้อมกับการออกแบบสำหรับเสียงในรูปแบบที่ครอบคลุมและเข้าถึงได้มากขึ้น แม้ว่าจะเป็นโครงการที่ไม่เหมือนใคร แต่ก็มีประเด็นสำคัญสามประการที่สามารถใช้ได้กับโครงการ VUI

1. ทำให้เป็นส่วนตัว

เทคโนโลยีทำงาน ไม่ใช่แค่การนั่งเฉยๆ และรอให้พลังประมวลผลเพิ่มขึ้นตามความคาดหวังของผู้ใช้ เราพบว่าการตรวจจับเสียง การจดจำ และการสังเคราะห์เสียงของอุปกรณ์แต่ละเครื่องมีประสิทธิภาพมากกว่าที่เราคาดไว้มาก และไม่ใช่เหมือนกับว่าไม่มีทางเลือก มีทักษะ Alexa มากกว่า 30,000 รายการใน Amazon โดยโดยเฉลี่ยแล้วมีการเผยแพร่ทักษะใหม่ 50 รายการทุกวัน ทักษะคือความสามารถเฉพาะที่ช่วยให้นักออกแบบและนักพัฒนาสามารถสร้างประสบการณ์เสียงที่เป็นส่วนตัวมากขึ้นเมื่อใช้อุปกรณ์อย่าง Amazon Echo Dot พวกมันทำงานเหมือนกับแอพใน App Store บนสมาร์ทโฟนของคุณ ช่วยให้คุณ ปรับแต่งระบบสั่งงานด้วยเสียงในแบบที่คุณ ต้องการ

อย่างไรก็ตาม ขณะ นี้ มีอุปสรรคใหญ่ในการเข้าถึง ต้องเพิ่มทักษะผ่านแอพแทนที่จะเป็นอุปกรณ์ ซึ่งมักจะลบล้างประโยชน์ของ VUI และทำลายขั้นตอนการสนทนา (ไม่รวมถึงผู้ที่ไม่สามารถใช้สมาร์ทโฟนได้) ทำให้กระบวนการนี้รู้สึกเงอะงะและไม่ปะติดปะต่ออย่างดีที่สุด แม้เมื่อติดตั้งทักษะแล้ว การมองเห็นทักษะไม่ได้และกรอบเวลาจำกัดสำหรับการโต้ตอบก็ส่งผลให้ขาดความมั่นใจและความวิตกกังวล มันสามารถทำสิ่งที่ฉันต้องการ? ฉันจะคุยกับมันได้อย่างไร มันได้ยินฉันไหม ดังนั้นคุณจะสร้างการเชื่อมต่อและไว้วางใจได้อย่างไร?

สำหรับ Susan มันหมายถึงการขจัดสิ่งที่ไม่จำเป็นออกไปและนำเสนอฟังก์ชันการทำงานหลักที่คัดสรรมาอย่างดี โดยการปรับเนื้อหาให้เหมาะกับพฤติกรรมและข้อกำหนดเฉพาะ เรานำเสนอความชัดเจนที่จำเป็นมากและให้ประสบการณ์ที่มีความหมายมากขึ้น ซูซานต้องการทำงานหลัก: รับโทรศัพท์ โทรออก เปลี่ยนช่องทีวี เล่นเพลง และอื่นๆ ด้วยการทำความเข้าใจเธอและความต้องการของเธอ เราได้สร้าง ผู้ช่วยที่รู้สึกว่าเกี่ยวข้องและมีประโยชน์ เสมอ นี่เป็นกระบวนการที่ค่อนข้างต้องทำด้วยตนเอง แต่มีโอกาสมากมายสำหรับการเรียนรู้ของเครื่องและ AI ที่นี่ หากผู้ช่วยเสียงทุกคนสามารถนำเสนอองค์ประกอบของการปรับเปลี่ยนในแบบของคุณ ก็อาจทำให้ประสบการณ์นั้นมีความเกี่ยวข้องมากขึ้นสำหรับทุกคน

ขณะที่เรากำลังออกแบบสำหรับบุคคลคนเดียว เราสามารถปรับแต่งองค์ประกอบทางกายภาพของผลิตภัณฑ์สำหรับ Susan ได้อย่างง่ายดาย นี่หมายถึงการออกแบบ — จากนั้นเป็นการพิมพ์ 3 มิติ — ตัวกระจายแสงที่มีรูปร่างเหมือนนกฮูก (สัตว์ที่เธอโปรดปรานและบางสิ่งที่มีความหมายสำคัญต่อเธอ) นกฮูกทำหน้าที่เป็นภาพแสดงของเทคโนโลยีและให้บางสิ่งกับเธอเพื่อพูดคุยและคาดการณ์ มัคคุเทศก์ของเธอเองที่ทำให้เธอเข้าถึงทักษะที่เธอต้องการ เช่น การฟังเพลง เนื่องจากเป็นเรื่องส่วนตัวของเธอ มันทำให้เทคโนโลยีที่คุกคามมนุษย์ต่างดาวดูเข้าถึงได้ง่ายและคุ้นเคย มากขึ้น

เทคโนโลยี Humanizing ช่วยให้เข้าถึงได้ง่ายขึ้น: นกฮูกประจำตัวของ Susan เรืองแสงเพื่อตอบสนองต่อเสียงของเธอ ทำให้เธอรู้ว่าเธอถูกได้ยินและเข้าใจ (ตัวอย่างขนาดใหญ่)

แม้ว่าที่อยู่อาศัยที่พิมพ์ 3 มิติแบบกำหนดเองทั้งหมดจะไม่ใช่ตัวเลือกสำหรับโครงการ VUI ทุกโครงการ แต่ก็มีโอกาสที่จะสร้างอุปกรณ์ที่เกี่ยวข้องมากขึ้นเพื่อให้ผู้คนสื่อสารด้วย โดยเฉพาะอย่างยิ่งหากความต้องการหรือการใช้ผู้ช่วยในบ้านค่อนข้างเฉพาะเจาะจง ตัวอย่างเช่น คุณอาจคุยกับไฟที่สั่งงานด้วยเสียงเกี่ยวกับไฟบ้านและตู้เย็นเกี่ยวกับของชำของคุณ

2. คิดเกี่ยวกับค่าใช้จ่ายด้านเสียง

ปัจจุบันผู้ใช้ยกของหนักทั้งหมด ด้วยโมเดลทางจิตที่บดบังและไม่มีการเอื้อมมือใดๆ จากเทคโนโลยี เราถูกบังคับให้จินตนาการถึงปลายทางที่ต้องการและทำงานย้อนกลับผ่านคำสั่งที่จำเป็น งานที่ง่ายที่สุด (ตั้งเวลาไว้ 5 นาที เล่น Abba บน Spotify ฯลฯ) ซึ่งทำได้ยากอย่างเหลือเชื่อ โดยเฉพาะอย่างยิ่งหากคุณประสบปัญหา 'ช่วงเวลาที่มีหมอกหนา' บางอย่างที่ Susan อธิบายให้เราฟัง — ความยากลำบากในการหาคำที่เหมาะสม

เมื่อ Apple มีชื่อเสียงในการใช้องค์ประกอบภาพ skeuomorphic สำหรับแอพ iPhone รุ่นแรก ๆ ผู้ใช้ได้รับจุดอ้างอิงที่มีคุณค่าและคุ้นเคยซึ่งสามารถนำไปใช้และวิธีการโต้ตอบได้ เพียงครั้งเดียวที่โมเดลทางจิตเป็นที่ยอมรับมากขึ้น พวกเขาก็มีอิสระที่จะย้ายออกจากการแสดงตามตัวอักษรนี้ ไปเป็น UI แบบเรียบในปัจจุบัน

เมื่อออกแบบ VUI ของเรา เราตัดสินใจที่จะพึ่งพาระบบเมนูที่เป็นที่ยอมรับซึ่งมองเห็นได้ตลอดการนำทางแบบดิจิทัลและเว็บ เป็นเครื่องมือที่คุ้นเคยซึ่งต้องการการประมวลผลทางปัญญาน้อยลงจากผู้ใช้ และทำให้เราสามารถรวมวิธีการค้นหาทางที่ไม่ส่งผลให้ต้องเริ่มต้นจากจุดเริ่มต้นหากมีสิ่งผิดปกติเกิดขึ้น

ตัวอย่างเช่น ซูซานพบว่าการพูดในสิ่งที่เธอต้องการในกรอบเวลาที่นำเสนอโดยผู้ช่วยดิจิทัลในปัจจุบัน เป็นประสบการณ์ที่ตึงเครียดและมักไม่เป็นที่พอใจ มักจะประกอบขึ้นด้วยข้อความแสดงข้อผิดพลาดจากอุปกรณ์ในตอนท้าย แทนที่จะคาดหวังให้เธอออกคำสั่งอย่างชัดแจ้ง เช่น "Alexa เล่น Abba จากเพลย์ลิสต์ Spotify ของฉัน" เราตัดสินใจสร้างเครื่องมือเมนูแนะนำที่จะช่วยให้เธอเริ่มช้าและเจาะจงมากขึ้นเรื่อยๆ เกี่ยวกับสิ่งที่เธอต้องการให้ Alexa ทำ

ตอนนี้นกฮูกของ Susan จะแสดงรายการตัวเลือกที่คัดสรรมาแล้ว เช่น "Play Music" หรือ "Watch Something" หากเธอเลือกดนตรี มันจะมีความเฉพาะเจาะจงมากขึ้นเมื่อเธอก้าวผ่านประตูตัดสินใจแต่ละบาน เพื่อค้นพบแนวเพลงที่เธอรู้สึกเหมือนกำลังฟัง ในกรณีของ Abba เธอจะเลือก “เพลงยุค 60” วิธีนี้ช่วยให้ Susan นำทางไปยังผลลัพธ์ที่ต้องการได้ง่ายขึ้นมากและในจังหวะที่เหมาะกับเธอ ตลอดเวลา นกฮูกเรืองแสงและตอบสนองต่อเสียงของเธอ ทำให้เธอรู้ว่าเธอถูกได้ยินและเข้าใจ

ผู้ช่วยเสียงของ Susan ช่วยคืนอิสรภาพบางส่วนที่เธอสูญเสียไปกับสภาพของเธอ จากการให้อำนาจเธอไปจนถึงการโทรศัพท์หาครอบครัว หรือเพียงแค่ฟังเพลง — ผู้ช่วยเสียงของ Susan ได้คืนอิสรภาพบางส่วนที่เธอสูญเสียไปกับสภาพของเธอ จากการให้อำนาจเธอไปจนถึงการโทรศัพท์หาครอบครัว หรือเพียงแค่ฟังเพลง (ตัวอย่างขนาดใหญ่)

3. VUI มีอะไรมากกว่าเสียง

องค์ประกอบที่ไม่ใช่คำศัพท์ของการสื่อสารด้วยวาจาให้ความหมายอย่างมากต่อการสนทนา บางเสียงสามารถจำลองได้ด้วยเสียงสังเคราะห์ (น้ำเสียง ระดับเสียง และความเร็วในการพูด เสียงลังเล เป็นต้น) แต่หลายคนทำไม่ได้ (เช่น ท่าทางและการแสดงออกทางสีหน้า) องค์ประกอบที่จับต้องได้ของผลิตภัณฑ์จำเป็นต้องแทนที่การชี้นำภาพแบบดั้งเดิมเหล่านี้เพื่อให้มีปฏิสัมพันธ์เพื่อให้รู้สึกเป็นธรรมชาติแม้เพียงเล็กน้อย แต่มันมีอะไรมากกว่านั้น

ประการแรก เมื่อมีคนโต้ตอบกับผลิตภัณฑ์ที่ออกแบบมาเพื่อเลียนแบบพฤติกรรมของมนุษย์ ส่วนประกอบทางภาพจะถูกตีความโดยความคิดอุปาทานของโลก (ทั้งโดยธรรมชาติและที่เรียนรู้) และส่งผลต่อการตอบสนองทางอารมณ์ของพวกเขา หากบางอย่างดูโอ่อ่าและเย็นชา แสดงว่าคุณเริ่มบทสนทนาได้น้อยกว่าการดูน่ารักและน่ากอด

ในกรณีของเรา เนื่องจากเทคโนโลยีนั้นต่างกับผู้ใช้มาก เราจึงต้องทำให้รู้สึกคุ้นเคยและน่าดึงดูดใจมากที่สุดเท่าที่จะเป็นไปได้ นั่นคือนกฮูก ในการทำเช่นนั้น เราหวังว่าจะขจัดความรู้สึกวิตกกังวลและความคับข้องใจที่เราเคยประสบกับผลิตภัณฑ์อื่นๆ ออกไป นอกจากนี้เรายังขยายด้านการมองเห็นของมัน — มีสีเดียวสำหรับสภาวะว่าง — เป็นแสงที่นุ่มนวล เกือบจะเหมือนกับการหายใจ แต่เมื่อซูซานพูดคำปลุก แสงจะเปลี่ยนเป็นการตื่นและฟัง

คุณสามารถไปต่อ ตัวอย่างเช่น Apple มีหน้าจอสีเต็มรูปแบบบน Homepod ซึ่งให้ความแตกต่างในระดับที่สูงขึ้นในการโต้ตอบและการแสดงภาพ การเพิ่มประสบการณ์การรับชมภาพอาจฟังดูขัดกับสัญชาตญาณ แต่การแสดงภาพข้อมูลจะมีประโยชน์มากสำหรับผู้ใช้

บทสรุป

แม้ว่าจะนำไปใช้กับกรณีการใช้งานส่วนบุคคล แต่การเรียนรู้ระดับบนสุดเหล่านี้สามารถช่วยโครงการใดๆ ที่หวังจะใช้ประโยชน์จากเสียงที่มีอยู่ การปรับเนื้อหาให้เป็นส่วนตัว (ถ้าเป็นไปได้) ให้ความชัดเจนที่จำเป็นอย่างยิ่ง และระบบนำทางที่มีเหตุผลและเชื่อมโยงได้ช่วยลดภาระด้านความรู้ความเข้าใจ สุดท้าย อย่าประมาทความสำคัญขององค์ประกอบภาพ เมื่อทำได้ดี พวกเขาไม่เพียงแต่ส่งสัญญาณการสนทนาพื้นฐานเท่านั้น แต่ยังกำหนดโทนเสียงสำหรับการโต้ตอบทั้งหมด

สำหรับผู้ที่ต้องการทดลองด้วยเสียง ตอนนี้ Amazon ได้แสดงทักษะนับหมื่นจากบริษัทต่างๆ เช่น Starbucks และ Uber รวมถึงทักษะที่สร้างสรรค์โดยนักออกแบบและนักพัฒนาที่เป็นนวัตกรรมรายอื่นๆ Alexa Skills Kit (ASK) คือชุดของ API แบบบริการตนเอง เครื่องมือ เอกสารประกอบ และตัวอย่างโค้ด ที่ช่วยให้คุณเพิ่มทักษะให้กับ Alexa และเริ่มสร้างโซลูชันของคุณเองได้อย่างง่ายดาย สงสัยว่าเสียงนั้นสมเหตุสมผลหรือไม่? ต่อไปนี้คือข้อควรพิจารณาบางประการก่อนเริ่มต้นใช้งาน