تصميم ما هو غير مرئي: 3 أشياء تعلمت تصميمها للصوت
نشرت: 2022-03-10لا يزال التكرار الحالي للمساعدات الرقمية التي يتم التحكم فيها بالصوت يكافح من أجل الاندماج بسلاسة كما يأمل مشغلو الصوت الثلاثة الكبار في Amazon و Google و Apple. يشير تقرير صدر عام 2017 عن Voicelabs إلى أن هناك فرصة بنسبة 3 في المائة فقط أن يكون المستخدم نشطًا في الأسبوع الثاني بعد تنزيل تطبيق صوتي ، ولا يزال 62 في المائة من مهارات أليكسا تحصل على أي نوع من التصنيف في متجرها (اعتبارًا من سبتمبر 2017).
بصفتنا مصممين ، لدينا فرصة حقيقية لتقديم معنى قيِّم لهؤلاء المساعدين ، لكننا ما زلنا نحاول معرفة أين يمكن أن تضيف التكنولوجيا فوائد حقيقية للمستخدم. بالنسبة للكثيرين ، يمكن أن يكون الشروع في مشروع واجهة المستخدم الصوتية (VUI) يشبه إلى حد ما الدخول إلى Unknown . هناك عدد قليل من قصص النجاح للمصممين أو المهندسين ليتم إلهامهم ، خاصة في السياقات التي توضح كيف يمكن لهذه التكنولوجيا الناشئة أن تساعد الناس على الازدهار بطرق جديدة.
تجربة speechSynthesis
تمنحك Web Speech API القدرة على تمكين موقع الويب الخاص بك صوتيًا في اتجاهين: الاستماع إلى المستخدمين عبر واجهة SpeechRecognition
والتحدث معهم عبر واجهة speechSynthesis
. كل هذا يتم عبر JavaScript API ، مما يجعل من السهل اختبار الدعم. اقرأ مقالًا ذا صلة ←
كجزء من مسلسلات وثائقية Big Life Fix على قناة BBC2 حيث تبتكر فرق من المخترعين حلولًا جديدة وتغير حياة الأشخاص المحتاجين ، أتيحت لي الفرصة لاختبار وبناء مساعد يتم التحكم فيه صوتيًا لامرأة تدعى سوزان. تعيش سوزان مع شكل تدريجي من مرض التصلب العصبي المتعدد منذ أكثر من 20 عامًا وهي الآن غير قادرة على إكمال المهام اليومية بنفسها بسهولة. مع مقدمي الرعاية المتفرغين ، تعتمد على الآخرين لغسلها وملابسها وليس لديها القدرة حتى على تغيير القناة على التلفزيون دون مساعدة.
بينما بدت تكنولوجيا الصوت وكأنها ستوفر الطريق الأكثر سلاسة للتغلب على الصعوبات الجسدية لسوزان ، لم تستخدم سوزان هاتفًا ذكيًا أبدًا ، لذا لم يكن دفعها مباشرة إلى التفاعل مع مساعد صوتي أمرًا سهلاً أبدًا - كان علينا التفكير بذكاء لمساعدتها تعلم كيفية التواصل مع تقنية غريبة بشكل لا يصدق.
كانت النتيجة بالنسبة لسوزان هي مساعد التحكم الصوتي المخصص للغاية والذي يمكّنها الآن من إكمال المهام اليومية بالحرية التي يعتبرها الآخرون أمرًا مفروغًا منه - من إجراء مكالمة هاتفية مع العائلة إلى الاستماع إلى الموسيقى. تم تصميمه كنسخة محسّنة من تقنية Amazon Alexa على جهاز Echo Dot ، كما تضمن المساعد الصوتي لسوزان التخصيص المادي حيث قمنا بطباعة غلاف ثلاثي الأبعاد على شكل حيوانها المفضل ، البومة.
أثناء قيامنا بالتجربة والتكرار سريعًا لإيجاد حل لسوزان ، اكتشفت أنا وفريقي العشرات من التعقيدات التي تأتي مع تصميم الصوت بطريقة أكثر شمولاً ويسهل الوصول إليها. على الرغم من أنه كان مشروعًا فريدًا ، إلا أنه كان هناك ثلاث نقاط رئيسية تنطبق على أي مشروع VUI.
1. اجعلها شخصية
التكنولوجيا تعمل. لا يقتصر الأمر على مجرد الجلوس وانتظار زيادة قوة الحوسبة بما يتماشى مع توقعات المستخدم. وجدنا أن اكتشاف الصوت والتعرف عليه وتركيبه لكل جهاز أقوى بكثير مما توقعنا. وليس الأمر كما لو كان هناك نقص في الاختيار. هناك أكثر من 30 ألف مهارة من مهارات اليكسا على أمازون بمعدل 50 مهارة جديدة يتم نشرها يوميًا. المهارات هي قدرات محددة تمكن المصممين والمطورين من إنشاء تجربة صوتية أكثر تخصيصًا عند استخدام أجهزة مثل Amazon Echo Dot. إنها تعمل مثل تطبيق داخل متجر التطبيقات على هاتفك الذكي ، مما يسمح لك بتخصيص مساعدك الصوتي بالطريقة التي تريدها .
ومع ذلك ، يوجد حاليًا عائق كبير أمام الوصول. يجب إضافة المهارات عبر التطبيق بدلاً من الجهاز ، مما يؤدي غالبًا إلى إبطال فوائد واجهة المستخدم الرسومية (VUI) وكسر تدفق المحادثة (ناهيك عن استبعاد أولئك الذين لا يستطيعون / لا يستخدمون الهاتف الذكي). هذا يجعل العملية تبدو خرقاء ومفككة في أحسن الأحوال ، معزولة تمامًا في أسوأ الأحوال. حتى بعد تثبيت إحدى المهارات ، لا يؤدي ظهور المهارة والإطار الزمني المحدود للتفاعل إلى انعدام الثقة والقلق ؛ هل تستطيع أن تفعل ما أريد؟ كيف اتحدث معها؟ هل سمعتني؟ لذا ، كيف يمكنك بناء هذا الاتصال والثقة؟
بالنسبة لسوزان ، كان ذلك يعني إزالة ما هو غير ضروري وتقديم مجموعة منتقاة من الوظائف الأساسية. من خلال تخصيص المحتوى للسلوكيات والمتطلبات الفريدة ، قدمنا الوضوح الذي تمس الحاجة إليه وتجربة أكثر فائدة. أرادت سوزان أداء المهام الرئيسية: الرد على الهاتف ، وإجراء مكالمة ، وتغيير القناة التلفزيونية ، وتشغيل الموسيقى ، وما إلى ذلك. من خلال فهمها واحتياجاتها ، أنشأنا مساعدًا يشعر دائمًا بأنه وثيق الصلة ومفيد . كانت هذه عملية يدوية ، ولكن هناك فرصة كبيرة للتعلم الآلي والذكاء الاصطناعي هنا. إذا كان بإمكان كل مساعد صوتي تقديم عنصر التخصيص ، فقد يجعل التجربة أكثر ملاءمة للجميع.
نظرًا لأننا نصمم لفرد واحد ، يمكننا بسهولة تخصيص العناصر المادية للمنتج لسوزان. كان هذا يعني تصميم - ثم طباعة ثلاثية الأبعاد - ناشر ضوئي على شكل بومة (حيوانها المفضل وشيء له معنى كبير بالنسبة لها). عملت البومة كمظهر مرئي للتكنولوجيا ومنحتها شيئًا للتحدث معه والتخطيط له. كان دليلها هو الذي منحها الوصول إلى تلك المهارات التي أرادتها ، مثل الاستماع إلى الموسيقى. نظرًا لأنه كان شخصيًا بالنسبة لها ، فقد جعل التكنولوجيا المخيفة المحتملة تبدو أكثر ودودًا ومألوفة .

على الرغم من أن السكن المطبوع ثلاثي الأبعاد المخصص بالكامل ليس خيارًا لكل مشروع VUI ، إلا أن هناك فرصة لإنشاء جهاز أكثر ملاءمة للأشخاص للتواصل معه ، خاصةً إذا كانت احتياجاتهم أو استخدامهم لمساعدين منزليين محددًا تمامًا. على سبيل المثال ، يمكنك التحدث إلى ضوء مزود بالصوت حول إضاءة منزلك وثلاجة حول البقالة الخاصة بك.
2. فكر في تكاليف الصوت
حاليًا ، يقوم المستخدم بجميع الرفع الثقيل. مع وجود نموذج عقلي غامض وعدم وجود إمساك يدوي من التقنية ، فنحن مجبرون على تخيل نقطة النهاية التي نريدها والعمل بشكل عكسي من خلال الأوامر اللازمة. أبسط المهام جانباً (اضبط عداد الوقت لمدة 5 دقائق ، العب Abba على Spotify ، وما إلى ذلك) ، هذا صعب للغاية ، خاصة إذا كنت تعاني من `` لحظات ضبابية '' أوضحتها لنا سوزان - صعوبة في العثور على الكلمات الصحيحة.
عندما اشتهرت شركة Apple باستخدام العناصر المرئية skeuomorphic لتطبيقات iPhone المبكرة ، اكتسب المستخدم نقاطًا مرجعية قيمة ومألوفة أتاحت استخدامها وطريقة التفاعل. بمجرد أن أصبح النموذج العقلي أكثر رسوخًا ، كان لديهم الحرية في الابتعاد عن هذا التمثيل الحرفي ، إلى واجهة مستخدمهم المسطحة الحالية.
عند تصميم VUI الخاص بنا ، قررنا الاعتماد على نظام القائمة الراسخ الذي يمكن رؤيته خلال التنقل الرقمي والويب. إنها أداة مألوفة تتطلب معالجة معرفية أقل من المستخدم وتسمح لنا بدمج طرق لإيجاد الطريق التي لم تؤد إلى البدء من البداية إذا ساءت الأمور.
على سبيل المثال ، وجدت سوزان أن التعبير عما تريده ، في الإطار الزمني الذي يقدمه المساعدون الرقميون الحاليون ، هو تجربة مرهقة وغير سارة في كثير من الأحيان ؛ غالبًا ما تتفاقم بسبب رسالة خطأ من الجهاز في نهايتها. بدلاً من توقعها لإعطاء أمر صريح مثل "Alexa ، قم بتشغيل Abba من قائمة التشغيل الخاصة بي على Spotify" ، قررنا إنشاء أداة قائمة إرشادية يمكن أن تساعدها في البدء ببطء والحصول على مزيد من التحديد حول ما تريد أن تفعله Alexa.
تطالبها بومة سوزان الآن بقائمة منسقة من الخيارات مثل "تشغيل الموسيقى" أو "مشاهدة شيء ما". إذا اختارت الموسيقى ، فإنها تصبح أكثر تحديدًا كلما تقدمت في كل بوابة قرار ، للكشف عن النوع الذي تشعر أنها تستمع إليه ؛ في حالة أبا ، كانت ستختار "موسيقى الستينيات". يتيح ذلك لسوزان الانتقال إلى النتيجة المرجوة بسهولة أكبر وبوتيرة تناسبها. طوال الوقت ، كانت البومة تتوهج وتستجيب لصوتها ، مما جعلها تعلم أنه يتم سماعها وفهمها.

3. هناك المزيد من VUIs من الصوت
تضفي المكونات غير المعجمية للتواصل اللفظي قدرًا كبيرًا من المعنى على المحادثة. يمكن تكرار بعضها من خلال الصوت المركب (التنغيم ، والنغمة ، وسرعة التحدث ، وضوضاء التردد ، على سبيل المثال لا الحصر) ، لكن الكثير لا يمكنهم (مثل الإيماءات وتعبيرات الوجه). تحتاج العناصر الملموسة للمنتج إلى استبدال هذه الإشارات المرئية التقليدية للتفاعل حتى يشعر بأنه طبيعي إلى حد ما. ولكن هناك ما هو أكثر من ذلك.
أولاً ، عندما يتفاعل شخص ما مع منتج مصمم لتكرار السلوكيات البشرية ، يتم تفسير المكونات المرئية من خلال مفاهيم المستخدم المسبقة عن العالم (المتأصلة والمتعلمة) وتؤثر على استجاباتهم العاطفية. إذا كان هناك شيء يبدو مهيبًا وباردًا ، فمن غير المرجح أن تبدأ محادثة أكثر من ذلك مع شيء يبدو لطيفًا ومحبوبًا.
في حالتنا ، نظرًا لأن التكنولوجيا كانت غريبة جدًا على المستخدم ، فقد احتجنا إلى جعلها تبدو مألوفة وجذابة قدر الإمكان - بومة. من خلال القيام بذلك ، كنا نأمل في إزالة مشاعر القلق والإحباط التي عشناها مع المنتجات الأخرى. قمنا أيضًا بتضخيم الجانب المرئي منه - هناك لون واحد لحالة الخمول - توهج لطيف ، مثل التنفس تقريبًا ، ولكن عندما تقول سوزان كلمات الاستيقاظ ، يتغير الضوء إلى اليقظة والاستماع.
يمكنك الذهاب أبعد من ذلك. Apple ، على سبيل المثال ، لديها شاشة ملونة كاملة على Homepod الخاص بها والتي توفر مستوى أعلى من الفروق الدقيقة لتفاعلهم وتصورهم. قد تبدو إضافة تجربة بصرية غير منطقية ، ولكن التصورات يمكن أن تكون مفيدة جدًا للمستخدم.
خاتمة
على الرغم من تطبيقها على حالة استخدام فردية ، إلا أن هذه المعلومات عالية المستوى يمكن أن تساعد أي مشروع يأمل في الاستفادة من المزايا الكامنة التي يوفرها الصوت. يوفر إضفاء الطابع الشخصي على المحتوى (حيثما أمكن ذلك) الوضوح الذي تمس الحاجة إليه ونظام التنقل المنطقي القابل للارتباط يقلل من الحمل المعرفي. أخيرًا ، لا تقلل من أهمية المكونات المرئية ؛ عندما يتم إجراؤها بشكل جيد ، فإنها لا تقدم إشارات محادثة أساسية فحسب ، بل إنها تحدد نغمة التفاعل بالكامل.
لأولئك الذين يتطلعون إلى تجربة الصوت ، تعرض أمازون الآن عشرات الآلاف من المهارات من شركات مثل Starbucks و Uber ، بالإضافة إلى تلك التي ابتكرها المصممون والمطورون المبتكرون الآخرون. مجموعة مهارات Alexa (ASK) عبارة عن مجموعة من واجهات برمجة التطبيقات ذاتية الخدمة والأدوات والوثائق وعينات التعليمات البرمجية التي تسهل عليك إضافة المهارات إلى Alexa والبدء في إنشاء الحلول الخاصة بك. أتساءل عما إذا كان الصوت منطقيًا؟ إليك بعض الاعتبارات قبل أن تبدأ.