目に見えないもののデザイン:私が学んだ3つのこと音声のデザイン

公開: 2022-03-10
簡単なまとめ↬世界中に、日常のタスクを自分で簡単に完了できない人々がいます。 幸いなことに、開発者と設計者は、他の人が当然と思うかもしれないタスクを完了することを可能にする音声技術を実験することによって助けることができます。

音声制御のデジタルアシスタントの現在のイテレーションは、Amazon、Google、Appleの3大音声プレーヤーが望むほどシームレスに統合するのにまだ苦労しています。 Voicelabsによる2017年のレポートによると、音声アプリケーションをダウンロードしてから2週間目にユーザーがアクティブになる可能性はわずか3%であり、Alexaのスキルの62%はまだストアで何らかの評価を取得しています(2017年9月現在)。

デザイナーとして、私たちはこれらのアシスタントに貴重な意味を提供する本当の機会がありますが、テクノロジーがユーザーに本当の利益をもたらすことができる場所をまだ模索しています。 多くの人にとって、音声UI(VUI)プロジェクトに着手することは、Unknownに入るのと少し似ている可能性があります。 デザイナーやエンジニアがインスピレーションを得るためのサクセスストーリーはほとんどありません。特に、この初期のテクノロジーが人々の新しい成長にどのように役立つかを示すコンテキスト内ではそうです。

speechSynthesis実験

Web Speech APIを使用すると、2つの方向でWebサイトを音声対応にすることができます。SpeechRecognitionインターフェイスを介してユーザーの声を聞くことと、 SpeechRecognitionインターフェイスを介してユーザーに話しかけることspeechSynthesis 。 これらはすべてJavaScriptAPIを介して行われるため、サポートのテストが簡単になります。 関連記事を読む→

発明家のチームが困っている人々のために新しく人生を変えるソリューションを作成するBBC2のBigLife Fixのドキュメンタリーの一部として、私はスーザンと呼ばれる女性のために音声制御アシスタントをテストして構築する機会がありました。 スーザンは20年以上にわたって進行性の多発性硬化症と一緒に暮らしており、今では日常の仕事を簡単に完了することができません。 フルタイムの介護者の場合、彼女は他の人に洗って服を着せることに頼っていて、助けなしにテレビのチャンネルを変えることさえできません。

音声技術はスーザンの身体的困難を克服するための最もスムーズな経路を提供するように見えましたが、スーザンはスマートフォンを使用したことがないため、音声アシスタントとの対話に彼女をまっすぐに推進することは決して容易ではありませんでした。信じられないほど異星人の技術と通信することを学びます。

ジャンプした後もっと! 以下を読み続けてください↓

スーザンの結果は、高度にカスタマイズされた音声制御アシスタントであり、家族に電話をかけることから音楽を聴くことまで、他の人が当たり前と思っている自由で日常のタスクを完了することができます。 スーザンの音声アシスタントは、EchoDotデバイスでAmazonAlexaテクノロジーの拡張バージョンとして構築されており、お気に入りの動物であるフクロウの形をしたケーシングを3Dプリントしたため、物理的なカスタマイズも必要でした。

スーザンのソリューションを迅速に実験して繰り返したとき、私のチームと私は、より包括的でアクセスしやすい方法で音声を設計することに伴う数十の複雑さを発見しました。 これはユニークなプロジェクトでしたが、どのVUIプロジェクトにも適用できる3つの重要なポイントがありました。

1.それを個人的にする

技術は動作します。 ただ座って、ユーザーの期待に沿って計算能力が向上するのを待つだけではありません。 各デバイスの音声検出、認識、および合成は、予想よりもはるかに強力であることがわかりました。 そして、それは選択の欠如があるかのようではありません。 Amazonには30,000を超えるAlexaスキルがあり、毎日平均50の新しいスキルが公開されています。 スキルは、デザイナーや開発者がAmazon EchoDotなどのデバイスを使用するときによりパーソナライズされた音声エクスペリエンスを作成できるようにする特定の機能です。 スマートフォンのAppStore内のアプリのように動作するため、音声アシスタントを好きなようにカスタマイズできます

ただし、現在、アクセスに大きな障壁があります。 スキルはデバイスではなくアプリを介して追加する必要があり、多くの場合、VUIの利点を無効にし、会話の流れを壊します(スマートフォンを使用できない/使用しない人を除外することは言うまでもありません)。 これにより、プロセスは不器用でバラバラになり、最悪の場合は完全に分離されます。 スキルがインストールされた後でも、スキルの可視性がなく、対話の時間枠が制限されているため、自信と不安が失われます。 それは私がやりたいことをすることができますか? どうやって話しますか? 聞いたことがありますか? では、どのようにしてその接続と信頼を構築しますか?

スーザンにとって、それは不要なものを取り除き、コア機能の厳選された選択を提示することを意味しました。 コンテンツを独自の動作と要件に合わせてパーソナライズすることで、私たちは待望の明快さとより有意義な体験を提供しました。 スーザンは、電話に出る、電話をかける、テレビチャンネルを変更する、音楽を再生するなどの重要なタスクを実行したいと考えていました。 彼女と彼女のニーズを理解することで、私たちは常に関連性があり有用であると感じられるアシスタントを作成しました。 これはかなり手動のプロセスでしたが、ここでは機械学習とAIの大きなチャンスがあります。 すべての音声アシスタントがパーソナライズの要素を提供できれば、そのエクスペリエンスはすべての人にとってより適切であると感じることができます。

1人の個人向けに設計していたため、スーザン向けに製品の物理的要素を簡単に調整できました。 これは、フクロウの形をした光拡散板(彼女のお気に入りの動物であり、彼女にとって重要な意味を持つもの)を設計し、次に3D印刷することを意味しました。 フクロウはテクノロジーの視覚的な表現として機能し、彼女に話しかけたり、投影したりするための何かを与えました。 音楽を聴くなど、彼女が望むスキルにアクセスできるようにしたのは彼女のガイドでした。 それは彼女にとって個人的なものだったので、それは潜在的に異質で威圧的なテクノロジーをはるかに親しみやすく親しみやすいものに感じさせました

人間化するテクノロジーは、よりアクセスしやすくするのに役立ちます。スーザンのパーソナライズされたフクロウは、彼女の声に反応して輝き、彼女が聞いて理解していることを知らせます。
人間化技術はそれをよりアクセスしやすくするのに役立ちます:スーザンのパーソナライズされたフクロウは彼女の声に反応して輝き、彼女が聞いて理解されていることを彼女に知らせます。 (大プレビュー)

完全にカスタム化された3D印刷された住宅は、すべてのVUIプロジェクトのオプションではありませんが、特にホームアシスタントのニーズや使用法が非常に具体的である場合は、人々が通信するためのより適切なデバイスを作成する機会があります。 たとえば、家の照明については音声対応のライトに、食料品については冷蔵庫に話しかけることができます。

2.オーディオアフォーダンスについて考える

現在、ユーザーはすべての面倒な作業を行っています。 あいまいなメンタルモデルがあり、技術者からの手を握っていないため、目的のエンドポイントを想像し、必要なコマンドを逆方向に実行する必要があります。 最も単純なタスクは別として(タイマーを5分に設定したり、SpotifyでAbbaを再生したりするなど)、特にスーザンが説明した「霧の瞬間」に苦しんでいる場合は、それを行うのは非常に困難です。正しい単語を見つけるのが難しいのです。

Appleが初期のiPhoneアプリにスキューモーフィズムの視覚要素を有名に使用したとき、ユーザーはその使用法と相互作用の方法を提供する貴重でなじみのある参照ポイントを獲得しました。 メンタルモデルがより確立されて初めて、彼らはこの文字通りの表現から現在のフラットなUIに移行する自由を手に入れました。

VUIを設計する際、デジタルナビゲーションやWebナビゲーション全体で見られる確立されたメニューシステムに頼ることにしました。 これはおなじみのツールであり、ユーザーの認知処理が少なくて済み、問題が発生した場合に最初から開始することのない経路探索の方法を組み込むことができます。

例として、スーザンは、現在のデジタルアシスタントが提供する時間枠内で、ストレスがたまり、しばしば不快な経験をしたいと思ったことを言葉で表現していることに気づきました。 多くの場合、デバイスの最後にあるデバイスからのエラーメッセージによって悪化します。 彼女が「Alexa、SpotifyプレイリストからAbbaを再生して」などの明示的なコマンドを与えることを期待するのではなく、ゆっくりと始めて、Alexaに何をしてほしいかを徐々に具体的にするのに役立つガイド付きメニューツールを作成することにしました。

スーザンのフクロウは、「音楽を再生する」や「何かを見る」などのオプションの厳選されたリストを彼女に表示するようになりました。 彼女が音楽を選択した場合、彼女が各決定ゲートを進むにつれて、彼女が聴きたいと思うジャンルを明らかにするために、より具体的になります。 アバの場合、彼女は「60年代の音楽」を選択します。 これにより、スーザンは自分に合ったペースで、はるかに簡単に目的の結果に移動できます。 その間ずっと、フクロウは輝いていて、彼女の声に反応して、彼女が聞いて理解されていることを彼女に知らせました。

スーザンの音声アシスタントは、彼女に力を与えることから家族に電話をかけること、または単に音楽を聴くことまで、彼女が彼女の状態に失った独立性の一部を彼女に戻します。
スーザンの音声アシスタントは、彼女に力を与えることから家族に電話をかけること、または単に音楽を聴くことまで、彼女が彼女の状態に失った独立性の一部を彼女に戻します。 (大プレビュー)

3.音声以外にもVUIがあります

オーラルコミュニケーションの非語彙的要素は、会話に大きな意味を与えます。 合成された音声(イントネーション、ピッチ、話す速度、ためらいの音など)で再現できるものもありますが、再現できないものもあります(ジェスチャーや顔の表情など)。 製品の具体的な要素は、少しでも自然に感じられるように、相互作用のためのこれらの従来の視覚的な手がかりを置き​​換える必要があります。 しかし、それだけではありません。

まず、誰かが人間の行動を再現するように設計された製品と対話すると、視覚的なコンポーネントは、ユーザーの先入観(固有および学習の両方)によって解釈され、感情的な反応に影響を与えます。 何かが印象的で冷たく見える場合は、かわいくてかわいいように見えるものよりも会話を開始する可能性がはるかに低くなります。

私たちの場合、テクノロジーはユーザーにとって非常に異質であるため、できるだけ親しみやすく魅力的なフクロウを感じさせる必要がありました。 そうすることで、他の製品で経験した不安や欲求不満の感情を取り除くことを望んでいました。 また、視覚的な側面も増幅しました。アイドル状態には1つの色があり、呼吸のように穏やかな輝きを放ちますが、スーザンが目覚めの言葉を言うと、光は目覚めとリスニングに変わります。

さらに先に進むことができます。 たとえば、AppleはHomepodにフルカラーディスプレイを備えており、インタラクションと視覚化により高いレベルのニュアンスを提供します。 視覚的なエクスペリエンスを追加することは直感に反するように聞こえるかもしれませんが、視覚化はユーザーにとって非常に役立ちます。

結論

これらのトップレベルの学習は、個々のユースケースに適用されますが、音声がもたらす固有の利点を活用することを望んでいるプロジェクトに役立ちます。 コンテンツをパーソナライズすると(可能な場合)、非常に必要とされる明確さが提供され、論理的で関連性のあるナビゲーションシステムが認知的負荷を軽減します。 最後に、ビジュアルコンポーネントの重要性を過小評価しないでください。 うまくいくと、基本的な会話の手がかりを提供するだけでなく、インタラクション全体のトーンを設定します。

アマゾンは、音声の実験を検討している人のために、スターバックスやユーバーなどの企業の何万ものスキルや、他の革新的なデザイナーや開発者によって作成されたスキルを紹介しています。 Alexaスキルキット(ASK)は、セルフサービスAPI、ツール、ドキュメント、およびコードサンプルのコレクションであり、Alexaにスキルを追加し、独自のソリューションの作成を簡単に開始できます。 声が理にかなっているのだろうか? 始める前に、いくつかの考慮事項があります。