보이지 않는 것을 디자인하기: 음성 디자인을 위해 내가 배운 3가지
게시 됨: 2022-03-10음성 제어 디지털 비서의 현재 반복은 Amazon, Google 및 Apple의 3대 음성 플레이어가 바라는 만큼 원활하게 통합하기 위해 여전히 고군분투하고 있습니다. Voicelabs의 2017년 보고서에 따르면 사용자가 음성 애플리케이션을 다운로드한 후 두 번째 주에 활성 상태가 될 확률은 3%에 불과하며 Alexa 기술의 62%는 여전히 상점에서 어떤 종류의 평가도 받지 못하고 있습니다(2017년 9월 기준).
디자이너로서 우리는 이러한 비서에게 가치 있는 의미를 제공할 수 있는 진정한 기회를 가지고 있지만 기술이 사용자에게 실질적인 이점을 추가할 수 있는 부분을 여전히 연구하고 있습니다. 많은 사람들 에게 VUI(음성 UI) 프로젝트를 시작하는 것은 Unknown 에 들어가는 것과 약간 비슷할 수 있습니다 . 특히 이 초기 기술이 사람들이 새로운 방식으로 번창하는 데 어떻게 도움이 될 수 있는지를 보여주는 맥락에서 디자이너나 엔지니어가 영감을 받을 수 있는 성공 사례는 거의 없습니다.
speechSynthesis
실험하기
Web Speech API를 사용하면 speechSynthesis
인터페이스를 통해 사용자의 말을 듣고 SpeechRecognition
인터페이스를 통해 사용자에게 다시 이야기하는 두 가지 방향으로 웹사이트를 음성으로 활성화할 수 있습니다. 이 모든 것이 JavaScript API를 통해 수행되므로 지원을 쉽게 테스트할 수 있습니다. 관련 기사 읽기 →
발명가 팀이 도움이 필요한 사람들을 위해 새롭고 삶을 변화시키는 솔루션을 만드는 BBC2의 Big Life Fix 다큐 시리즈의 일환으로 저는 Susan이라는 여성을 위한 음성 제어 비서를 테스트하고 구축할 기회를 가졌습니다. Susan은 20년 넘게 진행성 다발성 경화증을 앓고 있으며 이제 혼자서는 일상적인 일을 쉽게 완료할 수 없습니다. 전일제 간병인과 함께 그녀는 세탁과 옷차림을 다른 사람들에게 의존하고 도움 없이는 TV 채널을 변경할 수도 없습니다.
음성 기술이 Susan의 신체적 어려움을 극복하는 가장 원활한 경로를 제공하는 것처럼 보였지만 Susan은 스마트폰을 사용한 적이 없었기 때문에 그녀를 음성 비서와 직접 상호 작용하도록 유도하는 것은 결코 쉬운 일이 아니었습니다. 우리는 그녀를 돕기 위해 영리하게 생각해야 했습니다. 믿을 수 없을만큼 외계인 기술과 의사 소통하는 법을 배웁니다.
Susan의 결과는 고도로 맞춤화된 음성 제어 비서가 되었습니다. 이제 그녀는 다른 사람들이 당연시 여기는 자유로 일상 업무를 완료할 수 있게 되었습니다. 가족에게 전화를 걸고 음악을 듣는 것입니다. Echo Dot 장치에서 Amazon Alexa 기술의 향상된 버전으로 구축된 Susan의 음성 비서는 그녀가 가장 좋아하는 동물인 올빼미 모양으로 케이스를 3D 인쇄할 때 물리적 사용자 지정도 포함했습니다.
Susan을 위한 솔루션을 신속하게 실험하고 반복하면서 우리 팀과 나는 보다 포괄적이고 접근 가능한 방식으로 음성을 디자인할 때 수반되는 수십 가지 복잡성을 발견했습니다. 독특한 프로젝트였지만 모든 VUI 프로젝트에 적용할 수 있는 세 가지 핵심 사항이 있었습니다.
1. 개인화하기
기술이 작동합니다. 사용자의 기대에 따라 컴퓨팅 성능이 향상되기를 기다리기만 하면 되는 문제가 아닙니다. 각 장치의 음성 감지, 인식 및 합성이 예상보다 훨씬 강력하다는 것을 알았습니다. 그리고 선택의 여지가 없는 것도 아닙니다. Amazon에는 30,000개가 넘는 Alexa 기술이 있으며 매일 평균 50개의 새로운 기술이 게시됩니다. 기술은 디자이너와 개발자가 Amazon Echo Dot과 같은 장치를 사용할 때 보다 개인화된 음성 경험을 생성할 수 있도록 하는 특정 기능입니다. 스마트폰의 앱 스토어 내 앱과 매우 유사하게 작동하므로 원하는 방식으로 음성 도우미를 사용자 지정할 수 있습니다 .
그러나 현재 접근 에 큰 장벽이 있습니다. 기술은 장치가 아닌 앱을 통해 추가되어야 하며, 종종 VUI의 이점을 무효화하고 대화 흐름을 중단합니다(스마트폰을 사용할 수 없거나 사용하지 않을 사람들은 제외). 이렇게 하면 프로세스가 서투르고 잘 연결되지 않고 최악의 경우 완전히 격리됩니다. 기술이 설치되면 기술 가시성이 없고 상호 작용을 위한 제한된 시간 프레임으로 인해 자신감과 불안이 부족합니다. 내가 원하는 것을 할 수 있습니까? 어떻게 말해야 하나요? 내 말 들었어? 그렇다면 어떻게 연결과 신뢰를 구축할 수 있을까요?
Susan에게 이는 불필요한 것을 제거하고 선별된 핵심 기능을 제시하는 것을 의미했습니다. 고유한 동작과 요구 사항에 맞게 콘텐츠를 개인화하여 매우 필요한 명확성과 보다 의미 있는 경험을 제공했습니다. Susan은 전화 받기, 전화 걸기, TV 채널 변경, 음악 재생 등의 주요 작업을 수행하기를 원했습니다. 그녀와 그녀의 요구 사항을 이해함으로써 우리 는 항상 적절하고 유용하다고 느끼는 조수를 만들었습니다. 이것은 상당히 수동적인 과정이었지만 여기에 기계 학습과 AI를 위한 엄청난 기회가 있습니다. 모든 음성 어시스턴트가 개인화 요소를 제공할 수 있다면 경험이 모든 사람과 더 관련이 있다고 느낄 수 있습니다.
우리는 한 개인을 위해 디자인했기 때문에 Susan을 위해 제품의 물리적 요소를 쉽게 맞출 수 있었습니다. 이것은 올빼미 모양의 광 확산기(그녀가 가장 좋아하는 동물이자 그녀에게 중요한 의미가 있는 것)를 디자인한 다음 3D 프린팅하는 것을 의미했습니다. 올빼미는 이 기술을 시각적으로 표현하는 역할을 했으며 그녀에게 이야기하고 투영할 대상을 주었습니다. 음악 듣기와 같이 그녀가 원하는 기술에 접근할 수 있게 해 준 것은 가이드였습니다. 그것은 그녀에게 개인적인 것이기 때문에 잠재적으로 낯설고 위협적인 기술이 훨씬 더 친근하고 친숙하게 느껴지도록 만들었습니다 .

완전 맞춤형 3D 인쇄 주택이 모든 VUI 프로젝트에 대한 옵션은 아니지만, 특히 재택 도우미의 요구 또는 사용이 매우 구체적인 경우 사람들이 의사 소통할 수 있는 보다 관련성 있는 장치를 만들 수 있는 기회가 있습니다. 예를 들어, 음성 지원 조명에 집 조명에 대해 말하고 냉장고에 식료품에 대해 이야기할 수 있습니다.
2. 오디오 어포던스에 대해 생각하기
현재 사용자는 모든 무거운 작업을 수행합니다. 모호한 멘탈 모델과 기술자의 손이 없기 때문에 우리는 원하는 끝점을 상상하고 필요한 명령을 통해 거꾸로 작업해야 합니다. 가장 간단한 작업은 제쳐두고(타이머 5분 설정, Spotify에서 Abba 재생 등) 수행하기 매우 어렵습니다. 특히 Susan이 우리에게 설명했던 '안개 같은 순간'으로 고통받는 경우 올바른 단어를 찾는 데 어려움이 있습니다.
Apple이 초기 iPhone 앱에 스큐어모픽 시각적 요소를 사용하는 것으로 유명했을 때 사용자는 사용 및 상호 작용 방법을 제공하는 가치 있고 친숙한 참조 포인트를 얻었습니다. 멘탈 모델이 좀 더 확립된 후에야 이 문자 그대로의 표현에서 벗어나 현재의 평면 UI로 이동할 수 있는 자유가 생겼습니다.
VUI를 디자인할 때 디지털 및 웹 탐색 전반에 걸쳐 잘 정립된 메뉴 시스템에 의존하기로 결정했습니다. 사용자의 인지 처리를 덜 요구하는 친숙한 도구이며 일이 잘못되었을 때 처음부터 시작하지 않는 길 찾기 방법을 통합할 수 있게 해주었습니다.
예를 들어, Susan은 현재 디지털 비서가 제공하는 시간 프레임에서 자신이 원하는 것을 말로 표현하는 것이 스트레스가 많고 종종 불쾌한 경험을 하는 것을 발견했습니다. 종종 장치의 끝에 있는 장치의 오류 메시지로 인해 복잡해집니다. 그녀가 "Alexa, 내 Spotify 재생 목록에서 Abba 재생"과 같은 명시적인 명령을 내리기를 기대하기보다는 그녀가 천천히 시작하고 Alexa가 수행하기를 원하는 작업에 대해 점진적으로 더 구체적으로 지정할 수 있는 안내 메뉴 도구를 만들기로 결정했습니다.
Susan의 올빼미는 이제 "음악 재생" 또는 "무언가 보기"와 같은 선별된 옵션 목록을 표시합니다. 그녀가 음악을 선택한다면, 그녀가 듣고 싶은 장르를 밝히기 위해 각 결정 게이트를 통과할 때마다 더욱 구체적이 됩니다. Abba의 경우 그녀는 "60년대 음악"을 선택할 것입니다. 이를 통해 Susan은 원하는 결과를 훨씬 더 쉽게 자신에게 맞는 속도로 탐색할 수 있습니다. 그 동안 올빼미는 빛나고 그녀의 목소리에 반응하여 그녀가 듣고 이해하고 있음을 알렸습니다.

3. VUI에는 음성보다 더 많은 것이 있습니다.
언어적 의사소통의 비 어휘적 구성요소는 대화에 많은 의미를 부여합니다. 일부는 합성된 음성(억양, 높낮이, 말하기 속도, 머뭇거리는 소음 등)으로 복제할 수 있지만 대부분은 복제할 수 없습니다(예: 제스처 및 표정). 제품의 유형 요소는 상호 작용이 약간이라도 자연스럽게 느껴지도록 이러한 전통적인 시각적 신호를 대체해야 합니다. 하지만 그것보다 더 중요한 것이 있습니다.
첫째, 누군가가 인간의 행동을 모방하도록 설계된 제품과 상호 작용할 때 시각적 구성 요소는 사용자의 세계에 대한 선입견(내재적이든 학습적이든)에 의해 해석되고 감정적 반응에 영향을 미칩니다. 뭔가 위풍당당하고 차갑게 보인다면 귀엽고 꼭 껴안고 싶은 것보다 대화를 시작할 가능성이 훨씬 적습니다.
우리의 경우 기술이 사용자에게 너무 생소했기 때문에 가능한 한 친숙하고 매력적으로 느껴지도록 해야 했습니다 . 바로 올빼미입니다. 이를 통해 다른 제품에서 느꼈던 불안과 좌절감을 없애고 싶었습니다. 우리는 또한 그것의 시각적인 면을 증폭했습니다. 유휴 상태를 위한 한 가지 색상이 있습니다. 거의 숨쉬는 것과 같은 부드러운 빛이지만 Susan이 깨우기 단어를 말하면 빛이 깨어 있고 듣기로 바뀝니다.
당신은 더 갈 수 있습니다. 예를 들어 Apple의 Homepod에는 상호 작용 및 시각화에 더 높은 수준의 뉘앙스를 제공하는 풀 컬러 디스플레이가 있습니다. 시각적 경험을 추가하는 것이 직관적이지 않게 들릴 수 있지만 시각화는 사용자에게 매우 유용할 수 있습니다.
결론
개별 사용 사례에 적용되지만 이러한 최상위 수준 학습은 음성이 제공하는 고유한 이점을 활용하려는 모든 프로젝트에 도움이 될 수 있습니다. 콘텐츠를 개인화(가능한 경우)하면 매우 필요한 명확성을 제공하고 논리적이고 관련성 있는 탐색 시스템은 인지 부하를 줄입니다. 마지막으로, 시각적 구성요소의 중요성을 과소평가하지 마십시오 . 잘 하면 기본적인 대화 신호를 전달할 뿐만 아니라 전체 상호 작용의 분위기를 조성합니다.
음성 실험을 원하는 사람들을 위해 Amazon은 이제 Starbucks 및 Uber와 같은 회사와 다른 혁신적인 디자이너 및 개발자가 만든 수만 가지 기술을 선보입니다. Alexa Skills Kit(ASK)는 셀프 서비스 API, 도구, 문서 및 코드 샘플 모음으로, 이를 통해 Alexa에 기술을 쉽게 추가하고 고유한 솔루션 생성을 시작할 수 있습니다. 음성이 의미가 있는지 궁금하십니까? 시작하기 전에 몇 가지 고려 사항이 있습니다.