음성 비서에 대한 대체 음성 UI

게시 됨: 2022-03-10
빠른 요약 ↬ 음성 도우미는 현재 음성 사용자 인터페이스의 가장 인기 있는 사용 사례입니다. 그러나 음성 비서는 사용자에게 말을 걸어 피드백을 주기 때문에 비서는 알람 설정이나 음악 재생과 같은 간단한 사용자 작업만 해결할 수 있습니다. 음성 사용자 인터페이스가 실제로 성공하려면 사용자에 대한 피드백이 청각적 대신 시각적이어야 합니다.

대부분의 사람들이 음성 사용자 인터페이스를 생각할 때 가장 먼저 떠오르는 것은 Siri, Amazon Alexa 또는 Google Assistant와 같은 음성 비서입니다. 사실, 어시스턴트는 대부분의 사람들이 컴퓨터 시스템과 상호 작용하기 위해 음성을 사용한 유일한 컨텍스트입니다.

음성 비서는 음성 사용자 인터페이스 를 주류로 가져왔지만, 비서 패러다임이 음성 사용자 인터페이스를 사용, 설계 및 생성하는 유일한 방법은 아니며 최선의 방법도 아닙니다.

이 기사에서는 음성 도우미가 겪고 있는 문제를 살펴보고 직접 음성 상호 작용이라고 하는 음성 사용자 인터페이스에 대한 새로운 접근 방식을 제시합니다.

음성 도우미는 음성 기반 챗봇입니다.

음성 비서는 아이콘과 메뉴 대신 자연어를 사용자 인터페이스로 사용하는 소프트웨어입니다. 어시스턴트는 일반적으로 질문에 답하고 종종 사전에 사용자를 도우려고 합니다.

비서는 간단한 거래와 명령 대신 인간의 대화를 모방하고 양방향으로 자연어를 상호 작용 방식으로 사용합니다. 즉, 사용자로부터 입력을 받고 자연어를 사용하여 사용자에게 응답합니다.

첫 번째 조수는 대화 기반 질문 응답 시스템이었습니다. 초기의 한 가지 예는 Microsoft Office 사용자가 달성하려고 하는 것으로 생각되는 것을 기반으로 지침을 제공하여 Microsoft Office 사용자를 도우려는 악명 높은 Microsoft의 Clippy입니다. 요즘 어시스턴트 패러다임의 일반적인 사용 사례는 채팅 토론에서 고객 지원에 자주 사용되는 챗봇입니다.

반면 음성 비서 는 타이핑과 문자 대신 음성을 사용하는 챗봇입니다. 사용자 입력은 선택이나 텍스트가 아니라 음성이며 시스템의 응답도 크게 음성으로 나옵니다. 이러한 비서는 다양한 질문에 합리적인 방식으로 답변할 수 있는 Google Assistant나 Alexa와 같은 일반 비서일 수도 있고, 패스트푸드 주문과 같은 특별한 목적을 위해 제작된 맞춤형 비서일 수도 있습니다.

종종 사용자의 입력은 한두 단어에 불과하고 실제 텍스트 대신 선택 항목으로 표시될 수 있지만 기술이 발전함에 따라 대화는 더 개방적이고 복잡 해질 것입니다. 챗봇 및 어시스턴트의 첫 번째 정의 기능은 아이콘, 메뉴 및 일반적인 모바일 앱 또는 웹사이트 사용자 경험을 정의하는 트랜잭션 스타일 대신 자연어 및 대화 스타일을 사용하는 것입니다.

추천 자료 : Web Speech API와 Node.js로 간단한 AI 챗봇 만들기

자연어 응답에서 파생되는 두 번째 정의 특성은 페르소나의 환상입니다. 시스템이 사용하는 어조, 품질 및 언어는 조수 경험, 서비스에 대한 공감과 감수성의 환상, 그리고 그 페르소나를 모두 정의합니다. 좋은 조수 경험의 아이디어 는 실제 사람과 약혼하는 것과 같습니다.

음성은 우리가 의사 소통하는 가장 자연스러운 방법이기 때문에 훌륭하게 들릴 수 있지만 자연어 응답을 사용하는 데는 두 가지 주요 문제가 있습니다. 컴퓨터가 인간을 얼마나 잘 모방할 수 있는지와 관련된 이러한 문제 중 하나는 대화형 AI 기술 의 발달로 미래에 해결될 수 있지만 인간의 두뇌가 정보를 처리하는 방식의 문제는 가까운 미래에 고칠 수 없는 인간의 문제입니다. 다음에 이러한 문제를 살펴보자.

자연어 응답의 두 가지 문제

음성 사용자 인터페이스는 물론 음성을 양식으로 사용하는 사용자 인터페이스입니다. 그러나 음성 양식은 사용자로부터 정보를 입력하고 시스템에서 다시 사용자에게 정보를 출력하는 양방향 모두에 사용할 수 있습니다. 예를 들어, 일부 엘리베이터는 사용자가 버튼을 누른 후 사용자 선택을 확인하기 위해 음성 합성을 사용합니다. 나중에 정보를 입력하기 위해 음성만 사용하고 사용자에게 정보를 다시 표시하기 위해 전통적인 그래픽 사용자 인터페이스를 사용하는 음성 사용자 인터페이스에 대해 논의할 것입니다.

반면 음성 비서 는 입력과 출력 모두에 음성을 사용합니다 . 이 접근 방식에는 두 가지 주요 문제가 있습니다.

문제 #1: 인간의 모방은 실패한다

인간으로서 우리는 인간과 유사한 특징을 인간이 아닌 대상에 귀속시키는 타고난 성향을 가지고 있습니다. 우리는 구름 속을 떠도는 남자의 모습을 보거나 샌드위치를 ​​바라보며 마치 우리를 비웃고 있는 것 같습니다. 이것을 의인화 라고 합니다.

의인화: 여기에 얼굴이 보이나요?
의인화: 여기에 얼굴이 보이나요? (사진설명: 위키미디어 크리에이티브 커먼즈) (큰 미리보기)

이 현상은 비서에게도 적용되며 자연어 응답에 의해 유발됩니다. 그래픽 사용자 인터페이스는 다소 중립적으로 구축될 수 있지만 사람의 목소리가 젊은이 또는 노인의 것인지 또는 남성인지 여성인지에 대해 생각하기 시작할 수 있는 방법은 없습니다. 이 때문에 사용자는 어시스턴트가 실제로 인간이라고 거의 생각하기 시작합니다.

점프 후 더! 아래에서 계속 읽기 ↓

그러나 우리 인간은 가짜를 탐지하는 데 매우 능숙합니다. 이상하게도 뭔가가 인간을 닮아갈수록 작은 편차가 우리를 방해하기 시작합니다. 인간을 닮으려 하지만 그에 미치지 못하는 무언가에 대한 오싹한 느낌이 있습니다. 로봇 및 컴퓨터 애니메이션에서는 이를 "불쾌한 계곡"이라고 합니다.

인간과 같은 로봇 공학의 소름 끼치는 불쾌한 계곡.
인간과 같은 로봇 공학의 소름 끼치는 불쾌한 계곡. (사진설명: 위키미디어 크리에이티브 커먼즈) (큰 미리보기)

우리는 어시스턴트를 더 낫고 더 인간적으로 만들려고 노력할수록 뭔가 잘못되었을 때 사용자 경험이 더 소름 끼치고 실망스러울 수 있습니다. 어시스턴트를 시도한 모든 사람은 바보 같거나 심지어 무례하게 느껴지는 것으로 응답하는 문제에 걸려 넘어졌을 것입니다.

음성 비서의 불쾌한 골짜기는 극복하기 어려운 비서 사용자 경험의 품질 문제를 제기합니다. 실제로 튜링 테스트 (유명한 수학자 앨런 튜링의 이름을 딴)는 두 에이전트 간의 대화를 나타내는 인간 평가자가 둘 중 어느 것이 기계이고 어느 것이 인간인지 구별할 수 없을 때 통과됩니다. 지금까지 통과된 적이 없습니다.

이는 비서 패러다임이 결코 충족될 수 없는 인간과 같은 서비스 경험을 약속 하고 사용자는 실망할 수밖에 없다는 것을 의미합니다. 성공적인 경험은 사용자가 인간과 같은 조수를 신뢰하기 시작함에 따라 궁극적인 실망을 키울 뿐입니다.

문제 2: 순차적이고 느린 상호작용

음성 비서의 두 번째 문제는 자연어 응답의 턴 기반 특성으로 인해 상호 작용이 지연된다는 것입니다. 이것은 우리의 두뇌가 정보를 처리하는 방식 때문입니다.

뇌의 정보 처리
두뇌의 정보 처리. (제공: Wikimedia Creative Commons) (큰 미리보기)

우리 뇌에는 두 가지 유형의 데이터 처리 시스템이 있습니다.

  • 말을 처리하는 언어 시스템 .
  • 시각 및 공간 정보 처리를 전문으로 하는 시공간 시스템 .

이 두 시스템은 병렬로 작동할 수 있지만 두 시스템은 한 번에 한 가지만 처리합니다 . 이것이 당신이 동시에 말을 하고 자동차를 운전할 수 있는 이유이지만, 문자와 운전은 둘 다 시공간 시스템에서 일어나기 때문에 할 수 없습니다.

대화 당사자는 교대로 이야기하지만 의사 소통을 돕기 위해 서로에게 시각적 신호를 줄 수 있습니다.
대화 당사자는 교대로 이야기하지만 의사 소통을 돕기 위해 서로에게 시각적 신호를 줄 수 있습니다. (사진: Trung Thanh) (큰 미리보기)

마찬가지로 음성 비서와 대화할 때 비서는 조용히 있어야 하며 그 반대의 경우도 마찬가지입니다. 이것은 다른 부분이 항상 완전히 수동적인 턴 기반 대화를 만듭니다.

그러나 친구와 의논하고 싶은 어려운 주제를 생각해 보십시오. 전화보다는 직접 만나서 이야기 하시겠죠? 그것은 면대면 대화에서 비언어적 의사 소통을 사용하여 대화 상대에게 실시간 시각적 피드백을 제공하기 때문입니다. 이는 양방향 정보 교환 루프를 생성하고 양 당사자가 동시에 대화에 적극적으로 참여할 수 있도록 합니다.

어시스턴트는 실시간 시각적 피드백을 제공하지 않습니다. 그들은 사용자가 말을 멈추고 그 후에만 응답할 때를 결정하기 위해 끝점 지정이라는 기술에 의존합니다. 그리고 그들이 응답할 때 동시에 사용자로부터 어떤 입력도 받지 않습니다. 경험은 완전히 단방향이며 턴 기반입니다.

양방향 실시간 대면 대화에서 양쪽 당사자는 시각적 신호와 언어적 신호 모두에 즉시 반응할 수 있습니다. 이것은 인간 두뇌의 다른 정보 처리 시스템을 활용하여 대화가 더 부드럽고 효율적입니다.

음성 비서는 입력 및 출력 채널 모두로 자연어를 사용하기 때문에 단방향 모드에 갇혀 있습니다. 음성은 입력을 위해 타이핑하는 것보다 최대 4배 빠르지만 읽는 것보다 소화하는 것은 훨씬 느립니다. 정보를 순차적으로 처리해야 하기 때문에 이 접근 방식은 보조자의 출력이 많이 필요하지 않은 "조명 끄기"와 같은 간단한 명령에만 적합합니다.

앞서 사용자로부터 데이터를 입력하기 위해 음성만을 사용하는 음성 사용자 인터페이스에 대해 논의하기로 약속했습니다. 이러한 종류의 음성 사용자 인터페이스는 음성 사용자 인터페이스의 가장 좋은 부분인 자연스러움, 속도 및 사용 용이성의 이점을 누릴 수 있지만 나쁜 부분(불쾌한 계곡 및 순차적 상호 작용)으로 고통받지 않습니다.

이 대안을 생각해 봅시다.

음성 도우미에 대한 더 나은 대안

음성 비서에서 이러한 문제를 극복하는 솔루션은 자연어 응답을 버리고 실시간 시각적 피드백으로 대체하는 것입니다. 피드백을 시각적으로 전환하면 사용자가 동시에 피드백을 주고받을 수 있습니다. 이렇게 하면 응용 프로그램이 사용자를 방해하지 않고 양방향 정보 흐름을 활성화할 수 있습니다. 정보 흐름이 양방향이므로 처리량이 더 큽니다.

현재 음성 비서의 주요 사용 사례는 알람 설정, 음악 재생, 날씨 확인, 간단한 질문입니다. 이들 모두는 실패할 때 사용자를 너무 많이 좌절시키지 않는 저부담 작업 입니다.

월스트리트 저널 의 데이비드 피어스는 언젠가 이렇게 썼습니다.

"음성 비서를 통해 항공편을 예약하거나 예산을 관리하거나 스피커에서 재료를 소리내어 식단을 추적하는 것은 상상할 수 없습니다."

— 월스트리트 저널의 데이비드 피어스

이것들은 제대로 진행해야 하는 정보가 많은 작업입니다.

그러나 결국에는 음성 사용자 인터페이스가 실패합니다. 이를 최대한 빨리 커버하는 것이 핵심입니다. 키보드로 타이핑을 하거나 대면 대화를 할 때도 많은 오류가 발생합니다. 그러나 사용자가 백스페이스를 클릭하고 다시 시도하거나 설명을 요청하여 간단히 복구할 수 있으므로 이는 전혀 답답하지 않습니다.

빠른 오류 복구 는 사용자가 보다 효율적으로 작업할 수 있게 해주며 조수와 이상한 대화를 하도록 강요하지 않습니다.

음성을 사용하여 항공권을 예약합니다.

직접적인 음성 상호 작용

대부분의 응용 프로그램에서 작업은 화면의 그래픽 요소 조작, 찌르기 또는 스와이프(터치스크린에서), 마우스 클릭 및/또는 키보드의 버튼 누르기를 통해 수행됩니다. 이러한 그래픽 요소를 조작하기 위한 추가 옵션 또는 양식으로 음성 입력을 추가할 수 있습니다. 이러한 유형의 상호 작용을 직접 음성 상호 작용 이라고 할 수 있습니다.

직접적인 음성 상호 작용과 어시스턴트의 차이점은 어시스턴트인 아바타에게 작업을 수행하도록 요청하는 대신 사용자가 음성으로 그래픽 사용자 인터페이스를 직접 조작한다는 것입니다.

사용자가 말할 때 실시간 시각적 피드백을 제공하는 음성 검색
사용자가 말할 때 실시간 시각적 피드백을 제공하는 음성 검색. (제공: 스크린샷) (큰 미리보기)

"이것이 의미론이 아닌가요?"라고 물을 수 있습니다. 컴퓨터와 대화할 예정이라면 컴퓨터와 직접 대화하거나 가상 페르소나를 통해 대화하는 것이 정말 중요합니까? 두 경우 모두 컴퓨터와 대화하는 것뿐입니다!

예, 그 차이는 미묘하지만 중요합니다. GUI( 그래픽 사용자 인터페이스)에서 버튼이나 메뉴 항목을 클릭하면 우리가 기계를 작동하고 있다는 것이 뻔히 보입니다 . 사람에 대한 환상은 없습니다. 그 클릭을 음성 명령으로 대체함으로써 우리는 인간-컴퓨터 상호 작용을 개선합니다. 반면에 보조 패러다임을 사용 하면 인간 대 인간 상호 작용의 악화된 버전을 만들고 따라서 불쾌한 계곡으로 여행하게 됩니다.

음성 기능을 그래픽 사용자 인터페이스에 혼합하면 다양한 방식의 힘을 활용할 수 있는 가능성도 제공됩니다. 사용자는 음성을 사용하여 애플리케이션을 작동할 수 있지만 기존 그래픽 인터페이스도 사용할 수 있습니다. 이를 통해 사용자 는 터치와 음성 사이를 원활하게 전환 하고 상황과 작업에 따라 최상의 옵션을 선택할 수 있습니다.

예를 들어 음성은 풍부한 정보를 입력하는 매우 효율적인 방법입니다. 몇 가지 유효한 대안 중에서 선택하거나 터치하거나 클릭하는 것이 더 나을 것입니다. 그런 다음 사용자는 "내일 출발하는 런던에서 뉴욕까지의 항공편을 보여줘"와 같이 말하여 타이핑과 검색을 대체하고 터치를 사용하여 목록에서 최상의 옵션을 선택할 수 있습니다.

이제 당신은 이렇게 물을 수 있습니다. “좋아요, 좋아보이네요. 왜 우리는 그런 음성 사용자 인터페이스의 예를 전에 보지 못했습니까? 왜 주요 기술 회사는 이와 같은 도구를 만들지 않습니까?” 글쎄요, 아마도 많은 이유가 있을 것입니다. 한 가지 이유는 현재 음성 도우미 패러다임이 최종 사용자로부터 얻은 데이터를 활용하는 가장 좋은 방법일 수 있기 때문입니다. 또 다른 이유는 음성 기술이 구축된 방식과 관련이 있습니다.

잘 작동하는 음성 사용자 인터페이스에는 두 가지 별개의 부분이 필요합니다.

  1. 음성을 텍스트로 변환하는 음성 인식 ;
  2. 해당 텍스트에서 의미를 추출하는 자연어 이해 구성 요소.

두 번째 부분은 "거실 불을 꺼주세요"와 "거실 불을 꺼주세요"라는 말을 같은 행동으로 바꾸는 마법입니다.

추천 자료 : API.AI를 사용하여 Google Home을 위한 나만의 작업을 구축하는 방법

디스플레이가 있는 어시스턴트(예: Siri 또는 Google 어시스턴트)를 사용한 적이 있다면 거의 실시간으로 대본을 받는 것을 눈치채셨겠지만 말을 멈춘 후 시스템이 표시되기까지 몇 초가 걸립니다. 실제로 요청한 작업을 수행합니다. 이는 음성 인식과 자연어 이해가 순차적으로 이루어지기 때문입니다.

이것이 어떻게 바뀔 수 있는지 봅시다.

실시간 음성 언어 이해: 보다 효율적인 음성 명령을 위한 비밀 소스

애플리케이션이 사용자 입력에 얼마나 빨리 반응하는가는 애플리케이션의 전체 사용자 경험에서 중요한 요소입니다. 원래 iPhone의 가장 중요한 혁신은 반응성과 반응성이 뛰어난 터치 스크린이었습니다. 음성 입력에 즉각적으로 반응 하는 음성 사용자 인터페이스의 기능도 마찬가지로 중요합니다.

사용자와 UI 사이에 빠른 양방향 정보 교환 루프를 설정하기 위해 음성 지원 GUI는 사용자가 실행 가능한 무언가를 말할 때마다 문장 중간에도 즉시 반응할 수 있어야 합니다. 이를 위해서는 스트리밍 음성 언어 이해 라는 기술이 필요합니다.

실시간 시각적 피드백을 위해서는 스크립트뿐만 아니라 사용자 의도 및 엔터티를 실시간으로 반환할 수 있는 완전한 스트리밍 음성 API가 필요합니다.
실시간 시각적 피드백을 위해서는 스크립트뿐만 아니라 사용자 의도 및 엔터티를 실시간으로 반환할 수 있는 완전한 스트리밍 음성 API가 필요합니다. (제공: 저자) (큰 미리보기)

사용자 요청을 처리하기 전에 사용자가 말하기를 중단하기를 기다리는 기존의 턴 기반 음성 비서 시스템과 달리 스트리밍 음성 언어 이해를 사용하는 시스템은 사용자가 말하기 시작하는 순간부터 사용자 의도를 적극적으로 이해하려고 시도합니다. 사용자가 실행 가능한 무언가를 말하자마자 UI는 이에 즉시 반응합니다.

즉각적인 응답은 시스템이 사용자를 이해하고 있음을 즉시 확인하고 사용자가 계속하도록 권장합니다. 이는 사람과 사람 간의 의사 소통에서 고개를 끄덕이거나 짧은 "아하"와 유사합니다. 그 결과 더 길고 복잡한 발화가 지원됩니다. 각각 시스템이 사용자를 이해하지 못하거나 사용자가 잘못 말한 경우 즉각적인 피드백을 통해 빠른 복구 가 가능합니다. 사용자는 즉시 수정하고 계속하거나 구두로 수정할 수도 있습니다. 음성 검색 데모에서 이러한 종류의 응용 프로그램을 직접 사용해 볼 수 있습니다.

데모에서 볼 수 있듯이 실시간 시각적 피드백을 통해 사용자는 자연스럽게 스스로를 수정하고 음성 경험을 계속할 수 있습니다. 가상 페르소나에 의해 혼동되지 않기 때문에 오타와 유사한 방식으로 가능한 오류와 관련될 수 있습니다. 개인적인 모욕이 아닙니다. 사용자에게 제공되는 정보가 분당 약 150단어의 일반적인 말 속도에 제한되지 않기 때문에 경험이 더 빠르고 자연스럽 습니다.

추천 자료 : Lyndon Cerejo의 음성 경험 디자인

결론

음성 비서는 지금까지 음성 사용자 인터페이스에 가장 일반적으로 사용되어 왔지만 자연어 응답을 사용하면 비효율적이고 부자연스럽습니다. 음성은 정보 입력을 위한 훌륭한 양식이지만 기계가 말하는 것을 듣는 것은 그다지 고무적이지 않습니다. 이것이 음성 비서의 가장 큰 문제입니다.

따라서 음성의 미래는 컴퓨터와의 대화가 아니라 지루한 사용자 작업 을 가장 자연스러운 의사 소통 방식인 음성 으로 대체하는 것이어야 합니다. 직접 음성 상호 작용을 사용하여 웹 또는 모바일 애플리케이션에서 양식 작성 경험을 개선하고, 더 나은 검색 경험을 만들고, 애플리케이션을 제어하거나 탐색하는 보다 효율적인 방법을 사용할 수 있습니다.

디자이너와 앱 개발자는 앱이나 웹사이트에서 마찰을 줄이는 방법을 끊임없이 찾고 있습니다. 음성 양식으로 현재 그래픽 사용자 인터페이스를 개선하면 특히 최종 사용자가 모바일에 있고 이동 중이고 타이핑이 어려운 특정 상황에서 사용자 상호 작용이 몇 배 더 빨라질 수 있습니다. 실제로 음성 검색은 데스크톱 컴퓨터를 사용하는 경우에도 기존 검색 필터링 사용자 인터페이스보다 최대 5배 더 빠를 수 있습니다.

다음에 애플리케이션의 특정 사용자 작업을 더 쉽게 사용하고 더 즐겁게 사용할 수 있는 방법에 대해 생각하거나 전환을 늘리는 데 관심이 있을 때 해당 사용자 작업을 자연어로 정확하게 설명할 수 있는지 고려하십시오. 그렇다면 음성 양식으로 사용자 인터페이스를 보완하되 사용자가 컴퓨터와 대화하도록 강요하지 마십시오 .

자원

  • "음성 우선 대 미래의 다중 모드 사용자 인터페이스", Joan Palmiter Bajorek, UXmatters
  • "생산적인 음성 지원 앱을 만들기 위한 지침", Hannes Heikinheimo, Speechly
  • "터치스크린 앱에 음성 기능이 있어야 하는 6가지 이유", Ottomatias Peura, UXmatters
  • 유형 및 무형의 혼합: Adobe XD를 사용한 다중 모드 인터페이스 디자인, Nick Babich, Smashing Magazine
    ( Adobe XD는 비슷한 것을 프로토타이핑하는 데 사용할 수 있습니다. )
  • "음속의 효율성: 음성 지원 작업의 약속", Eric Turkington, RAIN
  • 전자 상거래 음성 검색 필터링의 실시간 시각적 피드백을 보여주는 데모(비디오 버전)
  • Speechly는 이러한 종류의 사용자 인터페이스를 위한 개발자 도구를 제공합니다.
  • 오픈 소스 대안: voice2json