Голосовой интерфейс

Пересказ доклада Константина Самойлова «Голосовые интерфейсы и проектирование виртуальных ассистентов». Константин был исследователем пользовательского опыта в Google и занимался речевыми интерфейсами (система OK Google и голосовой поиск).

Доклад рассказан на UX-марафоне «Взаимодействие будущего» 6 июля 2017 года, когда голосового помощника «Яндекса» ещё не было.

Что это

Чтобы не было путаницы, важно договориться, что в принципе понимается под голосовым интерфейсом (ГИ).

Задача распознавания голоса активно решается. Его качество даже для не английского языка в неидеальных условиях (с акцентами и интонациями) составляет 95−98%. Если натренировать модель, качество можно повысить.

Кроме распознавания и генерации голоса есть 3 составляющих, о которых часто забывают. Без них голосовое взаимодействие с системой практически невозможно.

1. Естественный язык

Если говорить о ГИ как о замене печатания на клавиатуре или касания экрана, реализовать его просто — достаточно сделать ввод команд голосом.

Но это не будет работать, так как язык команд не естественен для человека. В понимании пользователей преимущество ГИ заключается в том, что ему не надо учиться. Мы умеем говорить, мы — эксперты по взаимодействию друг с другом.

Сейчас язык взаимодействия со всеми существующими системами не естественный. Можно сказать «Алекса, начни играть такой-то трек», но это определённая грамматика, которой обучена система и которая на самом деле скрыта от пользователя.

2. Диалог

Даже если мы можем голосом передавать команды в компьютер, система всё равно не будет работать. Предполагается, что все данные вводятся в самом начале. В программировании, если разработчик ввёл неправильную команду, система не уточняет, что именно он имел в виду. Как правило, она просто не работает.

Это должен быть диалог.

3. Неограниченный словарный запас и грамматика

Та же Алекса работает на маленьком островке ответственности. В соответствии с заложенными алгоритмами, она ожидает получить от пользователя определённые аргументы. Ожидания системы ограничивают грамматику и словарный запас, которые пользователь может использовать.

В Гугле разработчики продумали, какую грамматику и типы слов в английском языке могут использовать люди для самых распространённых задач вроде установки будильника или создания напоминания.

4 года назад начали проводить тесты. На первом же тесте пользователь сказал что-то, чего разработчики не планировали. Система не сработала, разработчики сказали: «Чёрт, мы об этом не подумали».

Через 3 года улучшенной версии той же системы пользователь сказал что-то такое, что она не сработала, и разработчики сказали: «Чёрт, об этом мы тоже не подумали». Шло время, развивалось дерево решений и грамматики для конкретной задачи, и каждый новый тест выявлял исключение, которое разработчики не учли.

Естественный язык, диалог и словарный запас с грамматикой — фундаментальные вопросы, которые надо решить, чтобы ГИ на самом деле работал.

Типы

В обсуждениях ГИ и диалоговых интерфейсов люди затрагивают целый спектр систем. Начиная с ботов, которые отвечают на самые простые вопросы и невпопад шутят, и заканчивая сложными системами, которые используются на промышленном уровне. Например, на удивление хорошая система подачи налоговой декларации в Англии.

Текущее состояние

Основные игроки:

  • Alexa от Amazon,
  • Siri от Apple,
  • OK Google,
  • Cortana от Microsoft, которой мало кто пользуется.

Samsung делает свою новую систему под названием Vera. Alibaba — помощника для китайских пользователей. Рынок взорвался, все работают в этой области.

Но возникла парадоксальная ситуация. Компании, обладающие ресурсами, знаниями и навыками для значительного шага вперёд и сильного изменения индустрии, не заинтересованы в этом шаге. ГИ и голосовые ассистенты — инновация, которая меняет текущее положение дел (disruptive technology).

Гугл зарабатывает на рекламе. Если вместо ссылок, рядом с которыми показывается реклама, люди станут получать готовый ответ на вопрос, возникнет вопрос: что делать с рекламой?

Сири — достаточно хороший ассистент, который стимулирует продажи айфонов. Она выполняет свои задачи, и компании нет смысла делать что-то новое, что изменит экосистему приложений App Store.

Нынешняя модель взаимодействия человека с компьютером — ящик с инструментами. Мы находим инструмент, кладём его в ящик и в определённый момент используем для достижения цели. Мы сами отвечаем за поиск и владение инструментами и сами должны понимать, когда и в какой последовательности их использовать.

Преимущество ГИ в том, что мы выражаем своё желание естественным образом. Естественно сказать «Дорогая, принеси мне, пожалуйста, чай» — мы говорим о нужном результате, а не проговариваем все шаги, которые для этого необходимы.

Фундаментальное изменение модели взаимодействия приведёт к тому, что отдельные инструменты будут не нужны.

Проектирование

Люди ожидают, что можно естественным образом выражать свои желания, а система будет их понимать. Система должна подстраиваться под человека, а не наоборот. Поэтому проектирование ГИ — это в большей степени работа над пониманием человеческих особенностей.

Доверие

Одна девушка трижды участвовала в тестировании. Во 2-й раз, когда система уже достаточно хорошо работала, реакция была «О боже мой, эта штука живёт в моём телефоне, теперь моя жизнь изменится». На 3-м тестировании, через месяц, она сказала, что ни разу не использовала систему и не собирается.

Хоть система и работала в большинстве случаев, девушка ей просто не доверяла. Доверие — не технический вопрос, но если его не решить, вся остальная работа будет проделана зря.

Доверие противоположно контролю. Поговорка «Доверяй, но проверяй» — нонсенс. Не бывает, чтобы вы пришли домой и жена вам сказала: «Дорогой, ты вернулся в 12 часов ночи. Ты говорил, что на совещании. Поэтому я позвонила всем твоим друзьям, в твою компанию и твоему водителю, и ты действительно был на совещании. Я тебе доверяю, но проверяю». Такого не бывает.

Сначала мы узнаём, как система справляется, а потом начинаем делегировать ей задачи. Она становится чёрным ящиком — мы не знаем, как она это делает. Как и с живым ассистентом, мы отдаём контроль и заменяем его доверием.

Даже простая задача вроде установки будильника в определённом контексте не может быть так же легко делегирована. Одно дело — поставить будильник на субботу, чтобы просто не проспать до полудня. Другое — на 5 утра, чтобы приехать в аэропорт и встретить родителей. Люди не понимали, насколько система может ошибаться, поэтому не использовали её вовсе.

Невидимый интерфейс

Уникальность голосового интерфейса в том, что он невидимый. В графическом интерфейсе мы видим элементы управления: есть ли они, как выглядят, современный ли дизайн, есть ли кнопки «Назад» и «Вперёд», на каком шаге мы сейчас находимся, промежуточном или конечном.

ГИ не даёт этого увидеть. Мы пытаемся создать умственную модель системы и ответить на вопросы вроде: «Если скажу сейчас “Назад”, я попаду в начало диалога или в предыдущее состояние? И что это за состояние?»

Умственная модель отвечает на вопрос о возможностях системы. Причём, эта модель всегда неправильная. Если мы только что общались с голосовым меню «Нажмите один, чтобы что-то», ожидания будут занижены. Если мы недавно смотрели фильм «Она», ожидания будут завышены.

Чтобы ГИ хоть как-то работал, надо помогать пользователю создать и скорректировать умственную модель системы.

Корректировка умственной модели

Система может задавать вопросы, предполагающие простые ответы: «Вы хотите сохранить событие в календаре? Да / нет». А может — предполагающие развёрнутые ответы: «Вы хотите сделать что-то ещё? Перенеси это событие на полчаса вперёд».

Из формата вопроса пользователь может сделать вывод, что в первом случае система довольно глупая. Он скажет «Нет, не сохранять» и последующие команды будет давать с такой же гранулярностью: «Новое событие. Когда хотите сделать? В 12:30. Что хотите сделать? Встретить родителей. Где? В аэропорту».

Во втором случае он может решить, что система умная и понимает развёрнутые ответы. Для корректировки введённой информации он скажет: «Вместо этого я хочу сделать новое событие на завтра, на 12:30, чтобы встретить родителей в аэропорту».

Человечность

Чтобы сделать ГИ, который естественен для человека, надо понять, почему наш разговор с другим человеком считается естественным. За счёт каких характеристик? Мы поняли, что не знаем этого.

Есть умные люди, с которыми приятно общаться и с которыми нет. Есть люди с достаточно зрелыми реакциями: они иначе реагируют на наши ошибки и вопросы. 50 лет назад не было такого понятия как эмоциональный интеллект. Наверняка, мы не знаем многих других характеристик, благодаря которым мы можем комфортно общаться с другими людьми.

Не зная этих характеристик, нельзя внести их в систему и сделать общение с системой естественным. Один из возможных выходов — система не обязательно должна быть готовой. Можно выпустить полуфабрикат, который будет получать обратную связь от людей и узнавать, что он сделал правильно и неправильно.

Несмотря на то, что мы не знаем, какими эти характеристики должны быть, в какой-то момент система сама их выяснит и будет поддерживать.

Персоналити

Что ещё интересного обнаружили во время работы над голосовыми интерфейсами (ГИ) в Google.

Один из самых популярных вопросов — характер личности голосового ассистента. Сейчас технологии позволяют только имитировать дружелюбность, интеллектуальность, чувство юмора и так далее. Особенность человека в том, что это очень многоплановые характеристики. Подходы компаний разнятся и зависят от цели создания голосовой системы и философии компании.

Алиса от «Яндекса». Автор скриншота: Кирилл Ященко
Алиса от «Яндекса». Автор скриншота: Кирилл Ященко

Сири — проект компании, которая создаёт магический пользовательский опыт. Всё должно просто работать. И если пользователь угадывает с грамматикой и словарём, всё замечательно. Но если не угадывает, система перестаёт работать без малейшего указания на то, что не так и как скорректировать поведение, чтобы в следующий раз она работала лучше.

При этом огромное внимание уделено персоналити. Они работали над качеством голоса и человечным взаимодействием: Сири может пошутить, добавить забавный комментарий при выполнении стандартной задачи. Иногда это выглядит естественно, но мы быстро достигаем uncanny valley («зловещей долины»).

Эффект такой: чем больше система похожа на человека, тем больше она ему нравится. Но когда она становится очень похожей, приязнь резко снижается и восстанавливается только для полной имитации. Этот спад и называется «зловещей долиной». См. статью на Википедии.

Зловещая долина
Зловещая долина

С персоналити мы быстро в неё сваливаемся: система удачно шутит, человек расслабляется, использует другой набор слов и грамматику, и система начинает реагировать не так, как он ожидает. Пользователь может посчитать, что система над ним смеётся или не одобряет. Это намного хуже, чем если бы он просто думал, что перед ним глупый робот.

Одно из основных отличий ассистента Гугла в том, что у него даже нет имени (OK, Google). У Сири (Apple) и Алексы (Amazon) есть имена, и они пытаются вести себя как человек.

В Гугле мы пришли к выводу, что безопаснее всего не имитировать персоналити и показать пользователю, что это просто технологии без какого-либо человеческого общения.

Ответы на вопросы

Безопасность

Интересные решения есть у Алексы: она может контактировать с устройствами, которые есть дома, например, с умным замком. Можно подойти к двери и сказать: «Алекса, открой дверь, код такой-то».

Есть куча нюансов. Когда мы используем голос, нас слышат все, кто находится поблизости — это не безопасно и иногда неуместно. Люди используют ГИ у себя в машине для создания события, но не делают этого в автобусе, так как окружающие услышат, где, когда и с кем они планируют быть.

Мы решили не использовать ГИ, когда важна безопасность. В этом случае требования к системе выше. Если мы ставим будильник, и он срабатывает в 99 случаях из 100, это нормально. Если закрываем машину или сейф, срабатывание 99 случаях из 100 неприемлемо.

Появляется вопрос обратной связи. Если мы ставим будильник, достаточно ответа, что он поставлен. Мы не уточняем все записанные системой параметры. При повышенных требованиях к безопасности мы должны полностью доверять системе, что невозможно в текущем состоянии. Либо должны получать обратную связь: включена сигнализация, такого-то плана, будет работать до такого-то момента, выключить её может этот человек и так далее. Если система сообщает это голосом, кто-то другой может это услышать. А если система сообщает конфиденциальную информацию?

Поэтому в своей работе мы решили не связываться с ситуациями, когда важны безопасность и приватность.

Ближайшее будущее

Крупные компании будут пытаться имитировать возможность ассистента ответить на любой вопрос, и это всё ещё не будет работать.

Применение будет возможно в узких сферах, где ожидания пользователя ограничивают его словарь и динамику взаимодействия. Например, билетному аппарату можно сказать, что нужен билет от Москвы до Калуги на завтрашний вечер. Если человек затем спросит, сколько лет Бараку Обаме, совершенно нормально, когда такая система не ответит.

Будущее за фокусом на определённом юзкейсе, поддержке всей связанной с ним грамматики и игнорировании всего, что за его пределами.

Использование в платежах

Голос используется для подтверждения платежей, но это лишь часть всего взаимодействия. Нет примеров, когда весь процесс можно пройти голосом. Отчасти это связано с юридическими особенностями и возвратом платежей.

В Европе есть cooldown period, когда в течение определённого времени (в разных странах оно разное) покупатель может вернуть товар, даже если с ним всё в порядке. Человек может поменять своё мнение без причины, и это поддерживается законом.

Платёжной системе также необходима гарантия, что человек оплатил продукт, зная, что он покупает, и это не ошибка. Если это ошибочная покупка, при возврате платежа действует совсем другое правило. Были случаи, когда ребёнок брал телефон (Amazon Fire), что-то говорил и запускал процесс покупки. В этом случае невозможно доказать, кто её инициировал.

Когда необходим

Принято считать, что новая технология просто заменит предыдущую, но это не всегда так. Сейчас говорят о голосификации приложений, когда для существующего приложения экран просто заменяется голосом. Очевидно, это так не работает. В основном потому, что голос используется в других условиях. Если человек может держать телефон и нажимать на экран, он, скорее всего, не будет использовать голос. Тачскрин чаще всего удобнее ГИ.

Голос удобен тогда, когда сложно использовать телефон: за рулём, в дороге с сумками или дома на диване, когда телефон лежит на столе и просто лень вставать, чтобы взять его в руки. Включить музыку голосом оказывается проще, даже если нажать на кнопку — быстрее.

ГИ необходим тогда, когда использование телефона обычным способом невозможно, например, в автомобиле. Но если компания говорит, что продукт можно использовать во время вождения, ей надо доказывать специальным органам, что все законодательные ограничения, связанные с вождением, приняты во внимание.

ГИ необходимо использовать, когда соблюдается 2 условия:

  • Человек занимается чем-то многозадачным и не может сконцентрировать внимание на одном устройстве;
  • То, что он делает с помощью ГИ, не является основной задачей.

Связь с визуальным интерфейсом

Огромное преимущество визуальных интерфейсов в том, что варианты взаимодействия видны. С ГИ мы не знаем, что нам доступно.

Взаимодействие с экранами — очень хорошо проработанная тема. Экран останется даже тогда, когда ГИ будет работать хорошо, хотя бы потому, что у нас есть глаза. Визуальное восприятие — основное. Голосовое — вспомогательное.

Голос может взаимодействовать с экранным представлением данных и при этом не быть подчинённой структурой. Например, в Алексе основной компонент — голос. Можно поставить приложение, чтобы видеть ответы системы на экране (некоторые ответы сложно воспринимать на слух). Правда, сейчас концепция меняется — следующая версия Amazon Echo будет со своим экраном.

Применение в критических процессах

Хирург — хороший пример многозадачности. Он фокусируется на одном виде деятельности, но ему может требоваться дополнительная информация. Здесь ГИ применяется уже сейчас.

IBM с проектом Watson пошли по другому пути. Они начали работать над искусственным интеллектом. Сначала он выиграл у людей в викторину, а 4 года назад его внедрили в нескольких американских клиниках. Сейчас его используют для диагностики рака в 1000 клиниках. Система используются для критических процессов, но в очень узких юзкейсах. При этом персонал проходит специальную подготовку.

Примеры удачных решений

Амазон запустил продукт, который кардинально отличался: нет экрана, это физический объект, качество голоса намного выше (за счёт встроенного хранилища данных с предзаписанными сэмплами).

Интересное диалоговое взаимодействие Гугла. Если мы говорим, что хотим добавить что-то в календарь, запустится система диалогов, достаточно гибкая и довольно очевидная. Он уточняет информацию о мероприятии, вы можете корректировать данные и так далее.

Хорошо Майкрософт в Кортане решили вопрос настройки. Сейчас ожидается, что человеку не надо ничего знать о системе и настраивать: когда я говорю это, то обычно имею в виду следующее; вот эти слова я использую не так, как остальные люди и так далее. По идее, это должно работать автоматически, но не работает, а значит, должна быть система настройки.

Эпл вопрос настроек полностью игнорирует. Для Кортаны можно указать свои интересы и так далее, и при этом интерфейс достаточно простой.

Также опубликовано на Медиуме и VC.