Как проектировать голосовые интерфейсы пользователя

Узнайте, что пользователи ожидают от голосовой связи, и получите практические рекомендации по созданию великолепных голосовых пользовательских интерфейсов. Станьте частью растущей индустрии!

Как проектировать голосовые интерфейсы пользователя

11 Октября, 2019 Автор: Максим М

Если вы новичок в разработке голосовых пользовательских интерфейсов, вы можете быстро почувствовать себя неуверенными в том, как создавать отличные пользовательские интерфейсы. То, как пользователи взаимодействуют с голосовыми интерфейсами, сильно отличается от того, как они взаимодействуют с графическими. Неудивительно, что ожидания пользователей в отношении голосовых пользовательских интерфейсов заключаются в том, что взаимодействие будет больше похоже на общение, чем на использование технологий, поскольку они связывают голос и общение с другими людьми, а не с технологиями. Голосовые интерфейсы растут в количестве, сложности и доступности по разумным ценам. Здесь вы узнаете, что пользователи ожидают от голосовой связи, и получите практические рекомендации по созданию великолепных голосовых пользовательских интерфейсов.

Чтобы иметь возможность создавать отличные пользовательские интерфейсы с помощью голосовых взаимодействий, вам необходимо понимать, как люди естественным образом общаются друг с другом, и вы должны понимать основы голосового взаимодействия. Давайте начнем с изучения некоторых атрибутов голосового общения между людьми. Оттуда мы дадим вам некоторые практические рекомендации, основанные на колоссальном интернет-ритейлере лучших методов Amazon для создания голосового взаимодействия между пользователем и технологией. С их голосовым помощником Alexa, Amazon был одним из первых, кто продвинулся вперед и получил коммерческий успех и похвалу пользователей за свой голосовой интерактивный продукт.

Голосовые пользовательские интерфейсы

Они повсюду. Мы можем найти голосовые пользовательские интерфейсы в телефонах, телевизорах, умных домах и ряде других продуктов. С достижениями в области распознавания голоса и технологии умного дома голосовое взаимодействие только будет расти. Иногда голосовые интерфейсы являются дополнительными функциями графических интерфейсов, например, когда вы используете их для поиска названий фильмов на телевизоре. В других случаях голосовые пользовательские интерфейсы являются основным или единственным способом взаимодействия с продуктом, таким как динамики умного дома Amazon Echo Dot или Google Home.

Интерфейс Apple Siri является примером голосового пользовательского интерфейса, который сосуществует с графическим пользовательским интерфейсом, в данном случае iPhone.

Если вы добавите голосовые пользовательские интерфейсы в свой дизайн UX, вы можете использовать голосовое взаимодействие, чтобы сделать взаимодействие с существующими графическими интерфейсами более удобным для пользователя, или вы можете создавать собственные приложения для продуктов, которые используют только голосовое взаимодействие, что очень удобно, если Вы хотите работать с умными средами. Тем не менее, голосовые пользовательские интерфейсы очень отличаются от графических пользовательских интерфейсов - вы не можете применять одни и те же рекомендации по проектированию. В голосовых пользовательских интерфейсах вы не можете создавать визуальные возможности. Следовательно, глядя на него, пользователи не будут иметь четких указаний на то, что интерфейс может делать и каковы его параметры. В то же время пользователи не уверены в том, что они могут ожидать от голосового взаимодействия, потому что мы обычно связываем голос с общением с другими людьми, а не с технологиями.

«Великий миф нашего времени заключается в том, что технология - это коммуникация».

— Либби Ларсен, американский композитор

Динамик Amazon Echo Dot использует голосовой пользовательский интерфейс Alexa в качестве основной формы взаимодействия.

Что пользователи ожидают от голосового общения?

«Речь является основным средством человеческого общения. Даже когда другие формы общесния, такие как письмо, выражение лица или язык жестов, будут одинаково выразительными (слушающие люди) во всех культурах убеждают, информируют и строят отношения, прежде всего, посредством речи».

—Клиффорд Насс и Скотт Брэйв, исследователи и авторы Стэнфорда

В своей книге о голосовом взаимодействии "Wired for Speech" исследователи из Стэнфорда Клиффорд Насс и Скотт Брэйв утверждают, что пользователи в некоторой степени относятся к голосовым интерфейсам так же, как они относятся к другим людям. Поскольку речь так важна для человеческого общения, мы не можем полностью игнорировать наши ожидания относительно того, как обычно происходит речевое общение, даже если мы полностью осознаем, что говорим с устройством, а не с человеком. Это означает, что для того, чтобы понять основные ожидания пользователя в отношении голосовых интерфейсов - мы должны понимать принципы, управляющие человеческим общением. Другими словами, нам нужно взглянуть в зеркало, прежде чем мы сможем определить, что заставляет дизайн такого типа либо замыкаться на пользователях, либо в конечном итоге разочаровывать их, помня также, что пользователи очень скоро разочаруются, если что-то пойдет не так.

В своей классической книге «Планы и ситуативные действия: проблема коммуникации человек-машина» Люси Сучман описывает человеческое общение как локализованное и привязанное к контексту. Большая часть информации не содержится в самом устном сообщении, когда люди разговаривают. Мы используем наше знание контекста для создания общего значения, когда мы слушаем и говорим. Сучман использует следующий пример (из книги Мэрилин Мерритт 1977 года) краткого разговора, где знание контекста необходимо, чтобы понять смысл сказанного:

A: «У вас есть кофе, чтобы я мог идти?»
Б: «Молоко и сахар?»

Это может быть не сразу очевидно для вас, но если вы подумаете о вышеупомянутом диалоге, вы увидите, что вы уже сделали много выводов относительно контекста, в котором может происходить такой разговор. Например, вы, возможно, уже догадались о расположении: кофейня или, по крайней мере, какой-нибудь продуктовый магазин и роли вовлеченных людей (клиент, работник). Если этот разговор имел для вас смысл, то это означает, что вы должны понимать, что такое кофейня, что значит что-то покупать и что многие люди любят молоко и сахар в своем кофе. Кроме того, вы также должны понимать, что когда оратор "А" спрашивает, есть ли в кофейне кофе, она хочет купить кофе, хотя она и не заявляет об этом желании. «Идти» - это идиома, означающая, что это конструкция, которая означает нечто отличное от того, как работает типичное сочетание «идти» и «уйти». Вместо этого он передает значение того, что клиент хочет взять покупку (почти всегда еду или питье) из заведения, а не сидеть и наслаждаться ею там. Точно так же, как мы говорим об «организации» вечеринки, мы не имеем в виду «идти» в буквальном смысле - то есть у чашки кофе не прорастет пару ног и она не выйдет из магазина вместе с вами; Само собой разумеется, когда была последняя вечеринка, на которой вы присутствовали, где вы могли бы собрать всех и вся вокруг себя и бросить их?

Кроме того, когда оратор "Б" отвечает на вопрос о молоке и сахаре, вы должны понимать подразумеваемое «да». В тексте разговор выглядит странно, но большинство людей, стоящих в очереди в кофейне, которые подслушали разговор, смогли бы понять его без каких-либо проблем. Нам не нужно прописывать сообщение, так как мы уже понимаем контекст.

Люди ожидают, что их поймут, когда они выражают себя, как в предыдущем примере. Именно здесь мы, как дизайнеры, должны следить за собой (кстати, еще одна идиома - быть осторожными, но мы также имеем право наблюдать за собой). Опасная зона, в которую мы вступаем во время нашей работы, заключается в следующем: для технологии распознавания голоса охватить все необходимые контекстуальные факторы и предположения в этом кратком обмене практически невозможно. Если бы вы проектировали кофемашину с голосовым управлением, вам, вероятно, пришлось бы порвать с ожиданиями пользователей и заставить их более четко заявить, что они хотели бы купить чашку кофе. До тех пор, пока состояние техники не изменится до такой степени, что мы сможем растянуть для размещения идиоматических выражений, нам придется смириться с тем, что нам нужно будет заставить наших пользователей оценить необходимость сохранения их фразеологии, прямой и основной. Кроме того, дисциплинируя себя в нашем подходе, как правило, имеет преимущество в том, что мы помним еще один момент - английский язык очень изворотливый язык, часто имеющий четыре или пять слов для одного и того же предмета, где другие языки имеют, в лучшем случае, два.

В этой заметке давайте рассмотрим некоторые советы о том, как вы должны направлять пользователя к разговору с голосовым пользовательским интерфейсом и как вы обрабатываете различия между голосовыми пользовательскими интерфейсами и графическими пользовательскими интерфейсами.

Когда люди общаются, мы используем наши знания о контексте, чтобы создать общее понимание.

Руководство по проектированию голосовых пользовательских интерфейсов

«Слова являются источником недоразумений».

- Антуан де Сент-Экзюпери, летчик и автор (см. «Маленький принц»)

Невозможно обойти тот факт, что пользователи часто имеют нереалистичные ожидания относительно того, как они могут общаться с голосовым пользовательским интерфейсом. Частично это связано с проблемой того, что - по крайней мере, к концу 2010-х годов - скорость продвижения и их внедрение происходили беспрецедентно быстрыми темпами. Люди все еще находятся в «медовом месяце» с этим относительно новым явлением. Вот почему мы должны быть особенно внимательны при представлении наших дизайнов (поэтому колонка Echo Dot выглядит как удивительно глубокая «точка», а не как бюстоподобная скульптура с движущейся челюстью и светящимися глазами).

Если вы посмотрите на онлайн-обзоры динамика Amazon Echo Dot, становится ясно, что некоторые люди образуют тесную связь со своим динамиком таким образом, что больше напоминает животное, чем продукт.

"Искусственный интеллект? Может быть. Но люди редко заставляют меня улыбаться или смеяться. Алекса редко терпит неудачу в этом. И удовольствие, которое я получаю от неё дома, совсем не «искусственно».

- Карла Мартин-Вуд, очень счастливый клиент Amazon Alexa на Amazon.com

Поскольку вы не можете полностью соответствовать ожиданиям пользователя от естественного собеседника, становится еще важнее спроектировать голосовой интерфейс пользователя так, чтобы он содержал правильное количество информации и элегантно обрабатывал ожидания пользователя. В качестве отправной точки вы можете использовать эти рекомендации, вдохновленные лучшими практиками Amazon, для создания навыков голосового взаимодействия для Alexa:

Предоставьте пользователям информацию о том, что они могут сделать.

В графическом интерфейсе пользователя можно четко показать пользователям, какие параметры они могут выбрать. Например, экран iPad-это удивительно аккуратный набор порталов или дверных проемов, в которые вы можете войти, а оттуда войти в более конкретные, пока вы не доберетесь туда, где вы хотите быть. Голосовой интерфейс не может показать пользователю, какие варианты возможны, и новые пользователи основывают свои ожидания на своем опыте общения. Поэтому они могут начать просить о чем-то, что не имеет смысла для системы или что невозможно. В этом случае предоставьте пользователю варианты взаимодействия. Например, у вас может быть приложение погоды, которое говорит: «Вы можете запросить информацию о погоде на сегодня или о еженедельном прогнозе». Точно так же вы всегда должны предоставлять пользователям простой выход из функциональности, указав в качестве одного из вариантов «выход».

Где я?

В графических пользовательских интерфейсах пользователи могут видеть, когда они входят в новый раздел или интерфейс. В голосовых пользовательских интерфейсах пользователям нужно сообщить, какие функции они используют. Пользователи могут быстро запутаться в своем местонахождении или по ошибке активировать не нужную функцию. Это понятно - они «бегают вслепую» в этом отношении, имея на виду лишь почти безликое устройство (в большинстве случаев). Путешествуя в «темноте», они, как правило, гораздо чаще волнуются, чем при использовании устройства с визуальной ориентацией (в конце концов, как вид, мы наиболее приспособлены полагаться на наши глаза). Таким образом, когда пользователь, например, спрашивает о сегодняшней погоде, было бы неплохо сказать: «Прогноз погоды в основном солнечный и сухой», а не просто «солнечный и сухой». Это позволяет пользователям узнать, какие функции они используют. Например, если пользователи хотят видеть, нужно ли им поливать свои растения на открытом воздухе, когда они уезжают на выходные, они почти наверняка захотят услышать прогноз на следующие семь дней.

Во взаимодействии с голосовыми пользовательскими интерфейсами у пользователя нет визуального руководства, и потеряться будет слишком легко. Важно информировать пользователя о том, какую функциональность он использует и как её отключить.

Выражать намерения в примерах.

Когда люди разговаривают, они часто не выражают свои намерения. Мы привыкли использовать ярлыки, использовать сленг, намеки и подсказки о том, чего мы действительно хотим, большую часть времени. Это может хорошо работать с другими людьми, которые, как правило, «получают» то, что мы «получаем». Однако в голосовых пользовательских интерфейсах выражение намерений необходимо для того, чтобы система понимала, чего хочет пользователь. Более того, чем больше информации о своих намерениях пользователь включит в предложение, тем лучше. В качестве примера Amazon использует приложение Horoscope Daily. Пользователь может сказать: «Алекса, спроси у Astrology Daily гороскоп для Льва» и сразу же получить информацию, которую он хочет, вместо того, чтобы сначала сказать: «Алекса, спроси у Astrology Daily о гороскопе», а затем попросить гороскоп. Пользователи могут не осознавать этого самостоятельно, но вы можете продемонстрировать это им, если вы используете полные намерения во всех своих примерах взаимодействия - например, в своем письменном руководстве пользователя или когда пользователь обращается к системе за помощью или дополнительной информацией относительно взаимодействия.

Ограничьте количество информации.

Когда пользователи просматривают визуальный контент или списки, они могут вернуться к информации, которую они пропустили или забыли. Это не относится к словесному содержанию. В словесном контенте вам нужно держать все предложения и информацию краткими, чтобы пользователь не запутался и не забыл элементы в списке. Amazon рекомендует не указывать более трех различных вариантов взаимодействия. Если у вас более длинный список, вы должны сгруппировать параметры и начать с предоставления пользователям самых популярных. Скажите им, что они могут попросить больше вариантов, спросив, хотят ли они больше вариантов. Однако забывчивость пользователя - это только половина проблемы. «Обратной стороной» этого является разочарование, которое накапливается внутри них, если они попадают на длинный извилистый «живописный маршрут», когда все, что они хотят сделать, - это достичь простой цели. Вас когда-нибудь раздражали длинные меню, предлагаемые, когда вы звоните в компанию и заставляете мужчину или женщину-робота вычеркивать список вариантов и предлагать вам нажать «1» для этого, «2» для этого и т.д.?

Используйте визуальную обратную связь.

Если возможно, используйте простую визуальную обратную связь, чтобы пользователь знал, что система его слушает. Пользователи расстраиваются, если они не уверены в том, понимает ли голосовой интерфейс, что они пытаются взаимодействовать с ним. Подумайте о телефонном разговоре, когда вы говорите и слышите только длительное молчание, побуждающее вас спросить другую сторону, если он или она все еще там. Если вы используете только голосовую обратную связь, чтобы сообщить пользователю, знает ли система, что пользователь пытается взаимодействовать с ней, система должен подождать, пока он не закончит говорить, прежде чем он узнает, услышала ли его система или нет. Есть способ сократить риск этого, пользователю придется спросить “вы это поняли?" или “Эй, ты меня слушаешь?” Если вы используете визуальную обратную связь, чтобы пользователи знали, что голосовой интерфейс пользователя слушает, пользователь можно сразу увидеть, что то, что она говорит, регистрируется (аналогично тому, когда мы говорим с другими людьми и по их невербальному общению видим, что они слушают). Amazon Echo Dot мастерски справляется с этим, так как, услышав, как вы говорите «Alexa», голубоватый свет кружится вокруг верхнего обода устройства, сигнализируя о том, что у Alexa «все уши» (еще одна идиома, мы должны добавить; мы не рекомендуем проектировать устройство с несколькими ушами, выступающими из его поверхности).

Заключение

Чтобы создать великолепные голосовые пользовательские интерфейсы, вы должны найти элегантный способ предоставить пользователям недостающую информацию о том, что они могут сделать и как они могут это сделать, не перегружая их. Вы также должны учитывать ожидания пользователей от повседневного общения. Человеческое общение ограничено контекстом, но в голосовом взаимодействии пользователи должны руководствоваться тем, как выразить то, что они хотят, так, чтобы система могла их понять. Вы можете помочь им, предоставив информацию о том, что они могут сделать и какие функции они используют, сообщив им, как выразить свои намерения таким образом, чтобы система понимала их, кратко сформулировав предложения и предоставив визуальную обратную связь, чтобы они знали, слушает ли их система. В некоторых аспектах голосовое взаимодействие с пользователем может представлять большую проблему, чем графическая система; Тем не менее, справедливо сказать, что этот режим станет более распространенным, так как все больше аспектов повседневной жизни поддерживают голосовое взаимодействие. Итак, настало время убедиться, что вы можете сделать это правильно.

Информация взята и переведена из статьи: How to Design Voice User Interfaces

#Теги

Проектирование Голосовые интерфейсы Для разработчиков С чего начать Разработка

Как со мной связаться?

Свяжитесь со мной по любому поводу!
Я с радостью отвечу на все вопросы!

Телефон:

+7(909) 281 35-20

Почта:

maximco36895@yandex.ru

Дополнительная почта:

info@maxim-m.ru

Я в социальных сетях:

Как проектировать голосовые интерфейсы пользователя