近来,智能语音交互市场的热度可谓一路飙升。
随着智能音箱ALEXA接入超过2万种设备,亚马逊在人工智能领域实现了一次跨界奇迹,离实现“speaking to future”的梦想又更近了一步。另外,据ComScore报道称:苹果iOS 和HomePod 设备的Siri每月拥有超过4000万用户,美国家庭中更是将近1/10已拥有了一位智能语音助手,并且由于屏幕疲劳这个无法避免的问题,智能语音越来越被人们接受,语音交互技术也正变得越来越普遍。
“语音交互将改变我们的生活。”
在Gartner总结的2017年几大趋势中,virtual assistants处于热点的最高位,在2018年也是居高不下。
source:gartner. com
source:Stephen Kenwright ’s blog
语音交互的主要特点在于开放式聊天功能和任务导向型功能。
如果说快捷高效、轻松自然是语音交互的独特优势,那么任务导向型功能就是这些优势的完美落点。一个良好的语音交互产品,自然是技多不压身,能覆盖的范围越多越好,提供的功能越强大越好。
下面小线菌将从语音交互中的VUI开始,为大家扒一扒语音交互那些事儿。
VUI简史
谈VUi前,我们得先说到GUI。图像用户界面GUI(Graphical User Interface)是60年代「人机交互」奇才道格·恩格尔巴特提出的概念,自从80年代苹果推出第一款应用GUI的电脑后,GUI一直是人机交互的典型代表。后来,随着越来越多的语音控制设备,如苹果HomePod和亚马逊Echo席卷市场,VUI正在帮助改进各种不同的用户体验。
VUI是用户通过语音与计算机进行人机交互来启动自动化服务或流程的工具,是直接面向用户的界面,所以是否能满足用户需求是判断其成功与否的决定性因素之一。VUI的发展过程主要可以分为以下两个时期:
诞生——纯语音交互
语音交互界面VUI (Voice User Interface) 并不是全新的概念,它的前身是交互式语音应答IVR (Interractive Voice Response) 。二十世纪九十年代,交互模式的语音应答IVR正式诞生,代表了VUI发展的第一个重要时期。用户可直接通过电话进入服务中心,利用数字对内部系统进行命令操作。
IVR存在的主要缺点有:
在与系统的交互过程中,如果出现了失误,用户只能挂断重来,这使得整个交互过程极不流畅,而用户也一直处于相当拘谨的状态下,与如今语音交互轻松自然的氛围相去甚远。
普及——语音和屏幕结合交互
新一代的VUI更多指的是人通过自然语言与计算机进行交互,所以可认为VUI是人工智能时代下的人机交互代表。
各大公司都推出了自己的语音助手,例如微软的cortana,谷歌的Google OK和苹果的Siri。这些语音助手结合视觉和听觉,同时使用语音和屏幕进行人机交互。发展到这个阶段,就打破了原先IVR仅能用于单轮任务的局限性,使得语音交互有了多轮对话的可能性。
近两年,各大公司都推出了自己的智能家居音箱,例如Amazon echo和Google home这类的纯语音设备。在未来的生活和工作场景中,此种语音交互是一个新的入口,提供了更灵活的交互方式。在未来的某一天,人们必然会放弃屏幕和手势的操作,直接通过语音进行远距离的设备控制,而这正是各大公司抢占语音市场的原因。
VUi设计原则
VUI设计是一个以用户心理模型为中心的设计过程,目的是满足用户喜欢快餐的心理,只有创建出用户习惯的,适应的并且便捷的方式,这种设计才有可能被大众接受,赢得消费者的信赖。
下面,小线菌结合各路资料总结了语音交互设计的三条基本原则:
前提:能用——切勿让用户有认知负荷
语音交互呈现给用户的主要是听和说,提供给用户的大多为瞬时不长久存在的信息,这导致用户没有可能去回顾设备的输出。声音对于人类来说更多是短暂的记忆,人们不可能一下子记住很多新信息,所以VUI的设计原则之一便是不能让用户有认知负荷,配合人类的短时记忆功能。
要求:可用——赋予人格化,切勿好为人师
语音交互中建立人机之间的亲密关系才是抓住用户的关键,语音中包含了音量以及语调、语速、语气,这些因素可以更好地传达人的情绪,使得情感的传递更为直接。同时,如果智能设备有着一个令人着迷的个性,相信人们会更愿意与它进行互动并建立关系。
同时,VUI无需暗指用户需要学习如何发出命令,诸如“如果需要XXX,请说/做XXX”此类提示。这种提示带有一些按键语音客服的痕迹,类似10086的“业务查询请按1;手机充值请按2;业务办理请按3;人工服务请按4”。这些提示模拟了典型的按键界面(按键语音客服),以一种老师的姿态教育用户应该如何交流。
目标:易用——对话准确高效且相关
比如,当系统问用户,你的主要症状是什么?若用户说的是发烧和感冒,系统就要理解用户说的是两个症状,针对这个事情,系统需要进行回复两种不同的症状解决方式。
但在目前的语音交互中,却多数会出现这样的情况:
“我想吃麻辣烫”
“为您推荐XXX,销量XXX,价格XXX,是否购买”
“有没有更便宜的”
不识别
或是...这样的:
“这一周哪天是晴天”
不识别
“今天适合穿什么衣服”
答不对题
要解决上述交互层面的认知问题,关键在于两点,一是语音识别准确率,另一个则是自然语言处理水平。
我思故我在
无论是何种设计原则,都需要建立在语音交互的意义之上,而语音交互的意义,便在于距离感。
在日常生活的大多数情况中,我们其实并没有必要使用语音交互,比如进入一家餐厅我们可以直接使用门口的点餐机下单,执行语音下单操作并没有多大意义;再比如如果我们一回到家灯的开关就在右手边,那么语音开灯就显得多此一举。
相反,只有我们有了距离感,才能真正发掘出语音交互给我们带来的便利。所以如果想让人们恰如其分地使用这些智能硬件,一定要在他们有这种距离感的前提下,比如一键唤醒,“我要打车”,“订一份凉拌面”,“看一下我快递在哪”,这样既利用了手机随身携带的优势,又发挥了语音的价值。
我思故我在,一件事物只有当拥有本身的意义之后,才能被人发掘出后续存在的价值,而对于语音交互来说,而要找到这种距离感,需要对人们的每一个生活场景和日常行为进行细致的观察和深入的思考。
参考资料:
智能音响初体验和语音交互深思考 -李洺宇
语音交互设计的流程及方法 -阿里TXD
Voice User Interface Insights -Prototypr
留言与评论(共有 0 条评论) |