扫码登录 我要学设计网
设计师的职业进阶课堂

微信扫码登录 | 方便安全省心

苏宁易购 I 小Biu智能语音项目总结

胖冷不冷 2020年07月20日 发布 / 697 次阅读

对自己说的话:

当你学到了很多的新知识,就要及时的倾倒出来,进行梳理,一味的学而不输出,时间长了就会被冲淡,最后什么痕迹都不会留下。尤其作为设计师,你输出来的东西,才能真正成为你自己的东西。

-

小Biu智能语音项目版权归属于苏宁易购。本文阅读时间大概需要15分钟

-

-

人工智能一直是这几年的热门,涉及行业很广,各大企业也都在争先恐后的抢市场,绞尽脑汁,研发一切能想到的产品。而在人工智能领域运用最广的可以说是智能语音了,可用于车载、家电、商业设备等等。有幸我们UED团队和工业设计团队属于一个部门,相比别的互联网公司的UED团队,我们能接触到更多的智能产品。我们自研的产品也很多,有魔镜、烟机、音箱、体脂称、冰箱等等。



多款智能设备都搭载了小Biu智能语音系统,本文就针对小Biu智能语音系统做一个总结。

(PS:前段时间也是因为项目需要,测试童鞋就坐在我们部门旁边,天天测试小Biu语音系统,整天被“小Biu小Biu”的声音围绕,我已经被洗脑了~害~)






了解VUI  


我们熟悉的有GUI,即图像交互界面(Graphical User Interface),主要是图形和文本所构成的,用户主要是通过点击和滑动这样的手势来和GUI进行交互的;而VUI,即语音交互界面(Voice User Interface),内容主要由文字构成,用户可以直接使用语音来进行交互,语音系统能够实现自动化的服务并且提供完整的相关流程。VUI需要设计对话的逻辑、语法、应答内容等,内容依赖于语音系统,弱化了二维界面,强化立体空间里通过语言进行交流的过程。VUI和GUI的差异等这里不多说了,网上的文章一大堆,感兴趣的童鞋可以自行查看。




VUI的背后  


用过智能音箱的朋友,应该都能感受到VUI带来的方便,一问一答即反馈的交互确实很方便,比如你对小爱音箱发送唤醒指令“小爱同学”,就能和她开始对话,并且执行你的命令(小Biu系列的智能设备语音系统,都是以“小Biu小Biu”唤醒)。透过现象看本质,看似简单的语音对话场景,背后技术实现逻辑远远不止这么简单。



举个栗子

假如你使用小Biu音箱购物,当你发出“我想买XXX”的语音指令时,后端处理该条指令的交互逻辑是有点复杂的。我们这里后端语音语义技术采用百度云端的服务,当百度云端认为这是一条购物Domian的请求时,将其理解为对应的Intent,并填充Slot,然后发给语音购物Bot,Bot控制交互逻辑,Bot对 指令处理后传至苏宁云端,苏宁云端对请求进行处理后,返回文本至百度云端Bot,由百度云端进行TTS,最后下发至音箱进行播报反馈给你结果。



hiahia~不急,我们还有流程图,还有名词解释,看下面的流程图,会清楚很多的。总之一句话,就是用户发出指令后,后台要经过一套算法,最终把你想要的结果呈现给你。

名词解释

Domain-某个领域(如:购物、家电控制、百科等);

Intent-某个领域的意图(如:购物领域下的物流查询等);

Slot-意图中的各种属性(如“我想买特仑苏牛奶”,其中“特仑苏”、“牛奶”就是属性);

ASR-Automatic Speech Recognition,指语音识别的能力;

NLP-Natural Language Processing,指自然语言处理的能力;

NLU-Natural Language Understanding,指自然语言理解的能力;

TTS-Text to speech,指将一段文本以语音方式播报的能力。


这里的Bot定义可以分很多种,可以是购物Bot、音乐Bot、天气Bot等等,每一个Bot里面也都有他自己的交互逻辑(这里不做深究)。




小Biu智能语音系统  


大概了解了VUI,我们回到小Biu语音系统。



1、唤醒方式


绝大多数的设备都是以唤醒词“Biu小Biu”唤醒语音助手,配有遥控器的设备,还可以按遥控器的语音键进行唤醒设备,比如TV。



2、载体分类


不带屏幕的设备有智能音箱、智能晾衣架等,带屏幕的有TV、烟机、魔镜等。



3、支持功能


1.影视,适用于TV、魔镜等带屏的支持观看影片的设备,语音可以搜索影片,可以进行播放操作,并且在播放中发送语音指令对其进行功能性的操作,比如:暂停、退出等。


2.应用,适用于带屏的设备,可以搜索应用,并且对应用进行安装、卸载等操作。


3.音乐,带屏和不带屏设备均适用,可以搜索音乐,并且在音乐播放中发送语音指令对其进行功能性的操作,比如:下一首、上一首、停止播放等。


4.股票,一般适用于带屏设备,可以查看具体的股票。


5.菜谱,适用于带屏的设备,按照使用场景,更适用于烟机、冰箱那类的设备。可以查看具体的菜谱、做法、使用材料等,还能一键下单购买食料。


6.购物,带屏和不带屏设备均适用,在带屏设备上使用,更能直观的查看商品信息,支持下单购买。


7.查天气,带屏和不带屏设备均适用,可以查看当天和近一周的天气。


8.查日期,带屏和不带屏设备均适用,可以查看当天日期。


9.控制家电,带屏和不带屏设备均适用,能控制家里的智能家电,对于带屏的设备,还能查看当前设备的各种状态和数据。


10.查限行,带屏和不带屏设备均适用,查看城市的限行信息。



列举了一些主要功能,不同的载体实现的功能也有很大的差异化,体验也会很不一样。比如语音购物,带屏的设备会更直观,用户能直接看到商品的样子、价格等各种信息,能提高用户对产品的信任度,要是换成纯语音的设备,恐怕用户要一直自行脑补画面,增加了用户的沟通压力。



举2个交互场景的栗子






4、交互状态


1.待唤醒,是交互流程过程前的状态,语音系统的载体未接受到任何唤醒指令时候,一直处于待唤醒的状态。就像赛跑的时候,“各就位”的状态,时刻准备着接受唤醒的信号。


2.监听中,是交互流程过程中的状态,接收到唤醒指令时,就好比发令枪那一声枪响,设备开始工作,处于监听的状态,接受用户发出的语音指令,同时进行处理分析用户的意图。


3.语音播放,是交互流程过程中或结束的状态,针对用户的语音指令,设备进行回答,以语音的形式和用户对话,存在于任何需要对话或者特殊情况需要反馈给用户信息的场景。


4.图文显示,是交互流程过程中或结束的状态,在带屏的设备,反馈状态除了语音,还有图文,针对如“购物”的场景体验,图文的反馈优于纯语音的反馈。


5.功能执行,是单个交互流程的结束状态,针对用户的指令,执行具体的功能,满足用户的指令意图。比如用户指令是“我要看电影”,最终执行的目的就是进行“播放影片”。




5、反馈形态


1.灯光,灯光反馈形态,主要存在于音箱设备,灯光的使用,让设备添加了一些情感元素,也增加了反馈时候给用户的亲和度,相比纯语音的设备,有灯光反馈的设备,更能直观的表达当前的设备状态,比如“是红色灯带、待机是蓝色灯带、对话中是蓝色灯带闪烁”。


2.语音,语音反馈形态,是语音系统普遍的反馈形态,载体也比较丰富。


3.图文,图文反馈形态,存在于带屏的设备,比如“TV”,更适用于一些如“购物、菜谱等”特殊的使用场景,反馈形态更直观,信息更丰富。




从语音系统到人工智能的体验反思 


1、等待体验

等待的阶段主要分:


唤醒阶段:通过指定的唤醒词或者按遥控器语音键,让设备从等待态转换为就绪态。


用户请求及反馈阶段:用户给出语音指令内容以及设备反馈结果满足用户的需求。


用户对于GUI的态度,是响应速度越快越好,加载内容、加载页面的时候,用户都希望秒打开,不希望等待,可是由于技术的壁垒,很难实现0ms的加载速度,为了提高用户体验,会加一些情感化的加载动效,减少用户在等待过程中的急躁心理,而VUI不像GUI,语音的对话,本身就带有一定的情感属性,一味地追求快,会给人一种轻浮及不稳重的感受,太慢则显得很笨或者给用户造成不耐烦的心理。百度人工智能交互设计院,针对各种等待状态反应时间做了测试,得出了各自状态让用户最能接受的等待时间。(PS:这里不做说明,感兴趣的童鞋可以去查看百度人工智能交互设计院相关报告。)



2、识别用户意图体验

用户发出的语音指令是千变化万的,语言的组合也是千变万化的,语种有很多,还有地方方言,在这么复杂的场景下,能够正确识别用户语音指令的意图,在语音系统的体验上显得尤为重要,每次都能识别准确,能说是智能,高频次的识别错误,怕是会被用户吐槽说是“智障”了。





a. 用户具体意图识别

用户发出指令时,中控需要识别并且理解,再分配到指定的技能上,再进行处理反馈给用户,执行命令。所以意图的识别准确性,取决于中控分配意图的能力,需要中控有一个全开放域。


举例一:

“我想买蛋糕”,中控应该理解意图为购物,分配给“购物”技能。

“我想做蛋糕”,中控应该理解意图为百科,分配给“百科”技能。


举例二:

“提醒我明天早上9点有会议”,中控应该理解意图为项目提醒,分配给“项目提醒”技能。

“明天要去杭州参加设计会议,今晚9点提醒我买高铁票”,中控应该理解意图还是为项目提醒,分配给“项目提醒”技能,要是分配给“订票”技能,就错了。


b. 不同的表述方式识别

同一个意图,可以有多种表述方式,并且受当下热门事件、流行元素等影响,不端会有新名词、新语句出来。这时候需要中控不停的学习更新,增加更多的语义覆盖,提高句式、话术、词槽的泛化程度,才能精确识别意图。


举例一:话术

“明天天气怎么样”、“我想查明天天气”、“告诉我明天天气如何”、“明天天气是好是坏”、“明天啥天气”,同样是要查询明天的天气,可以有多种话术,能够准备识别不同话术的同一意图,才能准备播报明天的天气,要是话术泛化程度不够,就会反馈异常。


举例二:词槽

“我想吃肯德基”、“我想吃全家桶”、“我想吃开封菜”、“我要吃KFC”,同样是要吃肯德基,可以用不同词语,词槽泛化程度高,则能准确识别用户意图,反之会反馈异常。


词槽、话术还需要考虑时效性,比如在疫情期间用户想搜索“口罩”,说“N95”、“KF94”,就能快速匹配到“口罩”的相关信息。


c. 模糊话术、歧义话术识别

VUI的输入不可控,表述模糊、语句不同停顿、同音字等都会造成不同的意思,目前语音系统是不能识别语句停顿和判断多音字的,ASR转化的时候就会出现差错,就不能精确识别用户的意图了。


举例一:同音字

“什么食物能致癌”,这里的“致”,也有可能会是“治”。


举例一:不同停顿

“帮我定下周六去杭州的高铁票”,这里的“定下周六”,可以是“定-下周六”,也可以是“定下-周六”。




3、执行结果体验

a. 反馈准确率/容错率

语音交互规范都会提及,反馈给用户的内容是否能够准确匹配需求,是否具备显性确认以提升容错性。

比如“我想听花儿乐队的《泡沫》”,如果搜索结果是邓紫棋的就不对了。如果没有资源,也应该处理成“未找到花儿乐队的泡沫,让我们来听听邓紫棋的”。


举例一:

有些内容有版权问题(比如:音乐版权),给不到指定结果,则需要用另一种方式代替来反馈给用户,弥补用户的落差心理。


举例二:

计算机的逻辑和人的习惯逻辑会有差异,此时反馈的结果可能不是用户想要的。


比如“5月1日晚上23点和5月2日凌晨2点,定第二天6点的闹钟”,大多情况,用户都会说“帮我定明天6点的闹钟”,默认是5月2日,而系统计算逻辑都会认为当天的第二天为明天,分别为5月2日和5月3日。


此时就需要让用户确认,反馈提示“已经为您设置明天早上6点的闹钟,我将会在4个小时后叫醒你”,让用户知道,是否设置结果和用户意图一致,防止用户被坑。


b. 任务的实现

大多数的语音系统,都是有自己的逻辑顺序,完成一个任务,都要按照设定的逻辑走,所以会经常出现引导术语,教用户怎么说、按照什么顺序说。


举例一:

比如用户需要购买火车票,先问出发地和目的地,然后问出发日期,然后确定车次,中间不能改不能乱,才能完成整个任务流程。


用户第一句话:“我想买火车票”,系统回复:“好的,你想从哪里到哪里?”

用户第二句话:“从北京到上海”,系统回复:“您想什么时候出发?”

用户第三句话:“明天下午出发”,系统回复:“为你找到如下车次,请问你想要第几个。”

用户第四句话:“那就第一个吧”,系统回复:“好的,正在为你下单。”


这里每一个槽位都是固定的,颠倒的表述,就会出错,怕是又要被说成“人工智障”了。能满足乱序填充槽位才能算是智能,也提高了VUI的使用体验。


c. 反馈形态

反馈形态包括:语音、文字、图像、灯光。不同的反馈形态给用户的感觉也是不一样的,特定的场景也需要特定的反馈形态,最终目的也都是为了让用户感受更好的体验效果。载体的不同,也决定了反馈形态的差异化。


比如早上用户起床还没睡醒,想问今天的天气,最让用户接受的肯定是语音形态了。此时文字、图像、灯光形态就显得有点弱了。


比如用户在购物,用户更愿意看到商品图,而不只是听声音。


又比如在夜晚,灯光的反馈能给设备增加情感属性,能拉近和用户的距离,给用户带来温暖。



4、情感化体验

影视作品中出现过很多机器人的形象,比如:阿丽塔、瓦力、机器猫、大白等,他们都有自己的个性,与它们互动,充满了期待与想象空间,或许他们比身边的人更懂你,帮你解决一系列生活问题的同时也让你感到温暖。


a.情感丰富度

机器人不只是机器人,需要具备喜怒哀乐的各种情感,才能更符合人与人之间交流的现象。我们开车的时候需要导航,如今各大导航系统,和明星合作,出了一系列情感丰富的导航语音包,情感丰富的导航更被人喜爱,感觉更亲近了,同时风趣的语言,也解决了开车时候的枯燥,我平时也一直用高德导航,设置的是岳云鹏语音包。下面列举几句看看。


“我的天呐,太羡慕你了,岳云鹏亲自为您导航”

“前方经过村庄,请您小心酒缸酱缸郭德纲”

“堵车啦,五环之歌听过没,我给你唱一段吧”

“前方为事故多发地,甭管事故多发,咱眼可别花”

“那么俏皮那么可爱,那么俊俏的我,要和您说拜拜了哦”



是不是很有趣呢?不过实际业务中,语音系统很难做到这样去满足不同人多场景的需求,比如你一直用小爱同学,突然蹦出来一句岳云鹏的声音,会不会吓到用户呢。这里前提用户需要有一个预期管理,乱玩梗,不懂的用户会莫名其妙,也很有可能冒犯用户,又要被骂“人工智障”了。


b.情感表现力

不同载体的语音系统情感表现力都不一样,表达的方式也都不一样。主要有“文字、图片、声音、灯光”等。语音的表达要像人在交流,而不是一个一个的吐字,不同的情感需要不同的声音,需要会笑、会哭,在愤怒的时候,必要情况还会口吐芬芳。载体要是带有显示屏的,还需要表情的管理,能更直观的让用户感受到情感。


c.人设一致性

不同的系统,一旦定义了一个人设,那他的性格就已经定格了,要是突然变风格,可能会让用户感到一脸懵逼,好比“李佳琪”、“李子柒”、“小团团”、“岳云鹏”,他们都有自己的鲜明风格,你和“李子柒”对话,突然像“小团团”那样逗比,估计很多观众都会吓一跳。


d.共情表现

“共情”是人们把自己真实的心灵感受,主动投射到自己所看到的事物上的一种心理现象。人类的共情行为,先感受和观察,然后做出回应。人会感同身受,能体会别人当时的情绪,一起快乐,一起悲伤。作为机器人,能通过各类传感器、采集器,进行视觉识别分析,音轨分析等解析出当前用户的情绪,再去和用户产生共情,这样的系统肯定能打动用户的心。




VUI设计师需要做些什么?  


1、用户研究

VUI设计师需要深入了解用户,了解用户和谁在一起,做用户研究之前,我们要先搞清楚,这个利益方的需求是什么,用户诉求是什么,我们的产品能够给用户带来什么?能够给他们解决什么问题?最后我们要确定我们的目标用户,然后进行调研。(具体研究方法,比如制定任务流程、制定用户体验地图、可用性测试等等,这里不做说明,可以查阅其他相关文章)



2、载体使用场景分析

载体的不同,使用场景就会不一样,交互方式也不一样。在VUI应用还未完全成熟的时候,缩小使用范围,找到产品自己适合的交互场景,才能实现更加优质的体验过程。


比如音箱,大多数交互场景,都是在家中,反馈形式一般也都是语音。怎么定义产品,能让用户感觉到和产品的对话,就像和自己的家人一样温暖?


比如商场里的一些智能机器人,由于商场人多,环境嘈杂、噪声也多,远场语音技术就要过硬,怎么消除噪音,精准捕捉用户的对话?针对路过的人,怎么设定一些特殊语境,主动打招呼,来吸引用户?


比如汽车中控,很多时候,用户在行驶中使用系统,这时候就需要更多的注意操作的安全性,什么时候用语音?什么时候使用触摸屏?处理方式,也要尽量简短明确,快速精准的完成用户的指令。



3、设计对话

a.理清对话逻辑

VUI的对话逻辑,如同GUI从点击到触发各个节点的交互逻辑,也需要从查询到回答的流转逻辑,将一个场景的对话流程贯穿起来。


b.设计语法

语法就是用户输入的指令集,设计师需要设计对话的意图,以及尽量考虑用户可能的表达方式,将其中最核心、最常用的表达方式提取为指令集模板。设计的指令集越多越全面,对话覆盖率就会越高。


c.设计应答

语音交互中最主要的应答方式是TTS,就是将设计师写好的应答脚本,通过TTS引擎转化为语音播放出来。应答带给用户最直观的感受,应答的好坏,直接关系到语音产品的体验。鉴于过长的语音内容会增加用户的记忆负载,设计应答时应该尽量简洁。



4、设计产品原型

针对带屏的设备,还得分析界面的展示形态,动态表情管理、图文显示、界面布局等。这时候需要GUI的能力,把VUI和GUI结合在一起考虑,可参考前面TV端购物、查看百科的例子。



5、了解底层技术的优缺点

VUI设计师要熟悉后台系统和终端设备之间的整个通信过程,这样能更深入的理解各个场景的交互行为是怎么样完成的。前面也举过例子,查看语音购物的流程。还得分析系统支持哪些能力,如果不是全开放域的系统,能力就会显得很局限,那么完成一条未知领域的指令,该怎么处理,就得多考虑了。



6、分析数据

分析数据肯定是必要的,对于设定好的功能,比如“设定的从接受指令到反馈结果,让用户等待的时间”,具体用户等待多久合适?比如“设定的反馈结果语句”,用户的满意度如何?都需要经过数据分析,才能判定该功能是否设定的合理。



7、发现VUI和GUI结合的更多可能

VUI和GUI的结合应用也很多,在GUI的基础上增加VUI有助于简化交互,可以做到无直接关系页面的跳转。在特殊场景,VUI和GUI还可以互相补充,弥补一方的缺点。通过将VUI和GUI的结合,用户可以更加便捷地使用产品,而诸如AI、面部识别、手势交互和音频输入等技术的加入,使得未来的产品也充满更多的可能性,也给VUI的设计师带来了挑战。




总结  


人工智能的时代已经到来,VUI也是一个新的领域,未来探索的路还很长,她的使用场景和交互方式还有很多值得探索的地方。人工智能的体验要做到极致,既要结合人的情感属性,又要结合智能设备快速处理命令的优势,做到服务于人,又高于人服务于人的体验,才能算是一个完美的系统。


本文针对小Biu智能语音系统和引申的人工智能方面做了一系列分析,还有很多不足的地方,希望看到这篇文章的同行大佬进行点评补充,一起探讨。



本文由 @胖冷不冷 原创发布。未经许可,禁止转载。