谷歌设计语音界面的六原则 / 木子杰软件教程

新时代的界面将会突破现有的格局。界面将不再被滑动、轻触和点击局限，取而代之的是更自然细腻的语言呈现形式。用于GUI（图形用户界面）的设计技法和设计语言在语音交互这个全新的领域不再适用，VUI（语音用户界面）设计的新浪潮将基于『对话』- 这个我们最先学会而且最擅长的交流方式。

『对话』这种媒介既复杂又系统，定义原则比小学生的校训还要微妙、压人。例如，不要用 “而且” 作为对话的开场，或者不可以打断别人讲话。我们与其他人对话交流时可以自然地应对各种复杂情况，这几乎成为了我们的第二本能。但是，如果我们不能真正理解『对话』的本质和其内在机制，就贸然开始设计人机对话，得到的用户体验通常是令人抓狂的。语音是一种个人标志，体现了一个人的社会身份；也因此人们对它的标准极高。用户在使用过设计不佳的VUI后反映：这些VUI让他们觉得愚蠢、可笑，甚至觉得被科技愚弄了。这些用户也因此表示不愿再次使用。事实上，这些都是可以避免的。

下文给VUI设计师们介绍六项原则，这些原则是日常对话的延展。它们可以辅助设计师完成对话设计，并且引领VUI设计师进入以用户为中心的界面设计新时代。

一、给VUI赋予形象

你可能觉得一个简单的语音应用不需要形象，但这不是需不需要的问题。对比下面这两个日历应用的例子：第一个例子展示了未经设计的助手形象（persona）；第二个则具有经过设计的形象。

对话1

用户：在日历里添加一个预约

VUI：请说出 “日期”

用户：8月2日

VUI：请说出 “开始时间”

用户：1点

VUI：请说出 “持续时间”

用户：哦，一个小时左右

VUI：请说出 “主题”

用户：性能评估

VUI：确认中，8月2日1点，持续一小时，是否正确？

用户：是

VUI：该事件现已在您的日历中

未经设计的VUI形象

对话2

用户：在日历里添加一个预约

VUI：没问题，哪一天的？

用户：8月2日

VUI：谢谢，什么时候开始？

用户：1点

VUI：那么，预计要开多久？

用户：哦，一个小时左右

VUI：最后，我只需要记录一个简短的标题

用户：性能评估

VUI：搞定！让我重复一遍：8月2日1点，持续一小时，我记得对吗？

用户：对

VUI：赞！已经在你的日历上了

这个VUI的形象是经过设计的

不管在不在你的计划之中，所有的语音都会映射出一种形象。就像第一个例子，按说应该是没有形象设计的VUI，却在“友善”、“乐于助人”等性格属性上评价不高，在“无聊”的上的得分却很高。

经过几十万年的演变，我们人类无法不用性格特征来评价一段语音，就连智能手表或GPS系统的语音也逃不过这种评价。这可不是主管观点，这是有据可查的事实。社会语言学家（如，拉波夫 1964

曾有一个让人印象深刻的研究(Giles & Powesland 1975

总结

不要让你VUI的形象未经设计、随意地产生。从最开始就要瞄准创造最理想的形象来代表你的品牌。它们是什么样子的？它们听起来是怎么样的？最重要的是，它们如何行动？在体验落地过程中，以形象设计作为根基；并确保形象具有一致性。

更多有关形象设计的信息请访问 Actions on Google，代码实验室：Crafting a Character。

二、推进对话

在日常对话中，似乎有很多疑问句都可以用简单的肯定或否定来回答。但实际上，它们询问的信息远不止肯定或否定。下面有两个这样的例子：

对话3

A：你知道派对会有谁来参加么?

B：知道。

这个问题想要得到的答案并不是简单的肯定或否定。

对话4

A：可以给我唱首歌么?

B：不可以。

只用『可以』和『不可以』来回答这个问题并不满足对话性的预期。

你可能会觉得奇怪，这些作答的人为什么显得很不配合。这是因为在这两段对话中，作答的人违反了一个对话核心原则 – 量的准则（Maxim of Quantity）

这些说话的人调了我们的胃口，虚拟助手也有可能做出和他们一样的事。比较下面两种处理因为价格上浮引起用户不快的方法：

对话5

用户：好，可以支付了。

VUI：目前这个时间，送餐费暂时调整为7.99美元，因为美味面条家接单量过大。你还想继续进行支付吗？

用户：不了……

这个VUI没有成功将对话向前推进，迫使互动嘎然而止了。

对话6

用户：好，可以支付了。

VUI：我必须要告诉你，这个餐厅今天晚上8点到9点的运费是7.99美元，你还想继续下单吗？

用户：不了……

VUI：这样的话，这附近还有一些类似的餐厅。你感兴趣吗？

用户：好，为什么不呢。

VUI：好的。附近还有另外两家面馆：马尔文区的涂鸦面馆，另外一个：谷流的斯塔意面。

这个VUI为用户提供了更多的选择，像自然的人类对话一样保持对话的持续推进。

显然，第二个VUI的形象更得力，更叫人喜欢。但是，不是只有你的智能助理具备推进对话的社会智慧，你的用户也有，而且这种本能是无法被压制的。以下是用户尝试推进对话的例子，用户的行为就好像他们正与人类交谈一样：

对话7

产品：那么，几个人要去？

用户：呃……有我妻子和我

这个用户希望VUI可以从他给出的个人信息中推算出人数

这个时候，如果识别机制被设计成只识别数字的话，例如“两个”；用户就会收到输入错误的提示。而这个用户只不过是提供了更多的信息。如果识别器实在无法处理这样的回答，可以尝试用轻松愉悦的语言风格将对话引回正轨。比如，“对不起，有多少人？（上升语调）”。研究表明，识别出错时，用户通常只需要一个简短的提示。没有必要强调错误，也不要用机械而俗套的提示语；例如“很抱歉，我不明白。现在，请用数字说出你们的人数。”你可以说：“比如，二个。”

总结

设计对话流时不能只字面意思。你需要尝试预判：VUI什么时候应该提供更多信息，什么时候需要识别来自用户的附加信息。这样才能保持对话的推进。你还需要意识到，业界所谓的“识别错误”实际的根源在于：人类乐于（在对话中）提供更多的信息，推动交流。

三、简短、有效

语音与文字不同，语音是伴随着时间流动的。时间越长，听者就越难理解。我们大脑能处理的信息量是有限的，一旦超出，就会对短期记忆造成负担。“听”往往被认为是被动的；相反“说”被认为是主动的，高效的。事实上，听也会耗费不少精力。所以你的VUI需要给听众休息的时间，也给他们一个机会说话，这是很重要的。比较这两个例子：第一个VUI给听者压迫感，第二个则更加简洁。

对话8

VUI：天空航空47航班下午1点从纽约肯尼迪机场起飞，下午1点45分到达波士顿罗根机场。行仓航空234航班下午2点15从纽约肯尼迪机场起飞，下午3点45到达波士顿罗根机场。蓝鸟航空260航班下午3点45从纽约肯尼迪机场起飞，下午4点30分到达波士顿罗根机场。天运航空52航班下午5点从纽约肯尼迪机场起飞，下午5点45分到达波士顿罗根机场。你想要哪一个？

用户：……哈？！

这个VUI给用户的信息量大到令人窒息。

对话9

VUI: 向你展示4个航班：下午1点、2点15、3点45 和下午5点。你想听其中一个的更多信息吗？

用户: 2点15的那个

VUI：好的。下午2点15，行仓航空234航班，从纽约肯尼迪机场起飞。下午3点45到达波士顿罗根机场。你要预订吗？

用户: 啊，好啊。

这个VUI保持简短、扼要；提供了更自然、愉悦的交互。

与书面文字的永久性相反；语音是短暂的，转瞬即逝的，且语音的传达方式是线性的。在VUI设计中，不相关的信息尤其令人反感。因为与GUI不同，用户无法略过一些内容。强迫用户处理没用的信息，是在浪费用户的宝贵时间。在我看来，人们讨厌机器客服的首要原因就是：冗长的废话。许多VUI设计师和开发人员将不相关的信息强加于大众，比如：促销活动、向上销售和教育引导。你肯定对这样的语音引导耳熟能详：“ 请输入您的十位电话号码，从区号开始。”

用户收益是关键。人们找东西或做事的时候，不愿意浪费时间或绕圈子。研究表明，在做同一件事上，如果VUI没有明显的优势用户不会选择使用VUI。不然意义何在呢？因此，成功的VUI设计需要在相关性和便利性上都提供更优的用户收益。

总结

保持信息简短且有用，给用户说话的机会。确保信息对用户有意义，可以给用户带来明显收益。不要过早陷入冗长的细节。

四、利用语境

要让对话真正有效，我们必须注重语境。一个优秀的对话参与者需要通晓对话的来龙去脉，熟记已说过的转折点及关联点，并具备用户情景意识（比如：用户正身处国外，用户所在的地方将有一场暴风雨，或者用户今天曾三次尝试修改某种设置）。

同样，VUI设计也要尽可能地利用用户的语境。如果用户之前提供过一些信息，那VUI的回应最好基于已有信息。比如，用户已经做了什么，用户已经知道了什么，用户在对话中已经说过了什么。明显的忽略上下文语境，会直接损害用户对智能助手的印象。有个众所周知的VUI反例：“请听仔细，因为我们的菜单选项最近有更改”，这里还有另一个版本：

对话10

VUI：请仔细听好，我们最近在选项上做出了一些改变。

虽然这段语音本意是辅助用户，实际却用无关紧要的信息浪费了用户的时间。

这种语音提示就是我所说的那种“VUI 糙货”中的典型，它的粗糙在于自以为是地忽略了用户的语境。来让我们看看它那些一厢情愿的假设吧：它假设用户之前打过电话；它假设之前打过电话的用户当时听到的选项是修改前的版本（实际上，用户可能几分钟前才打过电话）；它假设“最近”的意思会被理解成是“最近几个月”；它还假设听过老版本选项的用户真能记住当时的选项是什么！由于忽视了用户的语境，这条提示对绝大多数听者来说毫无用处，而我们也已经分析过为什么VUI中的无用信息令人尤为反感。

总结

我们在业界讨论了太多的个性化，人工智能，以及数据驱动创新。但其实，在设计中只要做到追踪对话的来龙去脉，保持对用户语境的意识，就可以有效地提升用户对人工智能的看法。

五、用语序和强调引导用户的注意力

制定单条语音的语言结构时，VUI对已提及内容的意识是相当重要的。否则，断了“来龙去脉”的对话会给听者的理解造成负担，并导致模糊的不适感。看看这两个不同的VUI回复（用户要求在不存在的日期预订航班）：

对话11

用户：预订…6月31号的。

VUI：其实只有30天，在您说的六月中。

这条语音把新信息放在前面，旧信息放在后面；打破了正常对话的“重点后置”原则。

对话12

用户: 预订…6月31号的。

VUI：事实上，6月只有30天。

这条语音把新信息放在了句尾，更合理。

为什么第一段语音奇怪而且机械，而第二段更像自然对话呢？“重点后置”原则给出了解释。根据这一对话原则（本文的引用经过简化）语言使用者对语言的信息排布具有无意识的预期。按照默认的规则，“新”信息出现在句子的末尾或接近末尾处，并用语气强调；而“旧”信息则出现在前面。在你刚刚听到的例子中，“30天”是新信息，所以它应该出现在最后并有适当的重音。在听起来很奇怪的版本中，旧信息“六月”错误地扮演了新信息的角色。事实上，“六月”不该放置在句子末尾，也不该使用语气强调；这样才能听起来更加自然。

违反“重点后置”原则会给交流增添没必要的阻力。反之，遵循用户对信息结构的预期不仅可以令体验更自然、顺畅，也可以让用户更加确信VUI确实听明白了自己的意思。

对话13

用户：印度的总理是谁？

VUI：印度的总理是纳伦德拉·莫迪

先陈述已知的信息，让用户知道机器听清了自己所说，从而加强用户对技术的信任。

这个例子表明，把旧的信息(印度总理)放前面，用户会马上知道机器正确识别到了“印度总理”。相反的，如果VUI说的是“意大利总理”，那用户就没必要花费精力去听后面的名字了。

总结

利用用户对语序和重音运用的预期，把用户的注意力集中在重要的事情上。尽可能地把已知信息放在新信息的前面！（除非，你的VUI形象是效仿《星球大战》Yoda大师而设计的。

六、不要教用户怎么下达指令 – 语言是自然的

我个人最痛恨的业余VUI设计典型是“教用户怎么说话”。下面有两个例子：

对话14

VUI：如果需要更多选择，说“更多选择”。

VUI：如果想听更多，说“继续”。

这些提示模拟了典型的按键界面（按键语音客服），它们正在教育用户该如何交流。

这些信息暗指用户需要学习怎么说话，不然VUI不会给你这样的提示。诸如此类的提示还有很多：“如果需要什么，请说/请做什么”。这种提示带有一些按键语音客服的痕迹；类似“技术支持请按1；支付和结算请按2”。事实上，这种信息是有价值（但是仅限于按键交互的领域），因为没有人从小就知道“1” 代表 “技术支持”。设计师和开发者赋予键盘的意义是用户无法通过直觉理解的。但在VUI的世界里这样的提示听起来就很荒谬了。这暴露了设计者没有真正理解VUI。对大众来说VUI的意义和收益在于：说话是自然而然的； VUI是不需要学习的。

看看下面这个愉悦的对话式提示的例子：

对话15

VUI：重播？回复？听下一条？

这一提示充分利用了对话的结构，舒适、自然、使人亲近。

很难想象有人会听不懂这样简单、直接的提示。如果他们真的没有听懂，你可以自再次提示。我们已经讨论过简洁、有效、和利用语境的重要性。再重复一遍，只在必要时使用错误提示。

总结

在VUI设计中避免教用户怎么下达指令。如果你必须对一个指令做出解释时，那就说明哪里出错了，你需要回去返工。与其手把手的教用户说话；为什么不问用户一个问题，给用户机会说话呢？听起来耳熟吗？这就是聊天啊！

随着让人耳目一新的聊天机器人、语音助手和语音应用的持续问世，我们现在有机会传播一个观点：对话是用户体验成功的关键。这可不仅仅意味着使用接地气的语言，比如用“you’re”替代“you are”，或使用“哦”和“谢了”。你要知道，对话是大自然最伟大的杰作之一，也是我们通过声音交流的最有力方式。最明智的做法是：效仿这些和人类一样古老的对话法则。而第一步就是开始从技术的角度解读对话的本质。

附录

谷歌设计语音界面的六原则

一、 给VUI赋予形象

对话1

对话2

总结

二、 推进对话

对话3

对话4

对话5

对话6

对话7

总结