不会写段子的VUI设计师不是好AI产品经理 / 木子杰软件教程

说书唱戏劝人方

一条大路走中央

善恶到头终有报

人间正道是沧桑

— 确认下眼神，我不是喜剧人

一定是特别的缘分，才可以一路走来，变成了段子手。误入段子界已有四五年，早期只是看各路高手的创造，一段时间后实在技痒也加入了创作的大军中，甚至在年会的时候上台表演了脱口秀（一个多么错误的选择）。流传比较广的段子是加工创作了一位男同事的口头禅 “我只是个小喽啰”

“你们知道，‘我只是一个小喽啰 ’用英文怎么说？”

“I am just a low boy”（谐音+双关梗）

没想到自己的业余爱好会在自己的工作中发挥不少作用，原来还可以这样做设计

写段子就是玩梗，玩梗的核心总结就是：情理之中，意料之外

语音交互的核心玩法则是：要什么，给什么

这两个看似南辕北辙的两件事情，里面有很多原则是互通或互斥的。

一，简单点，说话的方式简单点

段子是有多个故事组合而成，列出来的时间要写得尽可能简洁，避免冗长的描述。莎士比亚曾经说过：简洁即幽默（莎翁真说过这句话？？？）

举个互联网界的段子：

“丁磊说赚钱只是一个顺便的事，
周鸿祎说他的人生很失败，
马云说他这辈子最后悔的事就是创建了阿里，
网友说我也想顺便人生失败后悔一辈子”

里面的三个核心故事还是很不错的，只是表述地过于啰嗦，网友们用古汉语的绝句诗体，一改就大不一样：

顺便赚钱丁三石，
人生失败周鸿祎，
悔创阿里杰克马
……

通过对信息的重新组合和排练，用一首三句“七绝”将互联网大佬们的人生态度以及段子的“笑果”表现出来了。喜剧有一条属于自己的能量守恒定律：用户用了多少能量去思考，他们便少了多少能量去发笑。这条同样适用于语音交互。用户通过听觉器官去获取准备信息，所耗费的注意和认知资源是视觉通道的数倍，准确，简单是对用户耳朵“最后的温柔”

以语音助手的引导语为例：

“我是你的人工智能助手瓜瓜，可以帮你查询各地天气，播报今日新闻，设定闹钟，你只要和我说你好瓜瓜，就可以叫醒我了”

引导语是语音助手和用户第一次见面时，打招呼说的话，话中需要包含三类必要信息：自我介绍，功能介绍，操作介绍。

“Hi，我是瓜瓜，可以查天气，播新闻，定闹钟，和我说你好瓜瓜播新闻试试吧”

同样的缩减，组合，可以减少前两类必要信息的冗余，最后的操作介绍不宜为了减少字数而牺牲信息传播的准确性，而是通过具体化到某个功能的介绍，一来让操作更加直观，二来也弥补了听觉信息以短时记忆为主要载体的，与前面功能介绍里的“播新闻”相呼应。

二，“底线”要不要？

段子里面的核心笑点一般是用“底”收尾的，每个笑点都有一个关键词，短语或者动作揭示出再解读，然后打破观众的原有预期，达到“笑”果。相声里就是抖包袱里揭开最后一层包袱皮。笑点提前给出来，观众笑完还会继续听下面你在说什么，除非是连着给笑点，小笑点后面跟着大笑点，不然这样的效果会很差，例子感受一下：

刘备的马脱缰跑向悬崖，张飞急得大喊：“大哥，你快勒马！” 刘备骂道：“我很快乐！”
刘备的马脱缰跑向悬崖，张飞急得大喊：“大哥，你快勒马！” 刘备骂道：“我很快乐！你傻呀，三弟！”

但在语音交互设计中却要避免这样的操作，核心的信息要尽快给出，这样才契合“要什么，给什么”的原则。要注意的是对话要满足日常的对话结构，不为信息的前置而前置。示例如下：

用户：杭州明天是晴天吗？
瓜瓜：杭州明天天气晴，气温23到30度。

这条回复中的必要信息没有问题，但是在回答用户核心的意图（天气状况）之前，加了地区（杭州）和时间（明天）两类信息，核心信息给的不够及时。

用户：杭州明天是晴天吗？
瓜瓜：是晴天，气温23到30度。

有人说还可以更简洁

用户：杭州明天是晴天吗？
瓜瓜：晴，气温23到30度。

这里不这样做的原因有俩。“晴”作为单个字，可以是一句话，作为声音信息来说，有信息遗漏的风险；另外就是，顺着用户的问法，对前句有信息继承，可以打消用户对信息可信度疑虑。（只报告“晴”，用户回疑惑是杭州的天气吗？是明天的吗？）

三，玩过节奏大师吗？

喜剧中，同一种节奏很容易让观众产生假设：接下来还会是同样的节奏，达到层层蓄势，在最后打破观众的假设。比较经典的例子就是《吐槽大会》第一季第一集周杰对吐槽嘉宾的“灭霸”式反吐槽：

“史航说他伶牙俐齿，在大学校园里深受女大学生的欢迎，甚至有人要和他厮守终生，这句话估计你们都听不明白，自健不明白什么是伶牙俐齿，蛋蛋不明白什么是很受欢迎，王琳不明白什么是厮守终生，池子不明白什么是大学校园，张全蛋不明白什么似女大学生哪！？”

在语音交互中，中文本身的特殊性，单音节字、词或者短语都可以组成一个句子。语音交互中，当不得不陈述大信息量语句，例如用户询问附近餐厅，最近热门影片时，使用三段结构，可以有效降低用户的认知负荷。

四，背景不一样，背影再多也没用

在脱口秀中，表演者需要非常了解他要表演的观众，针对性地修改里面的故事，让台下的观众最快地进入故事，产生假设。当观众不明白你在说什么就不会笑，这是一个常识，某个词或者引用语对段子的理解非常重要，必须思考观众是否熟悉。语音交互中对应的就是要避免使用专业术语和名词，避免引入一些有知识壁垒和共同背景的短语。

用户：你好，瓜瓜，推荐你最喜欢的三首歌
瓜瓜：李志的《热河》，蔡琴的《渡口》，童丽的《相思》

这是我们项目组测试用的歌，大家对此非常熟悉，但组外的人就不明白这三首歌的点在哪里，讲出去就无法引发共鸣。天气类型中有几种气象类型很小众：扬沙，冻雨，浮尘，即使出现概率很低，在具体播报的时候可以考虑修改为用户熟悉的气象类型：扬沙（沙尘暴），冻雨（雨）。在AI闲聊写作中这点更是要注意。

用户：你觉得我今天好看吗？
瓜瓜：云想衣裳花想容，春风拂槛露华浓。

这首诗意境很美，理解这两句诗是有知识门槛，使用的时候要非常慎重。

五，凛冬将至

在专业的脱口秀里面，有个潜规则：“谐音梗是要扣钱的”。

谐音梗是一种相对老套的喜剧形式，日常和朋友聊天，综艺节目可以用，对话AI产品中也可以用。大多数对话AI产品的人格定位不是专业的脱口秀演员，而是身边的助手或者朋友，更适合用谐音梗或者冷笑话的方式来拉近距离。

数据显示天猫精灵回答了1亿个问题，讲笑话次数达1296万次，可见用户对AI娱乐搞笑的需求很强烈。目前喜剧界的现状是逗乐观众越来越难，原因是信息传播太快了。一个好笑的段子，在一天之内占领微博热搜，三天之内基本全国人民都知道了，讲大家都知道的梗，就真的是味同嚼蜡。在的段子质量无法保证的基础上（毕竟只是业余爱好者），冷笑话可能更适合作为AI讲笑话的主攻方法。目前大部分AI用女性的声音，女性作为谐星来逗乐观众的难度要比男性大很多，重口味梗不能用（明显的性暗示，脏话和下三路的段子）；目前的语音合成技术，大部分的声音的自然度和韵律距离人声还有距离，说话的机械感比较强，声情并茂地讲段子是万万做不到的，效果无法保证；最后就是目前阶段的人工智能水平，用户对AI助手的定位还是“不智能，呆”。冷笑话这种需要逻辑推理一下，过段时间才反应过来的笑话，更契合AI当前的预期定位。

六，非视觉系

人们说话和写作用的语言是不一样，写段子的时候要用说的语言，而不是看的。有一类段子就是视觉系的，例如：

皮卡丘是怎么走路的？皮卡乒皮卡乓皮卡乒皮卡乓皮卡乒皮卡乓

这类段子就很难通过声音来表达它的笑点，只有变成文字，读者才能第一时间明白它的意思。在很多的语音交互准则中都提到过：“要用听的语言而不是看的”，但是设计师在写这些对话的时候，还是摆脱不了用书面语言，甚至把一些常用的口语强行书面化。比如 “好的 ”，“没问题”，这两个是常用的同意态度应答语。“好的好的” “好的没问题” “没问题，好的”都是口语中使用频率更高的，表达更积极的同意态度，语法上有点问题，但表达上没问题。

上面讲到的是在写段子中的常用的一些原则和技巧，以及如何在语言交互中的运用这些技巧。但光会写段子，还不足以做好语音交互，那么除了会写段子，VUI设计师还需要会什么？

下期见！

封面作者：Vic

网易UEDC（公众号）

作者：A-W

不会写段子的VUI设计师不是好AI产品经理