为什么智能语音助手仍显得有点傻?
我:“ Alexa,微波燕麦片。”
Alexa :“好的,温度多少?”
我:“我不知道。”
Alexa :“呃,我不确定。”
我正在试用一款新的亚马逊品牌烤箱,其设计理念是让用户向Alexa发出语音指令,让烤箱的操作更为便捷。
虽然在许多方面,这款烤箱的确操作简单,而且有些功能相当惊艳,但当我们过多地尝试以语音操控它时,其存在的问题便会被放大。有人知道微波燕麦片的恰当温度吗?或者说,微波炉竟然有温度设置?
这款烤箱的功能很丰富——它也是一款对流式烤箱和空气炸锅——但是,当我说“做三文鱼”时,Alexa问我要做多少。 我回答1磅,却被告知只能做“0.063到0.37磅的三文鱼” 。虽然我可以通过声音轻松启动对流烤箱,却不能用声音关闭它。(烤箱本身不具备对话功能,你可以使用附近的Alexa智能音箱来操控它。)
亚马逊表示,我遇到的诸多问题都正通过后台更新得到修复,但要实现语音助手与人完全流畅地对话,恐怕还有很长一段路要走。这就像在旅行前临阵磨枪学外语:你能记住某些短语,但是在用完“储备”短语后,你就会提高嗓门,开始一个劲地做手势比划。
我已经把多个灯的开关换成了Wifi智能开关,其他灯则装上了联网灯泡。 我还在多个房间放置了智能音箱,包括浴室,圣诞树的灯也连接到了一个智能插座上。我的家人都向Alexa发出命令,她大部分时间都照办无误。不过我们的命令都简单直接:播放这首歌,关掉这些灯,设置计时器或闹钟。
“不论什么事,只要这件事能快速完成,通过语音来实现是最佳的,”语音优先软件开发商 Witlingo首席执行长、前亚马逊Alexa产品负责人艾哈迈德 · 布兹德(Ahmed Bouzid)在一封电子邮件中说。最佳用户界面应该比其所替换掉的命令所需的工作量更小。与正被替换掉的指令相比,最佳界面应让用户更省力。
以亚马逊的智能烤箱为例,布兹德提出了对这套设计的质疑:做饭的时候你就在烤箱附近,通常也不会尝试做其他事情,所以还不如直接按下按钮。
亚马逊智能家居业务副总裁丹尼尔 · 劳什(Daniel Rausch)则提出了相反的观点。他认为这款烤箱功能繁多,没有其他界面可以容纳如此多的指令:“如果你试图画一张囊括该设备所有功能的图表,并希望给每个功能都设一个按钮,你恐怕需要一个路边广告牌大小的按键面板,”他说。
那么,语音助手的作用就是替换开关和搜索框吗? 这些界面背后的公司正不断为语音助手增添功能,其中一些功能具有惊人的颠覆性。如果仔细研究,可以发挥的空间其实很大。但是受一系列因素,包括隐私方面的考虑影响,我们似乎仍然停滞不前。
回话功能
例行程序是一种将多个动作组合在一起的方法。这样一来,只需一个简单的语音命令,例如“我到家了”,就可以关闭警报器、打开灯、调节恒温器,也许还能奏响轻快的爵士乐。
理论上,这种感觉很酷;但真正设置起来却很烦人——因为设置例行程序时你必须坐在那里,设想自己希望通过一个指令要做的所有事情,以及如何确保它们按照设定准确无误的执行。
现在,操控这些界面的应用程序会提供建议——通常是基于你自己的行为。
如果你下载一个叫“快捷指令”(Shortcuts)的应用,苹果版本的例行程序就会出现。虽然这并非最好用的例行程序工具,但如果你打开它,点击“快捷指令中心”(Gallery),然后在“来自App的快捷指令”(Shortcuts from Your Apps)中查看,可能会发现有用的指令。晚上我通常会设置三个闹钟——“醒来”、“校车抵达”和“乘车”。现在,我只需说一声“早间闹钟” ,一切就搞定了。
但是例行程序只能解决按键次数太多的问题。开发人员正努力使这些界面变得更加“健谈”,让后续提问成为可能。可能你会说,“打开门廊的灯,”这项任务完成了,然后你的助手可能会建议,“你也想打开露台的灯吗?”因为这合乎逻辑。
虽然亚马逊和谷歌的产品都会提出建议,但亚马逊的“预测”功能更进一步:当你要求打开门廊灯时,它可能会说,“你是不是也想让我演奏舒缓的爵士乐? ”这个问题基于你的(可能是下意识的)行为:通常,打开门廊灯的时候,你也会播放轻柔的爵士乐。
此外,亚马逊和谷歌都允许你无需唤醒词即可启用语音助手。 通过启用Alexa应用程序中的“跟进”(Follow-Up)和Google Home应用程序中的“连续对话”(Continued Conversation),你可以唤醒助手,然后在不重复唤醒词的情况下继续提问。它还能记住部分语境:“Alexa,圣诞节是哪一天? ”在它回答之后,你可以简略地问:“那复活节呢? ”
苹果的Siri可以在不同情境下做到这一点。苹果的蓝牙耳机Airpods Pro现在有一个“信息播报”(Announce Message)功能,可以把收到的消息读给你听,并让你用讲话方式进行回覆。沃尔玛基于iOS的日用品配送应用将Siri和你的购物历史相结合,所以你只要通过语音就可以更便捷地挑选商品,而无需记住关键词。
个性化和隐私
好几位与我有过交流的分析师认为,真正需要做的是加强人类和机器语音之间的联系。个性化意味着能识别谁在说话并记住对方的偏好。但这需要收集数据,而近来我们在这方面的自我保护意识越来越强。
“隐私是消费者最关心的问题。苹果等公司已经做了大量工作对此加以改善,” Futuresource Consulting的首席分析师西蒙∙福里斯特(Simon Forrest)指出。例如,现在的智能设备能够更多地将信息储存在本机,并且在某个声音要求播放一部特定的电影时识别出来。
Alexa应用程序提供了一个单独的智能家居设备历史记录项,用户可清除已存储的数据。 谷歌称,该公司的产品能让你查看和删除自己的历史记录。
“我们正想方设法尽可能少地获取数据,但同时又能为用户改进产品,” Google助理高级产品总监莉莉安∙里肯(Lilian Rincon)表示。目前,出于质量方面的原因,Google助理的大部分工作都需要使用云,她说。不过,“我们希望把更多的东西留在设备上。”
正如我的同事乔安娜∙斯特恩(Joanna Stern)今年早些时候指出的那样,谷歌Pixel 4手机就是一个很好的典范。这款手机只需基于自身硬件就可以实时将语音转换成文本。iPhone 11也变得更少地使用云端来实现其功能,如呈现Siri的新声音,即便是老款的iPhone也可以通过自身硬件来学习你的行为,并据此提出行动建议。
发现新功能
那么,为什么语音技术有了如此显著的进步,大多数时候我们的使用仍然停留在设置计时器和播放音乐的层面?与你最喜欢的应用程序更换新图标不同,你无法实实在在地看到语音助手的新功能。Alexa、Google Home和Siri快捷指令可提供大量的建议,亚马逊和谷歌销售的带屏幕智能音箱也是如此。但这些还不足以推动人们养成使用习惯。
“一直以来我们面临的一大问题是‘发现’问题,尤其是对扬声器而言——让你知道你能(通过产品)做些什么,” 里肯说。
来自亚马逊的劳什也承认存在可发现性问题,他套用了亚马逊创始人杰夫∙贝佐斯(Jeff Bezos)的名言: “这是亚马逊的第一天,对Alexa和AI来说绝对是如此。”
那么第2天或者第12天是什么样子的呢?Futuresource公司的福里斯特说,即使是语音优先的界面,也可以结合手势控制和触觉反馈等技术,就像在手腕上轻轻点击Apple Watch一样。 他认为“智能耳戴式设备”(hearables),如超级智能的AirPods,很可能成为声音优先的成功案例。
同时,我也会试着“说服”这款智能烤箱制作超过0.37磅的烤三文鱼。