小爱同学你好吗

2018年1月9日

秀优越感

小米AI音箱299元，但是现在还买不到。要不选择等半年，要不选择淘宝加价一两百。然而令人惊喜的是，参加前端体验大会后，主办方直接送了一个作为礼品。于是我能抢先体验到这一款产品。秀优越感完毕。

功能

外形和基本功能就不详细介绍了，网上的评测文章挺多了。

我用得比较多的功能主要还是点歌，叫一声小爱同学，然后就可以点歌。而且还可以沿同一歌手的歌单一直放下去。至于音效嘛，作为一款身型小巧的音箱，还是有点超出预期的。

此外，家里有一个智能插座是连接饮水机的，还有小米盒子、小米扫地机器人、小米台灯等设备，都可以比较好地联动：

“小爱同学，我要看琅玡榜”

“小爱同学，电视声音大一点”

“小爱同学，扫地”

“小爱同学，扫地机器人还有多少电”

“小爱同学，打开台灯”

“小爱同学，台灯亮度高一点”

“小爱同学，开始烧水”

……

总体来说，小爱同学对声音的响应灵敏度还不错，在房间里也能很自然地交互，对智能家居的打通也做得非常好，用起来真的非常方便。

前几天传出来小米估值2000亿美元在香港上市，个人认为，这其中应该至少有800亿美元的估值来自小米智能家居生态。而AI音箱作为智能家居重要的一环，作用不可小觑。

一些不爽的地方

前面说了，爽的地方很多评测都说过了，因此不详细说。这里重点说一说不爽的地方。

连续自然语言交互

首先会感觉不爽的地方是没有连续自然语言交互的能力。

“小爱同学，放一首歌”

“好的，即将为你播放XXX的XXX”

“下一首”

“......”

“小爱同学，下一首”

“...”（开始播放下一首）

在连续的语音指令后，很容易遗忘“小爱同学”这个称呼。而这个称呼的长度多达4个字，我要说的指令“下一首”本身都只有3个字。多次出现这种情况会让人比较抓狂。

音源鉴别

另一个不爽的地方在于小米AI音箱没有鉴别音源的能力。例如我把AI音箱放在电视旁边，我在看电视，然后我叫了一声小爱同学，然后音箱就开始听电视讲台本了，听完一段后装个傻，大家都很愉快。

说它完全没有音源鉴别能力也并不准确。因为我做了一些实验：

音箱在播放声音的时候是可以同时监听语言的，比如放歌的时候（不论是蓝牙音源还是音箱自己放的歌）可以被唤醒
音箱在播放声音时，来自音箱自己的声音无法唤醒自己（例如连上蓝牙后，用手机播放“小爱同学”）

因此，我猜测这里应该有用一些类似双麦降噪之类的技术，来区分声音是否是自己发出的。如果不是的话才进行唤醒响应。当然也不排除这只是个巧合……

如果已经有这样一些音源定位的技术的话，我觉得定位唤醒人的音源是非常重要的，谁叫的我，我就只听谁的，这样应该可以解决上面说的电视声音干扰的问题，提升使用体验。

语音交互的问题

自古以来，人跟机器的交互都是采用确定性的方式，不管是机械手柄还是实体键盘还是触控屏，机器展示出来的界面是确定的，人的操作也是确定的。一个操作会有一个确定的反馈。这实际上是人适应机器的过程。

但是语音交互打破了这种确定性，变成了机器适应人。那么，一句话说出去，机器会有怎样的反应，这个过程就变得不确定了。

“小爱同学，台灯亮度调高一点”

“小爱同学，台灯色温调高一点”

这两句在人看来都是非常容易理解的，然而，小爱同学只能处理前一句。

表面上来看，这个问题主要在于工程师的适配库不够强大，没有把色温调节这个功能点适配进去。但是深层次来看，这其实就是语音交互自身的问题。没有了确定性，那么对任何一句话的回应都是不敢做期望的。

于是，一开始拿到AI音箱的时候，想什么都通过它来完成，但是在使用时间长了之后，会发生一些心理变化。

例如，让AI音箱调大电视音量，如果漏掉“电视”两个字，就变成了调大AI音箱的音量，然后你需要重新再喊一次。而如果此时电视声音略大，就可能识别失败。于是两三次之后我重新拿回了遥控器调电视音量。

所以语音交互的确是带来了巨大的便利性，但是同时也带来了巨大的不确定性。如果反复碰到这个不确定性带来的不好的结果，我会怀念确定性的控制方式。

再比如，用AI音箱控制台灯，每一次控制完之后都会担心，我的控制是不是真的生效了，然后会跑去台灯那里看一下，控制是否生效了。（虽然这个场景不太真实，但是智能家居多了之后一定会有控制不在身边的电器的需求。）这本质上是一个对智能家居智能控制结果不太任何的体现。回想一下，我用手机控制的时候这种担心会少很多，这是因为手机上可以看到设备的当前状态，而AI音箱并没有直观反馈当前状态的地方。

这些问题其实都是交互设计的研究范围。以UI的交互设计为例，经过几十年的发展，目前UI设计理论可以说非常成熟了。但是语音的交互设计体系才刚开始，如何给用户做合理的反馈，如何管理用户的心理预期可能是接下来AI音箱们需要解决的一个非常重要的课题。

安全问题

一个音箱会有安全问题？？嗯。一开始我也没有想到这个问题，可能第一次被问的话，我也应该会回答没有吧。

但是，当这个音箱是小米AI音箱，背后接着那么多智能家居的时候，这个问题就变得严肃了。

举个例子吧。小米生态链最近有一款智能门锁，可以接入米家，支持蓝牙、指纹、密码、钥匙开锁。虽然没有确认，但我觉得可以接入米家的应该也可以接入小米AI音箱吧。

那么，如果我站在家门口，喊一句“小爱同学，请开门”……原来芝麻开门的故事真的不是童话……

同样的，就算你不用门锁，你总有插座、电视、空调、扫地机器人、台灯什么的吧。如果一个陌生人在楼道里就能控制你的家电，这应该可以算是非常严重的安全问题了吧？

因此，小米AI音箱在全面接入智能家居之前，声纹锁应该是个必备功课，否则爆出问题是早晚的事情。

这背后其实是一个控制权的问题。当我拿起一个遥控器，我就有控制权，这个控制权靠遥控器这种实物来保证。当我拿起米家APP，我也有控制权，这个控制权靠手机这种实物（以及手机的安全机制）来保证。而当我放一个音箱在家里，这个控制权要靠什么来保证？

所以，在使用小米AI音箱的这几周中，我跟它接触得相当多，而每次接触都只做一件事情——关闭麦克风。至少这样能在心理上有一种我掌握了控制权的安慰。至于是不是真的掌握，作为一个做技术的人，是不敢相信的。

因此，小米AI音箱要解决的第二个问题，是确保麦克风真的可以被关闭，并且有独立的工作状态指示灯，且这个指示灯跟麦克风必须是硬件级别的关联，不可以通过软件进行修改。（可参考macbook摄像头的指示灯）

最后一个跟安全相关的问题是隐私。事实上在之前有很多获得小米AI音箱F码的机会，但是我一直没有去买，因为我还是不太能接受24小时被一个机器监听。

当我使用其它的数据设备的时候，我可以在使用时开机，不使用时关机或者锁屏或者待机，甚至在使用时我也可以选择暂停、放在桌上或者把摄像头对准窗外。即使是在使用手机语音助手的时候，我也可以选择在我需要的时候再点开它。但是使用小米AI音箱的时候，我并没有这种选择权，不管我在哪个房间，跟谁、朝哪个方向说话，都只能选择由它来监听我。这是由语音的交互形式决定的。

因此，当我确定我在一段时间内不再使用的时候（例如睡觉前），我一定会选择关闭麦克风。否则，所有的主动权全部在机器手上。这是交互形式由人适应机器变成机器适应人所带来的改变，目前我也想不到有什么好的解决方案。

小结

鉴于上面想到的诸多问题，AI音箱到底是不是一个真的风口呢？个人依然持有一定的怀疑态度。

交互的进一步完善一边要依赖交互理论的发展，另一边还要重试依赖自然语音交互技术的不断进步。而安全问题仍然会是一个在几年内都需要持续去完善的问题。

再重申一下，小米AI音箱是个非常榜的产品，使用体验很不错，相关的文章网上已经非常多，所以本文重点讲述的是使用过程中感受不太好的方面。

不管怎么说，一种新的可能性正在到来。为小米点赞。

小爱同学 你好吗

秀优越感 ​

功能 ​

一些不爽的地方 ​

连续自然语言交互 ​

音源鉴别 ​

语音交互的问题 ​

安全问题 ​

小结 ​