秀优越感

小米AI音箱299元,但是现在还买不到。要不选择等半年,要不选择淘宝加价一两百。然而令人惊喜的是,参加前端体验大会后,主办方直接送了一个作为礼品。于是我能抢先体验到这一款产品。秀优越感完毕。

功能

外形和基本功能就不详细介绍了,网上的评测文章挺多了。

我用得比较多的功能主要还是点歌,叫一声小爱同学,然后就可以点歌。而且还可以沿同一歌手的歌单一直放下去。至于音效嘛,作为一款身型小巧的音箱,还是有点超出预期的。

此外,家里有一个智能插座是连接饮水机的,还有小米盒子、小米扫地机器人、小米台灯等设备,都可以比较好地联动:

“小爱同学,我要看琅玡榜”

“小爱同学,电视声音大一点”

“小爱同学,扫地”

“小爱同学,扫地机器人还有多少电”

“小爱同学,打开台灯”

“小爱同学,台灯亮度高一点”

“小爱同学,开始烧水”

……

总体来说,小爱同学对声音的响应灵敏度还不错,在房间里也能很自然地交互,对智能家居的打通也做得非常好,用起来真的非常方便。

前几天传出来小米估值2000亿美元在香港上市,个人认为,这其中应该至少有800亿美元的估值来自小米智能家居生态。而AI音箱作为智能家居重要的一环,作用不可小觑。

一些不爽的地方

前面说了,爽的地方很多评测都说过了,因此不详细说。这里重点说一说不爽的地方。

连续自然语言交互

首先会感觉不爽的地方是没有连续自然语言交互的能力。

“小爱同学,放一首歌”

“好的,即将为你播放XXX的XXX”

“下一首”

“……”

“小爱同学,下一首”

“…”(开始播放下一首)

在连续的语音指令后,很容易遗忘“小爱同学”这个称呼。而这个称呼的长度多达4个字,我要说的指令“下一首”本身都只有3个字。多次出现这种情况会让人比较抓狂。

音源鉴别

另一个不爽的地方在于小米AI音箱没有鉴别音源的能力。例如我把AI音箱放在电视旁边,我在看电视,然后我叫了一声小爱同学,然后音箱就开始听电视讲台本了,听完一段后装个傻,大家都很愉快。

说它完全没有音源鉴别能力也并不准确。因为我做了一些实验:

  • 音箱在播放声音的时候是可以同时监听语言的,比如放歌的时候(不论是蓝牙音源还是音箱自己放的歌)可以被唤醒
  • 音箱在播放声音时,来自音箱自己的声音无法唤醒自己(例如连上蓝牙后,用手机播放“小爱同学”)

因此,我猜测这里应该有用一些类似双麦降噪之类的技术,来区分声音是否是自己发出的。如果不是的话才进行唤醒响应。当然也不排除这只是个巧合……

如果已经有这样一些音源定位的技术的话,我觉得定位唤醒人的音源是非常重要的,谁叫的我,我就只听谁的,这样应该可以解决上面说的电视声音干扰的问题,提升使用体验。

语音交互的问题

自古以来,人跟机器的交互都是采用确定性的方式,不管是机械手柄还是实体键盘还是触控屏,机器展示出来的界面是确定的,人的操作也是确定的。一个操作会有一个确定的反馈。这实际上是人适应机器的过程。

但是语音交互打破了这种确定性,变成了机器适应人。那么,一句话说出去,机器会有怎样的反应,这个过程就变得不确定了。

“小爱同学,台灯亮度调高一点”

“小爱同学,台灯色温调高一点”

这两句在人看来都是非常容易理解的,然而,小爱同学只能处理前一句。

表面上来看,这个问题主要在于工程师的适配库不够强大,没有把色温调节这个功能点适配进去。但是深层次来看,这其实就是语音交互自身的问题。没有了确定性,那么对任何一句话的回应都是不敢做期望的。

于是,一开始拿到AI音箱的时候,想什么都通过它来完成,但是在使用时间长了之后,会发生一些心理变化。

例如,让AI音箱调大电视音量,如果漏掉“电视”两个字,就变成了调大AI音箱的音量,然后你需要重新再喊一次。而如果此时电视声音略大,就可能识别失败。于是两三次之后我重新拿回了遥控器调电视音量。

所以语音交互的确是带来了巨大的便利性,但是同时也带来了巨大的不确定性。如果反复碰到这个不确定性带来的不好的结果,我会怀念确定性的控制方式。

再比如,用AI音箱控制台灯,每一次控制完之后都会担心,我的控制是不是真的生效了,然后会跑去台灯那里看一下,控制是否生效了。(虽然这个场景不太真实,但是智能家居多了之后一定会有控制不在身边的电器的需求。)这本质上是一个对智能家居智能控制结果不太任何的体现。回想一下,我用手机控制的时候这种担心会少很多,这是因为手机上可以看到设备的当前状态,而AI音箱并没有直观反馈当前状态的地方。

这些问题其实都是交互设计的研究范围。以UI的交互设计为例,经过几十年的发展,目前UI设计理论可以说非常成熟了。但是语音的交互设计体系才刚开始,如何给用户做合理的反馈,如何管理用户的心理预期可能是接下来AI音箱们需要解决的一个非常重要的课题。

安全问题

一个音箱会有安全问题??嗯。一开始我也没有想到这个问题,可能第一次被问的话,我也应该会回答没有吧。

但是,当这个音箱是小米AI音箱,背后接着那么多智能家居的时候,这个问题就变得严肃了。

举个例子吧。小米生态链最近有一款智能门锁,可以接入米家,支持蓝牙、指纹、密码、钥匙开锁。虽然没有确认,但我觉得可以接入米家的应该也可以接入小米AI音箱吧。

那么,如果我站在家门口,喊一句“小爱同学,请开门”……原来芝麻开门的故事真的不是童话……

同样的,就算你不用门锁,你总有插座、电视、空调、扫地机器人、台灯什么的吧。如果一个陌生人在楼道里就能控制你的家电,这应该可以算是非常严重的安全问题了吧?

因此,小米AI音箱在全面接入智能家居之前,声纹锁应该是个必备功课,否则爆出问题是早晚的事情。

这背后其实是一个控制权的问题。当我拿起一个遥控器,我就有控制权,这个控制权靠遥控器这种实物来保证。当我拿起米家APP,我也有控制权,这个控制权靠手机这种实物(以及手机的安全机制)来保证。而当我放一个音箱在家里,这个控制权要靠什么来保证?

所以,在使用小米AI音箱的这几周中,我跟它接触得相当多,而每次接触都只做一件事情——关闭麦克风。至少这样能在心理上有一种我掌握了控制权的安慰。至于是不是真的掌握,作为一个做技术的人,是不敢相信的。

因此,小米AI音箱要解决的第二个问题,是确保麦克风真的可以被关闭,并且有独立的工作状态指示灯,且这个指示灯跟麦克风必须是硬件级别的关联,不可以通过软件进行修改。(可参考macbook摄像头的指示灯)

最后一个跟安全相关的问题是隐私。事实上在之前有很多获得小米AI音箱F码的机会,但是我一直没有去买,因为我还是不太能接受24小时被一个机器监听。

当我使用其它的数据设备的时候,我可以在使用时开机,不使用时关机或者锁屏或者待机,甚至在使用时我也可以选择暂停、放在桌上或者把摄像头对准窗外。即使是在使用手机语音助手的时候,我也可以选择在我需要的时候再点开它。但是使用小米AI音箱的时候,我并没有这种选择权,不管我在哪个房间,跟谁、朝哪个方向说话,都只能选择由它来监听我。这是由语音的交互形式决定的。

因此,当我确定我在一段时间内不再使用的时候(例如睡觉前),我一定会选择关闭麦克风。否则,所有的主动权全部在机器手上。这是交互形式由人适应机器变成机器适应人所带来的改变,目前我也想不到有什么好的解决方案。

小结

鉴于上面想到的诸多问题,AI音箱到底是不是一个真的风口呢?个人依然持有一定的怀疑态度。

交互的进一步完善一边要依赖交互理论的发展,另一边还要重试依赖自然语音交互技术的不断进步。而安全问题仍然会是一个在几年内都需要持续去完善的问题。

再重申一下,小米AI音箱是个非常榜的产品,使用体验很不错,相关的文章网上已经非常多,所以本文重点讲述的是使用过程中感受不太好的方面。

不管怎么说,一种新的可能性正在到来。为小米点赞。