您的位置:资讯>观察>关于百箱大战 这十个问题是你应该知道的
这是个能让猪飞起来的风口,还是伪繁华的泡沫,抑或一次行业整体的升级换代?
【亿邦动力网讯】这个夏天,智能音箱火了。一方面是巨头摩拳擦掌,国外有亚马逊、谷歌、苹果、微软,国内有京东、阿里巴巴、搜狗、喜马拉雅、科大讯飞等等,另一方面是中小企业期盼能分到一杯羹,深圳南山区的创业者星罗棋布。
这是个能让猪飞起来的风口,还是伪繁华的泡沫,抑或一次行业整体的升级换代?
亿邦动力网接触到的专家、从业者传递了这样的信息:作为一种产品形态,智能音箱不排除有昙花一现或者改弦更张的可能性,但这背后代表着真实而日益逼近的交互方式的变革,迎合了人类的对于简单、便捷的本性追求。
同时,语音又是连接物联网的桥梁,家庭场景的价值将被更深挖掘,家居产品的制造、销售环节呗打散、重构,带来全新的品牌机会。
因此,智能音箱是一个不得不关注的高地。亿邦动力网梳理了关于该产品的十个关键问题,特别适合初入门者服用。
在Sugr创始人兼CEO 宋少鹏看来,智能音箱代表了人机交互的最先进成果――语音交互,这一方式符合人类对降低与物理世界交流所需成本的历史趋势。
人机交互演进的方向很简单:使得交互成本的降低,即人完成交互所需要消耗的能量,或者说人完成交互所需要付出的成本。
如果大家沿着历史的规律,键盘――鼠标――触屏――语音,如果你想算2的10次方减1,在这四种交互环境下,大家可以算一算完成这个交互需要多少时间,答案是显然的。
人类解决声音产品的历史迭代,经历了一个怎样的过程?
如果我们把时间拨回到两百年以前,可以想象一下,热爱音乐的人去欣赏音乐,需要驾着马车,到音乐厅或者歌剧院,才能欣赏音乐。
留声机的发明,使得音乐第一次进入了家庭,我可以躺在家里面去欣赏音乐,是不是我付出的能量减少了?
沿着这个思路一路迭代,到了iPod,我可以把1000首歌装在我的口袋,手指一滑,就可以欣赏我喜欢的音乐。能量的消耗就更少了。
2014年,亚马逊Echo发布了智能音箱,动动嘴皮子就可以获得你想要的音乐,能量的消耗进一步减少了。
因此,从音乐产品的迭代,恰恰印证了以上的规律――降低了人跟物理世界交互所需的能耗。(Sugr创始人兼CEO 宋少鹏)
出门问问CEO李志飞认为,智能音箱是虚拟个人助理的一种存在形式,而后者则是人工智能技术在消费领域的应用。
最近人工智能特别火,大家可能每天都会看到各种各样人工智能的报道,比如说无人驾驶,智慧医疗、智慧城市,这其实很多都是一些2B的应用,而在2C领域有一个大家经常听到的类别,那就是虚拟的个人助理。
1956年,人工智能概念提出,过去这几十年,人类尤其是计算机的科学家,一直都在想象我们是不是能够创造一个机器,能够像人一样,跟人进行自然的对话,然后帮助你处理很多事情。
这是历史发展过程中一些简单的产品,当然还有很多别的产品或技术,但这可能是大众关注比较多的。
在1956-2011年,即在Siri出现之前,可能更多是算法,主要是政府或者学术界在研究算法,把自然语言处理、计算机视觉、图像识别,各种各样算法的框架搭起来。
在2011年的时候,Apple发布了Siri,这可能一下子激发了大家对语音助手的讨论或者期待。我相信,当时所有人买了一个iPhone拿回家,第一件事情可能就是调戏一下Siri,显示一下自己的智商比Siri要高,然后就再也不用了。确实,在过去很多时候都是这么一个场景。
但是,不管怎么样,大家确实看到了大众对于这种虚拟语音助手的热情。所以,后来无论是Google还是微软,还是Amazon,他们都发布了自己的虚拟助理,或者语音助手这样一个产品。
其实在Siri之前,无论是IBM还是微软,还是Google,他们在语音交互的技术上做了很多很多尝试,也做了很多产品的尝试,只不过从来没有像Apple一样把Siri包装成一个类似于人的助理,然后引起大量的讨论。
但是,确实Apple的用户教育能力是非常强的,所以在这之后基本上引起了整个虚拟个人助理的热潮。
另外一个时间点我觉得比较关键,2014年Amazon发布智能音箱Echo。
早期虚拟个人助理都是在手机上的体现,但是其实很多人只是调戏一下,显得自己的智商比机器还高,很放心,基本上就不再用了。
而现在可以看得到,智能音箱可能是继智能手机之后一个唯一超过一千万量的产品,有比较高频的人机交互产品。。
在那之后,大家其实就看到了,Google也发布了音箱,中国已经,或者说正在进入“百箱大战”,最后谁能胜出?谁也不知道。
我认为单一的一个设备是很难承载所有的交互的,未来无论是交互的方式还是交互的设备,都会是多元化的。交互的方式除了语音、手势、图像、视觉、表情各种各样的方式可能都会是综合性的。语音可能比今天变得更重要一点,但是它绝对不会成为80%都靠语音交互方式。
设备无论是耳塞也好,还是车载的设备也好,还是未来的AR、VR的设备也好,可能都会是虚拟个人助理硬件的载体。
宋少鹏指出,智能音箱这样的产品形态最早在美国出现,这与当地的音乐消费习惯密切相关,极高的用户粘性使人工智能技术不用多完善就得以商用。
美国的第一批广大流行音乐消费者是成长于汽车上的黄金一代,汽车上都配备收音机。
在北美,大家习惯了背景式的、实时存在式的播放,在任何一个生活场景里面都会有音乐的存在。落实到家庭场景里面,音箱几乎就是刚需。
有了这样的刚性需求,有了流媒体这样的播放习惯,换句话说,就是在智能音箱为大家提供语音交互的时候,其实用户对于语义理解的要求没有那么高。
音箱本来就是被动播放音乐的产品,人工智能和语音助手的植入使它成为一个主动获取信息、获取音乐,成为一个流量的入口。
慢慢地,技术的迭代使得它开始加入了家居其他产品的控制功能,逐步成长为家居的中控,这样就有了无比巨大的想象空间,这也就解释了为什么几乎所有的互联网巨头,包括Google、亚马逊、微软、苹果都进入了这样一个产品竞争的赛道。
巨头的进入使得产业的升级就会加快,服务的完善就会加快。所以,智能音箱在今年夏天成为了一个现象级的产品。
有种传闻,在深圳市南山区方圆一公里的范围内,就有超过100家智能音箱制造商。为什么大家一股脑都挤进来了呢?李志飞从技术和商业的角度阐述了其中的门道。
从技术角度说,智能音箱是一个语音交互特别有意思的产品。
我们在语音交互以及在语音交互硬件商落地做了很多尝试,包括手机、Googleglass、智能手表、车载、音箱、耳塞,我们发现,如果你要使语音交互有用,要具备几个条件:
条件一:硬件的载体本身有一定的用户需求。因为Googleglass当时很大的问题,很快没人用了。
条件二:使用的场景是比较私密的。智能手机现在在公共场合很难用语音交互的,但家里是一个比较私密的场景,自然用户可能愿意用语音进行交互。
条件三:语音交互可能是你最好比较方便的形式,可能没有更好的方式,比如Googleglass就很难用别的方式。
我们当时看DAU(日活跃用户数量),比如手机语音交互的DAU小于1%;手表小于10%;车载大于60%,也就是100个用户有60个用户会用语音进行交互;Googleglass是80%,因为它没有别的交互方式。
总结起来,我觉得这三点是语音交互能不能得到应用一个基本的判断:
1. 硬件本身要有黏性。
2:使用空间比较私密。
3:语音交互可能是唯一的或者少有的一个好的交互方式。
这三个条件都很重要,Googleglass单独看DAU很高80%,但是这个硬件本身没有刚需,使得它的语音交互作为上面的一个软件也没有用。
为什么家居这么重要?我认为家居第一是私密的,第二我认为它有一定的使用场景。
在技术层面,它代表不同的维度。举个例子,我们讲语音识别的远场近场,可能手机和手表,可能大于30厘米的距离,实际上一般你的后视镜也好,你的距离可能都在这里,所以这个基本上也是1米的距离。但是,音箱现在大家宣称最大是5米。这确实技术上是一个很有意思的场景,以前所有的语音识别收集数据都是离麦克风这么近或者更近,可能很少有人那么远的,而且需要远场唤醒,因为你不能手去弄它。
而且在家里有多轮对话,家里小孩可能喜欢对话,而且你们没有屏幕,可能没有别的方式。
所以,在技术上,它是语音交互独一无二、非常重要的练兵场。
从商业角度来说,大家生活空间不就家里、车里、路上、办公室,这基本上覆盖了每天的空间。
所以,家里肯定是一个非常重要的空间。
未来搜索,我们首先用PC、键盘到手机上,已经很多开始用语音,未来家里可能直接用对话进行搜索,所以肯定是入口的一个东西。
包括内容消费,比如现在很多音乐、音频,这种内容可能未来都收费,这个是智能音箱可能是很重要的消费场景,所以也是一个内容的入口。
还有就是智能家居控制的入口,因为你很难想象,每个空调本身自己放远场识别的语音识别系统跟它交互,或者每一个电视、音箱,每一个电饭煲、扫地机器人都配备远场的语音交互非常智能的服务。我觉得智能音箱可能是从一个中心,它背后去控制各种设备。
(李志飞)有的人拼性价比,硬件供应链能力比较强,打低价,把市场搞的很乱,或者说别人都没路可以走;
有的拼智能,语音交互做的不错,全部都是自己的系统,可以更快、更准、对话更深,这个可能是我们比较重要的一个点;
有的人是说,有内容生态,有音乐、FM、相声各种东西,这个打内容;
有的可能是打渠道。
所以现在确实没有一个选手全都具备了,当然市场上确实可能有那么3-4家,每一个都有自己稍微比较强一点的地方,可能拿着这个点不停地打。
目前市场上主流的智能音箱不带有屏幕,依靠语音交互,据外媒报道,Facebook正在研发一款更加注重视觉画面交互的音箱,配置一块15英寸的触摸屏幕。
(李志飞)从产品的角度,我一直觉得智能音箱这种100%靠语音交互的产品是很难做好的,一定得有一个屏幕的出现。
但是屏幕是跟电视绑定,还是自带,或者必要的时候把手机打开,这其实是一个可以值得探讨的问题。
我反而相信,智能音箱可以上智能手机的屏幕,在有必要的时候,还是打开手机做一些操作,这可能是比较渐进式、现实的解决方案。
智能电视作为智能音箱的屏幕,我觉得是不太靠谱的。电视是一个很重的设备,我打开它会觉得,把这么大的一个屏幕一打开,就是为了控制一个空调或者怎么样,我觉得这个事情完全不make sense(没有意义),这是非常重要的一种交互方式,所以我不认为它会成为最主要的音箱屏幕的辅助形式。
当然,音箱可以跟智能电视交互没什么问题,但是更多是以使用电视场景的时候,我通过音箱控制。而不是说我为了控制空调,我跟智能音箱说了一句话,智能音箱把电视打开,电视显示出一个什么样的结果,最后我看到什么东西,这个是不太现实的。
很流行的设想是,智能音箱将控制整个家,难道真的只有这一个入口吗?
(李志飞)从软件的角度来说,我认为入口是统一的。
只不过硬件的载体是什么?是单一的音箱还是两三个音箱,或者在各处有不同的设备?
首先,我认为,不会是唯一的设备,但我也不同意每一个设备都会有自己远场语音交互的能力。因为成本方面不合理,比如加50元或者100元给空调做远场语音交互,就为了控制开关温度,我觉得这是非常没有道理的事情。
这是现在亚马逊、Google都在思考的问题。可以就选小设备,在花盆里,无处不在,有很多的模组。
然而,是一个新的设备形态,可能就贴在面板上,放在花盆里、卧室的墙上,这种有一个特色,其实我们今天定义的屋里(远场语音交互)是不是有必要?因为可能房间有8个设备,我走到哪都有。
(李志飞)首先,短时间内达到什么千万级别的量,很难。今年整个市场差不多能达到100万的出货量。
我觉得智能音箱这种形式要分软件和硬件两个层面来看。
第一,从软件的角度来说,无论智能电视还是路由器、空调或者墙上的一个钟,成为一个入口设备,我觉得都比较类似。
每个房间可能形式都会不一样,在厕所有可能现在像梳妆镜一样的魔镜成为最主要的载体,在客厅是音箱,在卧室可能是钟或者是挂灯有关的这种,所以这种是有可能会变化的。
但是不管怎么样,尤其对我们这样的公司来说,我们还是把这个软件、交互AI作为最核心的东西。所以,市场硬件更多是我们的一个载体,我们找到一个大家能够接受的一种形式。
宋少鹏认为,中美音乐欣赏以及家庭环境的差异,导致智能音箱在国内的发展路径不可能照搬美国的。
我们身边的消费者需要一个什么样的智能音箱?
中美消费者对于音乐消费的DNA是不同的。美国音乐消费从听收音机开始的。收音机是什么呢?收音机是电台、radio,一个一个电台播放的是按照曲风、曲目、歌单所排列的音乐,所以我们认为北美的音乐消费DNA是源于流媒体。
中国的音乐消费者最初接触音乐源于80年代初期的改革开放,港台的音乐以盒带、卡带的形式大量流入内地。大家首次接触音乐是精美的盒带、完美的印刷,包括封面、歌词,打开之后、欣赏完这些内容,才去把它放到收录机里面听音乐。听的内容是一般是一个歌手的完整专辑,里面可能有各种各样的曲风,还很少有合集和混编,记忆深刻的是某一个歌手或者某一首歌。所以,我们认为中国音乐消费者的DNA是源于那个时候的盒带式的播放,是一种点播式的。
我们认为这就是两地音乐消费的DNA根源上的不同。
这样的不同在我们两地的音乐APP上就有了体现,我们以Spotify为例子,还有QQ音乐(用户量最大的中文音乐播放器),很大的不同:
1、搜索在QQ音乐始终是一级菜单,在最显眼的地方,最方便用户搜索。为什么?因为用户要点播。在Spotify上你要到二级菜单才能完成搜索的功能。
2、封面、歌词我们都在非常显著的位置,非常多的视觉信息,而在Spotify这边没有。
总的俩说,北美的音乐消费是流媒体式的,他们的生活中的场景处处都有音乐,音乐就在那里放着,并不需要太多地去改变它、更换它。而我们的音乐消费DNA是点播式的,需要实时确定我要听这个、我要听那个。由此导致两地的消费者对于音乐播放硬件的要求是不同的。
我们认为在中国点播会是一个非常强的需求,将会是一个常态,点播会带来技术上的需求,它包括更强大的语义理解能力,更丰富、更深入的音乐知识图谱,以及更完善的音乐版权和曲库。
同时,中美两地的消费者消费的场景也有很大的不同,挑两个例子来跟大家分享。
1、在美国,用户使用的空调通常都是中央空调,通过每个房间的温控来控制空调的温度。
而在我们家里,通常都是壁挂式或者是落地式的空调,每一个空调都有单独的摇控器,这就决定了如果音箱作为一个智能家居的中控,它对于空调的接口、控制场景和体验是不同的。
2、在北美消费者的厨房是开放式的,跟客厅融入一体的厨房,这也是亚马逊Echo最最常用的一个使用场景。而在我们身边,大家都知道,厨房为你完成的是煎、炒、烹、炸,这个场景是完全不一样的。
由此还可以推出很多不一样的场景,大家可以去思考,这些场景所带来的用户需求一定是不同的。
所以我们认为,在中国做智能音箱,一定不能复制亚马逊Echo的路径,而是要找到我们真正消费者的需求,落实消费者的场景,来解决我们自己的问题。
科幻片电影《她》(Her)其中的“女主角”――一款虚拟个人助理产品,给大家带来了无尽的想象空间,但是李志飞强调,从技术实现的难度上看,它真的还只是科幻片。
1、技术。
从技术的角度,如果说我们去看整个技术的发展,在四年前,语音识别本身就是整个瓶颈,如果语音识别都不准,后面的理解、内容都没有有什么用?
但是到今天,语音识别的技术本身已经发展到一定程度,不会成为这个虚拟个人助理是不是能够被使用起来的瓶颈。
而今天最大的瓶颈就是自然语言的理解。我相信大家都有一个经验,当你去调戏SIRI或者是调戏各种音箱的时候,第一轮没什么问题,当你跟它进行一个对话,你把句式换一换,或者说你再特意调戏一下它,基本上两、三轮就把它问死了,它是答非所问,或者纯粹就是“呵呵”的那种。
所以这个确实是自然语言理解以及对话是我们未来两、三年遇到的特别大的瓶颈。在那之后,可能才是推荐、推理、背后的思考、理解和自己能够创造一些新的东西出来,这是再之后的。
一个特别有意思的悖论,一方面计算机可以创造一个程序,可以打败世界上最牛的下棋的,无论是围棋还是象棋的棋手,表现计算机非常聪明。但是另外一方面,计算机都不能像一个5岁的小孩一样跟你进行一个正常的对话。
我认为最核心的是我们今天计算机没有对物理世界和常识有建模、理解。
2、用户场景角度。
因为虚拟个人助理或者是语音交互要得到使用,其实就是看你有什么样的场景,用户是调戏一下就走,还是说真正有活跃度。
当用户打开这个机器,每天有多少比例会用语音交互,也就是说语音交互的DAU。智能车载可能是我们未来看到最先普及的语音交互的,其次还是无线耳塞或者是智能家居,最后才是手机。