您的位置：资讯>观察>关于百箱大战这十个问题是你应该知道的

关于百箱大战这十个问题是你应该知道的

亿邦动力网亿邦动力网阅读：1008赞：02017-08-10

这是个能让猪飞起来的风口，还是伪繁华的泡沫，抑或一次行业整体的升级换代？

【亿邦动力网讯】这个夏天，智能音箱火了。一方面是巨头摩拳擦掌，国外有亚马逊、谷歌、苹果、微软，国内有京东、阿里巴巴、搜狗、喜马拉雅、科大讯飞等等，另一方面是中小企业期盼能分到一杯羹，深圳南山区的创业者星罗棋布。

这是个能让猪飞起来的风口，还是伪繁华的泡沫，抑或一次行业整体的升级换代？

亿邦动力网接触到的专家、从业者传递了这样的信息：作为一种产品形态，智能音箱不排除有昙花一现或者改弦更张的可能性，但这背后代表着真实而日益逼近的交互方式的变革，迎合了人类的对于简单、便捷的本性追求。

同时，语音又是连接物联网的桥梁，家庭场景的价值将被更深挖掘，家居产品的制造、销售环节呗打散、重构，带来全新的品牌机会。

因此，智能音箱是一个不得不关注的高地。亿邦动力网梳理了关于该产品的十个关键问题，特别适合初入门者服用。

1. 看起来是音箱，实际是语音交互

在Sugr创始人兼CEO 宋少鹏看来，智能音箱代表了人机交互的最先进成果――语音交互，这一方式符合人类对降低与物理世界交流所需成本的历史趋势。

人机交互演进的方向很简单：使得交互成本的降低，即人完成交互所需要消耗的能量，或者说人完成交互所需要付出的成本。

如果大家沿着历史的规律，键盘――鼠标――触屏――语音，如果你想算2的10次方减1，在这四种交互环境下，大家可以算一算完成这个交互需要多少时间，答案是显然的。

人类解决声音产品的历史迭代，经历了一个怎样的过程？

如果我们把时间拨回到两百年以前，可以想象一下，热爱音乐的人去欣赏音乐，需要驾着马车，到音乐厅或者歌剧院，才能欣赏音乐。

留声机的发明，使得音乐第一次进入了家庭，我可以躺在家里面去欣赏音乐，是不是我付出的能量减少了？

沿着这个思路一路迭代，到了iPod，我可以把1000首歌装在我的口袋，手指一滑，就可以欣赏我喜欢的音乐。能量的消耗就更少了。

2014年，亚马逊Echo发布了智能音箱，动动嘴皮子就可以获得你想要的音乐，能量的消耗进一步减少了。

因此，从音乐产品的迭代，恰恰印证了以上的规律――降低了人跟物理世界交互所需的能耗。（Sugr创始人兼CEO 宋少鹏）

2. 还有人工智能

出门问问CEO李志飞认为，智能音箱是虚拟个人助理的一种存在形式，而后者则是人工智能技术在消费领域的应用。

最近人工智能特别火，大家可能每天都会看到各种各样人工智能的报道，比如说无人驾驶，智慧医疗、智慧城市，这其实很多都是一些2B的应用，而在2C领域有一个大家经常听到的类别，那就是虚拟的个人助理。

1956年，人工智能概念提出，过去这几十年，人类尤其是计算机的科学家，一直都在想象我们是不是能够创造一个机器，能够像人一样，跟人进行自然的对话，然后帮助你处理很多事情。

这是历史发展过程中一些简单的产品，当然还有很多别的产品或技术，但这可能是大众关注比较多的。

在1956-2011年，即在Siri出现之前，可能更多是算法，主要是政府或者学术界在研究算法，把自然语言处理、计算机视觉、图像识别，各种各样算法的框架搭起来。

在2011年的时候，Apple发布了Siri，这可能一下子激发了大家对语音助手的讨论或者期待。我相信，当时所有人买了一个iPhone拿回家，第一件事情可能就是调戏一下Siri，显示一下自己的智商比Siri要高，然后就再也不用了。确实，在过去很多时候都是这么一个场景。

但是，不管怎么样，大家确实看到了大众对于这种虚拟语音助手的热情。所以，后来无论是Google还是微软，还是Amazon，他们都发布了自己的虚拟助理，或者语音助手这样一个产品。

其实在Siri之前，无论是IBM还是微软，还是Google，他们在语音交互的技术上做了很多很多尝试，也做了很多产品的尝试，只不过从来没有像Apple一样把Siri包装成一个类似于人的助理，然后引起大量的讨论。

但是，确实Apple的用户教育能力是非常强的，所以在这之后基本上引起了整个虚拟个人助理的热潮。

另外一个时间点我觉得比较关键，2014年Amazon发布智能音箱Echo。

早期虚拟个人助理都是在手机上的体现，但是其实很多人只是调戏一下，显得自己的智商比机器还高，很放心，基本上就不再用了。

而现在可以看得到，智能音箱可能是继智能手机之后一个唯一超过一千万量的产品，有比较高频的人机交互产品。。

在那之后，大家其实就看到了，Google也发布了音箱，中国已经，或者说正在进入“百箱大战”，最后谁能胜出？谁也不知道。

我认为单一的一个设备是很难承载所有的交互的，未来无论是交互的方式还是交互的设备，都会是多元化的。交互的方式除了语音、手势、图像、视觉、表情各种各样的方式可能都会是综合性的。语音可能比今天变得更重要一点，但是它绝对不会成为80%都靠语音交互方式。

设备无论是耳塞也好，还是车载的设备也好，还是未来的AR、VR的设备也好，可能都会是虚拟个人助理硬件的载体。

3. 为什么音箱最先引爆热点？

宋少鹏指出，智能音箱这样的产品形态最早在美国出现，这与当地的音乐消费习惯密切相关，极高的用户粘性使人工智能技术不用多完善就得以商用。

美国的第一批广大流行音乐消费者是成长于汽车上的黄金一代，汽车上都配备收音机。

在北美，大家习惯了背景式的、实时存在式的播放，在任何一个生活场景里面都会有音乐的存在。落实到家庭场景里面，音箱几乎就是刚需。

有了这样的刚性需求，有了流媒体这样的播放习惯，换句话说，就是在智能音箱为大家提供语音交互的时候，其实用户对于语义理解的要求没有那么高。

音箱本来就是被动播放音乐的产品，人工智能和语音助手的植入使它成为一个主动获取信息、获取音乐，成为一个流量的入口。

慢慢地，技术的迭代使得它开始加入了家居其他产品的控制功能，逐步成长为家居的中控，这样就有了无比巨大的想象空间，这也就解释了为什么几乎所有的互联网巨头，包括Google、亚马逊、微软、苹果都进入了这样一个产品竞争的赛道。

巨头的进入使得产业的升级就会加快，服务的完善就会加快。所以，智能音箱在今年夏天成为了一个现象级的产品。

4. 为什么玩家都要来抢占智能音箱的高地？

有种传闻，在深圳市南山区方圆一公里的范围内，就有超过100家智能音箱制造商。为什么大家一股脑都挤进来了呢？李志飞从技术和商业的角度阐述了其中的门道。

从技术角度说，智能音箱是一个语音交互特别有意思的产品。

我们在语音交互以及在语音交互硬件商落地做了很多尝试,包括手机、Googleglass、智能手表、车载、音箱、耳塞，我们发现，如果你要使语音交互有用，要具备几个条件：

条件一：硬件的载体本身有一定的用户需求。因为Googleglass当时很大的问题，很快没人用了。

条件二：使用的场景是比较私密的。智能手机现在在公共场合很难用语音交互的，但家里是一个比较私密的场景，自然用户可能愿意用语音进行交互。

条件三：语音交互可能是你最好比较方便的形式，可能没有更好的方式，比如Googleglass就很难用别的方式。

我们当时看DAU（日活跃用户数量），比如手机语音交互的DAU小于1%；手表小于10%；车载大于60%，也就是100个用户有60个用户会用语音进行交互；Googleglass是80%，因为它没有别的交互方式。

总结起来，我觉得这三点是语音交互能不能得到应用一个基本的判断：

1. 硬件本身要有黏性。

2：使用空间比较私密。

3：语音交互可能是唯一的或者少有的一个好的交互方式。

这三个条件都很重要，Googleglass单独看DAU很高80%，但是这个硬件本身没有刚需，使得它的语音交互作为上面的一个软件也没有用。

为什么家居这么重要？我认为家居第一是私密的，第二我认为它有一定的使用场景。

在技术层面，它代表不同的维度。举个例子，我们讲语音识别的远场近场，可能手机和手表，可能大于30厘米的距离，实际上一般你的后视镜也好，你的距离可能都在这里，所以这个基本上也是1米的距离。但是，音箱现在大家宣称最大是5米。这确实技术上是一个很有意思的场景，以前所有的语音识别收集数据都是离麦克风这么近或者更近，可能很少有人那么远的，而且需要远场唤醒，因为你不能手去弄它。

而且在家里有多轮对话，家里小孩可能喜欢对话，而且你们没有屏幕，可能没有别的方式。

所以，在技术上，它是语音交互独一无二、非常重要的练兵场。

从商业角度来说，大家生活空间不就家里、车里、路上、办公室，这基本上覆盖了每天的空间。

所以，家里肯定是一个非常重要的空间。

未来搜索，我们首先用PC、键盘到手机上，已经很多开始用语音，未来家里可能直接用对话进行搜索，所以肯定是入口的一个东西。

包括内容消费，比如现在很多音乐、音频，这种内容可能未来都收费，这个是智能音箱可能是很重要的消费场景，所以也是一个内容的入口。

还有就是智能家居控制的入口，因为你很难想象，每个空调本身自己放远场识别的语音识别系统跟它交互，或者每一个电视、音箱，每一个电饭煲、扫地机器人都配备远场的语音交互非常智能的服务。我觉得智能音箱可能是从一个中心，它背后去控制各种设备。

5. 百箱大战竞争点在哪里？

（李志飞）有的人拼性价比，硬件供应链能力比较强，打低价，把市场搞的很乱，或者说别人都没路可以走；

有的拼智能，语音交互做的不错，全部都是自己的系统，可以更快、更准、对话更深，这个可能是我们比较重要的一个点；

有的人是说，有内容生态，有音乐、FM、相声各种东西，这个打内容；

有的可能是打渠道。

所以现在确实没有一个选手全都具备了，当然市场上确实可能有那么3-4家，每一个都有自己稍微比较强一点的地方，可能拿着这个点不停地打。

6. 有了语音，我们还需要屏幕吗？

目前市场上主流的智能音箱不带有屏幕，依靠语音交互，据外媒报道，Facebook正在研发一款更加注重视觉画面交互的音箱，配置一块15英寸的触摸屏幕。

（李志飞）从产品的角度，我一直觉得智能音箱这种100%靠语音交互的产品是很难做好的，一定得有一个屏幕的出现。

但是屏幕是跟电视绑定，还是自带，或者必要的时候把手机打开，这其实是一个可以值得探讨的问题。

我反而相信，智能音箱可以上智能手机的屏幕，在有必要的时候，还是打开手机做一些操作，这可能是比较渐进式、现实的解决方案。

智能电视作为智能音箱的屏幕，我觉得是不太靠谱的。电视是一个很重的设备，我打开它会觉得，把这么大的一个屏幕一打开，就是为了控制一个空调或者怎么样，我觉得这个事情完全不make sense（没有意义），这是非常重要的一种交互方式，所以我不认为它会成为最主要的音箱屏幕的辅助形式。

当然，音箱可以跟智能电视交互没什么问题，但是更多是以使用电视场景的时候，我通过音箱控制。而不是说我为了控制空调，我跟智能音箱说了一句话，智能音箱把电视打开，电视显示出一个什么样的结果，最后我看到什么东西，这个是不太现实的。

7. 入口是唯一的吗？

很流行的设想是，智能音箱将控制整个家，难道真的只有这一个入口吗？

（李志飞）从软件的角度来说，我认为入口是统一的。

只不过硬件的载体是什么？是单一的音箱还是两三个音箱，或者在各处有不同的设备？

首先，我认为，不会是唯一的设备，但我也不同意每一个设备都会有自己远场语音交互的能力。因为成本方面不合理，比如加50元或者100元给空调做远场语音交互，就为了控制开关温度，我觉得这是非常没有道理的事情。

这是现在亚马逊、Google都在思考的问题。可以就选小设备，在花盆里，无处不在，有很多的模组。

然而，是一个新的设备形态，可能就贴在面板上，放在花盆里、卧室的墙上，这种有一个特色，其实我们今天定义的屋里（远场语音交互）是不是有必要？因为可能房间有8个设备，我走到哪都有。

8. 国内智能音箱的需求量大吗？

（李志飞）首先，短时间内达到什么千万级别的量，很难。今年整个市场差不多能达到100万的出货量。

我觉得智能音箱这种形式要分软件和硬件两个层面来看。

第一，从软件的角度来说，无论智能电视还是路由器、空调或者墙上的一个钟，成为一个入口设备，我觉得都比较类似。

每个房间可能形式都会不一样，在厕所有可能现在像梳妆镜一样的魔镜成为最主要的载体，在客厅是音箱，在卧室可能是钟或者是挂灯有关的这种，所以这种是有可能会变化的。

但是不管怎么样，尤其对我们这样的公司来说，我们还是把这个软件、交互AI作为最核心的东西。所以，市场硬件更多是我们的一个载体，我们找到一个大家能够接受的一种形式。

9. 智能音箱能在国内普及吗？

宋少鹏认为，中美音乐欣赏以及家庭环境的差异，导致智能音箱在国内的发展路径不可能照搬美国的。

我们身边的消费者需要一个什么样的智能音箱？

中美消费者对于音乐消费的DNA是不同的。美国音乐消费从听收音机开始的。收音机是什么呢？收音机是电台、radio，一个一个电台播放的是按照曲风、曲目、歌单所排列的音乐，所以我们认为北美的音乐消费DNA是源于流媒体。

中国的音乐消费者最初接触音乐源于80年代初期的改革开放，港台的音乐以盒带、卡带的形式大量流入内地。大家首次接触音乐是精美的盒带、完美的印刷，包括封面、歌词，打开之后、欣赏完这些内容，才去把它放到收录机里面听音乐。听的内容是一般是一个歌手的完整专辑，里面可能有各种各样的曲风，还很少有合集和混编，记忆深刻的是某一个歌手或者某一首歌。所以，我们认为中国音乐消费者的DNA是源于那个时候的盒带式的播放，是一种点播式的。

我们认为这就是两地音乐消费的DNA根源上的不同。

这样的不同在我们两地的音乐APP上就有了体现，我们以Spotify为例子，还有QQ音乐（用户量最大的中文音乐播放器），很大的不同：

1、搜索在QQ音乐始终是一级菜单，在最显眼的地方，最方便用户搜索。为什么？因为用户要点播。在Spotify上你要到二级菜单才能完成搜索的功能。

2、封面、歌词我们都在非常显著的位置，非常多的视觉信息，而在Spotify这边没有。

总的俩说，北美的音乐消费是流媒体式的，他们的生活中的场景处处都有音乐，音乐就在那里放着，并不需要太多地去改变它、更换它。而我们的音乐消费DNA是点播式的，需要实时确定我要听这个、我要听那个。由此导致两地的消费者对于音乐播放硬件的要求是不同的。

我们认为在中国点播会是一个非常强的需求，将会是一个常态，点播会带来技术上的需求，它包括更强大的语义理解能力，更丰富、更深入的音乐知识图谱，以及更完善的音乐版权和曲库。

同时，中美两地的消费者消费的场景也有很大的不同，挑两个例子来跟大家分享。

1、在美国，用户使用的空调通常都是中央空调，通过每个房间的温控来控制空调的温度。

而在我们家里，通常都是壁挂式或者是落地式的空调，每一个空调都有单独的摇控器，这就决定了如果音箱作为一个智能家居的中控，它对于空调的接口、控制场景和体验是不同的。

2、在北美消费者的厨房是开放式的，跟客厅融入一体的厨房，这也是亚马逊Echo最最常用的一个使用场景。而在我们身边，大家都知道，厨房为你完成的是煎、炒、烹、炸，这个场景是完全不一样的。

由此还可以推出很多不一样的场景，大家可以去思考，这些场景所带来的用户需求一定是不同的。

所以我们认为，在中国做智能音箱，一定不能复制亚马逊Echo的路径，而是要找到我们真正消费者的需求，落实消费者的场景，来解决我们自己的问题。

10. 距离一款电影Her那样的产品有多远？

科幻片电影《她》（Her）其中的“女主角”――一款虚拟个人助理产品，给大家带来了无尽的想象空间，但是李志飞强调，从技术实现的难度上看，它真的还只是科幻片。

1、技术。

从技术的角度，如果说我们去看整个技术的发展，在四年前，语音识别本身就是整个瓶颈，如果语音识别都不准，后面的理解、内容都没有有什么用？

但是到今天，语音识别的技术本身已经发展到一定程度，不会成为这个虚拟个人助理是不是能够被使用起来的瓶颈。

而今天最大的瓶颈就是自然语言的理解。我相信大家都有一个经验，当你去调戏SIRI或者是调戏各种音箱的时候，第一轮没什么问题，当你跟它进行一个对话，你把句式换一换，或者说你再特意调戏一下它，基本上两、三轮就把它问死了，它是答非所问，或者纯粹就是“呵呵”的那种。

所以这个确实是自然语言理解以及对话是我们未来两、三年遇到的特别大的瓶颈。在那之后，可能才是推荐、推理、背后的思考、理解和自己能够创造一些新的东西出来，这是再之后的。

一个特别有意思的悖论，一方面计算机可以创造一个程序，可以打败世界上最牛的下棋的，无论是围棋还是象棋的棋手，表现计算机非常聪明。但是另外一方面，计算机都不能像一个5岁的小孩一样跟你进行一个正常的对话。

我认为最核心的是我们今天计算机没有对物理世界和常识有建模、理解。

2、用户场景角度。

因为虚拟个人助理或者是语音交互要得到使用，其实就是看你有什么样的场景，用户是调戏一下就走，还是说真正有活跃度。

当用户打开这个机器，每天有多少比例会用语音交互，也就是说语音交互的DAU。智能车载可能是我们未来看到最先普及的语音交互的，其次还是无线耳塞或者是智能家居，最后才是手机。

标签：

作者：亿邦动力网

来源：亿邦动力网

免责声明：本文仅代表作者本人之观点，电商头条网发表或转载此文只是出于传递更多信息之目的，其原创性以及文中陈述文字和内容未经电商头条网证实；电商头条网对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如其他媒体、网站或个人从电商头条网下载使用，必须保留电商头条网注明的“稿件来源”，并自负版权等法律责任。电商头条网倡导尊重与保护知识产权。如发现本站文章存在版权问题，烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至电商头条网客服邮箱；service#hotniu.cn（请将#改成@），我们将及时沟通与处理。
侵权投诉反馈邮箱：service#hotniu.cn（#改成@）