作者: 冯棕煦 安创空间 创业项目负责人
上次对计算机视觉这块做了简要的介绍,本文想对智能语音领域做分析。自Amazon推出Echo之后,到去年11月份已经卖出510万台,引爆了整个市场。随着Amazon 开放其背后的 Alexa 平台,在很短的时间里面,搭载 Alexa 的硬件品类已经超过7000种,语音作为智能硬件入口的观点被很多人认可。
基于此,本文想对智能语音领域的总体格局作一些探讨,对未来趋势的判断上提出自己的意见。再去深入分析产品本身,理解产品的硬件、软件、算法、系统、云管端等组成,分析在总体的竞争格局下,可能存在的机会。很多Knowhow来自对语音领域专家的访谈,以及阅读相关资料,所以有不足之处请指出。
总体格局
根据《中国智能语音产业发展白皮书》的报告,全球智能语音产业规模在2017年预计能突破100亿美元,而同时我国在这一产业能突破100亿元人民币。
从硬件来讲,根据Future Source的数据,智能音响增速更快,在音频设备中的占比也逐步提升,预计2013-2019年全球智能音响复合增长率为14%。
随着亚马逊 Echo 和 Alexa 的大获成功,几乎国内外所有 IT 巨头都相继进入了语音交互市场,包括谷歌、苹果、微软、亚马逊、Facebook、三星、阿里、百度、腾讯、华为、科大讯飞、搜狗等,还包括了海天瑞声、中科信利、接通华声等公司,当然还包括很多初创企业包括思必驰、云知声、出门问问、声智科技、三角兽、蓦然、Rokid、傲硕等创业公司。从市场份额来讲,全球还是以 Nuance、Google、Apple 市场份额最大,国内来讲以科大讯飞和百度,其中科大讯飞占了约40%的市场份额。
目前来看各公司大概会在几个方向上布局:第一个方向是凭借智能语音硬件产品及平台,包括亚马逊的 Echo 硬件和 Alexa 平台、Google 的 Google Home 硬件和Assistant,国内的很多公司也在纷纷效仿,如科大讯飞、云知声、思必驰、Rokid等凭借在数据、算法和平台上的优势,开始布局硬件,甚至开始布局芯片。由于云和端甚至芯片的全面布局,这类企业在语音领域会有很强的把控力,但需要大量的资源和能力作为支撑。如亚马逊的 Alexa 能够快速推广的原因是亚马逊免费授权政策和销售渠道,在接入 Alexa 语音服务和授权项目方面,亚马逊完全免费。就连与产品销量挂钩的销量分成也并不存在。亚马逊既提供平台,又提供渠道资源,利用电商平台帮助销售;第二个方向主要以移动终端作为硬件载体,主要是因为移动终端特别是智能手机市场的存量特别大,以及结合各种APP应用多样性,是很多公司特别是互联网公司喜欢的模式。利用自己的算法优势,作为智能手机的语音助理,包括Apple、微软、百度、出门问问等,当然这些公司资源丰富,也会切入到其他智能硬件领域,包括Google会在多领域布局;第三个方向会切入到细分专业市场,如车载市场,Nuance有发布Dragon Drive语音助手,国内也有傲硕专攻车载语音这样的创业公司。同时,基于这些方向,很多公司会相互合作,百度和小鱼在家机器人公司深度合作,打造内嵌百度语音操作系统DuerOS的智能终端产品,京东联合科大讯飞发布智能音箱叮咚等。当然对于更早期的创业公司可以凭借自己在某一点的优势,与其他企业合作,切入到这些方向。
从商业模式上来看,大家看好亚马逊的很重要的原因是它拥有电商平台、云平台以及硬件开发的能力。通过开放Alexa,后端整合内容及服务,前端整合各类用户的终端设备,用户数和服务数都能快速增长,形成自己的生态壁垒。随着第三方的开发者越来越多,Alexa涵盖的技能也越来越广泛,除了查询天气、播放音乐、创建任务、设置闹钟、发送消息之类的基本功能之外,还支持预订外卖、Uber 打车、控制家用电器等各种功能。除了第三方开发者,Alexa也已经对第三方硬件厂商开放,已经有冰箱、汽车等加入到了支持Alexa的大军。但从现在的应用场景的使用量来看,还是以新闻、查询天气、闹钟等为主,如何使语音作为入口,建立人与人之间的连接,以及人与物、物与物之间的连接,我这里说的连接不是仅仅只通讯上的连接,而是人与人之间情感上的,人与物、物与物可以帮助决策、方便生活上的连接。目前来看,现在还只是早期,需要更多的探索,换言之,虽然亚马逊现在稍有领先,但是其他公司都有机会,格局未定。
从国内来讲,由于我国特殊的环境与政策,以及中文语言的壁垒,包括服务器不在本地等因素,在相当程度上对国外语音巨头的进入形成了壁垒。因此我看好国内智能语音公司的发展,但同时这也是双刃剑,也阻止了国内智能语音公司向欧美等国家的发展,可能东南亚市场可以做部分切入。但有一点必须要正视,虽然我国人口众多,但是目前美国有大约 460 万家庭用户安装了智能家居系统,支撑了 Echo 这样的智能设备的成功。而中国只有30万用户,基础设施与用户习惯上的差距,可能会影响智能语音硬件,如智能音箱等在中国的普及。但从最终的趋势来看,在中国市场肯定会有一家或几家如亚马逊提供平台级的公司,提供云到端的服务。但是这也绝非易事,京东联合科大讯飞发布的智能音箱叮咚,市场就反响一般,这当然有中国市场的因素,但本身产品上也是重要原因。不得不说的是Rokid是另外一个更具想象空间的一个例子,由于Rokid的硬件载体是家庭机器人,基于上面的应用价值和想象空间会更大,从报道上来看,Rokid的声纹识别、方向识别、语义理解和主动感知上都能达到业界领先水准,不仅能够知道唤醒它的人是谁,还能在嘈杂环境下准确分辨出声音来源,而且识别距离最远可达 10米。当然前提是家庭机器人的广泛应用,但这至少会使 Rokid 在家庭机器人市场优于其他竞争对手。
价值链分析
上面讲的是总体的格局,接下来想从智能语音硬件的产品架构开始谈起,从细节处、包括软硬件等角度去发现在这领域内可能存的机会。我一直认为,产业链价值是相互传导的,某一个细分的技术有可能在某时间点变成产品差异化的关键,好比智能手机领域,在去年双摄成为差异化的关键因素,而在更早以前,是其他的技术或部件起关键作用。所以我觉得有必要做更深入的分析和理解,而不能仅仅在宏观上的分析,那样很容易留于表面。先看一下Echo和Google Home的Teardown。
亚马逊Echo
Echo 的售价为 179.99 美元,采用 6+1 的麦克风阵列,主芯片采用德州仪器的数字多媒体芯片,同时采用高通 Atheros的 WiFi和蓝牙。此数字多媒体芯片与 OMAP3架构兼容,最高可以到1GHZ,ARM Coretex A8架构,具有较高的音视频编解码能力,内嵌TI的DSP Core,下图是该芯片的架构图。在软件上,该产品使用Alexa系统,能支持各种应用,上面已有说明。
Google Home
Google Home 售 价 为 129 美 元 。 采 用 双 麦 克 风 阵 列 , 两 颗InvenSense INMP621 MEMS 收音芯片。由于 Google 与 Marvell 在 GoogleTV 以及电视棒 Chromecast 上的良好合作,所以此次也采用 Marvell 88DE3006 Armada 双核ARM Cortex-A7 多媒体专用处理器,该芯片也是电视棒的主芯片。以及Marvell Avastar 88W8897 WLAN/BT/NFC SoC通讯芯片。未找到该颗主芯片的硬件架构图,下图是ARMADA 1500 同系列高配芯片架构图,带Audio DSP。在软件上,该产品使用Google Assistant系统。
亚马逊 Echo 和 Google Home 在硬件上最大的区别,还是在于亚马逊使用环形6+1麦克风阵列,而Google是采用双麦克风阵列。麦克风阵列是利用一定数目,一定空间构型的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。麦克风阵列能做很多事情,对于环境噪声,它可以采用自适应波束形成做语音增强,从含噪语音信号中提取纯净语音;对于说话人说话位置的不确性,它可以通过声源定位技术来计算目标说话人的角度,来跟踪说话人以及后续的语音定向拾取;对于室内声音反射,导致语音音素交叠,识别率较低的问题,它可以通过去混响技术,减小混响,提高识别率。
按照业内人的观点,在家庭的环境内,如果优化的好,双麦克风阵列可以做到与多麦克风差不多的语音增强和降噪效果。双麦克风阵列只能定位 180°内的范围,而多麦克风则可以做到 360°的定位。但是这要依硬件设备的使用场景而定,比如在机器人领域,对声源定位的要求很高,如Rokid机器人使用8麦克风阵列。但是在有些应用场景,如靠墙的冰箱等,只需要180°的定位。在汽车领域,则最好是选用其他结构形式的麦克风阵列,比如分布式阵列。目前国内主流的智能语音企业在双麦克风方案上都有布局,仅云知声目前搭载双麦克的芯片模组每月的出货量就超过几万片。
最近的发展趋势在远场识音方面,即 5 米以上的语音交互。为了实现更好的效果,多麦克风方案是必须的,麦克风个数越多,对说话人的定位精度越高,但这个精度体现在距离上,如果说话人的距离不是很远,则差异未必能够体现。因此要综合考虑实际的应用场景,选择不同的麦克风个数和阵型。在这方面出了亚马逊的Echo是采用6+1阵型,国内科大讯飞是 4 麦和 6+0 麦方案,思必驰的 6+1 麦方案,以及声智科技的4(+1)麦阵列、6(+1)麦阵列和8(+1)麦阵列方案。值得一提的是麦克风阵列最好和前端算法和云端识别相结合,麦克风阵列只是起到了拾取声音,但语音的识别率还要考虑算法的模型的计算,只有终端硬件和前端算法、云端识别相结合,才能使识别率达到最佳,这也是亚马逊、谷歌甚至微软这类企业不得不做硬件的根本原因。比如声智科技,就非常重视麦克风阵列与算法的软硬件结合的远场识音技术,这也是大家很看好的原因。目前的技术还是以单人识别的模式,未来在某些应用场景下需要多人识别的技术,这也是创业的机会所在。
从硬件本身来说,麦克风的小型化、低功耗、低成本也是重要的发展方向。在小型化方面,MEMS的麦克风技术迎合了这种发展趋势,目前楼氏占据了全球MEMS麦克风市场的最大市场份额。据楼氏透露,其 2015 年全年的出货量接近 16 亿颗。但 IHS分析指出,由于Goertek、意法半导体与瑞声科技都在快速增长。除了麦克风本身的小型化,麦克风阵列的小型化也是重要的方向,麦克风阵列受制于半波长理论的限制,现在的口径还是较大,声智科技现在可以做到2cm-8cm的间距,但是结构布局仍然还是限制了ID设计的自由性。
很多产品采用2个麦克风其实并非成本问题,而是ID设计的考虑。在低功耗方面,据楼氏智能语音硬件负责人介绍,他们将声学活动检测(Acoustic Activity Detector, AAD)单元放到了麦克风里面,实现一个自适应的实时监听模式,这种方式能够使整个系统节能70%。而另一家声学传感器开发商Vesper,近日推出了首款商用静态传感 MEMS 器件,使声学事件监测器件实现几乎零功耗。当处于监听模式时,Vesper 最新的压电式MEMS 麦克风 VM1010 所需功耗仅为 3 µA,。当然这是与芯片的 DSP 模块、语音接口和关键词检测算法等相结合,才实现了最低功耗的远场监听效果。就麦克风阵列的低成本而言,除了芯片本身降低成本之外,还需要从麦克风阵列整个结构和系统去考虑,包括器件、芯片、算法和云端。在这方面还有很多的改进空间,也是机会所在。
就处理芯片来说,亚马逊和 Google 都是采用常规的多媒体处理芯片,里面有audio codec的DSP。新的趋势可能是在处理芯片里面嵌入深度神经网络,如去年楼氏并购了语音解决方案供应商Audience后,为楼氏带来几项重要的技术,其中就包括通过深度神经网络(DNN)的基于机器学习的语音识别,我们希望早日看到这类芯片的出货。当然对于芯片而言还有一个方面是做更高的集成度,包括集成WiFi/BT、DSP、audio Codec的SoC单芯片,我们也看到基于WiFi/BT的Combo芯片,带Corex M3/M4,若再加上audio Codec,就是单芯片的方案。当然这里的前提是有足够的量做为支撑。
就算法而言,语音识别在2012年卷积神经网络(CNN)应用之后,准确率大幅提升,已经在C端、B端得到了广泛应用。当前语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。语音识别整个过程包含语音信号处理、静音切除、声学特征提取、模式匹配等多个环节。由于语音信号的多样性和复杂性,系统只能在一定限制条件下才能获得满意效果。在真实使用场景中,考虑到远场、方言、噪音、断句等问题,准确率会大打折扣。
目前业内普遍宣称的97%识别准确率,更多的是人工测评结果,只在安静室内的进场识别中才能实现。按照微软首席研究员俞栋的看法,需要在几个方面做改进,包括进一步提升在远场识别尤其是有人声干扰情况下的识别率;提供更好的识别算法,一个方面是能不能更简单,另一方面寻找一些特殊的网络结构放到模型里面,以提升性能;还有一个方向是快速自适应的方法,快速的不需要人工干预的自适应方法(unsupervised adaptation)。但我始终觉得,单靠算法不足以形成足够持续的竞争力,特别是越来越多的算法会走向开源,需要与数据、硬件以及好的商业模式相结合。
刚才提到的都是基于某个点的优化,无论是麦克风阵列、芯片化还是算法,都是需要很高的技术作为支撑。但作为创业公司来说,都是根据自己的资源,结合当前产业链的现状以及趋势,找到自己能立足的地方。针对当前很多巨头都在关注智能语音领域,他们必定花费大量的资源投入其中,作为创业企业,如果能借助这些资源,找到自己在细分市场的发展空间,也是不错的选择。如 Linkplay 在推广 Alexa 业务中扮演第三方中间商的角色,为硬件厂商提供 Alexa 接入语音服务与授权渠道,帮助厂商快速实现Alexa相关功能;筛选品牌,协助亚马逊做好认证工作,保证用户体验Alexa服务的一致性和标准化,这是基于中国有大量的硬件厂商,而最终客户往往都是海外的考虑,公司找到了这样的机会。虽然这涉及到过渡依赖的问题,但是有其存在的意义和发展的空间的,企业也可以在服务方面打造自己持续的竞争力。
还有一种创业模式是平台型的模式,这里说的模式不是只是基于语音的云管端模式,而是把语音作为其中的一部分,甚至语音不是最重要的部分,同时服务于不同的客户。一个例子如迪韵科技,可以在物联网音视频领域提供一站式解决方案,其Mediawin平台为传统行业以及硬件企业提供“耳朵”和“眼镜”方案。Mediawin方案平台整合了多方面的资源,比如与多家声学器件厂商合作定制了麦克风、喇叭等声学器件;与专业芯片厂商合作开发了深度优化的音频处理算法;与语音识别方案商合作提升语音识别的准确率;接入第三方的平台提供更多的音视频应用功能等。根据客户的不同需求,比如白牌企业可能需要完整的音视频解决方案、大企业可能仅需要底层处理算法支持、方案商需要整合专业的处理算法+云平台资源等,提供定制化的软硬件方案服务。在设备端,Mediawin平台针对各种嵌入式产品,拥有完善的硬件解决方案,比如专业的音腔设计、音视频器件选型、声学场景优化、音视频模组等,能帮助企业简化6大音视频开发难题。相对于亚马逊 Alexa 以及 Linkplay 的组合,迪韵提供了更完整和多样化的方案路径。当然这种模式能做多大尚需考证。
虽然智能语音领域已经有很多大企业进入,但是机会仍然很多,需要我们去深入理解和挖掘,知道适合自己的发展机会。