当前位置:首页 > 消费电子 > 消费电子
[导读] 近年来智能语音市场的火热,引起了越来越多的人的关注。最明显的标志,就是科大讯飞的市值。作为语音行业的龙头企业,短短几年时间,科大讯飞的市值从刚上市时的34亿,已经增长到超过200亿,让人瞠目结舌。而这几年

 近年来智能语音市场的火热,引起了越来越多的人的关注。最明显的标志,就是科大讯飞的市值。作为语音行业的龙头企业,短短几年时间,科大讯飞的市值从刚上市时的34亿,已经增长到超过200亿,让人瞠目结舌。而这几年移动互联网的大规模爆发,作为主要载体的智能手机在打字输入方面非常不方便,这更让语音识别技术变成了必需品。这大大拓展了智能语音市场的想象空间,让人们不得不盯紧这块巨大的蛋糕。那么,这块巨大的蛋糕里,有多少家公司,每家公司的水平如何,让我们来做一番梳理。

技术门槛

首先要知道,智能语音行业是个技术密集型的行业,核心技术一直是智能语音行业的一个重要门槛,也是一家语音公司的核心资源。智能语音行业的技术很多,除了最著名的语音识别、语音合成外,还有说话人识别、音乐识别、语种识别等。如同“数学是科学的皇冠”一样,语音行业技术也有一个“皇冠”,那就是“语音识别”。为什么语音识别是“皇冠”?两点理由:一是技术上最难,二是实用前景最大。所以要考察一家语音公司的技术水平如何,就看它是否能提供高性能的语音识别产品。科大讯飞一直说自己的行业门槛高,主要就是指语音识别技术的门槛高。

前几年语音行业不景气,做语音的多是以学术界为主,这使得国内的语音核心技术一直掌握在科大讯飞、中科院声学所、中科院自动化所、清华大学等几家单位里。同时也导致语音行业的人才很稀缺。互联网大佬们有钱都招不到人。

除了国内的几家单位,还有一些著名外企在国内设了语音研究机构,水平也很高。比如鼎鼎大名的微软亚洲研究院,给SIRI提供语音技术的Nuance,还有IBM、摩托罗拉。不过这几家外企的语音部门并没有随着国内语音产业的爆发而发展。微软亚洲研究院的语音组一直在缩水;Nuance在中国的部门一直不是核心部门;IBM的相关部门卖给了Nuance;摩托罗拉更别提了,是其中最惨的一个,语音部门解散,语音合成的部分卖给了Nuance。除了语音产业在前些年一直做不大的原因以外,笔者猜测的一个原因是,语音识别牵涉到信息搜集,有国家安全的考虑,所以国家不会把这部分业务放给外企来做,外企也就不再在国内加大投入。比如Google的语音识别服务,国内的连接一直就时断时续。

算起来,现在语音行业的核心带头人,或多或少都和上述几家公司和单位有着联系,要么从这几家单位获得学位毕业,要么加入过这几家公司。

盛大往事

谈到国内语音产业的发展,不能不提的就是盛大语音院。因为它确实是从无到有,花了三年时间,突破了语音产业的技术“护城河”。它所花费的人力成本、时间成本,无疑给各个互联网大佬们做了个样板。大佬们可以从盛大语音创新院的花费中,推算出如果自己想从头开始投资语音技术,需要花多少人、多少时间、多少资金,才可以在语音市场上有一席之地。这几个重要指标下面都会细致的谈一谈。

盛大2009年开始成立的语音院,是金融危机爆发的后一年,也刚好是国内语音产业爆发的前一年。上文说过,语音行业的人才紧缺。也就是这个时候,才能从各大语音公司和部门,挖过来那么多核心员工。据了解,盛大组建的语音团队,从事语音技术研发的核心员工,最多的时候有三十多人。这对于语音研发团队来说,是个相当恐怖的数字。因为通常一家公司的核心语音成员都在十人以下。而国内做语音的也就那几家公司。盛大基本上挖了个遍。所知道的,科大讯飞、中科院声学所、Nuance、摩托罗拉、微软亚洲研究院都有核心员工被挖到盛大。这些员工带着原来公司的核心技术来到盛大,自然也要尽快拿出成果。带着这几家大公司的核心技术,在三四十员工的研发下,盛大还是花了两三年时间,才拿出了像样的语音产品。不得不说,语音行业的技术门槛确实很高。盛大也是机缘巧合,才能突破语音技术“护城河”。

所以,从盛大的经验来看,要从头开始做语音技术,人数上要有三十多人。而且这一过程至少需要两年的时间,如果考虑到团队组建,可能会更长。资金方面,据悉,盛大对语音院的投入达到了四千多万,人力成本的开销的比重较大。由于这两年各大公司都开始成立语音部门,需求的增长也让语音人才的薪资水涨船高。所以,四千万的资金投入还不一定能满足这样的成本开销。

不过,盛大在语音行业走了步好棋,甚至市场上有声音称其有望挑战科大讯飞。但不幸的是,整个盛大集团近期一直处于衰退阶段。因为退市而资金不足的盛大,只能大幅度减少投资力度。盛大语音院的上级机构——盛大创新院几乎全部解散,让人唏嘘不已。在这场动荡中,一部分员工离开了盛大语音院,成立了一家叫“云知声”的公司。云知声大约有90%的员工曾就职于盛大。短短几个月内,这家公司就推出了自己的语音识别技术。

盛大在语音方面的投入也不是完全没有结果。2013年,盛大语音院从盛大正式独立,成立了一家叫“灵声科技”的公司。据灵声科技方面称,盛大没有得到灵声科技的控股权,以盛大以往在资本运作上的强势风格来看,不知中间又发生了什么故事。

盛大栽下了“语音院”这棵树,结了两颗果子,一颗是“灵声科技”,一颗是“云知声”。从此,盛大语音院的故事告一段落,两个新的公司带着盛大的核心技术,开始了各自的征程。

互联网大佬的现状

既然盛大投资了语音产业,其他几家互联网巨头也想从该领域分一杯羹。腾讯、百度、阿里、搜狗陆续成立了语音部门。

对百度和搜狗这类搜索公司,语音识别技术是必须的,而且其商业价值也很清晰,因为Google已经验证了语音搜索在移动终端的重要性,国内搜索公司只需要跟进投入即可。因此,百度方面由李彦宏亲自督管该项目。腾讯方面,其语音部门隶属于微信事业部,微信大批量的语音输入,使得语音识别的用处很广泛。阿里则是刚开始介入语音产业,部门也才成立不久。

这几家公司里,百度的语音技术已经做的不错。2010年就成立了语音部门的百度,开始都是游兵散勇。百度还从中科院声学所买了一些授权,但是没有专业的语音开发人员,没做出什么成果。正如之前所说,语音技术门槛高,从头开始做很难,没有其他公司的技术积累基本无望。百度后来从中科院自动化所挖来一批人才,通过自动化所的技术累积,花了两年多的时间,才慢慢地把语音技术做了起来。腾讯其实也差不多从2010年左右开始投入语音技术,但是力度一直比较分散。据说当时腾讯研究院、输入法等两三个地方都在做语音,每个团队都是一两个人,所以一直没见成果。近期由于微信大红,其中有大量的语音输入,因此才将语音研发人员整合起来,步入正轨,不过要达到其它家的水平,尚需时日。其他几家公司中,搜狗对语音技术已投入了一年多,目前为止还是相当一般,否则搜狗语音助手也不会还依赖于第三方的语音引擎了。阿里的部门今年才成立,更不用说技术了。

国内那些专业语音公司

除了上文提到的语音公司的龙头企业——科大讯飞,出身于盛大的云知声和灵声科技外,其实在近些年里,国内成立的其他语音公司也有若干家。捷通华声就是一个出身于科研院所的典型。这家语音公司一开始技术上是依托于中科院的声学所,成立时间基本和讯飞相当。在之前相当长一段时间内,也是和讯飞旗鼓相当。但是最终的结果是讯飞发展起来并成功上市,而它则相对惨淡。近年来捷通华声语音技术上并没有太大的起色,而市场应用也还是那一亩三分地,比如一些科研项目。与之类似的,另外一家依托于声学所的语音公司——中科信利,其发展状况也差不多。

除了声学所以外,中科院的自动化所也是国内语音技术的一股中坚力量,从中也分出了几家语音类的公司,其中包括紫冬锐意和纳象立方。紫东锐意以语音和翻译为核心技术,主要提供口语翻译软件。纳象立方则主要对视频进行字幕处理。

除此之外,近期也出现了一些海外背景的语音公司,针对于大语音产业的细分领域。一个是苏州思必驰,据称该公司的创始团队成员有剑桥大学的背景,主要是将语音技术应用于英语教育。还有一个是普强信息,该公司的创始团队来自硅谷,其主要业务是为呼叫中心提供智能语音技术。

跨越技术“护城河”的标志

此前说了这么多技术门槛,大家可能会有疑问,如何判断一家公司的语音技术已经越过了“护城河”。不能是你说行就行,你说不行就不行,要有一个客观标准。这个客观标准是什么?业界的讨论是,是否推出了语音识别公开平台。为什么这么说?如之前所述,语音识别技术是语音产业的“皇冠”。那么判断一个公司的核心技术水平,就看它的语音识别技术做的怎样。而通过语音识别公开平台,就可以判断一家公司的语音识别技术水平。从这点上看,科大讯飞是最早公开发布的,也肯定了科大讯飞的技术水平。盛大语音院是第二家发布的,现变更为灵声科技继续开发。搜狗公司曾使用过盛大的语音识别平台,也算确认其技术水平。云知声推出稍晚,但是近期宣传非常高调。其它语音公司包括捷通华声、紫冬语音甚至普强信息也各自都发布自己的语音技术平台,但是在市场上并没有看到太多应用的声音。百度虽然没有对外发布,但是在百度内部,已经推出了一个语音识别平台。这几家可以算得上圈子内正式的玩家。

发展前景

我们把国内现有的语音公司和部门分为两类。一类是独立的语音公司,以讯飞、云知声、灵声科技为代表;一类是互联网巨头公司的语音部门,以百度、腾讯、搜狗为代表。

独立的语音公司策略比较灵活,可以多方面发展,但平台的可能性不够大。但讯飞比较例外,即作为独立的语音公司,同时去年又和中国移动达成战略合作,解决了发展平台的问题。这也是它被投资者看好的原因。出身于盛大的灵声科技、云知声,虽然语音技术上已经可以和讯飞相媲美,但发展平台与讯飞差距很大,商务上也不及讯飞这么多年的积累,需要傍大树,才能获得迅速的发展。但技术门槛已经被突破,所以讯飞也在这几家新公司而头疼。

互联网巨头公司的语音部门有个大的发展平台,但是基本上只服务于公司的整体战略,很难在多方面发展。比如百度的语音部门,就服务于百度的语音搜索业务和语音助手业务。腾讯的语音部门,就服务于微信业务。这些部门今后的命运,可能类似于微软公司的语音部门、谷歌公司的语音部门,专门为本公司的核心战略服务。

随着去年SIRI的推出,语音号称作为移动互联网的入口,想象空间高到爆棚,让所有人都心动了一把。但经过这段时间的发展来看,还为时过早。整个语音产业的后续发展趋势,还值得继续观察。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

4月11日消息,根据中国科学院青岛生物能源与过程研究所的官方公告,该所成功克服了硫化物全固态电池大型车载电池制作工艺中的最后一道难关,并在硫化物软包电池叠片技术上取得了关键性突破。

关键字: 中科院 AI 人工智能

近日,中国科学院计算技术研究所的研究人员在国际电子期刊杂志上发表了一篇研究报告,基于光刻和芯粒逼近瓶颈的背景下,研究出了一种先进的 256 核大芯片!据悉,该芯片由 16 组小芯片(Chiplet)组成,每个小芯片拥有...

关键字: 中科院 芯片 Chiplet tile RISC-V

随着科技的飞速发展,人工智能、大数据、云计算等技术逐渐渗透到各个领域,为人们的生活带来了极大的便利。在这其中,语音技术作为人机交互的重要方式之一,已经成为了当今科技领域的研究热点。本文将对语音技术的关键技术进行探讨,并分...

关键字: 语音技术 语音识别

10月24日消息,在今天举办的第六届世界声博会暨2023科大讯飞全球1024开发者节上,科大讯飞宣布,基于昇腾生态的“飞星一号”平台正式发布。

关键字: 科大讯飞 人工智能 AI

近日,中国科学院网站公布了经中国科学院学部主席团审议通过、中国科学院党组批准实施的新版《中国科学院院士行为规范(试行)》。

关键字: 中科院

9月5日消息,今天凌晨,科大讯飞宣布讯飞星火大模型面向全民开放,用户可以在各大应用商店下载直接注册使用。

关键字: 科大讯飞 人工智能 AI

业内消息,今天科大讯飞宣布讯飞星火大模型面向全民开放,用户可以在各大应用商店下载直接注册使用。

关键字: 科大讯飞 AI

物联网与人工智能技术的迅猛发展对边缘节点计算平台的实时数据处理能力与能效提出了更高的要求,基于新型存储器的非易失存内计算技术可以实现数据的原位存储与计算、最小化数据搬运带来的功耗与延迟开销,从而大幅提升边缘设备的数据处理...

关键字: 中科院 微电子 28nm RRAM 存内计算

(全球TMT2023年8月25日讯)8月23日,2023 RISC-V中国峰会在北京开幕,会议采用了主论坛+主题报告+展览展示+同期活动+Poster形式,涵盖100余个主题报告、16场同期活动、18个企业展位、16个...

关键字: 开源芯片 RISC-V处理器 POS 中科院

6月16日消息,中国科学院自动化研究所今天发布了该所研制的新一代AI大模型——紫东太初2.0。

关键字: 中科院 AI 人工智能
关闭
关闭