当前位置:首页 > 智能硬件 > 智能硬件
[导读]科技网站Tech Insider用十种不同的语言对实时翻译功能进行了测试。它成功地翻译了些基本问题,比如“最近的医院在哪里”,但当句子变得更复杂,或者说话人有口音时,翻译就会出现错误。评论员们得出的结论是,实时翻译似乎有点儿“欺骗嫌疑”,Google Assistant需要努力理解对它说出的话。

据连线杂志报道,知名语音识别公司科大讯飞卷入的“AI同传造假”风波依然还在发酵,引发了人们关于AI实时翻译技术的更多关注。

 

不久前,谷歌悄悄改变了Pixel Buds耳机的支持页面,并写道:“所有经过Google Assistant优化的耳机和安卓手机,现在都可以使用谷歌翻译。”此前,这一功能仅限于Pixel Buds耳机和Pixel手机用户。尽管谷歌并未大张旗鼓地宣布这个消息,但这个小小的调整却值得注意。

要知道其中原因,首先我们来了解下谷歌耳机的历史。谷歌去年推出了无线耳机Pixel Buds,此前该公司曾大肆宣传过这款产品,称其是一款革命性的工具,支持实时翻译功能。只要轻敲Pixel Buds,说“帮我说”,它就会打开你手机上的谷歌翻译应用。现在,Pixel手机也同样支持这个功能。

接着,你可以说出句子,谷歌翻译会在手机上将其翻译成目标语言,并进行转录,然后读出来。理论上,谷歌的新技术甚至会让口译翻译们担心丢掉工作。这款产品在舞台上的实时翻译演示获得了巨大成功,但当其开始发货时,人们对其似乎产生了怀疑:翻译的质量没有达到公众的预期。

 

科技网站Tech Insider用十种不同的语言对实时翻译功能进行了测试。它成功地翻译了些基本问题,比如“最近的医院在哪里”,但当句子变得更复杂,或者说话人有口音时,翻译就会出现错误。评论员们得出的结论是,实时翻译似乎有点儿“欺骗嫌疑”,Google Assistant需要努力理解对它说出的话。

消费技术资深分析师丹尼尔·格里森(Daniel Gleeson)说:“掌握自然语言是非常困难的。对于谷歌来说,这将是个巨大的成就,而他们实现这个目标的那一天,可以自豪地大声说出来。”或许有些人可能会说,这可能也是Pixel Buds支持页面更新的信息被隐藏起来的原因。

谷歌的问题不在于翻译过程本身,事实上,该公司在过去几年始终在提升其翻译应用水平。2016年,谷歌将其谷歌翻译转换为基于深度学习的人工智能(AI)驱动系统。在此之前,该工具将每个单独的单词分别翻译,并应用语言学规则使句子在语法上保持正确,从而导致了我们非常熟悉的、支离破碎的翻译效果。另一方面,神经网络则将句子作为一个整体来考虑,并根据之前训练过的大量文本数据来猜测正确的输出结果。通过机器学习,这些系统能够考虑句子的上下文,从而提供更准确的翻译。

整合机器学习是Google Brain团队的任务,该团队是谷歌专门致力于深度学习研发的部门。Google Brain还将神经网络应用到另一个工具上,这是实时翻译的关键,但这似乎也导致其容易在语音识别上犯错。实际上,Google Assistant经过了数小时的语音培训,它会使用机器学习工具来识别模式,并最终正确地识别出被要求翻译的内容。

那么,如果谷歌在某种程度上成功地将神经网络应用到文本-文本的翻译中,为什么Google Assistant仍然不能使用相同的技术精准地进行语音识别呢?剑桥大学自然语言处理研究人员马西基·霍瓦特(Matic Horvat)说,这一切都归结于用来训练神经网络的数据集。

霍瓦特说:“系统能够适应它们所得到的训练数据集。当你把它介绍给它从未听过的东西时,语音识别的质量就会下降。例如,如果你的训练数据集是会话语音,那么在繁忙的环境中识别语音效果就不会太好。”

干扰是任何致力于提高语音识别技术的计算机科学家的克星。去年,谷歌通过其数字新闻创新基金会向伦敦初创企业Trint投资1.5亿欧元,该公司在自动语音转录方面处于领先地位,尽管其算法与谷歌不同。然而,Trint的算法在处理基本的干扰问题上并没有表现得更好。

事实上,Trint的公司网站专门用了长长的篇幅来介绍如何在安静环境中记录演讲内容。该公司声称,其操作存在5%至10%的误差,但它明确表示,这适用于安静环境的录音。Trint首席执行官杰夫·科夫曼(Jeff Kofman)说:“最大的挑战是向我们的用户解释,我们的表现只能和他们给我们的音频一样好。在有回声、噪音甚至重音的情况下,算法就会出错。”

现场演讲所带来的挑战意味着,在创建神经网络的过程中,训练过程是成本最高、耗时最长的部分。而像谷歌对Pixel Buds所做的那样,只在有限数量的设备上支持实时翻译,当然无助于系统学习。实际上,它处理的语音越多,它可以向算法中添加的数据就越多,机器就越能学会识别不熟悉的语音模式。

对于消费技术资深分析师格里森来说,这是谷歌将该功能扩展到更多硬件的原因之一。他表示:“语音识别中最棘手的问题之一,就是收集足够的特定口音、俗语、习语数据,所有这些都是高度区域化的。将这个功能仅用于Pixel上,永远不会让谷歌接触到那些区域化数据,进而也无法处理足够多的数据。”

 

然而,积累数据也有不利的一面。表现最好的神经网络是那些拥有最多数据的网络,但由于数据需要在CPU上处理,CPU的压力也会随着信息量的增多而增加。这类CPU还远未达到与移动设备完美集成的程度,使得实时语音处理在今天依然无法成为现实。实际上,每次使用Google Assistant时,语音信息都会被发送到数据中心进行外部处理,然后再发送回用户的手机上。这些计算工作都不是在本地完成的,因为现有的手机无法存储神经网络处理语音所需的庞大数据。

霍瓦特说,虽然Google Assistant能够相当快地完成这一过程,但距离实时语音识别还有很长的路要走。该公司目前面临的挑战之一是,如何在手机中整合神经网络处理,以提高实时翻译等功能的无缝性。事实上,开发人员已经在致力于开发适合于高效处理神经网络的小型外部芯片,这种芯片可以集成到手机中。例如,本月早些时候,华为宣布了一种AI芯片,该公司声称其可以在几分钟内训练好神经网络算法。

虽然谷歌有自己的芯片Edge TPU,但它是为企业用户而不是智能手机设计的。对霍瓦特来说,这是它的致命弱点:作为一家软件公司,谷歌对制造商没有多少控制权,无法确保开发出一种产品,使所有安卓设备都能使用本地神经网络处理,与苹果截然不同。

在不久的将来,谷歌可能被迫采取更小的步骤来改进其语音识别技术。虽然实时翻译引来了许多批评,但对于行业分析师、Counterpoint物联网、移动和生态系统研究主管尼尔·沙赫(Neil Shah)来说,扩展它有益于谷歌参与竞争:“谷歌已经获得20亿安卓用户。随着越来越多的用户开始在安卓手机上使用最新的语音交互,它能够比竞争对手更快地扩大规模,并接受大量输入数据流的训练。”

格里森所也赞同这种看法。无论对实时翻译的评论是否坚持温和嘲讽的基调,谷歌的举动最终都会带来显著的改进。就像所有的AI产品一样,这个工具同样需要学习,它进入市场的过程还没有完成。格里森表示:“人们可能会说,谷歌的实时翻译运作方式与承诺的不一样,但这是其实现目标的唯一途径。”口译翻译现在不必担心他们会立马丢掉工作。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

「人工智能浪潮下的中国制造」论坛顺利召开 上海2024年4月17日 /美通社/ -- 4月12日,由百年名校法国里昂商学院主办,斯巴诺萨设计承办,福州东湖数字小镇,福建亚太合会数字经济专委会协办的"中法建交6...

关键字: 微软 雷诺 AI 中国制造业

根据调研机构Gartner的预测,由于竞相投资AI以及IT设备更换周期的到来,全球2024年的IT支出将增长8%。

关键字: GenAI IT AI

据报道,日本电信巨头软银集团将在未来两年投资1500亿日元(9.6亿美元)升级其计算设施,该计划包括大量采购英伟达GPU。

关键字: 软银 英伟达 GPU AI

4月24日消息,特斯拉CEO马斯克在最近的财报电话会议上透露,特斯拉的Optimus人形机器人预计将在今年底前具备执行“有用的”工厂任务的能力,并有望在2025年底前推向市场。这一消息引发了业界和公众的广泛关注。

关键字: 马斯克 AI 特斯拉 GPU

眼下,人工智能不仅能辅助科学研究与艺术创作,还能实现自动驾驶、打造“无人农场”和“黑灯工厂”,成为解锁新质生产力的关键钥匙。

关键字: 人工智能 AI 无人农场

Arm CPU正在从根本上推动AI变革,并造福地球。Arm架构是未来AI计算的基石。​

关键字: ARM AI

Apr. 23, 2024 ---- 随着节能成为AI推理服务器(AI Inference Server)优先考量,北美客户扩大存储产品订单,带动QLC Enterprise SSD需求开始攀升。然而,目前仅Solidi...

关键字: SSD AI 服务器

深圳2024年4月23日 /美通社/ -- 全球AI解决方案与工业级存储领导品牌宜鼎国际 (Innodisk)持续深化边缘AI布局,今(23)日发表全球首创"MIPI over Type-C"独家技术,让旗下嵌入式相机模...

关键字: AI 嵌入式 相机

作为 Rambus 行业领先的接口和安全数字 IP 产品组合的最新成员,GDDR7 内存控制器将为下一波AI推理浪潮中的服务器和客户端提供所需的突破性内存吞吐量。

关键字: GDDR7 内存控制器 AI

武汉2024年4月22日 /美通社/ -- 4月19日,2024 TCL实业全球合作伙伴大会(GPC 2024)在武汉圆满落幕。作为TCL实业规模最大、面向全球全品类智能终端客户的顶级峰会,此次大会共吸引了来自全球六大洲...

关键字: 供应链 智能物联 AI
关闭
关闭