当前位置:首页 > 芯闻号 > 充电吧
[导读]8月18日,Google宣布开源Android语音识别转录工具Live Transcribe的语音引擎。这家公司希望这样做可以让任何开发人员为长篇对话提供字幕,减少因网络延迟、断网等问题导致的沟通障碍

8月18日,Google宣布开源Android语音识别转录工具Live Transcribe的语音引擎。

这家公司希望这样做可以让任何开发人员为长篇对话提供字幕,减少因网络延迟、断网等问题导致的沟通障碍。源代码现在可以在GitHub上获得。这意味着无论你是出国或是与新朋友见面,Live Transcribe都可以帮助你进行沟通。

交流时可以实时畅通(只要有网络)

Google于今年2月发布了Live Transcribe。该工具使用机器学习算法将音频转换为实时字幕,与Android即将推出的Live Caption功能不同,Live Transcribe是一种全屏体验,使用智能手机的麦克风(或外接麦克风),并依赖于Google Cloud Speech API。Live Transcribe可以用70多种语言和方言标题实时口语。另一个主要区别是Live Transcribe可在18亿台Android设备上使用(当Live Caption在今年晚些时候推出时,它只适用于部分Android Q设备)。

在云上工作

Google的Cloud Speech API目前不支持发送无限长的音频流。此外,依赖云意味着网络连接、数据成本和延迟方面都有潜在问题。

结果,语音引擎在达到超时之前关闭并重新启动流请求,包括在长时间静默期间重新开始会话并且每当语音中检测到暂停时关闭。在会话之间,语音引擎还在本地缓冲音频,然后在重新连接时发送它。因此,Google避免了截断的句子或单词,并减少了会话中丢失的文本量。

70多种语言和方言中挑选自己合适的

为了降低带宽需求和成本,Google还评估了不同的音频编解码器:FLAC,AMR-WB和Opus。FLAC(无损编解码器)可以保持准确性,不会节省太多数据,并且具有明显的编解码器延迟。AMR-WB可以节省大量数据,但在嘈杂的环境中准确度较低。

与此同时,Opus允许数据速率比大多数音乐流媒体服务低许多倍,同时仍保留音频信号的重要细节。Google还会在长时间的静音期间使用语音检测来关闭网络连接。

总体而言,该团队能够实现“在不影响准确性的情况下,将数据使用量减少10倍”。

为了比Cloud Speech API更进一步减少延迟,Live Transcribe使用自定义Opus编码器。编码器恰好提高了比特率,使“延迟在视觉上无法区分发送未压缩的音频”。

Live Transcribe语音引擎功能

Google列出了语音引擎的以下功能(不包括说话人识别):

无限流媒体。

支持70多种语言。

可以简化网络丢失(在网络和Wi-Fi之间切换时)。文字不会丢失,只会延迟。

强大的扩展网络损耗。即使网络已经停电数小时,也会重新连接。当然,没有连接就不能进行语音识别。

可以轻松启用和配置Opus,AMR-WB和FLAC编码。

包含文本格式库,用于可视化ASR置信度、发言人ID等。

可离线模型扩展。

内置支持语音检测器,可在延长静音期间用于停止ASR,以节省资金和数据。

内置支持扬声器识别,可根据扬声器编号标记或着色文本。

字幕会随着对话的深入而调整

该文档指出这些库与生产应用程序Live Transcribe中运行的库“几乎相同”。Google已对其进行了“广泛的现场测试和单元测试”,但测试本身并非开源。但Google确实提供了APK,因此开发者可以在不构建任何代码的情况下试用该库。(记者记者(公众号:记者)记者)

via:android.com venturebeat

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

业内消息,近日马斯克旗下 AI 初创企业 xAI 发布新闻稿,宣布正在开源 3140 亿参数的混合专家模型 Grok-1,该模型遵循 Apache 2.0 协议开放模型权重和架构,号称是“迄今为止全球参数量最大的开源大语...

关键字: 马斯克 大模型 开源 OpenAI ChatGPT xAI Grok-1 Grok

开源免专利芯片技术RISC-V成为美中科技战的新战场。华盛顿过去几个月一直在讨论限制中国获取RISC-V技术,认为中国利用RISC-V绕过了美国对华芯片出口管制。上个月众议院一个委员会建议成立一个跨部门政府委员会研究RI...

关键字: RISC-V 开源

众所周知,寒武纪是地球生物大爆发的一个关键期。寒武纪地球气候发生了明显的变化,从冰期转变为了温暖的温带气候,为生物提供了良好的生存环境,从而促进了生物的大量繁殖和多样化,而这种生物学上的进化和开源软件的发展有着异曲同工之...

关键字: 开源 寒武纪 处理器

北京2023年9月22日 /美通社/ -- 华为全联接大会2023期间,华为举办了"昇思MindSpore AI框架:引领大模型&科学智能原生创新"主题论坛,软通动力数字化创新服务线高级副总裁...

关键字: DSP AI 模型 开源

北京2023年9月22日 /美通社/ -- 随着人工智能、云计算等技术的快速发展,算力需求爆发,服务器设计呈现多元异构特征,如何快速适配多种通用计算处理器、多种异构加速器和各类部件,实现服务器高效、稳定、可靠运行,对服务...

关键字: 三星 开源 英特尔 PEN

北京2023年9月18日 /美通社/ -- 9月17日,828 B2B企业节软通动力主题日,第二届软通动力"917转型"企动日峰会以"云上新生态,数智新动力"为主题在北京软通动力总...

关键字: 华为云 数字化 石墨 开源

(全球TMT2023年9月12日讯)近日,2023中国国际数字经济博览会数字雄安论坛在石家庄国际会展中心举办。软通动力子公司鸿湖万联受邀参加本次论坛,软通动力集团高级副总裁、鸿湖万联的总经理秦张波代表鸿湖万联分别与雄安...

关键字: 鸿蒙 开源 操作系统 闸机

北京2023年9月12日 /美通社/ -- 近日,以"智能 绿色 创新 -- 打造未来典范之城"为主题的2023中国国际数字经济博览会数字雄安论坛在石家庄国际会展中心举办。作为开源生态的先锋军,软通动...

关键字: 开源 鸿蒙 操作系统 闸机

深圳2023年9月8日 /美通社/ -- 近日,超算领域国际顶级会刊SC23公布了论文入选名单,由微众银行区块链团队发表的论文——《FISCO-BCOS:An Enterprise-grade Permissioned...

关键字: 区块链 OS 开源 联盟链

北京2023年8月31日 /美通社/ -- "大模型的未来在于行业应用",对此业界已经达成了共识,下一步则是如何将大模型在行业中落地。 于是,我们能够看到,既前一阶段的基础大模型之后,近来又掀起了行...

关键字: 模型 ICT 开源 IDC
关闭
关闭