当前位置:首页 > 消费电子 > 触控感测
[导读] 走出实验室的声纹识别技术因其广阔的应用场景和价值,从特定领域到民用领域,在国内外正迎来第一波商用化浪潮。 而与此同时,关于声纹识别技术研究的成熟度以及安全可靠性,一直是应用领域讨论的重点,本文基

走出实验室的声纹识别技术因其广阔的应用场景和价值,从特定领域到民用领域,在国内外正迎来第一波商用化浪潮。 而与此同时,关于声纹识别技术研究的成熟度以及安全可靠性,一直是应用领域讨论的重点,本文基于时下声纹识别技术研究的前沿观点,总结出五大发展趋势:

1、 声纹识别研究朝着深度学习和端到端方向发展

语音作为语言的声音表现形式,不仅包含了语言语义信息,同时也传达了说话人语种、性别、年龄、情感、信道、嗓音、病理、生理、心理等多种丰富的副语言语音属性信息。以上这些语言语音属性识别问题从整体来看,其核心都是针对不定时长文本无关的句子层面语音信号的有监督学习问题,只是要识别的属性标注有不同。

近年来,声纹识别的研究趋势正在快速朝着深度学习和端到端方向发展,其中最典型的就是基于句子层面的做法。在网络结构设计、数据增强、损失函数设计等方面还有很多工作去做,还有很大的提升空间。

2、 提升声纹识别系统的短时语音情况

在实际应用中,由于对基于语音的访问控制需求的不断增长,提升声纹识别系统在短时语音情况下的性能变得尤为迫切。短时语音中说话人信息不足以及注册和测试语音的文本内容不匹配,对于主流的基于统计建模的声纹识别系统是一个严峻的挑战。

3、 改进现有的深度说话人学习方法

目前采用的深度说话人识别方法首先利用神经网络提取前端的帧级特征,然后通过池化映射获得可以表示说话人特性的段级向量,最后采用 LDA/PLDA 等后端建模方法进行度量计算。

相对于传统的 i-vector 生成过程,基于深度学习的说话人识别方法优势主要体现在区分性训练和利用多层网络结构对局部多帧声学特征的有效表示上。如何进一步改进现有的深度说话人学习方法是现阶段的一个研究热点。

4、 深度对抗学习在声纹识别技术中的应用

生成式对抗网络 (GAN) 的主要目的是用在数据生成、降噪、等很多场景里面。它还被用在领域自适应里面,形成一个新的分布。第三个广泛的应用是生成对抗样本,这会对分类系统产生大的困扰。很多研究者用对抗样本攻击机器学习的系统,在原始数据上增加一些扰动,生成样本,经过神经网络之后就有可能识别成完全不同的结果。这个思想在图像处理领域非常活跃,会造成错误识别,引起了自动驾驶,安全等领域的研究人员的广泛关注。

在语音领域,GAN 可以用在语音识别、口音自适应上,通过多任务学习和梯度反转层来进行口音或信道的自适应,然后加上其他方法可以得到较好的效果。声纹识别也存在各种不匹配的问题,在声纹识别上也可以使用这一思想。同样的思想也用在了 TTS 语音合成领域,目的是把不同的音素解耦成说话人,风格等,去除噪声对建模的影响。

5、 深度嵌入学习是进行声纹识别和反欺骗的一个重要途径

说话人识别和欺骗检测近年来受到学术界和业界的广泛关注,人们希望在实际应用中设计出高性能的系统。基于深度学习的方法在该领域得到了广泛的应用,在说话人识别和反欺骗方面取得了新的里程碑。然而,在真实复杂的场景下,面对短语音、噪声的破坏、信道失配、大规模等困难,开发一个鲁棒的系统仍然是非常困难的。深度嵌入学习是进行说话人识别和反欺骗的一个重要途径,在这方面已有一些著名的研究成果。如之前的 d-vector 特征和当前普遍使用的 x-vector 特征。

结语:

目前,指纹识别、人脸识别已经被大众所熟知,但同样作为生物识别的声纹识别,还处于技术挑战的前沿地带。据声纹识别企业快商通分析,当下全球生物识别产业规模庞大,仅声纹识别这一细分方向的市场规模就将近百亿美元,预计2020年更是有望超过200亿美元(合1346亿元人民币),占整个生物识别市场的22.4%。

以国内公共安全领域为例,公安部面向全国推广声纹技术,与指纹库、DNA库类似,声纹库建设是一项有着重要实战价值的工作,具体表现在声纹特征具有非接触式采集的优点,和已有DNA库、指纹库相结合,可形成立体生物特征库,建成后直接为多警种服务,是利用高科技手段在侦破案件和诉讼活动中应用的一个新的增长点,将能有效提高公安机关侦查破案的效率和能力,成为落实科技强警的重要实践之一。目前,公安部已在声纹库建设方面进行了重点布局,并选择快商通等通过公安部标准检测的厂商作为声纹采集设备提供方,力求双发共同完成这项专业技术性强、应用领域广、建设难度大的系统工程。

来源:安防知识网

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

比特率:在数字信道中,比特率是数字信号的传输速率,它用单位时间内传输的二进制代码的有效位(bit)数来表示,其单位为每秒比特数bit/s(bps)。

关键字: 波特率 比特率 信道

在当今这个数字化、信息化的时代,由于互联网上的大量信息交换,引发了前所未有的网络安全挑战。当我们把极为敏感的个人数据、金融交易甚至国家安全都交给数字系统来处理时,对强大的数据保护措施的需求变得比以往任何时候都更加紧迫。生...

关键字: 生物识别 掌静脉识别 传感器

【2023年02月16日,德国慕尼黑和美国宾夕法尼亚州威切斯特讯】Sentry Enterprises采用了作为全球电源系统和物联网领域的半导体领导者英飞凌的最新一代SLC37x系列安全芯片产品,为其生物特征识别平台的发...

关键字: 英飞凌 生物识别 控制器

1980年,谭铁牛考入西安交通大学。5年后,他远渡重洋,到世界著名的伦敦大学帝国理工学院电子电气工程系求学深造,先后顺利获得硕士、博士学位。1994年他又获得了英国雷丁大学的终身教职。

关键字: 生物识别 电子电气 科技防疫

作为模式识别领域的国际顶尖学者,中国科学院院士谭铁牛近日获得一项国际顶级大奖。2022年8月22日,第26届国际模式识别大会在加拿大蒙特利尔市开幕。开幕式上,谭铁牛获得国际模式识别领域最高奖——傅京孙奖,以表彰他在模式识...

关键字: 生物识别 模式识别 AI智能网关

2022年8月17日,熵基科技股份有限公司(股票简称“熵基科技”,股票代码“301330”)成功登录深交所创业板,公司首次公开发行A股37123013股,发行价43.32元/股,发行市盈率为43.44倍,开盘高涨30.0...

关键字: 熵基科技 生物识别 虹膜图像

作为新晋的专精特新“小巨人”企业,成立于2004年的亚略特以多模态生物识别赋能百业,打通AI落地“最后一公里”,让技术落地产生真效益。

关键字: 生物识别 亚略特 虹膜识别

爱奇艺国际版通过Unified ID 2.0共拓未来身份识别技术,以第一方数据赋能广告主高效触达全球消费者 香港2022年7月4日 /美通社/ -- 全球领先的广告技术公司The Trade Desk™(纳斯...

关键字: UNIFIED BSP 识别技术

在这篇文章中,小编将为大家带来可穿戴设备的技术的相关报道。如果你对本文即将要讲解的内容存在一定兴趣,不妨继续往下阅读哦。

关键字: 可穿戴设备 生物识别 可穿戴技术

根据《民法典》第1034条,生物识别信息属于自然人的个人信息,受到法律保护。个人信息始终与个体的身份属性紧密相关,其作为权利保护客体有自身的特殊性。我国私法领域内依照人格权与财产权这两条路径,将其关涉到的人格权益与财产权...

关键字: 生物识别 数字锁屏 指纹锁屏
关闭
关闭