当前位置:首页 > 工业控制 > 《机电信息》
[导读]摘要:电话录音系统广泛应用于电力通信中,它在调度语音下达的过程中起着重要的作用。然而传统的录音系统存在占地面积过大、查询录音信息不方便等问题,鉴于此,运用深度神经网络-隐马尔可夫模型(DNN-HMM模型),基于树莓派设计了一种电话录音系统,通过特征提取等方式识别语音并进行录音,录音完成后可以通过电脑、手机等终端方便快捷地查看录音以及语音对应的文字版文件。

引言

根据南方电网调度规范的要求,500kV变电站应配置录音系统,调度机构应实现录音系统的双重化配置。准确可靠的原始录音能为事件处理提供可靠的证据,防止出现纠纷。

目前局内变电站通信室空间狭小,机柜位置紧张,然而站内的电话录音系统设备体积庞大,占据了大量的空间。同时,目前电话录音系统普遍存在录音音质较差,查询和检索烦琐复杂的问题,不利于长期存储和管理,难以对分布于不同区域的电话进行远程录音监听。按规范要求,调度录音应保存至少6个月,电话录音内容可用于安全监管,是判定责任纠纷的重要依据,对提高公司服务质量、增强竞争实力等具有重要意义。但现有的录音方式相对落后,无法满足以上要求。树莓派相对于其他的载体价格更低,但计算能力强大,具有很高的性价比。搭建基于树莓派的电话录音系统,可以解决传统录音系统体积庞大的缺陷,节约机房内部可利用空间,实现语音文字高识别转化,保存传输方便:同时,该系统支持多端口输入,具备强大的兼容性与可拓展性。

1基于树莓派的电话录音系统简介及优势

使用基于树莓派的电话录音系统,可解决传统录音系统体积庞大的缺陷,充分利用机房空间,满足多通道录音的要求,具备强大的兼容性与可拓展性,同时能改善录音质量,提高自动化程度,降低操作的复杂度,方便用户运维系统。

1.1设备小型化

最初,树莓派是由基于Atmel的ATmega644单片机制成的,它采用ARM处理器,与传统芯片相比具有更高的性能。它的外形只有信用卡大小,以SD/MicroSD卡为内存硬盘,具有HDMI等多种接口,具备个人计算机的基本功能,可以实现录音设备的小型化。树莓派采用Linux操作系统,代码采用Linux系统下的Python语言,功能强大,操作方便。基于树莓派的新型录音系统可以节省机房空间,提高机房空间的利用效率。

1.2系统安全性高

系统权限管理制度严格,根据用户权限不同划分不同的操作权限,系统通过加密的并网权限,满足录音电话的保密要求,保障了网络安全。

1.3用户界面更友好

基于树莓派的电话录音系统用户界面友好,采用图形化操作界面,可以查看录音记录及语音对应的文字记录,可以实时显示不同录音通道所处的工作状态,可以方便快捷地查找信息,界面具有提示和在线帮助机制,可以帮助用户快速了解系统的使用方法,降低操作难度。本系统是基于web开发的操作系统,不需要PC也可以登录,操作更加便捷。

2基于树莓派的电话录音系统设计与实现

2.1体系结构

本系统是基于web开发的操作系统,其中采用B/S架构开发的web操作层为用户交互层,用户通过浏览器直接访问系统进行相关操作:设备交互层通过串口连接UwB定位设备,根据电子围栏的位置关系进行数据处理入库。

系统总体架构如表1所示。

语音识别模块可以将完成特征提取的原始语音信号转化为相应的特征向量,配合声学模型、语音字典和语音模型得到识别结果。语音特征提取模块可以识别语音上有用的特征,排除说话人性别、年龄、说话习惯和录音条件等不同引起的变化的影响,避免噪声干扰。语音识别系统如图1所示。

语音识别系统由特征提取、声学模型、发音字典、语言模型和解码器5个部分组成,语言识别通常使用隐马尔可夫模型,根据语音信号推断对应的文字,语音的特征序列为01T=(o1,o2,…,oT):语言模型P(w)代表特定词序出现的先验概率:声学模型P(01T|w)代表当给定词序为w时,输出声学特征01T的概率,根据最大后验概率,词序列~w如下:

声学特征01T的概率P(01T)与词序w无关,可以忽略不计,所以式(1)可表示为:

马尔可夫性表示现在决定未来状态。马尔可夫链描述了时刻(l-1)决定当前时刻l的状态概率分布。隐马尔可夫模型在此基础上引入了隐状态的概念,它只与当前的状态有关。

确定马尔可夫状态,需要确定以下5个参数:状态空间2=(Si),i=1,2,k,N:初始状态的概率分布m=mi:状态转移概率矩阵A=[aij],i=1,2,k,N:观测序列0=(oi):状态输出概率B=(bi(ok))。其中,bi(ok)表示状态i发生观测到输出语音特征ok的概率:aij表示从状态Si到Sj的转移概率:mi表示状态Si的初始概率分布。

特征提取模块将输入语音转换为可用于模型训练的特征矢量,梅尔频率倒谱系数MFCC是语音识别中常用的特征。首先对语音信号进行分帧、加窗,把语音信号切分为语音片段,一帧语音片段的长度为10~30mS。由于直接截断语音信号会造成频谱泄漏,因此需对每帧数据做加窗处理,选择汉宁窗、汉明窗等合适的窗函数减轻影响。之后通过傅里叶变换将帧信号从时域转换到频域分析,傅里叶变换公式如下:

式中:Sa为加窗后第a帧语音信号:Sa(k)为对应的傅里叶变换后的语音信号:n为时间变量:k为常数:N为整数,表示帧长。

然后计算Mel子带对数能量Em,通过离散余弦变换DCT转换到DCT域,得到MFCC特征向量,DCT变换公式如下:

式中:C(n)为特征值:皿为Mel滤波器中滤波器的数量:m为时间变量:L为整数,表示MFCC系数阶数。

MFCC提取过程如图2所示。

采用隐马尔可夫模型进行声学建模,使用高斯混合模型-隐马尔可夫模型(GMM-HMM)做模型训练,进行数据对齐,状态输出概率bi(k)表示状态Si的条件下输出语音特征ok的概率。之后以此作为训练深层神经网络DNN模型的标准,用DNN模型替换GMM模型,计算观察概率,保留转移概率和初始概率等其他部分,估算HMM状态的后验概率。

基于DNN-HMM的声学模型语音识别准确率更高,可以自动学习声学状态和特征向量之间的分布关系,提升语音识别系统的性能。

2.2系统的设计与实现

本文设计的基于树莓派的电话录音系统按功能可分为录音、储存和语音识别转换几个部分。录音系统采用触发式录音,电话摘机应答时自动开始录音,形成语音数据队列,通话结束后语音通话通过录音文件写入模块存储在电话录音系统中,形成语音文件队列,之后通过中文语音转写模块将录音文件转成文字。日志记录层中记录了系统操作信息与操作错误信息,便于查询出错情况。录音系统架构图如图3所示。

电话录音系统的界面如图4所示。用户可以通过展示界面查看录音状态,播放音频文件,实现实时监听。用户根据录音时间查询音频文件,系统采用多线程技术,实现对同时录音的多部电话的并行控制,统一管理位于不同空间的电话。该系统还可通过语音识别将语音数据转换为文字,用户可以将音频文件和文字文件备份到U盘上,实现脱机查询。

3测试结果

经过测试,本系统的语音识别率相比其他系统提升了5%~10%,反应时间也缩短了。与原有的录音系统相比,本系统可以在手机上进行操作,便携程度提高,同时语音识别率较高,可以将语音转化为对应的文字,快速识别语音内容是否合规,并结合南方电网的调度规范等规章制度进行判断。

录音设备在输入语音信号后进行语音录制与语音识别,之后将录制的语音与语音识别转换的文字上传至系统,用户可以通过人机交互终端查询录音结果。录音流程如图5所示。

基于树莓派的电话录音系统可以通过电脑、手机等终端访问,将语音转为对应的文字,应用在调度台、变电站里可以保存录音数据,更方便工作人员保留录音证据,对用电话进行的工作许可可以更好地进行监督,提升了工作效率。

该电话录音系统占地面积小,终端设备的屏幕大小是7英寸,设备具有USB和RJ11等接口,可以连接电话、U盘等设备,以此记录保存语音通话。

4结语

本文设计的基于树莓派的电话录音系统使用了隐马尔可夫模型和深度学习等技术,录音效果好,语音识别准确率高。另外,本系统解决了传统录音系统占地面积过大的问题,操作方式简单,适用于变电站、调度台等场合。除了电力行业以外,系统还适用于铁路、石油、公安等行业的调度指挥中心和客户服务中心。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭