当前位置:首页 > 消费电子 > 消费电子
[导读]一、概述 音频信号数字化之后所面临的一个问题是巨大的数据量,这为存储和传输带来了压力。 例如,对于CD音质的数字音频,所用的采样频率为44.1 kHz,量化精度为16

一、概述

音频信号数字化之后所面临的一个问题是巨大的数据量,这为存储和传输带来了压力。

例如,对于CD音质的数字音频,所用的采样频率为44.1 kHz,量化精度为16bit;采用双声道立体声时,其数码率约为1.41 Mbit/s;1秒的CD立体声信号需要约176.4KB的存储空间。因此,为了降低传输或存储的费用,就必须对数字音频信号进行编码压缩。到目前为止,音频信号经压缩后的数码率降低到32至256kbit/s,语音低至8kbit/s以下,个别甚至到2kbit/s。

为使编码后的音频信息可以被广泛地使用,在进行音频信息编码时需要采用标准的算法。因而,需要对音频编码进行标准化。

本文从介绍音频技术入手,介绍音频编码标准的发展现状以及发展趋势。

二、音频编码技术

2.1 音频信号

通常将人耳可以听到的频率在20Hz到20KHz的声波称为为音频信号。人的发音器官发出的声音频段在80Hz到3400Hz之间,人说话的信号频率在300到3000Hz,有的人将该频段的信号称为语音信号。在多媒体技术中,处理的主要是音频信号,它包括音乐、语音、风声、雨声、鸟叫声、机器声等。

表1 数字音频等级

信号类型 频率范围(Hz) 采样率(KHz) 量化精度(采样位数)
电话话音 200~3400 8 13~16
宽带话音 50~7000 16 16
调频广播 20~15k 32 16
高质量音频 20~20k 44.1 16

2.2 音频编码技术

对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。现代声码器的一个重要的课题是,如何把语音和音乐的编码融合起来。

语音编码技术又分为三类:波形编码、参数编码以及混合编码。

波形编码:波形编码是在时域上进行处理,力图使重建的语音波形保持原始语音信号的形状,它将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,缺点是压缩比偏低。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点,通过为小信号分配小的量化阶,为大信号分配大的量阶来减少总量化误差。我们最常用的G.711标准用的就是这个技术。自适应差分编码是利用过去的语音来预测当前的语音,只对它们的差进行编码,从而大大减少了编码数据的动态范围,节省了码率。自适应量化技术是根据量化数据的动态范围来动态调整量阶,使得量阶与量化数据相匹配。G.726标准中应用了这两项技术,G.722标准把语音分成高低两个子带,然后在每个子带中分别应用这两项技术。

参数编码:利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号。它只能收敛到模型约束的最好质量上,力图使重建语音信号具有尽可能高的可懂性,而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。这种编码技术的优点是压缩比高,但重建音频信号的质量较差,自然度低,适用于窄带信道的语音通讯,如军事通讯、航空通讯等。美国的军方标准LPC-10,就是从语音信号中提取出来反射系数、增益、基音周期、清 /浊音标志等参数进行编码的。MPEG-4标准中的HVXC声码器用的也是参数编码技术,当它在无声信号片段时,激励信号与在CELP时相似,都是通过一个码本索引和通过幅度信息描述;在发声信号片段时则应用了谐波综合,它是将基音和谐音的正弦振荡按照传输的基频进行综合。

混合编码:将上述两种编码方法结合起来,采用混合编码的方法,可以在较低的数码率上得到较高的音质。它的基本原理是合成分析法,将综合滤波器引入编码器,与分析器相结合,在编码器中将激励输入综合滤波器产生与译码器端完全一致的合成语音,然后将合成语音与原始语音相比较(波形编码思想),根据均方误差最小原则,求得最佳的激励信号,然后把激励信号以及分析出来的综合滤波器编码送给解码端。这种得到综合滤波器和最佳激励的过程称为分析(得到语音参数);用激励和综合滤波器合成语音的过程称为综合;由此我们可以看出CELP编码把参数编码和波形编码的优点结合在了一起,使得用较低码率产生较好的音质成为可能。通过设计不同的码本和码本搜索技术,产生了很多编码标准,目前我们通讯中用到的大多数语音编码器都采用了混合编码技术。例如在互联网上的 G.723.1和G.729标准,在GSM上的EFR、HR标准,在3GPP2上的EVRC、QCELP标准,在3GPP上的AMR-NB/WB标准等等。

音乐的编码技术主要有自适应变换编码(频域编码)、心理声学模型和熵编码等技术。

自适应变换编码:利用正交变换,把时域音频信号变换到另一个域,由于去相关的结果,变换域系数的能量集中在一个较小的范围,所以对变换域系数最佳量化后,可以实现码率的压缩。理论上的最佳量化很难达到,通常采用自适应比特分配和自适应量化技术来对频域数据进行量化。在MPEG layer3和AAC标准及Dolby AC-3标准中都使用了改进的余弦变换(MDCT);在ITU G.722.1标准中则用的是重叠调制变换(MLT)。本质上它们都是余弦变换的改进。

心理声学模型:其基本思想是对信息量加以压缩,同时使失真尽可能不被觉察出来,利用人耳的掩蔽效应就可以达到此目的,即较弱的声音会被同时存在的较强的声音所掩盖,使得人耳无法听到。在音频压缩编码中利用掩蔽效应,就可以通过给不同频率处的信号分量分配以不同的量化比特数的方法来控制量化噪声,使得噪声的能量低于掩蔽阈值,从而使得人耳感觉不到量化过程的存在。在MPEG layer2、3和AAC标准及AC-3标准中都采用了心理声学模
型,在目前的高质量音频标准中,心理声学模型是一个最有效的算法模型。

熵编码:根据信息论的原理,可以找到最佳数据压缩编码的方法,数据压缩的理论极限是信息熵。如果要求编码过程中不丢失信息量,即要求保存信息熵,这种信息保持编码叫熵编码,它是根据信息出现概率的分布特性而进行的,是一种无损数据压缩编码。常用的有霍夫曼编码和算术编码。在MPEG layer1、2、3和AAC标准及ITU G.722.1标准中都使用了霍夫曼编码;在MPEG4 BSAC工具中则使用了效率更高的算术编码。



本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭