MPEG音频编解码器：从mp3到xHE-AAC

[导读] 音频编解码器是现代媒体系统的基础核心之一。没有音频编解码器，就不会有现在的数字广播、流媒体服务及音乐发行。首个同时也仍是最主流的MPEG音频编解码器是于1998年面市的mp3。此后，Fraunhofer IIS和其他ISO-MPE

音频编解码器是现代媒体系统的基础核心之一。没有音频编解码器，就不会有现在的数字广播、流媒体服务及音乐发行。首个同时也仍是最主流的MPEG音频编解码器是于1998年面市的mp3。此后，Fraunhofer IIS和其他ISO-MPEG成员参与者开发并制定了多个音频编解码器。每个MPEG音频编解码器已经或将会改变我们消费媒体的方式。本文介绍了MPEG音频编解码器及其应用，并展现现代音频编码方案最成功的创建者Fraunhofer IIS。

MPEG L3： mp3

mp3彻底改变了音乐产业，也改变了消费者购买和享受音乐的方式。mp3目前仍然是音乐发行的主要格式，因为mp3文件可以在任何设备上随时随地播放。mp3技术于上世纪80年代末开始开发，1995年，随着以 “.mp3”为后缀的文件的诞生，该技术达到了顶峰。同年，Fraunhofer IIS推出了第一个mp3播放器的硬件原型。该文件后缀mp3很快成为 “MPEG Layer 3”标准名称的替称，但是直到三年后，即1998年，第一款mp3播放器才投放市场。

mp3是一种感知型音频编解码器，这类编解码器基于人类听觉系统的感知模型。这些模型描述了人耳能够感知以及无法感知的音频信号元素，无论听众的耳朵是否经受过训练。通过分析音频信号，mp3和其他感知型音频编解码器确认了以上事实，即音质各指标可按人耳的感知优先排序，并在最终音频文件中精细的表现出来。因此，如果比特率(即至少192 kbps)选择得当，听众则无法辨别mp3文件与源文件之间的差别。

不仅mp3基于感知模型，目前大部分的MPEG系列的音频编解码器也能够明智的利用人类听觉系统，来降低数据速率和文件大小。AAC系列的音频编解码器也不例外。

AAC系列

AAC-LC

在市场大规模采用mp3之前，MPEG就已开发另一款音频编解码器。目的是在显著降低数据速率的同时实现与mp3同样高品质的音频质量。自此，开启了研发序幕，从1994 年的AAC ，至2012年的扩展型HE-AAC。整个编解码器系列序幕。

1994年，根据MPEG-2格式制定了首款新型AAC编解码器，命名为高级音频编码(Advanced Audio Coding，AAC)。根据mp3和其他编解码器专利的开发经验，AT&T、Dolby、Fraunhofer IIS以及Sony等主要参与者从头开始设计一款最先进的新型音频编解码器。通过增加感知噪声建模(Perceptual Noise Shaping，PNS)、频带复制(Spectral Band Replication，SBR)，以及参数立体声编码(Parametric Stereo，PS)等工具，将MPEG-2 AAC编解码器扩展至MPEG-4标准。

基本的MPEG-4 AAC配置被称为AAC-LC(低复杂性)的配置。它能提供“水晶般”的音频质量。在音频编码域中，“水晶般”音频的编码信号虽然在数学上与源文件有差异，但即便是拥有“金耳朵”的听力专家也无法辨别其与源文件的区别。因此，AAC-LC可以满足广播公司最高的音频质量要求。立体声AAC-LC比特率通常为128-192 kbps，5.1多声道AAC-LC比特率为320 kbps，两种AAC均以立声道进行编码。AAC-LC是目前最灵活的音频编解码器之一，采样率从8 kHz到192 kHz，每声道的比特率高达256 kbps，并支持48声道。该配置最著名的应用就是Apple iTunes，并已用于日本ISDB数字电视标准。

HE-AAC 和 HE-AACv2

MPEG-4“高效配置(High Efficiency Profile, HE-AAC)”结合了MPEG-4 AAC-LC和参量频谱复制(Spectral Band Replication，SBR)工具，从而可以进一步降低总比特率，同时保持出色的音频质量。当立体声信号的比特率低于128 kbps时，HE-AAC与同音频质量的AAC-LC相比，比特率降低了30%。对于HE-AAC，低音频频谱使用AAC-LC进行编码，高频谱通过SBR工具编码。频谱复制是一种参数方法，可使用该频谱的高低重新创建该信号的整个音频频谱。为了进一步降低比特率，AAC-LC编码使用总信号50%的采样进行低频率编码。HE-AAC立体声所用的典型数据速率为48-64kbps，HE-AAC 5.1多声道的典型数据速率为160 kbps。同AAC-LC一样，HE-AAC支持8至 192kHz的采样率、高达48个声道以及音频特定的元数据。

“高效AAC v2配置(HE-AACv2)”在HE-AAC基础上添加了参数声音(Parametric Sound，PS)工具。HE-AACv2 应用参数进行立体声信号编码，并进一步降低了比特率。参数声音编码器不是发送两个声道，而是从立体声信号中提取参数，在解码器侧重建立体声信号，然后生成一个 HE-AAC 编码的单声道混音。参数数据与频谱数据在 AAC 比特流的辅助数据字段中传输。解码器解码单声道信号，参数解码器重建立体声。对于立体声来说，采用参数数据传输 HE-AAC 编码的单声道信号比传输双声道 HE-AAC 编码信号的效率更高。对于立体声信号来说，HE-AACv2典型比特率为 24 至 32 kbps。

目前，AAC和HE-AAC得到广泛应用。尤其是在互联网应用中， AAC和HE-AAC是mp3之外主要的音频编解码器。

HE-AACv2广泛地应用于最先进的电视广播系统。它是DVB工具箱的组成部分，还是最近推出了第二代地面电视指定的编解码器，应用在西班牙、英国、法国、爱尔兰、瑞典、奥地利、意大利、丹麦、芬兰和挪威等国家。在巴西和南美洲的大多数国家，HE-AAC是地面电视广播的唯一指定音频编解码器。此外，HE-AAC也是智能电视中的一个指定部件。例如，它是欧洲混合广播宽带电视(Hybrid Broadcast Broadband TV，HbbTV)数据服务的指定编解码器。因此，所有高清电视接收器设备，如目前欧洲和南美洲销售的电视机和机顶盒，都支持HE-AAC。所有主要广播编码器厂商很早之前便将HE-AAC部署到他们的设备中。当然，HE-AACv2支持所有相关的广播元数据。

HE-AAC是主流音频流媒体编解码器。所有主要的流媒体平台都支持HE-AAC，包括 Flash、Silverlight、Windows Media Player、Winamp 以及 iTunes。Mac OS X 和 Windows等操作系统中都有HE-AAC， iOS、Android、Windows Phone、Symbian及BlackBerry等手机系统也是如此。

目前，苹果HLS、微软Smooth Streaming及Adobe Dynamic Streaming等成熟的http适配流媒体系统也基于AAC系列编解码器。

HE-AACv2还是消费电子领域内流媒体标准的一个重要部分，在Open IPTV Forum、ATIS、HbbTV和DLNA等电子领域发挥着不可或缺的作用。因此，几乎所有的数字电视、蓝光播放器、机顶盒和游戏机都支持该编解码器。HE-AACv2的广泛支持使它成为内容提供商选择的最佳编解码器。因此，Pandora、Aupeo、Hulu以及BBC iPlayer等大多数网络广播都基于HE-AACv2。

MPEG Surround

MPEG Surround技术可以看作是参数立体声原理从立体声到多声道的扩展。不同于参数立体声工具，MPEG Surround在比特率和质量方面更具扩展性。MPEG Surround可与AAC系列编解码器相结合，提供更高的编码效率。MPEG Surround的另一个优势是它能够反向兼容立体声信号。比特流始终包含AAC编码核心立体声信号和MPEG Surround这两个元素。立体声解码器可以提取核心立体声信号，并对其进行解码，而支持MPEG Surround的解码器可重建整个多声道音频信号。这样，就可以通过平价或传统的立体声接收器或多声道接收器在混合信号接收器中使用MPEG Surround，而无需同时播放立体声和多声道信号。

低延迟音频编解码器： AAC-LD、AAC-ELD和AAC-ELDv2

MPEG编解码器不仅广泛应用于广播、流媒体和音乐发行中，还用于通信应用。AAC系列通信编解码器在高品质会议和视频电话系统中尤其受欢迎，因为它们帮助服务提供商和运营商提供全高清的语音服务。全高清语音是通信系统能够实现的最高音频质量。传统的窄带电话仅能传输最高 3.5 kHz的音频带宽，而全高清语音系统则能传输从14 kHz到人耳能听到的全部音频频谱。通过这种方法，全高清语音通话听起来像与同一房间的人交谈那样清晰。AAC系列的全高清语音编解码器包括低延迟 AAC (Low Delay AAC，AAC-LD)、增强型低延迟 AAC (Enhanced Low Delay AAC，AAC-ELD)以及增强型低延迟AACv2 (AAC-ELDv2)。

AAC-LD是高品质视频会议的行业标准，可提供全带宽、低延迟的音频编码。它具有仅20毫秒的算法延迟，同时为所有类型的音频信号提供良好的压缩率和高声质。

AAC-ELD是AAC-LD的增强型版本，结合了MPEG-4 AAC-LD和频谱复制。 AAC-ELD也是所有要求在24 kbps低数据速率下拥有全音频带宽的延迟敏感型应用的最佳选择。

AAC-LD和AAC-ELD目前已经用于专业及消费级视频会议应用，例如，苹果的FaceTime应用就是基于AAC-ELD。

AAC-ELDv2是卓越的AAC-ELD音频编解码器的最新扩展。AAC-ELDv2结合了AAC-ELD优化延迟参数多声道编码的优势这种方法只允许传输一个单声道及其他信息，而不是两个独立的声道。

扩展型HE-AAC

AAC系列的最新成员是扩展型HE-AAC。2012 年年初，MPEG标准化刚刚完成。扩展型HE-AAC显著提高了音乐和语音的音频质量，尤其是在8 kbps等极低的比特率下，并与HE-AAC流兼容。新的编解码器将两个先前分离的通用音频编码和语音编码结合在一起，具备了现有的语音和音乐编解码器的优势。HE-AACv2音频编解码器添加了一套新的编码工具后，扩展型HE-AAC的性能大大超过了专用语音和通用音频编码方案，弥补了二者的不足，为所有信号类型提供一致的高品质音频。

结语

无论是娱乐还是通信应用，MPEG音频编解码器用于所有最先进的消费电子、IT和通信设备中。从上世纪90年代末开始出现的mp3起，MPEG音频编解码器的发展从未间断过。mp3及其后续产品AAC在消费领域广为人知，对于HE-AAC或AAC-ELD等在后台运行的其他MPEG编解码器，只有专业人士才有所了解，但大部分人在日常生活中都在使用这些编解码器，例如，观看互联网视频或使用Apple FaceTime打电话。Fraunhofer IIS在每个音频编解码器的开发和市场推广方面都起到了重要作用。