MP4与MPEG-2 AAC

时间：2020-09-10 08:39:02

关键字： mp4 mpeg-2

[导读]MP4的由来与早已众所周知的 MP3相比，人们对MP4的了解还不多。尽管从逻辑上来说，当我们听到或看到MP4时，会推断这是MP3的后继格式，事实却要复杂得多。实际上，MP4与 MP3有着太多的不同。

MP4的由来

与早已众所周知的 MP3相比，人们对MP4的了解还不多。尽管从逻辑上来说，当我们听到或看到MP4时，会推断这是MP3的后继格式，事实却要复杂得多。实际上，MP4与 MP3有着太多的不同。MP3是一种音频压缩的国际标准，而MP4却是一个商标的名称。虽然两者都属于网络音乐格式的范畴，但也代表着完全不同的两种音频压缩技术和格式。

MP4的出现，使原来就容易混淆的MPEG标准系列变得更加难以分辨了。MP3并不是指MPEG-3标准，而是MPEG Layer 3的简称，这是个ISO/IEC国际标准，是一种完全公开的音频压缩技术。而MP4既不是MPEG Layer 4的简称，更不是MPEG-4标准。它是GMO公司针对MP3侵犯音乐出版物的版权，采用了AT&T授权的基于MPEG-2 AAC(Advanced Audio Coding)的A2B音乐，并将其命名为MP4，其用意大概是想表明MP4是继MP3之后的一种升级换代技术，这正好符合人们的思维习惯。

A2B 技术主要由以下三个部分组成。第一，AT&T的音频压缩技术专利，以“知觉编码”为关键技术可以将AAC压缩比提高到 20:1而不损失音质；第二，安全数据库，它可以为你的A2B音乐文件创建一个特定的密钥，并将此密钥置于其数据库中，只有A2B的播放器才能播放含有这种密钥的音乐；第三，协议认证，这个认证包含了复制许可、允许复制副本数量、歌曲总时间、歌曲可以播放时间以及经营销售许可等信息。

相对MP3等以往的音乐格式，MP4具有如下特点：

(1)每首MP4乐曲就是一个扩展名为exe的可执行文件，其内嵌播放器，操作简便，在Windows里直接双击就可以运行播放，十分方便；

(2)由于采用先进的A2B音频压缩技术，使MP4文件的大小仅为MP3的四分之三左右，更好的音质，更大的压缩比，从这个角度来看MP4更适合在Internet上传播，而且音质也更胜一筹；

(3)独特的数字水印，MP4采用了名为“SOLANA”的数字水印技术，可方便的追踪和发现盗版行为，而且，任何针对MP4的非法解压行为都可能导致MP4原文件的损毁；

(4)支持版权保护，MP4乐曲内置了包括与作品版权持有者相关的文字、图像等版权说明，既可说明版权，又表示了对作曲家和演唱(奏)者的尊重；

(5)较为完善的功能，MP4可独立调节左右声道的音量大小、内置的波形/分频动态音频显示和音乐管理器可支持多种彩色图像、网站链接及无限制的滚动显示文本。

由此可知，MP4是一种商品，它是利用改进后的MPEG-2 AAC技术对音频进行压缩处理，并加上由出版公司直接授权的知识产权协议后形成一个全新形式的数字音乐标准。

MPEG-2 AAC

MPEG-2 AAC（Advanced Audio Coding）是在1997年由以Bosi、Brandenburg、Johnston等为首的音频编码研究提出的，它总结了MPEG-1、MPEG-2 和AC-3等的长处，在MPEG 系统上进一步改进了很多新的功能，大大增强了编码的灵活度，在保证音质的同时更大限度地压缩了码率。同时，MPEG-2 AAC已经成为MPEG-4标准中高质量音频编码的核心，是下一代音频压缩标准。

为了能够适应于不同的应用场合，在AAC标准中定义了三种不同复杂度的框架(Profile)。分别为：

Main Profile（主框架）：在这种框架具有最高的复杂度，可以用于存储量和计算能力都很充足的场合。在这种框架中，利用了除增益控制以外的所有编码工具来提高压缩效率。

Low Complexity Profile（低复杂度框架）：这种框架用于要求在有限的存储空间和计算能力的条件下进行压缩的场合。在这种框架中，没有预测和增益控制这两种工具，TNS的阶数比较低。

SSR (Scalable Sample Rate) Profile（采样率可分级框架）：在这种框架中，使用增益控制工具，但是预测和耦合工具是不被允许的，具有较低的带宽和TNS阶数。对于最低的一个 PQF子带不使用增益控制工具。当带宽降低时，SSR框架的复杂度也可降低，特别适应于网络带宽变化的场合。

MPEG-2 AAC编解码

编码时，时域信号先经增益控制模块(只在可分级档次使用)，把信号分成4个频带，对信号的幅度进行增益控制，在由滤波器组分解成为1024条频域谱线。同时根据输入的时域信号进行心理声学模型分析，计算当前的掩蔽域值。另外，心理声学模型还输出M/S立体声和强度立体声处理所需的控制信息。TNS模块对滤波器输出的部分谱线进行线性预测以残差信号代替原谱线，强度立体声模块提取信号高频成分的包络。M/S立体声模块以和信号M和差信号S代替左右声道信号。量化模块进行比特分配，尽量使量化噪声小于掩蔽域值。量化后的信号与比例因子进行哈夫曼编码，最后进行AAC组码。把上述过程逆过来就是解码。具体过程见图1 所示的框图。

MPEG-2 AAC把高分辨率的滤波器组、预测技术、噪声整形技术、联合立体声编码、非均匀量化和哈夫曼编码结合在一起，可以满足如下的要求：

（1）支持8kHz～96kHz的采样频率；

（2）支持输入通道配置为1/0(单声道)、2/0(双声道立体声)和3/2+1(左/中/右、左环绕/右环绕、低频增强通道)等的不同的多通道配置；

（3）在比特流语法中为更大数目和更小数目的通道配置留有余地；

（4）在384Kb/s的数据率和3/2通道配置中，可以获得“不可分辨的”音质；

（5）为了改善误码的消除，支持在存在误码的情况下维持码流同步的机制和某种误码消除机制。

总结

MP3是目前最流行的一种音乐格式，已经占据了大量的网络资源，深受广大音乐爱好者的喜爱。因此，GMO MP4的推广将会遇到很大的困难。但是，MP4有其独特的优越性，其压缩技术优于MP3，音质好于MP3；从维护版权的角度看，会得到出版界的欢迎。尤其是和A2B 压缩技术相同的AAC 格式、编/ 解码器、音乐已经在网络上出现，正在被大众接受并获得发展。而且MPEG-2 AAC已经成为MPEG-4标准中高质量音频编码的核心，是下一代音频压缩标准。因此，随着时间的推移和MPEG-4标准的推广，作为MPEG-4音频之一的MPEG-2AAC必将受到重视而广泛应用。