WAV文件格式(上)

WAV（Waveform Audio File Format）作为数字音频领域最经典的无压缩音频格式之一，自1991年由微软与IBM联合推出以来，便凭借标准化结构、无损失音质和广泛兼容性，成为专业音频处理、嵌入式开发、多媒体应用等场景的核心选择。它基于RIFF（Resource Interchange File Format）块存储架构构建，本质是RIFF格式在音频领域的具象化应用，通过模块化的块结构封装音频元信息与原始数据，既保证了数据组织的规范性，又实现了跨平台、跨设备的高效交互，至今仍是录音、混音、影视配乐等专业场景的标准格式，同时也是嵌入式设备音频播放、复古多媒体兼容的首选方案。

WAV文件的核心架构完全遵循RIFF块的设计规范，整体呈现“顶层RIFF块+核心子块+可选子块”的层级结构，所有数据均以小端序（Little-Endian）存储，确保与x86架构设备的天然兼容。顶层RIFF块是文件的“骨架”，以四字符码“RIFF”作为标识，紧随其后的是4字节文件大小字段（值为文件总字节数减去8，即排除“RIFF”标识和自身大小字段），再之后是文件类型标识“WAVE”，明确该RIFF文件为音频格式，这一标识是播放器识别WAV文件的关键依据。顶层块的数据部分包含了所有音频相关的子块，其中“fmt ”块（四字符码末尾含空格，补足4字节）和“data”块是必备核心子块，二者共同构成了WAV文件的基础功能，而“fact”“LIST”“smpl”等则为可选子块，用于扩展格式功能或补充元信息。

“fmt ”块作为WAV文件的“说明书”，负责存储音频的核心格式参数，其结构和大小会根据编码类型略有差异，最常见的PCM（脉冲编码调制）无压缩格式中，“fmt ”块固定为16字节。该块的前2字节为音频格式标识（PCM格式对应值为1，ADPCM、IMA等压缩格式对应不同非1值），后续依次存储声道数（1为单声道，2为立体声，多声道则对应更高数值）、采样率（单位Hz，如44100Hz为CD标准采样率，48000Hz为专业录音常用采样率）、字节率（每秒传输的字节数，计算公式为采样率×声道数×位深/8）、块对齐（每次读写的最小字节数，等于声道数×位深/8）、位深（每个采样点的量化位数，常见8位、16位、24位、32位，位深越高音质还原度越强）。对于非PCM压缩格式，“fmt ”块会额外增加扩展字段，存储压缩算法相关参数，确保播放器能正确解码。

“data”块是WAV文件的“数据仓库”，直接承载原始音频数据，其结构简洁明了——4字节“data”四字符码标识后，紧跟4字节数据大小字段（值为音频数据的总字节数），后续即为连续的音频采样数据。在PCM格式下，这些数据是未经任何压缩的原始量化值，单声道文件按时间顺序依次存储每个采样点数据，立体声文件则采用“左声道-右声道”的交错方式存储，多声道文件同理按预设声道顺序排列；数据存储遵循小端序规则，16位及以上位深的采样值需按字节逆序存储，确保解析时能正确还原量化电平。例如，16位、44100Hz、立体声的PCM格式WAV，每秒音频数据量为44100×2×2=176400字节，其“data”块的大小字段便对应总时长乘以该数值，这种无压缩存储特性让WAV能完整保留音频细节，成为专业音频制作的首选格式。

除核心子块外，WAV文件还支持多种可选子块，以满足不同场景的功能需求。“fact”块是最常见的可选子块，主要用于非PCM压缩格式，存储压缩音频的关键信息，如原始采样点数，帮助播放器计算音频总时长，其四字符码为“fact”，大小字段通常为4字节，数据部分为32位整数表示的采样点总数；PCM格式的WAV文件一般无需“fact”块，但若部分软件强制添加，播放器也能兼容解析。“LIST”块则用于存储音频的元数据，如标题、艺术家、版权信息、录制日期等，其内部通过嵌套子块组织这些信息，方便音乐管理软件读取和编辑；“smpl”块用于存储采样相关参数，如基准音调、循环播放点等，常见于采样乐器音色文件；“cue”块和“plst”块则分别用于标记音频关键点和定义播放列表，拓展了WAV在音频编辑和交互场景的应用。