掩码重建：自监督学习中的特征学习范式与视觉任务革新(二)

随着 Transformer 在自然语言处理中的成功，研究者将 “掩码语言模型”（Masked Language Model）的思想引入计算机视觉，推动掩码重建进入 “密集掩码 + 特征重建” 的新阶段。以掩码自编码器（MAE）为例，其创新性地采用高达 75% 的密集掩码比例，随机遮挡图像中大部分区域（以非重叠块为单位），仅保留 25% 的可见块；编码器仅处理可见块，大幅降低计算成本；解码器则基于编码器输出的特征与掩码位置信息，重建被遮挡块的像素值。MAE 的密集掩码策略迫使模型依赖全局上下文进行重建，避免了对局部像素相关性的过度依赖，从而学习到更丰富的语义特征 —— 例如，重建被遮挡的 “猫爪” 时，模型需要结合 “猫的身体”“地面” 等全局信息，而非仅依赖相邻像素。

另一类代表性方法如 BEiT（BERT Pre-training of Image Transformers）则进一步将重建目标从像素级升级为特征级：首先使用预训练的教师模型（如 ViT）对图像块提取特征，作为 “语义标签”；掩码重建时，模型不再预测像素值，而是预测被遮挡块对应的语义标签。这种方式使模型直接学习高层语义特征，减少了像素级重建中冗余细节（如光照变化导致的像素波动）的干扰，学习到的特征在下游任务中表现更优。例如，在 ImageNet 分类任务中，BEiT 的预训练特征微调后准确率较像素级重建方法提升 3-5 个百分点，证明了特征级重建的优势。

掩码重建的技术创新还体现在掩码策略的精细化设计上。早期随机掩码对所有区域一视同仁，而现代方法则根据图像特性动态调整掩码方式：例如，有的方法对纹理复杂区域（如植被、人脸）采用更高的掩码比例，迫使模型学习更鲁棒的特征；有的方法采用结构化掩码（如遮挡完整物体的一部分），增强模型对物体完整性的理解；还有的方法在视频掩码重建中引入时间维度的掩码，要求模型同时考虑空间与时间上下文（如预测视频中被遮挡帧的内容），从而学习到时空特征。这些精细化的掩码策略使模型能够针对性地捕捉数据中的关键信息，进一步提升特征质量。

掩码重建学习的特征在下游视觉任务中展现出强大的迁移能力，其应用已覆盖图像分类、目标检测、语义分割、医学影像分析等多个领域，尤其在标注数据有限的场景中优势显著。在图像分类任务中，基于掩码重建预训练的模型（如 MAE、BEiT）在 ImageNet 数据集上的微调准确率已接近甚至超过监督预训练模型，且在小样本情况下表现更优 —— 当训练数据仅为 10% 的 ImageNet 样本时，掩码重建预训练模型的准确率较监督预训练高 5-8 个百分点，证明其特征的泛化能力更强。这一优势在长尾分布数据集（如细分类别样本极少的动物分类）中尤为明显，掩码重建学习的全局特征能够更好地捕捉类别间的共性与差异。