特征金字塔网络(FPN):多尺度视觉任务中的特征融合架构与范式革新(二)
扫描二维码
随时随地手机看文章
自上而下路径是实现语义信息传递的关键,其核心是将深层高语义特征图通过上采样(通常为 2 倍插值)提升至与浅层特征图相同的分辨率,使深层语义能够 “渗透” 到浅层。例如,C5(25×25)首先经过 1×1 卷积调整通道数(如从 2048 通道降至 256 通道,降低计算量并统一后续融合的通道维度),再通过 2 倍上采样生成与 C4(50×50)分辨率一致的特征图 P5';接着,P5' 与经过同样通道调整的 C4 特征图进行融合,生成新的特征图 P4;随后,P4 再经过上采样与通道调整后的 C3 融合生成 P3,以此类推,最终生成一组分辨率从 25×25 到 200×200(对应 P5 至 P3)的融合特征图,构成完整的特征金字塔。这一路径的创新在于打破了传统特征提取中 “层级割裂” 的局限,使浅层特征图在保留细节的同时,获得了深层特征的语义支持,从而具备区分小目标类别的能力。
横向连接(Lateral Connection)是确保特征融合有效性的核心设计,其作用是 “对齐” 深层上采样特征与浅层原始特征的维度与信息分布,避免融合过程中细节信息被语义信息掩盖。在 FPN 中,横向连接并非简单的特征叠加,而是先对浅层原始特征图(如 C4)进行 1×1 卷积操作,将其通道数调整为与上采样后的深层特征图(如 P5')一致(如均为 256 通道),消除通道维度差异导致的融合偏差;同时,1×1 卷积还能对浅层特征进行 “语义增强”,过滤冗余细节信息,使浅层特征与深层特征的语义分布更匹配。调整后的浅层特征与上采样深层特征通过元素相加(Element-wise Addition)进行融合,这种融合方式既能保留浅层特征中对小目标定位至关重要的细节(如边缘坐标),又能注入深层特征中对类别判断关键的语义(如 “是否为行人” 的特征),最终生成的融合特征图(如 P4)实现了 “细节精准 + 语义明确” 的双重优势。
FPN 的技术优势在多尺度视觉任务中表现得尤为突出,其核心竞争力体现在 “特征利用率”“多尺度适配性” 与 “泛化能力” 三个维度。在特征利用率方面,FPN 通过多路径融合,充分利用了基础网络不同层级的特征信息 —— 传统方法通常仅使用深层特征(如 Faster R-CNN 用 C5)或浅层特征(如早期 SSD 用 C3-C7 但不融合),导致部分信息浪费;而 FPN 将 C2 至 C5 的特征全部纳入融合,使每一层特征都能为特定尺度目标的感知贡献价值,特征利用率提升 30% 以上。在多尺度适配性方面,FPN 生成的特征金字塔天然适配不同尺度目标的检测需求:金字塔顶层(P5,25×25)感受野大,适合检测大目标(如 > 200 像素的车辆);中层(P4,50×50)适合中等目标(80-200 像素的行人);底层(P3,100×100)适合小目标(<80 像素的交通标志),这种 “分层适配” 策略使小目标检测精度较传统方法提升 20%-40%,解决了长期困扰多尺度检测的 “小目标漏检” 难题。