特征金字塔网络（FPN）：多尺度视觉任务中的特征融合架构与范式革新(一)

在计算机视觉领域，多尺度目标的精准感知始终是核心挑战之一 —— 图像中既包含尺寸微小的细节目标（如远处的行人、图像中的文字），也存在占据大面积的宏观目标（如近处的车辆、建筑），而传统特征提取方法难以同时满足不同尺度目标对 “细节信息” 与 “语义信息” 的双重需求。早期解决方案如图像金字塔虽能通过缩放图像生成多尺度特征，但计算量呈指数级增长，难以适配实时场景；单一深层特征图虽语义信息丰富，却因分辨率低丢失细节，导致小目标检测精度骤降；浅层特征图虽保留细节，却缺乏语义区分能力，无法有效识别目标类别。正是在这一技术困境下，特征金字塔网络（Feature Pyramid Network, FPN）于 2016 年由 Facebook AI Research（FAIR）提出，其创新性地构建了 “自上而下特征融合 + 横向连接” 的架构，实现了多尺度特征的高效融合与协同利用，既保留了浅层特征的细节信息，又注入了深层特征的语义信息，为目标检测、实例分割、语义分割等多尺度任务提供了统一的特征提取范式。本文将系统阐述 FPN 的核心原理、架构设计、技术优势及在多领域的应用与演进，揭示其在现代计算机视觉技术体系中的基础性地位与革新价值。

FPN 的核心设计思想源于对 “多尺度特征互补性” 的深刻洞察：深层卷积特征图（如 ResNet 的 C5 层）经过多次下采样，感受野大、语义信息丰富，能够有效区分目标类别，但分辨率低（通常为输入图像的 1/32），细节信息（如目标边缘、纹理）丢失严重，对小目标的定位能力弱；浅层特征图（如 ResNet 的 C2 层）分辨率高（输入图像的 1/4），细节信息完整，能精准捕捉小目标的空间位置，但感受野小、语义信息匮乏，难以区分目标与背景（如将树叶误判为小目标）。FPN 的目标便是通过架构设计，将深层特征的语义优势与浅层特征的细节优势结合，生成一组 “语义 - 细节均衡” 的多尺度特征金字塔，使金字塔的每一层都具备足够的语义区分能力与空间定位精度，从而适配不同尺度目标的感知需求。

FPN 的架构由 “自下而上路径”“自上而下路径” 与 “横向连接” 三部分构成，三者协同实现多尺度特征的融合与传递。自下而上路径是特征提取的基础，通常基于预训练的深度卷积网络（如 ResNet、MobileNet）构建，其核心是通过卷积与池化操作逐步降低特征图分辨率、扩大感受野，同时提取层级化的特征信息。以 ResNet-50 为例，自下而上路径从输入图像（如 800×800 像素）开始，经过卷积层与残差块的堆叠，生成 5 组特征图（C1 至 C5）：C1 分辨率为 400×400（1/2 下采样），以细节信息为主；C2 为 200×200（1/4），开始具备初步语义；C3 为 100×100（1/8），语义信息增强；C4 为 50×50（1/16），语义与细节平衡；C5 为 25×25（1/32），语义信息最丰富，但细节最少。这一路径的作用是为后续融合提供 “原始特征素材”，确保不同层级的特征图包含从细节到语义的完整信息谱系。