LiDAR 数据融合(二)
扫描二维码
随时随地手机看文章
实现 LiDAR 数据与其他传感器数据的有效融合,时空校准是重要前提。空间校准通过手眼标定(Hand-Eye Calibration)确定传感器间的外参(旋转矩阵 R + 平移向量 t),其公式为 P_target = R・P_source + t,其中 P_source 为源传感器坐标,P_target 为目标传感器坐标,常用的标定方法包括基于棋盘格的张氏标定法(适用于视觉 - LiDAR)、基于平面特征的 ICP 迭代法(适用于 LiDAR-IMU)。时间同步则可通过硬件与软件两种方式实现,硬件同步借助 PTP(Precision Time Protocol)实现传感器时钟的毫秒级对齐;软件同步基于时间戳进行插值补偿,对于运动状态剧烈的场景(如车辆急转),则采用二次曲线拟合进行修正。
LiDAR 数据融合架构可划分为不同层次,各层次有着不同的原理与方法。数据级融合(早期融合)的核心是将原始传感器数据转换至统一坐标系后直接融合,以保留完整信息。典型的方法包括点云 - 图像投影,即把 LiDAR 点云投影至相机图像平面,生成带深度信息的彩色点云,其坐标转换公式为 u = fx・(x/z) + cx,v = fy・(y/z) + cy(其中 u,v 为图像像素坐标,fx,fy 为相机内参焦距,cx,cy 为主点坐标);还有点云补全,利用相机图像的稠密像素预测 LiDAR 稀疏区域的深度值,如基于 Transformer 的 Cross-Attention 补全网络便属于此类。
特征级融合(中期融合)则是提取各传感器的高层特征后进行融合,以此减少数据冗余。LiDAR 的特征包括点云法向量、曲率、体素特征(VFE)、鸟瞰图(BEV)特征等;视觉特征则有 CNN 卷积特征、Transformer 注意力图、边缘 / 角点特征等。常用的融合策略有特征拼接(Concat),这种方法简单高效但易引入噪声;注意力机制,通过权重分配突出有效特征,如 LiDAR - 视觉交叉注意力模块;以及特征金字塔融合,实现多尺度特征匹配,解决目标尺度变化问题。
决策级融合(晚期融合)的原理是独立处理各传感器数据得到决策结果后,通过投票、加权等方式进行融合,其优势在于传感器故障时具有容错性,适合异构系统集成。常用的算法包括 D-S 证据理论,用于处理不确定性决策的信任函数组合;以及贝叶斯推理,基于后验概率进行决策融合,其公式为 P (class|LiDAR, Camera) ∝ P (LiDAR|class)・P (Camera|class)・P (class)。
随着深度学习的发展,出现了多种驱动融合的模型。单阶段融合模型如 PointPillars++,将 LiDAR 点云转换为柱状体(Pillar)特征,与相机图像的 BEV 特征在骨干网络中融合,实现端到端目标检测,其优势在于速度快(可达 50fps),适合实时系统。双阶段融合模型如 F-PointNet,第一阶段利用 LiDAR 点云生成目标候选框,第二阶段将候选框投影至图像提取视觉特征,联合优化分类与定位,具有精度高的特点,在 KITTI 测试集上车辆检测 AP@IoU=0.7 达 92%。Transformer 融合架构如 DETR3D,通过 3D 位置编码将 LiDAR 点云与图像特征映射至统一语义空间,利用自注意力机制实现全局上下文融合,突破了传统卷积网络对长距离依赖建模不足的问题。





