DD3D:基于预训练的单目3D目标检测

2021-12-23 16:53:46 关键词：检测

来源 | CV研习社

导读：3D目标检测的主要应用场景就是自动驾驶，虽然现阶段基于点云的3D目标检测的方法的性能不断提升，但相比于激光雷达高昂的造价以及在复杂天气情况下的敏感性。研究人员将目光投向了基于视觉的方案，因此单目3D目标检测逐渐成为了研究热点。小编今天将为大家分享一篇名为Is Pseudo-Lidar needed for Monocular 3D Object detection的文章，文中提出了DD3D的方法，让我们一起来学习一下吧。

Part 01 3D目标检测应用背景

3D目标检测目前应用的主要场景就是自动驾驶，汽车在行驶过程中，需要时刻感知周围的环境，并及时获取障碍物的3维信息。3维信息的获取通常会依靠3D传感器，如激光雷达，双目相机等，但此类传感器成本通常较高。低成本的方案是通过单目相机结合深度估计的方式，目前该方案也在大力发展中。3D目标检测所使用的数据集大部分也就是自动驾驶数据集，类别主要是车辆和行人。通过3D目标检测算法，可以给出障碍物的3D bbox，可以精准的判断物体的位置和朝向，将该信息提供给规划模块，就可以对车辆的行驶路线进行合理的规划。

Part 02 3D目标检测方法分类

按输入数据类型来划分，可分为：

单模：Lidar or Camera

多模：Lidar + Camera

按特征提取的方式来分，可分为：

Point Cloud：直接使用原始点云信息进行特征的提取；

Voxel：将点云通过网格的方式进行划分，随后提取网格的特征信息

2D View：将3D的信息投影到2D平面中，通常采用鸟瞰图(BEV)的视角，随后使用成熟的2D卷积网络进行特征的提取；

Graph：利用图的方式，对半径R内的点建立图，随后进行特征提取；

Part 03 DD3D网络的提出

当前，基于单目图像做3D目标检测的一个主要方向是将单目深度估计整合进来预测三维点云，从而将相机转变为伪激光雷达传感器。而3D检测效果的好坏与否和深度估计网络的性能提升高度相关。同时此类方法大都是2阶段的网络，通常网络结构较为复杂且容易过拟合。本文提出了一种end-to-end、single-stage的单目3D目标检测网络DD3D(Dense Depth-pre-trained 3D Detector)，网络结构图如下：