同济团队获CVPR最佳学生论文奖，为单目3D目标检测算法提供新思路

“此次获得 CVPR 最佳学生论文奖，所有作者都很意外。由于上海疫情我们无法赴美参会，最后决定线上参会。大会召开前不到一周，我们才知道获奖。直到颁奖仪式开始，我们才知道获得了最佳学生论文奖，这给我们今后的工作带来了巨大的激励作用。”同济大学田炜助理教授表示。据介绍，他们获奖的这篇新论文，为计算机视觉领域中的单目 3D 目标检测算法提供了新思路。

▲图 | 田炜（来源：田炜）

当下，单目 3D 目标检测是一个被广泛研究的问题。目前的主流方法有两类：第一种是利用深度神经网络直接回归目标在 3D 空间中的位姿，第二种是利用 2D-3D 关联点基于视觉几何的 PnP 推算。

在这两个方法里，前者过于依赖基于训练数据的监督学习，同时对训练的技巧要求较高比如需要调参，而且任务的泛化性难以保证。后者则需要使用额外方式提取 2D-3D 关联点，但是现有方法在神经网络模型优化和 PnP 几何优化上，无法做到很好的衔接，这容易致使训练后的整体模型参数，在质量上处于次优状态。

故该工作旨在解决以上两个问题：一方面，在神经网络的学习中添加一种推断方式的先验即 PnP，这要求网络的推断必须最大程度符合几何投影关系；另一方面，把网络模型的优化、即误差的反向传播，作用于 PnP 求解过程，其关键在于建立一种可导的误差传播方式。

因此，课题组提出 EPro-PnP 这一架构，将传统方法中确定位姿的输出方式、即位姿的唯一解，用概率分布进行替换，并用 KL 损失建立关于概率密度分布的损失函数。同时，他们还提出基于蒙提卡罗的损失函数求导计算，以实现可导的误差传播，从而为端到端的整体网络架构的优化提供可能。

而由于在网络前向传播过程中集成了 PnP 几何推断，这使得网络的中间输出具有一定可解释性。这时，网络不再是一个完全的黑盒模型，故比传统的监督学习方法更先进。而在对安全性要求较高的实际应用任务比如自动驾驶场景中，模型的可解释性具有很高的关注度。

同时，EPro-PnP 这一架构具备很高的可迁移性，它不局限在单目 3D 目标检测任务上，也可用于物体几何形状已知的 6 自由度位姿估计任务中，性能表现也较为出众。

在第一轮审稿意见公布后，研究人员仔细阅读了每一条意见，发现审稿人总体上比较认可这一工作。审稿人认为，将基于位姿概率分布的 EPro-PnP 架构用于神经网络对 2D-3D 点关联的学习，可以克服使用传统 PnP 造成的不可导问题，具有一定的理论价值。

同时，审稿人也认同此次成果可给其他涉及几何关系学习的工作带来一定启发，对于单目 3D 目标检测、以及物体的 6 自由度位姿估计任务的实验结果呈现和分析上，审稿人也比较满意。

当然，审稿人也就初稿指出了一些问题：比如，部分公式的解释不够清晰；KL 损失的求导过程说明略显不足；以及 EPro-PnP 架构在单目 3D 目标检测和物体 6 自由度位姿估计两个任务上的关键异同点的解释有待完善等。

遵循审稿人的意见，该团队对论文进行修改和完善，并把总结后的内容回复给审稿人。这些回复里，包括对公式和推导过程的进一步阐释、就运行时间对模型运行效率的补充、以及部分实验分析的补充说明等。

而此次工作的开展，可追溯到该团队的上一项工作，即 CVPR 2021 的论文成果——MonoRUn。当时，课题组提出这样一个关于单目 3D 目标检测的模型：利用 2D-3D 点关联估计目标的位姿。但和本次工作的不同在于，上一工作主要基于目标物体上的稠密关键点的 2D-3D 关联，同时使用的是 2 阶段的目标检测网络，并对重投影的像素坐标进行高斯分布建模，以模拟重投影误差的概率分布，即估计的不确定性。

虽然上一工作也取得了不错的性能，但他们认为模型在学习方面的设计不够完善，而且无法轻易迁移到其他任务上。这一“不满足”，也是引出本次工作的最初始驱动力。定下目标之后，该团队对此前模型进行剖析，结果发现传统 PnP 算法在与神经网络结合时所导致的不可导问题，制约了整体模型的优化。

通过对上一工作进行分析和总结，尤其是在模型数学层面的分析。他们发现，可利用概率分布代替 PnP 固定解，并集成进 KL 损失函数，来实现可导设计的方式。为了对 KL 损失进行求导，课题组又引入蒙提卡罗方法，并在实验中发现使用 AMIS 算法较为有效。

另一个需要解决的问题是：关联点的权重估计问题。受当前比较流行的 Transformer 模型的启发，通过借鉴 Deformable DETR 网络的结构，他们设计出稀疏的 2D 点提取方式、以及权重的估计分支。

经过一系列的网络结构改进和参数优化，该团队最终在 nuScenes 和 LineMOD 数据集上取得了比较满意的结果，此次论文的主体部分也得以诞生。

由于该研究侧重于自动驾驶环境感知技术，因此该团队希望能将其集成在车载自动驾驶感知系统中。当然，他们在论文中也证明过，在已知物体的 6 自由度估计上，EPro-PnP 这一架构也具有良好的应用潜力。

因此，研究人员认为工业机器人领域中的物品识别与抓取、智能体的 3D 环境建模、以及其他涉及几何关系学习的任务，都是该成果的潜在应用场景。但是，当下基于单目的 3D 目标位姿估计的精度仍然有待提高，在一些对安全和精度有着较高要求的任务里，还无法实现直接应用。

不过，此次方法和其他方式的 3D 位姿估计方法、比如基于激光雷达等感知模态结合，将改善现有方法的稳定性和准确性。

在目标检测领域里，新成果可谓层出不穷，模型结构、学习方法等细分领域几乎每天都有新创意。田炜说，在网络模型对几何关系的学习领域，此次工作算是实现了一个小方面的突破，期间也借鉴和参考了不少现有工作。

后续，该团队将把 EPro-PnP 迁移到现有其他工作上，结合新的网络结构和学习方法进一步提升模型在 3D 目标检测以及物体 6 自由度估计任务上的性能。另一方面，其还考虑把几何关系学习任务与其他视觉任务相结合，建立更具有一般性的优化求解方式，从而提高模型的多任务处理能力。

田炜

表示，研究中令人印象深刻的是本项工作的主力成员——陈涵晟同学优秀的科研素养。该工作前后持续大概半年，并非预想得那么顺利，尤其是陈同学在多地之间的辗转。前期工作是该生在学校完成的，之后他又去了阿里实习，并在实习中继续推进，然后又回到学校继续完善。大部分时间里，工作都推进得很艰难，实验结果也不太理想。

在 CVPR 截稿不到 1 个月时，实验才基本完成，随后展开紧张的论文撰写和修改，最终完成投稿。此间，陈涵晟同学投入了巨大的精力，并和田炜在日常讨论中始终保持积极向上的心态。如今，陈涵晟在继续完成其研究生学位。

为您推荐