深度学习在3D视觉领域的挑战与机遇：从2D图像到3D点云的迁移学习

机器之心专栏机器之心编辑部随着深度学习技术的快速发展，数据驱动的方法已成为计算机视觉领域的核心。在过去的十年里，随着 ImageNet 诞生之后

在二维图像处理中，将经过预训练的模型应用于后续视觉任务，以提高模型性能，已成为一种常见做法。然而，在三维领域，由于数据获取的困难，尚未形成一套通用的解决方案。那么，三维领域如何打破这一僵局？

3D 数据难题

真实世界的三维数据扫描和标记过程颇为繁琐，而且三维数据集要么是人为构建的，要么其规模远不及二维领域。在二维图像领域，预训练迁移技术运用自如，但在三维领域，这一技术的应用却面临重重困难。大多数三维方法仅能在特定的数据集上进行训练和评估，用于解决特定的问题，比如利用合成物体的新视角进行合成，或者对某些数据进行物体分类和场景理解等。

通用数据集缺失

港中深分数线_港中深_港中深硕士国内承认吗

目前，3D视觉领域面临的主要难题是缺乏与2D领域优质数据集相媲美的通用数据集。现有数据要么不符合标准，要么规模不够。研究团队在认识到这一问题时，便着手开始创建新的数据集。

港中深分数线_港中深硕士国内承认吗_港中深

新数据集诞生

研究团队打造了一个全新的数据集，其中包含了超过八万个点云数据，这些数据覆盖了150个不同类别的真实物体。每个点云都附有相应的类别标签。团队通过视频中的物体分割、结构光三维重建和稠密重建等步骤，提取了物体掩码、相机参数以及点云数据等标注信息。随后，他们进行了数据清洗，去除了那些噪音多、点云稀疏的部分，最终形成了一个规模庞大的点云数据集。

迁移性能验证

在新的数据集上对自监督的多视图立体方法进行了预训练，然后将这个预训练的模型应用到了DTU数据集上，效果良好。与在DTU数据集上直接训练的模型相比，经过新数据集预训练的模型表现更佳，这种提升在量化对比中一目了然，充分体现了新数据集预训练的优越性。

港中深_港中深硕士国内承认吗_港中深分数线

视角一致性探索

港中深_港中深硕士国内承认吗_港中深分数线

人们可以从多个角度去认识物体，而深度学习模型却无法做到这一点。不过，新的数据集成功解决了这一难题。研究团队在图像分类、自监督对比学习和显著性物体检测等多个任务中进行了测试，发现得益于数据的多角度特性，使用新数据集进行预训练的模型在视角一致性方面表现优异。通过在新数据集上进行训练，分类模型的视角一致性得到了显著提升。

分类与基准测试

对新数据集进行了研究，发现其在点云分类和自监督点云预训练方面具有积极作用。预训练的点云分类模型在迁移到其他数据集时表现优异，而预训练的自监督学习方法在性能上甚至超过了现有最佳方法。研究团队在此基础上，推出了一个全新的真实物体点云分类标准测试。他们制作了包含64000个点云的训练集和16000个点云的测试集。这些集子的难度更高，也更加贴近实际场景。

港中深分数线_港中深_港中深硕士国内承认吗