深度学习在3D视觉领域的挑战与机遇:从2D图像到3D点云的迁移学习
深度学习在3D视觉领域的挑战与机遇:从2D图像到3D点云的迁移学习
机器之心专栏机器之心编辑部随着深度学习技术的快速发展,数据驱动的方法已成为计算机视觉领域的核心。在过去的十年里,随着 ImageNet 诞生之后
在二维图像处理中,将经过预训练的模型应用于后续视觉任务,以提高模型性能,已成为一种常见做法。然而,在三维领域,由于数据获取的困难,尚未形成一套通用的解决方案。那么,三维领域如何打破这一僵局?
3D 数据难题
真实世界的三维数据扫描和标记过程颇为繁琐,而且三维数据集要么是人为构建的,要么其规模远不及二维领域。在二维图像领域,预训练迁移技术运用自如,但在三维领域,这一技术的应用却面临重重困难。大多数三维方法仅能在特定的数据集上进行训练和评估,用于解决特定的问题,比如利用合成物体的新视角进行合成,或者对某些数据进行物体分类和场景理解等。
通用数据集缺失

目前,3D视觉领域面临的主要难题是缺乏与2D领域优质数据集相媲美的通用数据集。现有数据要么不符合标准,要么规模不够。研究团队在认识到这一问题时,便着手开始创建新的数据集。

新数据集诞生
研究团队打造了一个全新的数据集,其中包含了超过八万个点云数据,这些数据覆盖了150个不同类别的真实物体。每个点云都附有相应的类别标签。团队通过视频中的物体分割、结构光三维重建和稠密重建等步骤,提取了物体掩码、相机参数以及点云数据等标注信息。随后,他们进行了数据清洗,去除了那些噪音多、点云稀疏的部分,最终形成了一个规模庞大的点云数据集。
迁移性能验证
在新的数据集上对自监督的多视图立体方法进行了预训练,然后将这个预训练的模型应用到了DTU数据集上,效果良好。与在DTU数据集上直接训练的模型相比,经过新数据集预训练的模型表现更佳,这种提升在量化对比中一目了然,充分体现了新数据集预训练的优越性。

视角一致性探索

人们可以从多个角度去认识物体,而深度学习模型却无法做到这一点。不过,新的数据集成功解决了这一难题。研究团队在图像分类、自监督对比学习和显著性物体检测等多个任务中进行了测试,发现得益于数据的多角度特性,使用新数据集进行预训练的模型在视角一致性方面表现优异。通过在新数据集上进行训练,分类模型的视角一致性得到了显著提升。
分类与基准测试
对新数据集进行了研究,发现其在点云分类和自监督点云预训练方面具有积极作用。预训练的点云分类模型在迁移到其他数据集时表现优异,而预训练的自监督学习方法在性能上甚至超过了现有最佳方法。研究团队在此基础上,推出了一个全新的真实物体点云分类标准测试。他们制作了包含64000个点云的训练集和16000个点云的测试集。这些集子的难度更高,也更加贴近实际场景。

新数据集对3D视觉领域的发展能起到多大作用,使其达到与2D领域相仿的预训练迁移成熟度?欢迎点赞、转发这篇文章,并在评论区交流您的看法!
