Geal由新加坡国立大学的研究团队进行。第一作者是博士生Lu ,相应的作者是学校的副教授Gim Hee Lee。该团队的其他成员包括Kong 和Huang 博士。
主页:
纸:
代码:
在现实世界中,如何让代理商理解和探索3D场景中的交互部分()对于机器人操作和人类计算机的互动至关重要。所谓的3D意味着该模型可以自动根据视觉和语言线索来推断对象可以提供的操作以及交互式区域的空间位置,从而为机器人或人工智能系统提供了解对象的潜在操作方法。
与2D任务相比,获取和高精度注释通常更加困难和昂贵,这使得大规模和高质量的3D注释数据非常稀少,并阻碍了新对象或场景中模型的概括。同时,现有的3D依赖于几何和位置编码来表征空间结构,从而使从外观语义中完全汲取上下文信息,因此在不准确的传感器,复杂的场景或处理错误等情况下,它更容易受到噪音的影响,从而使稳健性不足并难以响应稳定性,并在稳定地响应稳定的环境中响应了稳定的质疑。
为了克服标签和数据分布的局限性,一些工作试图将2D视觉模型或大型语言模型纳入3D场景的理解。但是,由于3D和2D的特性存在显着的模态差异,并且由于保留空间几何关系和纹理细节的局限性,直接停靠通常会导致交互区域的定位不准确,或者易于云噪声,因此很难在现实和复杂的风景中保持强大的和多功能性。因此,如何充分利用大规模预训练的2D模型中包含的强大表示功能,同时考虑到3D模式中的细节和结构信息的准确对齐,已成为改善3D效果的关键挑战。
为了应对上述问题,新加坡国立大学的研究团队提议的Geal(3D)可以使用2D基本模型在3D场景中对交互式区域进行准确的预测,而无需其他大规模3D数据收集和标记。具体而言,GEAL首先使用3D将稀疏点云转换为可在2D模型中处理的逼真效果,并通过跨模式一致性对准(交叉模式)有效地整合了2D视觉和3D空间特征,从而显着提高了该模型的通用能力,可以使多个对象和场景的通用能力提高。此外,该团队还构建了一个新的基准数据集,用于现实生活场景扰动,以全面评估模型的鲁棒性。实验结果表明,在公共数据集和各种噪声环境中,Geal比现有方法要好得多,为一般和鲁棒的3D提供了新的想法。
目前,GEAL已被CVPR 2025接受,并且纸张,代码和模型权重已公开。
2d-3d跨模式对齐
完整的3D交互式区域预测
如图所示,在Geal的整体框架中,我们通过2D分支和3D分支之间的协作将预训练的2D模型的强烈语义表达能力注入了稀疏点云的三维世界中,并通过交叉模态特征对准获得了更强的鲁棒性和更强的鲁棒性和概括能力。以下是关键步骤
使用3D呈现稀疏点云并有效地引入2D分支
考虑到三维数据通常存在问题,例如稀疏采样,昂贵的标签和严重的遮挡,我们在网络结构中建立了一个2D分支,并使用对大量的2D数据(例如)进行预先训练的愿景,以获取包含丰富的语义上下文和外观信息的多元透明图像功能,从而提供了更强大的先验和更加强大的先验和更具启发性的领域。由于该分支与3D分支并联,因此我们可以在以后的设计中灵活合并和对齐2D/3D功能,以避免由简单拼接引起的模态不匹配。为了允许预先训练的2D模型完全“查看”三维场景的纹理和遮挡信息,Geal使用3D技术来呈现点云。具体而言,我们通过混合栅格化和α-以深度,透明度和颜色信息来代表每个3D点,并以深度,透明度和颜色信息生成像素,从而获得更平稳,更现实的二维视图。这些视图不仅为2D模型提供了足以区分纹理和轮廓的语义特征,而且还为点云的几何结构建立了一对一的对应关系,在随后的跨模式步骤中,为特征对齐奠定了基础。
跨模式特征对齐
在两个分支上获得多尺度的2D/3D特征后,Geal通过粒径自适应融合模块( - ,GAFM)和一致性比对模块(CAM)实现语义与几何之间的双向比对。
晶粒尺寸自适应融合模块
有关在不同级别的2D和3D级别捕获的详细信息和全局信息,最相关的多元功能通过自适应重量聚合和文本指导的视觉对齐方式与用户说明融合。这不仅突出了目标部分与功能要求密切相关,而且还确保了整体场景的总体掌握。
一致性对齐模块
基于构造的像素点云映射,从3D分支提取的点云特征再次渲染到二维平面上,形成对2D分支的像素形成像素,然后在同一空间区域中的两者表示,通过一致性损失(例如L2距离)(例如L2距离)。该策略可以将2D分支的常见语义扩散到3D分支,还允许3D分支在几何维度中形成对2D特征的有益补充,最终实现了更准确的交互式区域定位。
鲁棒性数据评估
为了更全面地测试Geal在现实世界干扰环境中的性能,我们构建了基于常见PIAD和LASO数据集的多个扰动的数据。它涵盖了本地或全球随机损失,噪声注入,比例变化,抖动和旋转以及其他干扰场景,模拟了在复杂的感知条件下的实际挑战。实验结果表明,GEAL仍然可以在此基准测试上保持高精度和鲁棒性,从而证实了在噪声环境中三维功能区域预测的跨模式比对的关键值。
通过上述核心链接,Geal成功地将对2D模型的强大语义理解与3D数据的空间几何细节结合在一起,这不仅消除了大型3D标记的大型标记数据的依赖性,而且还显着提高了交互式领域预测的可靠性和概括,从而为3D提供了3D实现真实应用程序的新技术。
实验结果
为了评估GEAL在3D场景的交互式区域预测的总体表现,作者在主流数据集PIAD和LASO上进行了系统的实验。结果表明,与现有的最佳方法相比,GEAL的得分较高,并且在类别测试中仍然保持较高的精度,证明它具有良好的适应性,可以看不见对象形状和类别。该优势主要是由于2D语义先验的全面利用以及交叉模式一致性带来的2D-3D特征对齐,从而使模型能够平衡几何细节和语义信息。
为了模拟实际感知场景中的各种干扰,例如传感器噪声,局部丢失或随机旋转,作者还对新提出的数据进行了GEAL。结果表明,即使在高度不确定的环境中,Geal仍然可以稳定地预测交互区域并表现出极好的鲁棒性。这主要归因于大规模预训练模型中2D分支的抗干扰特性,以及通过一致性约束使用3D分支的有效信息传输。
与仅使用2D分支或3D分支的基本版本相比,在融合了双分支并添加CAM之后,看不见的类别和高噪声条件的精度得到显着提高。在进一步引入GAFM之后,在SEE和看不见的类任务中同时提高了准确性和IOU,这表明多元素特征融合对于捕获本地细节和全球语义至关重要。
总而言之,多个实验结果和消融研究已经验证了Geal的有效性:该方法不仅在常规数据集上显示出卓越的准确性和泛化能力,而且在实际干扰环境中仍然保持强大的稳定性,显示了跨模式对齐和双支线架构在3D场景互动区域预测中的强大潜力。
综上所述
综上所述,Geal通过双分支架构和3D的巧妙组合,不依赖大规模的3D注释,并实现了3D场景的交互式领域的准确预测,从而充分探索了大规模2D预训练模型中包含的丰富语义信息。这项成就为在机器人操作,增强现实和智能家居领域的三维互动区域的灵活性获取提供了新的想法,并且对于建立一般和强大的3D系统具有重要意义。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论