光轮智能与清华AIR、同济大学联合提出PUGS方法:零样本物理属性重建助力机器人操作

进不了网站?换个网络试试!

了解对象的物理特性对于机器人执行操作非常重要,但是应该如何实施?

智能联合提出了一种基于3D高斯溅射的方法,该方法与 Air, 和其他机构 -

哈巴狗(零射)

如果没有训练,则可以从多视图图像重建对象,并深入重建各种指定的物理属性。

该论文已被ICRA 2025接受。

光轮智能与清华AIR、同济大学联合提出PUGS方法:零样本物理属性重建助力机器人操作插图

在非结构化的环境中,准确地了解对象的物理特性不仅可以帮助机器人更好地计划爬行策略,而且还可以避免因误解而导致的操作故障(例如由于努力过多而损坏对象的损坏)。

现有方法包括使用NERF重建对象并组合视觉语言模型(VLM)和大语言模型(LLM)来预测物理属性。

但是,这种类型的方法存在分散的预测结果和不合理的物理属性的问题。

研究小组使用3D高斯溅射作为重建表征,并引入了区域感知功能,以增强区域差异的能力。

在此基础上,将基于VLM和基于特征的属性传播的物理属性预测结合可以实现更好的对象重建和更合理的物理属性预测结果。

为了维持重建结果的几何一致性,研究团队还引入了正则化损失和几何感知的稀疏损失,以确保高斯分布与物体的实际空间形状分布一致。

高斯溅射 +视觉模型以了解物理特性

PUGS框架分为三个阶段:基于视觉语言模型(VLM)的形状和区域感知3DGS重建,物理属性预测以及基于区域特征的属性传播。

对于物理属性(例如质量),还包括一个高斯体积积分模块,以获得总体物理属性结果。

光轮智能与清华AIR、同济大学联合提出PUGS方法:零样本物理属性重建助力机器人操作插图1

哈巴狗以对象的多视图图像为输入,并允许预测对象属性(例如密度,硬度系数,Young的模量等),最终输出是包含对象的重建结果,其中包含该对象的结果对象的RGB信息。和任何位置的物理特性。

3DGS形状和区域知觉的重建

PUGS首先使用3DGS从多视图RGB图像重建对象。

但是通常会发生原始的3DG重建,这导致重建结果细节的性能不佳以及几何准确性问题。

研究团队提到了现有的方法来引入正则化损失和几何感知的稀疏损失。损失条款如下(如果显示不完整,请左右滑动):

其中,它是图像中的一组像素,它是图像梯度归一化为0到1的。

这是一个基于像素点的局部平面计算得出的正常矢量,这是一种基于PGSR提出的无偏深度渲染的正常矢量,并且是每个高斯的不透明度。

这是几何感知的正则化损失,这是一个稀疏的损失。

前者以两种不同的方式呈现正常图,并鼓励输出尽可能一致,从而确保高斯分布与物体的实际空间形状一致。

后者鼓励每个高斯不透明度接近0或1,从而减少了中间结果的存在。

在引入定期损失几何感知( - 意识损失,garl)之后,它可以有效地减轻问题并提高几何形状的准确性。

光轮智能与清华AIR、同济大学联合提出PUGS方法:零样本物理属性重建助力机器人操作插图2

此外,哈巴狗还引入了区域感知功能比较损失,并通过比较学习训练高斯分布的特征,以便它可以区分对象的不同区域。

在现实生活中,物体表面上可能存在不同的材料,例如金属,木材,塑料等,这些材料通常出现在物体上的不同区域。

区分区域有助于提高物理属性预测的准确性。

研究团队首先向每个人介绍了一个新的可学习功能,并从不同的角度呈现特征图,然后使用SAM分割多视图图像以区分对象的不同区域。

之后,使用对比度学习对该功能进行了训练。损失函数如下:

其中,指示两个像素是否属于同一区域是特征空间中两个像素点的余弦相似性。

从直觉上讲,如果两个像素点属于同一区域,那么特征空间中的余弦相似性就越大,反之亦然,越小,越小。

光轮智能与清华AIR、同济大学联合提出PUGS方法:零样本物理属性重建助力机器人操作插图3

基于VLM的物理属性预测

重建阶段完成后,PUGS使用视觉语言模型(VLM)执行零样本的物理属性预测。

两阶段方法用于预测物理属性。

它首先通过VLM从对象的图像中预测对象的文本描述,然后将文本描述输入到LLM中以预测材料和物理属性。

与多视图图像中的图像中,PUGS直接使用VLM来预测图片的材料和物理属性,从而避免了图像转换过程中信息丢失。

在此阶段,VLM输出的结果包括对象的可能材料,以及这些材料的物理属性范围等。

这些属性将通过剪辑功能在后来传播到重建的3DGS。

基于区域特征的属性传播

为了将预测的物理属性传播到重建结果中,PUGS使用剪辑功能作为映射和使用区域感知特征作为属性传播的基础。

首先,研究团队将3DG的一些高斯点随机采样,并计算了与这些点所预测的贴片相对应的夹子特征。

这些特征是与上一个阶段获得的候选材料计算出的相似性,以将不同的材料分配给相应的点。计算方法如下:

其中,它是点的物理属性值,点的夹子特征和候选材料的夹子特征之间的余弦相似性,这是温度参数。

光轮智能与清华AIR、同济大学联合提出PUGS方法:零样本物理属性重建助力机器人操作插图4

为了完成密集的物理属性预测,研究团队使用区域特征作为属性传播的基础。计算方法如下:

其中,高斯和高斯分别具有区域感知的特征。

基于区域感知特征的属性传播方法使物理属性预测结果更加均匀和准确。

高斯音量积分

通过上述三个阶段,哈巴狗可以完成对象的重建和密集的物理属性预测,也就是说,可以在对象表面上的每个点获得相应的物理属性。

对于物理特性(例如质量),PUGS提出了一个基于高斯体积集成的模块以执行计算。

以对象质量为例的预测,通过上述阶段,毒爪可以获得与每个3D高斯点相对应的物理属性,即密度值。

之后,每个3D高斯被认为是3D椭圆形,它是由其不透明度加权的,并根据预测的密度值进行计算,以获得对象的初步体积预测。

此初步卷预测结果是无错误的,因为3DGS重建结果通常仅模拟对象的表面,并且对象的内部显示空隙。

为了进一步提高准确性,帕格介绍了“纯”的概念,这意味着在通常的意义上,忽略空心区域后的物体体积通常比物体的体积小得多。

哈巴狗使用VLM获得对象的纯度并纠正最终预测结果。

预测准确性大大提高了

定性结果表明,材料预测显示出不合理的情况,例如碎片化,而哈巴狗的预测结果更准确,更合理。

光轮智能与清华AIR、同济大学联合提出PUGS方法:零样本物理属性重建助力机器人操作插图5

在对象抓住实验中,Pugs准确地预测了包裹在棉布上的年轻模量(0.5+GPA),从而使机器人的持有人可以成功地抓住适合的开口尺寸的物体。

相比之下,对象的年轻模量(30+gpa)是错误预测的,从而导致夹具开口接近物体宽度,并最终无法抓住。

光轮智能与清华AIR、同济大学联合提出PUGS方法:零样本物理属性重建助力机器人操作插图6

研究小组还对ABO-500数据集的对象质量估计进行了实验,并将其与结果进行了比较。哈巴狗在多个指标上表现更好。

光轮智能与清华AIR、同济大学联合提出PUGS方法:零样本物理属性重建助力机器人操作插图7

此外,研究团队还对上述哈巴狗的不同模块进行了消融实验,包括几何学感知的正则丧失,区域感知的特征训练以及高斯体积集成模块。结果表明,这些模块都有助于改善定量结果。

其中,不仅对ABO-500数据集的总体改进,而且对具有特殊特征的某些对象的改进更为明显。

下表中的a是指某些对象的子集,该对象在ABO-500中具有更精细的结构,而B是指具有多个区域和材料的对象的子集。

这意味着几何感知的正则化损失对具有精细结构的物体具有更大的改进,而区域感知模块在区分多种材料和区域方面更有效。

光轮智能与清华AIR、同济大学联合提出PUGS方法:零样本物理属性重建助力机器人操作插图8

简而言之,哈巴狗不仅可以准确地重建对象的几何形状,而且还可以保持物理属性预测的材料一致性,这对实际机器人应用至关重要。

同时,重建结果也可以用作针对其他相关下游任务的重建资产的重建资产。

纸张地址:

项目主页:

本文来自由36KR出版的《 Quugs Team》的微信公共帐户“量子位”,PUGS项目团队。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论