英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来

进不了网站?换个网络试试!

他首先向世人展示了搭载全新架构的新一代卡RTX 5090,随后介绍了对人形机器人研发的期望和投入,最后以一幅令人印象深刻的画面结束——

“G1 是 现场唯一的轮式大型机器人,它慢慢地举起了 RTX 5090。”

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图

发布会结束后,黄仁勋首次前往银河环球所在展区,与机器人进行了实景互动。

一时间,数字智能与物理智能融合、AI基础设施与AI模型硬件协同发展、科技巨头与超级创投公司联手,释放出前所未有的科技活力。

全世界的目光都集中在,是什么让这位“AI教父”如此执着?为什么这家公司是唯一一家被寄予万亿级巨头厚望的公司?

具身智能无疑在当今的技术变革中发挥着核心作用,深刻影响着人类社会的发展和变革。

对于实体智能来说,“数据瓶颈”被业界公认为是亟待解决的最大挑战。一些团队认为实施和自动驾驶主要依靠真实的机器数据,而另一些团队则认为需要采用大规模视频数据学习策略。来自世界各地的研究团队持有不同的观点。

时至今日,国内外众多研发团队已经发布了数百万的实机数据。然而,对于真实机器数据应该采集到什么规模、多样性如何、机器人硬件迭代后如何跟进数据等问题,目前仍然没有明确的答案。

今天,星河将军联合北京大学、北京致远人工智能研究院(BAAI)、香港大学的研究人员,正式发布了全球首个端到端具身抓取基础模型。

作为全球首个完全基于模拟合成大数据预训练的体现大模型,其在真实场景中表现出比π0、RT-2、RDT等模型更强的泛化能力和实用潜力。

作为全球首个完全基于模拟合成大数据预训练的体现大模型,其在真实场景中表现出比π0、RT-2、RDT等模型更强的泛化能力和实用潜力。

伴随发布的还有团队总结的7个体现基础模型的泛化“黄金标准”,分别按照、、、进行分层。这些标准包括:光照泛化、干扰物泛化、平面位置泛化、高度泛化、背景泛化、物体类别泛化、闭环能力。

各公司此前发布的模型中,RDT初步展现了泛化背景和类内物体的能力,π0、GR-2等进一步展现了泛化干扰物和平面位置的能力。

今天,我们率先实现了多种能力的泛化,并为以模拟和合成大数据为核心的实体化大模型的开发创造了新的范式。

VLA预训练可以推广吗?该团队给出了七项黄金标准

该团队表示,虽然近年来爆发的大规模体现VLA模型在泛化方面取得了一定的进展,但长期以来一直没有产品。原因是从实验室到实际工作场景,模型很难穿越各种环境。因素动态变化的多重检验。团队认为,我们不仅要关心任务能否顺利完成,更要关注任务能够成功完成的条件。

的研发团队向我们展示了该模型的以下泛化能力的综合评估:

1. 光照泛化

在银河将军带来的大型模型作品演示中,我们看到模型可以在明亮、极暗甚至剧烈变化的光照条件下准确执行抓取任务:

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图1

在更极端的情况下,团队允许模型将目标物体从亮处移动到暗处,甚至几乎完全黑暗。大模型实时观察到目标物体的运动后,立即驱动机器人移动到移动的位置。抓取展示了大型模型在极端光照条件下的强大适应能力和执行能力。

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图2

2. 背景概括

还展示了大模型在不同背景环境下的适应性,包括红色桌布、星空图案等场景。

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图3

发布的视频还指出,采用双视角作为输入,我们看到的视频图像对应于机器人正前方摄像头的视角。

当背景快速动态变化时,模型仍稳定执行任务,不受任何干扰,展示了大型模型对动态环境中背景变化的强大适应性。

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图4

3. 平面位置概括

团队展示了在平坦表面上的任何位置抓取目标物体的能力,无论是在一堆物体的中间还是在餐盘上。

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图5

4. 高度通用化

在演示模型对高度的泛化能力时,银河将军团队要求银河将军团队抓取放置在不同高度的球并稳定地抓住它们:

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图6

5. 动态干扰泛化

工作时,将物体随意扔进工作空间进行干扰。即使击中目标物体,也不会影响其顺利完成指令。

我们可以看到,在左上角的视频中,抓取目标即使在桌面上剧烈旋转,也能定位到;左下角的视频中,目标物体胡桃夹子至少被击飞了3次,而且每次都明显是立即进行的。调整。

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图7

6.闭环动作输出,不同姿势不同抓取方式

抓取时,即使目标物体被人为移动,甚至从站立变为跌倒,也可以实时调整动作,完成抓取:

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图8

7、新物体零样本抓取

在机器人领域,人们认识到使用模拟合成数据来训练模型存在差距问题。不过,银河将军强调,上述测试中使用的所有物体和环境均不涉及任何训练。

此外,即使是合成动作数据中从未出现过的类别,只需与互联网图像和文本数据联合预训练,也可以在抓取能力上进行准确识别和泛化:

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图9

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图10

快速调整新产品需求?显示底座大模型的属性

经过上述七个黄金标准的测试,研究团队充分展示了全球首个端到端爬行大模型的零样本泛化能力。

众所周知,基础模型的另一个重要属性是能够通过少量样本快速契合新的用户需求。

研究团队表示,在机器人模型的实现过程中,不同的场景会有不同的特殊需求,因此他们采用了超市、工厂、家庭三个场景中的典型场景,进一步测试其快速适应和迁移能力。

1、迅速遵守规定,“举一反三”

团队以超市场景中从箱子中顺序取出货物为例:虽然可以轻松拾取指定的货物,但由于工作区中有多个相同的货物,模型不知道应该先拿哪一个:

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图11

为此,研究团队收集了少量的顺序捕获数据(不到一个人一天的远程操作),轻松理解了“顺序”的要求,充分展示了基础模型的快速学习能力:

研究小组进一步研究了这种能力在训练后分布外情况 (OOD) 中的泛化能力。

虽然只采集了怡宝的数据,但顺序抓取行为被自动迁移到其他品牌饮料(东方绿叶、农夫山泉)上,对不同颜色、瓶盖尺寸的瓶子按照放置顺序进行抓取。不同的同类产品充分验证了基础大模型的泛化能力。

2.快速掌握新词汇,拓展新类别

将大型模型应用到工业场景中时,一个重大挑战是识别这些行业特有的特殊部分,即根据这些罕见词找到对应的对象。

银河通用汽车的研发团队发现,虽然预训练的模型可以轻松抓取任何零件,但它经常“抓取错误的零件”。例如,当指定“抓取窗口控制器”时,模型将抓取接线支架:

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图12

团队进一步收集了少量轨迹进行快速后期训练,让他们快速掌握底座、面板、黑管等特殊工业术语。

结合预训练过程中对物体平面位置放置的概括,模型很快学会了从任何密集放置的场景中准确找到对应的部分:

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图13

3. 快速符合人类偏好

在家庭场景中,用户会对机器人的行为有特定的偏好。例如,经过预训练的机器人虽然可以按照指令拿起装有牙膏和牙刷的杯子,但它会撞到内壁。

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图14

同样,通过收集少量具有用户偏好的抓取轨迹,我们可以“理解”抓取洗漱杯时,不能触及杯子内壁:

英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI未来插图15

从以上三个典型应用场景来看,它不仅“强”,而且“听懂人类语言”。

在新的场景中,您可以直接部署预训练的对象来轻松实现对象抓取。并且满足用户新的需求,只需要少量的数据就可以快速调整。有了这种能力,无论何时何地需要部署,机器人都可以在人类简单的“引导”下快速“上岗”。

这充分展现了银河通用团队提出的“大规模合成数据预训练”范式在商业落地上的潜力。

综合大数据驱动的VLA预训练新范式

希望看到能够托起未来世界的人形机器人,让这些机器人能够自主执行各种复杂的任务,并具备泛化能力。然而,这一雄心勃勃的目标在过去的主流数据收集范式下面临着两大瓶颈。

瓶颈一:数据昂贵且稀缺。机器人技术的核心问题之一是大规模、高质量数据的获取。现有的训练数据采集方法人力成本高、资本支出大、采集周期长。此外,机器人硬件仍在快速迭代。即使在现有硬件上以高成本收集大规模数据,它也可能很快变得过时且与最新硬件不兼容,从而导致数据缺陷和沉没成本。

瓶颈二:技能的通用性和通用性不够。受物理条件限制,真机数据采集往往无法覆盖所有可能的实际应用场景,导致训练好的模型难以泛化。因此,目前很多机器人只能在特定的环境条件和特定的物体下完成任务,缺乏适应新环境的能力。

银河将军表示,取得今天令人惊叹的成绩,与团队多年研究合成模拟数据的经验以及对使用合成模拟数据的坚持密不可分。

为了突破上述两大瓶颈,银河将军团队率先开发了用于端到端VLA模型预训练的全模拟合成数据生产流水线,并基于Isaac平台,进一步提高了物理真实性和数据的准确性。物理渲染并行性。

这条数据生产流水线可以在短短一周内生成全球最大的十亿级机器人操作数据集。不仅大大降低了数据生产的时间成本、人力成本、资金成本,还广泛提高了数据在各场景的覆盖范围。如此规模和质量的数据是强大捕获和泛化能力的先决条件。

此次发布所展现出的强大泛化能力和高效对齐能力引发了我们的思考:该路线所展现出的全方位优越性是否会改变业界对仿真合成路线的看法,打造合成大数据驱动的VLA?预训练的新范例?这是否意味着大规模仿真合成数据预训练将取代现有高成本的人工采集方案,引领体现大模型的发展进入新时代?

银河将军还透露,联合研发团队在过去的一年里在导航VLA模型(NaVid系列模型)的研究上也取得了重大突破,并将陆续演示和介绍该系列导航VLA模型的泛化能力和涌现现象。

团队表示,他们将继续整合团队多年的积累,推出一款全面融合抓取与释放、关节物体操控、灵活物体操控等多种技能的全方位大型模型。他们将继续走使用模拟合成数据作为预训练唯一来源的道路,以确保所有大型模型都能以最小的成本快速进化,迈向实体智能领域的下一个高峰。

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论