港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?

进不了网站?换个网络试试!

香港中文大学(深圳)有位叫韩晓光的助理教授,其属下实验室称作GAP,意即像素、点与多边形的生成与剖析,时至今日,这般称谓,亦暗指他企望将真实界域与虚拟界域之间的“豁口”予以弥合之意标哩。 句号。

2018年,韩晓光加入了这所大学,那时他是当时仅有的专注在计算机图形学研究方面探索钻研的教育授课工作者人员。2024年,他试着朝从三维重建一路延伸拓展推进转变到达具身智能与世界模型领域范畴,这一回又好似进入到没有其他人前行涉足、如同身处无人之境地般的状态。

有个账号@韩晓光,在小红书上,其简介就两行,是港中深理工学院助理教授、图形学与三维视觉 。他把小红书既当成传播平台,又当作个人思考的整理之地 ,会公开探讨“显式3D是否还有必要”、“世界模型为何需要可解释性”等专业问题 ,还会记录跟学生讨论时得到的启发 。

这类直接且平实的分享,吸引了一批对技术本质怀有兴趣的读者,这同时也代表着韩晓光这类青年教师群体打破学术边界的自觉实践行为。从某种视角来看,构建世界模型要理解真实世界的运行逻辑,而他的线上互动,其本身就是一场持续开展的、小规模的“世界模拟”活动。

按韩晓光所讲,他的研究演进属自然而发,先是三维重建,再到动态生成,而后是服务于机器人的虚拟环境构建,其核心一直都是“三维内容的生成与理解”。

就在前段时间,他于2025年10月的国际计算机视觉大会,即ICCV上,和三十多位来自学术界以及工业界的研究者见面了。他们交流了诸多内容,涵盖视觉内容生成是否需要3D,视觉内容生成怎样达成物理真实,学术界到底还应不应该做视频生成,三维数字人有无继续做的必要,具身智能数据该选取哪条路线,具身触觉感知的必要性以及现状如何,学术界如何开展具身智能研究,三维生成的架构采用AR还是别的什么?

但是实际上,这些细微的问题,全都指向了一个重大的问题,那就是:我们距离一个真正能够理解世界运行规律的人工智能,到底还有多么迢遥的距离呢?

在过去的一年当中,整个行业于“世界模型”的热潮里,展开了集体探寻与路径分歧,有人确信,数据跟算力最终将会炼造出无所不能的模型,然而也有人坚决主张,一定要给AI注入人类能够理解的结构以及逻辑。

韩晓光说,他要做后者。

近些日子以来,处于雷峰网所举办的第八届GAIR全球人工智能与机器人大会的现场当中,身为韩晓光教授的他,进行了一场主题被称作《3DGen:人类安全感之战》的分享,以下便是他该次演讲的相关内容,雷峰网对此做了没有改变原本意思的编辑处理 。

01

三维生成发展历程

我今儿要讲的是三维生成,适才几位嘉宾提及了数字人,提及了视频生成,还提及了具身智能,当下我们谈及三维生成之际,大伙会联想到啥呢?要是身为这个领域的研究者,没准会想到腾讯混元3D生成。

首先,我想梳理一下三维生成的发展历程。

事实上,于深度学习兴起以前,三维生成的观念已然存在。那时便有诸多研究者思索:深度学习既然能够出色地生成图像,那么可不可以生成3D内容呢?

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图

于是,最开始的方向便是去试着从单个图像生成三维模型,确切来讲三维生成在较早阶段主要着重于“类别限定”,这意味着什么呢?就是针对椅子、车辆、角色、头发、人脸、人体等不一样的类别,各自训练一个模型。那个时候还不存在“大模型”的观念,不过深度学习模型已然被广泛运用。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图1

然而,“开放世界”的三维生成,大概是从两、三年之前(也就是2023年前后)的工作起始兴起的。那时,我们能够借助优化的办法生成3D模型,不过速度偏慢,一般需要一两个小时。在这个阶段,伴随等文本到图像模型的成熟,研究者着手探索是否能用文本直接生成3D模型,这便是“文生3D”,我们称其为开放世界生成,缘由是它不再受类别约束,任何文本均可生成相应的3D模型。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图2

在随后那段时间当中 ,有许多以“”作后缀的研究工作冒了出来 ,这些均是后续的一系列进展 。这些工作全都致力于去提升文本到 3D 的生成成效 ,然而大致都是基于优化方法 ,生成速度比较慢 ,一般是需要半小时到一小时才能够产出一个模型 。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图3

而现在,我们进入了大模型时代。

起先,Adobe推出了个名叫Large Model的模型,此模型借助海量数据训练,可以从单张图像中重建三维模型。接着,最早是上海科大在Clay这项工作里,率先把“原生模型”的概念给提出来了。发展至今,我们已然见到了诸如“混元3D”等好多商业公司及软件,这类应用已经相当多了。如今,比如混元3D的3.0版本,你随意输入一张图片,它确实能够生成一个在普通人眼里几乎没啥瑕疵的三维模型。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图4

02

三维生成发展趋势

接下来,我打算分享前沿方向,这前沿方向是当前业界所关注的,是关于三维生成的,还涉及相关的发展趋势 。

首先更为精细,这代表着我们得于几何方面达成极度 ,致使生成物体表面的几何讯息极为丰富厚实,比如说就犹如数美全部事物一类的像 Spark 3D 这样的方式。

另一个关键的趋势是具备更强的结构化特性,在游戏这类行业当中,一个三维模型常常需要被分解成各异的部件,像是衣服、身体、头发必须要分开,以此让设计师能够展开独立的编辑,要是生成模型是用于3D打印或者制造,那么这种结构化的分解就显得更加不可或缺,因为现实世界当中的物体本身就是由多个部件组合而成的,混元3D的“X-Part”工作便是一个实例,它能够生成游戏角色并且把其各部件合理地拆分出来。

第三个方向呀,是要更对齐,当下呢,商业软件能够依据一张图去重建三维模型的,可是呀,倘若你细致留意查看的话,那生成的结果跟输入的图像常常是有着细节不相对应的状况呢 ,好比说哈,一张图里头的栅栏有着五条横杠,然而生成的模型里没准就变成了六条横杠啦,这可是当前生成模型所固有的一个难题哟,我们组开展的一项工作呢,就是专注于去解决这个“对齐”方面问题咯,力争促使生成的三维模型在结构层面上与输入的二维图像达到严格的对应呢。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图5

03

三维生成的尴尬

三维生成直至如今的发展流程,上边我已做了简略的梳理,可是,三维生成一直都面对一种让人为难尴尬的情况,特别是在视频生成这项技术问世以后。

这个尴尬是什么呢?

我觉得大家或许都有过玩游戏或者看过CG动画电影的经历。在传统样式的游戏或者动画制作里头,塑造一个角色要经历很是繁杂的流程。在这里我给出几个实例内容:最先要有观念设计以及草图,接着依据草图开展3D建模,这项工作又涵盖低模与高模的打造、拓扑结构的优化,随后还得做纹理贴图、骨骼绑定、制作动态画面,最终再来实施渲染。可是你会发觉,即便中间的进程极为复杂,包容了数量众多的三维工作,最终的呈现样式依旧是视频 。

这就是尴尬所在。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图6

视频生成出现后,像Sora这样,只需一个文本指令可直接输出视频,中间完全跳过所有繁复的三维流程,这对我们图形学专家、游戏从业者以及三维生成领域的人而言,无疑是一次冲击。

诸多同行,其中也涵盖我自身,都曾有过一时间的怀疑:于视频生成这般强大的时代状况下,3D内容创作是否仍具备存在的必需性呢?

这的确是近期之内,行业范围之中,众多人士予以关注,并且展开讨论的问题哦。然而呢,三维生成自身具备着一种“求生欲”,我们是不会轻易就被取代掉的哟。这种“求生欲”乃是源自于我们察觉到视频生成技术现阶段所存在的一些核心方面的局限呀。

首先呢,物理方面存在着不够真实的情况,视频生成这一行为,在模拟那些复杂度较高的物理交互以及长期保持一致性方面,仍然存在着一定的困难。

其次啊,存在着3D空间的情况不一样,物体呢,于运动期间的形态以及透视,有可能呈现出不合理的变化。

内容可控性不足是最为关键的一点。举例来说,我期望将生成视频里的一个玻璃杯变换成特定的形状或者颜色,在传统的三维流程当中,这属于轻而易举就能达成的编辑操作,然而在仅仅依靠文本驱动的视频生成里,当下要实现这种精细且可控的修改仍旧存在困难。

这些发现,使我们再次获得了信心。视频生成目前还无法达成这些,这表明,基于三维的、结构化的、可编辑的内容创作流程,依旧具备不可替代的价值。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图7

然而,真正的危机依旧存在,我们不是讲视频生成“不可控”嘛,但是今年,Sora2 和谷歌的 Veo3 相继面世,它们已然展现出了初步的“可控”能力,至少,可控的雏形已经呈现,这种可控性体现于何处呢,比如,我能够控制视角的改变,生成的并非只是一个固定视角的视频,而是能够进行交互,如同玩游戏那般切换画面,达成场景漫游,虽说这还只是粗糙的可控,然而真正的危机感已然降临。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图8

于是,一大串根本性问题呈现在我们眼前,视频生成模型真的无需3D吗,这是其中一个问题 。

针对这个情况,我向好多业内的人士询问过 。好多从事 3D 工作的人员觉得,视频模型或许仍然是需要 3D 的 。然而,好多做视频模型的人员却感觉到不需要 。那么 ,到底需不需要呢 ?

也许我没办法给出确切的答案喔,不过呢倒能够梳理一番思路哒。依我看呀,当下的视频模型面临着两个核心难题呢,这两个难题好像还没有寻觅到那种堪称完美的解决方案哟:

细节能够被控制:就如同之前我所讲的那样,你制作出了一段视频,然而,可不可以精确地调整视频里人物的脸型、改变其衣着以及变换发型呢,于此刻而言,这种针对细节的精准把控依旧是极为困难的。

长程记忆:当下所生成的视频,其长度会受到限制,像一两分钟这种情况是较为常见的。然而,不妨去想象一番,要是生成一个用于室内漫游的视频。当你进入一个房间后又离开,随后再度回到这个房间时,模型极有可能会“忘记”房间原本的模样,所生成的内容会与之前出现不一致的状况。如此便表明,模型欠缺对于已生成内容的持久记忆。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图9

那么,视频模型究竟是不是真的需要3D呢?存在这样要解决的状况情况就是上述提到的“细节可控”以及“长程记忆”这些问题,3D说不定没准大概应当有可能或许会能够提供出一种相关方向思路来。借助运用使用利用采取3D这种方式方法,大概也许大约可能大致近乎大略可以划分归类分为四种路径:

首先是第一种情况,即丝毫不使用 3D 。这属于当下主流的端到端范式,也就是输入一个条件,比如文本,借助一个规模庞大的神经网络,直接输出视频。整个过程完全是二维的,依靠海量的视频数据来进行训练。这同样是现有视频模型的基本逻辑 。

再者,采用3D仿真当作“世界模拟器”,我们要晓得,3D仿真自身就在试着搭建一个世界模型,只是当下仿真成果还不够逼真。那么,能不能把它作为首要步骤:先依据用户输入的条件(像文本),借助3D仿真引擎生成一段CG视频(比如游戏画面或者动画)。这段视频是高度可操控的,然而问题在于它不真实,有着显著的CG感。所以,能够在其后面接入一个神经网络,专门用来把CG视频“转变”为看上去真实的视频。

第三种,把3D信息当作控制信号来输入。鉴于纯视频生成没办法控制,那么能不能将3D信息作为额外的控制条件,注入到生成网络当中呢?其框架是:在输入生成条件之际,同样输入3D与信息。比如,要生成一个室内漫游视频,能够先对室内场景展开三维重建。这个重建而成的三维模型,自身就充当了一种“记忆”,记录了场景的空间结构。基于这个三维记忆,再去生成漫游视频,就有实现更长的、空间一致的视频内容的可能性。

第四种,借助3D合成数据用以辅助训练。第一种2D“端到端”范式,其最大瓶颈在于欠缺高质量且可控之训练数据。网上视频数据虽数量繁多,然而却无法加以控制。那么,是否能够运用3D仿真技术,以此批量生成大量可控且带标注的视频数据呢?随后利用这些合成数据,将其作为训练信号或者损失函数的一部分,用以引导并增强纯端到端的视频生成模型。

04

世界模型需要3D吗?

回转至我们今儿个的主题“世界模型”,当下一旦谈及世界模型,好多人会径直联想到视频模型。

这里存在着一个具有根本性的问题,我们基于何种缘由要去做那个世界模型呢,之所以如此是源于我们需要对虚拟世界予以还原或者进行数字化处理,视频是对世界展开的一种数字化记录方式,3D又是另一类形式的数字化呈现,那么,世界模型到底有没有必要具备3D呢?

要回答这个问题,首先要厘清“世界模型”是什么。

我觉得呀,世界模型的关键起始点呢,在于把我们身处的真切世界予以数字化,以此拿计算的路径去领会以及表述当中所蕴藏的规律 。有了这般模型之后 ,我们才得以去开展预测呢——这可是世界模型极具关键意义的一项功能哟 。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图10

在我看来,世界模型大概可以分为三类:

第一类,乃是服务于“人类共同体”的宏观世界模型,这实际上是我们人类一直以来在做的事情:全力试图去“窥探天机”,从古代的司天监对天象进行观测,到现世的天气预报、全球气模拟,进而到探究生命科学寻觅自然规律,甚至从某种“造物主”的视角出发去推导文明、社会的兴衰以及有可能出现的灾祸,我们在努力尝试理解并提前料到这个物理世界和社会系统运转的根本规律,然而,这也许不太算是当前AI应用场景下“世界模型”探讨的关键要点。

第二类,是针对“个人”的体验以及探索模型所服务的。我们每一个人,打从一开始就有一种处于最深处的需求,那就是探索未知。然而,人类个体是渺小的,我们没办法凭借自身到达世界的每一处角落,进一步讲,更没办法触碰到想象的边界。所以,我们需要一个虚拟世界。试想一下,要是能够如同《头号玩家》那般,戴上VR设备,便可以在家中全情投入地游览世界的任何地方,不管是真实世界的数字复制版本,还是人类完全凭创造而生的幻想之境。这样一种有深度、具备个性化的体验,是驱使我们创建虚拟世界的核心动力当中的一个。

那个虚拟的世界当中,我们所需的规律是怎样的呢?核心在于可交互性质。你不但得看,不但得听,而且还得能够去操作、漫游,甚至于能够感受得到触觉的反馈。若要构建出如此这般可交互的虚拟世界,那么我们必定得对其中数量众多的物理以及交互规律展开研究并进行数字化 。

这引出了世界模型的第三类,这一类是当前讨论最多的,它是给机器用的世界模型。

例如,应用于自动驾驶汽车或者具身智能机器人领域内。此系一个属于“具身”概念的世界模型实例。就拿自动驾驶来说事儿,当汽车要做出某个动作,像是变道、转动方向盘之类的时候,它得依据这个动作做出判断,借此预测世界,也就是周围环境以及其他交通参与者接下来将于运行进程中发生何种转化情况。这便是此世界模型在增强机器智能这一方面所发挥的关键性作用了。

考虑通过上述三类情形,要达成能够实现交互功用的世界模型,三维空间好似是必要性的条件。再列举虚拟现实技术的实例,要是仅存在视频模型,当你转动视角或者开展操作之际,它能够给予你视觉方面的反馈。然而当我们进一步要求获得真切的触觉反馈,以此去感受物体的大小、形状以及质地之时,就必定得依赖对于三维空间精准的理解以及建模。所以说,在具备可交互需求的状况之下,三维空间是不可缺少的。

05

具身智能需要3D吗?

接着这个话题,就关联到,具身智能是否需要3D?

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图11

即便我这方面研究程度不深,然而当下的主流做法是朝着人类去学习。人类制造人形机器人的缘由在于期待它能够全面达成人类所能做到的全部事情。所以,若要朝着人类学习,我们就必定得探究人类是怎样与世界进行互动的:类似要明确怎样拿杯子,怎样倒水,怎样做饭。而要探究这些内容,首要步骤便是针对人类与物体的互动进程予以数字化。举例来说,左下角所呈现的示例展现了人手抓取物体的进程。只有对这种互动实施十分精准的、动态的捕捉以及还原,才可以深入领会人手操作的内在运转原理。从这个角度看,3D乃至4D的还原是必要的基础。

其次,要是不借助人类示范来学习,那我们能够让机器人于真实或者仿真的世界里主动去探索,恰似人类依靠实践以及强化学习以此推动智能发展那般。然而促使机器人在物理世界中毫无限制加以探索是艰难并危险的。所以,我们需要仿真环境。这必定要求我们具备创造以及生成可交互三维场景的能力。有这样的虚拟场景的情况下,机器人方可在其中安全且高效地开展大量试错以及强化学习。从这个层面来看,具身智能同样离不开3D。

除去这些“虚拟”世界的需求,存在一个实实在在的领域,这个领域无法绕过3D,它是从数字到实体的制造 。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图12

我们不但要于虚拟环境里跟一个杯子展开互动,最终或许还得把这个杯子切实打印或者制造出来,达成个性化定制,不论三维打印、智能制造,还是CAD模型生成,也就是当下3D生成的热门方向,这个“从虚到实”的进程,3D绝对是根基,比如,我们正在开展的牙齿生成项目,目标是制造出精准的牙齿模型,这纯粹依靠高质量的三维数据。

06

技术路线之争:显式与隐式之争

最后不得不谈一个核心的技术路线之争:显式与隐式之争。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图13

我先是要针对这两个概念作出解释,假定我们存在一个具身智能任务,也就是有一个机械爪,它的任务是去抓起一个盘子,而针对这个情况,我们所要做的是预测,那个被它抓起的盘子在被提起之后,会不会出现掉下来这种情况。

隐式路径是如何进行操作的呢,这操作就是去构建一个端到端的神经网络,向该神经网络输入一张图片,然后直接输出预测结果而为了达成这个,我需要准备大量数据来对它进行训练其核心在于一个被称作 “潜变量” 的事物模型的有效性依靠于这个潜变量这个潜变量将所有输入信息包含那些隐含的物理规律均编码在其内我们坚信通过大量数据训练这个潜变量自身就学习并且蕴含了完成任务所需要的物理知识这是典型的 “黑箱” 或者端到端逻辑。

显式(模型驱动)路径:与之相对,显式方法会分步进行:

首先,我会将爪子和盘子的三维模型进行显式的重建。接着,依据这些精准的几何模型,我会展开对它们是否充分接触的分析。然后,结合盘子材质等物理参数,借助明确的物理公式来开展计算。最后得以判断出提起之后是否会掉落。这条途径依赖于我们对于世界,也就是几何、物理方面的明确建模以及理解。

容易被我们理解的显式方法,是深度学习兴起之前的主流范式,而运作方式我们并不完全清楚、人类无法直观理解的,就被称为“隐式”。

我再次列举一个有关开车的事例,众多汽车具备一项功能,能把周围车辆的三维模型予以重建。将其以可视化的形式呈现给你瞧,还会提示碰撞方面的风险,这属于显式的途径,另有一类隐式的方式,乃是系统并不展现任何三维模型,仅仅是在快要撞上之际,给你一条文本或者发出一种声音,以此发出警告。要是让你来做选择,究竟开哪种车型会更具安全感?我寻思大多数人会挑前者,即唯有所有事项可视化让我观看,我才能够领会并信赖系统所做出的“会撞上”或者“不会撞上”的判定 。

这里就引出了一个关键词:安全感。

我们做世界模型的缘由是什么呢?其背后存在着一种永远不会变化的动机,那就是人类内心对于探索世界规律怀抱的渴望。人类探索规律又是为何呢?依据给我的答案来看,是由于我们从出生就对未知有着一种不安全感。正是这种针对未知的恐惧,促使我们去探索大海,促使我们去探索太空,还促使我们去构建世界模型,以此来获取对世界的理解以及掌控,进而满足我们内心的安全感。

请问,于AI时代当中,最能够使人感觉到不安全的究竟是什么呢?就我个人而言,存在着两个词汇:“端到端”,以及“潜变量”。

我晓得它们具备工作的能力,然而我并不晓得它们得以工作的缘由。不单单是寻常用户对此不知晓,相当多的时候就连我们这些研究者也并非全然明晰。我们仅仅晓得去堆叠网络层,可是却不清楚其中的神经元实际上在进行何种操作。问题的关键所在是,这个所谓的“潜变量”是一个处于高维状态的向量,并且人类没办法凭借直观去理解高维空间。

什么是人类能够理解的呢?是我们可以理解3D以及4D,我们从初中开始学习平面几何呀,接着到高中又学习立体几何呢,我们能够将理解到的3D以及4D概念呈现在纸上呢。然而一旦进入到5维、6维更乃至高维度,我们就没办法进行想象了呢 。这也是存在“可视化”这个领域的原因呀——它的核心逻辑呀,就是把高维的事物“拍扁”成为2D或者3D,如此便能够更轻易地理解了呢。

因此,我再度着重说明为何3D/4D是不可或缺的,恰恰是由于3D/4D属于我们人类能够凭借直觉去理解以及感知的维度,它们能够给予我们最为直接的安全感。

港中深教授韩晓光:从3D重建到世界模型,我们离真正理解世界的AI还有多远?插图14

到了最后的阶段,在面对那一天天变得越发强大的AI之时,身为我的看法而言,可解释性这个方面是人类能够保持住基本尊严的最为关键的要点。

以一个情景来进行归纳,设想古代有位渴望长生不老的帝王,他召集了众多聪慧的术士去炼制丹药,这些术士颇为得力,持续进献丹药,虽说还无法使人长生不老,不过也许能够强健身体,他们还会持续升级,推出v2、v3版本,皇帝极为高兴,不断给予经费和权力,术士的部门愈发庞大,然而这里存在一个前提,皇帝(统治者)全然不懂炼丹的原理,他不清楚这丹药是如何制作而成的。

那么,请大伙去设想一番,当某一日,术士们宣告:“我们眼看就要炼制出长生不老之药啦!” 到了这个时候,皇帝会作何想法呢?他又会怎样去对待这些术士呢?

为此,我觉得真正的安全感,始终源自效果跟可解释性之间的平衡。这一点相当关键。可是,在咱们当下的AI时代,这个平衡已然重度失衡。我们过度追逐性能,过度追求成效,然而可解释性还远不达标。而要是达成可解释性,3D当属绝对必要的路径。因为它给予了我们人类能够直接领会、能够信赖的基础。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论