今年春节,动画电影“ Nezha 2”变得流行,不仅在中国电影历史上排名第一,而且不断刷新全球票房。山,河流和乡村地图的3D版本,由石山(Stone Queen)转变为石头山,是不朽的和恶魔之间的最后战斗……这些场景使我们感到非常令人震惊的3D动画效果。
在AI领域,正在开发的新兴技术有可能将3D动画的整体质量推向全新的水平。 Li 对“ AI教母”的乐观和下注是空间智能()。在将来的AI技术的支持下,3D动画的表现力可能会前所未有地增强。
在AI领域的这位顶级科学家的看来,无论是人类还是机器,学习如何查看世界并与世界互动至关重要,并且空间智能将在其中发挥重要作用。她坚信,空间情报是AI类似语言的基础之一,将成为AI下一个发展阶段的尖端技术方向。去年12月初,Li 的创业团队世界实验室的第一个产品向我们展示了产生具有单一图像的3D世界的惊人效果。
从二维到三维,如果真正理解和操纵3D空间,AI需要解决许多疼痛点。例如,缺乏大规模的高质量3D数据限制了模型效应和概括功能。生成的3D场景在几何结构和纹理细节上不够细,或者有缺陷或不完整,并且很难确保多种观点的一致性;例如,效率问题,处理复杂的图像和大规模场景可能导致过度计算功耗和过度发电时间。
因此,空间智能真正突破了对传统AI的二维像素级的视觉理解并不容易。在中国,“ All In Agi和AIGC”的大型模型制造商对现实世界的几何形状和物理规则提出了挑战,并带领了在新兴的太空智能领域迈出的重大行动。
2月14日, 正式发布了零世界模型,迈出了探索空间情报的关键一步。 -Zero包括3D场景生成模型和交互式视频模型。它不仅可以将用户输入的图片转换为可以自由探索的真实和合理的3D场景,还可以生成交互式视频。这意味着-Zero是一个具有“增强版本”的3D物理世界和视频生成器。
随着-Zero的推出, 在AIGC时代的定位发生了新的变化,成为中国第一个同时推出3D场景生成和交互式视频生成模型的智能企业。
表示,预计-Zero将于4月正式推出,用户将能够体验它。
3D虚拟世界突破了二维飞机
从行业中现有的工作来看,只有任何图片就可以生成遵循基本物理几何规则的3D世界,这已成为探索空间智能的关键技术进步。通过训练有素的感知,理解和互动能力,AI希望在三维空间中像人类一样自由地进行导航,操作和创造。
从Li 的第一个3D世界产品到的第二代世界模型Genie 2,太空情报正在努力完成从生成内容到建立世界的演变,这不仅需要了解像素,还需要解析空间坐标的能力,几何关系和物理定律,以实现最真实的三维意义和空间深度。
这次, 's-Zero开始了自己的尝试,构成了领先的技术解决方案,并最终在3D世界一代领域展示了一些独特的优势。
一张图片和一个世界,AI使3D世界可以到达
根据 的介绍,-Zero采用了与Li World Labs不同的3D技术路线,实现了一种自由探索,更现实且更合理的3D场景生成效应。
在将单个静态图像转换为相应的3D场景的过程中,保持与原始图像一致的样式很重要。在这方面,-Zero支持不同样式的图像输入,例如逼真的风格和卡通空气(如逼真的小巷和卡通蘑菇中所示),这些图像严格“继承”了图片的原始样式。
-Zero还具有转换样式的能力。当生成3D场景时,原始图像是丝般的,并切换到另一种样式。可玩性高于竞争对手。以下示例将原始图像变成红色瓷砖白色的墙壁。
其次,由-Zero生成的3D场景实现了高度的全球一致性,从单个角度的图像中解决了宽范围3D场景中的不一致和空间合理性的问题。
从粗糙的几何结构到详细的场景,-Zero使用空间扩散模型和微渲染技术来提高连续细节细节的全球一致性,从而成功创建了一个完整而一致的3D世界。
从下面的两个图像中可以看出,-Zero通过自由镜头运动(包括向前和360度环绕视图)从3D场景中呈现一致的新视图,并确保生成的3D场景是空间,对象位置和全局比例理性。
接下来,-Zero向我们展示了其最大的亮点 - 在3D场景中任何方向都支持长距离和大规模的免费探索,并且用户的可操作性越来越强。
这种自由探索程度的实现是由于以下事实:零产生的3D场景解决了许多技术挑战,例如连续性,合理的扩展,环境互动,空间感知和导航。
-Zero不仅可以实现丝滑,向前,向后,左右以及圆形视图等单个动作,而且还可以执行更复杂的360度顶视图(下图)和复合运动,例如前进,然后向前向前(下图)。
最后,动态对象可以添加到由-Zero生成的3D场景中,以及看起来自然且符合物理定律的水流,光,云等的动态效应。
为了实现这些目标, 团队需要整合深度学习,图形和实时计算等技术。更具体地说,只有通过整合多个字段,例如物理模拟,照明和材料模拟,对象交互和实时渲染,才有可能捕获,预测并最终正确模拟从静态图像中正确模拟合理的动态物理行为。
-Zero实现了丰富的物理动态效果,包括轻水流混合效应(图像下图),云和雾效应(下图),波浪效应等。这对于帮助AI更好地改善3D世界的物理特性具有积极意义。未来。
在一一查看了上述结果之后,我们可以得出一个初步结论:-Zero产生了3D场景和亮点,使国内制造商可以在太空智能领域竞争,甚至在某些级别上超越了外国竞争对手。大规模的自由探索增强了AI的物理推理,空间认知和其他能力,并有望为建设一般世界模型和AGI提供强有力的支持。
互动视频使人们更多地参与
-Zero的第二个子模型支持交互式视频的生成,其最大的亮点是它更加专注于实时互动和大规模场景。
一方面,-Zero具有强大的概括能力,可以适应不同的环境,并且可以以极高的效率生成平滑,一致和合理的高质量视频。另一方面,-Zero超出了现有视频生成功能的范围,极大地增强了视频内容的可操作性,使用户可以自由调整其视角,操纵场景元素并实时影响视频内容,这是一致的。满足他们的需求。并期望。可以说,人们参与视频生成。
从下面产生的城市和沙漠环境的视频来看,-Zero的互动性得到了充分的显示。用户可以通过任何键盘或鼠标移动来控制方向,包括前后,背部,左和右运动以及自由视角移动。这使用户可以以极高的自由度探索视频内容,并使他们更满足他们的意图。
这种强大的互动将进一步优化虚拟环境中世界模型的适应性,从而为构建更强大,更用户友好的交互式应用程序提供了驱动力。
从上述3D场景和交互式视频的表现来看,在由人类计算机互动,自由和沉浸式创建的虚拟世界中,得到了极大的增强。您将来可以遇到更强大的 -Zero,这将在构建可控游戏场景,体现的智能场景模拟以及有效地生成3D电影和电视镜头的情况下为无限制的应用程序开放。
一个模式和两种用途,如何制作-Zero?
当然,-Zero的进度是 在自我开发的3D场景生成,基本视频生成模型和用户输入交互模型中的全面升级的结果。
对于3D场景生成,-Zero是由强大的3D场景一代大型模型驱动的。它包含两个核心模块,即场景布局生成模块和纹理生成模块。作为具有单个图像的3D世界中的两个核心链接,场景布局的生成和纹理生成决定了3D世界的几何结构和视觉细节,并直接影响了空间完整性和交互式体验。
因此,-Zero解决了一系列挑战,包括猜测看不见的部分(例如深度关系,对象语义),身体一致性(例如物质,空间关系理性)和计算资源优化(IE高质量3D)一代)这将改善3D世界产生的现实主义和可用性。
-Zero的场景布局生成模块集成了微渲染和扩散的技术,以创建与输入图像一致的3D场景布局。纹理生成模块是根据图像生成和视频生成模型进行训练的,并且可以生成一个场景布局,该场景布局与镜子的精确控制匹配场景和视频。两个模块相互补充,并将3D高斯溅起()组合以进行端到端优化,从而导致最初的3D场景。
接下来,为了确保用户可以在任何位置和角度看到合理且一致的场景,3D场景生成模型扮演着关键角色,执行缺失场景区域的几何和纹理完成,并建立完整,合理且自然的3D世界。
与3D场景相比,零交互式视频的一代背后采用的技术路线不同。我们了解到,该方法基于一个自发的生成视频模型,依靠大规模开放数据的预培训模型,并将其与自发开发的用户输入交互模型相结合,最后形成了空间智能视频由用户输入驱动,因为核心会生成计划。随着这些模型的共同参与,高质量,稳定的视频输出将成为可能。
作为视频生成系统-Zero包含两个主要组件,即核心基本视频生成模型和重要的用户输入交互模型。两者都履行自己的职责,以保护在不同阶段的零视频生成能力。
一方面,基本的视频生成模型从初始视频框架中生成相干的视频内容。它采用了深度学习技术,并结合了各种先进的生成模型,以确保视频的清晰度,稳定性和逻辑。在生成过程中使用以下三个关键技术:
另一方面,用户输入交互模型专门分析用户输入信息,以将其转换为视频调整信号。这样做是为了允许视频内容准确响应用户操作并带来自然而平稳的交互体验。
具体而言,用户输入交互式模型通过四个主要模块实现了更智能的交互式视频生成:离散运动控制,连续的视角控制,3D场景位置跟踪和滑动窗口优化。每个模块的功能如下:
结论
回顾最近的2024年,这是大型语言模型快速发展的一年。可以看出,从基本模型,实时语音模型,视频模型到社交媒体上流行的推论模型,对大型模型的产生和理解和自我思考能力在短短一年内就已经提高了数量级。同时,出现了太空情报,强大而有远见的制造商逐渐开始安排。
作为一家领先的国内人工智能企业, 在过去的每一波AI中一直表现出前瞻性,从100模型的战役到多模式,音量推理和音量智能,它在各个阶段都在结果输出已经完成了“计算能力基础架构 - 大型模型算法-AI应用程序”的完整工业链布局,并构建了AI大型型号,AI搜索,AI游戏,AI音乐,AI Music,AI社交网络,AI Short Short ,多样化的AI旨在积极促进商业化的业务矩阵。
这次-Zero是昆伦·旺韦( )在太空情报领域的另一个具有里程碑意义的成就。它以前已经发布了3D代表大型模型和集成的视频大型模型,以启动AI短戏平台。随着-Zero的到来, 的太空智能探索将打开新的章节,其多元化的业务矩阵将得到进一步的增强,并将开设一条新曲目,以应用其多模式大型模型。
将来,我们可以期望在空间智能上进行更多的升级,例如在模型训练水平上结合视觉,听力,触摸和其他感觉,以通过强化学习来实现更准确的感知和推理;例如,预计模型应用程序水平将扩展到更多的行业或集成到现有产品中。可以说,无限的可能性正在等待进一步的探索,空间智能具有巨大的潜力。
对于像 这样的企业来说,更强的空间智能将使AI能够理解,感知,理性,互动和运营物理世界,成为AGI迈向更高水平的智力的核心支柱。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论