首页 » 财经投稿 » 正文

中国视频生成模型 Vidu 1.5 震惊全球，引领多模态人工智能新潮流

2024-11-15 68

进不了网站？换个网络试试！

圣数科技推出的Vidu 1.5成为全球首个支持多Agent一致性的多模态模型！

上传家伙、机甲、街景，然后就是见证奇迹的时候了。

人、物、环境无缝地融入到同一个视频中，这简直太神奇了。

该方法颠覆了LoRA等传统单点微调方法，标志着视频模型统一理解和生成的飞跃！

多模态人工智能从此树立了新标准。

与许多长期视频模型不同，Vidu 可以在不到 30 秒的时间内生成视频！

外国友人顿时惊呆了：机甲和原图一模一样。这绝对是最稳定的视频模型。甚至有人给出了简洁明了的评价：盛数科技是名副其实的游戏规则改变者。

只要上传多个人物、物体和地点的图片，就可以立即为每个物体生成一致的场景。手动制作大片的时代真的到来了吗？

向左或向右滑动即可查看

热心网友在评论区贴出自己想象的素材。

向左或向右滑动即可查看

霸气的公众号直接在评论区随机挑选人物，挑选出来的网友提供的素材制作出了一系列充满想象力的视频片段。

向左或向右滑动即可查看

Vidu 1.5的推出还揭示了这样一个重要现象——

与语言模型一样，视觉模型经过充分的训练后可以表现出对上下文、记忆等能力的深入理解。这就是视觉模型中智能出现的显着特征！

这标志着视觉模型进入了新的“上下文”时代，AGI离我们更近了。

地表最强？率先攻克“多主体一致性”难题

一致性控制是当前视频生成领域急需解决的问题。

我们经常遇到AI视频生成的主体（人/物）的外观、特征、风格很难保持一致。

Luma AI生成（左右滑动查看）

更不用说同时控制多个对象了。

不同主体之间的特征很容易造成现有模型的混乱。此外，在主体间互动中很难保持自然的连贯性。

如今，这个“世纪难题”已经被国产车型维杜攻克了！

其新推出的“多主体一致性”功能，只需上传1-3张参考图片即可实现对单个主体的100%精确控制。

同时，还可以实现多主体交互和主体场景融合控制，让角色、道具、场景无缝融合。

具体来说，Vidu 1.5版本在以下几个方面实现了技术突破。

单受试者100%准确控制

就单个拍摄对象而言，只需上传特定拍摄对象不同角度、不同场景的图片，Vidu就能100%准确地把控每一个细节。

复杂的单一代理

在生成侧面、背面等棘手角度的图像时，常见的视频模型往往依赖于模型自身的想象力，这往往会导致一些图像不符合用户的期望。

但Vidu完全避免了这个问题！

无论是细致的人物还是复杂的物体，都能保证单个主体在不同视角下的一致性。

废话不多说，我们直接上图。

下面这几位复古美女中，妆容极其复杂。维杜能做到吗？

无论在任何场景、任何角度，尤其是特写镜头，她的形象都保持高度一致。

即使是3D卡通人物，无论男孩的视角如何变化，他的发型、服装等从各个角度都保持高度一致。

提示是“小男孩在玩具城里行走，慢慢转向后面，镜头稍微向右移动”。

传统视频模型在复杂视角切换时带来的缺陷全部消失。

这是另一个棘手的请求：上传两张科比的正面照片和一张背面照片。提示是“科比背对镜头，慢慢转过身，对镜头微笑。”

这对于AI来说确实是一个不小的考验。它想象的图像能起作用吗？

一个特写让科比重回“战场”。维杜准确地捕捉到了他所有的眨眼、微笑和自然的手臂动作。

中国建筑结构的复杂性自不必说。如果Vidu生成雪景中的万象神社，还能保留多少细节？

无论是从远处放大，还是从周围看，万象神社的面貌都没有丝毫改变。

通过融合真实的建筑物和其他元素，Vidu 可以模拟极其逼真的场景。

人物五官、动态表情自然一致

在使整体形象保持一致的同时，Vidu还应在面部特征和表情上实现自然连贯。

很多AI视频失败的原因就是因为人脸僵硬或者畸变太明显，导致AI味太浓。

Vidu 在创建细致逼真的角色方面具有显着优势。

我们上传了三张刘德华的红毯照片，然后输入提示词“一个男人走上颁奖典礼的红毯”。

我们看到“不老男神”刘德华在红毯上向我们招手，看上去很自然。

我们来看看下面三张不同角度的古风少女照片。维杜的表现如何？

这一波问候是真实的微表情，很难相信它是由人工智能生成的。

表情从微笑到悲伤的转变非常自然。

在这张侧面照片中，维杜的脸部没有表现出僵硬或扭曲。

同样，下面三张不同视角的欧美风女孩照片，都陶醉在金色的稻田里。

由此不难看出，在人物特写画面中，维杜能够保证面部细节和表情变化自然流畅，展现出人物的本色。

多主体一致性，三图稳定输出

接下来，是维杜真正拓展自己技能的时候了。

现在，任何人都可以在“多图像参考”功能中选择上传多个主题。

可以是一个角色，也可以是角色+道具物体、环境背景等。即使是“多主体”Vidu 1.5也能实现一致性控制。

主题+场景：随心所欲

通过上传主体和场景图像，可以实现主体和场景的无缝融合。

例如，一张莱昂纳多的照片可以把他放在不同的地方，做不同的事情。

例如，躺在海滩上的躺椅上。

另一个例子是在比萨斜塔前拍照。

或者，出演经典电影场景。

当然，这里的主体不仅是人，还包括物。上传宫殿和手机，神奇的穿越大片就在这里。就连马赛克背景也升级到了电影般的品质。

人物+道具+场景：出现在任何图像的任何场景

这里有一个更复杂的——马斯克穿着一件碎花棉袄，骑着电动自行车经过游乐园。

在这个任务中，共有三个主体（人物+道具），维杜依然处理得天衣无缝。

或者，让Leo穿着粉色裙子，盘腿坐在沙发上。

再比如一个外星男孩，一个生日蛋糕，一个精神背景。三张图各不相同，但维杜依然可以让它们完美融合。

相比之下，国外流行的无法理解场景图片，只能将最后两张图片合二为一。

Luma AI 更糟糕。它像幻灯片一样列出图片。

综上所述，一致性可以更好地融入场景。

双角色主题：次元壁破碎！

有了这个超能力，我们就可以让雷总和马斯克在同一个办公室讨论合作了。

你最喜欢的IP也可以链接。

例如，魔卡少女樱和雷姆一起对着镜头微笑。

有趣的是，Vidu还可以融合不同主体的特征，将人物A的正面和人物B的背面无缝融合，创造出全新的人物或物体——

足球之王梅西一转身，是马斯克。

当然，除了制作之外，我们现在还可以利用Vidu的新功能来制作恶搞表情包。

比如，从背面看，她就像一个年轻的女孩。没想到，当她转身时，竟然是……迪卡普里奥！

百日进化，Vidu技术解析

如此惊人的能力背后，Vidu才上线一百多天。

早在推出之初，Vidu就具备了生成“人物一致性”的能力，可以通过锁定人物五官，保证人物五官的一致性，解决视频生成中的关键痛点。

9月，Vidu在全球率先推出“主体一致性”功能，将面部一致性扩展到全身一致性，范围从人体图像扩展到动物、物体、虚拟角色等任意主体。

原图

性格一致性：只有面孔保持一致

主体一致性：全身图像保持一致

需要注意的是，除了Vidu之外，当前的其他视频生成模型都无法有效控制面部一致性。

如果一定要实现，就必须采用LoRA方案，通过输入大量相似数据来进行昂贵的单点微调。

然而，Vidu已经实现了对单个智能体的精确控制，甚至多个智能体的一致生成。

圣树始终相信，随着基础模型的投入和迭代，整体泛化能力将得到大幅提升，无需依赖复杂的单点微调即可展现情境学习能力。

Vidu新版本的发布正式证明了这一点！从1.0版本到1.5版本，圣数科技实现了世界领先的突破。

这一飞跃背后有哪些技术创新？

统一架构，无需微调

以前的视频模型如果想要实现一致的生成能力，就必须针对每个场景设计微调相应的模型。

他们无法通过语言模型等情境学习，基于少量示例或提示快速适应新任务。

圣树科技探索出了一条完全不同的道路。

秉承多功能性的理念，Vidu与LLM有着相同的设计理念：

除了设计理念一致外，多模态大模型在架构复杂度、数据多样性、生成效率等方面门槛更高。在此挑战下，Vidu在全球率先推动智能从多模态大模型，如引领LLM的进步和创新。

LLM与Vidu技术架构方案对比

三张图，结束LoRA炼金术

更值得注意的是，三图高一致性的突破，是Vidu背后基础模型能力的全面提升。

无需专门的数据采集、标注或微调训练，一键直接输出高一致性视频。

要知道LoRA（Low-Rank）微调方案一直是业界解决一致性问题最主流的方案。

它需要基于使用特定主体的多个视频的预训练模型进行微调，以便模型能够理解主体的特征，然后生成其在不同角度、光线和场景下的图像。

同时，还需要保证不同代之间的一致性。

简单理解一下，比如我创建了一张卡通狗的图像，想要生成连续一致的视频图像，但是模型在预训练过程中并没有学习到这张图像，所以我需要获取多个卡通狗的视频用于模型的进一步训练。让模型知道这只卡通狗长什么样，这样就可以生成了。

但问题是LoRA需要20到100个视频才能实现。

由于数据构建繁琐，需要几个小时甚至更长的训练时间，其成本是单次视频生成的数百倍或数千倍。

另外，LoRA微调模型的另一个缺点是容易出现过拟合，即在了解学科特征的同时，也会忘记很多原有的知识。

这使得LoRA很难精确控制动态表情和肢体动作的生成和控制，很容易产生僵硬、不自然的效果。

特别是在处理复杂或大幅度的运动变化时，微调模型在捕捉细节方面的局限性更加明显，最终导致主体特征不太准确。

因此，LoRA方案只能满足简单场景下的主体一致性要求。

然而，对于高度复杂的主体和场景，往往需要更大规模的微调数据和更复杂的微调策略。

凭借强大的通用模型能力，Vidu仅使用三张图像即可实现高度可控且稳定的输出。

这个过程直接消除了“炼金”环节，堪称“LoRA终结者”！

视觉模型正式进入“情境时代”

如何实现多智能体一致生成任务？

模型首先要做的就是能够同时理解“多图像的灵活输入”。而且，不仅图像输入数量多，而且图像不限于特定特征。

这与语言模型的“上下文学习”能力非常相似。

同样，在视频生成或多图像生成任务中，模型也需要能够理解多个输入图像的准确含义以及它们之间的相关性，然后根据这些信息生成一致、连贯和逻辑的输出。

通过不断扩大上下文长度，Vidu从1.0迭代到1.5后，出现了明显的智能涌现效果。通过视觉上下文，可以直接生成新任务下的大量视频！

视觉智能的出现加速AGI的到来

语言模型的发展已经为AGI提供了一条可行的路径。

然而，依靠单一的文本输入仍然无法实现完全逼近人类智能的高度智能。

要实现更通用、更全面的智能，需要对更多模态，尤其是视觉模态有很好的理解和生成建模，它为AI提供了更直观、更丰富的方式来理解世界，是AGI的关键。戒指。

确实，与语言模型在深度智能方面的突破相比，视觉模型还有很大差距。

不过，Vidu 1.5版本展现了智能化的出现，这意味着视觉模型不仅可以理解和想象，而且在生成过程中还可以进行内存管理。

大语言模型的独特优势实际上体现在视觉模型上。

至此，Vidu不再只是一个高质量、高效的视频生成器。将上下文和记忆纳入生成过程无疑意味着视觉模态智能的巨大飞跃。

认知能力更强的视觉模型将成为AGI拼图中的重要一块。

参考：

本站候鸟号已成立2年，主要围绕财经资讯类，分享日常的保险、基金、期货、理财、股票等资讯，帮助您成为一个优秀的财经爱好者。本站温馨提示：股市有风险，入市需谨慎。

标签：文字内容

暂无评论

发表评论取消回复

要发表评论，您必须先登录。