2024年国产大模型加速落地：视频生成模型成焦点，快手与字节竞相升级

立即下单

进入商城

进不了网站？换个网络试试！

撰写者 |翟文婷

2024年的最后一个月，国产大机型的应用突然提速。尤其是视频生成模型就像子弹密集发射后的枪管，非常火爆。

12月19日，快手科灵更新1.6机型。与两周前高调传出的AI导演共创计划相比，此次动作显得安静许多。但快手选择升级模式的时机似乎也有一些深意。

因为一天前，也就是12月18日，在字节火山动力大会上，首次发布了豆袋视频生成的大模型。与此同时，张楠从抖音加入剑影并成为掌门人后首次公开亮相。她简单介绍了今年5月推出的类似于科灵的视频生成工具极萌。

会上，张楠给出了极萌的明确含义：想象相机，对应抖音的现实相机。但她没有透露太多产品细节，只是展示了两个样品。她说，产品和技术仍处于早期阶段。

这可能是为了避免将极萌与一周前发布的Sora Turbo进行直接比较。

年底为期12天的直播重头戏是在12月10日，经过10个月的准备，Sora终于亮相。

最大的亮点是“查看故事”功能，提示词可以直接转化为脚本。此外，新版本的Sora生成视频速度更快，并具有更实用的编辑功能。为此，用户每月需要支付200美元的费用。因此，尽管产品发布当天服务器遭遇海量流量当机，但投诉依然不断。

不管怎样，在大模范先驱之后发布产品总是有很大的压力。除非有更多令人惊喜、更有力的产品亮点，否则很容易被黯然失色。

因此，腾讯混元在12月初率先推出了大视频生成模式，并将该应用称为“元宝”。不过，相比Sora、科灵、极萌等既可以生成文字又可以生成图片视频的工具，腾讯混元目前只能生成文字和视频。

问题在于当前的大型模型语义理解能力有限。所有文胜视频的应用效果都差强人意，很难吸引汉德创作者积极使用。

腾讯自然明白。因此，在产品发布当天，开源是腾讯积极释放的信号。

虽然国内视频生成应用已有近10个，但从近20天的情况来看，国内视频生成模式仍然掌握在大公司手中。这不仅与大模型的水平和计算能力有关，视频数据的积累也是决定性因素。。而且，大模型早期盛行的一种FOMO（Fear of Out）现在依然有迹可循。

但正如张楠所说，产品和技术还处于早期阶段。如果你了解现在的AI视频是如何制作的，你就不会被渲染出来的图像所迷惑，而只会惊叹不已。

这只是发令枪，不要太早下结论。

土生视频是主流吗？

从我们收到的信息来看，从大型模型生成视频似乎很容易。一段文字可以给你一段视频，效果堪比影视大片。每个人都是伟大的导演，而且他们非常接近。

事实是，AI视频确实降低了制作门槛，但制作精良的广告视频和短剧AI视频仍然是少数人掌握的技能。

有必要先说一下接下来的2分钟AI短片是如何制作的。

首先，和传统创作类似，创作者首先要拿出一个剧本，这只是基于AI能力可以实现的东西。这一步可以借助AI工具来完成，其中提到最多的就是Kimi、Kimi和智浦轻颜。

其次，根据视频剧本，拆解详细的分镜内容，创作者利用AI图形工具将分镜展示为静态图片。

如果有专业或商业需求，比如广告、宣传片、短剧等，想要达到传统拍摄的专业性和合理性，在将静态分镜转为视频之前，创作者需要对静态分镜进行后期PS处理。生成的剧照。以及图像超分辨率处理，提高图像的原始质量，从而保证图像生成视频的质量基础。

随后，这些图片被输入到 AI 视频工具中，用于生成动态故事板。 Sora的720p一次可以生成长达20秒的视频，而国产大型机型一次只能生成5-10秒的视频。

需要说明的是，除了Sora之外，国产AI无法根据生成的视频进行修改和编辑，因此一段5-6秒的视频有可能需要多次生成才能获得满意的结果。

我们现在看到的2-3分钟的AI视频大多是图文视频，原材料都是经过专业处理的图片，需要多次续片和后期剪辑。

虽然目前国内的视频生成模式中，只有腾讯混元是免费的，没有付费项目，但文森视频在鼓励创作者使用方面仍然面临障碍（在今年5月的腾讯生成AI产业峰会上，腾讯宣布多方合作）模态能力中，提到了混元支持以图文形式生成视频的能力，但目前还没有图形生成视频的实际应用）：

首先是大型模型语义理解的局限性。视频最终呈现的内容是否是文字所描述的，是否符合创作者设想的画面？

第二是一致性。例如，您想生成一个以“一个穿着浅黄色连衣裙的女孩”为主角的1-2分钟的连续视频。

按照目前的大模型能力，你可能要继续写几十甚至上百次才能最终实现。但也许每次输入文字生成的视频中，女孩的五官以及所穿长裙的款式都不一样。面部特征可能有年龄和外貌偏差，服装颜色可能是浅黄色、深黄色或橙色。这也是一样的。性问题。

但图胜视频可以提前确定统一色调，并且在图像处理方面，配合Comfy UI（基于节点工作流稳定扩散算法的图形界面），通过换脸、服装等功能实现人物一致性改变。

文盛视频是不能上架的。如果你想要的是短到五六秒，或者一键动画一张静态图片，那么使用门槛就更低了。在文胜视频领域，目前还处于内测阶段（每天只能测试6次）的腾讯混元确实超越了目前的行业平均水平。

腾讯混元文声视频，提示是：烟花绽放/开幕：一道火光划破夜空的黑暗，烟花腾飞。高潮：烟花瞬间在天空绽放，色彩斑斓，画面以慢动作和高速摄影交替呈现。结局：烟花渐渐消散，夜空恢复平静，留下几颗星星，象征着此刻的美好。

不过，也有一些创作者做出了新的尝试。《火街》是作者孟洛夫创作的一部AI电影。影片有660个镜头，其中70%是文森特的视频。每个镜头需要200-300字的提示。。在分享自己的创作经历时，他解释道：“我之所以用文森特的视频作为创作主体，是因为它的表情和肢体动作比图胜的视频更加真实。”

他提到，吉梦文胜的视频效果和图胜的视频非常相似。 “看下来，每个人都是主角，多人内容场景模式并没有崩溃。”

这是一个梦幻视频，提示词也是：烟花绽放/开幕：一道火光划破夜空的黑暗，烟花腾空而起。高潮：烟花瞬间在天空绽放，色彩斑斓，画面以慢动作和高速摄影交替呈现。结局：烟花渐渐消散，夜空恢复平静，留下几颗星星，象征着此刻的美好。

不管怎样，我们今天看到的那些精美的或者接近物理现实的AI视频都是由少数懂设计、懂美学、熟练操作各种工具的专业人士制作的。你也可以理解为这些人都是AI视频的种子用户。一年前，他们大多是精通AI绘画工具的高手，活跃在小红书平台上。

因此，与豆宝、基米等发起海量转化动作的AI对话产品相比，科灵、极萌前期更注重尽可能吸引种子用户的参与，激励他们创作出更多作品。这些创作在各个社区中每个人都是被争夺的目标。其中一些热心的创作者通过出售 AIGC 培训教程抓住了一波变现红利。

通过成为各个应用的超级创作者，创作者可以有机会获得平台推送的业务订单、免费积分，包括与电视台合作的支持。但或许平台也会要求超创每月输出一定量的视频创作，甚至免费配合产品推广教程。 ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

各大厂商的一些举动也揭示了应用所引导的用户群体和使用场景。

柯灵从一群影视专业人士中走进了现场。他们此前曾提出AI+短剧计划，意图将AI嫁接到电影、电视、广告、游戏等领域。自上而下渗透的意图显而易见。

腾讯混元在介绍中明确表示，可用于广告、动漫制作等工业级商业场景。腾讯广告缪斯平台已融入文胜图模式，降低了广告主的创作门槛。

看不见的决定因素

虽然极萌和可灵有视频创作能力，并占据了一定的用户心智，但他们还有很长的路要走。

除了我们能感知到的产品特性和差异外，国内AI视频应用的底层模型架构也非常相似。

腾讯混元和快手科灵都采用了与Sora类似的DiT（）模型架构。附带的 Conch AI 也同样被选中。 ‍‍‍

一种观点认为，与其他产品不同，DiT架构路径在算力足够的情况下相对难以复制。这也是国产视频一代大模型在短短几个月内布局速度和落地效果超出预期的原因。

但说到解决一些关键问题，就取决于每个公司的底层优化能力和数据训练结果。 ‍‍‍‍

汉德创始人温维斯告诉，他对AI视频应用的结果有两个期望：一是快速展现自己脑海中的想法，并与预期保持一致；二是能够快速展现自己的想法。第二，成为自己的灵感。不一定是成品，但想法会受到启发或增强。

在科灵发起的AI导演共创计划中，文伟思是导演王子川的AI合作者。他们共同创作了《雏菊》。早期的一个基本想法是尽量避开AI不擅长的领域。

目前，视频生成模型正在几个方向上协同工作：一致性、视觉真实感、动态幅度、提示词的语义理解等。

比如，虽然很多产品都号称具有良好的一致性性能，但几乎所有企业都还在默默地努力。只有初创公司盛数科技在今年9月高调发布了所谓“全球首个支持多智能体一致性的多模态大模型”。该公司的产品Vidu现已开放使用，评测反馈在2D和多智能体一致性方面表现良好。是的，缺点就是画面太模糊，即使是可以享受高分辨率的会员用户也仍然存在这个问题。

再比如，国内外AI视频软件的动态范围都有待提高。最基本的角色会说话并做一些特定的身体动作，例如武术、体育体操等大型动作。目前，所有工具的性能都不尽如人意。

余白梅导演在接触人工智能时，最想探索的就是与动作相关的部分。他知道人工智能在调节摄像机的运动方面并不强，也不擅长现实生活中的动作。但他仍然积极参与柯灵的导演项目，希望尝试创作一些以前从未见过的动作场面。

谈及整个创作过程，他表示很难详细解释，而且结果也不尽如人意。 “这些作品都是涂鸦。”但他也提到，这个过程很有趣，也学到了很多东西。

于白眉的体感体验可能会引起很多共鸣。因此，创作者会根据不同的主题和需求，使用不同的AI视频工具。也许个人的创作偏好会导致他更多地使用某种工具，但现在还远没有达到任何产品都具有绝对优势的地步。

国内AI生成视频应用中，快手旗下的科灵是唯一公开数据的应用。

快手三季度财报发布时，9月份科灵月活跃用户突破150万。截至12月10日，累计用户数达到600万，生成视频数量6500万条，图片数量突破1.75亿张。快手也公布了商业化成果，单月销售额突破千万元。据说，内部切蛋糕是为了庆祝。

科灵是国内产生比较快视频动作的大型车型之一，有一种向前跳跃和加速的焦虑感。

该产品于今年6月推出。同月，图胜视频上线，还有续集视频，由最初的最长2分钟延长至3分钟。而且，很早就明确将与短剧、电影、电视剧相结合。柯令生最早在海外传播的视频是马斯克看到并评论的。

姬梦的上线早于可灵，向外界发布的信息和动作也没有可灵频繁。但由于Byte的AI部署能力和广泛的用户基础，Dream在创作者中拥有很高的话语权。

叶锦添有两句话说得很好：如果你用传统的3D方法，每次你想尝试一个东西都会花同样的时间，但AI不会用它。这给了我一种不同的速度感，我开始明白人工智能会影响我看待世界的方式。他还表示，AI有时比我们移动得更快，所以它可能会带来另一种体验。

人工智能一日，人类一年。

本文来自微信公众号，作者：翟文婷，36氪授权发布。

本站候鸟号已成立3年，主要围绕财经资讯类，分享日常的保险、基金、期货、理财、股票等资讯，帮助您成为一个优秀的财经爱好者。本站温馨提示：股市有风险，入市需谨慎。

2024年国产大模型加速落地：视频生成模型成焦点，快手与字节竞相升级

深入了解豆粕期货交易规则与市场影响因素：大豆供应、养殖业需求及季节性波动

2024年日本春斗创30年最高工资涨幅，2025年春斗或再传利好

暂无评论

发表评论取消回复

2024年国产大模型加速落地：视频生成模型成焦点，快手与字节竞相升级

深入了解豆粕期货交易规则与市场影响因素：大豆供应、养殖业需求及季节性波动

2024年日本春斗创30年最高工资涨幅，2025年春斗或再传利好

相关推荐

暂无评论

发表评论 取消回复

搜索

2024年国产大模型加速落地：视频生成模型成焦点，快手与字节竞相升级

2024年国产大模型加速落地：视频生成模型成焦点，快手与字节竞相升级

发表评论取消回复