OpenAI发布AI视频大模型Sora Turbo，仅支持20秒视频生成，处于小范围测试阶段

进不了网站？换个网络试试！

在Sora之前，海外AI公司就已经开发了视频模型，但直到今年2月Sora首次亮相，视频模型行业才真正进入黄金发展期。然而，带动大型视频模型快速发展的Sora似乎已经落后了。

且不说我们可能比较陌生的海外国家，仅在国内市场，就涌现了不下20个大型AI视频模型。互联网巨头腾讯、阿里巴巴、字节跳动等，各自推出了大型AI视频模型。从行业角度来看，AI视频大模型赋予大模型理解和重构现实世界的能力。从用户的角度来看，AI视频大模型给了我们发挥想象力的无限可能。

与通用场景的大型语言模型不同，大型视频模型的使用场景相对更加专业。因此，现阶段，你基本上需要付费才能生成你喜欢的视频。免费用户只能获得系统积分或每日生成的免费视频数量，并且可能无法体验某些高级功能。正因为如此，不关注AI大模型的朋友可能不知道国内有哪些视频大模型。

接下来，肖雷将盘点目前国内知名的六大AI模型，并分析其功能特点。也许将来它们会成为你手中将想法和灵感转化为现实的工具。

国产视频模特跃居前列，Sora成？

国内大型视频机型有很多，功能和体验差异较大。经过几个月的改进，大多数都可以识别人类自然语言，而不是依赖限定符来生成内容。这对于大视频模式来说是一小步，但对于互联网行业来说却是一大步。只有理解自然语言，我们才有能力将想法或小说的内容转化为图像。

至于如何选择视频大模特，别着急，跟着小雷看看互联网巨头的视频大模特表现如何，也许你心里就有答案了。

1、科灵：行业先锋，经验丰富。

训练大型视频模型需要大量视频资源，视频平台具有先天优势。 Sora发布仅4个月后，快手科技旗下AI团队就推出了视频大模型，目前已经进化到1.5版本。就小雷的经历而言，科灵的经历足以在国内众多大型视频模特中跻身前三。

科灵支持文字视频和图片生成视频（也可添加文字描述）两种模式，并且可以调整创意想象和创意关联性。科灵1.5大模型的免费用户可以使用文声视频功能生成长达5秒的高质量视频（1.5版本不支持生成标准质量视频，1.0版本可以生成10秒标准质量视频）。使用图胜视频功能，可以生成长达 10 秒的标准质量或 5 秒的高质量视频，并支持摄像机移动调节。

肖雷这样形容它：“一片安静的海滩，一轮圆月高高挂在天空，微风吹动海滩上的椰子树，发出沙沙的声音，一只小猫懒洋洋地躺在海滩上，舔着前面的毛。”腿。”生成了一个视频用于描述。具体结果如下。无论是舔头发还是随风吹动椰子树，细节层次都非常高。唯一明显的缺陷可能是生成的结果是在白天，而不是小雷描述的晚上。

（来源：科灵盛）

作为国内首批大规模AI视频模型之一，科灵的表现极其出色，并提供了丰富的功能选择。期望科灵能尽快推出更长版本的生成视频，满足微短剧的要求，帮助微短剧作者创作视频，降低微短剧的制作成本，从而提升科灵的实用价值。

2、梦想：语言分析能力强，但缺乏敏捷意识。

快手推出客灵后，抖音也不甘示弱，也推出了视频大模极萌。

除了文声视频和图声视频外，极萌还新增了口型同步功能，即导入图片和视频后，再上传文字或录音，极萌可以对视频进行调整。极萌虽然发布较晚，但更新迭代速度非常快。截至目前，官网已提供Video 1.2、Video 2.0、Video 2.0 Pro三个版本。

需要注意的是，大模型注册后将获得60积分。 Video 1.2大型模型将分别需要4/6/8个点来生成4/6/8秒的视频。 Video 2.0 模型需要 5 个点才能生成 5 秒的视频。 Video 2.0 Pro 型号需要 5 分。该模型需要 20 个点才能生成视频。

小雷使用相同的描述符使用 Dream Video 2.0 Pro 模型生成视频。质量相当不错，小雷描述的场景基本都展现出来了。然而，这段视频并不完美。比如猫的动作过于单调僵硬，缺乏敏捷性，树叶不随风而动。

（来源：梦想一代）

在肖雷看来，季猛理解自然语言的能力比柯灵还要高。描述符中的元素基本都存在，但生成的视频质量略逊于柯灵。

3、混元：功能有待丰富，成长空间大。

说完快手和抖音两大短视频巨头，自然不能把腾讯抛在后面。腾讯近期推出了混元视频模式，并在腾讯元宝App和网页上上线。

腾讯混元视频模型目前仅支持文森特视频，每天可以免费生成4个标准质量和2个高质量视频。小雷还使用了腾讯混元的大模型来生成视频。月亮太大了，给人一种错觉。猫舔毛的动作充满了不和谐。椰子树距离太远，细节不够丰富。

（来源：浑源大模型一代）

或许是因为诞生时间太短，腾讯混元大模型生成的视频质量并不好，明显不如可灵和极萌。不过，有了国内互联网巨头腾讯的支持，相信经过多次迭代升级，这款大机型生成的视频质量将与科灵、极萌相媲美。

4. Vidu：功能丰富，相机运动自然。

作为北京树声科技与清华大学联合研发的大型AI视频模型，Vidu或许没有腾讯、字节跳动那么雄厚的财力，但大模型的性能却丝毫不逊色。该机型还推出了1.5版本，支持文声视频和土声视频。它还支持上传同一主题的不同角度的图片，从而生成更逼真的三维图片。需要注意的是，这个大模型的免费用户只能生成720P的视频。

实测中，Vidu生成的视频质量不亚于科灵和极萌，而且摄像机运动的自然流畅度也比科灵更好。细节也非常丰富，海水、椰子树、风等元素都有展现。如果你仔细观察，你会发现远处有一些人影正在靠近。唯一美中不足的是沙滩质感不足。一般只有刚刚退潮的海滩才会出现类似的情况。

（图片来源：Vidu生成）

维杜的表现已经相当不错了。在开放其API并探索商业模式后，Vidu大概率可以获得大量投资。 Vidu可以用这笔投资购买芯片和视频资源。有了足够的训练大型模型的视频资源和算力支持，Vidu 可以加快进度。

5.清影：与清华同血统，但与维杜不同。

智浦清研的前身是清华大学计算机系知识工程研究实验室团队。和维杜是同一门派，而且更加正统。

智浦清研开发的AI视频大模清功能极其丰富，支持文森视频、图胜视频。其中文森视频可以调整视频风格、情感氛围、镜头移动方式等参数，图胜视频最长支持16秒4K。 60帧视频生成是小雷经历过的大视频模型中最长的视频生成。

然而青影生成的视频让小雷失望了。不说别的，我的猫在哪里？？？而且从图片上几乎无法看出这是一段视频。小雷差点以为我生成的是一张图片。

（来源：青影一代）

与同校出身的维杜相比，青影的问题就非常明显了。自然语言理解能力可能存在问题，需要进一步提高。

6.：画面很美，但是动作很僵硬。

中国普通网友可能对爱视科技比较陌生，但其创始人王长虎曾担任微软亚洲研究院负责研究员，后转投字节跳动，先后担任人工智能技术总监、视觉技术总监等职务，主导字节跳动大视觉模型的基础建设工作。

爱视科技的视频模型功能也很丰富，支持特效、风格、比例等元素的设置和调整。它还可以预设角色并生成最长 8 秒的视频。不过注册奖励积分只有90点，每天都会有30点积分。生成5秒视频需要30点，生成8秒视频需要60点。

从生成的视频来看，其特点正如它的名字一样美观。画面的基调非常令人愉悦。小猫的毛发和背后水波纹的细节都很到位。

（图片来源：生成）

和季猛一样，生成视频的问题也出在猫身上。猫的动作过于刻意，显得僵硬。尽管存在不足，但其表现却十分出色，让我们看到了爱石科技的实力。

视频大型模型大战，细节决定成败

几个月的时间，国内AI企业在大视频模型领域从无到有迈出了关键的一步，现在正从无到有发展。就小雷的体验来看，可灵、极萌、维度都表现出色，并列第一梯队，腾讯混元视频模特排名第二梯队，青影排名第三梯队。

由于使用场景、风格要求等细节不同，大视频模型的输出结果可能存在一定差异。小雷的经历并不能展现出这些大视频模型的全部实力。

即使是性能不错的大机型，在细节上也存在一定的漏洞。除了上面经常提到的猫动作僵硬之外，还有一种非常明显且常见的情况，那就是海滩上的沙子不会因为猫的动作而改变。并流动。虽然AI视频大模型不断升级迭代并取得了可观的成果，但在细节方面仍有很大的提升空间。

（来源：豆宝AI生成）

AI视频大模型的升级主要集中在自然语言解析能力、画面细节打磨和镜头移动、时长等三大方面。这三个核心因素也决定了AI视频大模型未来能够取得的成果。只有能够理解人类的自然语言，每个人才能真正利用AI视频模型来发挥想象力。升级屏幕和摄像头移动可以提高视频质量。只有时长足够，AI视频模型才能成为用户创作短视频的助手。

此外，虽然AI视频大机型普遍采用收费方案，但价格过于昂贵，因此付费用户数量有限。再加上高昂的训练成本和推理成本，大多数AI视频大模型公司的处境并不乐观。专注于视频生成领域的AI企业，要么与B端客户联手，打造定制化场景的专属版本，要么加速升级迭代，满足C端用户的需求，寻找盈利点。

近期，亚马逊云科技、谷歌等公司相继发布大型AI视频模型。预计明年将会有更多的AI公司推出大型视频模型，整个行业的竞争将越来越激烈。这些已经走在前列的企业应该利用自身优势尽快创造利润点，避免在更加波动的环境中被淘汰。

2025年1月7日，2025年CES（国际消费电子展）即将盛大开幕。射线科技报道团队整装待发，将飞往美国拉斯维加斯，现场报道整个活动，敬请期待。