OpenAI发布AI视频大模型Sora Turbo,仅支持20秒视频生成,处于小范围测试阶段

进不了网站?换个网络试试!

在Sora之前,海外AI公司就已经开发了视频模型,但直到今年2月Sora首次亮相,视频模型行业才真正进入黄金发展期。然而,带动大型视频模型快速发展的Sora似乎已经落后了。

且不说我们可能比较陌生的海外国家,仅在国内市场,就涌现了不下20个大型AI视频模型。互联网巨头腾讯、阿里巴巴、字节跳动等,各自推出了大型AI视频模型。从行业角度来看,AI视频大模型赋予大模型理解和重构现实世界的能力。从用户的角度来看,AI视频大模型给了我们发挥想象力的无限可能。

与通用场景的大型语言模型不同,大型视频模型的使用场景相对更加专业。因此,现阶段,你基本上需要付费才能生成你喜欢的视频。免费用户只能获得系统积分或每日生成的免费视频数量,并且可能无法体验某些高级功能。正因为如此,不关注AI大模型的朋友可能不知道国内有哪些视频大模型。

接下来,肖雷将盘点目前国内知名的六大AI模型,并分析其功能特点。也许将来它们会成为你手中将想法和灵感转化为现实的工具。

国产视频模特跃居前列,Sora成?

国内大型视频机型有很多,功能和体验差异较大。经过几个月的改进,大多数都可以识别人类自然语言,而不是依赖限定符来生成内容。这对于大视频模式来说是一小步,但对于互联网行业来说却是一大步。只有理解自然语言,我们才有能力将想法或小说的内容转化为图像。

至于如何选择视频大模特,别着急,跟着小雷看看互联网巨头的视频大模特表现如何,也许你心里就有答案了。

1、科灵:行业先锋,经验丰富。

训练大型视频模型需要大量视频资源,视频平台具有先天优势。 Sora发布仅4个月后,快手科技旗下AI团队就推出了视频大模型,目前已经进化到1.5版本。就小雷的经历而言,科灵的经历足以在国内众多大型视频模特中跻身前三。

科灵支持文字视频和图片生成视频(也可添加文字描述)两种模式,并且可以调整创意想象和创意关联性。科灵1.5大模型的免费用户可以使用文声视频功能生成长达5秒的高质量视频(1.5版本不支持生成标准质量视频,1.0版本可以生成10秒标准质量视频)。使用图胜视频功能,可以生成长达 10 秒的标准质量或 5 秒的高质量视频,并支持摄像机移动调节。

肖雷这样形容它:“一片安静的海滩,一轮圆月高高挂在天空,微风吹动海滩上的椰子树,发出沙沙的声音,一只小猫懒洋洋地躺在海滩上,舔着前面的毛。”腿。”生成了一个视频用于描述。具体结果如下。无论是舔头发还是随风吹动椰子树,细节层次都非常高。唯一明显的缺陷可能是生成的结果是在白天,而不是小雷描述的晚上。

OpenAI发布AI视频大模型Sora Turbo,仅支持20秒视频生成,处于小范围测试阶段插图

(来源:科灵盛)

作为国内首批大规模AI视频模型之一,科灵的表现极其出色,并提供了丰富的功能选择。期望科灵能尽快推出更长版本的生成视频,满足微短剧的要求,帮助微短剧作者创作视频,降低微短剧的制作成本,从而提升科灵的实用价值。

2、梦想:语言分析能力强,但缺乏敏捷意识。

快手推出客灵后,抖音也不甘示弱,也推出了视频大模极萌。

除了文声视频和图声视频外,极萌还新增了口型同步功能,即导入图片和视频后,再上传文字或录音,极萌可以对视频进行调整。极萌虽然发布较晚,但更新迭代速度非常快。截至目前,官网已提供Video 1.2、Video 2.0、Video 2.0 Pro三个版本。

需要注意的是,大模型注册后将获得60积分。 Video 1.2大型模型将分别需要4/6/8个点来生成4/6/8秒的视频。 Video 2.0 模型需要 5 个点才能生成 5 秒的视频。 Video 2.0 Pro 型号需要 5 分。该模型需要 20 个点才能生成视频。

小雷使用相同的描述符使用 Dream Video 2.0 Pro 模型生成视频。质量相当不错,小雷描述的场景基本都展现出来了。然而,这段视频并不完美。比如猫的动作过于单调僵硬,缺乏敏捷性,树叶不随风而动。

OpenAI发布AI视频大模型Sora Turbo,仅支持20秒视频生成,处于小范围测试阶段插图1

(来源:梦想一代)

在肖雷看来,季猛理解自然语言的能力比柯灵还要高。描述符中的元素基本都存在,但生成的视频质量略逊于柯灵。

3、混元:功能有待丰富,成长空间大。

说完快手和抖音两大短视频巨头,自然不能把腾讯抛在后面。腾讯近期推出了混元视频模式,并在腾讯元宝App和网页上上线。

腾讯混元视频模型目前仅支持文森特视频,每天可以免费生成4个标准质量和2个高质量视频。小雷还使用了腾讯混元的大模型来生成视频。月亮太大了,给人一种错觉。猫舔毛的动作充满了不和谐。椰子树距离太远,细节不够丰富。

OpenAI发布AI视频大模型Sora Turbo,仅支持20秒视频生成,处于小范围测试阶段插图2

(来源:浑源大模型一代)

或许是因为诞生时间太短,腾讯混元大模型生成的视频质量并不好,明显不如可灵和极萌。不过,有了国内互联网巨头腾讯的支持,相信经过多次迭代升级,这款大机型生成的视频质量将与科灵、极萌相媲美。

4. Vidu:功能丰富,相机运动自然。

作为北京树声科技与清华大学联合研发的大型AI视频模型,Vidu或许没有腾讯、字节跳动那么雄厚的财力,但大模型的性能却丝毫不逊色。该机型还推出了1.5版本,支持文声视频和土声视频。它还支持上传同一主题的不同角度的图片,从而生成更逼真的三维图片。需要注意的是,这个大模型的免费用户只能生成720P的视频。

实测中,Vidu生成的视频质量不亚于科灵和极萌,而且摄像机运动的自然流畅度也比科灵更好。细节也非常丰富,海水、椰子树、风等元素都有展现。如果你仔细观察,你会发现远处有一些人影正在靠近。唯一美中不足的是沙滩质感不足。一般只有刚刚退潮的海滩才会出现类似的情况。

OpenAI发布AI视频大模型Sora Turbo,仅支持20秒视频生成,处于小范围测试阶段插图3

(图片来源:Vidu生成)

维杜的表现已经相当不错了。在开放其API并探索商业模式后,Vidu大概率可以获得大量投资。 Vidu可以用这笔投资购买芯片和视频资源。有了足够的训练大型模型的视频资源和算力支持,Vidu 可以加快进度。

5.清影:与清华同血统,但与维杜不同。

智浦清研的前身是清华大学计算机系知识工程研究实验室团队。和维杜是同一门派,而且更加正统。

智浦清研开发的AI视频大模清功能极其丰富,支持文森视频、图胜视频。其中文森视频可以调整视频风格、情感氛围、镜头移动方式等参数,图胜视频最长支持16秒4K。 60帧视频生成是小雷经历过的大视频模型中最长的视频生成。

然而青影生成的视频让小雷失望了。不说别的,我的猫在哪里? ? ?而且从图片上几乎无法看出这是一段视频。小雷差点以为我生成的是一张图片。

OpenAI发布AI视频大模型Sora Turbo,仅支持20秒视频生成,处于小范围测试阶段插图4

(来源:青影一代)

与同校出身的维杜相比,青影的问题就非常明显了。自然语言理解能力可能存在问题,需要进一步提高。

6.:画面很美,但是动作很僵硬。

中国普通网友可能对爱视科技比较陌生,但其创始人王长虎曾担任微软亚洲研究院负责研究员,后转投字节跳动,先后担任人工智能技术总监、视觉技术总监等职务,主导字节跳动大视觉模型的基础建设工作。

爱视科技的视频模型功能也很丰富,支持特效、风格、比例等元素的设置和调整。它还可以预设角色并生成最长 8 秒的视频。不过注册奖励积分只有90点,每天都会有30点积分。生成5秒视频需要30点,生成8秒视频需要60点。

从生成的视频来看,其特点正如它的名字一样美观。画面的基调非常令人愉悦。小猫的毛发和背后水波纹的细节都很到位。

OpenAI发布AI视频大模型Sora Turbo,仅支持20秒视频生成,处于小范围测试阶段插图5

(图片来源:生成)

和季猛一样,生成视频的问题也出在猫身上。猫的动作过于刻意,显得僵硬。尽管存在不足,但其表现却十分出色,让我们看到了爱石科技的实力。

视频大型模型大战,细节决定成败

几个月的时间,国内AI企业在大视频模型领域从无到有迈出了关键的一步,现在正从无到有发展。就小雷的体验来看,可灵、极萌、维度都表现出色,并列第一梯队,腾讯混元视频模特排名第二梯队,青影排名第三梯队。

由于使用场景、风格要求等细节不同,大视频模型的输出结果可能存在一定差异。小雷的经历并不能展现出这些大视频模型的全部实力。

即使是性能不错的大机型,在细节上也存在一定的漏洞。除了上面经常提到的猫动作僵硬之外,还有一种非常明显且常见的情况,那就是海滩上的沙子不会因为猫的动作而改变。并流动。虽然AI视频大模型不断升级迭代并取得了可观的成果,但在细节方面仍有很大的提升空间。

OpenAI发布AI视频大模型Sora Turbo,仅支持20秒视频生成,处于小范围测试阶段插图6

(来源:豆宝AI生成)

AI视频大模型的升级主要集中在自然语言解析能力、画面细节打磨和镜头移动、时长等三大方面。这三个核心因素也决定了AI视频大模型未来能够取得的成果。只有能够理解人类的自然语言,每个人才能真正利用AI视频模型来发挥想象力。升级屏幕和摄像头移动可以提高视频质量。只有时长足够,AI视频模型才能成为用户创作短视频的助手。

此外,虽然AI视频大机型普遍采用收费方案,但价格过于昂贵,因此付费用户数量有限。再加上高昂的训练成本和推理成本,大多数AI视频大模型公司的处境并不乐观。专注于视频生成领域的AI企业,要么与B端客户联手,打造定制化场景的专属版本,要么加速升级迭代,满足C端用户的需求,寻找盈利点。

近期,亚马逊云科技、谷歌等公司相继发布大型AI视频模型。预计明年将会有更多的AI公司推出大型视频模型,整个行业的竞争将越来越激烈。这些已经走在前列的企业应该利用自身优势尽快创造利润点,避免在更加波动的环境中被淘汰。

2025年1月7日,2025年CES(国际消费电子展)即将盛大开幕。射线科技报道团队整装待发,将飞往美国拉斯维加斯,现场报道整个活动,敬请期待。

OpenAI发布AI视频大模型Sora Turbo,仅支持20秒视频生成,处于小范围测试阶段插图7

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论