量子位|官方帐户
刚才,香港大学Bytes联手发布了最新的视频生成模型,这使网民称其为疯狂。
有些人甚至直接使用RIP营销,用户和创作者。
您敢相信以下场景不是来自OPPA电视连续剧,而是来自AI!
创建的新模型称为Goku(),是一系列基于流程的模型,旨在联合产生图像和视频,支持视频,基于图片的视频和 。
还有Goku+,这是视频广告的基本模型。这位官员直言不讳地说:“它可以制作广告视频,比原始视频低100倍。”
Goku手头生成产品广告和捏。无论是展示食物还是化妆品,它都是非常现实和自然的,角色的表情很难看到缺陷:
食物广播产生的以下视频使人们无法说出真相或错误:
取出带有白色背景的皮鞋的照片,然后将它们移到摊位上以展示:
您甚至可以基于一个产品图片 +文本来生成具有字符的交互式解释视频。
:
女人是老鼠,她的头左右。她的手放在桌子上,嘴巴张开并与她一起张开。她和她面前的人。彩色的彩色 Mouse产品后面,头部左右轻轻旋转,在说话时表现出生动的表情。她的手放在桌子上,构造了产品,而她的嘴张开并闭合,清楚地强调,传达了她的热情和详细的解释。相机保持稳定,捕捉了她的表现力手势和在她面前的产品的明亮设计。
可以举办各种场景,时装秀没有问题:
在定性和定量评估中,悟空的文本对图像生成0.76和DPG基座得分为83.65;文本到视频的一代得分为84.85,一口气赢得了新的Sota。
网民现在无法坐着,他们都说悟空和悟空+是颠覆性的。
将AI视频推到一个新的水平!
我手中的sora真的不太好吃。
基于流视频的基本模型
根据本文,悟空是基于流的视频生成的基本模型。
具体而言,悟空使用校正流(流)来实现图像和视频的联合生成。
它的核心组件包括图像视频关节VAE,建筑和校正流程公式 -
首先使用Image-Video将VAE组合在一起,将图像和视频压缩到共享的潜在空间中,然后全心全意地对潜在表示建模以实现统一的图像和视频。
校正流程公式基于RF(流)算法,并将其应用于图像视频联合生成,该算法的收敛速度比扩散模型更快。
在培训方面,悟空采用了多阶段培训策略。
首先,对图形和文本语义对齐进行预训练,然后对联合图像视频训练进行,最后对不同模式进行微调,以逐渐提高模型的产生能力。
值得注意的是,为了培训悟空,研究人员还为大规模高质量数据集准备了有效的培训基础设施。
在数据方面,研究人员构建了大约3600万次视频和1.6亿张图像的大规模数据集,并使用了各种数据过滤和增强技术来提高数据质量。
为此,他们提出了一个全面的数据处理过程,包括基于审美评分的视频和图像过滤,基于OCR的内容分析和主观评估。
他们还使用多模式的大语言模型来生成信息密集型和上下文一致的标题,以用于视频和图像数据,并继续使用其他大型语言模型来完善它们,以提高其准确性,流利度和描述丰富性。
基础架构优化包括平行策略,细粒度激活检查点技术,容错机制以及由 Big Model团队和香港香港大学共同提出的技术。
与基线方法相比,节省的性能提高高达529.22次,加载的3.51次。
为了满足不同的计算要求和性能要求,研究团队提供了三种规模的模型:用于实验的GOKU-1B,标准版Goku-2b和Goku-8B。
不幸的是,该官员只发布了一份技术报告,并且暂时无法播放。网民等不及了
纸链接:
项目主页:
[1]
[2]
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论