如何用普通相机拍出高速运动?异步捕捉+AI补帧,低成本实现4D冻结效果

进不了网站?换个网络试试!

如何用普通相机拍出高速运动?异步捕捉+AI补帧,低成本实现4D冻结效果插图

本文的排名首位作者是陈羽田,目前于香港中文大学 MMLab 处于博士二年级,其研究的方向是三维重建与生成,其导师系薛天帆教授。个人主页:

古装剧中,武林高手凌空翻腾之际,长袍扬起那令人惊艳的 0.01 秒弧度;VR电竞里,玩家欲伸手抓住对手“空中定格”的剑锋;爆款视频中,一滴牛奶如皇冠般泼溅,要被 360°无死角重放——究竟怎样运用普通摄像机,将瞬间即逝的这种高速世界“冻结”,使之成为能够反复拆解、传送以及交互的数字化 4D 时空,这已然成为 3D 视觉领域的一大难题。

如何用普通相机拍出高速运动?异步捕捉+AI补帧,低成本实现4D冻结效果插图1

即便如此,由于硬件成本以及数据传输带宽有所限制,当下占据绝大多数的4D采集阵列里头,其所能达到的最高帧率仅仅大概是30FPS;与之形成对照的是,传统的高速摄影一般而言需要甚至还要更高。仅仅是单纯地对相机硬件进行升级,这不仅在价格方面费用高昂,而且还会致使数据通量呈现出指数级的增长态势,在大规模部署的情形下很难得以实现。另外一条能够带来改变的思路则是在重建阶段推行“补帧” 。进入近期阶段,像 4D 高斯溅射(4D )这种动态场景重建方法,能够于简单运动里,经过稀疏时序输入来合成连续帧,进而以一种变相的方式提升帧率,然而,当面对布料摆动、高速旋转这类非线性复杂运动时,中间帧依旧会出现运动不连续、伪影明显的状况。

于是,一个被提出的问题是自然且关键的,这个问题是:能不能仅仅凭借低帧率相机阵列,精确恢复出高质量的高速运动4D模型呢?正是在这样的动机之下,我们提出了“异步采集 + 视频扩散模型修复”的软硬协同解决方案;此方案为高速4D重建开拓了一条新路径,这条路径具备低成本、高质量的特点;它实现了仅仅通过30 FPS的普通相机,恢复出等同于100 - 200 FPS的高质量动态细节 。

如何用普通相机拍出高速运动?异步捕捉+AI补帧,低成本实现4D冻结效果插图2

如何用普通相机拍出高速运动?异步捕捉+AI补帧,低成本实现4D冻结效果插图3

硬件革新:异步捕捉,让相机 “错峰拍摄”

核心思路乃冲破单个相机之速度瓶颈,借由促多个相机协同运作,达成一种“接力式”的拍摄方案,传统的捕捉方案是使相机阵列的所有相机于同一时刻进行拍照,而本文之中的异步捕捉( )方案,却是人为地给不同相机或者相机组设定一处微小的启动延迟。

如何用普通相机拍出高速运动?异步捕捉+AI补帧,低成本实现4D冻结效果插图4

针对传统同步方案(左)而言,所有相机于同一时间点(诸如 t = 0,t = 0.04s)进行捕捉。而我们的异步方案(右),是借助错开相机 2 的启动时间,于 0s 和 0.04s 之间插入了一个全新的捕捉点(t = 0.02s),如此一来有效帧率就直接实现了翻倍。

去设想一下,存在着8台,每台帧率为25FPS的相机 ,要是我们把它们划分成4组 ,每组相机交替着启动 ,如此一来就能把时间切片切割得更为精细 ,达成的有效捕捉帧率;当分成8组时 ,甚至能够达到啊!整个这一过程不借助任何额外增加的硬件成本 ,然而却在时间这个维度上获取到了前所未有的信息密度 。

软件革新:视频扩散模型,为 4D 重建 “精装修”

在时间问题里,异步捕捉尽管可解决时间分辨这一问题,然而却产生了新挑战,在任意某一特定时间点时,参与拍摄的相机数量出现下降情况,这会引发“稀疏视角”此项问题显现,进而在初步的4D重建结果内产生“浮块”等这种视觉伪影。为将此问题加以解决,我们对一个专门用于修复4D重建伪影的视频扩散模型(-fix Video Model)进行了训练。

如何用普通相机拍出高速运动?异步捕捉+AI补帧,低成本实现4D冻结效果插图5

该模型的核心功能在于,接收一个视频作为输入,这个视频包含重建伪影 ,接着生成一个高质量的精修视频作为输出 。关 键思想在此 ,作为输入的这个视频 ,虽说在视觉方面并非完美 ,但它给扩散模型提供了修复所需的关键时空上下文 ,也就是场景正确的空间结构以及物体的核心运动信息 。模型凭借这些上下文当作引导 ,致力于去除伪影并且补全细节 。

要达成此功能,我们构建了个针对性的训练数据集哦。我们是在高质量的4D数据上模拟异步捕捉过程,借此生成含典型伪影的降质视频呢。之后,我们把这些降质视频跟原始的真值视频(Truth) pair在一起,再通过对大规模预训练视频模型进行微调(Fine-),让其去学习从含伪影的输入到清晰输出的映射关系哟。

和常见的图像扩散模型相比较而言,我们所运用的视频模型的核心优势之处在于确保 “时间一致性 ( )”。逐帧进行修复,容易在连续帧之间引发纹理闪烁之类的不一致状况,而我们的视频模型能够借助时序先验,在消除伪影的同时,生成在时间维度方面连贯、平滑的动态成果。

整体流程:一个 “重建 - 优化” 的迭代框架

将硬件捕捉跟 AI 算法关联起来的我们的方法,构建起一个框架,进而形成了一个个迭代式的优化框架 。

初步进行重建工作,具体如下:首先,借助异步捕捉得到的视频数据,去重建一个初步的4D高斯类模型,此模型能够捕捉高速动态情形,不过存在视觉伪影现象 。

2. 生成伪真值(Truth):紧接着,运用初步模型去渲染出带有伪影的视频,这些视频会被用作我们视频扩散模型的条件输入。

3. 视频增强(Video):把渲染视频送进视频扩散模型中,这个模型承担去除伪影以及提升视频质量的责任,最后输出增强后的视频 。

4. 模型优化(Model):最后而言,把增强之后的高质量视频当作新的监督信号(),用来进一步对4D高斯模型实施优化,进而显著地提高最终的重建质量。

完整架构是,先有异步视频,接着进行初步重建,随后开展视频增强,最后对4D模型予以优化 !

方法效果

在对DNA - 和两大公开数据集做出测试时,在峰值信噪比(PSNR)这一核心指标方面,我们的方法超越了多种当前顶尖(SOTA)方法,其中涵盖K - 、4DGS、GS4D 。在结构相似性(SSIM)这一核心指标方面,我们的方法也超越了那些包括K - 、4DGS、GS4D 在内的多种当前顶尖(SOTA)方法。在感知质量(LPIPS)这一核心指标方面,我们的方法同样超越了包含K - 、4DGS、GS4D 等的多种当前顶尖(SOTA)方法。

如何用普通相机拍出高速运动?异步捕捉+AI补帧,低成本实现4D冻结效果插图6

如何用普通相机拍出高速运动?异步捕捉+AI补帧,低成本实现4D冻结效果插图7

如何用普通相机拍出高速运动?异步捕捉+AI补帧,低成本实现4D冻结效果插图8

专门搭建一套多视角捕捉系统,这系统含有12个25FPS相机,目的是在真实世界里验证我们的想法,实验表明,即便处于真实且复杂的异步捕捉环境当中,我们的方法依旧能够稳健地重建出高质量、时空一致的4D内容。

如何用普通相机拍出高速运动?异步捕捉+AI补帧,低成本实现4D冻结效果插图9

如何用普通相机拍出高速运动?异步捕捉+AI补帧,低成本实现4D冻结效果插图10

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论