快手 LivePortrait 技术探秘:平衡效率与可控性,实现全网快速走红

进不了网站?换个网络试试!

方法介绍

不同于目前主流的基于扩散模型的方法,本文探索并拓展了隐式关键点框架的潜力,从而平衡了模型计算效率与可控性,注重更好的泛化性、可控性和实用效率。为了提高生成能力与可控性,采用了69M高质量训练帧、视频图像混合训练策略、升级网络结构,并设计了更好的动作建模与优化方法。此外,将隐式关键点视为面部混合形变()的有效隐式表示,并在此基础上精心提出了拟合()和重​​定向()模块。这两个模块都是轻量级的MLP网络,因此在提高可控性的同时,计算成本可以忽略不计。即使与一些现有的基于扩散模型的方法相比,仍然很有竞争力。同时,在GPU上,的单帧生成速度可以达到12.8ms,如果进一步优化,比如有望达到10ms以内!

模型训练分为两个阶段,第一阶段为基础模型训练,第二阶段为拟合及重定向模块训练。

第一阶段基础模型训练

快手

第一阶段基础模型训练

在模型训练的第一阶段,对Face[1]等隐式基于点的框架进行了一系列改进,包括:

高质量训练数据收集:我们使用了公开视频数据集 [2]、MEAD [3]、[4] 和风格化图像数据集 AAHQ [5],此外还使用了大规模 4K 分辨率不同表情和姿态的人像视频、超过 200 小时的说话人像视频、私有数据集 [6] 以及一些风格化的视频和图片。我们将长视频拆分为 30 秒以内的片段,并确保每段仅包含一个人。为保证训练数据的质量,我们使用了快手开发的 KVQ [7](快手开发的一种视频质量评估方法,可以全面感知视频的质量、内容、场景、美学、编码、音频等特征并进行多维度评估)过滤掉低质量的视频片段。总训练数据包括 69M 视频,包括 18.9K 个身份和 60K 个静态风格化人像。

混合视频-图像训练:仅使用真人肖像视频训练的模型对于真人肖像表现良好,但对风格化肖像(例如动漫)缺乏泛化能力。风格化肖像视频相对较少,仅收集了约 1.3K 个来自不到 100 个身份的视频片段。相比之下,高质量的风格化肖像图像更加丰富,收集了约 60K 个不同身份的图像,提供了多样化的身份信息。为了利用这两种数据类型,将每幅图像视为一帧视频片段,并在视频和图像上训练模型。这种混合训练提高了模型的泛化能力。

升级网络结构:将典型隐式关键点估计网络(L)、头部姿势估计网络(H)和表情形变估计网络(Δ)统一为单个模型(M),并使用-V2-Tiny[8]作为其结构,从而直接估计输入图像的典型隐式关键点、头部姿势和表情形变。此外,受到人脸相关工作的启发,使用效果更好的SPADE[9]的解码器作为生成器(G)。隐式特征(fs)经过形变后被精心输入到SPADE解码器中,其中隐式特征的每个通道都作为语义图生成驱动图像。为了提高效率,还插入[10]层作为(G)的最后一层,从而将分辨率从256提高到512。

更灵活的动作变换建模:原有的隐式关键点计算建模方法忽略了缩放因子,使得缩放很容易被学习到表情系数中,增加了训练难度。为了解决这个问题,我们在建模中引入了缩放因子。研究发现,缩放规则投影会导致可学习的表情系数过于灵活,在跨身份驾驶时造成纹理粘连。因此,所采用的变换是在灵活性和可驾驶性之间的折衷。

关键点引导的隐式关键点优化:原始的隐式关键点框架似乎缺乏生动地驱动面部表情(例如眨眼和眼球运动)的能力。具体来说,驱动结果中肖像的眼睛方向和头部方向往往保持平行。我们将这些限制归因于细微面部表情的无监督学习难度。为了解决这个问题,引入了 2D 关键点来捕捉微表情,并使用关键点引导损失()作为隐式关键点优化的指导。

级联损失函数:采用人脸隐式关键点不变损失(LE)、关键点先验损失(LL)、头部姿势损失(LH)和变形先验损失(LΔ)。为了进一步提高纹理质量,采用感知和 GAN 损失,这些损失不仅应用于输入图像的全局区域,还应用于人脸和嘴巴的局部区域,表示为级联感知损失(LP,)和级联 GAN 损失(LG,)。人脸和嘴巴区域由 2D 语义关键点定义。人脸身份损失()也用于保留参考图像的身份。

第一阶段的所有模块都是从头开始训练的,整体的训练优化函数(Lbase)是上述损失项的加权和。

第二阶段装配和重定向模块培训

隐式关键点可以看作是一种隐式混合变形,而且发现这种组合在轻量级MLP的帮助下可以很好地学习到,并且计算成本可以忽略不计。考虑到实际需求,设计了拟合模块、眼睛重定向模块和嘴巴重定向模块。当参考人像被裁剪后,被驱动的人像会从裁剪后的空间粘贴回原始图像空间。拟合模块的加入是为了避免粘贴过程中出现像素错位,例如肩部区域。从而可以在更大的图像尺寸或合影上进行动作驱动。眼睛重定向模块旨在解决跨身份驱动时眼睛闭合不完全的问题,尤其是小眼睛的人像驱动大眼睛的人像时。嘴巴重定向模块的设计理念与眼睛重定向模块类似,通过驱动参考图的嘴巴到闭合状态来规范化输入,从而更好地进行驱动。

快手

第二阶段模型训练:拟合和重定向模块训练

拟合模块:训练过程中,拟合模块(S)的输入为参考图像的隐含关键点(xs)和另一身份的驱动框的隐含关键点(xd),并估计驱动隐含关键点(xd)的表情变化(Δst)。可以看到,与第一阶段不同,这里使用跨身份动作代替同身份动作,增加训练难度,旨在使拟合模块更具泛化能力。接下来更新驱动隐含关键点(xd),对应的驱动输出为(Ip,st),此阶段也同时输出自重构图像(Ip,recon)。最后,拟合模块的损失函数(Lst)计算二者肩部区域的像素一致性损失以及拟合变化的正则化损失。

眼部及嘴部重定向模块:眼部重定向模块(Reyes)的输入为参考图隐含关键点(xs)、参考图开眼条件元组以及随机驱动开眼系数,从而估算出驱动关键点的形变变化(Δeyes)。开眼条件元组代表开眼比例,开眼比例越大,表示开眼程度越大。同样,嘴部重定向模块(Rlip)的输入为参考图隐含关键点(xs)、参考图开嘴条件系数以及随机驱动开嘴系数,从而估算出驱动关键点的变化(Δlip)。然后分别通过眼睛和嘴巴对应的形变变化来更新驱动关键点(xd),对应的驱动输出为(Ip,eyes)和(Ip,lip)。 最后,眼部和嘴部重定向模块的目标函数为(Leyes)和(Llip),分别计算眼部和嘴部区域的像素一致性损失、眼部和嘴部变化的正则化损失以及驱动输出的随机驱动系数与开条件系数之间的损失。由于眼部和嘴部的变化(Δeyes)和(Δlip)相互独立,因此在推理阶段可以将它们线性相加,更新驱动隐式关键点。

实验比较

快手

快手

同身份驱动:从上述同身份驱动对比结果可以看出,相比现有的非扩散模型方法和基于扩散模型的方法,其具有更佳的生成质量和驱动精度,能够捕捉到驱动帧的眼睛、嘴巴等细微表情,同时保留参照图像的纹理和身份,即使在较大的头部姿态下也有相对稳定的表现。

快手

快手

跨身份驾驶:从上面的跨身份驾驶对比结果可以看出,与现有方法相比,它可以准确继承驾驶视频中细微的眼部和嘴部动作,在姿态较大时也比较稳定。生成质量略弱于基于扩散模型的方法[11],但与后者相比,它具有极快的推理效率,需要的 FLOP 更少。

扩张

多人合影驾驶:通过适配模块,对于合影,可以使用指定的驾驶视频来驾驶指定的脸部,从而实现多人合影驾驶,拓宽实际应用范围。

快手

视频链接:#rd

动物驱动:不仅对人类肖像有良好的泛化性能,而且在动物数据集上微调后也能准确驱动动物肖像。

人像视频编辑:除了人像照片,给定一个人像视频,例如舞蹈视频,您可以使用驾驶视频来编辑头部区域。借助拟合模块,您可以精确编辑头部区域的表情、姿势等动作,而不会影响非头部区域。

快手

视频链接:#rd

实施与展望

相关技术点已在快手多个业务中落地,包括快手魔法手表、快手私信、快手AI表情玩法、快手直播,以及快手孵化的年轻人普集APP等,并将探索新的实现方式,持续为用户创造价值。此外,在科灵基础模型的基础上,我们还将进一步探索多模态驱动的人像视频生成,以追求更高质量的效果。

参考

[1] Ting-Chun Wang、Arun 和 Ming-Yu Liu。用于视频的一次性自由视角头。CVPR,2021 年。

[2] Arsha, Joon Son Chung 和 . :大型 . 2017 年。

[3] Wang, Wu, Song, Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao, 和 Chen Loy. Mead: 大规模音频人脸识别. ECCV, 2020 年.

[4] R 和 Frank A Russo。 有声读物和歌曲():A,北部的有声读物和歌曲。 PloS one,2018 年

[5] 刘强,秦泽奎,张万,郑文。 :gan 代表脸。 2021 年。

[6] 杨、郑、冯、黄、赖玉坤、万、王、马。 高-. 2023 年在亚洲。

[7] 赵凯,袁坤,孙明,李,文兴。 - 盲人图像感知预

. 在 CVPR,2023 年。

[8] Woo、Hu、Chen、Liu、In So Kweon 和 Xie。

vnext v2:与 和 共同。在 CVPR,2023 年。

[9] Park,刘明宇,王庭春,朱俊彦。 图像与 - . 在 CVPR,2019 年。

[10] Shi, Jose, Husz ´ar, Totz, P, Rob, 和 Zehan Wang。使用子像素的实时图像和视频超级识别。CVPR,2016 年。

[11] 魏,杨泽君,王。 :音频- 的。 arXiv:2403.17694,2024。

本站候鸟号已成立2年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论