扩散模型如何突破瓶颈?提升表征质量是关键

进不了网站?换个网络试试!

关于这个问题,纽约大学谢赛宁团队最近发表的一篇论文找到了一个新的切入点:提高表征质量()。

论文的核心或许可以用一句话来概括:“代表性很重要!”

扩散模型如何突破瓶颈?提升表征质量是关键插图

用谢赛宁的话说,即使你只是想让生成模型重建出好看的图像,你仍然需要先学习强大的表示,然后渲染让图像看起来更漂亮的高频细节。

Yann LeCun之前多次强调过这一点。

扩散模型如何突破瓶颈?提升表征质量是关键插图1

有网友帮谢赛宁在网上想了一个标题:为什么不干脆称这篇论文为“is all you need”(手动狗头)

由于同样的观点,这项研究也被同样在纽约大学的Yann LeCun转发。

扩散模型如何突破瓶颈?提升表征质量是关键插图2

当使用自监督学习训练视觉编码器时,我们知道一个事实,使用具有重建损失(loss)的解码器远不如具有特征预测损失(loss)和崩溃预防机制的联合嵌入架构有效。纽约大学 Xie Senin 小组的这篇论文表明,即使你只对生成像素感兴趣(例如,使用扩散生成漂亮的图片),包含特征预测损失也是值得的,以便解码器的内部表示可以基于预编码-经过训练的视觉编码处理器(例如)用于特征预测。

REPA的核心思想非常简单,就是将扩散模型中的表示与更强大的外部视觉表示对齐。但改善效果却非常显着,这就意味着“他山之石,可以攻玉”。

只需在损失函数中加入相似度最大化函数,就可以将 SiT/DiT 的训练速度提升近 18 倍,同时也刷新了模型的 SOTA 性能,达到了最先进的 FID=1.42。

谢赛宁说,当他第一次看到实验结果时,他很震惊,因为他觉得自己并没有发明什么全新的东西,只是意识到我们几乎完全不理解扩散模型和SSL方法学到的表示。

论文简介

扩散模型如何突破瓶颈?提升表征质量是关键插图3

论文地址:

项目地址:

在生成高维视觉数据方面,基于去噪方法(例如扩散模型)或基于流的模型的生成模型已成为一种可扩展的方法,并且可以有效地挑战零样本图像/视频任务。取得了非常成功的成果。

最近的研究表明,生成扩散模型中的去噪过程可以在模型内部的隐藏状态中引入有意义的表示,但这些表示的质量目前落后于自监督学习方法,例如

作者认为训练大规模扩散模型的一个主要瓶颈是无法有效学习高质量的内部表示。

如果我们能够结合高质量的外部视觉表示,而不是仅仅依靠扩散模型来独立学习,那么训练过程就会变得更加容易。

为了实现这一点,论文引入了一种基于经典扩散架构的简单正则化方法REPA()。

简单来说,就是将从去噪网络中的噪声输入获得的隐藏状态的投影与外部自监督的预训练视觉编码器从干净图像获得的视觉表示*对齐。

这样一个非常直接的策略却取得了惊人的结果:当应用于流行的 SiT 或 DiT 时,模型的训练效率和生成质量都得到了显着的提升。

具体来说,REPA可以将SiT的训练速度加快17.5倍以上,用不到40万步的训练量与700万步训练的SiT-XL模型的性能相匹配,同时实现FID=1.42的SOTA结果。

REPA:使用表示对齐进行正则化

统一视角下的扩散模型+流动模型

由于本文希望同时优化基于流的模型SiT和基于去噪的扩散模型DiT,因此我们首先从统一随机插值的角度简要回顾一下这两个模型。

考虑使用高斯分布 ε~(0,) 在 t∈[0,T] 的连续时间步中向数据 *~p() 添加随机噪声:

其中,αt和σt分别表示t的减函数和增函数。在式(1)给出的过程中,存在一个带有速度场的概率流常微分方程:

第 t 步的分布等于边际概率 pt()。

速度(,t)可以表示为以下两个条件期望之和:

该值可以通过最小化以下训练目标 θ(,t) 来近似:

同时,还有一个扩散系数为wt的逆随机微分方程(SDE),其中边际概率pt()与式(2)一致:

其中,(t,t)为条件期望值,定义为:

对于任何t>0,可以通过速度(,t)计算(,t)的值:

这表明数据t还可以通过求解方程(5)的SDE以另一种方式生成。

上述定义也适用于类似的扩散模型变体,例如 DDPM,但需要离散连续的时间步长。

方法概述

令p()为数据ε的未知目标分布,我们的训练目标是通过模型对数据的学习得到p()的近似值。

为了降低计算成本,最近流行的“潜在扩散”方法()提出学习潜在变量的分布p()= E(),其中E表示来自预训练自动编码器(例如KL- VAE)。

要学习分布 p(),您需要训练扩散模型 θ(t,t)。训练的目标是预测速度。具体方法如上一节所述。

在自监督表示学习的背景下,扩散模型可以被认为是编码器 fθ:⭢ 和解码器 gθ:⭢ 的组合,其中编码器负责隐式学习表示 t 以重建目标 t 。

然而,作者提出,用于生成的大规模扩散模型不擅长表示学习,因此 REPA 引入了外部语义丰富的表示来显着提高生成性能。

扩散模型如何突破瓶颈?提升表征质量是关键插图4

REPA 方法概述

模型观察

扩散模型真的不适合表示学习吗?这需要进一步观察模型来确定。为此,研究人员测量并比较了当前 SOTA 自监督模型的表示差距,包括语义差距和特征对齐。

语义差距

从图2a可以看出,预训练SiT的隐藏层表示在第20层达到最优状态,这与之前的研究结果一致,但仍然落后。

特征对齐

如图2b和2c所示,使用CKNNA值衡量SiT与SiT之间的表示对齐程度后发现,随着模型的增大和训练迭代次数的增加,SiT的对齐效果会逐渐提高,但是即使增加到7M次迭代, 和 之间的对齐程度仍然不足。

扩散模型如何突破瓶颈?提升表征质量是关键插图5

事实上,这种差距不仅仅存在于SiT。根据附录C.2的实验结果,其他基于去噪的生成模型如DiT也存在类似的问题。

缩小代表性差距

那么,REPA 方法如何缩小这种表示差距,以便即使在嘈杂的输入中也可以学习有用的语义特征?

定义N和D分别表示patch数预训练编码器f的嵌入维度。编码器输入是无噪声图像*,输出为*=f(*)εℝN×D。

编码器输出 t = fθ(t) 通过可训练的投影头 hφ (MLP) 投影到 hφ(t)εℝN×D 中。

之后,REPA 负责通过最大化两者之间的块间相似度来对齐 hφ(t) 和 *:

在实际实现中,将此项添加到等式(4)定义的基于扩散的训练目标中,得到总体训练目标:

超参数 λ>0 用于控制模型的去噪目标和表示对齐之间的权衡。

从图 3 的结果中,我们可以看到 REPA 减少了表示中的语义差距。

有趣的是,使用 REPA,仅对齐前几个块即可实现足够程度的表示对齐,从而允许后面的层专注于捕获高频细节,进一步提高生成性能。

扩散模型如何突破瓶颈?提升表征质量是关键插图6

实验结果

为了验证REPA方法的有效性,对两个流行的扩散模型训练目标(即 )进行了实验,包括DiT中改进的DDPM和SiT中的线性随机插值,但实际上其他也可以被认为是训练目标。

使用的模型默认严格遵循SiT和DiT的原始结构(除非另有说明),包括B/2、L/2和XL/2三个参数设置,如表1所示。

扩散模型如何突破瓶颈?提升表征质量是关键插图7

下面的实验旨在回答3个问题:

- REPA 能否显着改善训练?

- REPA 在模型大小和表示质量方面是否可扩展?

- 扩散模型的表示可以与多种视觉表示相一致吗?

REPA 改善视觉变焦

我们首先比较两个 SiT-XL/2 模型在前 400K 次迭代期间生成的图像。它们具有相同的噪声、采样器和采样步骤数,但使用 REPA 训练的模型显示出更好的进步。

扩散模型如何突破瓶颈?提升表征质量是关键插图8

REPA在各方面展现出强大的可扩展性

研究人员还改变了预训练编码器的模型大小,并检查了 REPA 的可扩展性。

图 5a 结果表明,与更好的视觉表示相结合可以改善生成和线性检测结果。

此外,如图5b和c所示,增加模型大小可以带来生成和线性评估更快的增益。也就是说,模型尺寸越大,REPA的加速效果越明显,表现出很强的可扩展性。性别。

扩散模型如何突破瓶颈?提升表征质量是关键插图9

REPA显着提高训练效率和生成质量

最后,论文比较了普通 DiT 或 SiT 模型在训练中使用 REPA 前后的 FID 值。

在没有引导的情况下,REPA 在 400K 次迭代时达到 FID=7.9,这比普通模型在 7M 次迭代后的性能要好。

此外,当使用无分类器引导时,带有 REPA 的 SiT-XL/2 优于 SOTA 性能 (FID=1.42),同时将迭代次数减少了 7 倍。

扩散模型如何突破瓶颈?提升表征质量是关键插图10

作者简介

于宇

扩散模型如何突破瓶颈?提升表征质量是关键插图11

本文作者是 KAIST(韩国科学技术院)人工智能专业的最后一年博士生 Yu。他还获得了韩国科学技术院的数学和计算机科学学士学位。

他的研究重点是减少训练(和采样)大型生成模型的内存和计算负担,特别对大规模和高效的视频生成感兴趣;在攻读博士学位期间,他还曾在 和 担任实习生。

参考:

本站候鸟号已成立2年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论