它可以解决样式过度拟合,文本对齐和图像不稳定性的问题。通过跨模式ADAIN技术,进行了文本和样式功能,使用教师模型来稳定布局,并引入了基于样式的无分类器指导,以准确控制样式元素,提高生成的图像的质量和稳定性,而无需其他培训,并且使用阈值较低!
近年来,随着扩散模型的发展,样式转移技术在文本指导的图像生成任务中取得了重大突破。
但是,尽管现有方法可以实现出色的风格化效果,但它们对文本信息的精确控制仍然不足。当大多数方法将样式图像与文本描述混合在一起时,它们通常会使生成结果过度依赖参考样式图像,从而降低对文本内容的响应能力。
“以样式为主导的不平衡问题”使用户难以准确控制图像的颜色,结构或其他详细属性,并可能引入不稳定的因素,例如效应,这进一步限制了其实用性。
为了解决这些问题,西湖大学,福丹大学,南南技术大学和香港科学技术有限公司的研究人员提出了一种方法,可以提高文本控制能力,提高样式选择灵活性,并提高图像稳定性,而无需其他培训。
纸链接:项目地址:地址:演示地址:
研究人员还可以在此网站上提供在线演示,可以单击一下。
目前,该研究已成功完成了CVPR 2025,相关代码已开源。
样式转移的挑战:如何过度解决问题
在文本驱动的样式转移任务中,仍然存在两个主要挑战,这些挑战极大地限制了生成的结果的灵活性和稳定性。
文本风格的对齐问题当前样式转移方法在处理文本和样式图像的融合时通常会面临文本和图像条件之间的对齐问题。
传统方法通常过多地依赖参考样式图像,从而导致对样式特征转移的精确控制,从而使生成的图像与文本条件不完全匹配。文本和样式之间的不和谐不仅削弱了生成的图像的文本响应能力,而且还使模型在面对复杂文本提示时缺乏适应性。
在样式传输过程中,棋盘现象,不稳定的布局或重复模式的问题通常在生成的图像中发生,例如棋盘效应。
这种现象将显着影响生成图像的视觉质量,尤其是在大规模样式转移任务中,在大规模的传输任务中,布局的一致性和稳定性通常很难保证。这不仅损害了图像的美学效果,而且限制了实用应用中样式转移技术的稳定性和可靠性。
创新的解决方案
为了应对上述问题,研究人员提出了几项核心创新,旨在提高文本驱动样式转移模型的灵活性和稳定性:
跨模式自适应实例正则化技术(跨模式ADAIN)
传统的基于适配器的样式转移方法通过简单加权求和方法将文本与样式图像的条件信息结合在一起,但是此方法将导致样式过拟合,最终图像的文本对齐能力将降低。
为了解决这个问题,研究人员提出了跨模式自适应实例正则化(跨模式ADAIN),该实例正规化(Cross-Modal Adain)是根据经典ADAIN技术进行了创新的,适合于文本驱动的样式转移任务。
该方法的核心思想是:首先分别提取文本和样式图像的功能,并生成独立的功能网格。然后,借助Adain技术,文本功能和样式功能被标准化和融合,以便样式图像的属性可以自适应地调整文本功能,从而有效地保留样式的完整性,同时确保文本信息的准确交流,并最终生成满足文本要求的样式化图像。
该技术的优点是,它解决了传统加权求和方法中的文本和样式信息冲突的问题,以便两者可以在同一嵌入空间中和谐地共存。
更重要的是,此方法不依赖其他培训过程,即使不更改现有模型体系结构,避免复杂的超参数调整,并显着提高了生成的图像的质量和准确性,也可以无缝替换传统的适配器方法。
稳定的教师模型
在图像生成任务中,布局稳定性对于最终的视觉效果至关重要。研究人员发现,在样式转移过程中的一个常见问题是棋盘效应,即生成的图像具有不自然的重复模式,这会影响图像的整体美学。
为了应对这一挑战,研究人员提出了一种插头和游戏方法,将样式转移方法中的相应模型作为教师模型,在生成过程中提供了布局指导。
具体而言,该方法通过教师模型指导了样式化图像生成的过程:在每个步骤中,由教师模型生成的注意图被原始风格化图像的注意力图取代,从而确保图像的空间结构特征稳定并可以实现交叉形象一致性。
在实验中,可以观察到两个重要现象:
首先,与更换跨注意地图相比,用自我发项图替换可以更好地稳定图像布局并确保布局在交叉式图像生成过程中的一致性;
其次,更换自我发挥的地图只需要在的早期阶段进行。如果教师模型的影响持续太长,则可能导致风格特征的丧失。
基于样式图像(style-CFG)的无分类器引导程序
在样式转移中,当参考样式图像包含各种不同的样式元素(例如卡通风格与叶子质地或夜视元素的组合)时,通常会出现样式模糊问题。
在这种情况下,现有方法通常会发现很难有效区分和控制不同的样式元素,从而导致生成的图像中的混合样式,并且无法准确突出所需的特定样式特征。
为了应对这一挑战,研究人员在扩散模型中使用了常用的无分类器引导程序(CFG)技术,并提出了基于样式的无分类器引导程序(基于样式的-Free-Free,SCFG)。这种方法允许用户清楚地指定需要强调并有效过滤无关或相互冲突的元素的样式特征,从而实现更精确的样式转移。
例如,如果参考图像包含卡通风格和落叶的元素,则样式CFG可以确保最终生成的图像仅保留卡通风格,同时删除倒下的叶子以避免冲突和模糊样式元素的模糊,从而在图像生成过程中提供更准确的样式调整,从而更加准确地进行了调整,并提供了更准确的限制和满足乘客的需求。
实验结果
实验结果表明,该模型可以在许多方面超越现有的样式转移技术:就文本对齐而言,它可以准确捕获文本中指定的样式属性,例如颜色信息,确保生成的图像忠实于文本提示。在图像稳定性方面,该模型有效地避免了诸如内容泄漏和布局不稳定之类的问题。
它还为复杂的文本条件展示了强大的处理能力,并且可以在详细的文本描述下精确地融合样式和内容。
基于样式的分类器生成指南(基于样式的无样式,SCFG)在提出的方法中提出的也已进行了实验验证,并通过一系列实验评估了该方法的有效性,并证明了比传统的无分类器指导方法具有显着优势。
定量实验和用户研究实验表明,它超过了多个指标的传统方法,并证明了其强大的多功能性和鲁棒性。
结论和前景
该提案代表了文本驱动风格转移技术的重要进步,尤其是在文本控制功能,样式选择性转移和图像生成稳定性方面。该方法不仅在学术领域具有重要的价值,而且还为数字艺术创作和广告设计等行业提供了强大的技术支持。
更重要的是,能够在没有其他培训的情况下直接申请会大大降低使用的障碍,并在多种样式的转移任务中取得了出色的成果。
参考:
本文来自作者:Xin 的微信公共帐户“ Xin ”,由36KR发表并授权。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论