新智元报道

编辑:LRST

【新智元导读】StyleStudio能解决风格迁移中风格过拟合、文本对齐差和图像不稳定的问题,通过跨模态AdaIN技术融合文本和风格特征、用教师模型稳定布局、引入基于风格的无分类器引导,实现精准控制风格元素,提升生成图像的质量和稳定性,无需额外训练,使用门槛更低!

近年来,随着扩散模型的发展,风格迁移技术在文本引导的图像生成任务中取得了显著突破。

然而,尽管现有方法可以实现优秀的风格化效果,但其对文本信息的精准控制仍存在明显不足,大多数方法在融合风格图像与文本描述时,往往会让生成结果过度依赖参考风格图像,导致对文本内容的响应能力下降。

「风格主导的失衡问题」使得用户在输入文本提示时难以精准控制图像的颜色、结构或其他细节属性,还可能引入不稳定因素,例如棋盘格效应,进一步限制了其实用性。

为了解决这些问题,西湖大学、复旦大学、南洋理工大学、港科广的研究人员提出了StyleStudio,一种无需额外训练即可增强文本控制能力、提升风格选择灵活性,并改善图像稳定性的方法。


论文链接: https://arxiv.org/abs/2412.08503

项目地址:https://stylestudio-official.github.io/

Github地址:https://github.com/Westlake-AGI-Lab/StyleStudio

Demo地址:https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio

研究人员还在Huggingface上提供了在线Demo,点击即可体验。


目前,该研究成功中稿CVPR 2025,相关代码已经开源。

风格迁移的挑战:如何克服「过拟合」问题

在文本驱动的风格迁移任务中,仍然存在两个关键的挑战,极大限制了生成结果的灵活性和稳定性。

文本与风格的对齐问题当前的风格迁移方法在处理文本与风格图像的融合时,常常面临文本与图像条件之间的对齐难题。

传统方法往往会过度依赖参考风格图像,导致风格特征的迁移失去精确控制,进而使得生成的图像与文本条件不完全匹配,文本与风格之间的失调不仅削弱了生成图像的文本响应能力,也使得模型在面对复杂文本提示时缺乏适应性。


棋盘格现象在风格迁移过程中,生成图像中经常会出现布局不稳定或重复图案的问题,例如棋盘格效应。


这种现象会显著影响生成图像的视觉质量,特别是在大范围的风格迁移任务中,布局的连贯性和稳定性往往难以保证。这不仅损害了图像的美学效果,也限制了风格迁移技术在实际应用中的稳定性和可靠性。

StyleStudio的创新解决方案

针对上述问题,研究人员提出了几项核心创新,旨在提升文本驱动的风格迁移模型的灵活性与稳定性:

跨模态自适应实例正则化技术(Cross-modal AdaIN)

传统基于适配器(Adapter-Based)的风格迁移方法通过简单的加权求和方式,将文本与风格图像的条件信息进行融合,但这种方式会导致风格过拟合,最终图像的文本对齐能力下降。

为了解决这一问题,研究人员提出了跨模态自适应实例正则化(Cross-modal AdaIN),在经典AdaIN技术的基础上进行了创新,适用于文本驱动的风格迁移任务。

该方法的核心思想是:先分别提取文本和风格图像的特征并生成独立的特征网格,然后借助AdaIN技术,将文本特征与风格特征进行归一化融合,使得风格图像的属性能够自适应地调节文本特征,从而有效保留风格的整体性,同时确保文本信息的准确传达,最终生成符合文本要求的风格化图像。

该技术的优势在于:解决了传统加权求和方法中存在的文本与风格信息冲突问题,使得两者能够在同一个嵌入空间中和谐共存。

更重要的是,这一方法不依赖额外的训练过程,即使在不改变现有模型架构的情况下,可以无缝替代传统的适配器方法,避免了复杂的超参数调节,显著提升了生成图像的质量和准确性。


教师模型稳定生成

在图像生成任务中,布局稳定性对最终的视觉效果至关重要。研究人员发现,在风格迁移的过程中,常见的一个问题是棋盘格效应,即生成的图像出现不自然的重复图案,从而影响图像的整体美感。

为了应对这一挑战,研究人员提出了一个一种即插即用(plug and play)的方法,利用风格迁移方法中对应的Stable Diffusion模型作为教师模型,在生成过程中提供布局指导。

具体来说,这种方法通过教师模型来引导风格化图像生成的过程:在每一个去噪步骤中,用教师模型生成的注意力图替代原本风格化图像的注意力图,从而确保图像的空间结构特征稳定并且可以实现跨风格图一致。


在实验中,可以观察到两个重要现象:

首先,相较于替换交叉注意力图,用自注意力图进行替换能够更好地稳定图像布局,并且保证了在跨风格图像生成过程中布局的一致性;

其次,自注意力图的替换只需要在去噪的初期进行,若教师模型的影响延续过长,则可能会导致风格特征的丧失。

基于风格图像的无分类器生成引导(Style-CFG)

在风格迁移中,当参考风格图像融合了多种不同的风格元素(如卡通风格与树叶纹理或夜景元素的结合)时,往往会出现风格模糊的问题。

这种情况下,现有的方法往往难以有效区分和控制不同风格元素,导致生成的图像中风格混杂,无法精确突出所需的特定风格特征。

为了应对这一挑战,研究人员借鉴了扩散模型中常用的无分类器引导(CFG)技术,提出了基于风格的无分类器引导(Style-Based Classifier-Free Guidance, SCFG)。该方法通过对多种风格元素进行选择性控制,允许用户明确指定需要强调的风格特征,并有效过滤掉不相关或冲突的元素,从而实现更精确的风格迁移。

举例来说,若参考图像中包含卡通风格与落叶的元素,Style-CFG可以确保最终生成的图像仅保留卡通风格,同时去除落叶部分,避免风格元素的冲突和模糊,提供了一种灵活且可控的风格迁移机制,使得图像生成过程中的风格调整更加精准、符合用户需求。


实验结果

实验结果表明,StyleStudio模型能够在多个方面超越现有的风格迁移技术:在文本对齐方面,StyleStudio能够精确捕捉文本中指定的风格属性,如颜色信息,确保生成图像忠实于文本提示。在图像稳定性方面,模型有效避免了内容泄漏和布局不稳定等问题。


针对复杂的文本条件,StyleStudio同样展现出了强大的处理能力,能够在细致的文本描述下实现精确的风格和内容融合。


StyleStudio中提出的基于风格图像的无分类器生成引导(Style-Based Classifier-Free Guidance,SCFG)也经过了充分的实验验证,通过一系列实验评估了该方法的有效性,并展示了相对于传统的无分类器指导方法的显著优势。


定量实验与用户调研实验表明,StyleStudio在多项指标上超越了传统方法,展现了其强大的通用性和稳健性。


结论与展望

StyleStudio的提出代表了文本驱动风格迁移技术的一次重要进步,尤其在文本控制能力、风格选择性迁移和图像生成稳定性等方面取得了显著的技术突破。该方法不仅在学术领域具有重要价值,也为数字艺术创作、广告设计等行业提供了强大的技术支持。

更为重要的是,StyleStudio能够在无需额外训练的条件下直接应用,极大地降低了使用门槛,并已在多个风格迁移任务中取得优异成绩。

参考资料:

https://arxiv.org/abs/2412.08503

ad1 webp
ad2 webp
ad1 webp
ad2 webp