本文的主要作者来自北京航空航天大学、清华大学和中国人民大学。本文的第一作者为清华大学硕士生封皓然,共同第一作者暨项目负责人为北京航空航天大学硕士生黄泽桓,团队主要研究方向为计算机视觉与生成式人工智能。本文的通讯作者为北京航空航天大学副教授盛律。



个性化图像生成是图像生成领域的一项重要技术,正以前所未有的速度吸引着广泛关注。它能够根据用户提供的独特概念,精准合成定制化的视觉内容,满足日益增长的个性化需求,并同时支持对生成结果进行细粒度的语义控制与编辑,使其能够精确实现心中的创意愿景。随着图像生成模型的持续突破,这项技术已在广告营销、角色设计、虚拟时尚等多个领域展现出巨大的应用潜力和商业价值,正在深刻地改变着我们创造和消费视觉内容的方式。

然而当人们对个性化图像生成的期望不断上升时,传统的个性化图像生成方法面临着以下几个挑战:①细节还原瓶颈(如何更精准地还原物体细节,尤其是在多物体的情况下)② 交互控制难题(如何在进行个性化生成的同时,支持对物体位置等空间因素的精准控制)③ 应用拓展受限(如何将个性化和编辑统一在同一框架,以满足更多应用需求)。这些挑战严重制约着个性化图像生成技术的进一步突破,亟需构建更高效的生成框架。

因此,清华大学、北京航空航天大学团队推出了全新的架构设计 ——Personalize Anything,它能够在无需训练的情况下,完成概念主体的高度细节还原,支持用户对物体进行细粒度的位置操控,并能够扩展至多个应用中,为个性化图像生成引入了一个新范式。

总结而言,Personalize Anything 的特点如下:

  • 高效的免训练框架:无需训练,具备较高的计算效率,仅需一次反演(inversion)和一次推理过程
  • 高保真度与可控性:在保持高精度细节的同时兼顾了物体姿态的多样性,并支持位置控制
  • 高扩展性:同时支持多种任务,包括多物体处理、物体与场景的整合、inpainting 和 outpainting 等



  • 论文标题:Personalize Anything for Free with Diffusion Transformer
  • 论文链接:https://arxiv.org/abs/2503.12590
  • 项目主页:https://fenghora.github.io/Personalize-Anything-Page/
  • 代码仓库:https://github.com/fenghora/personalize-anything

效果展示:无需训练,支持个性化、多物体组合、编辑

Personalize Anything 能够在多种任务上表现出色,可以对多组物体与场景进行组合,并同时自由控制主体位置,这是以往个性化图像生成模型难以做到的。



下面图像中依次展示了 Personalize Anything 在布局引导生成、inpainting、outpainting 三种任务上的表现。可以看到,Personalize Anything 在多种任务上都能够生成贴合文本的高质量图像。



技术突破:从 DiT 架构的新发现到个性化任意内容

个性化图像生成的传统方法通常需要对定制概念进行微调,或者在大规模数据集上进行预训练,这不仅消耗大量计算资源,还影响模型的泛化能力。最近,无需训练的方法尝试通过注意力共享机制来避免这些问题,但这些方法难以保持概念的一致性。此外,由于这些方法主要针对传统的 UNet 架构设计,无法应用于最新的 DiT 架构模型,导致它们无法应用在更大规模和更好效果的图像生成模型上。

注意力共享机制不适用于 DiT 架构

在了解 Personalize Anything 技术细节前,先来看看为什么传统无需训练的方法不能够应用在 DiT 架构的图像生成模型上。



如上文所述,传统无需训练的方法多通过注意力共享机制,也就是在运算自注意力时,将概念图像特征直接与生成图像特征进行拼接,但是经由团队实验发现,对于 DiT 架构而言,由于位置编码的影响,当去噪图像和参考图像共用同一套位置编码时,会导致过度关注,从而在生成的图像中产生重影(图 a);当调整参考图像的位置编码避免冲突时,生成图像的注意力几乎不出现在参考图像中,导致主体一致性较弱(如图 b 和图 c),这限制了传统方法在 DiT 架构上的应用。

通过上述实验发现,DiT 中显式编码的位置信息对其注意力机制具有强烈影响 —— 这与 U-Net 隐式处理位置的方式存在根本差异。这使得生成的图像难以在传统的注意力共享中正确地关注参考对象的标记。

DiT 架构的新启发:标记替换引发主体重建



基于对 DiT 架构显式位置编码的认识,团队继续对 DiT 的特征表示进行了探索。团队发现,将参考图像未带位置编码的标记替换进去噪图像的指定位置,能够重建出良好的主体图像。而传统 Unet 架构所具有的卷积操作会导致位置编码与图像特征混杂在一起,导致在进行特征替换时影响最后的图像质量。

这一发现使团队意识到,简单但有效的特征替换,对于 DiT 架构而言是一个可行的个性化图像生成方法。

定制任意内容:时间步适应替换策略与特征扰动



基于上述发现,团队将特征替换引入个性化图像生成方法中,并创新地提出了时间步适应标记替换机制(Timestep-adaptive Token Replacement) 。

在整个流程中,首先对参考图像进行反演,并通过 mask 获取参考图像未带位置编码的标记。在去噪过程的早期阶段,为了保留物体特征细节,将参考图像主体的标记直接替换进生成图像中。而在后期,则转为传统的注意力共享机制。这种时间适应特征替换机制能够增图像生成后概念主体的多样性,同时减少生成图像的割裂感。

为了进一步保证概念主体姿态的多样性,团队又额外提出了特征扰动,旨在通过对概念图像特征进行重排,或者调整 mask,来控制特征替换时的概念图像特征代表的物体姿态等,从而为生成的图像引入多样性。

更多应用:无缝扩展至布局引导、多物体组合、编辑等



Personalize Anything 除了在核心任务上表现出色,还具有强大的扩展能力,可以应用于更复杂的实际场景。首先,可以通过自由选择特征注入的位置,来实现位置引导的生成;其次,框架支持对多物体进行自由组合,采取顺序注入的方式,支持物体间层级关系的控制;并且 Personalize Anything 支持用户将将图像视为整体,允许用户保留部分图像内容,同时对另一部分进行可控编辑。这种灵活的可扩展性为未来的研究和应用开辟了更为广阔的前景。

卓越性能:在保真度和多功能性等多个维度上表现突出

团队从单物体定制,多物体组合,物体 - 场景组合这三个任务入手,与众多优秀的开源模型进行定性定量的对比。可以看到 Personalize Anything 的结果基本都优于现有方法,并在后续的人类偏好测试中取得了显著优势。

单物体个性化生成







多物体组合生成







物体 - 场景组合





未来展望

Personalize Anything 研究团队揭示了 DiT 中位置解耦表示的性质,为免训练的图像空间操纵、个性化生成奠定基础。团队期待 DiT 的几何编程原理能够进一步拓展到视频、3D 生成等领域,实现更复杂、更精细的场景构建与编辑。希望通过深入研究和广泛应用,让这一思路激发更多可控生成的研究,推动 AI 在创意内容生成、虚拟现实、数字孪生等领域的广泛应用。

ad1 webp
ad2 webp
ad1 webp
ad2 webp