视频可以精准控制了！一句话给熊戴眼镜的那种，扩散模型立功

ReLER Lab团队
量子位 | 公众号 QbitAI

如何让你的模型能感知到视频的粒度，随着你的心思想编辑哪就编辑哪呢？

Sora掀起了一股视频生成的热潮，视频编辑作为视频生成的一个热门方向一直饱受关注。但是以往的视频编辑方法主要关注视频的风格转换，或者只编辑单一的目标。

如果用户想要同时编辑视频的多个区域，大到多个目标，小到头发丝或者身体的一部分，应该怎么办呢？

来自悉尼科技大学的ReLER lab实验室的同学和浙江大学的学者合作提出了一种多粒度视频编辑的任务，包括类别级、实例级和局部级的视频编辑。

通过深入研究扩散模型内部的表征空间，提出了VideoGrain的解决框架，无需任何训练，即可实现文本到多个区域的控制，实例级别的特征分离，在真实世界的视频上取得了最优性能。

论文已被ICLR 2025接收，是当天的HuggingFace daily paper top1。目前所有的数据集，模型，代码都已开源。

本文第一作者杨向鹏是悉尼科技大学的在读博士生，主要研究方向为扩散模型、视频生成与编辑，师从浙江大学计算机学院杨易教授和朱霖潮副教授。

多粒度视频编辑是什么？

首先来看看多粒度视频编辑是什么，到底有什么挑战。

根据真实世界的视频粒度，受语义分割任务的启迪，他们可以将视频的编辑分为三个的层次（粒度逐渐加深）：

(1)类别级编辑(Class Level)：编辑同一类别内的对象。（例如，将两个男人变为“蜘蛛侠”，原视频中的两人都属于人这一类别，视频上方第二列所示）
(2)实例级编辑(Instance Level)：将视频中每个单独的实例编辑为不同的对象。(例如，将左边的男人编辑为“蜘蛛侠”，右边的男人编辑为“北极熊”，视频上方第三列所示）
(3)局部级编辑(Part Level)：对单个实例的特定元素进行部件级别的编辑，包括添加新的object和修改局部属性。（例如，在将右边的男人编辑为“北极熊”时添加“太阳镜”，视频上方第四列所示）。

尽管现有的方法采用了各种视觉一致性的表征，比如检测框(groundvdieo)或者特征响应(TokenFlow)等等，但这些信号没有空间的感知能力，基于T2V模型的视频编辑，比如CVPR24的DMT，再至目前工业界的SOTA-Pika，仍然无法实现多粒度的视频编辑结果。

这里的原因是什么呢？

作者通过对扩散模型的特征进行深入研究，说明了多粒度视频编辑的两大挑战。

1、特征耦合：如图(b)，在对inversion过程中的自注意力特征进行聚类之后，可以发现：虽然聚类的结果是有清晰的布局信息的，但是无法“左边的人”和“右边的人“。当增加聚类的数量之后，会导致更细致的分割结果比如头，上半身，下半身，但仍然无法区分左右。因此，实例之间的特征耦合影响了多粒度视频编辑中的有效性。
2、文本到多个区域的控制：使用SDEdit将同一类的两个男人编辑为左边钢铁侠，右边蜘蛛侠，树变成樱花。结果如上图(d)示，“钢铁侠”和“蜘蛛侠”的权重在左边的人上重叠，“花朵”的权重泄漏到右边的人上，导致了(c)中的编辑失败。因此，另一个难点在于：能否调节交叉注意力以确保每个局部编辑的权重准确分布在预期区域。

VideoGrain整体框架

基于之前的观察，交叉注意力的分布和编辑的结果密切相关，而自注意力对于生成时间一致性的视频又十分重要。然而，一个区域内的像素有可能关注到外部或者相似的区域，这对于多粒度的视频编辑造成了很大的挑战。因此，需要去同时修改交叉和自注意力来让每个像素或者文本embedding只关注到正确的区域。

为了实现上述目标，团队提出**ST-Layout Attention (时空布局注意力机制），以一种unified的方式（即增强positive，减弱negative）来调节自注意力和交叉注意力。

具体来说，对于第i帧，他们修改Query-key对的condiation map:

调节交叉注意力(cross-attn)以实现文本到区域控制

在交叉注意力层中，文本特征作为key和value，与来自video latents的query特征进行交互。由于编辑目标的外观和位置与交叉注意力的权重分布密切相关，团队目标是将每个实例的文本特征聚集到想要去编辑的位置。

如上图右侧所示，在增加positive value和减去negative value后，“Spiderman”的原始交叉注意力权重（例如 p）被放大并集中在左边的人身上。而“polar bear”的权重则集中在右边的人身上。这表明他们调节将每个局部文本提示的权重重新分配到目标区域上，实现了精确的文本到多个区域的控制。

调节自注意力(self-attention)以保持特征分离