MotionClone：无需训练，一键克隆视频运动

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

无需训练或微调，在提示词指定的新场景中克隆参考视频的运动，无论是全局的相机运动还是局部的肢体运动都可以一键搞定。

论文：https://arxiv.org/abs/2406.05338

主页：https://bujiazi.github.io/motionclone.github.io/

代码：https://github.com/Bujiazi/MotionClone

本文提出了名为 MotionClone 的新框架，给定任意的参考视频，能够在不进行模型训练或微调的情况下提取对应的运动信息；这种运动信息可以直接和文本提示一起指导新视频的生成，实现具有定制化运动的文本生成视频 (text2video)。

相较于先前的研究，MotionClone 具备如下的优点：

无需训练或微调：先前的方法通常需要训练模型来编码运动线索或微调视频扩散模型来拟合特定运动模式。训练模型编码运动线索对于训练域之外的运动泛化能力较差，而微调已有的视频生成模型可能会损害基模型潜在的视频生成质量。MotionClone 无需引入任何额外的训练或微调，在提高运动泛化能力的同时最大程度保留了基座模型的生成质量。

更高的运动质量：已有的开源文生视频模型很难生成大幅度的合理的运动，MotionClone 通过引入主成分时序注意力运动指导在大幅加强生成视频运动幅度的同时有效保障了运动的合理性。

更好的空间位置关系：为了避免直接的运动克隆可能导致的空间语义错配，MotionClone 提出了基于交叉注意力掩码的空间语义信息指导来辅助空间语义信息和时空运动信息的正确耦合。

时序注意力模块中的运动信息

在文本生视频工作中，时序注意力模块 (Temporal Attention) 被广泛用于建模视频的帧间相关性。由于时序注意力模块中的注意力分数 (attention map score) 表征了帧间的相关性，因此一个直观的想法是是否可以通过约束完全一致的注意力分数来复制的帧间联系从而实现运动克隆。

然而，实验发现直接复制完整的注意力图 (plain control) 只能实现非常粗糙的运动迁移，这是因为注意力中大多数权重对应的是噪声或者非常细微的运动信息，这些信息一方面难以和文本指定的新场景相结合，另一方面掩盖了潜在的有效的运动指导。

为了解决这一问题，MotionClone 引入了主成分时序注意力运动指导机制 (Primary temporal-attention guidance)，仅利用时序注意力中的主要成分来对视频生成进行稀疏指导，从而过滤噪声和细微运动信息的负面影响，实现运动在文本指定的新场景下的有效克隆。

空间语义修正

主成分时序注意力运动指导能够实现对参考视频的运动克隆，但是无法确保运动的主体和用户意图相一致，这会降低视频生成的质量，在某些情况下甚至会导致运动主体的错位。

为了解决上述问题，MotionClone 引入空间语义引导机制 (Location-aware semantic guidance)，通过交叉注意力掩码（Cross Attention Mask）划分视频的前后背景区域，通过分别约束视频前后背景的语义信息来保障空间语义的合理布局，促进时序运动和空间语义的正确耦合。

MotionClone 实现细节