视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

今天给大家重磅推荐一个突破性的视觉强化微调开源项目 —— Visual-RFT (Visual Reinforcement Fine-Tuning)。

论文地址: https://arxiv.org/abs/2503.01785
代码地址: https://github.com/Liuziyu77/Visual-RFT

视觉强化微调 Visual-RFT 将 DeepSeek-R1 背后的基于规则奖励的强化学习方法和 OpenAI 的强化微调（Reinforcement Fine-Tuning，RFT）范式成功从纯文本大语言模型拓展到了视觉语言大模型（LVLM）。通过针对视觉的细分类、目标检测等任务设计对应的规则奖励，Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知，为视觉语言模型的训练开辟了全新路径！

图 1 用一张包含许多宝可梦的图片展示了这一过程，当通过多模态强化微调 Visual-RFT 训练的模型被提问什么宝可梦可以释放技能十万伏特时，模型通过 < think > 推理过程准确找出皮卡丘对应的坐标框，展示出模型的泛化能力。

图 1. Visual-RFT 首次实现将强化微调能力迁移到多模态模型中，只需 10～1000 条数据就能通过思考过程和基于规则的监督提升多模态大模型的性能

从 R1 到 Visual-RFT：强化学习的多模态突破

OpenAI o1 主打的强化微调能力（Reinforcement Fine-Tuning）能只用少量样本就将 o1 迁移到新的任务上。最近 DeepSeek-R1 解释了 o1 模型背后的强推理能力来自基于可验证奖励（Verified Rewards）/ 规则奖励（Rule-based Verifier）的强化学习策略。不过，目前主流的认知在于这种基于规则奖励的方法只适用于数学推理、代码等少数便于验证的任务。我们在 Visual-RFT 中，将这一策略迁移到了视觉语言模型。通过对细分类、目标检测等任务建立对应的可验证规则奖励，我们解决了传统方法在视觉领域中的局限性，只需少量微调样本就实现了更高效、泛化性更强的视觉理解与推理能力。

传统的视觉指令微调（Visual Instruction Tuning/Supervised Fine-Tuning，SFT）需要海量数据对模型微调，在数据量有限（例如某些难以收集数据的特定学科场景）的情况下带来的提升有限。我们提出的视觉强化微调（Visual Reinforcement Fine-Tuning）具有少样本学习能力和更强的泛化性，在数据量有限的场景下相比指令微调具有很大的优势。

为验证 Visual-RFT（视觉强化微调）的泛化能力和普适性，力求对视觉领域的全面覆盖，我们在多个视觉感知任务上对 Visual-RFT 进行验证，包含 Detection，Classification，Grounding 等。其中，Visual-RFT 在 open vocabulary，few-shot learning 等设定下，仅仅通过非常少量的数据就取得了显著的性能提升，轻松实现能力的迁移，且结果明显优于 SFT 的微调方法。在 reasoning grounding (推理定位) 的测试中，Visual-RFT 展现出强大的视觉推理能力。评测结果如图二所示，详细实验信息欢迎参见论文。

图 2. Visual-RFT（视觉强化微调）在各种任务上显著超越 SFT：包括目标检测（OD），开放目标检测（OVD），少样本检测与分类（FSOD/IC），推理定位（Reasoning Grounding）

图 3. 框架图：Visual-RFT（视觉强化微调）通过 IoU 和 cls 奖励和强化学习策略（例如 GRPO）更新模型参数

为了在视觉多模态领域验证可验证奖励的作用，我们提出了使用基于 IoU 的 verified reward 奖励应用于 detection 和 grounding 等任务，使用基于分类正确判断的 cls reward 用于 classification 任务（如图三所示）。

图 4. 部分推理定位结果展示，通过引入思考过程和强化学习策略 Visual-RFT（多模态强化微调）显著超越 SFT，更加准确地定位物体。

图 5. 部分推理细粒度分类结果展示，通过引入思考过程和强化学习策略，（多模态强化微调）Visual-RFT 显著超越 SFT，更加准确地定位物体。

部分模型输出结果展示如图 4 和图 5 所示，相比于传统的视觉指令微调（Visual Instruction/Supervised Fine-Tuning），Visual-RFT（视觉强化微调）通过强化学习方法，对问题进行深入的 think 分析取得更佳推理性能，相较于传统的指令微调（SFT）方法取得显著提升。如询问模型图中的运动员在水下依然保持清晰的视野需要带什么物体时，通过传统指令微调的方法模型直接将整个运动员框出。而 Visual-RFT 通过引入推理过程准确地指出防水眼镜及其所在的位置并准确框出。

Visual-RFT 实验结果

Visual-RFT（视觉强化微调）在各大图文感知任务中均展现出强大的性能。我们的实验主要基于视觉语言大模型基座 QWen2-VL 2B/7B 模型，和传统的监督微调（Supervised Fine-Tuning）方法进行对比。在开放目标检测，少样本检测，细粒度分类和推理定位任务上 Visual-RFT 相比 SFT 全面实现了性能提升。值得一提的是，我们的测试数据既包含 COCO、LVIS 等通用场景，又包含从互联网中收集的卡通人物等开放场景数据。只需要几十条数据，模型通过 Visual-RFT 可以学会检测某动漫中的史莱姆形象。实验结果广泛验证了 Visual-RFT 的卓越性能和鲁棒性。