AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

团队介绍:北京交通大学 ADaM 团队此前发布了相关的 o1 复现项目 o1-Coder(https://github.com/ADaM-BJTU/O1-CODER)和首个强化微调开源技术方案 OpenRFT(https://github.com/ADaM-BJTU/OpenRFT)。

OpenAI 在 “双十二” 发布会的最后一天公开了 o 系列背后的对齐方法 - deliberative alignment,展示了通过系统 2 的慢思考能力提升模型安全性的可行性。在此之前,ADaM 团队提出了类似的 “系统 2 对齐” 概念,探索了通过提示工程、监督微调、DPO、RL (结果奖励) 和 RL (过程奖励) 实现系统 2 对齐的技术路径。研究发现:系统 2 对齐可以同时有效提升传统的系统 1 模型的安全性。

系统 2 对齐:通过引导或监督的方式使模型对齐。这种方式鼓励有意的、分析性的推理,以确保模型能够全面评估输入内容,考虑潜在的风险和错误,并解决其中的偏差或缺陷。

用培养孩子来类比的话,系统 1 对齐是直接命令孩子遵守规则(Command),系统 2 对齐则通过引导来培养孩子自主批思考和做出合理决策的能力(Cultivate)。



  • 技术报告:Don't Command, Cultivate: An Exploratory Study of System-2 Alignment
  • 报告地址:https://arxiv.org/abs/2411.17075
  • 项目地址:https://github.com/ADaM-BJTU/System-2-alignment

1.o1 应对复杂越狱攻击的能力分析

团队首先在对抗越狱攻击 WildJailbreak(https://huggingface.co/datasets/allenai/wildjailbreak)和数学编码越狱攻击 MathPrompt(https://arxiv.org/pdf/2411.17075)两个场景分析了 o1 的安全对齐能力。

有如下发现:

(1)o1 模型在处理用户请求时,考虑安全指南有助于提升安全性(见图 1)。但推理过程中,o1 模型偶尔逻辑混乱,安全机制可被绕过(见图 2)。若出现针对推理链的攻击,将带来新安全挑战,故确保推理的安全与稳健至关重要。



图 1:o1 模型复杂越狱攻击的样例



图 2:o1 模型被对抗有害样本攻击成功实例

(2) o1 模型并非对所有请求启动安全推理模式,如图 3 所示,其错误拒绝了良性请求。若增加推理,模型或许能给出安全且有用回应。



图 3:o1 模型过度拒绝对抗良性样本实例

2. 系统 2 对齐

团队通过提示工程、监督微调、DPO、RL 等方法对系统 2 对齐方法进行探索。实验数据来源于 WildJailbreak。该数据集的测试集中包含了对抗有害和对抗良性两种数据类型,其定义如下:对抗有害:指通过更复杂和隐秘的方式传递有害请求。对抗良性:指看似是绕过技术但实际上不含有害意图的对抗性请求。

研究通过评估 “not_unsafe” 和 “not_overrefuse” 两个指标分析模型在应对以上两种样本的表现。

方法 1:提示工程:

通过在推理过程中使用提示工程来实现系统 2 对齐,涉及零样本(zero-shot)和少样本(few-shot)的思维链(Chain-of-Thought, CoT)提示方法。对于零样本 CoT,评估了朴素设置(naive)以及增强的安全警示设置(safe)。对于少样本 CoT 提示,从训练集中随机选择了一个对抗性良性示例和一个对抗性有害示例。使用 GPT-4o 生成了正确答案及详细的推理过程,作为上下文中的示例来引导模型的响应。

实验结果揭示了在测试的模型中,提高模型安全性通常以增加过度拒绝率为代价。在试图平衡这两个指标时,Mistral-7B 和 Qwen-7B 模型在少样本 CoT 提示方法下表现最佳。另一方面,当未应用 System-2 对齐提示时,Llama3-8B 模型表现出最强的整体性能。这些结果表明,不同的模型可能需要量身定制的提示工程方法,包括对提示措辞或上下文示例的仔细调整。这种差异性为用户带来了额外的复杂性,可能增加有效部署这些模型的难度。



表 1:基于提示工程的系统 2 对齐实验结果

方法 2:监督微调(SFT)

基于监督微调的系统 2 对齐的关键是获取带有思考过程的监督微调数据。思路是利用人类书写的安全规范作为指导从 GPT-4o 蒸馏出带有思考过程的回复。首先,依据现有工作对安全类别的分类和定义,使用 GPT-4o 标注 WildJailbreak 提供的训练集的安全类别。接着,选定六类数据人工书写安全规范。这些规范主要包括安全定义、用户请求分类和响应风格指南。最后,基于这些安全规范,从 GPT-4o 中蒸馏了带有推理步骤的响应,并要求 GPT-4o 在分析的最后一步对用户请求进行分类,例如表 2 中用红色标注的部分。这不仅提高了数据质量,还有助于筛选出生成的数据。最后,筛选符合以下条件的数据:

  • 普通良性请求(vanilla benign) 对应 “允许”(Allowed),
  • 对抗良性请求(adversarial benign) 对应 “安全完成”(Safe Completion),
  • 所有有害数据(harmful data) 对应 “不允许”(Disallowed)。



表 2:GPT-4o 蒸馏带有思维链的数据样例



表 3:基于监督微调的系统 2 对齐实验结果

表 3 展示了监督微调的实验结果,说明通过引入安全相关的慢思考可以提高模型的安全性。特别是 Llama3-8B,在两个指标上都表现出平衡且卓越的性能。

方法 3:直接偏好优化(DPO)

DPO 算法可以直接利用偏好数据而无需依赖奖励模型,那么第一步是基于 SFT 模型合成带有思维构建偏好数据。具体而言,使用 Llama3-8B-SFT 模型进行实验,并从 SFT 数据中采样提示 n 次(在实验中,n=16)。接下来,需要从采样的响应中构建偏好对。为简单起见,对于良性提示,认为属于 “允许” 或 “安全完成” 类型的模型响应是正样本,而 “不允许” 类型的响应被视为负样本。相反,对于有害提示,认为 “不允许” 类型的响应是正样本,而其他类型的响应认为是负样本。对于每个提示,仅保留一对偏好数据。最后,平衡良性和有害数据的数量,共生成了 738 个训练样本。需要注意的是,通过 16 次采样,仍有相当一部分提示无法生成正负样本对,因此这些提示未被使用。



表 4:基于直接偏好优化的系统 2 对齐实验结果

实验结果如表 4 所示。可以看到,DPO 在整体性能上略有提升,主要体现在安全性指标上有了显著的提高,但这导致模型对一些良性用户请求表现出过度拒绝的行为,尽管训练数据中有害和良性的数据分布是平衡的。

方法 4:基于结果监督的强化学习

(1)训练结果奖励模型:奖励模型的输入由提示(prompt)和响应中最终答案字段(final answer)的内容组成,而不包括完整的推理过程。基于模型的自采样方法收集偏好数据(与 DPO 中提到的方法类似),不同在于,对于每个提示会采样多对样本。总共收集了 4,182 对偏好数据样本,并将数据集按照 9:1 的比例进行划分。奖励模型在 Llama3-8B 模型上训练,最终在测试集上的表现达到 0.978。(2)在强化学习阶段,使用 PPO(近端策略优化)方法对策略模型进行优化,数据集与 DPO 实验中使用的数据集相同。



表 5:基于结果监督强化学习的系统 2 对齐实验结果

从表 5 可以看出,经过强化学习(RL)训练后的模型表现最佳。尽管在 “not_unsafe” 指标上不如 DPO,但总体表现更加平衡。图 4 中展示了一个例子用以说明 RL 方法如何处理对抗性的有害样本。在这个例子中,基于 RL 的方法成功拒绝了有害请求,而基于 SFT 的方法则被请求诱导生成了不安全的响应。



图 4:SFT-CoT 与 SFT-CoT + RL 处理对抗有害样本对比实例

方法 5:基于过程监督的强化学习

训练过程奖励模型:过程监督的关键在于自动收集过程奖励数据来训练过程奖励模型。例如 Math-shepherd 等开创性工作为数学问题的过程奖励标注提供了解决思路。安全性相关问题的决策通常涉及不确定性,不像数学问题通常有明确的解。一个朴素的标注方案是:首先使用基于上文中提到的类型匹配的方法获得的结果奖励,然后基于结果奖励反推过程奖励。如果想要提升过程奖励的标注效果,则需要进入更强的安全评估模型。

通过过程奖励模型增强模型安全对齐:区别于传统强化学习的结果奖励,过程奖励模型在推理每一步提供反馈,帮助模型实时调整思路,实现更可控、更深思熟虑的决策,提高响应准确性并增强风险评估能力,从而确保输出符合安全协议。

强化学习与自对弈迭代(Self-Play)优化安全推理能力,可引入自对弈机制。模型生成推理步骤,过程奖励模型评估并反馈,指导优化推理策略。强化学习基于反馈调整策略,优先安全准确推理,更新后的策略用于生成新数据,形成循环迭代。自对弈持续改进模型推理和安全对齐能力。

3. 结论和展望

在 OpenAI 的 Deliberative Alignment 基础上,系统 2 对齐可以用于提升传统系统 1 模型的安全性。通过 Prompting、SFT、DPO、RL 等多种方式来实现,系统 2 对齐通过多步推理的慢思考培养模型的批判性评估能力,来增强模型安全性。

随着模型能力的提升,对模型对齐和安全性需要新的思考:从系统 1 式的被动防护转向促进模型系统 2 式的内在推理和批判性思考。此外,类比从系统 1 对齐到系统 2 对齐的过程,传统受限于数据和模型能力基于系统 1 建模的任务,也有希望通过引入系统 2 慢思考的方式进行重构。

参考文献:

[1] Jaech, Aaron, et al. "OpenAI o1 System Card." arXiv preprint arXiv:2412.16720 (2024).

[2] Guan, Melody Y., et al. "Deliberative alignment: Reasoning enables safer language models." arXiv preprint arXiv:2412.16339 (2024).

[3] Zhang, Yuxiang, et al. "o1-coder: an o1 replication for coding." arXiv preprint arXiv:2412.00154 (2024).

[4] Luo, Liangchen, et al. "Improve Mathematical Reasoning in Language Models by Automated Process Supervision." arXiv preprint arXiv:2406.06592 (2024).

[5] Wang, Peiyi, et al. "Math-shepherd: Verify and reinforce llms step-by-step without human annotations." Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.

[6] Zhang, Yuxiang, et al. "OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning." arXiv preprint arXiv:2412.16849 (2024).

[7] Vidgen, Bertie, et al. "Introducing v0. 5 of the ai safety benchmark from mlcommons." arXiv preprint arXiv:2404.12241 (2024).

ad1 webp
ad2 webp
ad1 webp
ad2 webp