老婆饼里没有老婆，RLHF里也没有真正的RL

机器之心报道

编辑：张倩

老婆饼里没有老婆，夫妻肺片里没有夫妻，RLHF 里也没有真正的 RL。在最近的一篇博客中，德克萨斯大学奥斯汀分校助理教授 Atlas Wang 分享了这样一个观点。

博客链接：https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/

他指出，RLHF（基于人类反馈的强化学习）和其他类似的方法并没有为大型语言模型（LLM）带来真正的强化学习（RL），因为它们缺乏 RL 的核心特征：持续的环境交互和长期目标的追求。

RLHF 主要通过单步或几步优化来调整模型输出，使其符合人类偏好，而不是在一个动态环境中进行多步骤的策略调整。此外，RLHF 通常是离线或半离线进行的，缺乏实时的环境反馈和策略更新。因此，尽管 RLHF 可以改善模型的对齐性和输出质量，但它并不能赋予 LLM 真正的目标或意图，让它们「想要」赢得游戏。LLM 仍然主要是一个基于上下文预测下一个 token 的统计系统。

整篇文章讨论了几个有趣的问题：

1. RLHF （及相关方法）与经典 RL 有何不同？

2. 为什么这些方法实际上无法给出 LLM 真实目标或意图？

3. 为什么没有人大规模地为 LLM 做「真正的 RL」？

4. 现有的最接近给 LLM 一个「目标」的方法是什么？

5. 没有「目标驱动」的 LLM 的后果是什么？

通过了解这些细微差别，我们可以清楚地知道 LLM 能做什么、不能做什么，以及为什么。

谷歌 DeepMind 首席科学家 Denny Zhou 转发该文章时评价说，「对于任何有 RL 知识背景的人来说，（文章中的观点）是显而易见的。但对于新人来说，这是一份很好的介绍。」

区分 RLHF 和经典强化学习

什么是经典强化学习？在经典强化学习设置中，你有：

在环境中采取行动的智能体。
环境会根据智能体的行动改变状态。
智能体的行动会受到奖励或惩罚，目的是在多个步骤中实现长期累积奖励的最大化。

主要特征：持续或偶发交互。智能体探索多种状态、做出决策、观察奖励，并在一个连续的循环中调整其策略。

RLHF 是一种使用根据人类偏好数据训练的奖励模型来完善模型输出的工作流。常见流程包括：

监督微调（SFT）：首先在高质量数据上训练或微调基础语言模型。
奖励模型训练：收集成对的输出结果，询问人类更喜欢哪一个，然后训练一个「奖励模型」，以接近人类的判断。
策略优化：使用类似强化学习的算法（通常为 PPO，即「近端策略优化」）来调整 LLM 的参数，使其产生奖励模型所喜欢的输出结果。

与传统 RL 不同的是，RLHF 中的「环境」基本上是一个单步文本生成过程和一个静态奖励模型 —— 这其中没有扩展循环或持续变化的状态。

为什么 RLHF（及相关方法）不是真正的 RL？

单步或几步优化。在 RLHF 中，LLM 会基于给定的提示生成文本，然后奖励模型会提供一个单一的偏好分数。RLHF 中的「强化」步骤更类似于一步式策略梯度优化，以实现人类偏好的输出，而不是在不断变化的环境中对状态和行动进行基于智能体的全面循环。这更像是一种「一劳永逸」的评分，而不是让一个智能体随时间推移探索多步行动，并接收环境反馈。
大多离线或半离线。奖励模型通常在人类标签数据上进行离线训练，然后用于更新 LLM 的策略。LLM 在线调整策略时，并没有实时探索连续的环境循环。
缺乏基于环境的长期（Long-Horizon）目标。经典的 RL 智能体会追踪多个状态下的长期回报。相比之下，基于 RLHF 的 LLM 训练侧重于根据人类偏好调整即时文本输出。LLM 并没有在一个动态环境中导航多个时间步骤。
表面约束与真正的内部目标。RLHF 可以有效地影响某些输出的概率 —— 引导模型远离不受欢迎的文本。但模型内部并没有形成产生这些输出的「愿望」或「欲望」；它仍然是一个生成下一个 token 的统计系统。

请记住，不管是 RLHF、SFT 还是其他什么，LLM 都不是为了真正的目标或意图而训练的！LLM 的核心是根据给定上下文预测下一个 token。它们的「动机」纯粹是最大限度地提高下一个 token 的正确率（由训练数据和任何后续微调信号确定）。这个过程并不存在主观上的愿望或意图。我们常说 AlphaZero「想要」在国际象棋中获胜，但这只是一种方便的简单说法。从内部来说，AlphaZero 是在最大化数学奖励函数 —— 没有任何感觉上的欲望。同样，经过 RLHF 调整的 LLM 也在最大化对齐奖励信号，而没有内心的渴望状态。

RLHF vs. IRL 如何？

亚利桑那州立大学计算机科学教授 Subbarao Kambhampati 指出，「RLHF」有点名不副实，因为它将从人类判断中学习偏好或奖励模型（在概念上更接近于逆强化学习，即 IRL）与一步或几步策略优化相结合，而不是经典 RL 中典型的长期迭代交互。

IRL：在经典表述中，智能体通过观察专家在动态环境中的演示来推断奖励函数。相比之下，RLHF 通常收集静态的成对比较（例如，「你更喜欢这两个模型输出中的哪一个？」），并训练一个奖励模型来模仿人类的偏好。在不断演化的环境中，没有扩展的多步骤专家轨迹。
RL 中的偏好学习：在当前的深度强化学习中，有一些方法可以从轨迹 rollout 的成对比较中学习奖励函数（例如，「你更喜欢机器人步行者的哪种步态？」）。然而，这些方法往往存在样本复杂度高的问题（例如，需要多次询问人类），因此许多研究论文都采用了在受控任务中模拟人类反应的方法。
为什么 RLHF 也不是「经典 IRL」：即使 RLHF 在从人类数据中学习偏好模型方面让人联想到 IRL，它也不是分析专家行为随时间变化的经典方案。相反，RLHF 侧重于人类对最终或短序列输出的静态判断。因此，RLHF 仍然主要是离线或接近离线的，这进一步限制了它与传统 IRL 设置的相似性 —— 尽管 Subbarao Kambhampati 也评论说，从成对偏好中学习奖励函数（已成为（I）RL 文献的主流）！

CoT、PRM 或多智能体工作流有助于解决这个问题吗？

基于流程的奖励模型和思维链

基于流程的奖励模型可能会对中间推理步骤（思维链或 CoT）提供反馈，而不是仅根据最终输出（如问题的最终答案）提供奖励。这样做的目的是鼓励模型以更易于解释、正确率更高或更符合特定标准的方式解释或展示其推理过程。

这就是「真正的 RL」吗？并非如此。

即使你为中间步骤分配了部分奖励（比如 CoT 解释），你仍然处于这样一种环境中：你通常会将整个输出（包括推理）输入奖励模型，获得奖励，然后进行一步策略优化。而不是在一个动态环境中，由 LLM「尝试」部分推理步骤、获得反馈、进行调整，并在同一 episode 中继续进行开放式循环。

因此，虽然 CoT / PRM 会给人一种多步骤 RL 的错觉，因为你会对中间步骤进行奖励或惩罚，但实际上，它仍然相当于对单一步骤（文本生成和推理）进行离线或近似离线的策略调整，而不是经典 RL 的持续智能体 - 环境循环。

多智能体工作流也不会神奇地创建意图

你可以在工作流中协调多个 LLM（例如，「系统 A 生成计划，系统 B 批改计划，系统 C 完善计划」），但从内部来看，每个 LLM 仍然是根据下一个 token 的概率生成文本。尽管这样的多智能体设置可以表现出看起来协调或有目的的涌现行为，但它并没有赋予任何单个模型内在或秉持的目标。

为什么我们的多智能体 LLM 工作流常常看起来有意图？人类会自然而然地将心理状态投射到行为看似有目的的系统上，这就是所谓的「意图立场」。但是，每个 LLM 智能体只是对提示做出响应。每个智能体背后的思维链并不等同于个人欲望或驱动力；它只是一个多步骤反馈回路中更复杂的 prompt-completion。

因此，多智能体协调可以产生非常有趣的新兴任务解决能力，但 LLM 本身仍然不会产生「我想要这个结果」的动机。

为什么至今还没有人用「真正的 RL」训练 LLM？

因为太贵了！大规模模型的经典 RL 需要一个稳定、交互式的环境，外加大量计算来运行重复的 episode。每个训练周期的前向传递次数对于今天的十亿参数 LLM 来说过于昂贵。
缺乏环境定义。文本生成并非天然的「状态 - 动作转换」环境。我们可以尝试将其包装成类似游戏的模拟环境，但这样就必须为多步骤文本交互定义奖励结构，而这并非易事。
性能已经足够好了。在许多使用案例中，RLHF 或 DPO（直接偏好优化）已经能产生足够好的对齐效果。实事求是地说，团队会坚持使用更简单的离线方法，而不是建立一个复杂的 RL 管道，以巨大的成本换取微不足道的收益。

最接近给 LLM 一个「目标」的现有方法是什么？

在我看来，与「给 LLM 一个目标」最接近的方法是使用提示工程或将多个 LLM 提示串联成一个循环来构建一个元系统或「智能体」。像 Auto-GPT 或 BabyAGI 这样的工具试图模拟一个智能体，它能：

接收自然语言目标（如「研究 X，然后制定计划」）。
反复计划、推理和提示自己。
评估进展并完善计划。

然而，所有这些「目标保持」都是在系统层面，在提示或链接逻辑中协调进行的，而不是从 LLM 的内部动机状态出发。LLM 本身仍然是被动地对提示做出反应，缺乏内在的欲望。

多智能体是另一种「穷人的解决方案」。正如在上文所讨论的，你可以协调多个 LLM 对彼此的输出结果进行评论或验证，从而有效地划分子任务并组合出部分解决方案。这看起来是有目标的，但同样，「目标」是由工作流和提示从外部协调的；LLM 不会自发生成或坚持自己的目标。

LLM 没有「真正目标」的后果

简化的对齐（在某些方面）。由于 LLM 没有真正追逐个体目标，它们不太可能「绕过」限制或自主计划非法行为。对齐通常相当于设置正确的提示约束和微调，将其推向可接受的产出。Anthropic 最近的博客与这一观点有关（参见《震惊！Claude 伪对齐率竟能高达 78％，Anthropic 137 页长论文自揭短》）
更难委派开放式任务。如果我们希望 AI 能够自发地发现新问题，积极收集资源，并坚持数月来解决这些问题，我们就需要一个具有持续内驱力的系统 —— 类似于真正的 RL 智能体或高级规划系统。目前的 LLM 无法以这种方式实现真正的自我启动。
潜在的创新缺失。在丰富的 RL 环境中进行自由探索，可能会产生惊人的发现（如 AlphaZero 在国际象棋或围棋中的突破）。如果依赖于只有表面反馈的单步文本生成，我们可能会错过多步奖励优化所带来的全新策略。

不过，这也有积极的一面。例如，我认为没有持续目标的 LLM 在某些方面更加透明。它本质上是一个由即时反馈信号引导的强大的下一个 token 预测器 —— 没有多步骤 RL 循环中出现的复杂的隐藏目标。

明确时间跨度、目标、奖励和行动空间

单步或几步方法（如 RLHF 或 DPO）与「真正的」RL 的关键区别在于时间跨度：

短期优化：RLHF 和 DPO 有效地针对即时（一步）反馈进行优化。即使反馈函数是通过（从人类标记的数据中）学习获得的，也不存在长期规划的持续状态 - 行动循环。
长期优化：在经典 RL 中，智能体会对多个步骤的累积奖励进行优化，形成类似于「目标」的东西。奖励模型与行动空间相结合，可驱动在动态环境中塑造多步骤行为的策略。

此外，RL 通常假定有一个定义明确的行动空间（例如，将游戏棋子向上 / 向下 / 向左 / 向右移动）。而在 LLM 微调中，「动作」的概念是模糊的，通常会被直接参数更新或生成 token 所取代。增强提示，甚至只是从固定词汇中生成 token，都可以被视为「动作」，而「环境」则是 LLM 的内部状态。然而，这是对 RL 循环的非标准或某种不寻常的重新解释。

另一个专家澄清的问题是 RL 中奖励和目标之间的区别。原则上，RL「奖励」是指导智能体学习过程的信号，而不总是明确的最终目标。如果奖励稀少（仅在成功 episode 结束时提供），智能体的实际「目标」可能看起来是「达到成功条件」。然而，在实践中，好的 RL 设计通常会使用密集的奖励信号来引导中间状态，从而帮助智能体更有效地学习。

对于 LLM 而言，「目标」的概念意味着对某些目标的持续、多步骤的追求。由于 RLHF 通常是在单步或几步过程中进行的，因此该模型从未真正形成长期目标的内部表征。它只是根据奖励模型或偏好函数来优化即时文本输出。

后记

RLHF、DPO、宪法 AI（Constitutional AI）和其他受 RL 启发的微调方法对于使 LLM 更加一致和有用大有裨益。它们让我们能够利用人类的偏好来塑造输出，减少有毒内容，并引导 LLM 响应的风格。

然而，这些技术并不能为 LLM 提供真正的长期目标、内部动机或经典 RL 意义上的「意图」。LLM 仍然是一个复杂的下一个 token 预测器，而不是一个自主智能体。

如果未来我们希望 LLM 拥有真正的 RL 怎么办？如果有一天，研究人员将 LLM 集成到实际的多步骤 RL 框架中（想想看：一个智能体在模拟或现实世界中导航，不断阅读和生成文本，接收反馈，并实时调整策略），那么我们就可能接近真正的智能体行为。这需要大量的资源、精心的环境设计和强大的安全措施。在此之前，我们所拥有的系统 —— 尽管功能强大 —— 从根本上说仍然是被动的、由离线或半离线反馈信号形成的下一个 token 预测器。

为什么这一切都很重要？

从业者应该意识到这些局限性，不要高估 LLM 的自主性。
政策制定者和伦理学家应该认识到，LLM 不可能自发地策划或撒谎来达到隐藏的目的，除非被提示指引去模仿这种行为。
反过来说，如果未来的系统真的结合了具有大规模计算和动态环境的「真正 RL」，我们可能会看到更多类似智能体的突发行为 —— 这就会引发新的调整和安全问题。

未来方向？

更高的样本复杂度：一个经常出现的限制因素是，基于偏好的学习可能需要大量的人类 token 比较，尤其是当任务变得越来越复杂时。研究人员通常采用模拟人的判断来进行 RL 实验，但这也带来了新的问题，即这些模拟器如何忠实地模拟真实的人类偏好。
扩展到长期任务：许多专家怀疑，短期输出的成对比较能否直接扩展到更复杂的多步骤任务。使用 LLM 进行真正的多步骤 RL 需要一个环境，在这个环境中，模型可以进行探索、获得中间奖励并进行迭代 —— 而这在目前是非常昂贵的，也无法大规模广泛实施。
衔接符号与次符号方法：对于真正的长期偏好（如需要概念或符号理解的任务），纯粹的「原始」配对偏好数据可能并不足够。可能需要某种形式的结构化、符号化反馈（或「通用语言」），才能有效地将人类的细微目标传达给人工智能系统。

最后，虽然 RLHF、DPO 和相关方法提供了一种实用的方法，可以在短期环境中使 LLM 与人类偏好保持一致，但它们无法赋予 LLM 真正、持久的目标或意图。这些方法也只是与经典的 RL 或 IRL 范式略有对应。未来的系统若能在真正的多步骤 RL 循环中使用 LLM，就能解锁更多自主的、类似智能体的行为，但同时也会引发新的安全和一致性问题。

原文链接：https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/