“我们这篇论文可能是目前唯一一篇在推理模型能力上详细告诉大家到底花了多少钱的论文。”上海科技大学 95 后本科校友、美国南加州大学博士生王上上告诉 DeepTech。


图 | 王上上(来源:王上上)

近日,他和所在团队打造出一系列名为 Tina 的小型推理模型,在其中一个数据集上的后训练成本和评估成本仅为 9 美元,成本相比之前降低 99.6%。而从头开始复现本次研究中的全部实验和内容,大约需要 526 美元的成本。

通过高效的训练流程,他和所在团队实现了最小化的占用空间,并且只需要极少的硬件资源和预算资源。总的来说,Tina 的主要贡献在于让开发由强化学习(RL,Reinforcement Learning)驱动的推理模型变得更加大众化。

研究中,他们在强化学习中进行了参数更新,以及使用低秩自适应(LoRA,Low-Rank Adaptation)技术,通过在一个 15 亿参数的模型上结合低秩自适应与强化学习,让 Tina 的性能得以媲美那些规模远超于它的推理模型。

更加重要的是,所需要的计算后训练成本仅有现有最优(SOTA,State Of The Art)模型所需成本的一小部分。在 AIME24 上,Tina 最多能将推理性能提升 20% 以上,Pass@1 准确率达到 43.33%,这揭示了通过低秩自适应进行高效强化学习推理的惊人效果。

王上上告诉 DeepTech:“目前所有开源方法的花费都非常高,当前最佳模型的最高花费可能达到三四千美元。但是,大部分实验室没有这么多经费去做这样单纯的实验。因此,我们的主要出发点旨在降低消耗,用更省钱的方式为模型带来推理能力。”

在训练模型时,王上上等人并不是完整地训练原有模型,而是额外增加一小部分从而让模型变强,再把这一部分整合到原有模型以后就会变得非常厉害。这样一来无需在平台上存两个模型,只需要存一个模型即可,因此使用时存储成本会得到极大降低,从而非常适用于小微型创业企业和学术级实验室。

他举例称:“有一家公司对于我们的成果很感兴趣,这家公司的业务是将 AI 模型部署在边缘设备,他认为我们的技术占内存小、能耗小,这也侧面说明了我们的研究符合业界需求。”

与此同时,“Tina”这一名称也体现了对于极简主义和效率的追求,亦与高成本效益的小型推理模型的内涵相匹配。“当时我们就想能不能用比较可爱、比较平易近人的方式命名论文,以便让大家更容易接受,于是使用了‘Tina’这一名字。”王上上表示。



复现最佳 Tina 检查点成本仅 9 美元

研究中,王上上等人没有并采用 Qwen-7B/32B、QwQ-32B-preview 这些拥有数百亿参数的模型,而是将注意力转向小型模型。为此,他们使用了有着 15 亿参数的 DeepSeek-R1-Distill-Qwen-1.5B。

他们先是从一个基础模型开始,由于其特定的谱系(DeepSeek/Qwen)和蒸馏过程,因此与同等大小的通用预训练模型相比,这一基础模型具有更强的初始推理能力。

正是这一战略起点让他们能够更加严格地评估强化学习所带来的增量推理增强效果,从而能在有一个更有竞争力的基线上,来分离和衡量技术本身的有效性。更重要的是,选择这样的架构能够大幅降低计算成本和经济门槛。

值得注意的是,本次使用的低秩自适应方法只需训练极少的新参数,就能修改模型的行为,从而能够以更具性价比低实现推理能力。

通过此,王上上等人做出了以下三项主要成果:

首先,其证明在与基于相同基础模型构建的、且经过全参数训练的 SOTA 基线模型相比时,Tina 模型的性能更具竞争力,在某些情况下甚至更优,最佳 Tina 模型在 AIME24 上的性能甚至能被提高 20% 以上,Pass@1 准确率则能达到 43.33%。


(来源:arXiv)

其次,基于他们对于 Tina 后训练阶段的观察,其提出了如下假设:低秩自适应方法的有效性和效率,源于其在强化学习环境下能够快速适应推理格式,同时还能保留基础模型知识,这一过程比全参数训练的深度知识整合更具计算效率。此前曾有研究表明:小模型也能实现有效推理,而大模型能够存储更广泛的世界知识。这一区别表明,通过专注于适应输出格式本身,就能让模型的推理能力得到显著提升。为了验证这一点,他们在强化学习环境中专门训练了低秩自适应参数。

再次,他们实现了强化学习推理的民主化,本次方法不仅可以被复现而且极具成本效益,这将使更多人在无需耗费大量 GPU 的前提下就能探索强化学习技术。



实际支出远远低于原定上限

王上上表示,其所使用的训练代码库主要基于 OpenR1,OpenR1 是 DeepSeekR1 的完全开源复现,结合了 Accelerate 和 Trl 库以及 DeepSpeed ZeRO 优化。

在训练超参数时,他们通过复制 OpenR1 和 OpenRS 中的关键参数来开始参数选择,并在实验中特意采用了默认参数配置或推荐超参数配置。

在训练硬件上,为了最大限度地减少硬件占用空间,他们通过限制 vLLM 的 GPU 内存使用量,将强化学习训练过程和 vLLM 部署在相同的两个 GPU 上,这样一来就能利用两个 GPU 之间的数据并行性。虽然在两个 GPU 上同时运行推理和训练,可能会导致实际训练时间比使用专用推理 GPU 的设置更长,但是它能极大地降低硬件需求。

在训练预算上,其所使用的英伟达 L40S GPU 可以通过商业云平台访问。在撰写此次论文时,每 GPU 小时的费用约为 1 美元,其中包含 300GB 的存储空间。低秩自适应模型的强化学习训练过程非常高效,单个强化学习步骤通常不到一分钟即可完成。在累计六项推理基准测试中,评估一个模型检查点平均需要 1 个英伟达 L40S GPU 训练小时。为了控制成本,他们将实验运行的最大保守预算设为 100 美元,这一预算涵盖了从训练、到评估以及杂项任务的所有阶段。而在实验中,他们发现实际的支出远远低于这一上限。



几乎所有 Tina 模型均显著优于基线平均分数

在最终展示 Tina 的表现之前,需要与现有 SOTA 推理模型进行公平且可靠的对比。为了减轻一些混杂因素的影响,所有基线评估均利用了与 vLLM 推理引擎集成的 lighteval 框架,以便实现高效生成。为了与 OpenR1 等已有工作保持可比性,他们让硬件配置保持固定,即均使用两个英伟达 L40S GPU,并在所有评估的基线模型中使用一套标准化的 vLLM 推理参数。与此同时,所有分数均为零样本 pass@1 性能。

随后,他们通过六项基准测试来比较 Tina 模型和基线模型的推理能力。所有实验均使用基于低秩自适应的强化学习方法,并针对 DeepSeek-R1-Distill-Qwen-1.5B 模型进行最小参数更新的后训练,以便评估模型的推理能力。

尽管使用参数高效调优会面临着固有的资源限制,但是依然可以实现显著的推理性能,正因此 Tina 模型与基线模型的性能相当,甚至优于后者。

对于每个 Tina 模型,王上上都报告了完整的训练程度,既报告了在一个周期内所占预定义训练步骤的百分比,也报告了在每个任务上取得的百分比分数。

结果发现:所有 Tina 模型均表现出显著的推理能力,平均得分在 48.16% 至 50.60% 之间。几乎所有 Tina 模型的表现都显著优于相应的基线平均分数,这表明参数高效强化学习能够显著提升性能。其中,Tina-Open-RS2 模型取得了 50.60% 的最高平均表现。

事实上,这些结果是在训练时长极为有限的情况下取得的,仅占完整训练周期的 19% 至 57%。这些结果有力佐证了本次研究的核心假设:即通过定向使用低秩自适应与强化学习,能在小型语言模型中高效且经济地训练出强大的推理能力。



低秩自适应的“少即是多”

研究中,他们还进行了基于低秩自适应的“少即是多”强化学习。为了理解低秩自适应为何能通过强化学习促进有效且高效的推理改进,他们分析了训练计算量与性能之间的关系以及训练动态。

如下图所示,将推理性能与近似训练浮点运算次数(FLOPs,Floating Point Operations)进行对比,全参数训练方案与基于低秩自适应的训练方案形成了鲜明对比。


(来源:arXiv)

研究中,他们发现在推理得分上,基于低秩自适应的 Tina 模型可以与完全微调的基线模型相媲美,甚至更优。同时,在某些情况下所需的训练浮点运算次数要少几个数量级。

其还观察到,在低秩自适应模型中,增加训练计算量反而会对性能产生负面影响,这一特点与全参数模型相反,同时这一结果也凸显了“计算量减少,性能提升”的现象。

王上上认为,低秩自适应之所以在此场景中表现出色,是因为低秩自适应非常擅长在参数变化极小的情况下学习这些结构和风格模式,因此所需的浮点运算次数非常少。同时,由于低秩自适应仅仅修改了一小部分权重,所以它能在很大程度上保留基础模型丰富的预训练知识。

由此可见,低秩自适应能够高效地教会模型如何将其现有知识转化为有效的推理轨迹,从而无需像大量全参数更新那样,需要进行代价高昂的概念学习或程序学习。

当问及王上上他所在课题组的 GPU 资源情况,他表示:“相比国内我们并没有拥有太多 GPU,这也是我们做 Tina 的一个主要出发点。在国外就算是非常厉害的学校也只有个别组的 GPU 资源会特别充裕,大多数课题组的 GPU 资源都很有限。所以我们认为从大众情况考虑,在做实验和做训练时还是要采用低功耗的方式。”

他继续表示:“Tina 是我们大项目中的第一步。未来,我们将继续研究为什么 Tina 的推理能力能这么好,只有这样才能更安心地使用 AI 技术和 AI 模型。”

参考资料:

相关论文:https://arxiv.org/pdf/2504.15777

相关代码:https://github.com/shangshang-wang/Tina

训练日志:https://wandb.ai/upup-ashton-wang-usc/Tina

运营/排版:何晨龙

ad1 webp
ad2 webp
ad1 webp
ad2 webp