CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

MLSys’25 | 极低内存消耗：用SGD的内存成本实现AdamW的优化性能

2025-02-27 12:52:12

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文第一作者 Hanqing Zhu 与 Zhengyu Zhang 均为 UT Austin 博士生。Hanqing Zhu 专注于高效 AI 计算，致力于优化机器学习硬件、系统及算法；Zhengyu Zhang 聚焦构建高效可靠的机器学习系统。通讯作者为 UT Austin 的 David Z. Pan、Zhangyang Wang 以及 Meta AI 的 Jinwon Lee 。

大语言模型（LLM）正以惊人的速度重塑各个领域的格局，但其预训练与微调过程却面临着前所未有的资源考验 —— 不仅需要庞大的计算能力，更对内存提出了极高要求。

训练 LLM 时，不仅需要存储亿级参数，还必须额外保存梯度与优化器状态（例如 Adam 中的动量和方差）。

例如，预训练 LLaMA 7B 的一个批次就消耗高达 58GB 内存：14GB 用于模型参数，42GB 用于优化器状态和梯度。这巨大的 “隐形” 内存开销迫使研究者不得不选用显存更大的高端 GPU、增加 GPU 数量，甚至牺牲训练速度调低批量大小。

首次以类 SGD 内存成本完成大模型训练

UT Austin 和 Meta AI 推出了全新训练策略 ——APOLLO（Approximated Gradient Scaling for Memory Efficient LLM Optimization）。这一创新方法首次实现了以 SGD 级别的内存成本训练大模型，同时保持了 AdamW 的卓越优化性能（已在 LLaMA 7B 的预训练上验证）。

文章已经被 MLSys 2025 接受，同时目前 APOLLO 已在 Hugging Face Transformers、LLaMA-Factory 等主流开源项目中落地，研究者可以轻松调用这一方法开展低内存大模型训练与微调。

核心亮点

极低内存消耗：首次以类 SGD 内存成本完成大模型训练，达到甚至超越 AdamW 的性能。
无需 SVD 计算：首次实现仅需轻量级随机投影进行大模型预训练，甚至在 7B 模型上优化速度超越 Adam。

卓越系统性能

3 倍预训练加速：在 8 块 A100 GPU 上，APOLLO 预训练 LLaMA 7B 模型实现了 3 倍的加速。
突破规模限制：首次利用 DDP 成功训练 13B 模型，并在 12GB 内存的消费级 GPU（如 NVIDIA RTX 4090）上完成 7B 模型的预训练，无需依赖模型并行、检查点或卸载策略。

论文地址：https://arxiv.org/pdf/2412.05270
论文网站：https://zhuhanqing.github.io/APOLLO/
论文代码: https://github.com/zhuhanqing/APOLLO

方法简要介绍

从 Adam 到结构化更新

在 LLaMA-130M 上的实验验证表明，结构化更新不仅不会导致性能损失，反而会略微提升模型性能（见图 1）。这一发现为 APOLLO 的设计提供了理论基础。

图 1: 结构化梯度缩放与 Adam 的训练损失对比

APOLLO 框架

尽管结构化更新简化了优化器设计，但仍需保存完整的优化器状态，内存开销依然较高。这促使解决以下关键问题：

问题①：是否可以将结构化的学习率自适应转换为一种既实用又内存高效的优化方法？

作者提出了 APOLLO，在低秩空间中构造一个辅助优化器状态，用于预测结构化更新的梯度缩放因子（见图 2）。由于优化器状态建立在低秩空间中，其内存占用显著减少。

图 2: APOLLO 框架

问题②：低秩空间中的自适应学习率能否有效近似其在原始空间中的行为？

APOLLO 通过理论证明，低秩空间中的结构化梯度缩放因子能够有效近似其在原始空间中的行为。同时从低秩空间预测的缩放因子会以 √(n/r) 的比例变化（n 为原始空间维度，r 为低秩空间的秩）。

这使得 APOLLO 可通过放缩缩放因子来弥补低秩带来的误差，从而可采用极低的秩近似，在不牺牲性能的前提下实现极低的内存消耗。实验表明，在 LLaMA-7B 上，APOLLO 仅需 256 的秩，性能仍优于使用 1024 秩的 GaLore。

图 3：梯度缩放因子随秩的变化按照理论推导的 √(n/r) 变化

问题③：是否仍需要昂贵的 SVD 来构造低秩空间？

不需要。APOLLO 无需传统方法中基于昂贵 SVD 运算的低秩投影方法，只需采用基于随机投影的方法。这种方法避免了 SVD 的计算开销，引入了极低的额外计算，甚至 APOLLO 在 7B 上的优化速度还快于 Adam。

问题④：是否能进一步压缩优化器状态至 SGD 的内存消耗，同时达到甚至超越 AdamW 的性能？

为实现极致内存高效，APOLLO 提出了 APOLLO-Mini。APOLLO-Mini 通过仅使用 rank-1 的辅助子空间进行张量级梯度缩放，而非 APOLLO 中的通道级更新。

实验结果显示，APOLLO-Mini 在实现 SGD 内存消耗的同时，其预训练性能甚至超越了 AdamW。这一结果充分证明了结构化学习率更新的有效性，并为资源有限的研究者提供了高效训练大模型的解决方案。

下图为将 APOLLO 应用于 Adam 的算法：

实验及结果

研究者对 APOLLO 的 LLM 预训练、微调以及系统级性能优势进行了全面评估。

预训练

研究团队在 C4 数据集（经过净化处理的 Common Crawl 语料库）上对基于 LLaMA 的大型语言模型进行了预训练实验。

实验结果显示 APOLLO 系列方法（即使在使用极低秩的情况下，如秩分别为 256 和 1）均能显著降低内存需求，并且获得比 Adam 以及当前 SOTA 方法更好的结果。

表 1: 使用 C4 数据集预训练不同大小的 LLaMA 模型验证集困惑度（↓）对比

在 LLaMA 7B 模型上，APOLLO 系列不仅在内存使用上取得巨大突破，其训练性能也远超过 Adam 以及使用高秩（例如 1024）的 GaLore 方法。

表 2: 使用 C4 数据集预训练 LLaMA-7B 模型验证集困惑度（↓）对比

微调

微调任务（常识推理和 MMLU）中，APOLLO 的表现同样抢眼，达到了甚至超越 Adam 基线的效果。

系统优势

加速训练

在硬件资源受限的情况下，APOLLO 能够支持比 AdamW 高达 4 倍的批量大小，从而实现最高可达 3 倍的训练加速。

极低内存消耗

首次实现了在 12GB 内存的消费级 GPU 上成功预训练 LLaMA 7B 模型，为大模型训练在低资源环境下提供了新的可能性。

图 4：APOLLO 内存和训练速度优势

极低的计算开销

由于不依赖昂贵的 SVD 计算，APOLLO 优化时间在 7B 上甚至比 adam 还要快。

随着大语言模型规模不断攀升，内存需求也在呈爆炸式增长。APOLLO 不仅在理论上打破了优化器内存瓶颈，更在实践中展现出预训练与微调的卓越性能。APOLLO 为资源受限的团队提供了一条低成本、高效率的大模型训练之路，预示着未来大模型训练将进入一个全新的时代。

3500元，人形机器人1:1复刻人类动作 | 上海AI Lab开源新成果

3500元，人形机器人1:1复刻人类动作 | 上海AI Lab开源新成果

量子位 2025-02-27 15:48:06

宇树科技G1机器人展示武打动作：算法升级任意动作任意学

宇树科技G1机器人展示武打动作：算法升级任意动作任意学

财联社 2025-02-25 23:59:43

Figure机器人进厂打工，8小时速成物流分拣大师！自研VLA模型全面升级

Figure机器人进厂打工，8小时速成物流分拣大师！自研VLA模型全面升级

新智元 2025-02-27 11:05:10

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

量子位 2024-12-27 15:54:35

线性扩散模型LiT，极简线性注意力助力扩散模型AIPC时代端侧部署

线性扩散模型LiT，极简线性注意力助力扩散模型AIPC时代端侧部署

机器之心Pro 2025-02-01 15:01:13

ICLR 2025 | 西湖大学提出闭环扩散控制策略，高效与闭环兼得

ICLR 2025 | 西湖大学提出闭环扩散控制策略，高效与闭环兼得

机器之心Pro 2025-02-27 13:19:16

大模型如何让智能硬件有脑有脚、听话能干？

大模型如何让智能硬件有脑有脚、听话能干？

36氪 2025-01-26 10:30:50

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

机器之心Pro 2025-02-07 14:49:06

三点已经确定了圆心，相当于没有圆心画圆，网友：一颗钉子不也可以吗？

三点已经确定了圆心，相当于没有圆心画圆，网友：一颗钉子不也可以吗？

青观察 2025-02-26 16:30:33

14999就能本地部署70B版本DeepSeek？ROG的新品太猛了

14999就能本地部署70B版本DeepSeek？ROG的新品太猛了

雷科技 2025-02-26 00:15:32

《乌美矿产协议》全文公布共11点内容

《乌美矿产协议》全文公布共11点内容

环球网 2025-02-27 00:50:32

全年营收暴增114%，但股价不涨反跌，市场不相信黄仁勋还能造“英伟达泡沫”｜钛媒体AGI

全年营收暴增114%，但股价不涨反跌，市场不相信黄仁勋还能造“英伟达泡沫”｜钛媒体AGI

钛媒体APP 2025-02-27 08:28:16

他头也不回的走了，没有不舍，全是速度！

他头也不回的走了，没有不舍，全是速度！

啾啾妹儿 2025-02-26 20:44:31

跟着CNS论文学空间转录组分析（Visium HD、Xenium、Stereo-seq）线上直播，一对一指导

跟着CNS论文学空间转录组分析（Visium HD、Xenium、Stereo-seq）线上直播，一对一指导

生物世界 2025-02-27 13:36:15

英伟达电话会：黄仁勋称DeepSeek R1点燃全球热情

英伟达电话会：黄仁勋称DeepSeek R1点燃全球热情

华尔街见闻官方 2025-02-27 08:50:24

金蝉大招也能打断牢夏七星斩了，代码等级再次减1

金蝉大招也能打断牢夏七星斩了，代码等级再次减1

可乐吃了睡 2025-02-25 05:13:21

来也匆匆去也匆匆，这速度属实有点快

来也匆匆去也匆匆，这速度属实有点快

黑衣动漫 2025-02-26 12:04:01

1个表情背后能藏一篇文章，emoji让推理模型大翻车

1个表情背后能藏一篇文章，emoji让推理模型大翻车

量子位 2025-02-23 12:06:20

开源的风吹到视频生成:阿里开源登顶VBench的万相大模型,一手实测

开源的风吹到视频生成:阿里开源登顶VBench的万相大模型,一手实测

机器之心Pro 2025-02-26 09:54:15

成熟芯片价格被中企打下来德国一销售总监看报价傻眼

成熟芯片价格被中企打下来德国一销售总监看报价傻眼

澎湃新闻 2025-02-26 20:39:01

F35被传参数造假，美军神话被破？美媒：歼35A为美空军敲响警钟

F35被传参数造假，美军神话被破？美媒：歼35A为美空军敲响警钟

兵器海陆空视频 2025-02-25 14:18:33

落户在城市的子女，能继承老家的宅基地吗？关于宅基地一文说清楚

落户在城市的子女，能继承老家的宅基地吗？关于宅基地一文说清楚

农视网 2025-02-26 20:01:15

假如你在光速飞船上奔跑，你的速度是否超光速了？

假如你在光速飞船上奔跑，你的速度是否超光速了？

宇宙时空 2025-02-27 13:44:13

天元千川鲤四代的平替版？便宜一半，参数居然一样？

天元千川鲤四代的平替版？便宜一半，参数居然一样？

老田一家子人 2025-02-26 00:28:18

网友在飞机上俯拍光伏发电太阳能板：好像电脑运行的一行行代码

网友在飞机上俯拍光伏发电太阳能板：好像电脑运行的一行行代码

千希视频 2025-02-27 10:46:43

郭正亮：如果有一个框架能和平相处那就是一中框架

郭正亮：如果有一个框架能和平相处那就是一中框架

台海青年 2025-02-26 00:00:00

震惊！网传东莞一企业已全员放假超2年了，交社保发基本生活费

震惊！网传东莞一企业已全员放假超2年了，交社保发基本生活费

火山诗话 2025-02-26 11:37:58

Scaling Law无法无限扩展？科学家揭示低精度训练的极限

Scaling Law无法无限扩展？科学家揭示低精度训练的极限

DeepTech深科技 2024-11-13 21:38:25

乌军推进到托列茨克市中心！击毁俄军多个弹药库

乌军推进到托列茨克市中心！击毁俄军多个弹药库

项鹏飞 2025-02-26 22:11:29

杭州坐高铁去上海7个小时，二等座510元！这是一班怎样的列车？

杭州坐高铁去上海7个小时，二等座510元！这是一班怎样的列车？

都市快报橙柿互动 2025-02-26 20:48:24

不要自回归！扩散模型作者创业,首个商业级扩散LLM,编程秒出结果

不要自回归！扩散模型作者创业,首个商业级扩散LLM,编程秒出结果

机器之心Pro 2025-02-27 13:14:38

太牛了！400块洋垃圾，也能在本地部署DeepSeek？！

太牛了！400块洋垃圾，也能在本地部署DeepSeek？！

雷科技 2025-02-14 11:33:42

官方承认系统「作弊」，世界首个「AI CUDA工程师」翻车？o3-mini 11秒发现bug

官方承认系统「作弊」，世界首个「AI CUDA工程师」翻车？o3-mini 11秒发现bug

新智元 2025-02-25 07:57:04

DeepSeek-R1自写CUDA内核跑分屠榜！斯坦福学霸狂飙GPU编程自动化挑战人类

DeepSeek-R1自写CUDA内核跑分屠榜！斯坦福学霸狂飙GPU编程自动化挑战人类

新智元 2025-02-27 13:11:31

一部深度相机，搞定机器人室内外高精度导航避障，国内3D视觉创企做到了

一部深度相机，搞定机器人室内外高精度导航避障，国内3D视觉创企做到了

智东西 2025-02-27 13:26:14

研究多模态？快来申报这个基金

机器之心Pro 2025-02-27 13:16:55

机器人8小时速成物流分拣员！Figure-02大规模上岗只用30天

机器人8小时速成物流分拣员！Figure-02大规模上岗只用30天

量子位 2025-02-27 15:54:54

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

机器之心Pro 2024-11-29 15:13:38

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

千帧长视频时代到来！MIT全新扩散算法让任意模型突破时长极限

千帧长视频时代到来！MIT全新扩散算法让任意模型突破时长极限

机器之心Pro 2025-02-26 15:12:32