AMD宣布集成DeepSeek-V3到MI300X GPU，它能否与英伟达抗衡？

在人工智能芯片这场角力中，英伟达凭借其强大的技术实力和完整的生态系统，构筑起了一道几乎难以逾越的壁垒。然而，随着 AI 应用场景的不断扩展，特别是在推理阶段的需求爆发，AMD 等竞争者正在寻找突破口，试图在这场竞争中赢得一席之地。

最新消息显示，AMD 抓住了 DeepSeek 模型最近走红的契机，宣布已将新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上。这一集成旨在与 SGLang 配合使用，以实现最佳性能。DeepSeek-V3 专门针对 AI 推理进行了优化，这表明 AMD 正在积极布局 AI 应用落地场景。

图丨相关推文（来源：X）

这一合作背后，所反映的也是 AI 行业格局的变化。过去两年，大模型的训练需求主导了算力市场，英伟达凭借 CUDA 生态和 H100 系列 GPU 占据绝对优势。但随着大模型进入应用落地阶段，推理需求激增，企业更关注成本、能效和部署灵活性。AMD 正瞄准这一窗口期，试图通过优化推理性能打破英伟达的垄断。

AMD 的 AI 芯片之路

AMD 的 Instinct MI300X 是过去其 AI 战略的核心武器。这款采用 Chiplet 设计的 GPU 集成 1460 亿晶体管，配备 192GB HBM3 内存，专为大规模 AI 推理设计。据 AMD 数据，MI300X 的推理性能较英伟达 H100 提升 30%，内存带宽达 5.3TB/s，尤其擅长实时对话、图像生成等低延迟任务。然而，MI300X 的推广面临两大挑战：生态短板与产能瓶颈。

图丨 AMD Instinct MI300X（来源：AMD）

英伟达的 CUDA 生态已形成近乎垄断的开发者壁垒，全球 90% 的 AI 框架依赖其工具链。尽管 AMD 推出开源的 ROCm 平台并适配 PyTorch、TensorFlow，但迁移成本高、社区支持不足的问题依然突出。例如，Meta 虽采用 MI300X 运行 Llama 3.1 模型的推理任务，但训练阶段仍依赖英伟达芯片。此外，2023 年底台积电先进封装产能紧张导致 MI300X 交付延迟，部分客户转投英伟达，也暴露出 AMD 在供应链管理上的脆弱性。

为应对挑战，AMD 加速硬件迭代并强化生态合作。2024 年 6 月，AMD 推出了升级版的 MI325X 芯片，这款产品采用了 8 个计算芯片、4 个 I/O 芯片和 8 个内存芯片的复杂设计，通过 2.5D 和 3D 封装技术实现整合。在性能方面，MI325X 提供了 1.3 petaFLOPS 的 BF/FP16 性能，或 2.6 petaFLOPS 的 FP8 性能，超过了英伟达的 H200。特别是在内存容量上，MI325X 配备了 288GB 的 HBM3e 内存，是 H200 的两倍多，内存带宽达到 6TB/S。

但 MI325X 依旧存在明显短板。与英伟达的产品相比，AMD 在 FP8（8 位浮点数）支持方面存在劣势。由于软件库 vLLM 对 FP8 支持有限，AMD 不得不在许多基准测试中使用 FP16，这意味着相同规模的 AI 模型在 AMD 芯片上需要更多内存。

面对这些技术挑战，AMD 已经规划了明确的产品路线图。AMD 计划 2025 年推出 MI355X，性能较 MI325X 再提升 80%，并采用 3nm 工艺。但更重要的是，AMD 还暗示了代号为“CDNA next”的下一代产品将带来“重大架构升级”，可能包括异构多芯片部署或光子内存扩展等创新技术，且将支持 FP4 和 FP6 数据类型，这一改进有望解决目前在低精度计算方面的短板。

图丨 AMD MI355X（来源：AMD）

构建全方位 AI 生态系统

在技术创新之外，AMD 还通过一系列战略投资来加强其在 AI 领域的竞争力。

2024 年 7 月，AMD 以 6.65 亿美元收购欧洲最大私人 AI 实验室 Silo AI。这家实验室拥有 300 名专家，在开发定制化大语言模型和 MLOps（机器学习运维）工具方面具有深厚积累。此次收购有效补强了 AMD 的 AI 服务能力：Silo AI 能够为客户提供从模型训练到部署的全流程支持，而 AMD 则可以借此将硬件、软件和服务整合为完整的“端到端解决方案”。值得一提的是，Silo AI 为欧洲企业开发的“主权 AI”模型（如支持欧盟多语言的 Poro 和 Viking）已经实现了在 AMD 平台上的直接运行，这将为 AMD 在欧洲市场构建起独特的区域性优势。

2024 年 12 月，AMD 领投了 MIT 初创公司 Liquid AI 的 2.5 亿美元 A 轮融资。Liquid AI 提出的“液态神经网络”（Liquid Neural Network）摒弃传统 Transformer 架构，模仿线虫神经系统设计动态权重更新机制。其模型 LFM-1B 在自然语言处理任务中，以 1/10 的参数量达到同等规模模型的性能，且推理能效提升 90%。这一技术有望解决 Transformer 在长序列建模和边缘计算中的瓶颈。AMD 的押注不仅是为了抢占下一代 AI 架构的先机，也是为了在英伟达主导的“大模型军备竞赛”外开辟新战场。

（来源：Liquid AI）

2025 年 1 月，AMD 又以 2000 万美元投资 AI 制药公司 Absci，首次进军生命科学领域。Absci 利用 AI 从头设计抗体，传统药物研发需 10-15 年，而借助 AMD 的 MI300X 芯片，其“集成药物创造平台”可将抗体设计周期缩短至 6 周。AMD 看中的是生命科学领域对高效推理的需求——基因测序、蛋白质模拟等任务需要海量并行计算，而英伟达在该市场的布局尚未形成壁垒。与 Absci 合作，将帮助 AMD 扩大芯片应用场景，还可积累生物计算领域的专属优化经验。

然而，挑战依然存在。正如行业分析师指出的，尽管 AMD 等公司在某些关键 AI 任务上能够提供更快的速度和更低的价格，但英伟达的优势仍然明显。英伟达 CEO 黄仁勋曾自信地表示，即使竞争对手的芯片免费提供，从总拥有成本来看也无法与英伟达竞争。这种底气源自英伟达在 AI 软件生态系统和整体解决方案方面长期建立的优势地位。

另一方面，亚马逊、谷歌等云厂商自研 AI 芯片（如 Trainium 2、Trillium）也在持续挤压第三方供应商的空间。此外，地缘政治风险不容忽视——美国对华芯片出口限制也在迫使 AMD 调整中国市场策略，而英伟达凭借更早的全球化布局（如与沙特合作建设 AI 数据中心）或更具韧性。

图丨亚马逊 Trainium 2 芯片（来源：AWS）

不过，市场格局正在发生变化。随着 AI 芯片的主战场从训练向推理阶段转移，性价比和能效比将变得越来越重要。美国德克萨斯高级计算中心等机构已经开始考虑在推理任务中使用替代方案，原因是英伟达芯片的价格和能耗都相对较高。这为 AMD 等竞争者提供了机会。

在接受《时代》杂志采访时，AMD CEO 苏姿丰表示，AI 不是昙花一现的泡沫，而是一个重大的技术变革机遇。她强调，AMD 的优势在于能够提供端到端的 AI 解决方案，并在与合作伙伴协作方面表现出色。这种战略思维反映在 AMD 的投资布局上，从芯片研发到软件优化，从人才储备到应用场景拓展，AMD 正在构建起全方位的 AI 生态系统。

展望未来，虽然短期内难以撼动英伟达的主导地位，但随着 AI 应用场景的不断丰富和市场需求的持续增长，AMD 通过技术创新和战略投资，正在逐步缩小与领导者的差距。在这场技术变革中，最终的赢家可能不是单一的垄断者，而是能够为不同应用场景提供最优解决方案的参与者。

参考资料：

1.https://x.com/AMD/status/1882851449991737473

2.https://time.com/7026241/lisa-su-amd-ceo-interview/

3.https://www.theregister.com/2024/06/03/amd_reveals_refreshed_mi325x_with/

4.https://technologymagazine.com/articles/how-amd-is-intensifying-ai-chip-focus-amid-global-tech-race

5.https://www.tomshardware.com/tech-industry/artificial-intelligence/amd-reveals-core-specs-for-instinct-mi355x-cdna4-ai-accelerator-slated-for-shipping-in-the-second-half-of-2025

排版：刘雅坤