大型语言模型 (LLM) 功能极其丰富,它们可以汇总文档、生成代码,甚至集思广益,提出新想法。现在,谷歌 DeepMind 扩展了这些功能,使其能够解决数学和现代计算领域中基础且高度复杂的问题。
近日,谷歌 DeepMind 公布了其在自动化算法探索领域的最新进展——AlphaEvolve。该系统融合了大型语言模型的强大代码生成能力与进化算法的迭代优化思想,构成一个能够自主发现并改进复杂算法的 AI 智能体,致力于在通用算法的发现和优化方面取得突破。
AlphaEvolve 利用谷歌的 Gemini 大型语言模型家族(包括Gemini Flash 和 Gemini Pro)为各种不同的任务生成和改进代码。其核心在于其创新的“进化”方法:它不仅仅是单次生成代码,而是通过一个迭代循环,不断对 Gemini 生成的算法进行测试、评估、筛选和优化。表现不佳的方案被剔除,有潜力的方案则被进一步调整和改进,直至系统收敛到当前问题下的最优算法。在许多测试中,其结果比现有的、由人类专家编写的最佳解决方案更高效或更准确。
据悉,AlphaEvolve 提升了谷歌数据中心、芯片设计和 AI 训练流程的效率,包括训练 AlphaEvolve 本身所依赖的 LLM。它还帮助设计了更快的矩阵乘法算法,并为一些悬而未决的数学问题找到了新的解决方案,展现出在众多科学和工程领域应用的巨大潜力。
工作原理
AlphaEvolve 延续了谷歌 DeepMind 多年来的研究方向,其核心理念是通过人工智能推动数学与科学领域的人类认知边界。2022 年问世的 AlphaTensor 模型在计算机科学基础难题——矩阵乘法求解上取得突破,将保持了 50 余年的计算效率纪录一举刷新;2023 年推出的 AlphaDev 则发现了每日执行数万亿次的基础运算的加速方法。这两项技术均将数学问题转化为"游戏对弈"模式,通过寻找最优步骤序列来破解难题。
而 2023 年底亮相的 FunSearch 实现了范式革新——它用具备代码生成能力的大语言模型替代了游戏 AI。由于大语言模型具有多任务处理能力,相比仅专精单一游戏类型的早期系统,FunSearch 能攻克更多样化的问题。该工具甚至成功破解了纯数学领域一个长期悬而未决的著名难题。
AlphaEvolve 是 FunSearch 的升级版本。与 FunSearch 只能生成解决特定问题的简短代码片段不同,它能编写长达数百行的完整程序。这一突破使其能够应对更广泛的问题类型。
从理论上说,任何能用代码描述且解决方案可通过计算机评估的问题,AlphaEvolve 都能处理。"算法驱动着我们周围的世界,因此这项技术的影响将无比深远,"谷歌 DeepMind 算法探索团队负责人 Matej Balog 说道。
(来源:DeepMind)
AlphaEvolve 的具体工作流程可以概括为一个进化式搜索循环。其核心组件协同工作:首先,一个程序数据库 (Program Database) 负责存储当前已发现的、有潜力的程序(算法)及其评估分数,并在进化过程中不断更新。
接着,提示采样器 (Prompt Sampler) 从程序数据库中选择一个或多个“父程序”以及一些“灵感”代码片段,构建一个具有引导性的提示。
随后,系统的 LLM 核心,主要利用快速高效的 Gemini Flash 模型接收此提示,并生成对父程序的修改建议(通常以 diff 的形式体现),这些修改旨在探索新的算法变体。当需要更深入、更具洞察力的分析或遇到瓶颈时,系统可以灵活调用能力更强但速度稍慢的 Gemini Pro 模型。生成的 diff 会被应用到父程序上,从而创造出新的“子程序”。
这些新诞生的子程序接下来会进入评估器池 (Evaluators Pool),这是关键的反馈环节。在这里,它们会接受严格的自动化测试,评估器根据预设的指标(如正确性、运行速度、资源消耗、输出精度等)对子程序进行打分。
最后,评估结果优异的子程序会被添加回程序数据库中,成为下一轮进化的潜在父程序。这个“采样-生成-评估-选择”的循环会持续进行,不断迭代,直到 Gemini 模型无法再提出能够超越数据库中现有最佳方案的新解法,或者达到预设的计算资源上限。
这种进化方法使得 AlphaEvolve 能够主动探索广阔的解决方案空间,发现人类可能从未想到的新颖方法,并通过自动化的评估过程不断优化这些方法。
解决多个问题
该团队在一系列不同的问题上测试了 AlphaEvolve。例如,他们再次研究了矩阵乘法,以比较像 AlphaEvolve 这样的通用工具与专用 AlphaTensor 的性能。矩阵是由数字构成的网格,而矩阵乘法作为基础运算支撑着从人工智能到计算机图形学等诸多应用领域,但至今无人知晓其最快计算方法。“这仍然是一个悬而未决的问题。”Balog 表示。
团队向 AlphaEvolve 输入了问题描述和标准算法示例。该工具不仅针对 14 种不同规模的矩阵提出了超越现有方法的快速计算算法,更在 4x4 矩阵乘法这一具体问题上突破了 AlphaTensor 创下的速度记录。
AlphaEvolve 从 Gemini 生成的 16,000 个候选方案中筛选出了最优解,但其效率仍高于 AlphaTensor。而且 AlphaTensor 的解决方案仅适用于由 0 和 1 构成的矩阵,而 AlphaEvolve 还能处理包含其他数字的矩阵运算。
矩阵乘法只是其中一项突破。DeepMind 总共用 AlphaEvolve 测试了 50 多个不同类型的知名数学难题,包括傅里叶分析问题、最小重叠问题以及接吻数问题等。AlphaEvolve 在 75% 的案例中匹配到了现有的最佳解决方案,并在 20% 的案例中找到了更优的解决方案。
例如,它推进了接吻数问题。这项几何挑战吸引了数学家们超过 300 年,它关注的是与一个共同单位球面相切的不重叠球体的最大数量。AlphaEvolve 发现了一个由 593 个外球体组成的结构,直接刷新了 11 维空间中的下限。
(来源:DeepMind)
随后,谷歌 DeepMind 将 AlphaEvolve 应用于一些实际问题。AlphaEvolve 帮助谷歌改进了其下一代张量处理单元的设计,并找到了一种更有效地利用谷歌全球计算能力的方法,节省了 0.7% 的总资源。
AlphaEvolve 甚至找到了一种加速 Gemini 本身训练的方法,它将 Gemini 架构中这一关键内核的速度提高了 23%,从而使 Gemini 的训练时间缩短了 1%。除了性能提升之外,AlphaEvolve 还显著缩短了内核优化所需的工程时间,从数周的专家工作缩短为数天的自动化实验,从而帮助研究人员更快地进行创新。
AlphaEvolve 还能优化底层 GPU 指令——这个通常已被编译器深度优化的超复杂领域,人类工程师往往不会直接修改。在基于 Transformer 的 AI 模型中,AlphaEvolve为 FlashAttention 内核实现了高达 32.5% 的速度提升。这类优化不仅能帮助专家精准定位性能瓶颈,还能轻松将改进方案集成到代码库中,既提升了开发效率,又为未来节省算力和能耗铺平道路。
谷歌 DeepMind 计划继续探索该工具的潜在应用场景。目前的一个局限是,AlphaEvolve 无法适用于需要人工评分的解决方案,比如需要主观判读的实验室实验。
英国华威大学数学家 Jakob Moosbauer 指出,虽然 AlphaEvolve 能在诸多领域产出令人惊艳的新成果,但它几乎不提供关于解题过程的理论阐释。这对于推进人类认知而言是个明显缺陷。
尽管如此,这类工具注定将重塑科研人员的工作方式。
1.https://www.technologyreview.com/2025/05/14/1116438/google-deepminds-new-ai-uses-large-language-models-to-crack-real-world-problems/