昨日,谷歌宣布DeepMind创造了人工智能领域的新纪录:其最新AI系统AlphaGeometry2,在国际数学奥林匹克竞赛(IMO)的大规模几何题目测试中,首次超越人类金牌得主水平。
研究团队从2000年到2024年的IMO竞赛中精选了45道几何题目,经过技术处理后转化为50道标准题目。测试结果显示,AlphaGeometry2成功解答了其中的42道,已经超过了金牌得主40.9分的平均成绩。
DeepMind的这一突破意义深远。研究团队认为,解决具有挑战性的几何问题(特别是欧几里得几何问题)所需的推理能力和策略选择能力,正是构建下一代通用人工智能的关键要素。
网友表示,「接近完美」。
AG2,一举超越IMO金牌得主
DeepMind之所以对这个高中数学竞赛如此重视,源于一个深层洞察:解决欧几里得几何问题的能力可能是构建更强大AI系统的关键。
证明数学定理需要同时具备推理能力和在多个可能步骤中做出选择的能力,这些问题解决技能可能成为未来通用AI模型的重要组成部分。
事实上,在2024年夏天的一次演示中,DeepMind将AlphaGeometry2与数学形式推理AI模型AlphaProof结合,成功解决了当年IMO竞赛6道题目中的4道。
在技术架构上,AlphaGeometry2采用了一种混合方案,将谷歌Gemini系列的语言模型与专门的符号运算引擎相结合。
在解题过程中,Gemini模型负责预测解题可能需要的几何构造(如添加辅助点线或圆),而符号引擎则基于严格的数学规则进行推导。两个模块通过并行搜索算法协同工作,将发现的有用信息存储在共享知识库中。当系统能够将Gemini模型的建议与符号引擎的已知原理结合,得出完整证明时,即认为完成了问题求解。
为了克服几何训练数据匮乏的困境,研究团队自主生成了超过3亿个不同复杂度的定理和证明用于训练。这种大规模的合成数据训练方法,为AI在特定领域实现突破提供了新的范例。
然而,AlphaGeometry2的能力仍存在明显边界。它无法处理包含可变点数、非线性方程和不等式的问题。在研究团队专门挑选的29道更具挑战性的IMO候选题中,系统仅能解决20道。
这一突破引发了对AI发展路径的深入思考。传统上,AI领域存在两种主要方法:基于符号操作的方法(通过规则操作代表知识的符号)和类似人脑的神经网络方法。
AlphaGeometry2采用混合架构:其Gemini模型采用神经网络架构,而符号引擎则基于规则运算。根据Deepmind的论文,在测试中,同样采用神经网络架构的OpenAI o1模型无法解决任何AlphaGeometry2成功解答的IMO问题。
卡内基梅隆大学AI专家Vince Conitzer表示:
"在这些基准测试上取得惊人进展的同时,包括最新的'推理型'在内的语言模型仍在一些简单的常识问题上举步维艰,这种对比令人深思。
这不是虚假繁荣,但说明我们仍然无法准确预测下一个系统的行为。考虑到这些系统可能产生的重大影响,我们迫切需要更好地理解它们及其潜在风险。"
但这种情况可能不会永远持续下去。在论文中,DeepMind 团队表示,他们发现了初步证据,表明AlphaGeometry2的语言模型部分已显示出无需符号引擎辅助也能生成部分解决方案的潜力。
不过,研究团队同时强调,在模型运算速度得到根本改善、"幻觉"问题彻底解决之前,符号运算等外部工具仍将在数学应用中扮演不可或缺的角色。