在北京大学数学学院篮球场,曾有司职小前锋的球员,上篮爱用“数学思维”规划最佳路径。他是昔日学生队队长董彬,也是如今回归北京大学的“80后”数学家。
董彬现任北京大学北京国际数学研究中心教授,兼任北京大学机器学习研究中心副主任,国家生物医学影像中心、大数据分析与应用国家工程实验室研究员,北京中关村学院常务副院长,用数学纵横应用领域是他的兴趣与擅长。他和团队针对肿瘤诊疗问题研发系列新的定量和定性分析算法和工具,在三甲医院推广,部分成果已转化。
董彬
近日,《每日经济新闻》记者专访董彬,探讨他在AI辅助数学研究的最新进展。董彬表示,正在寻找一把“万能钥匙”,解开数学研究中的隐藏密码。
数学的每一步跨越都在重塑人类文明演进的底层代码。正如黎曼几何奠定广义相对论基础,进而催生全球导航系统、天体观测技术、航天轨道设计⋯⋯大量未验证的数学猜想吸引着全球数学家攀登,而如果它们能被AI(人工智能)自主破解,这场认知革命的意义远超技术突破本身。
“我预测,在全球范围内,今年或明年就会有一些数学猜想,在AI的辅助下完成,甚至由AI独立完成。”董彬说,这也正是他主导的AI for Mathematics(简称AI4M)致力于突破的方向。在这场中美激烈角逐的全球数学智能竞赛中,董彬团队正以中国方案冲击AI数学推理的“无人区”。
寻找数学推理的万能钥匙“很多人觉得我在talking crazy”
董彬所设想的未来充满挑战,来自事情本身,也来自人。
“2023年我刚开始做时,很多人都觉得我在talking crazy(说疯话)。”在他看来,若是“学界大佬们”看后断言此事为天方夜谭,他反倒觉得值得全力以赴。“哪怕会撞到南墙,也要自己撞上去,看看到底是一面石头做的墙,还是纸糊的墙?而我内心坚信此事可行。”
“新基石研究员项目”是一项聚焦原始创新、鼓励自由探索、公益属性的新型基础研究资助项目。2022年,腾讯公司宣布10年内出资100亿元人民币,支持富有创造力的科学家开展探索性与风险性强的基础研究,实现“从0到1”的原始创新。董彬入选了第二期“新基石研究员”。
董彬和团队
NBD:您本硕博都学数学专业,后来转向机器学习和人工智能(AI),投身AI4M,为何有这样的转变?
董彬:从读博起,我就参与生物医学影像和多个医学成像与图像分析项目。2014年回到北大后,继续从事图像重建、处理,以及基于图像的诊断与辅助治疗等工作。期间深度学习快速发展,从起步到爆发,再到基础模型出现,让我思考:借助强大的AI工具,是否突破计算成像领域瓶颈,实现范式革新。
基础模型能统一处理不同任务、挖掘潜在关联,受此启发,我想探索构建统一的计算成像模型或算法。经研究发现,各种成像方法在基本原理上,都可归结为波与物质的相互作用。而想打通不同成像模态,关键在于构建基于微分方程求解的基础模型,这也是我在新基石项目中聚焦解决的核心问题之一。
NBD:一把解所有微积分的“万能钥匙”会带来什么?
董彬:若能构建为各类微分方程提供初始解的模型,其影响将远超出计算成像领域。于是我们着手研究偏微分方程(PDE)基础模型。有了一维模型雏形后,我发现工业仿真、制造业等诸多领域在实际中都面临相似难题——亟需通用的微分方程求解工具。这些领域研究者对微积分方程求解的精度要求不高,却十分看重求解速度,毕竟他们更关心如何利用求解结果解决实际问题,推动领域发展。因此,他们更需要精度适中、求解极快的微分方程求解器。
大语言模型会做数学题但AI4M要教会AI真正的数学推理
就像现在AI能写很多代码,但替代不了顶级的架构师。数学家也是一样,能提出有意义数学问题、建立一套理论体系的数学家,AI会如虎添翼。
NBD:如果有了这把“万能钥匙”,AI可以做哪些数学工作?
董彬:AI能助力数学家,承担枯燥繁琐的验证工作,未来甚至有望助力证明重要猜想。但这要求数学家精准把握AI能力,熟练运用AI工具。虽难确切预知这一天何时来临,但预计未来一两年会有初步成果。例如,今明两年,部分数学猜想或许能借助人工智能完成,形式可能是AI独立完成,也可能是在数学家协作下实现。
NBD:现在大语言模型也能回答出很多数学题,这和您研究的AI4M有何不同?
董彬:北京大学的AI评测组会定期测试市面上优秀的AI大模型。虽然部分测试题目可能被AI接触过,经过我们评估,当前顶尖语言模型在数学专业领域已达到研究生水平。这令人惊讶,但发挥极不稳定,比如我认为它不应该做对的题它能做对,我认为不应该犯错的题目,它会“阴沟里翻船”。
我希望AI具备比肩顶级数学家的推理能力,以有效辅助数学家进行前沿探索,推理能力是AI发展的“皇冠上的明珠”AI4M不仅是AI赋能数学,更是双向赋能。我们希望通过解析数学家的推理过程,将其应用于AI研究,提升AI的推理能力,同时让数学推理能力迁移到其他需要推理的非数学领域。
NBD:您如何训练AI的数学推理能力?
董彬:数学证明类似“搜索”,每一步都要寻找、尝试数学技巧,简化问题或靠近结论。定理证明可抽象成一个马尔可夫决策过程,AI需在各状态下选最“靠谱”操作,快速构建严密证明。数学家证明时也在探索,但受自身能力和知识局限,单位时间考虑的路径、运用的技巧远不如计算机高效全面。这正是AI用于数学推理的巨大优势:解构数学家思维,发挥计算机大规模搜索和快速计算的长处,能让AI短时间内拥有类似顶级数学家的推理、证明能力。
董彬正在解题
成为数学界的钢铁侠助理让AI做弥补数学家短板的同事
数学对推动人工智能发展极为关键,但目前AI领域工程推进快于理论研究,原因之一是数学理论研究效率较低,没有数学家能精通所有数学工具。但如果类似钢铁侠的人工智能管家——贾维斯,AI全面掌握数学理论知识,数学家提供想法与直觉,就能大幅提升效率,缩小理论与实践间的鸿沟。
董彬期望人工智能不只是智能导航工具,更要成为智能领航员和真正的伙伴。他认为:“一些数学家在思想、直觉和前瞻性方面具有独到之处,但在证明技巧和部分工具运用上存在短板,而AI正好可以弥补这一不足。这样的配合无疑是理想的。”
NBD:怎样才能确认是AI自身的能力,而非基于数据检索得到的结果呢?
董彬:分清AI是自主思考还是检索现成答案并非易事。毕竟人类证明时调取记忆经验,也类似“搜索”。关键要看AI能否构建自身数学知识体系,依据当下情境自行推导下一步,而非简单输出存储答案。若AI遇到面对新问题能提出全新证明思路,或推导步骤逻辑连贯合理,并非拼凑已知结果,那就说明它在真正“思考”,借此可更好判断它是否具备自主推理能力。
NBD:若未来举办人类和AI的数学“刷题大赛”,人类还有机会胜出吗?
董彬:人类和AI培养逻辑推理都需要大量“刷题”,但AI刷题速度远超过人类。人类解一道题的时间,AI能解千上万道。数学对错标准明确,这种效率差距更突出。这类似围棋比赛,起初人们认为计算机难敌顶级高手,可AI凭计算和训练速度优势最终获胜。数学领域也如此,AI训练效率提升几个量级后,极短时间就能达到极高推理水平,在“刷题大赛”中碾压人类。因此,从效率和题量看,人类几乎没机会在这类比赛中胜出。这并非人类逻辑思维不行,而是AI在解题速度和规模上优势巨大。
NBD:您希望培养顶级AI数学家,还是为数学家打造个顶级AI工具?
董彬:AI与顶级数学家应相辅相成,能力需接近他们,就像数学家倾向挑选资质出众的学生。服务顶级数学家的AI,自身能力必须与数学家相当。从人类视角,创新源于知识和推理能力结合。如今模型已积累海量知识,若再有顶尖人类的推理能力,就能开启真正创新,毕竟人类创新依赖这两种能力融合。
图片来源:视觉中国
AI都会做题了数学会走到尽头吗
学生要加入AI4M这个持久战,难免会因短期难发论文有所顾虑。董彬理解他们的压力,同时也积极引导:不是不发论文,而是要提升论文质量。“学生能发四五篇那种看摘要就知道研究套路、只是表述出彩的论文。我允许我的博士在毕业时只发一两篇论文,但这些论文一定要让人看了眼前一亮,会惊叹:这件事居然还能这么做!”
NBD:您担心数学会发展到尽头吗?或“吞并”所有学科?数学会走到尽头吗
董彬:数学永远不会因为某些重大猜想被AI解决而走到尽头。数学是一种语言,即使现有表述内容被攻克,还能创造新词汇、概念,来描述自然界机制。把数学领域看作球体,其存在代表未完善部分的孔洞。过往数学家致力于填补孔洞、架起桥梁、完善内部结构。通用人工智能出现后,孔洞可能自动被修补,促使数学家将精力转向拓展球体边界,即扩充数学知识边界。
NBD:与全球开展同类研究的团队相比,你们研究进展速度如何?
董彬:谷歌DeepMind团队是我们最大的竞争对手。2024年,我又喜又忧:喜的是发现DeepMind技术路径与我们不谋而合,证明方向前景广阔;忧的是,因为谷歌算力远超我们,这促使我们调整目标和技术路径,避免正面算力竞争。
评估DeepMind的内部研究进展非常困难。尽管在解决当前研究难题(尤其是获取高质量数据)方面,DeepMind并没有明显的优势,但在算力等资源方面却具备一定优势,因此整体竞争态势难以判断。
另一方面,中国也拥有独特的优势。广泛且深厚的数学教育为我们的研究打下了坚实的基础,团队中聚集了顶级的基础数学家,在领域知识和理论深度上表现突出,我们在关键环节上有独到的视角和方法,这使得我们有望在竞争中取得突破。
NBD:若不久后AI能解所有数学题,现在学生学数学是学什么?
董彬:即使未来AI可解决所有数学题,学生学数学仍意义重大。数学核心是培养逻辑思维与推理能力,这些能力在各领域都至关重要。现在大模型训练推理能力,也不只为解数学题,而是希望应用于其他学科。这和各专业学生都要学数学同理:无论技术多先进,严谨思考、系统分析问题的能力始终不可或缺。
(文中图片除标注外,均为受访者供图)