AI写的论文能过审？双盲评审6.25分，达到ICLR研讨会水平

机器之心报道

编辑：2049、Panda

去年 8 月，Transformer 论文作者之一 Llion Jones 与前谷歌研究者 David Ha 共同创立的人工智能公司 Sakana AI 推出了首个全自动科学发现的 AI 系统：AI Scientist，即「AI 科学家」。到 12 月份，他们又拿出了另一项震撼性的重磅研究成果：使用基础模型搜索人工生命的系统 ASAL。这两项成果都吸引了无数眼球。

而就在昨天，Sakana AI 又宣布：AI Scientist-v2 通过了 ICLR 会议一个研讨会的同行评审过程。这是 AI 科学家写出的首篇通过同行评审的科研论文！

这个研究会的名字很长：「I Can't Believe It's Not Better: Challenges in Applied Deep Learning」，即「我简直不敢相信它没有变得更好：应用深度学习的挑战」。

研讨会地址：https://sites.google.com/view/icbinb-2025

之所以提交给这个 ICLR 研讨会，是因为其涵盖了广泛的研究范围，能够挑战研究者和 AI 系统处理深度学习实际局限性的各种课题。ICLR 与 NeurIPS 和 ICML 并列为机器学习和人工智能领域的三大顶级会议。

该项目由不列颠哥伦比亚大学和牛津大学的研究团队合作完成，AI Scientist-v2 系统的完整细节将在近期发布。David Ha 表示 AI Scientist-v2 也将开源发布。

评估流程

研究团队与 ICLR 研讨会组织者合作，提交了 3 篇完全由 AI 生成的论文进行同行评审，评审人未被明确告知论文来源（双盲评审）。

这些论文由 AI Scientist-v2 完全端到端生成，无人类修改。AI 自主提出研究假设、设计实验、编写代码、运行实验、分析数据、创建可视化图表，并撰写了包括标题到参考文献的全部内容。

研究团队仅提供了广泛研究主题，并从 AI 生成的多篇论文中选择了 3 篇提交。在提交的论文中，一篇获得平均 6.25 分（具体为：6、7、6、6，其中 6 分为略高于接受阈值，7 分为优秀），在所有提交论文中排名约 45%，超过了平均接受阈值，表现优于许多人类撰写的论文。

根据预先确定的实验协议，即使 AI 论文被接受，团队也会在正式发表前撤回，因为学术界尚未就 AI 生成手稿的发表达成共识。据团队所知，这是首次完全由 AI 生成的论文达到足以通过标准科学同行评审流程的水平。

这篇论文报告了人工智能科学家在尝试创新训练神经网络的新型正则化方法时遇到的负面结果，这种方法可以提高神经网络的组成泛化能力。

透明度和道德行为守则的重要性

科学界研究人工智能生成内容质量的重要性不言而喻，最有效方法之一是将部分样本提交至与人类研究相同的严格同行评审流程（在获得相关管理方许可的前提下）。

需说明，这些人工智能生成的论文不会在 OpenReview 公共平台公开。根据各方共同协议，此类论文将在同行评审结束后被撤回并自动不予录用。

学术界需建立人工智能生成科学的规范体系，明确何时、如何声明论文的人工智能生成属性，以及研究过程中的适当时机。总体原则是提供最大透明度，尽管这涉及一个复杂问题：是否应先基于科学价值本身进行评判，以避免不必要偏见。

挑战和局限性

需要指出，虽然这些 AI 科学家的成果成功完成了同行评审，但却是研讨会，而不是主会议。另需强调：该研讨会只接收了 3 篇论文中的 1 篇。

通常而言，相比于提交给主会议的论文，提交给研讨会的论文提出的初步发现不够精细。事实上，许多会议论文都是从研讨会论文开始的。

下面也会提到这一点，Sakana 内部按照 ICLR 主会议的标准对这三篇论文进行了评审。结果它们都没有通过审核。

顶级机器学习会议（如 ICLR、ICML 和 NeurIPS）主会议的接受率通常在 20-30% 左右，而 Sakana 提交的研讨会（在顶级机器学习会议上举办）的接受率在 60-70% 左右。

该团队还指出，AI Scientist 是一个基于前沿 LLM 的系统，因此，AI Scientist 的表现与这些 LLM 的表现直接相关。如果前沿基础模型不断改进（许多科学家也如此预期），那么 AI Scientist 也将继续进步。

分析 AI 生成的论文

除了让同行评审 AI 生成的论文，Sakana 自己的团队也对这三篇 AI 生成的论文进行了分析和评价。

该团队将这三篇论文看作是提交给 ICLR 主会议的稿件（其接受标准更高），然后他们为每篇论文都生成了完整的评审意见。

除了评价，该团队还为每篇论文增加了内联评论。

该团队将自己的身份设定为 ICLR 会议审阅者，向论文作者（AI 科学家）提供了他们在论文中发现的问题以及修改建议 —— 作者可以根据评论和问题改进论文。不同于研讨会审阅流程，这种来回交流是顶级会议或期刊的典型同行评审过程的一部分 —— 审阅者与作者一起改进研究成果。

AI 科学家偶尔会犯令人尴尬的引用错误。例如，Sakana 发现它错误地将基于 LSTM 的神经网络的作者标记给了 Goodfellow (2016)，但正确的作者其实是 Hochreiter and Schmidhuber (1997)。

除了评论和意见外，他们还在初始审查阶段为每篇论文提供了初步评估分数 —— 该分数是根据 NeurIPS 和 ICLR 等顶级机器学习会议的指导方针给出的。

最终，他们得出结论是：这 3 篇论文都没有通过 Sakana 的内部标准 —— 其当前形式达不到被 ICLR 主会议接受的质量。「然而，我们认为我们提交给那个研讨会的论文包含虽然初步但也很有趣的原创想法，可以进一步发展，因此我们相信它们可能有资格被该 ICLR 研讨会接收。」

如果你有兴趣详细读一读这三篇论文与 Sakana 团队的评审意见，可以访问：https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment

AI 科学家的未来

Sakana 团队表示：「我们相信，下一代 AI 科学家将开启科学的新时代。」

现在，AI 已经可以生成一篇完整的科学论文，并通过顶级机器学习研讨会的同行评审，这暗含着 AI 科学家的巨大潜力。

「我们预计 AI 将继续提升，可能呈指数级提升。在未来的某个时候，AI 或许能够生成与人类水平相当甚至超越人类水平的论文，包括最高水平的学术论文。」他们预测，AI 科学家和类似的系统不仅将能写出可被顶级机器学习会议接收的论文，也能写出可在顶级科学期刊上发表的论文。

该团队表示：「最终，我们认为最重要的不是如何评判 AI 科学与人类科学，而是它的发现是否有助于人类繁荣，例如治愈疾病或扩展我们对宇宙规律的认识。我们期待着帮助开启 AI 科学为人类进步做出贡献的时代。」

https://x.com/hardmaru/status/1899665717215326283

https://sakana.ai/ai-scientist-first-publication/

CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦