CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

AI博士智能体自主科研，o1-preview封神成本暴降84%！AMD霍普金斯新作爆火

2025-01-13 10:31:29

新智元报道

编辑：英智桃子

【新智元导读】AI已经能够自主科研了！AMD霍普金斯祭出「智能化实验室」不仅能独立完成文献调研到论文撰写全流程工作，还能将研究成本暴降84%。

AI离自主科研，真的越来越近了！

最近，Hyperbolic联创Jasper Zhang在采访中称，AI智能体已经可以自主租用GPU，利用PyTorch进行开发了。

其实，在科研方面，AI智能体也是一把能手。

只要脑海里有科研的奇思妙想，一份高质量的研究报告甚至连代码，都能很快呈现在你眼前。

这不，AMD联手霍普金斯打造出的一款「智能体实验室」，瞬间在全网爆火。

这个超牛的AI系统，代号叫做Agent Laboratory，全程靠LLM驱动！

从文献综述开始，到开展实验，再到最后生成报告，就像一位不知疲倦的科研小能手，一站式搞定整个科研流程。

Agent Laboratory由LLM驱动的多个专业智能体组成，自动处理编码、文档编写等重复耗时的任务。

在研究的每个阶段，用户都可以提供反馈与指导。Agent Laboratory旨在助力研究人员实现研究创意，加速科学发现，提高研究效率。

论文地址：https://arxiv.org/abs/2501.04227

研究发现：

由o1-preview驱动的Agent Laboratory产出的研究成果最佳；
与现有方法相比，Agent Laboratory生成的代码达到先进水平；
人类在各阶段提供的反馈，显著提升了研究的整体质量；
Agent Laboratory大幅降低研究费用，与传统研究方法相比，费用减少了84%。

Agent Laboratory有三个关键阶段：文献综述、实验设计和报告撰写。

由LLM驱动的专业智能体（如博士、博士后等）协同工作，承担文献综述、实验规划、数据准备和结果解释等工作。这些智能体还会集成arXiv、Hugging Face、Python和LaTeX等外部工具，来优化结果。

文献综述

文献综述阶段，旨在收集、整理与给定研究主题相关的论文，为后续研究提供参考。

在这个过程中，博士智能体借助arXiv API检索相关论文，并执行三个主要操作：摘要、全文和添加论文。

摘要：从与初始查询相关的前20篇论文中提取摘要
全文：提取特定论文的完整内容
添加论文：将选定的摘要或全文纳入到文献综述

该过程并非一次性完成，而是迭代进行。智能体多次执行查询，依据论文内容评估其相关性，筛选出合适的论文，构建全面的文献综述。

当通过「添加论文」命令达到指定数量（N=max）的相关文献后，文献综述才会完成。

实验环节

实验环节包括制定计划、数据准备、运行实验和结果解释。

制定计划

在这个阶段，依据文献综述和研究目标，智能体需要制定一份详尽且可行的研究计划。

博士和博士后智能体通过对话协作，明确研究方法，比如要采用哪些机器学习模型、使用什么数据集，以及实验的主要步骤。

达成一致后，博士后智能体通过「计划」命令提交该计划，作为后续子任务的行动指南。

数据准备

在此阶段，ML工程师智能体负责执行Python命令来运行代码，为实验筹备可靠的数据。该智能体有权限访问 HuggingFace数据集。

代码完成后，ML工程师智能体通过「提交代码」命令提交。在正式提交前，代码会先经过Python编译器检查，确保不存在编译问题。若代码有错误，这个过程将反复进行，直至代码无误。

运行实验

在运行实验阶段，ML工程师智能体借助mle-solver模块来执行之前制定的实验计划。

mle-solver是一个专门的模块，主要功能是自主生成、测试以及优化机器学习代码，其工作流程如下：

A. 命令执行

在命令执行阶段，初始程序是从预先维护的高性能程序中选取的。

mle-solver通过「REPLACE」和「EDIT」这两个操作，对这个程序进行迭代优化。

「EDIT」操作会选定一系列行，用新生成的代码替换指定的内容。「REPLACE」操作会直接生成一个全新的Python文件。

B. 代码执行

执行代码命令后，编译器会检查新程序在运行时是否存在错误。

若程序成功编译，系统会给出一个得分。若该得分高于现有程序，顶级程序列表就会更新。

要是程序编译失败，智能体就会尝试修复代码，最多尝试3次。如果修复失败，就会返回错误提示，重新选择或生成代码。

C. 程序评分

通过基于LLM奖励模型对编译成功的代码打分，评估mle-solver生成的机器学习代码的有效性。

该奖励模型会依据研究计划、生成的代码以及观察到的输出，对程序进行评分，评分范围是0到1。得分越高，表明程序能够更有效地实现研究目标。

D. 自我反思

无论代码运行成功与否，mle-solver都会依据实验结果或者错误信号进行反思。智能体会思考每个步骤，力求优化最终结果。

如果程序编译失败，求解器就会琢磨下一次迭代时该怎么解决这个问题。要是代码成功编译且有了得分，求解器则会思考怎样提高这个分数。这些反思旨在帮助系统从错误中学习，并在后续迭代中提高代码质量和稳定性。

E. 性能稳定化

为避免性能出现波动，采用了两种机制：顶级程序采样和批量并行化。这两种策略在探索新解决方案和优化现有方案之间找到平衡，让代码修改过程更加稳定。

顶级程序采样：指维护一组评分最高的程序。在执行命令前，会从这组程序中随机挑选一个，既能保证程序的多样性，又能确保质量。
批量并行化：求解器每进行一步操作，都会同时对程序做出N次修改，然后从这些修改中挑选出评分最高的，去替换顶级集合里评分最低的程序。

研究者在MLE-bench的10个ML挑战中单独评估了mle-solver。mle-solver始终优于其他求解器，获得了更多奖牌，并在10个基准中的6个中达到了高于中位数的人类表现。

解释结果

在此阶段，博士和博士后智能体一同探讨对mle-solver得出的实验结果的理解，旨在从实验结果中提炼出有价值的见解。

当他们就某个有意义的解释达成共识，且认为该解释能为学术论文增添价值时，博士后智能体便会通过「解释」命令提交该解释，为后续的报告撰写提供支撑。

撰写研究报告

报告写作阶段，博士和教授智能体负责把研究成果整理成一份完整的学术报告。这一过程借助名为paper-solver的模块，来迭代生成并完善报告。

paper-solver并非要完全取代学术论文的写作过程，而是以人类易于理解的格式，对已完成的研究成果进行总结。

该模块生成的报告遵循学术论文的标准结构。paper-solver模块的工作流程如下：

A. 初始报告框架

paper-solver的首要任务是生成研究论文的初始框架。该框架框架遵循学术规范，采用了LaTeX编译所需的格式，生成的论文能直接进入审阅和修改环节。

B. ArXiv研究

paper-solver可按文献综述接口访问arXiv，探索与当前撰写主题相关的文献，还可以查找可引用的论文。

C. 报告编辑

使用「EDIT」命令，对LaTeX代码进行迭代和修改，确保论文与研究计划相符、论点清晰且满足格式要求。

D. 论文审阅

这个系统借助基于LLM的代理，模拟科学论文的审阅过程，遵循NeurIPS会议的审稿指南对论文进行评估。

E. 论文完善

在论文修改阶段，根据三个评审代理给出的反馈意见，博士智能体负责决定论文是需要修订。这一过程能够持续优化研究报告，直至达到较高标准。

辅助驾驶模式

Agent Laboratory有两种运行模式：自主模式和辅助驾驶模式。

自主模式下，用户仅需提供初始研究思路，此后整个过程完全无需人工干预。每完成一个子任务，系统便会自动按顺序推进至下一个子任务。

辅助驾驶模式下，同样是先提供研究思路。不同的是，每个子任务结束时设有检查点。在这些检查点，人工审阅者会对代理在该阶段的工作成果（如文献综述总结、生成的报告等）进行审阅。

人工审阅者有两个选择：一是让系统继续推进到下一个子任务；二是要求代理重复当前子任务，并给出改进建议，助力代理在后续尝试中表现更佳。

o1-preview总分最高

通过比较15篇由10位博士审阅的论文，研究者分析了3个LLM（gpt-4o、o1-mini、o1-preview）在实验质量、报告质量和实用性方面的表现。人类评审者使用NeurIPS风格的标准来评估论文。

o1-preview的总分最高（4.0/10），其次是o1-mini（3.8）和gpt-4o（3.5）。o1-preview在实用性和报告质量方面表现出色，o1-mini在质量上领先。

而在重要性和贡献这两项上，所有模型的表现都较为普通，这反映出模型在原创性和影响力方面存在局限。

所有模型的得分均低于NeurIPS的平均分，表明生成的论文在技术性和方法论的严谨性上显著不足。凸显了进一步优化Agent Laboratory的必要性，让其生成的内容符合高质量出版物的标准。

在辅助驾驶模式下，研究人员对论文的实用性（3.5/5）、延续性（3.75/5）、满意度（3.63/5）和可用性（4.0/5）进行了评分。辅助驾驶模式下的论文质量从3.8/10提高到4.38/10。

运行时间和成本分析显示，gpt-4o的计算效率和成本效益最佳，完成时间为1165.4秒，成本为2.33美元，优于o1-mini（3616.8秒，7.51美元）和o1-preview（6201.3秒，13.10美元）。

报告撰写是成本最高的阶段，尤其是o1-preview（9.58美元）。

Agent Laboratory的出现，无疑是科研领域的一次重大革新，展现了AI在助力科研上的巨大潜力。

尽管它还存在一些需要完善的地方，如生成论文在某些方面与高质量出版物标准尚有差距，但它所带来的高效、便捷以及新思路，已经让我们看到了未来科研发展的新方向。

参考资料：

https://arxiv.org/pdf/2501.04227

https://x.com/SRSchmidgall/status/1877164749668102233

https://agentlaboratory.github.io/

程序员的AI救赎时刻接入这个数据库业务提问自动解决

程序员的AI救赎时刻接入这个数据库业务提问自动解决

量子位 2024-12-20 18:25:44

吴恩达预言成真？AI运维专家横扫职场，精准解决80%运维难题

吴恩达预言成真？AI运维专家横扫职场，精准解决80%运维难题

量子位 2025-01-10 16:51:31

LLM带来了「编程末日」？哥本哈根大学CS教授：别做梦了！

LLM带来了「编程末日」？哥本哈根大学CS教授：别做梦了！

新智元 2025-01-11 12:29:38

爆火开源工具Browser Use，能让AI操作浏览器找工作

爆火开源工具Browser Use，能让AI操作浏览器找工作

量子位 2025-01-13 09:50:42

AI竟会表里不一：人前一套，背后一套！

AI竟会表里不一：人前一套，背后一套！

量子位 2024-12-31 10:12:13

论文登计算机体系结构顶会,芯片架构成为边缘AI最佳并行计算选择

论文登计算机体系结构顶会,芯片架构成为边缘AI最佳并行计算选择

机器之心Pro 2024-08-13 15:05:29

破解联邦学习中的辛普森悖论，浙大提出反事实学习新框架FedCFA

破解联邦学习中的辛普森悖论，浙大提出反事实学习新框架FedCFA

机器之心Pro 2025-01-13 14:37:22

Ilya播客干货引热议：LLM不仅是统计学

Ilya播客干货引热议：LLM不仅是统计学

量子位 2024-12-24 11:34:18

视频大模型三大应用价值，推动电影制作降本增效

视频大模型三大应用价值，推动电影制作降本增效

量子位 2024-12-30 15:49:40

AI暴打验证码，人类遭殃？未来，验证码会消失，还是变得更反人类？

AI暴打验证码，人类遭殃？未来，验证码会消失，还是变得更反人类？

量子位 2025-01-02 17:58:49

商汤科技董事长兼CEO 徐立打脸时刻就是AI的超级时刻

商汤科技董事长兼CEO 徐立打脸时刻就是AI的超级时刻

量子位 2024-12-23 14:58:54

AIGC让电影成本降到几千块，全球创作者规模将急剧扩大

AIGC让电影成本降到几千块，全球创作者规模将急剧扩大

量子位 2024-12-23 11:41:50

为什么AI可以下围棋、打Dota，却连简单的家务都做不好？

为什么AI可以下围棋、打Dota，却连简单的家务都做不好？

量子位 2024-12-17 18:39:55

o1不是聊天模型？24小时热度暴涨，奥特曼、Brockman在线围观

o1不是聊天模型？24小时热度暴涨，奥特曼、Brockman在线围观

机器之心Pro 2025-01-13 14:34:48

虚拟现实中的3D生成将使“言出法随”成为可能

虚拟现实中的3D生成将使“言出法随”成为可能

量子位 2024-12-25 15:33:28

AI时代正在形成新的开发范式

量子位 2024-12-18 10:45:54

AI将对传统能源行业带来怎样的变革？

AI将对传统能源行业带来怎样的变革？

量子位 2024-12-17 14:03:00

To Real面临的挑战：云深处科技李超分享观点

To Real面临的挑战：云深处科技李超分享观点

量子位 2024-12-26 15:37:13

所有APP都会被AI重塑，背后的变革关键是什么？

所有APP都会被AI重塑，背后的变革关键是什么？

量子位 2024-12-17 12:26:22

AI时代下基础设施每个环节将发生怎样的变化？

AI时代下基础设施每个环节将发生怎样的变化？

量子位 2024-12-18 11:08:29

AI暴打验证码，人类遭殃？

量子位 2025-01-02 17:12:56

AI指挥机器人拍照，1:1复刻大片构图

AI指挥机器人拍照，1:1复刻大片构图

量子位 2024-12-18 18:21:56

日活压力把通义们逼成“资讯App”

日活压力把通义们逼成“资讯App”

钛媒体APP 2025-01-13 14:44:22

用AI来算八字，还要卖给外国人，这行吗？

用AI来算八字，还要卖给外国人，这行吗？

钛媒体APP 2025-01-13 14:46:17

到了2025年初，主流玩家究竟需要怎样的PC平台

到了2025年初，主流玩家究竟需要怎样的PC平台

三易生活 2025-01-10 18:09:41

芯片巨头狂卷CES：AMD、英特尔一起给AI PC再添一把火

芯片巨头狂卷CES：AMD、英特尔一起给AI PC再添一把火

雷科技 2025-01-11 21:26:17

《文明7》评测解禁日期公布提前一周看媒体评分

《文明7》评测解禁日期公布提前一周看媒体评分

3DM游戏 2025-01-12 18:19:03

让「幻觉」无处遁形！谷歌DeepMind全新基准，三代Gemini同台霸榜

让「幻觉」无处遁形！谷歌DeepMind全新基准，三代Gemini同台霸榜

新智元 2025-01-13 12:17:58

林昀儒硕士论文口试通过，题目竟是樊振东的技术分析

林昀儒硕士论文口试通过，题目竟是樊振东的技术分析

齐鲁频道 2025-01-11 16:56:21

医学预测模型方法这么多，我该选择哪一个？

医学预测模型方法这么多，我该选择哪一个？

医咖会 2024-11-05 19:43:47

后Transformer时代，AI将何去何从？（下）｜【十万字】深度研报

后Transformer时代，AI将何去何从？（下）｜【十万字】深度研报

钛媒体APP 2025-01-01 20:46:37

Jeff Dean亲授职业秘籍，力荐计算机！编码改变全世界

Jeff Dean亲授职业秘籍，力荐计算机！编码改变全世界

新智元 2024-10-21 14:11:16

零基础入门Python机器学习，复现多个顶刊案例！

零基础入门Python机器学习，复现多个顶刊案例！

医咖会 2025-01-08 19:56:07

139位中国天才，做出一家让硅谷震撼的公司

139位中国天才，做出一家让硅谷震撼的公司

财经天下WEEKLY 2025-01-12 14:54:11

AI大厂“AGI预言”突然增多，这只是炒作吗？

AI大厂“AGI预言”突然增多，这只是炒作吗？

华尔街见闻官方 2025-01-11 13:20:08

2025，Agent生死竞速

钛媒体APP 2025-01-08 19:18:23

36氪研究院 | 2024年中国人工智能之自然语言处理（NLP）技术洞察

36氪研究院 | 2024年中国人工智能之自然语言处理（NLP）技术洞察

36氪 2024-12-31 07:32:08

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

量子位 2024-12-27 15:54:35

国产机器人深圳街头散步爆火！超自然步态吓呆国外网友

国产机器人深圳街头散步爆火！超自然步态吓呆国外网友

量子位 2025-01-10 16:29:56

会用AI才能多发论文，LLM助力科研效率提升！新研究登Nature子刊

会用AI才能多发论文，LLM助力科研效率提升！新研究登Nature子刊

新智元 2025-01-13 12:17:37