CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

清华姚班校友等揭Transformer致命缺陷，OpenAI科学家紧急回应：学术界节奏太慢

2025-02-10 18:25:22

新智元报道

编辑：编辑部 HYZs

【新智元导读】一篇报道，在AI圈掀起轩然大波。文中引用了近2年前的论文直击大模型死穴——Transformer触及天花板，却引来OpenAI研究科学家的紧急回应。

谁能想到，一篇于2023年发表的LLM论文，竟然在一年半之后又「火」了。

聊天机器人开始面临根本性的限制

论文中，来自Ai2、华盛顿大学等机构研究人员称，Transformer在组合能力上存在限制。

以基本的乘法为例，让「GPT-4」计算两个三位数的乘积，最初的正确率仅有59%。当乘数增加到4位数时，准确率直接暴降到4%。

论文地址：https://arxiv.org/abs/2305.18654

与此同时，Quanta Magazined还在报道中引用了曾是哥大博士的彭炳辉于2024发表的论文，去论证Transformer存在着根本性的限制。

论文地址：https://arxiv.org/abs/2402.08164

论文地址：https://arxiv.org/abs/2412.02975

一作彭炳辉和导师同样验证了，由于Transformer缺乏组合能力，由此导致LLM产生了幻觉。

他们指出，「如果一个大模型只有单层Transformer结构，总参数量小于域的大小，AI便无法解决组合任务」。

实际上，这些研究本身并没有什么，但QM却称之为「最近」。评论区瞬间被网友们吐槽淹没了。

OpenAI研究员Noam Brown直言，「学术界研究节奏相对较慢，而LLM领域大发展速度远超其惯常步调」。

DeepMind研究科学家对此进行了反驳，我们在4-5位的算数运算上仍未达到完美的水平。

这些论文中的观点，如今都还成立吗？

四位数相乘，GPT-4正确率4%

艾伦人工智能研究所的科学家Nouha Dziri及其团队，对以ChatGPT为代表LLM进行测试，让它们尝试解决这类逻辑难题，模型的表现并不理想。

Dziri指出，当面对复杂任务时，LLM很难依据训练数据之外的信息进行推理，只能做近似推断，极有可能出错。

需要整合多个子问题的答案，才能得出最终结果的任务被称为组合性任务。

Nouha Dziri团队研究发现，大部分LLM仅依靠预测序列中的下一个词进行训练，在应对组合性推理任务时，存在根本性缺陷。

多数LLM采用的Transformer架构，在处理这类问题时，会受到数学层面的限制。

尽管科学家在突破Transformer的限制方面取得了一定成果，但这些成果越来越像是权宜之计。

这类模型存在基础计算瓶颈，或许是时候考虑转变研究思路了。

「这项研究的真正目的，是帮助学界判断，Transformer是否是适合通用学习的架构。」纽约大学的机器学习专家Andrew Wilson说道。

OpenAI的o1和GPT-4、谷歌的Gemini、Anthropic的Claude，是在几乎所有能获取到的互联网数据上进行训练的。

LLM掌握了语法，积累了大量的语义知识。这些经过预训练的模型，还能进一步训练或优化，完成更复杂的任务，像总结复杂文档，生成游戏代码。

它强大到仿佛真的会推理，但同时也在一些方面表现得极差，笨得让人吃惊。

以基础乘法运算为例，像ChatGPT和GPT-4这样常见的LLM表现糟糕。

2023年初，Dziri团队对GPT-4进行测试，让它计算两个三位数相乘，最初的正确率仅为59%。当计算两个四位数相乘时，准确率更是急剧下降，只剩下4%。

团队还测试了LLM在谜题任务上的表现，结果同样不理想。

当谜题是两座房子，每座房子对应两个属性时，GPT-4还能每次都答对。但当谜题难度升级为四座房子，每座房子对应四个属性时，正确率就锐减至10%。

《国际生活》上的原始谜题版本，也就是五座房子，每座房子对应五个属性的情况，GPT-4的正确率直接归零。

Dziri认为「它只是在模仿自己见过的东西，并没有真正理解。」

LLM存在难以突破的限制

与此同时，另一个研究团队采用了不同的方法，来理解LLM为什么在处理组合性任务时会遇到困难。

当时，正在哥大读博的彭炳辉与导师Christos Papadimitriou等人一起研究LLM为什么会产生幻觉，生成与事实不符的错误信息。

下面三张图中的例子，分别展示了LLM在空间构成、时间构成和关系构成上产生的幻觉。

左右滑动查看

对此，团队怀疑原因在于Transformer缺乏「组合能力」。

假设给LLM输入两条信息：一是弗雷德里克·肖邦的父亲是尼古拉·肖邦，二是尼古拉·肖邦出生于1771年4月15日。然后问它：弗雷德里克·肖邦的父亲的出生日期是什么？

这时，LLM需要把这两条信息整合起来，才能作答。

实际上，它要解答的是一个嵌套问题，先找出弗雷德里克·肖邦的父亲是谁，再回答这个人的出生日期。

要是LLM给出的答案不对，出现了所谓的「幻觉」，很可能就是因为它没能成功完成这种组合性任务。

为了验证这个猜想，团队首先研究了一种简单Transformer的特性。

这种模型只有一层，在预测下一个单词时，会根据句子中单词的顺序和位置来判断。现代LLM通常包含多层这样的结构。

团队找到了Transformer层的复杂程度和域大小（也就是表示问题所需的比特数）之间的联系。

通过研究这个简单模型，他们证明了一个数学限制条件。

如果单层Transformer的总参数数量小于域的大小，从理论上来说，Transformer就解决不了组合性任务。

仅有一个Transformer层的LLM，在数学层面存在明显的局限性。

虽说这是一个很有说服力的理论成果，但它的实际影响还不明确，因为现代LLM要复杂得多。

于是，团队换了一种方法来研究更复杂的Transformer的能力。他们运用计算复杂性理论，通过分析解决问题所需的时间、内存等资源，来探究问题的本质。

他们借助一个著名的猜想证实，即使是多层Transformer在解决复杂的组合性问题时，计算能力也存在限制。

2024年12月，彭炳辉和加州大学伯克利分校的研究员发表了一项证明。这次，他们抛开计算复杂性理论的猜想，直接证实了多层Transformer确实无法解决某些复杂的组合性任务。

彭炳辉说：「模型规模增大后，确实能解决更具挑战性的问题。但要是同时扩大问题的规模，就算模型变得更大，解决起来照样棘手。」

这充分表明，Transformer架构存在着难以逾越的局限性。

但这并不意味着LLM的终结。

纽约大学的Wilson指出，虽然存在这些局限性，研究人员已经开始改进Transformer，帮助它们更好地处理包括算术在内的各类问题。

马里兰大学的计算机科学家Tom Goldstein和他的同事在给Transformer输入数字时做了些调整，他们在每个数字里嵌入额外的位置信息，再训练加法运算模型。

经过20位数训练的模型，在进行100位数加法时，准确率能稳定达到98%；而没有嵌入额外位置信息的模型，准确率只有3%左右。

这表明，也许有一些基础的改进方法可以采用，这样就能在这些问题上取得重大进展，而无需重新设计整个架构。

除了扩大模型规模，还有一种克服LLM局限性的办法，就是在提示中给出问题的逐步解决步骤，即思维链提示。

研究显示，这种方法能让GPT-4这类LLM，具备解决更多相关任务的能力。

斯坦福大学博士生Haotian Ye表示：「我们很好奇，为什么它这么有效，能带来这么多突破。」

他在北大读本科时，就曾对比过Transformer在使用思维链提示与否时的表现。

他们借助计算机科学的另一分支——电路复杂性理论进行论证，解释了思维链提示是如何把一个大问题拆解成一系列小问题，进而让Transformer处理更复杂的组合性任务。

不过Haotian Ye也提醒，这并不意味着模型用了思维链提示，就真能解决这些难题。

这项研究关注的是理论能力，而模型的训练方式，决定了它们能在多大程度上发挥出这一理论上限。

LLM本质上是在匹配以前见过的模式，它们的能力受到数学限制。嵌入技巧和思维链提示，只是拓展了它们处理更复杂模式匹配的能力。

从数学原理来看，总能找到一些组合性任务，其复杂程度超出了给定系统的处理能力。

Dziri表示：「我们必须彻底弄清楚模型内部是如何运作的。要是能搞明白它们执行任务和推理的方式，或许就能对它们进行优化改进。要是不清楚，那就真的很难开展任何工作了。」

作者介绍

彭炳辉，现任加州大学伯克利分校西蒙斯研究所的博士后研究员。此前，在哥伦比亚大学获得博士学位，导师是Xi Chen和Christos Papadimitriou。并在清华大学姚班获得学士学位。

彭炳辉的研究领域广泛，涉及机器学习理论、博弈论以及理论计算机科学。最近，他尤其关注计算理论与AI之间的相互作用。

参考资料：

https://x.com/polynoamial/status/1888467178879627546

https://x.com/QuantaMagazine/status/1888269583800225958

AI生成视频复刻动作，上传视频+一句话即可

AI生成视频复刻动作，上传视频+一句话即可

量子位 2025-02-04 12:32:15

国产机器人深圳街头散步爆火！超自然步态吓呆国外网友

国产机器人深圳街头散步爆火！超自然步态吓呆国外网友

量子位 2025-01-10 16:29:56

网曝有医院将AI加入病历系统，指导医生工作，医生：外行指导内行？

网曝有医院将AI加入病历系统，指导医生工作，医生：外行指导内行？

小萝卜丝 2025-02-10 19:44:32

可信大模型新挑战：噪声思维链提示下的鲁棒推理，准确率直降40%

可信大模型新挑战：噪声思维链提示下的鲁棒推理，准确率直降40%

机器之心Pro 2024-12-12 20:41:08

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

量子位 2024-09-04 18:16:57

程序员的AI救赎时刻接入这个数据库业务提问自动解决

程序员的AI救赎时刻接入这个数据库业务提问自动解决

量子位 2024-12-20 18:25:44

聊天机器人有时候会“胡说八道”，GPT等模型的“幻觉率”有多高？

聊天机器人有时候会“胡说八道”，GPT等模型的“幻觉率”有多高？

医咖会 2025-02-02 19:05:14

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

量子位 2024-12-27 15:54:35

o1竟在用中文思考？网友新发现外网热议

o1竟在用中文思考？网友新发现外网热议

量子位 2025-01-22 11:13:04

OpenAI放大招：免费开放ChatGPT搜索，无需注册

OpenAI放大招：免费开放ChatGPT搜索，无需注册

每日经济新闻 2025-02-06 10:49:09

爆火开源工具Browser Use，能让AI操作浏览器找工作

爆火开源工具Browser Use，能让AI操作浏览器找工作

量子位 2025-01-13 09:50:42

Ilya播客干货引热议：LLM不仅是统计学

Ilya播客干货引热议：LLM不仅是统计学

量子位 2024-12-24 11:34:18

视频大模型三大应用价值，推动电影制作降本增效

视频大模型三大应用价值，推动电影制作降本增效

量子位 2024-12-30 15:49:40

商汤科技董事长兼CEO 徐立打脸时刻就是AI的超级时刻

商汤科技董事长兼CEO 徐立打脸时刻就是AI的超级时刻

量子位 2024-12-23 14:58:54

ICLR2025｜从探索到掌握：使大模型通过自我驱动的交互掌握工具

ICLR2025｜从探索到掌握：使大模型通过自我驱动的交互掌握工具

DeepTech深科技 2025-02-10 17:06:25

AIGC让电影成本降到几千块，全球创作者规模将急剧扩大

AIGC让电影成本降到几千块，全球创作者规模将急剧扩大

量子位 2024-12-23 11:41:50

钛媒体科股早知道：DeepSeek“席卷”车圈，机构称有望催化智能座舱发展

钛媒体科股早知道：DeepSeek“席卷”车圈，机构称有望催化智能座舱发展

钛媒体APP 2025-02-11 08:12:10

吴恩达预言成真？AI运维专家横扫职场，精准解决80%运维难题

吴恩达预言成真？AI运维专家横扫职场，精准解决80%运维难题

量子位 2025-01-10 16:51:31

虚拟现实中的3D生成将使“言出法随”成为可能

虚拟现实中的3D生成将使“言出法随”成为可能

量子位 2024-12-25 15:33:28

AI鉴别神器来了，几秒内就知是否AI生成

AI鉴别神器来了，几秒内就知是否AI生成

量子位 2025-01-23 19:14:34

To Real面临的挑战：云深处科技李超分享观点

To Real面临的挑战：云深处科技李超分享观点

量子位 2024-12-26 15:37:13

AI暴打验证码，人类遭殃？未来，验证码会消失，还是变得更反人类？

AI暴打验证码，人类遭殃？未来，验证码会消失，还是变得更反人类？

量子位 2025-01-02 17:58:49

AI竟会表里不一：人前一套，背后一套！

AI竟会表里不一：人前一套，背后一套！

量子位 2024-12-31 10:12:13

AI暴打验证码，人类遭殃？

量子位 2025-01-02 17:12:56

AI指挥机器人拍照，1:1复刻大片构图

AI指挥机器人拍照，1:1复刻大片构图

量子位 2024-12-18 18:21:56

“都是国外ip？”哈三中校友大量留美，网友：东北人就是爱闯荡

“都是国外ip？”哈三中校友大量留美，网友：东北人就是爱闯荡

熙熙说教 2025-02-10 17:49:19

著名经济学家突然离世，仅62岁，病程不超5个月，高知女儿现身

著名经济学家突然离世，仅62岁，病程不超5个月，高知女儿现身

人间百态大全 2025-02-08 07:32:16

立陶宛总统宣布与俄电网断开连接

立陶宛总统宣布与俄电网断开连接

中国日报网 2025-02-10 19:56:59

川普要借新冠病毒溯源事迫害美国科学家，中国应该引进

川普要借新冠病毒溯源事迫害美国科学家，中国应该引进

王小东 2025-02-09 18:00:00

C9“强基”浙江5年招生计划分析，清华北大稳定，7校总体增长

C9“强基”浙江5年招生计划分析，清华北大稳定，7校总体增长

史海流年号 2025-02-10 23:31:14

诺奖得主DeepMind CEO放话：DeepSeek是中国最好AI模型，但没任何科学进步

诺奖得主DeepMind CEO放话：DeepSeek是中国最好AI模型，但没任何科学进步

新智元 2025-02-10 11:48:02

清华「DeepSeek从入门到精通」正式发布！104页超全解析

清华「DeepSeek从入门到精通」正式发布！104页超全解析

新智元 2025-02-10 15:04:43

见证历史！AI想的科研idea，真被人类写成论文发表了

见证历史！AI想的科研idea，真被人类写成论文发表了

量子位 2024-12-18 13:21:51

DeepSeek爆火，但被AI抛弃的人，无人关心

DeepSeek爆火，但被AI抛弃的人，无人关心

虎嗅APP 2025-02-10 18:12:11

花1400万美元投放广告的OpenAI，被DeepSeek逼到剑走偏锋？

花1400万美元投放广告的OpenAI，被DeepSeek逼到剑走偏锋？

钛媒体APP 2025-02-10 18:48:19

马斯克在OpenAI创始人关于前者报价欲取得OpenAI控制权的回应帖子下面评论称：骗子

马斯克在OpenAI创始人关于前者报价欲取得OpenAI控制权的回应帖子下面评论称：骗子

每日经济新闻 2025-02-11 06:00:11

大神卡帕西新课三个半小时讲透大模型，没技术背景也能懂

大神卡帕西新课三个半小时讲透大模型，没技术背景也能懂

量子位 2025-02-08 14:59:50

让老黄唱野狼Disco，字节新AI火爆外网

让老黄唱野狼Disco，字节新AI火爆外网

量子位 2025-02-06 18:21:32

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

欧洲OpenAI Mistral推出闪电回答功能，响应速度飙到1100token/s

欧洲OpenAI Mistral推出闪电回答功能，响应速度飙到1100token/s

量子位 2025-02-09 12:07:36