新智元报道

编辑:编辑部 HYZs

【新智元导读】一篇报道,在AI圈掀起轩然大波。文中引用了近2年前的论文直击大模型死穴——Transformer触及天花板,却引来OpenAI研究科学家的紧急回应。

谁能想到,一篇于2023年发表的LLM论文,竟然在一年半之后又「火」了。


聊天机器人开始面临根本性的限制

论文中,来自Ai2、华盛顿大学等机构研究人员称,Transformer在组合能力上存在限制。

以基本的乘法为例,让「GPT-4」计算两个三位数的乘积,最初的正确率仅有59%。当乘数增加到4位数时,准确率直接暴降到4%。


论文地址:https://arxiv.org/abs/2305.18654

与此同时,Quanta Magazined还在报道中引用了曾是哥大博士的彭炳辉于2024发表的论文,去论证Transformer存在着根本性的限制。


论文地址:https://arxiv.org/abs/2402.08164


论文地址:https://arxiv.org/abs/2412.02975

一作彭炳辉和导师同样验证了,由于Transformer缺乏组合能力,由此导致LLM产生了幻觉。

他们指出,「如果一个大模型只有单层Transformer结构,总参数量小于域的大小,AI便无法解决组合任务」。

实际上,这些研究本身并没有什么,但QM却称之为「最近」。评论区瞬间被网友们吐槽淹没了。




OpenAI研究员Noam Brown直言,「学术界研究节奏相对较慢,而LLM领域大发展速度远超其惯常步调」。


DeepMind研究科学家对此进行了反驳,我们在4-5位的算数运算上仍未达到完美的水平。


这些论文中的观点,如今都还成立吗?

四位数相乘,GPT-4正确率4%

艾伦人工智能研究所的科学家Nouha Dziri及其团队,对以ChatGPT为代表LLM进行测试,让它们尝试解决这类逻辑难题,模型的表现并不理想。


Dziri指出,当面对复杂任务时,LLM很难依据训练数据之外的信息进行推理,只能做近似推断,极有可能出错。

需要整合多个子问题的答案,才能得出最终结果的任务被称为组合性任务。

Nouha Dziri团队研究发现,大部分LLM仅依靠预测序列中的下一个词进行训练,在应对组合性推理任务时,存在根本性缺陷。

多数LLM采用的Transformer架构,在处理这类问题时,会受到数学层面的限制。

尽管科学家在突破Transformer的限制方面取得了一定成果,但这些成果越来越像是权宜之计。

这类模型存在基础计算瓶颈,或许是时候考虑转变研究思路了。

「这项研究的真正目的,是帮助学界判断,Transformer是否是适合通用学习的架构。」纽约大学的机器学习专家Andrew Wilson说道。

OpenAI的o1和GPT-4、谷歌的Gemini、Anthropic的Claude,是在几乎所有能获取到的互联网数据上进行训练的。

LLM掌握了语法,积累了大量的语义知识。这些经过预训练的模型,还能进一步训练或优化,完成更复杂的任务,像总结复杂文档,生成游戏代码。

它强大到仿佛真的会推理,但同时也在一些方面表现得极差,笨得让人吃惊。

以基础乘法运算为例,像ChatGPT和GPT-4这样常见的LLM表现糟糕。

2023年初,Dziri团队对GPT-4进行测试,让它计算两个三位数相乘,最初的正确率仅为59%。当计算两个四位数相乘时,准确率更是急剧下降,只剩下4%。

团队还测试了LLM在谜题任务上的表现,结果同样不理想。

当谜题是两座房子,每座房子对应两个属性时,GPT-4还能每次都答对。但当谜题难度升级为四座房子,每座房子对应四个属性时,正确率就锐减至10%。

《国际生活》上的原始谜题版本,也就是五座房子,每座房子对应五个属性的情况,GPT-4的正确率直接归零。

Dziri认为「它只是在模仿自己见过的东西,并没有真正理解。」

LLM存在难以突破的限制

与此同时,另一个研究团队采用了不同的方法,来理解LLM为什么在处理组合性任务时会遇到困难。

当时,正在哥大读博的彭炳辉与导师Christos Papadimitriou等人一起研究LLM为什么会产生幻觉,生成与事实不符的错误信息。

下面三张图中的例子,分别展示了LLM在空间构成、时间构成和关系构成上产生的幻觉。




左右滑动查看

对此,团队怀疑原因在于Transformer缺乏「组合能力」。

假设给LLM输入两条信息:一是弗雷德里克·肖邦的父亲是尼古拉·肖邦,二是尼古拉·肖邦出生于1771年4月15日。然后问它:弗雷德里克·肖邦的父亲的出生日期是什么?

这时,LLM需要把这两条信息整合起来,才能作答。

实际上,它要解答的是一个嵌套问题,先找出弗雷德里克·肖邦的父亲是谁,再回答这个人的出生日期。

要是LLM给出的答案不对,出现了所谓的「幻觉」,很可能就是因为它没能成功完成这种组合性任务。

为了验证这个猜想,团队首先研究了一种简单Transformer的特性。

这种模型只有一层,在预测下一个单词时,会根据句子中单词的顺序和位置来判断。现代LLM通常包含多层这样的结构。

团队找到了Transformer层的复杂程度和域大小(也就是表示问题所需的比特数)之间的联系。

通过研究这个简单模型,他们证明了一个数学限制条件。


如果单层Transformer的总参数数量小于域的大小,从理论上来说,Transformer就解决不了组合性任务。

仅有一个Transformer层的LLM,在数学层面存在明显的局限性。

虽说这是一个很有说服力的理论成果,但它的实际影响还不明确,因为现代LLM要复杂得多。


于是,团队换了一种方法来研究更复杂的Transformer的能力。他们运用计算复杂性理论,通过分析解决问题所需的时间、内存等资源,来探究问题的本质。

他们借助一个著名的猜想证实,即使是多层Transformer在解决复杂的组合性问题时,计算能力也存在限制。


2024年12月,彭炳辉和加州大学伯克利分校的研究员发表了一项证明。这次,他们抛开计算复杂性理论的猜想,直接证实了多层Transformer确实无法解决某些复杂的组合性任务。


彭炳辉说:「模型规模增大后,确实能解决更具挑战性的问题。但要是同时扩大问题的规模,就算模型变得更大,解决起来照样棘手。」

这充分表明,Transformer架构存在着难以逾越的局限性。

但这并不意味着LLM的终结。

纽约大学的Wilson指出,虽然存在这些局限性,研究人员已经开始改进Transformer,帮助它们更好地处理包括算术在内的各类问题。

马里兰大学的计算机科学家Tom Goldstein和他的同事在给Transformer输入数字时做了些调整,他们在每个数字里嵌入额外的位置信息,再训练加法运算模型。

经过20位数训练的模型,在进行100位数加法时,准确率能稳定达到98%;而没有嵌入额外位置信息的模型,准确率只有3%左右。

这表明,也许有一些基础的改进方法可以采用,这样就能在这些问题上取得重大进展,而无需重新设计整个架构。

除了扩大模型规模,还有一种克服LLM局限性的办法,就是在提示中给出问题的逐步解决步骤,即思维链提示。

研究显示,这种方法能让GPT-4这类LLM,具备解决更多相关任务的能力。

斯坦福大学博士生Haotian Ye表示:「我们很好奇,为什么它这么有效,能带来这么多突破。」

他在北大读本科时,就曾对比过Transformer在使用思维链提示与否时的表现。

他们借助计算机科学的另一分支——电路复杂性理论进行论证,解释了思维链提示是如何把一个大问题拆解成一系列小问题,进而让Transformer处理更复杂的组合性任务。

不过Haotian Ye也提醒,这并不意味着模型用了思维链提示,就真能解决这些难题。

这项研究关注的是理论能力,而模型的训练方式,决定了它们能在多大程度上发挥出这一理论上限。

LLM本质上是在匹配以前见过的模式,它们的能力受到数学限制。嵌入技巧和思维链提示,只是拓展了它们处理更复杂模式匹配的能力。

从数学原理来看,总能找到一些组合性任务,其复杂程度超出了给定系统的处理能力。

Dziri表示:「我们必须彻底弄清楚模型内部是如何运作的。要是能搞明白它们执行任务和推理的方式,或许就能对它们进行优化改进。要是不清楚,那就真的很难开展任何工作了。」

作者介绍


彭炳辉,现任加州大学伯克利分校西蒙斯研究所的博士后研究员。此前,在哥伦比亚大学获得博士学位,导师是Xi Chen和Christos Papadimitriou。并在清华大学姚班获得学士学位。

彭炳辉的研究领域广泛,涉及机器学习理论、博弈论以及理论计算机科学。最近,他尤其关注计算理论与AI之间的相互作用。

参考资料:

https://x.com/polynoamial/status/1888467178879627546

https://x.com/QuantaMagazine/status/1888269583800225958

ad1 webp
ad2 webp
ad1 webp
ad2 webp