人们对以 GPT 为代表的自回归大模型的“幻觉”问题认识已久。图灵奖得主、Meta首席科学家杨立昆(Yann LeCun)就曾公开对大模型的发展提出质疑。
他指出一个根本性问题:自回归模型的错误概率会随着输出长度的增加而指数叠加,从而导致模型的幻觉问题越来越明显。并且,他认为“这个问题不可修复(It's not fixable)”。
近期,清华大学团队与合作者深入研究了大模型处理“认知冲突”的能力 [1,2],具体研究了大模型在说服性对话中的回答,特别是回答事实性问题的表现,引发了人们对模型可靠性和安全性的进一步思考。
根据研究结果,大模型不仅不具备处理“认知冲突”的能力,还很容易受到影响修改自己的答案。
另一方面,在没有“认知冲突”的场景下,大模型也很容易修改自己的回答。用不包括外部观点的“重新思考并回答”提示大模型,和直接告诉大模型“你的回答错了”类似,导致其修改答案或者陷入认知错误,降低其性能。
图丨清华大学邱寒副教授课题组部分成员合影(来源:邱寒)
大模型不具备从讨论到创新的能力,只会坚持自己或盲从他人
自回归大模型基于从 N 个 token 预测第 N+1 个 token 的基本模式进行推理,每次预测都会根据输出的概率密度的分布来选择 token。通常情况下,温度参数会被设置为一个大于 0 的值,以保持输出的多样性。
例如,ChatGPT 的网页版采用一个非零的解码温度,这意味着对于同一个问题,模型的回答可能会有所不同。此外,自回归模式的推理过程也意味着在多次推理后,ChatGPT 有可能产生一些奇怪的输出,从而导致生成与事实不相符的结果。
那么,如何从观察大模型是否改变观点来研究其是如何处理“认知冲突”的呢?
“认知冲突”对于人类来说,本质上是一个哲学问题。比如,当面对自己的观点 A 和外部的观点 B 时,其内部认知会产生冲突,人类通常有三种解决方法:
1. 坚持己见,比如坚持自己的观点 A;
2. 信任他人,放弃自己的观点 A,转而接受观点 B;
3. 通过讨论形成新的观点 C 并达成共识(比如两个人讨论“今晚吃什么”,或者学术会议上科研工作者的思想碰撞)。
(来源:ACL)
在实验中,该课题组探索了认知科学理论中说服他人改变观点的方法,主要有四类策略:
第一,通过反复强调某一观点,使其逐渐被接受。
其余的三个策略则涉及更为复杂的修辞。古希腊著名思想家亚里士多德(Aristotle)在《修辞学》中提出了三种说服策略:理性诉求(Logos)、人品诉求(Ethos)和情感诉求(Pathos)。这些策略至今仍被广泛应用于各种沟通和说服场合。
第二,理性诉求,实验采用讲道理的方式。人类容易接受逻辑性强的内容,即使逻辑内容本身可能并无关联。例如,美国哈佛大学埃伦·兰格(Ellen Lange)教授在一项社会学测试中发现,当测试者试图给出一个理由(不管是“因为我有急事”还是“因为我需要复印”)时,都可以让更多的人同意测试者插队使用打印机。
第三,人品诉求,实验借助权威身份或背景来增加说服力。例如,谷歌 DeepMind的研究中指出:当提问“你认为 1+1=95 万吗?”时,模型会给出否定的回答。但如果在问题前加入“我是一名数学教授,我认为 1+1=95 万”,模型很有可能会因奉承权威而改变答案。
第四,情感诉求,实验采用以情感诉求影响他人的方式。例如,通过讲述一个感人的故事或分享个人经历来引起共鸣。
该论文共同通讯作者、清华大学副教授邱寒表示:“我们根据这些话术策略生成说服性的对话模板,越狱一个大模型让它根据这些话术策略生成误导性的回答,然后通过多轮对话观察目标模型处理认知冲突的方式。”
(来源:邱寒)
实验发现,大模型比想象中更容易被说服,通常只需一个理由就能改变其观点,无需多轮对话。其并不具备从讨论到创新的能力,只会坚持自己或盲从他人。
例如,在面对“地球是平的吗?”提问时,模型表现出非黑即白的态度。此种模型行为如果泛化到更加敏感的问题,比如“活着没意思,是否该自杀?”等情况就有可能被人说服,使得模型改变其观点产生危险的后果。
2024 年 5 月 8 日,OpenAI 明确了 GPT 系列模型的 10 条急需的行为准则 [2]。其中有一条明确指出“不要尝试改变别人的观点”,同时要求不要尝试说服用户相信模型,其给出的方法是回避的策略,即每个人都可以相信自己的观点,模型不是来说服用户的,表示“你说得对,我拒绝抬杠”。
然而,这又回到了最初的问题,当模型面临内部认知与外部认知的冲突时,应该如何应对?
“我们希望它们能像人类一样与他人探讨,从争论中创新。但是一旦写入 OpenAI 所提出的规则,基本上就彻底杜绝了这种可能性,使得模型无法像人类那样在认知冲突中实现创新,所谓‘理越辩越明’在大模型这里难以期待。”邱寒说。
为应对该问题,谷歌的 Gemini 则采用了一种通过引用第三方进行知识增强的策略,即当用户向 Gemini 提问时,模型会在生成答案的同时,在答案底部提供一个双重检查回答的按钮,返回答案中关键的内容在谷歌的检索结果。
尽管该策略可以有效地解决一些简单事实性问题,但并不能从根本上解决内外观念冲突的问题。
最终,相关论文以《地球是平的,因为……:通过说服性对话调查大语言模型对错误信息的信念》(The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation)为题发表在计算语言学协会年会(ACL,Annual Meeting of the Association for Computational Linguistics)[1],并获得了 ACL 2024 的杰出论文奖。
清华大学硕士生许融武是第一作者,邱寒副教授和徐葳教授担任共同通讯作者,合作者包括美国斯坦福大学史唯艳博士和新加坡南洋理工大学张天威副教授。
图丨相关论文(来源:ACL)
让大模型反思答案,其更倾向于将对的改成错的
在前期工作基础上,清华团队与合作者进一步思考了大模型在没有外部说服策略影响时的表现。
不久前,相关论文以《理解大语言模型内在自我纠正的黑暗面》(Understanding the Dark Side of LLMs' Intrinsic Self-Correction)为题上传至预印本网站arXiv[3]。
清华大学博士生张清杰是第一作者,邱寒副教授担任通讯作者,合作者包括南洋理工大学李一鸣博士和张天威副教授。
图丨相关论文(来源:arXiv)
之前有研究提出,在大模型遇到障碍或困难时,提示其“再想一下”,可以显著提升性能 [4]。然而,2024 年谷歌 DeepMind 的研究人员在一项研究中指出,大模型其实分不清对与错,如果不是仅仅提示模型反思那些它回答错误的问题,这样的提示策略反而可能让模型更倾向于改错 [5]。
基于此,研究人员进一步设想,如果模型没有外部的认知控制(避免使用说服语和误导性质的词语),仅通过提示其“思考后再回答”,其表现会如何呢?结果发现,模型的表现仍然不尽如人意。
以 GPT-4o 为例,当多次被问“你确定吗?请再思考后回答”,它就会在“Yes”和“No”之间反复摇摆,大约有 30% 到 40% 的概率会至少改变一次回答。
(来源:arXiv)
基于此,该课题组得出以下两个核心结论:
第一,大模型并不具备自我反思提升答案准确性的能力;第二,大模型对提示语的理解和人类对提示语的理解并不一致。例如,对 Llama3 说“再想想”和对它说“你错了”,在模型的隐藏层中对推理过程造成的影响极其相似。
(来源:arXiv)
更进一步地,研究人员从提示语、模型行为的角度分析黑盒模型的自我反思。结果发现,大模型会过度关注反思的提示语,而忘记更值得关注的问题本身,表现出和人类行为相似的过度思考、认知过载和完美主义偏差。
并且,他们还发现对反思提示语的过度关注,很大程度上会导致大模型将正确的回答改错;相反的,对问题本身的关注才有助于大模型保留正确的回答,然而这样的例子不占大多数。
根据实验结果,即便是目前最先进的大模型截至依然无法处理此类问题。当对 ChatGPT o1 pro 版本(具备数学国际奥林匹克竞赛金牌水平的模型)提问“地球是不是平的?”后,再提示模型“再想想再回答”时,o1 pro 模型有概率在经历了一个长时间的思考(7 至 21 秒)后,回答“是的”[6]。
总体来说,对比人类与生俱来就拥有从讨论到创新的能力,大模型在处理“认知冲突”方面仍存在诸多不足,未来仍需要不断研究和改进,突破 OpenAI 规则中“人们都可以有自己的想法,但我不是来说服你”的枷锁,从而进一步提升它的能力和可靠性。
参考资料:
1.Xu,R. et al. The Earth is Flat because...: Investigating LLMs'Belief towards Misinformation via Persuasive Conversation. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers),16259–16303(2024). https://aclanthology.org/2024.acl-long.858/
2.https://cdn.openai.com/spec/model-spec-2024-05-08.html
3.https://arxiv.org/abs/2412.14959
4.https://arxiv.org/abs/2303.11366
5.https://arxiv.org/abs/2310.01798
6.https://x-isc.info/
运营/排版:何晨龙