马来西亚思特雅大学博士生王立博,近两年来主要研究大语言模型。起初,王立博做这类研究也是被大语言模型给逼的,因为日常总得提防其“献媚(Sycophancy)”,这是由基于人类反馈的强化学习调优策略导致的固有缺陷。

因此,他致力于设计能够自主学习、思考和推理的人工智能,而不是人工宠物。

引入强化学习的训练奖励模型进行微调,尽管可以优化用户体验,但是引入偏见是不可避免的,因为“奖励”的依据是优先考虑用户反馈的满意度而未必是考虑客观事实。这种偏见通常来源于互联网数据,而大语言模型的训练数据集主要依赖于互联网信息。

基于此,王立博尝试通过合成数据干预来优化仅解码器(decoder-only)transformer 架构,弥补其对输入序列缺乏深度分析的不足。

在生成过程中他尝试设计加入额外阻碍,促使模型自主判断并拒绝不合理的输入。这一构想原理上能有效避免过度依赖用户的反馈,因为合成数据干预会更侧重于模型内在推理能力的培养,而非寻求 RAG 外部知识库。


(来源:OpenAI)

此外,实现自主思考的重要标志之一就是判断力,为此王立博构想加入反面示例和对抗性输入来提升模型的抗献媚性。

实验结果显示,经过合成数据干预后的 GPT4o 在量化献媚指标上显著下降。如果这一成果有机会走出实验室,它可能为 decoder-only 架构的模型会带来更客观的决策支持,并减少偏见。

同时,该成果在机器人、自动驾驶和医疗等领域的应用,有助于提升自动化科学研究的效率。

更令王立博兴奋的是,此次实验是通过提示词工程(prompt engineering)实现。这意味着未来合成数据干预可以不再依赖传统的代码编写,仅通过编写自然语言,推动“AI 工程师”从专业技术人员走向普罗大众,为更多探索者扩大平等契机。

未来,开发、优化、数据处理、特征挖掘以及对前沿技术知识的了解,可能无需再依赖少数掌握编程和数学知识的专家,而只需设计逻辑清晰的提示词。

日前,相关论文《减轻仅解码器变换器架构中的献媚:合成数据干预》(Mitigating Sycophancy in Decoder-Only Transformer Architectures: Synthetic Data Intervention)为题发在 arXiv[1]。


图 | 相关论文(来源:arXiv)

随着大语言模型推理思考和生成代码等能力的增强, 提示词工程使人们有机会更平等地与各领域科学家共享信息资源。因此,未来王立博会致力于推动未来工程的提示词化,简单直接平等。

比如,最近王立博通过设计 prompt 进行黑盒测试 (Black-Box Testing) 实验,尝试模拟攻击大语言模型的护栏。他发现即便如 GPT4o 和 Grok-2 Beta,其护栏在识别多步骤越狱倾向的提示词时仍存在较大困难。

其还通过模拟场景设计了 7 到 10 步的提示词成功顺利使得所有模型模拟生成言语攻击的内容。这意味着当前的大语言模型的护栏仍需完善。

在稀疏注意力方面,王立博曾设计通过稀疏注意力机制降低大语言模型中思维链推理的成本。

同样的,王立博通过提示词基于 GPTs 训练的实验模型与 o1 preview 进行对比。实验结果显示,在牺牲可接受范围内的准确率的条件下,稀疏注意力机制与具备思维链的编码器-解码器(encoder-decoder)transformer 架构结合,在推理时间和推理步骤方面都显著降低。

王立博也曾设计过将自动语音识别和大语言模型引入智能眼镜的架构,这些构想如今正在被工业界所实践。即便合成数据干预或稀疏注意力机制被广泛应用,由于其本身的限制性使交互仍主要集中在视觉和听觉。而随着当前深度强化学习技术不断优化更新,人形机器人将迎来质的高速发展。在促进自主学习能力的同时,王立博设计了人形机器人多场景推理 (Multi-Scenario Reasoning) 以及模块化机器人实现自主变形的认知模块化控制 (Cognitive Modular Control) 等架构。受到人脑认知架构的启发,他致力于为自适应机器人引入认知的自主化技术,促进机器人的多形态或多用途的方向转型。因此,探索机器人在工业领域具备感知、思考、推理、规划、记忆和决策等能力的认知自主性成为王立博的下一个研究目标。

参考资料:

1.https://doi.org/10.48550/arXiv.2411.10156

2.https://doi.org/10.48550/arXiv.2411.09111

3.https://doi.org/10.48550/arXiv.2411.16730

4.https://doi.org/10.48550/arXiv.2412.20429

5.https://openreview.net/pdf?id=lJr0M8vpZO

ad1 webp
ad2 webp
ad1 webp
ad2 webp