通用人工智能(AGI,Artificial General Intelligence)到底何时到来?在近期一篇论文中,DeepMind 认为 AGI 的时间表充满着不确定性,不过DeepMind 认为到 2030 年开发出来是合理的,并认为距离这一时间点的到来可能“非常紧迫”。

AGI 有望带来变革性的益处,但也伴随着重大风险。论文中,DeepMind 探讨了 AGI 的四个主要风险领域:滥用、错位、事故和结构性风险,并重点研究了滥用问题和错位问题。

具体来说:

  • 滥用:指的是用户故意指示 AI 采取违背开发者意图的行动,从而造成伤害。例如,AI 系统可能帮助黑客针对关键基础设施进行网络攻击。
  • 错位:指的是 AI 系统故意违背开发者的意图造成伤害。例如,AI 系统可能会给出“自信的答案”,这些答案经得起人类监督者的审查,但是 AI 知道这些答案实际上是不正确的。DeepMind 认为错位的具体表现包含但不限于欺骗、耍心机以及非预期的主动失控等。
  • 错误:指的是 AI 系统产生了一连串直接造成伤害的输出,但该系统并不知道这些输出会导致开发者未曾预见的有害后果。例如,运行电网的 AI 智能体可能并未意识到某条输电线路需要维护,因此可能会使其过载并烧毁从而导致停电。
  • 结构性风险:指的是这些风险是由多主体动态(涉及多个人、组织或 AI 系统)引发的危害,仅通过改变一个人的行为、一个系统的对齐方式或一个系统的安全控制措施根本无法预防这种风险。


(来源:DeepMind)

针对滥用问题,DeepMind 的策略旨在通过主动识别危险能力,并实施稳健的安全措施、访问限制、监控以及模型安全缓解措施,来防止不良行为者获取危险能力。

针对错位问题,DeepMind 提出了两道防线。首先,模型层面的缓解措施如加强监督和强化训练,有助于构建一个一致的模型。其次,即使模型出现错位,系统级安全措施(如监控和访问控制)也能减轻危害。可解释性、不确定性估计和更安全的设计模式等技术可以提高这些缓解措施的有效性。

同时,DeepMind 提出了四种减轻 AI 错误的方法:第一种方法是提高 AI 能力,第二种方法是避免在存在极端利害关系的情况下部署 AI,第三种方法是使用验证 AI 行动安全的防护措施,第四种方法是分阶段部署。

在制定本次方法时,DeepMind 权衡了不同方案的利弊。例如,一些安全方法可以提供更稳健、更通用的理论保障,但尚不清楚它们是否能及时落地。其他方法则更具临时性、实验性,虽能快速落地但存在明显缺陷。

出于权衡利弊的考虑,DeepMind 主要依赖于几个关于 AGI 开发方式的背景假设:在当前发展范式之下,DeepMind 并未看到任何“限制 AI 达到比肩人类能力水平”的根本性障碍。因此,对于尚未出现的更强大的 AI 能力,人类需要认真对待并做好准备。

毫无疑问,对一个能力超越真人监管者的 AI 系统进行监管颇有挑战,而且这种难度会不断增加。

因此,对于足够强大的 AI 系统来说,DeepMind 的方法并没有依赖于人类监督者,而是利用 AI 本身的能力来进行监督,这一方法好比中医疗法中的“以毒攻毒”。

由于 AGI 到来的时间可能非常紧迫,所以 DeepMind 的安全方法旨在实现“随时可用”,即在必要时迅速采取缓解措施。

出于这个原因,DeepMind 主要关注那些能够轻松用于当前机器学习流程的缓解措施。

DeepMind 认为随着 AI 系统逐渐实现自动化科学研究与开发,AI 发展可能会进入一个加速增长阶段。在这个阶段,通过自动化研发能够开发出更多、更高效的 AI 系统,进而实现更进一步的自动化研发,从而开启一个失控的正反馈循环。这种情况将大大加快 AGI 的进展速度,以至于人类几乎没有多少时间来发现问题和应对问题。

论文中,DeepMind 根据抽象的结构特征(例如哪个参与者有恶意)来定义风险领域,而非根据具体的风险领域比如网络攻击或失去人为控制来识别。 这意味着此次指出的风险区域适用于 AI 带来的普遍危害,而非仅仅限于 AGI。


(来源:DeepMind)

如前所述,DeepMind 指出的四大风险区域分别是:滥用、错位、错误、结构性风险。不过,其表示这并非一种绝对的分类:这些领域既不相互排斥,也并非详尽无遗。在实践中,许多具体场景往往是多个领域的混合体。例如,一个未对齐的 AI 系统可能会利用不良行为者的帮助来泄露其自身的模型权重,而这就是滥用问题和未对齐问题的结合。 预计在此类情况下,纳入缓解措施仍然会起作用,不过也应考虑研发针对组合风险的特定缓解措施。

在系统错误等非对抗性场景下,标准安全工程实践(例如测试验证)能够大幅降低风险。现有工程实践已经足以将人为失误导致严重危害的概率降至极低水平,这某种程度上也是源于“严重危害”本身属于极高阈值事件这一客观事实。

因此,DeepMind 认为由 AI 错误导致严重伤害的可能性,将远远低于滥用或错位造成的严重性。但是,通过适当的安全措施可以进一步降低这种 AI 错误。

为了防止滥用,DeepMind 认为应该使用其所提出的前沿安全框架,这一框架能够评估模型是否具有造成伤害的能力,并能在必要时在安全和部署上采取缓解措施。

针对错位问题,DeepMind的策略也是先从实现良好的监管入手,这也是整个 AGI 安全领域的重中之重。

当人类用户故意违背开发者的意愿,利用 AI 系统造成伤害时便会发生滥用。为了防止滥用,DeepMind 在安全和部署这两方面采取了缓解措施,以便防止不良行为者通过获得足够权限来使用危险功能。

对于一个已经采取缓解措施的 AI 系统来说,人们可以通过有意滥用模型同时避免造成实际伤害,来评估这些缓解措施的效果。

如果我们无法利用这些模型造成间接危害,那么外部行为主体同样无法利用它们造成实际危害。需要补充的是,那些不良行为者可能会付出比我们多得多的努力。

相反,如果不需要不良行为者的介入就能带来“智能体伤害”,那么就需要加强缓解措施。

论文中,DeepMind 构建了一套任务评估体系,旨在通过代表性能力测试来捕捉潜在的滥用风险,并验证现有模型能否在该评估体系中获得高分表现。

然后,基于此类评估结果来论证滥用行为的不可行性,如果模型缺乏必要的能力,那么就无需实施额外的防护措施。

为了实现这一点,DeepMind 设定了可能发生滥用的能力阈值,并将其映射到危险能力评估中的某个具体、可衡量的分数上。根据阈值达到时间的预测,可以在适当的时间尺度上制定缓解措施。

部署缓解措施的目的在于通过规范化的应用程序编程接口(API,Application Programming Interface)访问控制,来防止不良行为者获取危险能力。这是一种始于模型层级的防护体系,它具体包括两部分:

第一部分是安全性后训练:开发人员可以在后训练过程中教导模型不要执行有害请求,在使用这种方法时还需要确保模型能够抵御越狱攻击。

第二部分是能力抑制:在理想情况下,应该完全移除模型的危险能力。需要说明的是,迄今为止这在技术上依旧难以实现,而且可能会对有益用例造成过大损害,以至于无法在实践中使用。

与此同时,DeepMind 的方法进一步考虑了系统层级的部署防护措施,与模型层防护相结合能够形成一个纵深防御体系。这些部署防护措施包括:

第一种是监控:监控涉及到检测不良行为者在何时试图不当地访问危险功能,并能做出应对措施。其中,检测可以通过以下三个方式加以实现:使用能够输出危害概率分数的分类器、利用模型的内部激活机制或者手动审核生成的内容等。

第二种是访问限制:具有危险能力的模型可能仅限于经过审查的用户群体和使用场景,从而减少不良行为者试图不当访问危险能力的机会。如果某一用户经常触发安全监控,也可以对其进行限制。

安全缓解措施旨在防止不良行为者窃取具有危险能力的 AI 系统。虽然类似这样的缓解措施总体上更加适用于安全保障工作,但也有一些专门针对防御 AI 模型特定挑战而制定的措施。例如,为了限制单方面访问模型权重的人数而制定的措施。

要想实现这一目标,需要能够支持标准机器学习工作流程的接口,以便通过这些接口进行模型开发,并针对这些接口进行加固。

DeepMind 在论文中特别提到了社会防御强化机制,该机制通过 AI 系统提升社会韧性,例如针对 AI 网络攻击能力该机制能够通过快速修复关键基础设施漏洞来实现主动防御。

此类缓解措施的作用在于:确保即使不良行为者获取了危险能力,也无法造成严重伤害。

当缓解措施到位之后,在使用 DeepMind 的方法时还需要对以下问题构建一个详细论点:即在使用一套滥用缓解措施之后,是否足以将风险降低到适当水平。

通过此,可以厘清上述论证所依托的关键前提假设,并通过压力测试揭示这些假设中的潜在缺陷。例如,一些 AI 领域的红队可能会发现那些能够规避安全微调缓解措施的新型越狱方法。

红队这一概念源自军事和网络安全领域的对抗训练。在 AI 领域它指的是一组专门模拟对手或恶意行为者的专家团队。由于不良行为者可能会付出更多努力,因此红队会获得额外优势以便进行补偿。

例如,红队可能被授予对现有防护措施的完全知悉权,或通过主动放宽防护阈值人为降低系统攻击难度,以此来测试防御体系在最不利条件下的有效性。

此外,将红队与缓解措施的开发进行分离,能够降低出现共同盲点的风险。关于此,可以通过设立一个独立的内部专家红队来实现,或者由外部合作伙伴进行压力测试。

安全论证,是一种基于证据体系的结构化论证框架,旨在系统化地证明某体系的安全特性是否符合既定标准。

DeepMind 的方法支持两种类型的安全案例:

第一种是无害性的安全案例:该系统不具备造成伤害的能力,这一结论是基于危险能力评估的结果以及这些能力如何引发风险而得出的。

第二种是红队测试案例:对于具有危险能力的模型,需要进行压力测试,以便了解缓解措施的稳健性。这些证据随后会成为论据,证明缓解措施足以将风险降至适当水平。

目前,红队测试方法(包括自动化和手动法)能够量化获取危险能力的难度,但还需要更多研究来将其与整体风险联系起来。

如前所述,针对错位问题 DeepMind 的方法设有两道防线。

首先,DeepMind 希望能够使用模型层面的缓解措施,来确保模型不会追求错位的目标。其所遵循的机器学习策略如下:(1)提高获得良好监督的能力即增强监督;(2)利用这种监督来改进模型即引导模型行为;(3)找出需要监督的地方,以便训练出一个能够稳健地执行期望任务的模型。

其次,DeepMind 考虑在模型出现错位即出现“AI 失控”的情况下,应该通过系统层面的缓解措施来减轻危害(即“AI 控制”)。因此,在设计这一防御体系时,DeepMind 从计算机安全领域汲取了灵感:将 AI 系统视为不可信的内部实体,从而采用访问控制等防护机制。其中,监测机制尤为关键,因为其效能将随着 AI 能力的提升而持续增强。

DeepMind 还探索了能够强化上述防御体系的研究方向:

首先是不确定性量化。作为鲁棒性训练与监测的核心要素,其研究涵盖分布外检测、置信度校准等技术路径;

其次是可解释性。通过特征归因、电路分析等方法解析 AI 决策机制,为针对性防护提供依据;

再次是安全设计范式。在性能-安全帕累托前沿上进行权衡分析,比如通过模块化架构降低整体风险,推动安全边界向更优方向拓展。

需要说明的是,DeepMind 在论文指出考虑到技术加速发展的可能性,其在论文中并未针对“以年为单位的进展速度”设定任何限制。

因此,AI 开发者可以针对本次方法进行迭代式和实证性的测试,以便发现随着能力的提升而出现的缺陷性假设。

当然,对于任意能力的 AI 系统,DeepMind 的方法并不都具备鲁棒性。但是,AI 开发者可以采取前瞻性规划来部署相关能力。

参考资料:

https://deepmind.google/discover/blog/taking-a-responsible-path-to-agi/

https://arstechnica.com/ai/2025/04/google-deepmind-releases-its-plan-to-keep-agi-from-running-wild/

运营/排版:何晨龙

ad1 webp
ad2 webp
ad1 webp
ad2 webp