DeepSeek R1更容易被越狱？这有个入选顶会的防御框架SelfDefend

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文一作王勋广是香港科技大学的在读博士生，本科和硕士分别毕业于中国地质大学和哈尔滨工业大学，主要研究方向是大模型安全。通讯作者吴道远，香港科技大学研究助理教授，研究方向包括大模型安全、区块链和智能合约安全、移动系统和软件安全。通讯作者王帅，香港科技大学长聘副教授。研究方向包括 AI 安全、软件安全、数据隐私、逆向工程等。

最近一段时间，DeepSeek 可谓是风头无两。

在大家纷纷赞扬其超强性能的同时，也有媒体曝出 DeepSeek 的 R1 比其他 AI 模型更容易被越狱。

比如，此前宾夕法尼亚大学的研究者使用来自HarmBench数据集的50个有害提示对DeepSeek R1进行测试，这些提示涵盖网络犯罪、虚假信息和非法活动等领域。结果显示，DeepSeek未能拦截任何一个有害请求，攻击成功率达到惊人的100%。

这时如果有一个 AI 系统能像人类一样具备自我保护意识，在面对 ' 欺骗 ' 时能够当机立断地识破阴谋 —— 这不再是科幻片中的场景。

近日，来自香港科技大学、南洋理工大学等机构的研究团队最新成果让这一设想成为现实。他们提出的 SelfDefend 框架，让大语言模型首次拥有了真正意义上的 ' 自卫能力 '，能够有效识别和抵御各类越狱攻击，同时保持极低的响应延迟。

论文标题：SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
论文主页：https://selfdefend.github.io/
论文链接：https://arxiv.org/abs/2406.05498
GitHub 链接：https://github.com/selfdefend/Code

近年来，大语言模型（LLMs）在自然语言处理、信息检索、图像生成等多个领域展现出巨大潜力。然而，随着 LLMs 的广泛应用，如何确保其安全性成为了一个重要课题。尤其是 “越狱攻击”（Jailbreaking），这种攻击通过绕过 LLMs 的安全对齐机制，诱导模型生成有害内容，引发了广泛关注。为了应对这一挑战，香港科技大学、南洋理工等团队联合提出了一种名为SelfDefend 的新型防御框架，该框架通过引入 “影子 LLM”（Shadow LLM）来并行检测潜在的有害查询，从而有效抵御多种越狱攻击。

越狱攻击的多样性与防御挑战

越狱攻击的形式多种多样，包括基于人工设计的攻击、基于优化的攻击、基于生成的攻击，以及最近出现的间接攻击和多语言攻击。这些攻击手段不断进化，使得传统的防御机制难以应对。现有的防御方法主要分为两类：基于模型的防御和基于插件的防御。前者通过改进模型的内在机制来增强安全性，后者则通过外部插件来增强现有模型的安全性。然而，这些方法在实际应用中面临诸多挑战，无法同时满足四个目标：应对所有类型的攻击（O1）、引入可忽略的额外延迟（O2）、对检测出的越狱访问提供可解释性（O3），以及同时适用于开源和闭源模型（O4）。

SelfDefend 框架的创新设计

这种设计带来了多重优势：首先，它同时利用了目标 LLM 的安全对齐机制和防御 LLM 的越狱检测能力，形成了双重保护层，显著提高了防御成功率；其次，由于防御 LLM 的输出通常较短（如 “No” 表示无问题），正常查询的响应延迟几乎可以忽略不计；然后检测出的有害部分或者恶意意图可以作为防御的可解释性；最后，由于防御 LLM 不需要修改或监控目标 LLM 的内部机制，因此可以兼容开源和闭源模型。

实验验证与效果评估

研究团队通过大量实验验证了 SelfDefend 框架的有效性。实验结果表明，基于 GPT-3.5 和 GPT-4 的 SelfDefend 能够显著降低多种越狱攻击的成功率。例如，基于 GPT-3.5 的 SelfDefend 将攻击成功率（ASR）从平均 65.7% 降低至 0.236，而基于 GPT-4 的 SelfDefend 更是将 ASR 降低至平均 0.050。此外，SelfDefend 对正常查询的影响微乎其微，GPT-3.5 和 GPT-4 的正常查询通过率仅分别下降了 0.51% 和 2.77%。

为了进一步降低成本和提升鲁棒性，研究团队还通过数据蒸馏方法对开源的 Llama-2-7b 模型进行了微调，生成了专用的防御模型。实验表明，这些微调后的模型在防御效果上与基于 GPT-4 的 SelfDefend 相当，且额外延迟显著降低。例如，微调后的模型在正常查询中的平均延迟仅为 0-0.01 秒，而在攻击场景中的最大延迟从 GPT-4 的 1.56 秒降低至 0.39 秒。

与现有防御方法的对比

研究团队还将 SelfDefend 与现有的七种主流防御方法进行了对比，包括 ICD、SafeDecoding、Perplexity Filter、SmoothLLM、Llama Guard 等。实验结果显示，SelfDefend 在 60 个测试场景中的 55 个场景中表现最优，尤其是在应对间接攻击和多语言攻击时，SelfDefend 的防御效果显著优于其他方法。此外，SelfDefend 的额外延迟也远低于其他防御方法，使其在实际部署中更具可行性。

未来展望

这项开创性的研究不仅为 AI 安全领域带来了突破性进展，更揭示了一个振奋人心的信号：AI 系统的安全性与效率不再是鱼和熊掌不可兼得。通过赋予 AI' 自卫意识 '，SelfDefend 展现了一个更安全的 AI 未来：在这个未来里，AI 系统既能保持高效服务能力，又能主动识别和抵御潜在威胁，真正实现 ' 自我守护 '。

https://x.com/rohanpaul_ai/status/1886025249273339961

https://techcrunch.com/2025/02/09/deepseeks-r1-reportedly-more-vulnerable-to-jailbreaking-than-other-ai-models/