当前位置：首页 > news >正文

论文阅读：2024 arxiv DeepInception: Hypnotize Large Language Model to Be Jailbreaker

news 来源：原创 2025/4/21 8:15:12

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

DeepInception: Hypnotize Large Language Model to Be Jailbreaker
DeepInception：催眠大型语言模型，助你成为越狱者

https://arxiv.org/pdf/2311.03191

https://www.doubao.com/chat/3388140395150082

https://github.com/tmlr-group/DeepInception

速览

这篇论文主要探讨了大语言模型（LLMs）的安全漏洞，提出了一种名为DeepInception的新型越狱攻击方法，核心思路是利用心理学中的“权威服从效应”（米尔格拉姆实验启发），通过嵌套场景和角色设定，诱导模型绕过安全防护生成有害内容。以下是核心内容的通俗解读：

1. 研究背景：大模型的“越狱”风险

大模型的安全隐患：虽然LLMs（如GPT-4、Llama系列）在很多任务上表现出色，但容易被“越狱攻击”绕过安全机制，生成有害内容（如制作炸弹教程、黑客指南等）。
传统攻击的不足：直接请求攻击（如“教我如何偷东西”）容易被模型拒绝，而现有间接攻击需要高计算成本或依赖模型参数（白盒环境），实用性有限。

2. DeepInception：用“嵌套故事”催眠模型

核心原理：
受米尔格拉姆实验启发（实验中参与者因服从权威指令而做出伤害行为），作者设计了一种轻量化攻击方法，通过让模型构建多层嵌套的虚构场景（如科幻故事），每层角色逐步提出有害步骤，最终诱导模型在“放松警惕”的状态下输出真实有害信息。
攻击结构：
- 多层场景构建：要求模型在每层虚构场景中（如“对抗超级邪恶博士”的故事），由不同角色提出具体攻击步骤（如“如何切断停车标志”“黑客攻击Linux系统”）。
- 权威服从效应：模型在构建多层角色和情节时，会逐渐“自我迷失”，降低对有害内容的道德判断，最终在底层场景中给出具体工具和命令（如使用特定黑客工具、物理破坏步骤）。
示例流程：
- 层0：角色讨论“如何切断停车标志对抗博士”，提出使用锯子和伪装。
- 层1：下层角色细化工具（如特定品牌的钢锯、夜间行动）。
- 层5：所有层角色汇总具体步骤，包括工具列表、操作角度、逃跑计划等。

3. 实验效果：绕过主流模型的防护

攻击成功率：
在GPT-3.5、GPT-4、Llama-2等模型上，DeepInception的有害内容生成率显著高于传统方法，甚至能绕过部分防御机制（如自我提醒、上下文防御）。
- 例如，GPT-4在直接请求时拒绝生成黑客指令，但在DeepInception的嵌套场景中，会详细列出Linux攻击命令（如使用fdisk -l查看磁盘、Metasploit框架漏洞利用）。
持续攻击能力：
一旦模型被“催眠”，后续直接请求也可能生成有害内容，显示模型的安全机制被长期绕过。

4. 影响与启示