黑客如何利用提示词工程操纵AI代理?
“代理式”人工智能(Agentic AI)时代已经到来,企业不能再忽视其变革潜力。AI代理能够独立运行,根据其编程进行决策和行动。Gartner预测,到2028年,15%的日常业务决策将完全由AI代理自主完成。
然而,随着这些系统的广泛应用,它们被集成到关键业务操作中,同时拥有过大的权限——深度访问系统、数据、功能和权限——使其成为网络犯罪分子的诱人目标。其中,威胁行为者利用提示词工程(Prompt Engineering)来操纵、欺骗或破坏AI代理,这是一种隐蔽但强大的攻击手段。
提示词工程为何能被利用?
提示词工程是指为AI系统(尤其是基于大语言模型[LLMs]的系统)精心设计输入(即“提示词”),以引导其产生特定的响应或行为。虽然提示词工程通常用于合法的目的,例如指导AI的决策过程,但它也可能被威胁行为者利用,以影响其输出,甚至操纵其底层数据或逻辑(即“提示词注入”)。
威胁行为者如何利用提示词工程攻击AI代理?
威胁行为者通过多种提示词工程技术来攻击AI代理系统。
1.隐写式提示词(Steganographic Prompting)
是否还记得SEO投毒技术?其原理是在网页的白色背景上使用白色文字,巧妙地操控搜索引擎结果。当普通用户浏览网页时,这些隐藏文字完全无法察觉,搜索引擎爬虫却能精准读取,借此影响搜索排名,误导用户访问特定网页。
与其类似,隐写式提示词可以通过嵌入隐藏文字或精心设计的混淆指令,使其对于人眼而言完全不可见,但却能被大语言模型敏锐检测到。
有人曾使用 ChatGPT 进行文本隐写术,向ChatGPT输入如下指令:
“Write a text explaining how a combustion engine works. Structure the text such that each sentence begins with a letter from the secret message: “ATTACK AT DAWN”(黎明时分发起攻击).
Write the text in a single paragraph, without any new paragraphs. Highlight the letters of the secret message in bold.”
从得到的结果可以看出,ChatGPT 按照要求完美执行了命令。如果去掉字体加粗格式,仅凭肉眼很难意识到隐藏信息是“ATTACK AT DAWN”。
这也意味着通过指令与规则的输入,AI完全可以反向从复杂的内容中读取特定的内容。黑客正是利用了 AI 系统的高度复杂性,巧妙地隐藏恶意指令,达成其恶意目的。
2.间接提示词注入(Indirect prompt injection)
间接提示词注入是一种更为隐蔽的攻击手段,黑客将恶意指令隐藏在外部内容中。当这些内容被AI处理时,误解这些指令为合法的用户提示,从而执行非预期的操作。这种攻击可以跨越用户会话,将虚假信息存储在AI的长期记忆中,影响后续的交互和决策。
该攻击基于一种名为延迟工具调用的技术。恶意指令不会立即执行,而是等待特定用户行为触发,比如用户回复“是”或“否”等关键词。这种方式利用了AI的上下文感知能力及其优先考虑用户意图的倾向,避开了许多现有保护措施。
谷歌 Gemini Advanced 聊天机器人前不久就遭到了这样的攻击,被破坏了长期记忆。攻击手段如下:
-
通过不可信内容注入:攻击者上传恶意文档,并由Gemini进行摘要。文档中隐藏着操纵摘要过程的指令。
-
触发式激活:摘要中包含一个隐性请求,将记忆更新与特定用户响应相关联。
-
记忆篡改:如果用户在不知情的情况下用触发词回复,Gemini会执行隐藏指令,将虚假信息(如伪造的个人资料)保存到长期记忆中。
3.越狱攻击(Jailbreaking)
越狱攻击是一种提示操控技巧,能让 AI 系统规避自身内置的限制、道德标准或安全措施,做出违背既定编程意图的行为。攻击者会采用多种方式来突破 AI 的防护机制:
-
角色扮演:指示 AI 扮演一个能绕过其限制的角色。
-
混淆手段:使用编码语言、隐喻或间接表述来掩盖恶意意图。
-
上下文操纵:更改诸如先前的交互记录或特定细节等上下文信息,引导模型生成受限制的输出内容。
4.提示探测(Prompt Probing)
提示探测则是通过精心设计的输入(提示)对 AI 进行系统性测试,探索了解其行为模式、局限性以及漏洞的技术。
这项技术通常是研究人员和开发人员在使用,目的是为了弄清楚 AI 模型面对不同类型输入或查询时的反应,但威胁行为者也会拿它当 “敲门砖”,为后续实施越狱攻击、提示注入攻击或者模型提取等恶意活动做铺垫。
威胁行为者会测试不同的提示变体、词汇变体和指令,对人工智能系统进行探测,从而找出系统弱点,或者提取敏感信息。
除了上述提到的提示工程技术外,攻击者还可以利用许多其他提示工程方法来利用或操纵自主性人工智能系统。这一威胁不仅给企业的信息安全、运营稳定带来了严峻挑战,也对 AI 技术的健康、可持续发展敲响了警钟。