为什么安全团队不能仅仅依赖AI护栏

责任编辑:cres

作者:Mirko Zorz

2025-05-13 15:47:06

来源:企业网D1Net

原创

研究发现,当前AI模型依赖的防护栏防御系统存在根本性漏洞,攻击者使用表情符号、Unicode标签隐藏等简单技术即可实现近100%绕过,其核心问题在于防护栏的预处理标记器会因设计权衡而 "净化 "对抗性内容,导致分类器误判。

在采访中,Mindgard公司的CEO彼得·加拉汉(Peter Garraghan)博士讨论了他们关于保护大型AI模型的防护栏(guardrails)中存在漏洞的研究。研究结果表明,即使是价值数十亿美元的大型语言模型(LLM),也可以通过一些简单到令人惊讶的技术绕过防护栏,包括使用表情符号(emojis)。

为了防御提示词注入攻击(prompt injection),许多LLM都配备了防护栏,这些防护栏负责检查和过滤输入的提示词,然而,这些防护栏本身通常也是基于AI的分类器,正如Mindgard的研究所示,它们在某些类型的攻击面前同样脆弱。

防护栏被誉为LLM的关键防御手段。从你的角度来看,关于防护栏在实际应用中的有效性,最大的误解是什么?

如果退一步问任何安全专家:“我会放心地依赖Web应用防火墙(WAF)作为保护企业的唯一关键防御手段吗?”答案(希望如此)将是否定的。防护栏的作用类似于防火墙,试图检测和阻止恶意提示词。尽管它们是防御体系的一部分,但确保有效的防御需要部署的不仅仅是单一解决方案,另一方面,一个常见的误解是,它们在面对稍微有动力的攻击者时仍然有效。

防护栏使用AI模型进行检测,而这些模型本身存在盲点。阻止“明显”的恶意或有害指令是一回事,但当提示词可以以极其多种组合方式(改变字母、单词、改写等)编写时,人类可能能够理解,但防护栏却难以应对。

研究表明,使用表情符号和Unicode隐藏(smuggling)等简单技术,绕过防护栏的成功率接近100%。为什么这些基本方法对那些本应检测操纵行为的系统如此有效?

表情符号和Unicode标签隐藏技术之所以如此有效,是因为它们利用了防护栏自然语言处理(NLP)管道中预处理和标记化阶段的弱点。防护栏系统依赖于标记器将输入文本分割并编码为离散单元,以便模型进行分类,然而,当对抗性内容嵌入到复杂的Unicode结构中(如表情符号变化选择器或标签序列)时,标记器往往无法保留嵌入的语义。

例如,当文本被注入到表情符号的元数据中或使用Unicode标签修饰符附加时,标记器可能会将序列折叠成一个单一的、无害的标记,或者完全丢弃它。结果,嵌入的内容从未以原始形式到达分类器,这意味着模型看到的是一个经过净化的输入,不再代表实际的提示词,这导致了系统性的误分类。

这些失败并不一定是标记器中的错误,而是设计上的权衡,优先考虑了规范化和效率而非对抗性鲁棒性。标准标记器并非为解释或保留对抗性构造的Unicode序列中的语义意义而构建。除非防护栏融入了专门设计用于检测或解包这些编码的预处理层,否则它们仍然对嵌入的有效载荷视而不见。这凸显了攻击者编码意义的方式与分类器处理它的方式之间的根本差距。

在对抗性机器学习中,扰动被设计为对人类来说不可察觉。这是否为开发可解释或可理解的防御手段带来了独特的挑战?

不可察觉的扰动确实为开发可解释的防御手段带来了独特的挑战。AI模型对数据的解释方式与人类完全不同,对我们来说不会改变内容上下文或语义意义的扰动,可能会极大地改变AI模型的决策。这种脱节使得解释为什么模型会无法分类我们凭直觉就能理解的文本变得困难。这种脱节反过来又降低了开发者基于对抗性扰动改进防御手段的有效性。

论文指出,防护栏检测的内容与LLM理解的内容之间存在脱节。安全团队应如何解决这种行为和训练数据之间的根本不匹配?

核心问题在于,大多数防护栏都是作为独立的NLP分类器实现的——通常是经过微调的轻量级模型,训练数据经过精心挑选——而它们旨在保护的LLM则是在更广泛、更多样化的语料库上训练的。这导致了防护栏标记的内容与LLM如何解释输入之间的不匹配。我们的研究结果表明,经过Unicode、表情符号或对抗性扰动混淆的提示词可以绕过分类器,但仍然可以被LLM解析和执行。当防护栏静默失败,允许语义完整的对抗性输入通过时,这尤其成问题。

即使是新兴的基于LLM的评估者,尽管前景看好,也受到类似限制。除非明确训练以检测对抗性操纵,并在具有代表性的威胁环境中进行评估,否则它们可能会继承相同的盲点。

为了解决这个问题,安全团队应超越静态分类,实施动态、基于反馈的防御手段。防护栏应在实际LLM和应用接口存在的系统中进行测试。对输入和输出的运行时监控对于检测行为偏差和新兴攻击模式至关重要。此外,将对抗性训练和持续的红队演练纳入开发周期,有助于在部署前暴露和修补弱点。如果没有这种对齐,组织就可能部署提供虚假安全感的防护栏。

你认为LLM防护栏研究接下来应该朝哪个方向发展,特别是在期待更强大、多模态或自主模型的情况下?

当与其他防御策略和技术结合使用时,LLM防护栏可以最为有效,因此研究防护栏如何增强实际AI应用的整体防御姿态将是有益的。威胁建模是创建合适防御手段的关键,我们建议将建模的威胁直接映射到应用场景和防护栏配置/重点上。

我们观察到,该领域的大量研究都是针对一组广泛(且相当通用)的基准来评估模型的。虽然基准测试是确保防护栏之间更公平评估的好方法,但如果防护栏是在实际AI应用场景中针对有动机的攻击者设计的、部署的和评估的,这些攻击者旨在展示有意义的利用并利用更复杂的技术绕过检测,那么该领域的研究将得到改进。

企业网D1net(www.d1net.com):

国内主流的to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号