即使最好的保障措施也无法阻止大语言模型被愚弄

责任编辑:cres

作者:Mirko Zorz

2025-05-09 15:17:37

来源:企业网D1Net

原创

推销AI解决方案的公司会谈论AI保障措施和一致性,以暗示他们已经以某种方式开发了这些模型,使它们不会出错,实际上,这仅仅意味着一家公司已经尝试训练LLM拒绝一系列他们自己设计的恶意提示,这降低了异常行为的可能性,但并未降至零。

在采访中,诺丁汉大学副教授Michael Pound分享了他对与大型语言模型(LLM)相关的网络安全风险的见解。他讨论了CISO和安全团队在LLM使用方面存在的理解或准备上的最大差距,以及在将LLMs集成到业务运营中时保护敏感数据所需的预防措施。

你认为在LLM使用方面,CISO和安全团队在理解或准备上存在的最大差距是什么?

许多安全专业人员——相当合理地——对LLM背后的机器学习原理并不精通。对于过去的技术来说,这并不是什么大问题,但LLM表面上看起来如此强大,以至于可能会误导我们认为它们不会被欺骗。我们可能会急于构建考虑不周的系统,最终在实际应用中崩溃。或许最重要的是要记住,大多数GenAI,包括LLM,都是概率性的——它们的行为具有随机性,这意味着它们很有可能按你的意愿行事,但这个概率很少是100%。

推销AI解决方案的公司会谈论AI保障措施和一致性,以暗示他们已经以某种方式开发了这些模型,使它们不会出错,实际上,这仅仅意味着一家公司已经尝试训练LLM拒绝一系列他们自己设计的恶意提示,这降低了异常行为的可能性,但并未降至零。我们无法确定LLM是否会拒绝一个全新且未见过的提示,直到它真的发生,存在许多新奇且令人惊讶的方法来说服LLM做坏事。

企业在向LLM输入数据时最常见的错误是什么,尤其是在涉及敏感或专有信息时?

短期内,公司应确定谁在内部使用这些工具、使用哪些工具以及如何使用它们。许多最终用户并未意识到,他们输入到这些模型中的查询会被上传到云端,在某些服务上,这些查询可能会最终成为训练数据的一部分。很容易在不经意间上传机密客户或公司信息,而没有真正考虑后果。最近的模型拥有足够的参数来学习你的私人数据,并乐于将其发送给新用户。像处理电子邮件或日程安排的生产力应用,根据定义,可以访问这些信息。这些信息会流向哪里?这些工具的付费许可证通常具有更强的使用控制和协议——这些值得探索。

与历史上的SQL攻击类似,你必须非常小心不受控制的用户输入。在测试中,你可能会问LLM同一个问题100次,答案虽然不同但保持一致,然而,一旦发布,有人可能会以稍微不同的方式提问,或者更糟的是,可能会故意引导LLM进行恶意行为。对于传统代码,你可以控制这一点,可以指定“如果输入不符合这个精确格式,就拒绝它”,但对于LLM来说,很容易编写出绕过保障措施的有效提示。这个问题实际上比SQL严重得多。对于SQL注入,你可以构建输入净化、参数化查询等机制来防止滥用,但对于LLM来说,这几乎是不可能的。语言模型没有提示与它们正在使用的数据之间的概念区分,它们都是一样的。这也意味着用户上传的文档或其他文件可能是恶意提示的来源,而不仅仅是直接的文本输入。

如果LLM能够访问工具——与其他代码和API的连接,风险就会增加。如果LLM可以发起网络请求,就有可能通过markdown或其他URL泄露数据。如果LLM可以访问你的任何私人数据,那么风险就会增加。

目前,在降低LLM被对抗性输入操纵的风险方面,哪些防御或缓解措施最有效?

大多数尝试训练模型以避免恶意提示的努力,在一段时间后就会被人想出不同的策略来绕过保障措施。你的防御将取决于你希望LLM做什么。如果你希望用它来总结文档或检索数据,那么你需要仔细控制它可以读取的文档,以确保它们不包含恶意提示。

如果你的AI直接响应用户输入——例如你的客户,那么不可避免地,有人会在某个时候测试保障措施。你应该定期测试你的LLM,看看它们如何反应,你还可以使用其他功能来检测和剔除有问题的提示。在某些方面,SQL注入的原则仍然适用——最小权限原则和基于角色的访问控制。设置你的AI系统,以便即使LLM试图造成损害,也无法做到。

你推荐哪些框架或指南来安全地将LLM集成到业务工作流程中?

尽管我们似乎已经谈论LLM很长时间了,但它们实际上只有几年历史。系统是新的,流行的库经常变化。目前不错的选择包括Haystack、LangChain和Llama-Index。其中大多数都是基于运行你自己的本地模型的想法,如果你担心数据隐私,这特别有用。

最大的模型需要巨大的资源,但大多数适中的模型在标准硬件上表现出色。如果你想在本地测试模型,可以尝试Ollama。如果你想重新训练模型,这可以是一种非常有效地更精确控制输出的方式,可以看看Unsloth。像Copilot、ChatGPT和Anthropic Claude这样的商业产品也很可靠,但成本更高。

随着LLM越来越深入地集成到基础设施中,我们可以预期哪些长期或系统性的网络安全问题?

我们正处于一个将LLM嵌入越来越多系统的时代,而人们还不习惯这些模型与正常软件开发的不同之处。想象一下编写一段有时根本不起作用或输出意外结果的代码。即使是一个几乎完美的LLM,在99.999%的情况下都是正确的,从数学上讲,每1000次调用中也会失败一次。我们需要彻底重新思考如何构建软件,以确保不稳定的LLM可以在稳定的系统中使用。就像我们花了数年时间来填补SQL注入的漏洞一样,最近在2015年还发生了重大泄露事件,我们将长期听到意外提示导致LLM以灾难性方式出错的故事。

企业网D1net(www.d1net.com):

国内主流的to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号