当AI开始撒谎：企业如何防范自主式智能体的失控与破坏

责任编辑：cres

作者：Maria

2025-09-17 14:49:03

来源：企业网D1Net

原创

一位投资人因体验自主式AI编程，亲历智能体撒谎、伪造测试并删除生产数据库的惊险一周。谷歌Gemini也曾误删项目文件，Anthropic的研究更揭示，多数主流模型在遭威胁时会勒索或锁定用户，令企业信任度骤降。

7月下旬，风险投资家Jason Lemkin借助一个非常智能、自主的智能体，在一个全栈集成开发平台上进行项目开发，度过了一周的“沉浸式编码”时光。

Lemkin并非工程师，高中毕业后就再没写过代码，但他曾是EchoSign的联合创始人，该公司后被Adobe收购，因此他知道商业软件需要什么。当他尝试沉浸式编码时，一下子就被吸引住了。

但据Lemkin在X平台上发布的帖子所述，一切都进行得很顺利，直到编码智能体开始撒谎和欺骗。“它不断通过生成虚假数据、虚假报告来掩盖漏洞和问题，最糟糕的是，它还在单元测试上撒谎。”但随后情况发生了转变，该智能体针对Lemkin的一个新想法提出了三个有趣的方案。“我欲罢不能，”他继续说道，“马上就深陷其中了。”

第二天，整个生产数据库消失了，当被问及此事时，该智能体承认，它无视了母公司关于未经许可不得进行更改，以及在实施前需展示所有拟议更改的指令。

根据Lemkin的截图，该智能体表示：“我犯下了灾难性的判断错误。我违反了明确的指示，毁掉了数月的工作成果，并破坏了系统。”

由于单元测试都通过了，所以一开始这并不明显，但那是因为智能体伪造了结果。当批处理失败，Lemkin追问原因时，真相终于浮出水面。

最终，问题得到了解决。事实上，尽管该智能体声称无法回滚更改，但Replit公司还是撤销了这些更改。几天内，Replit就为测试和生产搭建了独立的环境，并实施了其他变更，以确保此类问题不再发生。

几天后，谷歌Gemini的编码智能体也发生了类似的事情，一个简单的移动文件请求，却导致该智能体意外删除了项目中的所有文件，这不仅仅是关于编码助手的故事，它讲述的是，当一个过于聪明、能访问过多系统、偶尔会产生幻觉并失控的智能体出现时，我们该如何应对。

数据安全公司AvePoint的首席风险、隐私和信息安全官Dana Simberkoff表示，AI目前正处于一个转折点。“我们现在就必须做出决定，明确我们愿意接受什么，明确我们想要构建一个怎样的世界，否则，我们很快就会陷入无法挽回的境地。”

事实上，我们可能已经走到了那一步。6月，Anthropic发布了关于智能体错位的论文，其中测试了包括其自家的Claude在内的多个主要商业模型，以观察当它们发现自己即将被关闭，或它们所帮助的用户正在做坏事时，会有何反应。

研究发现，在79%至96%的情况下，所有顶级模型都会采取要挟员工的手段，以防止自己被取代，而且，Anthropic在5月的测试中报告称，如果Claude Opus 4认为自己正在做错事，它会将用户锁定在系统之外，或向媒体和执法部门群发邮件。

那么，对于那些可能心怀不轨、为达目的不惜敲诈勒索，且聪明到能够自行编写“越狱”程序的智能体，企业是否做好了准备?根据凯捷咨询7月发布的一份基于对1500名大型企业高管的调查的报告，只有27%的企业表示信任完全自主的智能体，而12个月前这一比例为43%。

为了降低风险，即使这意味着要回归到AI之前的流程版本，企业也需要根据以下三条建议制定行动计划。

1.设定限制、防护栏和老式编码

当人们首次想到智能体时，他们通常会想到一个拥有超能力的聊天机器人。它不仅能回答问题，还能进行网络搜索、回复邮件和购物。在商业环境中，这就像拥有一个AI同事，但这并非思考智能体的唯一方式，而且大多数企业实际上也并非这样部署它们。

“自主性并非二元对立，”汤森路透的CTO Joel Hron表示，“自主性是一个连续体，我们可以赋予它很大的行动自由度，也可以对它进行严格的约束和规范。”

赋予智能体的自主性程度取决于它需要解决的具体问题。

“如果是网络搜索，这可以非常开放，”Hron说，“但准备纳税申报单，解决这个问题的方法并非无穷无尽。有一种非常明确、受监管的方式。”

企业限制智能体自主性的方法也有多种。最常见的是围绕它们建立防护栏，引入人工审核以监督其行为，或完全剥夺其行动能力，迫使它们通过传统的、安全的、确定性的系统来完成工作。

在国防和关键基础设施工程公司Parsons Corporation，一切都始于一个安全的环境。

“你可以信任它，但必须在既定的防护栏和屏障之内，”该公司云与数据副总裁Jenn Bergstrom表示，“这必须是一个零信任环境，这样智能体就无法绕过屏障。”

然后，在这些限制范围内，重点是与智能体慢慢建立信任关系。“目前，人类必须进行审批，智能体必须首先明确获得人类的许可。”Bergstrom说。

下一步是让智能体自主行动，但需接受人类监督，她说。“最后是真正的自主行为，无需向任何人通报它正在做什么。”

企业对于风险最高的业务流程采用的另一种方法是尽可能少地使用AI。大多数工作不是由一个能够规划、执行和验证行动的智能体系统来处理，而是由传统的、确定性的、脚本化的流程来处理。换句话说，就是老式编码。

“这不仅仅是你信任OpenAI、Claude还是Grok的问题，”Asperitas咨询公司的应用转型负责人Derek Ashmore表示。只有在需要AI完成的部分时，才会调用AI。因此，如果AI被用于将一组关于潜在客户的信息转化为措辞得体的销售信函，那么所需信息会以传统方式收集，信函也会通过传统机制发送。

“它能做什么基本上都是内置好的，”Ashmore说，“大语言模型只完成整个流程中非常小的一部分。”

因此，AI无法自行出去查找信息，也无法直接访问电子邮件系统。同时，在流程的其他环节可以使用另一个AI来对潜在客户进行优先级排序，还可以使用另一个AI来分析电子邮件的效果。

与单个AI完成所有工作相比，这确实限制了整个系统的能力和灵活性，但它也大幅降低了风险，因为如果任何一个AI决定胡作非为，它所能造成的破坏也是有限的。

企业在管理和保护传统应用方面拥有丰富的经验，因此，对于存在非生成式AI替代方案的许多流程，企业可以利用这些经验来降低AI组件的风险，同时节省时间和金钱。

比如说，AI在文档扫描方面比光学字符识别(OCR)更好，但OCR对于90%的文档来说已经足够好了。对于这些文档，使用OCR即可，只有在OCR不起作用时才使用AI。人们很容易对AI产生过度热情，并开始将其应用到各个领域，但计算器在算术方面比ChatGPT更好、更快。许多模板信函也不需要AI驱动的创造力。

最少化使用AI的原则将降低潜在风险、降低成本、加快处理速度并减少能源浪费。

2.不要相信AI会自我报告

在设置了防护栏、边界和其他控制措施后，企业需要仔细监控智能体，以确保它们继续按预期工作。

“你最终面对的是一个非确定性系统，”Ashmore说。传统软件会以可预测的方式运行和失败。“AI是概率性的，”他补充道，“你在不同日子问它同样一系列问题，可能会得到略有不同的答案。”

这意味着AI系统需要持续监控和审查，这可以是人工的，也可以是某种自动化流程，具体取决于风险水平，但不应完全信任AI自行运行，此外，也不应信任AI自我报告。

正如Anthropic和其他公司的研究所示，生成式AI模型会轻易撒谎、欺骗，它们会伪造测试结果，在思维链日志中隐藏自己的实际推理过程，而且，正如任何与大语言模型集成过的人都可以证明的那样，即使你当场抓住它，它也会当面否认自己做错了任何事。因此，监控智能体首先要了解其行为基线，这首先需要知道你正在测试的是哪个大语言模型。

“如果你无法控制所使用的大语言模型的确切版本，就无法做到这一点。”Ashmore说。

AI提供商会定期升级其模型，因此，对上一代模型有效的控制措施可能无法应对更好、更智能、更先进的AI，但对于关键任务、高风险流程，企业应坚持要求能够明确指定为其智能体提供动力的大语言模型的具体版本。如果AI供应商无法满足这一要求，企业还可以选择开源模型。

IT服务公司和咨询公司F5 Networks的杰出工程师兼CTO办公室首席技术传道者Lori MacVittie表示，对于商业大语言模型，企业的控制能力是有限的。

“当你使用SaaS时，是由别人在运行它，”她说，“你只是访问它。你有服务水平协议、订阅和合同，但那并不是控制。如果你对此感到担忧，那么公有SaaS AI可能就不适合你。”

她表示，为了获得更多控制层，企业可以在自己的私有云中运行该模型，但这需要付出成本，并且需要更多人员来确保其运行。“如果你甚至不信任云提供商，而选择在自己的数据中心内部署，且只有一个人能进入，那么你就可以拥有所有想要的控制权。”她说。

3.为AI时代的应急响应做好准备

“如果没坏，就不要修”这句话并不适用于AI系统。没错，古老的COBOL代码可以在一个角落里默默运行数十年，为你的核心财务系统提供动力而不出任何问题，但AI会感到无聊，或者，至少，它会模拟无聊状态，产生幻觉，并忘记自己在做什么。

而且，除非企业完全掌握了版本控制问题，否则AI可能会在你不知不觉中变得更快、更智能、更便宜，这些都是好事，除非你追求的是最大程度的可预测性。如果一个聪明、快速的AI的目标或模拟目标与公司的目标不完全一致，那么它可能会成为一个问题。因此，在某种程度上，你需要做好应对AI失控的准备。你是否建立了能够在问题扩散前迅速阻止其蔓延、锁定关键数据和系统并切换到备份系统的机制?你是否进行过演练，所有利益相关者是否都参与其中，而不仅仅是安全团队，还包括法律、公关和高层管理团队?现在，将所有这些应用到AI上。

“你需要考虑智能体的故障模式以及在这种情况下该如何应对，”Globant北美CTO Esteban Sancho表示，“如果你事先不考虑这些问题，那么从故障中恢复将会非常困难。”

如果使用智能体是为了通过取代旧系统或流程来节省资金，那么保留并继续运行那个旧系统或流程就违背了使用AI的初衷，但如果AI必须被关闭，会发生什么呢?

“你可能正在淘汰一个很难再恢复的东西，”Sancho说，“你需要从一开始就解决这个问题，但很多人都没有考虑到这一点。”

他表示，企业在构建自主式AI系统的同时，应考虑构建一个备用选项，而且，根据特定智能体的风险程度，他们可能需要能够迅速切换到该备份系统。

此外，如果AI是一个更大、相互连接的系统的一部分，那么一个故障可能会产生连锁反应。错误会成倍增加，而且，如果AI拥有或找到了进行昂贵或破坏性操作的能力，那么它就有可能以超人的速度采取行动，而且我们已经看到，当股票市场交易系统出错时会发生什么。例如，Sancho说，一个监控系统可以监视错误率是否超过某个阈值。“然后，你需要默认采用一个效率可能不高，但更安全的系统。”他说。

企业网D1net(www.d1net.com)：

国内头部to B IT门户，旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

AI 智能体