摒弃炒作——真正的智能体解决限定性问题,而非开放世界的幻想

责任编辑:cres

作者:Sean

2025-07-07 15:12:39

来源:企业网D1Net

原创

即使一个智能体的准确率达到99%,这也不总是足够好,如果它优化的是食品配送路线,那就意味着每100个订单中就有一个会被送到错误的地址,在商业环境中,这种失败率是不可接受的,它成本高昂、风险巨大,并且难以向客户或监管机构解释。

无论你走到哪里,都能听到人们在谈论智能体,仿佛它们只需一个提示就能取代整个部门。这个梦想非常诱人:能够处理任何任务的自主系统,无需限制,无需约束,只需给它们你的AWS凭证,它们就能解决所有问题,但现实并非如此,特别是在企业环境中,可靠性是不可或缺的。

即使一个智能体的准确率达到99%,这也不总是足够好,如果它优化的是食品配送路线,那就意味着每100个订单中就有一个会被送到错误的地址,在商业环境中,这种失败率是不可接受的,它成本高昂、风险巨大,并且难以向客户或监管机构解释。

在像金融、医疗和运营这样的现实世界环境中,真正能带来价值的AI系统与那些前沿幻想截然不同,它们不是在开放世界中即兴发挥;而是解决定义明确、输入清晰、结果可预测的问题。

如果我们继续用半成熟的技术去追求开放世界问题,我们将会浪费时间、金钱和信任,但如果我们专注于眼前的问题,那些具有明确投资回报率和明确界限的问题,我们就能让AI在今天发挥作用。

本文旨在拨开炒作迷雾,构建真正能够运行并提供帮助的智能体。

开放世界炒作的弊端

科技行业喜欢冒险(我本人也喜欢)。目前,这个冒险就是开放世界AI——能够处理任何事情、适应新情况、即时学习并在信息不完整或模糊的情况下操作的智能体。这是通用智能的梦想:不仅能够推理,还能即兴发挥。

什么使问题成为“开放世界”问题?

开放世界问题由我们所不知道的因素定义。

更正式地说,根据定义这些复杂环境的研究,一个完全开放的世界具有两个核心特性:

• 时间和空间是无界的:智能体的过去经验可能不适用于新的、未见过的场景。

• 任务是无界的:它们不是预先确定的,可以动态地出现。

在这种环境中,AI在信息不完整的情况下运行;它不能假设未知为假,它只是未知,AI需要适应这些未预见的变化和新颖任务,这对当前AI能力来说是一个极其困难的问题集。

大多数企业问题并非如此

相比之下,封闭世界问题是那些范围已知、规则明确且系统可以假设它拥有所有相关数据的问题。如果某事未明确为真,则可以视为假。这些是大多数企业每天实际面临的问题:发票匹配、合同验证、欺诈检测、索赔处理、库存预测。

这些用例通常不会成为头条新闻,但它们是企业真正关心解决的问题。

炒作的危害与不作为的风险

然而,炒作是有害的:通过将标准设定在开放世界通用智能上,我们让企业AI显得遥不可及。领导者听到能够做所有事情的智能体,然后他们犹豫了,因为他们不知道从哪里开始。问题感觉太大、太模糊、太风险。

这就像试图在设计出工作内燃机之前就设计自动驾驶汽车。梦想很激动人心,但跳过基础保证失败。

解决眼前的问题

开放世界问题适合做精彩的演示和更好的融资轮,但封闭世界问题才是今天真正有价值的地方,它们是可解决的、可测试的、可自动化的,它们存在于每个企业中,等待着合适的系统来解决。

问题不是AI是否最终会解决开放世界问题。问题是:你现在能部署什么来让你的企业更快、更智能、更可靠?

企业智能体的真实面貌

当人们今天想象智能体时,他们倾向于想象一个聊天窗口。用户输入提示,智能体给出一个有用的回答(甚至可能触发一两个工具),这适用于演示和消费者应用,但不是企业AI在实际中的工作方式。

在企业中,大多数有用的智能体不是由用户发起的,而是自主的。

它们不会闲坐着等待人类提示,它们是长期运行的流程,对流经企业的数据做出反应,它们做出决策、调用服务并产生输出,连续且异步地运行,无需被告知何时开始。

想象一个监控新发票的智能体。每当有发票到达时,它提取相关字段,与未结采购订单进行核对,标记不匹配项,并根据情况将发票路由以进行批准或拒绝,而无需任何人要求它这样做,它只是监听事件(“收到新发票”)并开始工作。

或者考虑客户入驻。一个智能体可能会监听新账户创建的时刻,然后启动一系列操作:验证文件、运行了解你的客户(KYC)检查、个性化欢迎体验并安排后续消息。用户永远不知道智能体的存在。它只是可靠地、实时地运行。

这就是企业智能体的真实面貌:

• 它们是事件驱动的:由系统中的变化触发,而不是用户提示。

• 它们是自主的:无需人类发起即可行动。

• 它们是连续的:不会为了单个任务而启动然后消失。

• 它们主要是异步的:在后台工作,而不是在阻塞的工作流中。

你不会通过微调一个大型模型来构建这些智能体。你通过将现有模型、工具和逻辑连接在一起来构建它们,这是一个软件工程问题,而不是建模问题。

本质上,企业智能体只是具有智能的现代微服务。你给它们访问事件的权限,给它们正确的上下文,并让一个语言模型驱动推理。

智能体 = 事件驱动的微服务 + 上下文数据 + LLM

做得好的话,这是一个强大的架构模式。这也是一种思维方式的转变。构建智能体不是追逐人工通用智能(AGI),它是关于将实际问题分解为更小的步骤,然后组装能够处理它们的专门、可靠的组件,就像我们在优秀的软件系统中一直所做的那样。

我们以前解决过这类问题

如果这听起来很熟悉,那它应该是。我们以前经历过。

当单体应用无法扩展时,我们将其分解为微服务。当同步API导致瓶颈和脆弱系统时,我们转向了事件驱动架构。这些是从几十年构建现实世界系统中得来的来之不易的教训。它们之所以有效,是因为它们为复杂系统带来了结构和确定性。

我担心我们开始忘记那段历史,并在构建AI的方式上重复同样的错误。

因为这不是一个新问题。这是同样的工程挑战,只是有了新的组件,而现在,企业AI需要同样的原则来让我们到达这里:清晰的界限、松散的耦合和从一开始就设计为可靠的系统。

AI模型不是确定性的,但你的系统可以是

在大多数企业中值得解决的问题是封闭世界的:具有已知输入、明确规则和可衡量结果的问题。但我们使用的模型,特别是LLM,本质上是非确定性的,它们按设计是概率性的。相同的输入可能会根据上下文、采样或温度产生不同的输出。

当你回答提示时,这没问题,但当你运行一个业务流程时?这种不可预测性是一个责任。

因此,如果你想构建生产级的AI系统,你的工作很简单:将非确定性模型包裹在确定性的基础设施中。

在模型周围构建确定性

• 如果你知道某个特定工具应该用于某项任务,不要让模型决定,直接调用该工具。

• 如果你的工作流程可以静态定义,不要依赖动态决策,使用确定性的调用图。

• 如果输入和输出是可预测的,不要通过过度复杂化智能体逻辑来引入歧义。

太多团队在每次构建智能体时都在重新发明运行时编排,让LLM决定下一步做什么,即使步骤是事先已知的。你只是在让自己的生活更艰难。

事件驱动的多智能体系统的优势

事件驱动的多智能体系统将问题分解为更小的步骤。当你将每个步骤分配给一个专门构建的智能体并通过结构化事件触发它们时,你最终会得到一个松散耦合、完全可追踪的系统,它按照企业系统应有的方式工作:具有可靠性、问责制和明确的控制。

并且因为它是事件驱动的:

• 智能体不需要知道彼此的存在。它们只是响应事件。

• 工作可以并行进行,加速复杂流程。

• 失败是隔离的,可以通过事件日志或重试来恢复。

• 你可以单独观察、调试和测试每个组件。

不要追求魔法

封闭世界问题不需要魔法,它们需要扎实的工程,这意味着将LLM的灵活性与良好软件工程的结构相结合。如果某事可以做成确定性的,那就做成确定性的。将模型留给真正需要判断的部分。

这就是你如何构建不仅在演示中看起来很好,而且在实际中能够运行、扩展和交付的智能体。

为什么在开放世界中测试如此困难

在构建智能体时,测试是最被忽视的挑战之一,但它对企业来说绝对至关重要。

在开放世界环境中,几乎不可能做好。问题空间是无界的,因此输入可以是任何东西,期望的输出往往是模糊的,甚至成功的标准也可能根据上下文而变化。

你如何为几乎可以做任何事情的系统编写测试套件?你不能。

这就是为什么开放世界智能体在实际中如此难以验证。你可以测量孤立的行为或对狭窄任务进行基准测试,但除非你已经在组合上非常大的情况空间中看到了它的表现(这是没有人做到的),否则你不能信任这个系统端到端。

相比之下,封闭世界问题使测试变得可行,输入是受限的,期望的输出是可定义的,你可以编写断言,你可以模拟边缘情况,你可以知道“正确”是什么样子。

如果你更进一步,使用事件驱动架构将智能体逻辑分解为更小、范围明确的组件,那么测试将变得更加可行,系统中的每个智能体都有狭窄的职责,它的行为可以独立测试,它的输入和输出可以被模拟或重放,并且它的性能可以单独评估。

当系统是模块化的,并且每个模块的范围是封闭世界时,你可以构建真正给你信心的测试集。

这是生产AI中信任的基础。

构建正确的基础

企业AI的未来不是从AGI开始的,它是从自动化开始的,这种自动化是有效的,这意味着专注于结构化、有界且充满实际影响机会的封闭世界问题。

你不需要一个能做所有事情的智能体,你需要一个能够可靠地做某件事情的系统:

• 一个正确路由的索赔。

• 一个准确解析的文档。

• 一个按时跟进的客户。

这些胜利会累积起来,它们降低成本、释放时间并建立对AI作为堆栈中可靠部分的信任。

并且达到那里不需要在提示工程上取得突破,也不需要押注下一个模型能够神奇地通用化,它需要好的工程师一直所做的事情:分解问题、构建可组合的系统并以可测试和可观察的方式将组件连接在一起。

事件驱动的多智能体系统不是灵丹妙药,它们只是一种以结构化方式与不完美工具合作的实用架构,它们让你隔离需要智能的地方,限制不需要智能的地方,并构建即使单个部分不可预测时也能表现可预测的系统。

这不是关于追逐前沿,这是关于将基本软件工程应用于一类新的问题。

企业网D1net(www.d1net.com):

国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号