AI也会“做梦”了？Anthropic重磅发布：让智能体学会自我反省！

责任编辑：cres

作者：Michael

2026-05-08 15:10:00

来源：企业网D1Net

原创

Anthropic刚刚把AI智能体推向新阶段，最新发布的“Dreaming”功能，首次让AI能像人一样复盘经验、总结方法论，并在未来任务中持续自我优化，再配合“成果评分”和“多智能体协作”，AI开始从“会聊天”进化为真正能独立工作的数字员工。

周二，Anthropic在旧金山举办的第二届“Code with Claude”开发者大会上，发布了Claude托管智能体平台的一系列更新，推出了一项名为“dreaming(做梦)”的新功能，该功能可让AI智能体从自身过往会话中学习，并随时间推移不断改进——朝着企业期望的、能在承担生产工作负载前具备自我纠正和自我改进能力的AI系统迈出了一步。

该公司还将此前处于实验阶段的“成果(outcomes)”和“多智能体编排(multi-agent orchestration)”两项功能从研究预览版升级为公开测试版，使在Claude平台上进行开发的开发者能够广泛使用这些功能，这三项功能共同解决了Anthropic所说的规模化运行AI智能体面临的最棘手问题：保持准确性、助力学习，以及防止其在复杂的多步骤工作中成为瓶颈。

早期采用者已经报告了显著成效，法律AI公司Harvey在实施“dreaming”功能后，任务完成率提高了约6倍。医疗文件审核公司Wisedocs利用“成果”功能将文件审核时间缩短了50%。Netflix则使用“多智能体编排”功能同时处理来自数百个构建版本的日志。

这些发布正值Anthropic发展势头强劲之际，首席执行官Dario Amodei在大会炉边谈话中透露，公司增长速度甚至超过了其自身激进的内部预测。

2026年第一季度，Anthropic的营收和使用量年化增长率达到了Amodei所描述的80倍——远超公司计划的10倍年增长率。Claude平台的API调用量同比增长近70倍，使用Claude Code的开发者平均每周花在该工具上的时间达到20小时。

“我们曾为每年增长10倍的情况做了非常周全的规划，”Amodei说，“然而我们却看到了80倍的增长，这就是我们在算力方面遇到困难的原因。”

Anthropic的“dreaming”功能如何教会AI智能体从自身历史中学习

“dreaming”是这三项功能中最具创新性的，也是Anthropic最急于将其与传统记忆系统区分开来的功能。尽管公司今年早些时候推出了智能体记忆功能——允许Claude在单个会话内及跨会话保留偏好和上下文——但“dreaming”在更高层次的抽象层面发挥作用，它是一个计划性流程，会回顾智能体过往的会话和记忆存储，提取其中的模式，并对这些记忆进行整理，从而使智能体随时间推移不断改进，它能揭示出单个智能体会话无法自行发现的见解：重复出现的错误、多个智能体独立趋同的工作流程，以及智能体团队共享的偏好。

Anthropic负责研究产品管理的Alex Albert在大会采访中解释了这一概念，他将“dreaming”类比为组织中的人员在完成任务后形成技能的过程。“他们可能会与Claude一起完成一个工作流程，在该流程结束时，经过反复迭代和曲折探索后，他们希望记录下从A到B的路径，”Albert说，“‘dreaming’也发生了类似的事情——不是你通过与Claude合作的经验手动创建技能，而是模型在这样做，这样它就能为未来的会话提供相同的上下文。”

关键在于，“dreaming”不会修改底层模型权重。“我们不会通过‘dreaming’改变模型本身——它不会对权重等进行更新，”Albert说。相反，智能体会将所学内容以纯文本笔记和结构化的“操作手册”形式记录下来，供未来会话参考，使整个过程对人类来说可观察、可审计。当被问及智能体整合自身知识所涉及的信任问题时，Albert承认“确实需要一定程度的信任”，但他指出所有记忆都是可检查的，而且更智能的模型在管理这一过程方面正变得越来越出色。“它们正在学习为未来的自己撰写更好的笔记。”他说。

现场演示：AI智能体在无人指导的情况下隔夜改进

在主题演讲中，Anthropic团队通过一个名为“Lumara”的虚构航空航天初创公司案例，在舞台上现场演示了这三项功能，该公司需要自主在月球上降落无人机以进行资源开采。团队配置了一个多智能体系统，包含三个专业智能体：负责整体任务成功的指挥智能体、识别高质量着陆点的探测智能体，以及处理无人机安全飞行和着陆的导航智能体，并定义了成功标准，要求实现软着陆、地面清晰以及有足够返回地球的燃料储备。

对六个假设着陆点进行的首次模拟产生了强劲但不完美的结果，为了提高性能，演示者直接从Claude开发者控制台触发了“dreaming”会话。一夜之间，“dreaming”智能体回顾了所有过往模拟会话，并撰写了一份详细的下降操作手册——一套从多次任务运行模式中提取的综合启发式规则。第二天早上，当团队在记忆中存入基于“dreaming”得出的操作手册并运行新的模拟时，此前表现不佳的着陆点结果有了显著改善。

“我们所做的就是让Caitlin按下一个按钮，”Claude平台产品负责人Angela Jiang在谈到台上的同事时说，“全是‘dreaming’的功劳。”

此次演示展示了这三项功能在实际应用中如何协同工作，多智能体编排将复杂任务分配给具有独立上下文窗口的专业智能体。“成果”提供了评估标准，由一个独立的评分智能体根据该标准对每次运行进行评估，而“dreaming”则从这些运行中提取经验教训，以提高未来性能——形成了Anthropic所描述的持续改进循环，迭代之间无需人工干预。

Anthropic为何构建独立的“评分”智能体来检查Claude自身的工作

现已进入公开测试版的“成果”功能，为开发者提供了一种方式，可通过一套标准(如结构框架、展示标准、品牌声音或任何其他标准)来定义成功的样子，然后让智能体自主地向该标准迭代，从架构上使“成果”功能与众不同的是其关注点分离。当一个智能体完成工作后，一个独立的评分智能体会在自身独立的上下文窗口中，根据开发者定义的标准对输出进行评估。由于评分智能体在一个全新的上下文中运行，它不会受到工作智能体推理过程或会话中积累的偏见的影响。

当评分智能体发现输出与标准之间存在差距时，它会明确指出需要更改的内容，然后工作智能体再进行一次尝试，这一循环持续进行，直到满足标准要求——无需人工审查每次尝试。

Albert将Anthropic更广泛的验证策略描述为运用“更多的测试时算力，让更多模型更长时间地思考一个问题，以检查另一个模型的工作”，他承认让模型检查自身工作会引发合理质疑，但表示一个在全新上下文窗口中审查已完成工作的模型，其表现始终优于让同一个长时间运行的线程识别自身错误。“如果你把输出交给一个全新的Claude，问它‘你看到了哪些错误?’，你会获得更高的成功率，”他说，“在非常长的会话中，注意力确实会下降——他表示Anthropic正在积极努力在未来模型中解决这一局限性。”

这种方法与GitHub已采用的策略相呼应，GitHub的首席产品官Mario Rodriguez在大会另一场演讲中描述了Copilot如何使用与Claude模型类似的顾问模式——将一个更小、更便宜的模型作为执行者，与一个更大的模型作为导师配对。当较小模型遇到超出其能力的问题时，它会向较大模型寻求指导，然后继续自主执行。Rodriguez表示，这种方法以显著更低的成本提供了接近Opus级别的智能水平，并且GitHub在编码工作流程的三个特定节点插入了批判模型：在起草计划之后、复杂实现之后，以及编写测试之后但在运行测试之前。

并行AI智能体现在可以处理单个模型线程无法完成的复杂任务

第三个进入公开测试版的功能“多智能体编排”，允许一个主导智能体将大型任务分解为子任务，并将每个子任务委托给一个专业智能体——每个专业智能体都有自己的模型、系统提示、工具和独立的上下文窗口，该过程的每一步都可在Claude控制台中追踪，显示哪个智能体做了什么、按什么顺序做的以及为什么这样做。

这种设计为每个子智能体提供了隔离的上下文，Anthropic表示，这比让单个智能体试图在一个线程中处理所有复杂性能产生更好的结果。“每个子智能体都有自己独立的线程和上下文窗口，”主题演讲者解释道，“这是有意为之——我们发现，通过拆分工作然后合并结果，我们能获得更好的成果。”

Albert提出了自己关于何时使用多智能体架构、何时坚持使用单个线程的经验法则。“并行智能体更适合调查工作，”他说——即存在大量最终将被丢弃的上下文的情况。“如果你试图回答一个具体问题，你不需要来自未找到答案区域的所有搜索结果，你只需要答案。”他描述了为特定检索任务启动一次性子智能体，并将结果带回主线程的做法，他表示，模型本身将越来越多地决定何时进行并行处理。“未来，你无需真正关心它是一个智能体还是多智能体，或者发生了什么。你只需与Claude对话，它会自动部署合适的架构。”

Anthropic的更大赌注：缩小AI能力与实际应用之间的差距

这三项功能是Anthropic在整个大会期间所强调的更广泛平台推动的一部分，旨在缩小“AI能够做什么与它实际为人们所做的事情之间的差距”。Anthropic的首席产品官Ami Vora在开幕主题演讲中确立了这一主题，她指出，虽然模型能力正呈指数级增长，但大多数组织仍以线性路径采用AI。

Anthropic研究团队产品负责人Dianne Penn将公司衡量进展的标准描述为“任务时长”——即一个AI智能体在提高交付成果质量的同时能够自主工作多长时间。“去年的这个时候，模型只能工作几分钟，”她说，“现在，我们大多数人的智能体都能连续工作数小时。明天，我们将拥有主动的、始终在线的智能体，它们知道该做什么工作，而不会偏离主题。”

大会还宣布了几项旨在帮助开发者跟上步伐的基础设施消息，Anthropic表示，将把Pro、Max、Team和Enterprise计划的五小时速率限制提高一倍，并大幅提高API速率限制，该公司宣布与SpaceX建立合作伙伴关系，将利用其Colossus数据中心的全部容量来扩大算力供应——这是对Amodei所描述的需求紧缩的直接回应。

这三项功能都内置于Claude托管智能体中，该平台于4月8日以公开测试版形式推出，作为一个集成最佳实践(包括记忆、工具集成和操作处理)的专用框架。Anthropic表示，使用托管智能体的团队比那些从头开始构建自身智能体基础设施的团队部署速度快10倍。Albert用操作系统来比喻该平台：“使用托管智能体，你无需考虑设置周边系统的所有技术细节，”他说，“你就像在为Mac开发应用程序——你不想不得不重新实现macOS的每一个细节。”

“dreaming”“成果”和“多智能体编排”对企业AI的未来意味着什么

这些功能的竞争影响重大，随着OpenAI、谷歌等公司的AI智能体平台竞相争取开发者采用，Anthropic押注生产可靠性——而不仅仅是原始模型智能——将决定哪个平台能赢得企业预算。“dreaming”功能尤其开辟了新领域：虽然其他平台提供记忆和工具使用功能，但智能体系统回顾自身历史以提取可重用知识的想法，更接近企业将高风险工作委托给AI之前所需的持续改进系统。

大会展示了已经达到这种规模运营的公司，拉丁美洲最大的电子商务平台Mercado Libre有23,000名工程师使用Claude Code，在人工监督下审查了超过50万份拉取请求，并目标在今年第三季度实现90%的自主编码。Shopify不仅在工程团队，还在设计、产品和数据科学团队部署了Claude Code。

但Dario Amodei对这一切的发展方向阐述了最宏大的愿景，他描述了从单个智能体到多个智能体，再到整个组织智能的演进过程——从“一个房间里的一群聪明人”到他所谓的“数据中心里的一群天才”，他还重申了大约一年前做出的一个预测：2026年将出现第一家由一个人运营的十亿美元级公司。“这还没有完全实现，”他说，“但我们还有七个月时间。”

“dreaming”功能现已提供研究预览版。“成果”和“多智能体编排”功能处于公开测试版阶段，Claude平台上的所有开发者均可使用。七个月时间是否足够一位独资创始人建立一家十亿美元级公司仍是一个未知数——但周二之后，他们有了更多尝试的工具。

企业网D1net(www.d1net.com)：

国内头部to B IT门户，旗下运营国内头部的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。