周三,一家初露锋芒的初创公司Deductive AI宣称,通过将强化学习——这一为游戏AI系统提供动力的技术——应用于混乱且高风险的生产软件事件领域,公司已找到解决方案。该公司宣布,已获得由CRV领投,Databricks Ventures、Thomvest Ventures和PrimeSet参投的750万美元种子轮融资,旨在将其所谓的“AI网站可靠性工程师(SRE)智能体”推向市场,这些智能体能够以机器速度诊断并协助修复软件故障。
这一提议引起了工程组织内部日益增长的挫败感的共鸣:现代可观测性工具虽能显示系统出现故障,但很少能解释故障原因。当生产系统在凌晨3点发生故障时,工程师们仍需花费数小时进行人工排查,交叉比对日志、指标、部署历史和代码变更,涉及数十个相互关联的服务,以确定根本原因。
Deductive的联合创始人兼CTO Sameer Agarwal在接受采访时表示:“现代基础设施的复杂性和相互依赖性意味着,调查故障或事件的根本原因,就像是在一个足球场大小的干草堆里找针,而且这个干草堆由数百万根其他针组成,还在不断重新排列,并且正在燃烧——而每多花一秒寻找,就意味着收入损失。”
Deductive的系统构建了公司所谓的“知识图谱”,该图谱映射了代码库、遥测数据、工程讨论和内部文档之间的关系。当事件发生时,多个智能体协同工作,形成假设,对照实时系统证据进行测试,并最终确定根本原因——这一过程模仿了经验丰富的网站可靠性工程师的调查工作流程,但能在数分钟内完成,而非数小时。
该技术已在全球一些要求最为严苛的生产环境中展现出显著影响。DoorDash的广告平台运行着必须在100毫秒内完成的实时拍卖,该平台已将Deductive集成到其事件响应工作流程中。公司设定了一个雄心勃勃的目标,即到2026年,在10分钟内解决生产事件。
DoorDash工程高级总监Shahrooz Ansari在接受采访时表示:“我们的广告平台运行速度极快,手动、缓慢的调查已不再可行。每一分钟的停机时间都直接影响公司收入。Deductive已成为我们团队的重要延伸,能够迅速综合数十个服务的信号,并在数分钟内提供关键见解。”
据Ansari称,DoorDash估计,在过去几个月里,Deductive已为大约100起生产事件找到了根本原因,相当于每年节省了1000多小时的工程生产力,并对收入产生了“数百万美元”的影响。在位置智能公司Foursquare,Deductive将诊断Apache Spark作业故障的时间缩短了90%——将原本需要数小时或数天的过程缩短至不到10分钟——同时每年节省了超过27.5万美元。
AI生成代码为何引发调试危机
Deductive的推出时机反映了软件开发领域日益紧张的局势:AI编码助手使工程师生成代码的速度比以往任何时候都快,但由此产生的软件往往更难理解和维护。
“氛围编码”(Vibe coding)一词由AI研究员Andrej Karpathy推广,指的是通过AI助手使用自然语言提示生成代码。虽然这些工具加速了开发过程,但它们可能引入Agarwal所描述的“冗余、架构边界的破坏、假设或被忽视的设计模式”,这些问题会随时间累积。
Agarwal告诉记者:“大多数AI生成的代码仍然会引入冗余、破坏架构边界、做出假设或忽视既定的设计模式。在许多方面,我们现在需要AI来帮助清理AI自己造成的混乱。”
工程师们花费大约一半时间进行调试的说法并非夸张。计算机协会报告称,开发人员花费35%至50%的时间来验证和调试软件。最近,Harness的《2025年软件交付状况报告》发现,67%的开发人员花费更多时间调试AI生成的代码。
Deductive的联合创始人兼CEO Rakesh Kothari表示:“我们看到世界级的工程师花费一半的时间进行调试,而非构建产品。随着氛围编码以我们从未见过的速度生成新代码,这个问题只会变得更糟。”
Deductive的智能体如何调查生产故障
Deductive的技术方法与现有可观测性平台(如Datadog或New Relic)新增的AI功能有显著不同。大多数这些系统使用大型语言模型来总结数据或识别相关性,但它们缺乏Agarwal所说的“代码感知推理”——即不仅理解系统出现故障,还能理解代码为何如此表现的能力。
Agarwal解释道:“大多数企业在不同团队和服务中使用多个可观测性工具,因此没有供应商能够全面了解系统的行为、故障和恢复情况,也无法将这些与定义系统行为的代码理解相结合。这些是解决软件事件的关键要素,而Deductive正是填补了这一空白。”
该系统通过只读API访问连接到现有基础设施,包括可观测性平台、代码仓库、事件管理工具和聊天系统,然后,它不断构建和更新其知识图谱,映射服务之间的依赖关系并跟踪部署历史。
当警报触发时,Deductive会启动公司所描述的多智能体调查。不同的智能体专注于问题的不同方面:一个可能分析最近的代码变更,另一个检查跟踪数据,而第三个则将事件时间与最近的部署相关联。智能体们共享发现并迭代地完善其假设。
与基于规则的自动化的关键区别在于Deductive使用强化学习。系统从每次事件中学习哪些调查步骤导致了正确的诊断,哪些是死胡同。当工程师提供反馈时,系统会将该信号纳入其学习模型。
Agarwal说:“每次它观察到一次调查,就会学习哪些步骤、数据源和决策导致了正确的结果。它学会如何思考问题,而不仅仅是指出问题。”
在DoorDash,一个API的最近延迟峰值最初看似是一个孤立的服务问题。Deductive的调查揭示,根本原因实际上是下游机器学习平台在部署过程中出现的超时错误。系统通过分析多个服务的日志量、跟踪和部署元数据来连接这些点。
Ansari说:“如果没有Deductive,我们的团队将不得不手动关联所有日志、跟踪和部署历史中的延迟峰值。Deductive不仅能够解释发生了什么变化,还能解释这些变化如何以及为何影响了生产行为。”
公司目前仍让人参与其中
尽管从理论上讲,Deductive的技术可以直接向生产系统推送修复程序,但公司有意选择让人参与其中——至少目前如此。
Agarwal说:“虽然我们的系统能够实现更深层次的自动化,并可以向生产系统推送修复程序,但目前,我们建议工程师审查、验证并应用我们推荐的精确修复和缓解措施。我们认为,让人参与其中对于建立信任、保持透明度和确保操作安全至关重要。”
然而,他承认,“随着时间的推移,我们认为更深层次的自动化将会到来,而人参与其中的方式也将演变。”
Databricks和ThoughtSpot的资深人士押注推理而非可观测性
创始团队在构建硅谷一些最成功的数据基础设施平台方面拥有深厚专业知识。Agarwal在加州大学伯克利分校获得博士学位,他创建了BlinkDB,这是一个有影响力的近似查询处理系统。他是Databricks的首批工程师之一,帮助构建了Apache Spark。Kothari是ThoughtSpot的早期工程师,领导了专注于分布式查询处理和大规模系统优化的团队。
投资者联合体现了技术可信度和市场机遇。除了CRV的Max Gazor外,本轮融资还包括Databricks和Anyscale创始人Ion Stoica、Nutanix和ThoughtSpot创始人Ajeet Singh以及Lightstep创始人Ben Sigelman的参与。
Deductive将自己定位为与Datadog或PagerDuty等平台互补的层级,而非竞争关系。定价模式反映了这一点:Deductive不是根据数据量收费,而是根据调查的事件数量加上基础平台费用收费。
公司提供云托管和自托管两种部署选项,并强调不会在服务器上存储客户数据或使用这些数据为其他客户训练模型——鉴于代码和生产系统行为的专有性,这是一项关键保证。
凭借新获得的资金和在DoorDash、Foursquare和Kumo AI等公司的早期客户吸引力,Deductive计划扩大团队规模,并将系统的推理能力从被动事件分析深化到主动预防。近期愿景:帮助团队在问题发生前进行预测。
DoorDash的Ansari对这项技术的现状给出了务实评价:“以前需要手动且耗时的调查现在已实现自动化,使工程师能够将精力转向预防、业务影响和创新。”
在一个每一秒停机时间都意味着收入损失的行业,从救火到建设的转变越来越不像是一种奢侈,而更像是基本要求。
企业网D1net(www.d1net.com):
国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。






























































































京公网安备 11010502049343号