然而,越来越多的人担心,这些讨论大多停留在口头上,充满炒作,却缺乏实质性支撑。
例如,Gartner指出,企业正处于“期望膨胀的顶峰”,这是在失望感出现之前的一段时期,因为供应商尚未用真实的、可落地的案例支撑其承诺。
当然,这并不意味着企业没有在尝试智能体并获得早期投资回报,全球企业如Block和GlaxoSmithKline(GSK)正分别在金融服务和药物研发中探索概念验证。
Block负责AI和数据平台的技术主管Brad Axen在本月由SAP赞助的AI Impact活动上对VentureBeat CEO兼主编Matt Marshall表示:“多智能体绝对是未来趋势,但我们正在探索一种既符合人类使用习惯又方便的实现方式。”
与单一同事合作,而非一群机器人
Block是Square、Cash App和Afterpay的母公司,拥有1万名员工,公司目前处于全面探索阶段。今年1月,Block推出了一个可互操作的智能体框架,代号“Goose”。
Axen解释称,Goose最初用于软件工程任务,目前已被4000名工程师使用,且采用率每月翻倍,该平台可以生成约90%的代码,通过自动化代码生成、调试和信息筛选,每周为工程师节省约10小时工作量。
除了编写代码,Goose还充当“数字队友”,压缩Slack和电子邮件信息流,整合公司工具,并在任务需要更高吞吐量或更大范围时生成新智能体。
Axen强调,Block致力于打造一个界面,让用户感受像在与单一同事协作,而不是与一群机器人互动。“我们希望用户感受到自己只在与一个人合作,但这个人会在多个场景和方式中代表你行动。”
Goose在开发环境中实时运行,根据大语言模型(LLM)输出进行搜索、导航和代码编写,同时还能自主读取和写入文件、运行代码和测试、优化输出以及安装依赖。
基本上,任何人都可以在自己偏好的LLM上构建和操作系统,而Goose可被视为应用层,它内置桌面应用和命令行界面,开发者也可以构建自定义UI,该平台基于Anthropic的Model Context Protocol(MCP)构建,这是一套日益流行的开源标准化API和端点,用于将智能体连接到数据存储、工具和开发环境。
Goose已以开源Apache License 2.0(ASL2)发布,意味着任何人都可以免费使用、修改和分发,包括商业用途。用户可以访问Databricks数据库并执行SQL查询,无需技术背景。
Axen解释道:“我们希望建立一个流程,让用户无需成为专家也能从系统中获取价值。”
例如,在编程中,用户可以用自然语言描述需求,框架将其转化为数千行代码供开发者阅读和筛选。Block在信息压缩任务中也看到了价值,例如Goose可以读取Slack、邮件及其他渠道信息,并为用户总结要点。在销售或营销中,智能体还能收集潜在客户相关信息并导入数据库。
智能体未充分利用,仍需人类专业知识
Axen指出,流程是最大瓶颈。你不能仅仅给员工一款工具就期望其自动发挥作用,智能体必须反映员工已在使用的流程。人类关注的不是技术架构,而是他们要完成的工作。
因此,构建者需要了解员工的实际需求,并设计出“尽可能贴合这些需求”的工具。随后可以将这些工具串联起来,解决越来越复杂的问题。
Axen说:“我认为我们远未充分利用智能体的能力。关键在于人和流程,因为我们无法完全跟上技术的发展。技术与机会之间存在巨大差距。”
当行业缩小这一差距时,人类专业知识是否还有空间?Axen表示,当然有。例如,在金融服务中,代码必须可靠、合规且安全,以保护公司和用户,因此仍需人眼审核。
他说:“在公司运营的每个环节,我们依然需要人类专家。它不改变个体的专业意义,只是提供了一种新的表达工具。”
Block构建在开源基础上
Axen指出,人机界面是智能体最难实现的部分,目标是让界面简单易用,同时AI在后台主动执行任务。
他认为,如果更多行业玩家采用类似MCP的标准,将会更有帮助。例如:“我希望Google能为Gmail提供公开的MCP,这会大大简化我的工作。”
谈及Block对开源的承诺,他表示:“我们的基础一直是开源的。”并补充称,过去一年公司一直在“更新”对开源技术的投资。“在快速发展的领域,我们希望建立开源治理,使工具能够跟上新模型和新产品的步伐。”
GSK在药物研发中应用多智能体的经验
GSK是一家领先的制药企业,专注疫苗、传染病及肿瘤研究。公司开始应用多智能体架构,加速药物研发。
GSK的AI和机器学习全球负责人、SVP Kim Branson表示,智能体正在改变公司的产品开发,“绝对是业务核心”。
Branson解释称,GSK科学家将领域特定LLM与本体(表示概念及其属性和关系的类别)、工具链及严格测试框架结合使用。
这帮助他们查询庞大的科学数据集、规划实验(即使没有基准数据),并整合基因组学、蛋白质组学和临床数据的证据。智能体可以提出假设、验证数据关联并压缩研究周期。
Branson指出,科学发现已取得重大进展:测序时间缩短,蛋白质组学研究加快,但随着数据量不断增加(尤其是通过设备和可穿戴设备收集),发现过程变得愈发复杂。他表示:“我们对人体的连续脉搏数据比人类历史上任何时候都多。”
人类几乎无法分析全部数据,因此GSK希望利用AI加速迭代。
然而,在制药行业,AI使用也充满挑战,因为在没有大型临床实验的情况下往往不存在“基准真相”,更多是基于假设,科学家通过探索证据提出可能的解决方案。
Branson指出:“当引入智能体时,你会发现大多数人内部甚至没有标准方法,这种差异并非坏事,但有时会引发新的问题。”
他打趣道:“我们不总是有绝对真相可依,否则我的工作会容易很多。”
关键在于找到正确的目标或设计潜在生物标志物/假设证据。例如:在特定条件下,哪条途径最适合卵巢癌患者?
要让AI理解这种推理,需要使用本体并提出诸如‘如果这是真的,X意味着什么?’的问题。领域特定智能体可以从大型内部数据集中整合相关证据。
Branson解释,GSK从零构建了基于Cerebras的表观基因组语言模型,用于推理和训练。“我们为应用构建非常特定的模型,是其他公司没有的。”
推理速度非常重要,无论是与模型的交互还是自主深度研究,GSK根据最终目标使用不同工具,但大上下文窗口并非万能,数据过滤至关重要。“不能随意堆叠上下文,不能把所有数据丢进去就指望LLM自己搞定。”
持续测试至关重要
GSK在智能体系统中投入大量测试,优先考虑确定性和可靠性,常同时运行多个智能体交叉验证结果。
Branson回忆,团队初期构建SQL智能体时,运行“1万次”,却莫名其妙地出现一次数据“造假”。
“我们再也没遇到过,但那一次发生时,我们甚至不明白为什么会在该LLM上出现。”
因此,团队通常会并行运行多个副本和模型,同时强制执行工具调用和约束。例如,两套LLM执行完全相同的序列,GSK科学家进行交叉验证。
团队专注于主动学习循环,并建立内部基准,因为公开基准往往“相当学术化,不反映我们的实际工作”。
例如,他们会生成多个生物学问题,评分预期的黄金标准,然后用LLM进行验证并排名。
Branson说:“我们特别关注智能体出错或出现愚蠢行为的情况,因为那正是学习新知识的机会,我们会让人类在关键环节使用专业判断。”
企业网D1net(www.d1net.com):
国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。