苹果的ToolSandbox揭示了严峻的现实:开源AI仍然落后于专有模型

责任编辑:cres

作者:Michael Nuñez

2024-08-13 10:49:43

来源:企业网D1Net

原创

苹果公司的研究团队发布了ToolSandbox,这是一个专为评估AI助手在现实世界中能力的全新基准测试工具。

苹果公司的研究人员发布了ToolSandbox,这是一个全新的基准测试工具,旨在比以往更全面地评估AI助手的实际能力,这项研究发表在arXiv上,解决了现有评估方法中对于使用外部工具完成任务的大型语言模型(LLMs)存在的关键缺陷。
 
ToolSandbox包括三个在其他基准测试中常常缺失的重要元素:状态化交互、对话能力和动态评估,该研究的主要作者Jiarui Lu解释道:“ToolSandbox包含状态化的工具执行、工具之间的隐含状态依赖性、支持策略内对话评估的内置用户模拟器以及动态评估策略。”
 
这一新基准测试旨在更接近真实世界的场景。例如,它可以测试AI助手是否理解需要先启用设备的蜂窝服务才能发送短信——这项任务要求AI能够推理系统的当前状态并进行适当的更改。
 
专有模型表现优于开源模型,但挑战依然存在
 
研究人员使用ToolSandbox对一系列AI模型进行了测试,结果显示专有模型和开源模型之间存在显著的性能差距。
 
这一发现对近期有关开源AI迅速赶超专有系统的报告提出了质疑。就在上个月,初创公司Galileo发布了一项基准测试,显示开源模型正在缩小与专有系统的差距,而Meta和Mistral则宣布推出了他们声称可以与顶级专有系统媲美的开源模型。
 
然而,苹果的研究发现,即使是最先进的AI助手在处理涉及状态依赖、标准化(将用户输入转换为标准格式)以及信息不足的复杂任务时也表现不佳。
 
研究论文的作者指出:“我们展示了开源和专有模型之间存在显著的性能差距,ToolSandbox定义的复杂任务如状态依赖、标准化和信息不足,即使是最强大的SOTA LLMs也难以应对,为工具使用的LLM能力提供了全新的见解。”
 
有趣的是,研究发现,在某些情况下,较大的模型在涉及状态依赖的任务中表现反而不如较小的模型,这表明,模型的规模并不总是与复杂的现实任务中的更好表现相关联。
 
规模不是一切:AI性能的复杂性
 
ToolSandbox的引入可能对AI助手的发展和评估产生深远影响。通过提供更现实的测试环境,它或许能够帮助研究人员识别并解决当前AI系统中的关键限制,最终为用户带来更强大、更可靠的AI助手。
 
随着AI继续深入融入我们的日常生活,像ToolSandbox这样的基准测试将发挥关键作用,确保这些系统能够应对现实世界互动的复杂性和细微差别。
 
研究团队已宣布,ToolSandbox评估框架即将发布在Github上,邀请更广泛的AI社区在此基础上进一步构建和改进这项重要工作。
 
尽管开源AI的最新发展激发了人们对尖端AI工具普及的期待,但苹果的研究提醒我们,在创建能够处理复杂现实任务的AI系统方面仍然存在重大挑战。
 
随着这一领域的快速发展,像ToolSandbox这样严格的基准测试将对于区分炒作与现实至关重要,并引导真正有能力的AI助手的发展。
 
企业网D1net(www.d1net.com):
 
国内主流的to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。
 
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号