D1net阅闻:OpenAI宣布推出AI Agent评测基准PaperBench

责任编辑:cres

2025-04-03 10:18:34

来源:企业网D1Net

原创

OpenAI宣布推出AI Agent评测基准PaperBench;微软CT 预判:未来一年AI智能体记忆能力将有重大突破;软银集团拟融资165亿美元打造“星际之门”AI项目……

OpenAI宣布推出AI Agent评测基准PaperBench

OpenAI当地时间4月2日宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库并成功执行实验。据介绍,在PaperBench上测试多个前沿模型后发现,表现最佳的智能体Claude 3.5 Sonnet(新版)结合开源框架,平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集,发现上述模型表现尚未超越人类基线。

微软CTO预判:未来一年AI智能体记忆能力将有重大突破

当地时间 3 月 31 日播出的一档 Twenty Minute VC 播客节目中,微软 CTO 凯文・斯科特预言,“未来一年,AI 智能体(AI agents)最大的缺陷 —— 记忆能力将实现重大突破,它与人类的交互模式将发生显著变化。”

软银集团拟融资165亿美元打造“星际之门”AI项目

据报道,日本科技公司软银集团正寻求筹集高达165亿美元资金,用于建设代号为“星际之门”(Stargate)的下一代人工智能超级计算项目。软银集团的165亿美元融资贷款,重点将用于支持其在美国市场的人工智能领域布局。这将成为该公司继ARM上市后最大规模的融资行动之一,标志着孙正义在生成式AI赛道的新一轮豪赌。

Gartner:2025年全球GenAI支出将达到6440亿美元

Gartner预测,2025年全球GenAI支出将达到6440亿美元,较2024年增长76.4%。Gartner杰出研究副总裁John-David Lovelock表示:“初始概念验证(POC)工作的高失败率以及对当前GenAI成果的不满,导致人们对GenAI能力的期望下降。尽管如此,基础模型提供商每年仍投入数十亿美元,提升GenAI模型的规模、性能和可靠性。这一矛盾将贯穿于2025和2026年。”

智元机器人与Physical Intelligence在具身智能领域达成合作

4月2日,智元机器人宣布与国际顶尖具身智能公司Physical Intelligence(Pi)携手,双方将围绕动态环境下的长周期复杂任务,在具身智能领域展开深度技术合作。近期正式加入智元的罗剑岚博士将全面领导智元具身智能研究中心,同时推进双方的深度合作。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号