D1net阅闻：OpenAI宣布推出AI Agent评测基准PaperBench

责任编辑：cres

2025-04-03 10:18:34

来源：企业网D1Net

原创

OpenAI宣布推出AI Agent评测基准PaperBench；微软CT 预判：未来一年AI智能体记忆能力将有重大突破；软银集团拟融资165亿美元打造“星际之门”AI项目……

OpenAI宣布推出AI Agent评测基准PaperBench

OpenAI当地时间4月2日宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文，包括理解论文贡献、开发代码库并成功执行实验。据介绍，在PaperBench上测试多个前沿模型后发现，表现最佳的智能体Claude 3.5 Sonnet(新版)结合开源框架，平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集，发现上述模型表现尚未超越人类基线。

微软CTO预判：未来一年AI智能体记忆能力将有重大突破

当地时间 3 月 31 日播出的一档 Twenty Minute VC 播客节目中，微软 CTO 凯文・斯科特预言，“未来一年，AI 智能体(AI agents)最大的缺陷 —— 记忆能力将实现重大突破，它与人类的交互模式将发生显著变化。”

软银集团拟融资165亿美元打造“星际之门”AI项目

据报道，日本科技公司软银集团正寻求筹集高达165亿美元资金，用于建设代号为“星际之门”(Stargate)的下一代人工智能超级计算项目。软银集团的165亿美元融资贷款，重点将用于支持其在美国市场的人工智能领域布局。这将成为该公司继ARM上市后最大规模的融资行动之一，标志着孙正义在生成式AI赛道的新一轮豪赌。

Gartner：2025年全球GenAI支出将达到6440亿美元

Gartner预测，2025年全球GenAI支出将达到6440亿美元，较2024年增长76.4%。Gartner杰出研究副总裁John-David Lovelock表示：“初始概念验证(POC)工作的高失败率以及对当前GenAI成果的不满，导致人们对GenAI能力的期望下降。尽管如此，基础模型提供商每年仍投入数十亿美元，提升GenAI模型的规模、性能和可靠性。这一矛盾将贯穿于2025和2026年。”

智元机器人与Physical Intelligence在具身智能领域达成合作

4月2日，智元机器人宣布与国际顶尖具身智能公司Physical Intelligence(Pi)携手，双方将围绕动态环境下的长周期复杂任务，在具身智能领域展开深度技术合作。近期正式加入智元的罗剑岚博士将全面领导智元具身智能研究中心，同时推进双方的深度合作。

AI 智能体