所谓"廉价"的开源AI模型 正在吞噬你的算力预算

责任编辑:cres

作者:Michae

2025-08-18 10:55:26

来源:企业网D1Net

原创

研究发现,开放权重模型使用的token数量是OpenAI和Anthropic等闭源模型的1.5到4倍,对于简单的知识问答,差距会大幅扩大,某些开源模型使用的token数量最多可达闭源模型的10倍。

一项全新的综合研究表明,在执行相同任务时,开源AI模型比闭源竞争对手消耗的计算资源要多得多,这可能会削弱其成本优势,并重塑企业评估AI部署策略的方式。

该研究由AI公司Nous Research开展,发现开放权重模型使用的token(AI计算的基本单位)数量是OpenAI和Anthropic等闭源模型的1.5到4倍,对于简单的知识问答,差距会大幅扩大,某些开源模型使用的token数量最多可达闭源模型的10倍。

研究人员在周三发布的报告中写道:“开放权重模型使用的token数量是闭源模型的1.5至4倍(对于简单的知识问答,这一差距可达10倍),因此尽管每个token的成本较低,但每次查询的成本有时反而更高。”

这些发现对AI行业的一个普遍假设提出了挑战,即开源模型比专有替代方案具有明显的经济优势,虽然开源模型的每个token运行成本通常较低,但研究表明,如果解决特定问题需要更多token,那么这一优势很容易被抵消。

AI的真正成本:为何“更便宜”的模型可能超出你的预算

该研究对19种不同的AI模型进行了评估,任务分为三类:基础知识问答、数学问题和逻辑谜题。研究团队测量了“token效率”,即模型相对于解决方案复杂度所使用的计算单元数量,尽管这一指标对成本影响重大,但此前很少得到系统性研究。

研究人员指出:“出于多种实际原因,token效率是一个关键指标。虽然托管开放权重模型的成本可能较低,但如果解决特定问题需要更多token,那么这一成本优势很容易被抵消。”

对于使用扩展“思维链”来解决复杂问题的大型推理模型(LRM),这种低效性尤为明显,这些模型旨在逐步思考问题,可能会在思考本应只需极少量计算的简单问题时消耗数千个token。

对于“澳大利亚的首都是哪里?”等基础知识问题,研究发现推理模型会“耗费数百个token来思考本可单字回答的简单知识问题”。

哪些AI模型真正物有所值

该研究揭示了不同模型供应商之间的显著差异。OpenAI的模型,特别是其o4-mini和新发布的开源gpt-oss变体,在数学问题上展现出了卓越的token效率。研究发现,OpenAI的模型“在解决数学问题时token效率极高”,使用的token数量比其他商业模型少三倍。

在开源选项中,英伟达的llama-3.3-nemotron-super-49b-v1成为“所有领域中token效率最高的开放权重模型”,而Mistral等公司的新模型则“token使用量异常高”,成为例外。

效率差距因任务类型而异。虽然开源模型在解决数学和逻辑问题时使用的token数量大约是闭源模型的两倍,但对于本不需要高效推理的简单知识问答,差距则进一步拉大。

企业领导者需要了解的AI计算成本

这些发现对企业采用AI具有直接影响,因为计算成本会随着使用量的增加而迅速上升。企业在评估AI模型时,往往关注准确度基准和每个token的价格,但可能会忽视实际任务所需的总计算量。

研究人员在分析总推理成本时发现:“闭源模型更好的token效率往往能弥补其较高的API定价。”

该研究还揭示,闭源模型供应商似乎在积极优化效率。“闭源模型经过迭代优化,减少了推理成本所需的token数量”,而开源模型“新版本的token使用量有所增加,这可能反映了其更注重提升推理性能”。

研究人员如何破解AI效率测量难题

研究团队在衡量不同模型架构的效率时面临独特挑战。许多闭源模型不公开其原始推理过程,而是提供内部计算的压缩摘要,以防止竞争对手模仿其技术。

为解决这一问题,研究人员使用完成token(即每次查询所计费的总计算单元)作为推理工作量的替代指标,他们发现,“大多数最新的闭源模型不会共享其原始推理轨迹”,而是“使用较小的语言模型将思维链转录为摘要或压缩表示”。

该研究的方法包括使用修改后的知名问题进行测试,以尽量减少记忆解决方案的影响,例如改变美国数学邀请赛(AIME)数学竞赛问题中的变量。

AI效率的未来:接下来会发生什么

研究人员建议,在未来的模型开发中,token效率应与准确度一起成为主要的优化目标。他们写道:“更密集的思维链(CoT)也将允许更高效地利用上下文,并可能在对抗挑战性推理任务期间的上下文退化。”

OpenAI开源的gpt-oss模型展示了“可自由访问的思维链”的先进效率,可作为优化其他开源模型的参考点。

完整的研究数据集和评估代码可在GitHub上获取,其他研究人员可借此验证并扩展这些发现。随着AI行业竞相提升推理能力,这项研究表明,真正的竞争可能不在于谁能打造最聪明的AI,而在于谁能打造最高效的AI。

毕竟,在每个token都至关重要的世界里,最浪费的模型无论思考能力有多强,都可能因价格过高而被市场淘汰。

企业网D1net(www.d1net.com):

国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

AI

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号