该研究由AI公司Nous Research开展,发现开放权重模型使用的token(AI计算的基本单位)数量是OpenAI和Anthropic等闭源模型的1.5到4倍,对于简单的知识问答,差距会大幅扩大,某些开源模型使用的token数量最多可达闭源模型的10倍。
研究人员在周三发布的报告中写道:“开放权重模型使用的token数量是闭源模型的1.5至4倍(对于简单的知识问答,这一差距可达10倍),因此尽管每个token的成本较低,但每次查询的成本有时反而更高。”
这些发现对AI行业的一个普遍假设提出了挑战,即开源模型比专有替代方案具有明显的经济优势,虽然开源模型的每个token运行成本通常较低,但研究表明,如果解决特定问题需要更多token,那么这一优势很容易被抵消。
AI的真正成本:为何“更便宜”的模型可能超出你的预算
该研究对19种不同的AI模型进行了评估,任务分为三类:基础知识问答、数学问题和逻辑谜题。研究团队测量了“token效率”,即模型相对于解决方案复杂度所使用的计算单元数量,尽管这一指标对成本影响重大,但此前很少得到系统性研究。
研究人员指出:“出于多种实际原因,token效率是一个关键指标。虽然托管开放权重模型的成本可能较低,但如果解决特定问题需要更多token,那么这一成本优势很容易被抵消。”
对于使用扩展“思维链”来解决复杂问题的大型推理模型(LRM),这种低效性尤为明显,这些模型旨在逐步思考问题,可能会在思考本应只需极少量计算的简单问题时消耗数千个token。
对于“澳大利亚的首都是哪里?”等基础知识问题,研究发现推理模型会“耗费数百个token来思考本可单字回答的简单知识问题”。
哪些AI模型真正物有所值
该研究揭示了不同模型供应商之间的显著差异。OpenAI的模型,特别是其o4-mini和新发布的开源gpt-oss变体,在数学问题上展现出了卓越的token效率。研究发现,OpenAI的模型“在解决数学问题时token效率极高”,使用的token数量比其他商业模型少三倍。
在开源选项中,英伟达的llama-3.3-nemotron-super-49b-v1成为“所有领域中token效率最高的开放权重模型”,而Mistral等公司的新模型则“token使用量异常高”,成为例外。
效率差距因任务类型而异。虽然开源模型在解决数学和逻辑问题时使用的token数量大约是闭源模型的两倍,但对于本不需要高效推理的简单知识问答,差距则进一步拉大。
企业领导者需要了解的AI计算成本
这些发现对企业采用AI具有直接影响,因为计算成本会随着使用量的增加而迅速上升。企业在评估AI模型时,往往关注准确度基准和每个token的价格,但可能会忽视实际任务所需的总计算量。
研究人员在分析总推理成本时发现:“闭源模型更好的token效率往往能弥补其较高的API定价。”
该研究还揭示,闭源模型供应商似乎在积极优化效率。“闭源模型经过迭代优化,减少了推理成本所需的token数量”,而开源模型“新版本的token使用量有所增加,这可能反映了其更注重提升推理性能”。
研究人员如何破解AI效率测量难题
研究团队在衡量不同模型架构的效率时面临独特挑战。许多闭源模型不公开其原始推理过程,而是提供内部计算的压缩摘要,以防止竞争对手模仿其技术。
为解决这一问题,研究人员使用完成token(即每次查询所计费的总计算单元)作为推理工作量的替代指标,他们发现,“大多数最新的闭源模型不会共享其原始推理轨迹”,而是“使用较小的语言模型将思维链转录为摘要或压缩表示”。
该研究的方法包括使用修改后的知名问题进行测试,以尽量减少记忆解决方案的影响,例如改变美国数学邀请赛(AIME)数学竞赛问题中的变量。
AI效率的未来:接下来会发生什么
研究人员建议,在未来的模型开发中,token效率应与准确度一起成为主要的优化目标。他们写道:“更密集的思维链(CoT)也将允许更高效地利用上下文,并可能在对抗挑战性推理任务期间的上下文退化。”
OpenAI开源的gpt-oss模型展示了“可自由访问的思维链”的先进效率,可作为优化其他开源模型的参考点。
完整的研究数据集和评估代码可在GitHub上获取,其他研究人员可借此验证并扩展这些发现。随着AI行业竞相提升推理能力,这项研究表明,真正的竞争可能不在于谁能打造最聪明的AI,而在于谁能打造最高效的AI。
毕竟,在每个token都至关重要的世界里,最浪费的模型无论思考能力有多强,都可能因价格过高而被市场淘汰。
企业网D1net(www.d1net.com):
国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。