模型极简主义:为企业节省数百万的新型AI策略

责任编辑:cres

作者:Emilia David

2025-06-30 11:07:30

来源:企业网D1Net

原创

小型语言模型和模型蒸馏技术让企业能够选择快速且准确、适用于特定任务的模型,企业可以为特定用例选择更小的模型,从而降低运行AI应用的成本,并可能获得更高的投资回报率。

大型语言模型(LLM)的出现使企业更容易构想出它们可以承担的项目类型,从而推动了试点项目向部署阶段的迅猛发展。

然而,随着这些项目的推进,企业意识到之前使用的大型语言模型不仅笨重,而且成本高昂。

于是,小型语言模型和模型蒸馏技术应运而生。像Google的Gemma系列、Microsoft的Phi以及Mistral的Small 3.1等模型,让企业能够选择快速且准确、适用于特定任务的模型。企业可以为特定用例选择更小的模型,从而降低运行AI应用的成本,并可能获得更高的投资回报率。

LinkedIn的杰出工程师Karthik Ramgopal告诉记者,公司选择小型模型有几个原因。“小型模型需要更少的计算资源、内存,并且推理速度更快,这直接转化为更低的基础设施运营支出(OPEX)和资本支出(CAPEX),考虑到GPU成本、可用性和电力需求,”Ramgopal说,“特定任务的模型范围更窄,使得它们的行为随时间推移更加一致且易于维护,而无需复杂的提示工程。”

模型开发者对小型模型的定价也相应调整。OpenAI的o4-mini输入每百万token收费1.1美元,输出每百万token收费4.4美元,而完整版o3的输入和输出费用则分别为10美元和40美元。

如今,企业拥有更多的小型模型、特定任务模型和蒸馏模型可供选择。如今,大多数旗舰模型都提供多种尺寸选择。例如,Anthropic的Claude系列模型包括最大的Claude Opus、全能的Claude Sonnet和最小的Claude Haiku。这些模型足够紧凑,可以在便携式设备上运行,如笔记本电脑或手机。

投资回报率问题

然而,在讨论投资回报率时,问题总是:ROI究竟是什么样的?它应该是对所发生成本的回报,还是最终意味着节省时间从而在线下节省资金的时间节省?专家表示,ROI很难判断,因为有些公司认为通过减少任务耗时就已经实现了ROI,而其他公司则等待实际节省的资金或带来的更多业务来说明AI投资是否真正有效。

通常,企业通过Cognizant首席技术官Ravi Naarla在一篇文章中描述的简单公式来计算ROI:ROI =(收益-成本)/成本。但对于AI项目,收益并不立即显现。他建议企业明确预期达到的收益,基于历史数据进行估算,对AI的整体成本(包括招聘、实施和维护)保持现实态度,并理解这是一项长期投资。

专家认为,小型模型降低了实施和维护成本,特别是在对模型进行微调以提供更多企业上下文时。Aible的创始人兼首席执行官Arijit Sengupta表示,人们如何为模型提供上下文决定了他们能节省多少成本。对于需要额外上下文提示(如冗长复杂的指令)的用户来说,这可能会导致更高的token成本。

“你总得通过某种方式给模型提供上下文,天下没有免费的午餐,但对于大型模型,这通常是通过提示来完成的,”他说,“将微调和后训练视为为模型提供上下文的另一种方式。我可能会产生100美元的后训练成本,但这并不是天文数字。”

Sengupta表示,他们仅通过后训练就看到了约100倍的成本降低,经常将模型使用成本从数百万美元降至约3万美元。他指出,这个数字包括软件运营费用和模型及向量数据库的持续成本。

“就维护成本而言,如果手动使用人类专家进行,可能会很昂贵,因为小型模型需要后训练才能产生与大型模型相当的结果。”他说。

Aible进行的实验表明,针对特定任务的微调模型在某些用例中表现良好,就像大型语言模型一样,这使得部署多个针对特定用例的模型比使用一个大型模型来完成所有任务更具成本效益。

该公司比较了后训练版本的Llama-3.3-70B-Instruct与同一模型的80亿参数较小版本。经过11.30美元后训练的700亿参数模型在自动化评估中准确率为84%,在手动评估中为92%。而经过4.58美元微调的80亿参数模型在手动评估中准确率为82%,适用于更次要、更具体的用例。

适合用途的成本因素

正确调整模型尺寸并不一定要以牺牲性能为代价。如今,企业明白模型选择不仅仅意味着在GPT-4o或Llama-3.1之间选择,而是要知道某些用例,如摘要生成或代码生成,更适合使用小型模型。

联系中心AI产品提供商Cresta的首席技术官Daniel Hoske表示,从大型语言模型开始开发能更好地预测潜在成本节省。“你应该从最大的模型开始,看看你所构想的是否可行,因为如果最大的模型都不行,那更小的模型也不太可能。”他说。

Ramgopal表示LinkedIn也遵循类似的模式,因为原型设计是这些问题开始显现的唯一途径。“我们对于代理用例的典型方法始于通用大型语言模型,因为它们的广泛泛化能力使我们能够快速原型设计、验证假设并评估产品市场契合度,”LinkedIn的Ramgopal说,“随着产品成熟,当我们遇到质量、成本或延迟方面的限制时,我们会转向更定制化的解决方案。”

在实验阶段,企业可以确定他们从AI应用中最看重什么。弄清楚这一点后,开发者可以更好地规划他们想要节省的内容,并选择最适合其目的和预算的模型尺寸。

专家警告说,虽然为正在开发的内容使用最合适的模型很重要,但高参数的大型语言模型总是会更昂贵。大型模型总是需要大量的计算能力。

然而,过度使用小型和特定任务模型也会带来问题。AWS的数据和AI GTM副总裁Rahul Pathak在博客中表示,成本优化不仅仅来自于使用计算需求低的模型,而是来自于将模型与任务相匹配。小型模型可能没有足够大的上下文窗口来理解更复杂的指令,导致人类员工的工作量增加和成本上升。

Sengupta也警告说,一些蒸馏模型可能很脆弱,因此长期使用可能不会带来节省。

持续评估

无论模型大小如何,业内人士都强调了解决任何潜在问题或新用例的灵活性。因此,如果他们从大型模型开始,然后找到一个性能相似或更好且成本更低的小型模型,企业就不能对他们选择的模型过于固执。

品牌营销公司Mod Op的首席技术官兼创新主管Tessa Burg告诉记者,企业必须明白,他们现在构建的任何东西都将被更好的版本所取代。“我们一开始就抱着这样的心态:我们正在创建的工作流程和技术基础下的流程将发生变化。我们知道,无论我们使用什么模型,都将是模型中最差的版本。”

Burg表示,小型模型帮助她的公司和客户节省了研究和开发概念的时间。她说,节省的时间确实会随着时间的推移带来预算节省。她补充说,将高成本、高频次的用例分解出来使用轻量级模型是个好主意。

Sengupta指出,供应商现在正在使模型之间的自动切换变得更加容易,但他警告用户要找到也促进微调的平台,以避免产生额外成本。

企业网D1net(www.d1net.com):

国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

AI

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号