本周发表的这项研究,介绍了一种名为EPICACHE的系统,该系统能让大型语言模型在扩展对话中保持上下文连贯性,同时使用的内存比现有方法少多达六倍。随着企业越来越多地部署AI系统用于客户服务、技术支持和其他需要持续对话的应用,这项技术可能至关重要。
研究人员在论文中写道:“近期大型语言模型的进步延长了上下文长度,使助手能够保持长对话历史,从而给出连贯且个性化的回复。然而,这种能力依赖于键值缓存,其内存需求随对话长度线性增长,在严格的资源限制下很快就会成为主导因素。”
内存挑战已成为AI部署的一大瓶颈。研究人员发现,在用户与AI助手进行的多日对话中,即便是相对较小的模型,在仅进行30次会话后,内存使用量就可能超过7GB——这比模型参数本身还要大。
AI系统如何像人类一样学会记住对话
苹果公司团队的解决方案是将长对话按主题分解为连贯的“片段”,然后在回复新查询时有选择地检索相关部分。他们表示,这种方法模仿了人类回忆长对话中特定部分的方式。
研究人员解释道:“EPICACHE通过块级预填充来限制缓存增长,并通过片段式键值压缩保留与主题相关的上下文,该技术将对话历史聚类为连贯片段,并应用片段特定的键值缓存淘汰策略。”
在三个不同的对话式AI基准测试中,该系统表现出了显著改进。研究显示:“在三个LongConvQA基准测试中,EPICACHE相比近期基线,准确率提高了多达40%,在4-6倍压缩下仍能保持接近完整的键值准确率,并将延迟和内存分别降低了多达2.4倍和3.5倍。”
为何这一内存突破能为企业节省数百万成本
这项研究解决了企业大规模部署对话式AI时面临的一个关键痛点。当前系统面临一个根本性权衡:它们要么可以维护广泛的对话历史以获得更好的上下文,但会消耗大量内存;要么可以限制内存使用,但会丢失重要的上下文信息。
论文指出:“键值缓存存储每个标记的键和值状态,以便在自回归生成中重用,但其大小随上下文长度线性增长,在扩展对话中带来严峻挑战。”
对于注重成本效益的企业应用而言,这一新框架可能极具价值。通过减少内存使用和计算延迟,EPICACHE可以更经济地部署复杂的AI助手,用于客户服务、技术支持和内部业务流程。
实现无需训练的AI内存管理的技术创新
由汉阳大学的Minsoo Kim与苹果公司合作领导的研究团队开发了几项关键创新。他们的系统使用语义聚类来识别对话主题,并应用他们所谓的“自适应层级预算分配”,以在不同的AI模型部分之间更高效地分配内存资源。
该框架还具有“无需训练”的特点,这意味着它可以应用于现有的AI模型,而无需对它们进行重新训练——这对于实际部署而言是一个显著优势。
在测试中,研究人员发现,他们的方法在不同模型规模和对话类型中始终优于现有的内存管理技术。即使在将对话历史压缩四到六倍的情况下,该系统仍能保持高准确率。
实用AI解决方案的竞争加剧
这项研究体现了苹果公司持续关注解决阻碍AI在企业环境中充分发挥潜力的核心挑战。当竞争对手竞相构建更强大的模型时,苹果公司的做法则强调使现有的AI系统更高效、更易于部署。
这项工作还标志着AI研究从单纯追求性能提升向实用优化的更广泛转变。随着对大型语言模型的初步兴奋逐渐平息,企业发现,部署挑战——内存使用、计算成本和可靠性——往往比原始能力更为重要。
对于企业决策者而言,这项研究表明,下一波AI竞争优势可能并非来自拥有最大的模型,而是来自拥有最有效的模型。在一个每次与AI助手对话都要花钱的世界里,高效记忆可能比什么都重要。
企业网D1net(www.d1net.com):
国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。