好消息:企业越来越认识到,基础设施在推动收入增长、降低成本和提高效率的生成式、智能体及其他智能应用中发挥着关键作用。
据IDC统计,到2025年,与去年同期相比,企业在AI部署的计算和存储硬件基础设施上的支出将增长97%,研究人员预测,全球在该领域的投资将从目前的1500亿美元激增至2028年的2000亿美元。
但“竞争优势并不属于那些投入最多的企业,”畅销AI书籍作者兼The Hackett Group GenAI咨询业务负责人John Thompson在接受采访时表示,“而是属于那些最明智地实现规模化的企业。”
忽视基础设施和硬件,后果自负
其他专家也持相同观点,认为如果没有对处理器和加速器精细协调的网络进行精心规划和适配,以及升级电力和冷却系统,企业几乎不可能扩展和工业化AI工作负载,这些专用硬件组件提供了处理从边缘到本地再到云端前所未有的数据量、流动性和速度所需的速度、可用性、灵活性和可扩展性。
一项又一项的研究指出,与基础设施相关的问题,如性能瓶颈、硬件不匹配和遗留系统集成不佳,以及数据问题,是导致试点项目失败的主要原因。随着对自主式AI的兴趣和投资激增,技术、竞争和财务风险也随之增加。
在科技公司中,这一行业的风向标显示,近50%的公司已开展自主式AI项目,其余公司也将在24个月内跟进,它们将当前AI预算的一半或更多分配给智能体,许多公司还计划在今年进一步增加投入。(这是好事,因为这些复杂的自主系统需要昂贵且稀缺的GPU和TPU来在多个平台上独立实时运行。)
从试点项目的经验中,技术和业务领导者现在明白,AI工作负载的高要求——高速处理、网络、存储、编排和巨大电力需求——与他们以往大规模建设的任何东西都截然不同。
对许多企业来说,紧迫的问题是:“我们准备好这样做了吗?”诚实的回答将是:如果不进行持续的仔细分析、规划和可能的重大IT升级,答案将是否定的。
他们已攀登AI高峰——倾听他们的声音
就像雪花和孩子一样,我们被提醒,AI项目既相似又独特。不同AI功能和类型(训练与推理、机器学习与强化学习)之间的需求差异巨大。业务目标、预算、技术债务、供应商锁定以及可用技能和能力之间也存在巨大差异。
因此,可以预见,没有单一的“最佳”方法。根据情况,你可以选择纵向扩展(增加功率以应对更大负载)、横向扩展(升级现有硬件)或混合方式。
尽管如此,这些早期阶段的心态、原则、建议、实践、真实案例和节省成本的技巧可以帮助你保持努力的方向正确。
这是一个多层次的挑战,涉及数据、软件、网络、安全和存储。我们将保持高层次视角,并提供相关深入链接。
现代化你的AI基础设施愿景
最大的心态转变是采用新的AI观念,不是将其视为独立或孤立的应用,而是将其视为嵌入业务流程、工作流和工具中的基础能力或平台。
为了实现这一点,基础设施必须平衡两个重要角色:提供稳定、安全和合规的企业基础,同时使快速可靠地部署专用AI工作负载和应用变得容易,这些工作负载和应用通常针对特定领域(如自然语言处理和强化学习)进行了硬件优化。
本质上,这是一个重大的角色转变,德勤首席创新官Deb Golden表示:“AI必须被视为一个操作系统,基础设施要适应它,而不是相反。”
她继续说:“未来不仅仅关乎复杂的模型和算法,硬件不再是被动的。因此,从现在起,基础设施从根本上说是关于协调智能硬件作为AI的操作系统。”
要以这种方式大规模且无浪费地运行,需要一种“流动架构”,Golden用这一术语来描述在每个平台上实时适应的动态分配,从单个硅芯片到完整的工作负载。她的团队发现,这种方法可以削减30%至40%的成本,并降低15%至20%的延迟。“如果你的AI不能随工作负载呼吸,它就会窒息。”
这是一个要求极高的挑战,这样的AI基础设施必须是多层的、云原生的、开放的、实时的、动态的、灵活的和模块化的,它需要在边缘和移动设备、本地数据中心、AI个人电脑和工作站以及混合和公有云环境中进行高度智能的协调。
这听起来像是流行语大集合,但实际上代表了企业IT基础设施在AI时代持续进化、重新定义和优化的新纪元。主要元素是熟悉的:混合环境、快速增长的日益专业化的云服务、框架和平台宇宙。
在这个新篇章中,拥抱架构模块化是长期成功的关键,安永美洲技术增长负责人Ken Englund表示:“你集成不同工具、智能体、解决方案和平台的能力将是至关重要的。模块化为你的框架和架构创造了灵活性。”
解耦系统组件有助于以多种方式面向未来,包括供应商和技术无关性、即插即用模型增强以及持续创新和可扩展性。
为扩展AI进行基础设施投资必须平衡谨慎与强大
寻求扩大企业AI使用的企业技术团队面临着一个更新的“金发姑娘挑战”:找到能够处理分布式、无处不在的AI快速增长和变化需求的新基础设施和硬件的“恰到好处”的投资水平。
投资不足或坚持当前处理能力?你将面临导致整个项目(和职业生涯)失败的严重性能瓶颈和不佳的业务成果。
过度投资于闪亮的新AI基础设施?你将面临巨大的资本和持续运营支出、闲置资源和无人需要的操作复杂性。
与其他IT努力相比,经验丰富的规模化实施者一致认为,简单地通过增加处理能力来解决问题不是一种成功的策略,然而,这仍然是一种诱惑,即使不是完全故意的。
“那些AI需求极低的工作往往被路由到昂贵的GPU或TPU基础设施上,”曾在财富500强公司领导企业AI部署并担任一家大型全球咨询公司AI卓越中心负责人的转型资深人士Mine Bayrak Ozmen表示。
Ozmen也是AI平台公司Riernio的联合创始人,她表示:“讽刺的是,AI中心设计选择已经超越了更经典的组织原则。”不幸的是,这些部署的长期成本低效可能会被硬件供应商提供的深度折扣所掩盖,她表示。
通过适当范围和分布来适配AI基础设施,而非单纯追求强大
那么,什么应该指导战略和战术选择呢?专家一致认为,一个不应指导选择的是一种看似矛盾但误导性的推理:因为AI基础设施必须提供超高性能,所以更强大的处理器和硬件必然更好。
“AI扩展不是关于蛮力计算,”领导过众多大型全球AI项目并著有《通往AGI之路:人工智能通用智能:过去、现在和未来》(该书于二月出版)的Hackett的Thompson表示。他和他人强调,目标是在正确的时间、正确的地点拥有正确的硬件,而不是在所有地方都拥有最强大和最坏的硬件。
据Ozmen称,成功的扩展者采用“一种为正确执行而适配的方法”,这意味着“优化工作负载放置(推理与训练)、管理上下文局部性,并利用政策驱动的编排来减少冗余、提高可观察性并推动持续增长。”
有时,分析和决策就像在餐巾纸上简单勾勒一样。“为200名员工服务的GenAI系统可能在一台服务器上运行得很好,”Thompson说,但对于更复杂的倡议来说,情况就完全不同了。
以一个为全球数十万用户提供服务的AI赋能企业核心系统为例,该系统需要云原生故障转移和严肃的扩展能力。在这些情况下,Thompson说,适配基础设施需要严格的范围界定、分配和扩展练习。否则就是鲁莽的渎职。
令人惊讶的是,这种基本的IT规划纪律有时会被忽视。常常是那些急于获得竞争优势的公司试图通过将过大的基础设施预算投入到关键AI项目上来加速进程。
新的Hackett研究挑战了一些关于扩展AI所需基础设施的基本假设,为进行严格的初步分析提供了更多理由。
Thompson自己的现实世界经验很有启发性。在构建一个拥有超过30万用户的AI客户支持系统时,他的团队很快意识到“全球覆盖比在任何单一地点拥有巨大容量更重要”。因此,基础设施分布在美国、欧洲和亚太地区;用户在全球范围内动态路由。
实际的建议是什么?“设定界限。是30万用户还是200用户?范围决定基础设施。”他说。
在正确的地点为正确的任务配备正确的硬件
现代多层AI基础设施策略依赖于多功能处理器和加速器,这些处理器和加速器可以针对连续体中的各种角色进行优化。
为AI扩展采购基础设施:云服务成为大多数企业的首选
你现在对AI扩展基础设施的可能性和应该是什么样子有了清晰的认识,对投资的最佳点和范围有了良好的了解,并且知道在哪里需要什么,现在是采购的时候了。
正如VentureBeat上一期特刊所指出的,对于大多数企业来说,最有效的策略将是继续使用基于云的基础设施和设备来扩展AI生产。
对大型组织的调查显示,大多数已经从定制的本地数据中心过渡到公共云平台和预构建的AI解决方案。对许多人来说,这代表了正在进行的现代化进程的下一步,该进程规避了巨大的前期资本支出和人才争夺,同时为快速变化的需求提供了关键灵活性。
Gartner预测,未来三年内,50%的云计算资源将专用于AI工作负载,而目前这一比例不到10%。一些企业还在升级本地数据中心,配备加速计算、更快内存和高速网络。
好消息是:Amazon、AWS、Microsoft、Google以及不断壮大的专业提供商群体继续在为AI构建和优化的端到端产品上投入巨额资金,包括全栈基础设施、平台、处理(包括GPU云提供商)、HPC、存储(超大规模提供商加上Dell、HPE、Hitachi Vantara)、框架和众多其他托管服务。
特别是对于那些希望快速尝试的企业来说,西北AI咨询公司的首席AI顾问Wyatt Mayham表示,云服务提供了一个优秀且低麻烦的选择。
例如,在已经使用Microsoft的公司中,“Azure OpenAI是一个自然的扩展[需要很少的架构就能安全合规地运行],”他说,“它避免了构建自定义大语言模型基础设施的复杂性,同时仍然为公司提供了所需的安全性和控制。这是一个很好的快速取胜的使用案例。”
然而,技术决策者面临的众多选择也有另一面。选择合适的服务可能令人望而生畏,特别是当更多企业选择跨多个提供商的多云方法时。兼容性、一致的安全性、责任、服务水平和现场资源需求等问题可能迅速交织成一个复杂的网络,减缓开发和部署速度。
为了简化事情,企业可能决定坚持使用一两个主要提供商。在这里,就像在AI前的云托管中一样,供应商锁定的危险隐现(尽管开放标准提供了选择的可能性)。所有这些都笼罩在过去和最近尝试迁移到付费云服务的阴影下,人们惊恐地发现成本远远超出了最初的预期。
所有这些都解释了为什么专家说,在开始采购之前,尽可能清楚地了解边缘、本地、云应用等各个地方所需的性能和容量是至关重要的IT 101纪律。
重新审视本地基础设施
传统观点认为,内部处理基础设施主要留给资金雄厚的企业和受高度监管的行业,然而,在这个新的AI篇章中,关键内部元素正在被重新评估,通常作为混合适配策略的一部分。
以Microblink为例,该公司为全球客户提供AI驱动的文档扫描和身份验证服务。使用Google Cloud Platform(GCP)支持高吞吐量的机器学习工作负载和数据密集型应用时,该公司很快遇到了成本和可扩展性问题,工程经理Filip Suste表示。“GPU可用性有限、不可预测且昂贵。”他指出。
为了解决这些问题,Suste的团队进行了战略调整,将计算机工作负载和支持基础设施转移到本地。向混合模式转变的关键是从MinIo引入的高性能、云原生对象存储系统。
对Microblink来说,将关键基础设施带回内部取得了回报,这样做削减了62%的相关成本,减少了闲置容量并提高了训练效率,该公司表示。最重要的是,它重新获得了对AI基础设施的控制,从而提高了客户安全性。
考虑专业AI平台
日本计算机数控加工中心制造商Makino在40个国家开展业务,面临着一个典型的技能差距问题。经验较少的工程师完成维修可能需要长达30小时,而经验丰富的工人只需8小时。
为了缩小差距并改善客户服务,领导层决定将二十年的维护数据转化为即时可用的专业知识。他们得出的最快且最具成本效益的解决方案是将现有服务管理系统与Aquant的专业服务人员AI平台集成。
该公司表示,采取这种简便的技术路径取得了巨大成功。资源集中在标准化术语和开发流程和程序上,而不是费力地评估不同的基础设施场景,Makino的客户支持总监Ken Creech解释道。
远程问题解决率提高了15%,解决方案时间缩短,客户现在可以自助访问系统,Creech说。“现在,我们的工程师提出一个简单语言问题,AI就能迅速找到答案。这是一个巨大的惊喜因素。”
采用有意识的成本规避技巧
在美国最大的食品和药品连锁店之一Albertsons,IT团队采用了几种简单但有效的策略来优化AI基础设施,而无需添加新硬件,数据分析、工程和治理技术负责人Chandrakanth Puligundla表示。
例如,重力映射显示了数据存储的位置以及数据如何在边缘设备、内部系统或多云系统上移动。Puligundla解释说,这种知识不仅减少了出口成本和延迟,还指导了关于在哪里分配计算资源的更明智决策。
同样,他说,使用专业AI工具进行语言处理或图像识别占用的空间更少,通常比添加或更新更昂贵的服务器和通用计算机提供更好的性能和经济性。
另一个成本规避技巧:跟踪每推理或训练小时的瓦数。超越速度和成本,关注能效指标优先考虑了可持续性能,这对日益耗电的AI模型和硬件至关重要。
Puligundla总结道:“通过这种有意识的准备,我们真的可以提高效率。”
书写你自己的结局
AI试点项目的成功已经将数百万家公司带入了下一个阶段:将具有高商业价值的生成式和大语言模型、智能体和其他智能应用部署到更广泛的生产中。
最新的AI篇章为那些能够战略性地构建基础设施和硬件的企业承诺了丰厚回报,这些基础设施和硬件在边缘计算、本地系统和云环境中平衡了性能、成本、灵活性和可扩展性。
在接下来的几个月里,随着行业投资继续涌入超大规模数据中心、边缘芯片和硬件(AMD、Qualcomm、Huawei)、基于云的AI全栈基础设施(如Canonical和Guru)、上下文感知内存、安全的本地即插即用设备(如Lemony)等等,扩展选项将进一步扩大。
IT和业务领导者如何明智地规划和选择扩展基础设施,将决定公司故事中的英雄和那些注定要陷入试点困境或AI灾难的不幸者。
企业网D1net(www.d1net.com):
国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。