这一点至关重要,因为数据中心正面临来自供需两方面的压力。一方面,由于AI已成为现实,需求急剧增长,另一方面,由于电力和制冷资源有限,物理空间日益紧张。国际能源署(IEA)估计,2024年数据中心耗电量约为4150亿千瓦时,并预测到2030年这一数字将翻倍,达到约9450亿千瓦时。在机架层面,国际正常运行时间协会(Uptime Institute)报告称,4至6千瓦的机架仍然最为常见,但随着密集化进程的加速,7至9千瓦的机架正变得越来越普遍。
当这些压力袭来时,数据中心便不再是单纯的“设施”,而成为制约增长、运营韧性和成本的显性因素。此时,核心问题从“我们的容量是多少?”转变为一个更棘手的问题:企业能否将数据中心视为一个连贯的系统进行推理,还是仍然将其作为一堆工具来操作,这些工具定义不一致且可见性无法验证?
数据中心现已成为一个耦合系统
要实现连贯性,需认识到一个根本性转变:数据中心不再是一系列孤立的领域。数据中心管理、灾难恢复和高性能计算(HPC)之间的隐藏依赖关系日益复杂,而AI的集成则进一步加剧了这种耦合。
在耦合系统中,局部“优化”可能导致全局故障。你可能在空闲机架单元方面“状况良好”,但仍没有安全的地方放置工作负载,因为可用机架位于错误的电力路径之后、错误的制冷范围内、错误的冗余状态下,或处于错误的维护窗口期,这就是为什么许多企业最终会出现容量闲置和伪装成技术规划的政治讨论。
AI优化的表现
面对这种复杂性,行业最明显的应对方式是AI驱动的优化。谷歌和DeepMind展示了当将数据中心视为物理控制系统时,“AI优化”是什么样的。2016年,他们报告称,将DeepMind的机器学习应用于谷歌数据中心,将制冷能耗降低了多达40%,他们表示,在考虑非制冷损耗后,这相当于测试站点整体电力使用效率(PUE)开销降低了15%,并创造了该站点有史以来的最低PUE记录。
该架构值得深入探讨,因为它既展示了仅依赖遥测控制的潜力,也揭示了其局限性,他们的模型基于数千个传感器收集的历史运行数据——温度、电力、泵速、设定点等——并针对预测的未来PUE(总设施能耗除以IT能耗)进行优化,他们还训练了模型来预测运行变量,如温度和压力,以确保建议保持在安全运行约束范围内,换句话说,就是基于观察到的行为构建冷却系统及其动态的替代模型,在约束条件下持续提出更好的设定点。
2018年,他们描述了从“建议”向自主控制的转变,其中最重要的经验并非优化算法,而是控制安全范围。每五分钟,基于云的AI就会从数千个传感器中获取冷却系统的快照,预测候选操作对未来能耗的影响,并选择在满足安全约束的同时最小化能耗的操作,然后,这些操作被发送回本地,在应用前由本地控制系统进行验证,他们强调了分层保障措施,如不确定性估计(丢弃低置信度操作)、两层验证(云端和现场)以及由操作员控制的返回常规自动化的退出机制。
这是一项真正的运营突破,它也是一个清晰的例子,展示了即使没有语义层,现代“孪生”技术也能实现什么:一个高频、数据驱动的物理环境表示,能够在约束条件下预测结果并选择操作。
但它也明确了界限,冷却控制可以非常出色,同时仍然在很大程度上与工作负载意图无关,因为其目标是面向设施的,且约束条件是物理的,然而,在AI时代,优化越来越需要做出跨越设施/IT边界的决策——电力传输、制冷范围、冗余配置、维护状态和部署策略,其中“允许什么”取决于共同意义,而不仅仅是传感器读数。
为什么语义成为限制因素
这正是语义孪生填补的空白:它是缺失的中间层,解释了原因并强制规定了允许的状态和操作。语义层不仅仅是将输入拼凑在一起,它决定了何时表示和观察对于推理是有效的,因此跨领域决策变得有据可依,而非通过协商得出。
大多数公司都缺少这一语义核心,这意味着他们无法基于共同意义进行计算。在数据中心中,这一差距并非理论上的,因为该领域包括物理组件、电力路径、制冷回路、冗余策略、GPU、集群和计划维护窗口。
语义数字孪生并不取代遥测或几何数据,它使这些数据在决策时变得可用,它是一个基于本体论和知识图谱构建的数字孪生。本体论正式定义了领域中存在的事物、事物之间的关系以及约束有效状态的规则。知识图谱则通过标识符和关系实例化这些意义,将“现实世界”跨记录系统连接起来,同时还将运行手册、图表、日志和工作订单等非结构化工件锚定到它们所描述的实体上。
当团队对同一事物有不同理解时,系统就会崩溃
数据中心与企业其他部分一样,存在“共同意义”问题,只是后果更为严重。设施、基础设施和平台团队对同一词汇的使用方式各不相同。容量可能指空闲机架单元、电路上的可用电力、区域内的制冷余量、冗余策略下的剩余不间断电源(UPS)容量或调度器部署约束下的可用集群容量。冗余在一个工具中可能意味着“有两条馈线”,而在另一个工具中则意味着“此工作负载能在故障中存活”。维护在工作订单系统中可能指计划变更,而对应用所有者来说,则是衡量以分钟为单位的运营风险事件。
如果这些含义保持隐含状态,你就会以机器速度得到“自信的谬误”。在数据中心中,不连贯性不仅会产生糟糕的总结。它还会导致容量闲置、不安全部署、意外的影响范围以及在最需要时失效的韧性计划。
语义孪生正是通过强制将这些分歧转化为明确、可解决的定义来解决问题,它首先将数据中心视为一个依赖系统。“事物”包括物理和逻辑实体,如设施、房间、排、机架、配电单元、电路、不间断电源系统、冷却单元和区域、冷却器、冷却剂分配单元、服务器、GPU、交换机和工作负载。关键在于关系:什么位于哪里、什么由什么供电、什么由什么冷却、什么依赖于什么、适用什么冗余策略、哪些遥测源描述当前状态以及哪些运营约束定义了可接受的范围。
如果这听起来很抽象,其实并非如此。考虑一个简单规则:此工作负载只能放置在电力、制冷和冗余约束同时得到满足的地方。没有语义时,该规则将作为脆弱的点逻辑实现,并作为部落知识理解。而基于本体论的语义则使其成为可计算策略。
来源是仪表盘与治理的区别
具有来源的语义孪生不仅仅说“机架电力使用率为80%”,它还能告诉你哪个电表报告了这一数据、电表上次校准的时间、哪个聚合管道生成了该数字、应用了哪些假设、实施了哪种冗余策略以及是否正在进行维护,这就是描述性孪生与实现可计算治理的孪生之间的区别。
从痛点入手:电力、制冷和部署
要使这一理念具有实用性,需像构建企业语义核心一样构建语义孪生。从明确性入手,对一个领域切片进行建模,将其与现有流程集成,并从一开始就扩展治理。对于数据中心来说,应选择依赖关系最为棘手的领域切片。在AI时代,这通常意味着电力、制冷和工作负载部署的交集。
从那里开始,孪生必须将设施语义与IT语义连接起来,这就是知识图谱主干的重要性所在。当创建冷却回路工作订单时,孪生应能够遍历依赖链,识别冷却区域、服务的机架、托管的GPU节点、受影响的集群以及服务目标面临风险的应用程序,这将维护从日历协商转变为可计算的风险管理。
将AI扎根于运营中
一旦语义层存在,AI就可以在其基础上构建。人们可能会倾向于部署一个“AI运营助手”,用于总结警报、推荐操作,甚至执行工作流程。在高风险环境中,语义孪生应首先作为验证器,而非自动驾驶仪,推荐是可以的,但操作应受到约束、来源和变更控制的限制。没有语义孪生,你会得到无法辩护的流畅自动化,而有了语义孪生,你就能获得混合智能:机器学习擅长检测和预测,而语义层则通过将操作与策略、依赖关系和可验证的运行事实联系起来,使决策变得可解释且约束安全。
这在工作负载部署和密集化方面尤为重要,当密集化正在进行时,“容量”必须被视为多约束资源,而非单个数字。语义孪生可以编码一个连贯的可部署容量定义,该定义涵盖电力余量、制冷范围、冗余策略和运行状态。
故障转移与物理现实的碰撞
同样的推理也适用于灾难恢复,此时语义严谨性不再只是理论上的,而是开始产生实际效益和回报。大多数灾难恢复计划都侧重于复制和应用程序类型,然后错误地假设备用站点能够“承担负载”。实际故障发生在物理层面:电力余量、制冷限制、冗余状态以及你所依赖的容量可能处于维护窗口期的事实。
语义孪生将灾难恢复从电子表格练习转变为受约束、有根据的现实检查。“我们能否转移此工作负载?”成为对企业依赖图的查询,并根据管理环境的规则进行验证,这不是查询容量是否存在,而是查询容量是否在正确的时间、正确的条件下、在正确的地点存在。
不透明的依赖关系,累积的成本
这就是更广泛的观点,你可以促使系统听起来自信,但无法促使它们扎根于可验证的事实。如果你想要可以辩护的决策,尤其是那些涉及大量资源(如兆瓦电力和工作负载)的决策,你就需要将语义作为基础设施:共同意义、约束条件、来源和验证,确保数据、模型和推理在周围环境变化时保持一致。
语义数字孪生并非另一款监控产品,它是应用于企业计算物理基底的语义核心。随着AI继续推动密集化,能源成为增长限制因素,优势不一定来自采购GPU或谈判更好的托管条款,它将取决于企业能否以机器可读的方式定义数据中心,将其与工作负载和业务承诺连接起来,并可靠地管理它,而非仅凭直觉,数据中心正成为企业最昂贵的依赖图之一,是时候将其建模为一个依赖图了。
企业网D1net(www.d1net.com):
国内头部to B IT门户,旗下运营国内头部的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。






























































































京公网安备 11010502049343号