NREL是如何采用人工智能运营全球最高效数据中心的

责任编辑：cres 作者：Sebastian Moss |来源：企业网D1Net 2021-05-24 14:33:37 原创文章企业网D1Net

通过与HPE公司合作，美国国家可再生能源实验室(NREL)已在其能源系统集成设施(全球目前最高效的数据中心)中推出了AIOps。

为管理亿级数据中心做好准备

HPE公司高性能网络副总裁兼总经理Mike Vildibill为此表示，“我们为此组建了一个团队，对构建亿级系统所需的内容进行了非常深入的分析和设计，该系统在真实环境中真正可用并运行。

我们需要对数据中心进行管理和监控，必须从数据中心的服务器、存储设备以及其他设备中收集大量数据。我们必须将这些数据放入数据库中，然后进行分析，最后才能使用这些数据来管理、监视和控制数据中心。”

他们发现，一个亿级系统的管理将需要运算速度达到大约200 petaflops超级计算机来运行。Vildibill说，“我们在探索的过程中偶然发现了一个实际问题。我们意识到，我们需要基于AIOps才能真正以自动化方式管理和控制大型亿级系统。”

HPE公司与美国国家可再生能源实验室(NREL)一起进行了为期三年的研究，在规模相对较小的超级计算机上测试AIOps，将运算速度为8petaflops的Eagle超级计算机作为美国国家可再生能源实验室(NREL)的旗舰设备进行部署。

美国国家可再生能源实验室(NREL)运营的数据中心电力容量的设计为10MW，当前系统负载为5MW，但通常只消耗了2MW的电力。

为了模拟1000台petaflops级超级计算的使用体验，这个研究团队扩展了该站点产生的数据。Vildibill说，“例如，如果一个传感器每秒提供一个数据点，我们想进入并对其进行调整，使其每秒提供100个数据点，并不是说我们每秒需要100个，而是在规划构建未来的百亿亿次系统时，希望能够测试所有基础设施的可扩展性。”

美国国家可再生能源实验室(NREL)采用的传感器不仅可以测量IT设备的功耗，还可以测量有关网络使用、存储、各种系统组件(例如温度、压力、流量、阀状态、风扇速度)以及外部环境条件的指标。其系统每分钟可以记录一百万个指标。

在由美国能源部和HPE公司共同发布的一份研究报告中，美国国家可再生能源实验室(NREL)详细介绍了其能源系统集成设施第一年的运营情况。

报告指出：“如此庞大的数据量和速度要求系统能够有效地处理数百万个同时发生的数据流，同时还要能够应对停机时间和网络延迟。因此，在ESIF数据中心中用于数据收集的数据体系结构的设计考虑了数据源、数据频率、数据移动以及数据的最终存储和使用情况。数据收集架构的目标是提供适合于从多个异构数据源收集、管理和处理流数据的可扩展基础设施。”

ESIF数据中心在去年6月开始使用这一数据进行异常检测。报告指出：“为支持运营弹性，流数据和分析平台最初部署了一条管道，用于使用Eagle超级计算机和ESIF数据中心的历史和实时数据来检测冷却基础设施中的异常情况。”

所有这些数据都使得仪表盘很难以人类处理的方式了解设施内发生的所有事情。该报告指出：“这源于需要监控的大量的同步数据流，以及对数据中心设施冷却系统中每台设备进行大量调整以实现最佳系统性能的多种影响，研究团队还发现，设定点、警报和仪表板并不总是能够识别系统中的异常情况。”

该站点以前的中断和问题已经采用人工智能系统提供帮助，并强调了工作人员发现的一个问题。这个在冷却分配单元出现的问题在几个月的时间内都没有引起注意，而有关错误信息的数据用于训练AIOps系统。

研究人员说：“在2015年，一个导致系统关闭的三通阀发生故障，这似乎不是需要重点监测的项目，但却导致美国国家可再生能源实验室(NREL)在系统关闭过程中损失了2万个节点小时。在这项工作的推动下，一个关键的优先事项是围绕传感器的监测和选择的自动化。这是仪表盘构建和使用方式的根本转变，使数据中心运营商能够监控一切，并关注关键异常事件。”

除了异常检测之外，数据流架构还使美国国家可再生能源实验室(NREL)研究人员能够研究Eagle超级计算机上单个作业的功率消耗及其相关的冷却资源需求。

研究人员说，“作为AIOps项目的一部分，我们与HPE公司正在进行的研究旨在扩展用电量预测的用例，并构建原型。”

为了帮助其他企业开展类似的工作，美国国家可再生能源实验室(NREL)发布了一个包含三个月工作数据的数据集，并提供了每个工作的节点级功耗指标。

到目前为止，AIOps系统尚未对数据中心能源使用效率产生重大影响，ESIF数据中心报告的PUE值为1.06，与通常报告的水平相一致，但低于2017年的最佳PUE值1.032。

预计美国国家可再生能源实验室(NREL)在今年推出的AIOps软件开始进行预测性维护和PUE优化。在未来两年的更新中将会添加根本原因分析功能。利用该项目收集的数据，该实验室还计划开发一个模型，用于预测数据中心未来数周或数月的PUE值。

综上所述，这些努力将为未来的超级计算机采购工作提供信息，其中包括所使用的资源类型、使用效率，以及NREL和 HPC公司如何改进其实践，并帮助指导绿色节能的数据中心的设计和广泛采用，显著降低了超级计算机的碳排放，同时也降低维护成本，提高了系统可靠性。

关键字：数据中心人工智能