9月23日,由企业网D1Net、信众智(CIO智力输出及社交平台)和中国企业数字化联盟共同主办的2023北京部委央企及大型企业CIO年会(秋季)在京顺利闭幕。本次大会汇聚了央国企部委及大中型企业CIO、信息主管以及数字化一线厂商,以“数字化转型”为主题,围绕大模型、多元算力、国产化智慧办公、RPA、低代码、数据资产管理、数字资产保值增值、数字安全和数据安全治理,央国企数字化转型场景、转型探索与实践等热门议题展开深入探讨。
浪潮信息集团客户部首席解决方案架构师王宝伟在本次大会上分享的主题为“数智企业,共创多元算力世界”。以下是现场速记。
浪潮信息集团客户部首席解决方案架构师王宝伟
王宝伟:各位领导,大家早上好!先自我介绍一下,我是浪潮信息解决方案架构师王宝伟,很高兴今天有此机会向各位领导汇报我们浪潮信息在企业信息化数智化过程中一些认识。今天我要分享主题是“数智企业,共创多元算力世界”。
接下来我们看一下无处不在的计算。
今天我们在工作、生活、娱乐,各个领域可以说计算是无处不在的。比如我们打开手机看股票的时候,当我们开车在路上去查询路线看导航的时候,当我们进入办公室去刷脸考勤的时候,我们坐在办公桌前,我们去创建文档,制作演示文稿,管理邮件进行数据分析的时候。当我们在生产领域,我们去使用CAD、CAM这些计算机辅助软件去完善我们产品设计和计算过程的时候,这一切都是由计算在完成的。
在人工智能和大数据、物联网,云计算新技术的驱动下,数字经济得以快速的发展,不仅在量上得到增长,而且在质上也在不断地创新和优化。计算力是什么?是指对数据分析获取信息的能力,而这种能力在当今数字经济时代是一种关键的生产要素,既然提到了生产要素也就是生产力,所以我们就提到了生产关系。所谓生产关系的改变,比如说我们现在对我们的影响,每个人都深受影响。比如我们去点外卖,以前你很难点外卖,你要打电话去点外卖,现在我们通过美团就可以了。我们今天来开会的时候,在路上只需打开滴滴叫个车就OK了,而以前我们需要去路边招手叫出租车,现在可以网约车,能够享受更好的服务。
据统计,计算力的投入每增加1元会带动3到4元的GDP的增长,考虑GDP总量增长来看,算力投入对于增长是相对显著的。计算力每平均增长1个点,数字经济会增长3.5%,而对GDP来说会增长1.8%。中国的算力水平目前来说在全球是领先的,我们的算力增长水平是13.5%,是我们当前主要的驱动力。
AI算力目前在国内来说也是达到了处于领跑全球,我们在过去五年15个AI算力国家的支出当中,接近60%来自我们中国。
前面讲了我们有各种应用,这些应用给我们工作和生活带来了便利。而每个应用背后都有一个强大的服务平台作为算力的支撑。这些算力从哪来?很显然就是由基础算力的提供者也就是我们的CPU芯片,而在计算机行业流传三个定律:摩尔定律、登纳德等比率缩放定律还有安迪比尔定律。
从70年代一直到2000年一直处于斜率是非常好的,到2002年之后摩尔定律和登纳德等比率缩放定律开始逐渐失效,计算机性能提升开始放缓,意味着我们不能再单纯的通过提升硬件的性能来满足日益增长的算力的需求。而同时安迪比尔定律,英特尔所能提供的算力都被windows拿走了,也就是这个一直存在,并没有发生变化,这就对我们的计算来说出现了非常大的供需不平衡。
我们怎么解决这个问题?这是一个悬念。先放一放。
接下来看前面的问题,而实际上我们这个智能制造,我们说中国制造2025主要指的就是智能制造,它更加关注数字化、网络化和智能化。我们要实现柔性的制造、高效和定制化生产,对我们制造过程进行智能化升级,提高我们的生产率,降低生产成本,提升我们产品品质和我们的服务水平。这些新技术的应用促使我们数据中心发生爆炸式的增长。
这是IDC报告里面找到的,2025年我们全球数据中心的算力规模将达到6381亿EFLOPS比2020年将近翻了30倍,而我国数据中心建设规模从2019年到2025年数据中心规模复合增长率也高达24.6%。再看当前的AI,我们知道机器视觉从2012年开始,2014年正式商用,人脸识别开始变得成熟。从2012年开始一直到2022年,AI模型的算力需求每隔三到四个月就会翻一倍。
前面讲到我们有强大的算力需求以及我们前面有矛盾,而随着年初ChatGDP爆火,大模型训练也井喷式的发展,更有大战的势头。随着人工智能和深度学习的发展,大模型的应用会越来越广泛,这在一定程度上也加剧了算力资源不足的问题,也就对应着摩尔定律事项在后摩尔定律时代需要大量计算模型和存储空间,这使得供需之间矛盾进一步加剧。
大模型促进了算法,同时也促进算力多样化的需求。不同的应用场景,不同的计算方式,因此不同类型的算力来满足不同的需求。比如说在大模型的训练阶段,主要进行模型的训练需要大量的数据,涉及计算量是非常大的。比如矩阵乘法、卷积运算需要高速CPU和GPU以及充足的内存和存储空间来提供数据存储和做数据推理。以分类和检测、识别任务,这个阶段需要的算力相对少,不过它对延时又提出新的需求,需要计算低延时,这时候就需要专用的芯片对人工智能推理进行优化。此外,推理过程中还需要高速网络和存储资源。 我们当前面对的大模型的算力不足,同时又促进了我们算力的多样化。
接下来要分享的是多元算力的解决方案,怎样解决前面遇到的问题?算力不足以及算力多样化的需求。
前面提到算力不足之后,针对前面的需求,浪潮信息作为全球领先的算力基础方案和服务提供商,我们以系统设计为中心,建立多元算力融合,软硬件协同优化的技术发展路线,针对业务场景提供多样化的算力解决方案。通过对特定的应用进行优化,解决咱们算力不足的问题。
一般我们把企业信息化的系统简单分为综合的办公系统,比如OA、邮件,也就是经营管理即CRM、财务、生产运营系统(MES)以及科研管理系统,为了更好的满足不同业务场景的需求,算力多样化它是一种必然趋势。比如咱们说的财务系统里,它对计算需求要求是高稳定、高可靠、高安全,它对数据来说是有强一致性的要求。而在咱们科研仿真领域对于浮点计算有极高要求,这时候只有AI算力才能满足需求,而在生产质检过程当中,因为我们的流水线是不能停的,所以它对实时性也提出要求。所以我们在解决这个问题时候就需要通过边缘计算的方式才能支撑满足我们的业务需求。
计算的多样化,算力的多元化是当前数字化时代我们企业构建数据中心的一个必然选择,它为不同的业务场景更加灵活的需求,有助于推动数字化转型和创新发展。
前面讲了我们算力的多元化,业务的多样化以及到算力的多元化。在多元化的基础上,我们还要做的是对特定领域的算力资源进行专业的优化。为了方便大家理解,我们对CPU和GPU进行简单的介绍。
这是十四年前英伟达发布的一个视频,我想很好的解释了我们CPU和GPU之间的差距。
(视频播放)
大家可以看到这个CPU跟GPU由于它的架构设计的不同,在我们实际使用过程当中这个差距是非常明显的,因为CPU相对是通用的计算,它能够处理各种不同的任务,通过顺序执行这个指令来完成计算任务。而GPU在设计之初就是为图形处理做并行计算,它里面通过高效大规模的并行计算对图像进行渲染和设计。前几天我在家里面做过一个实验,我在做语言识别测试的时候,我就用我的电脑i511代CPU我去算只是一分钟的MP3音频,然后我用I5去做语音转成文字,竟然用了40多分钟。而我放到英伟达的公有云上去做同样的模型,不到一秒的时间,一分钟的音频就出来了。我这个测试,大家感觉不明显,哪怕我用一个小时的音频,如果我放到公有云上,通过GPU去算的话,这个也是非常快的,它也不会超过十几秒的时间。
所以我们很直观的感受CPU和GPU之间,他们所擅长的领域是不同的。针对特定领域进行专业优化的算力资源,在我们构建企业智算中心的时候一个必然的选择。
前面讲到我们对于算力特定的优化,另外我们回到站在系统的视角,这些年我们大家深有体会,如果说告诉你这台服务器的CPU我们就大致能评估出这台服务器它的能力水平会是什么样的。比如我说一个智强的处理器比如6230,我们大概能猜出来,通过它的CPU核数、它的主频,它能引出多少的PCIE,PCIE的带宽以及它是几代,我们就能评估出大致的计算能力。
多年来浪潮信息一直思考这样的问题,有没有一种方法可以改变这种以CPU为中心的计算系统的设计?经过多年的不懈努力,我们终于找到了。也就在上个月8月14日OCT大会上,我们浪潮发布了面向未来的融合3.0架构。
这里同样是一个视频,更直观的让各位领导来了解我们的产品。
(视频播放)
在这种情况下我们可以得到全解耦的数据中心,计算单元和我们主机进行了解耦。我们可以看到在刚才的视频演示过程当中,我们是把内存做了内存的盒子,所有的我们CPU可以不是一个型号或者一个类型的CPU,我们可以做到不同技术路线的CPU放在一个计算系统里面来。就像这张图,X86通过共享内存池的方式解决以往以CPU为中心,以AI训练为例,我们在做训练的时候我们的数据需要从硬盘读出来写到内存,然后再到我们CPU,CPU把数据搬到GPU计算完之后再搬回我们的硬盘,当这台设备处理完会通过网络给到下一台设备。我们CPU在持续读取数据形成大量并发的IO,GPU始终都在计算,数据在不同的内存和硬盘之间进行多次数据的搬迁。而我们改变思路之后,以内存为连接的核心,构建一个内存池,让我们CPU、GPU甚至不同架构的CPU共享内存,这就是我们浪潮能给出的应对算力不足的解决方案。
我们前面解决了算力不足的问题,接下来我们要聊的是对算力的管理。也就是说我们需要一个统一的多元算力资源的管理平台或者管理框架。对多种类型的计算资源进行管理和优化,这种调度可以发生在不同层次或者不同的力度上,比如对计算任务或者计算节点或者我们的某一个核或者内存,在这之间进行调度,统一多元算力调度目的是为了提高资源效率,降低能耗,提高系统的整体稳定性。通过集中管理和调度可以避免资源的浪费和冲突,可以根据任务和我们资源进行特定的优化,使我们的整体性能达到最高。
前面讲完了我们对算力的管理,算力不足问题解决之后,还有一点就是我们的绿色算力的需求。智算中心的建设要面临双碳目标的挑战,首先智算中心要满足企业自身信息化、数字化的发展需求,扩大算力服务范围,让我们所建的智算中心更有意义。其次智算中心要减少碳排放,这是建设者也要考虑的问题。
2021年时财政部和生态环境部多个部委联合下发了文要求大型数据中心建设PUE值要小于1.3,这是政策要求。另外再算一笔经济账,以12千瓦机柜的能耗来算,一年将近有1200万的支出,如果我们把能耗降低15%,每年能节省将近200万,有没有方案?只需要我们把传统的风冷换成我们的液冷就可以很好地解决这样的问题。
前面讲到我们浪潮信息对算力不足以及算力多样化需求的解决方案,我们要做到算力整体平衡。根据业务需求平衡多种算力资源,平衡信创算力的选择,通过算力硬件解决算力不足的问题。经过多年努力,浪潮信息在计算领域也取得了一些成绩,在此感谢在座的各位客户、合作伙伴对浪潮的支持与认可。最后诚邀各位专家莅临、指导浪潮!
关于企业网D1net(www.d1net.com):
国内主流的to B IT门户,同时在运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。同时运营19个IT行业公众号(微信搜索D1net即可关注)。