数据中心在经验积累上的创新往往意味着风险。在我们看来,具有多个大型数据中心操盘手经历的人,他的经验更意味着是一种力量的存在。数据中心工作组顾问专家曲海峰就是这样一位拥有着力量的人。
近日,布线联盟网总编辑张旭军和曲海峰先生就数据中心的规划、技术创新、绿色节能以及布线方式等内容进行了深入探讨,试图将这一赋有经验的力量传递给广大用户。
项目投资者应多了解国标
张旭军:中国有句老话,“没有规矩,不成方圆。”在综合布线领域,我们国家有GB-50311、GB-50312国家标准,数据中心方面有GB-50174。您在进行项目规划时,这些标准有怎样的指导作用?
曲海峰:国家规范/标准中蕴含着大量智慧,包含了大量实践经验积累出来的精华,对用户来讲,具有广泛指导意义。但是,问题是什么?当有了规范之后,用户如何遵守规范?如何理解规范里定义的内容?
曲海峰:现在所谓的国家标准还没有完全上升到强制性的层面。如何让一个标准能够起到它应该有的地位和作用,核心的还是应该对投资决策者进行深入的指导和影响。
曲海峰:国家规范/标准中蕴含着大量智慧,包含了大量实践经验积累出来的精华,对用户来讲,具有广泛指导意义。但是,现在的问题是什么?当有了规范之后,用户如何遵守规范?如何理解在制定规范里面定义的内容?在目前看,是存在一定差距的。除了设计规范之外,还要做实施、验收规范,这也是辅助国标变成完整体系的过程。简而言之,规范是有指导意义并有法律效力的,它对于保护用户投资特别有价值。但是目前要想把这方面做的更充分,真正起到作用,用户的理解、沟通、反馈、普及是重中之重的工作。
关于GB 50174和GB 50311,我建议在出新的修订版本的时候,在物理布局(包括一些系统的兼容性、可升级换代等方面)有更多的沟通。在住建部的标准体系下,对于布线标准来讲,在一个相对有限的领域里面,把这个工作做到了比较完善,或者接近于极致的水平,它的规范的发展速度,对行业的指导意义,绝对是领先的并引领了客户的需求。
数据中心行业的发展起步晚,发展速度又非常快,所以各种规范还相对滞后于市场和用户需求的发展。所以从这个角度来讲,也期待着GB 50174新版本的诞生。
现在所谓的国家标准还没有完全上升到一个指导性、或者是说强制性的层面。首先是投资决策人对这个事情的理解比较少,我们现在举办的很多行业上的会议,参加的人还是局限在技术工程或者项目管理人员,真正决策者参与的还比较少。如何让一个标准能够起到它应该有的地位和作用,核心的还是应该对投资决策者进行更多深入的指导和影响。什么能够打动他们?能够打动他们的只有一点,如果按照规范来做,可以规避项目风险,提高收益性价比。如果能让用户明白这一点,这个规范地位和层次会有进一步提升,而不是只停留在一些技术人员桌面上的参考文件。
张旭军:综合布线智能管理系统最近两年越来越受到用户关注。综合布线工作组《2011年综合布线市场调查报告》显示,有61%的用户非常有兴趣,或积极考虑在新的布线系统中选择使用智能管理系统。您是如何看待综合布线智能管理系统的?您负责的项目中有没有使用综合布线智能管理系统?
曲海峰:我本人职业经历都是做服务型数据中心(或者叫外包型数据中心)。以往的业务当中,我们的服务界面相对来说比较简单,就是基础设施层面。从网络角度来讲,几乎90%以上面向的都是互联网。从这个角度来讲,我们的布线系统还是非常简单的,对于智能管理布线系统应用案例比较少。我觉得对于具有信息化系统的企业用户来说,他们的数据中心对智能管理的需求会很大,会有更多的经验可以拿来分享。在我这边可以看到的是比较简单的,但是这种简单实际上是源于应用场景,与需求相关。
有人提出,互联网会越来越简单,如果你真的建设云,你必须简单。所谓简单就是把模式变简单,用简单的方式实现智能化。如果说IDC或者互联网数据中心,未来发展趋势不会是采用一种复杂的管理系统解决这个问题,而是在系统架构设计的时候就弱化技术特征,然后从架构上变简单。
双管齐下解决高密度
张旭军:高密度和绿色这两个词无处不在,在做数据中心规划的时候,您一般是用哪些方法来解决用户对高密度的需求?
曲海峰:高密度是可选的手段。但是一定要理解,高密度不见得是真正能够满足业务最优化的模型,要评估高密度带来的成本。
曲海峰:用户在做数据中心规划的时候,首先要清楚自己对于性能和可靠性的要求,要平衡好这两者之间的关系,有了这个原则之后,就可以依据这个选择技术和实现方式了。
曲海峰:我觉得有两个角度,第一个来自于高密度的需求是如何产生和如何理解的,这是第一个层面的问题。第二个,为了满足高密度的需求,应该用什么样的工程技术方案来实现。
我们先说需求是如何产生和如何理解这个需求的。就目前的现状来看,真正有高密度需求的最典型应用是超算,比如勘探、气象等。这是真正称之为高密度系统,因为每个机柜密度都很高,而且系统平台是统一的。在应用发达国家,现在对于高密度的定义,单机柜15千瓦以下都不叫高密度,认为15千瓦以上才叫高密度,甚至像30千瓦、60千瓦。 这是对需求的定义和理解。对于目前国内的高密度需求,我觉得是渐进的过程。为什么这么说呢?就是说,要看用户花费了多少钱,提供了多少计算能力。所以从这个角度来讲,高密度不见得是真正能够满足业务最优化的模型。
国内现在有这么多高密度方案的产生,主要有两个原因。一方面是,厂商愿意推出解决高密度的专有设备,这是技术能力的表现,包括商业规划的做法,也就是厂商在推高密度。另一方面,现在很多的高密度是在解决原有数据中心的改造项目当中,就是说用户数据中心空间有限,物理空间受到局限,这个时候需要把密度提高,拥有更多的计算能力。这样的项目其实操作难度是非常大的,风险很高。什么意思呢?就是说我们不是简简单单的看到一个机柜原来放十台服务器,现在放了二十台服务器就叫高密度了,这后面存在着一系列问题,必须是经过深思熟虑的过程。目前高密度最大的挑战影响,一是受制于电力扩容,二是受制于物理场地环境,比如没有办法安装更多的设备制冷单元,或者原来只有一千千伏安的电力装在一百个机柜里,现在还是一千千伏安的电力,装在了五十个机柜,对性能提高并没有带来价值,所以这种做法我认为性价比不高,得不偿失,这是关于需求的产生跟需求的理解。
简而言之,高密度是可选的手段,但是一定要理解,业务需求对于高密度是不是有绝对实施的必要,并且要评估高密度带来的成本。
我们再来看一看关于实现高密度系统的技术和工程手段,这是现在讨论最多的问题。假定用户的高密度需求确定了,不管是新建项目也好,还是改造项目也好。其实实现高密度的方案和手段是多种多样的,这个并不是很神秘。有几种手段可以解决高密度,第一是靠产品化的模式解决的,比如说像我们知道最多的集成化、一体化制冷机柜。这种方案比较适合于企业用户使用。就是说企业用户选择一个好的服务商,用一个标准的产品交付模式获得高密度解决方案。但如果是服务型数据中心,可能更多会采用工程化的方法来做。简单讲,这类用户不会仅仅考虑采用专有的设备,而会从工程化角度解决问题。
在机房设计的时候额外考虑了功能性的方法。举个简单的例子,有一家做互联网游戏的公司,以前在运行某款游戏的时候,当时单机功率做到了26千瓦。当时研究了很长时间,最简单的办法就是独立设计出来一个空调单元。就是把一个区域封闭起来,从地板下面到上面全部封闭起来,形成独立的暖通环境。把机柜分开放了,其实也解决了连续运营的问题,非常稳定。从这个角度讲,高密度在暖通设计上,只要暖通设计合理,用传统工程化的方法也可以解决高密度,不一定要额外加一些冷水背板、高密度的制冷机柜。
但是这里要讲一个问题,在我们现有的数据中心,传统机房的做法,我们发现单机柜8个千瓦大概是一个临界平衡点,就是机柜在8个千瓦以下的时候,可以靠简单的(比如说暖风通道封闭、架高地板、调整气流)方法解决问题。如果超过了8个千瓦之后,系统就要进行额外设计,而这种额外设计带来的成本主要投资在对意外风险的防范上。什么意思呢?用这些方法做到一个机柜或者一个模块,每个都超过8个千瓦,但是往往需要采用辅助设施,比如额外的制冷单元、额外的风扇、额外的冷冻水系统。
与以前数据中心的标准设计相比,高密度数据中心实际上只是在电力方面做了冗余的考虑,包括UPS、备机等方面。但是在暖通方面,没有过多冗余设计,如果用户面临超过单机柜8个千瓦,或者达到高密度之后,在暖通这部分冗余系统会额外花很多钱,而且往往限制于场地条件,如是不是有地方安放室外机,是不是有地方架设管道设备,这时候带来的风险控制挑战是很大的。所以我们前边提到一个话题,如果采用了高密度,系统冗余程度会增加,这是费用当中很高的一块儿,这也是需要考虑的问题。
另一方面,在决定采用什么样的工程和技术实现的时候,我建议采用成熟厂商的产品。如果用户是服务商,可以用工程的角度解决这个高密度的问题,但是单机柜8个千瓦,我认为是临界平衡点。我们每次在做数据中心设计的时候都会画出这样一个模型,也就是性能和可靠之间的平衡。T4标准的数据中心代表着最高的可靠性,实际上,真正T4需求的用户非常少,可能只占整个数据中心百分之几的份额。
大部分用户愿意牺牲一部分系统的可靠性,而需要更高的性能。这种最典型的代表就是互联网,比如我们讲的.COM公司。还有一类是超算,千万不要认为超算的可靠性很高,超算是可以停机的,这些应用是应用高密度很多的地方。另外一类用户,尽可能要高可靠性,比如T3、T4水平,但是密度没有那么高,比如政府、银行、电信。所以,用户在做数据中心规划的时候,首先要清楚自己对于性能和可靠性的要求,有了这个原则之后,就可以依据这个选择技术和实现方式了。
“上走线”的绝对支持者
张旭军:关于数据中心的布线方式有“上走线”和“下走线”之分。对于这两种走线方式,目前出现了一些争论,我想听听您的观点。
曲海峰:这个问题在我这儿比较简单,我个人观点很明确,就是应该“上走线”。
曲海峰:“下走线”占用的净高会高于“上走线”。这个可能只是在十几公分、二十几公分的差别。但正式这种差别,对于数据中心很多投资来讲,往往是决定成败的。
曲海峰:这个问题在我这儿比较简单,我个人观点很明确,就是应该“上走线”。为什么这么说?因为从布线系统来看,主要考虑几个问题。第一个是路由,第二个是串扰,第三个是密度或者是容量。弱电系统一般会考虑这些问题。数据中心项目是一个整体项目,做整个数据中心架构设计的人要通盘考虑这些问题。
我认为“下走线”没有“上走线”合理,原因是基于几个方面。第一个是目前国内数据中心项目建筑层高有限,很多都是四米以下的建筑,从这个角度来讲,“下走线”占用的净高会高于“上走线”。这个差别可能只是在十几公分、二十几公分的差别。但正式这种差别,对于数据中心很多投资来讲,往往是决定成败的,因为建筑的层高无法改变,用户就是没有那个层高。这也是很多用户很难找到给数据中心用的建筑,有一些用户在停车楼层做数据中心主要就是层高的问题。从这个角度来讲,“下走线”和“上走线”节省出来的十几公分,恰恰是决定项目成功与否的重要原因,所以应该是尽可能压缩空间。
第二方面是暖通。在气流组织方面,下走线明显不利于静压箱形成。我们谈了这么多绿色、节能环保,因为机电系统可改造的空间在架构上最小,所以暖通就非常重要了。对气流的组织实际上决定了整个系统的能效,包括PUE的能效。从这个角度讲,应该破除一系列不利因素,留给有利的方案。所以地板下面干干净净的,就应该是一个静压箱,“上走线”有利于暖通系统的设计。
第三方面是关于平面布局和未来可变化。我和一位国际上在数据中心建设方面非常权威的老先生讨论过一个问题:“是不是未来数据中心可以不用地板”?他给了一个很有经验的话:地板可以给你最大的灵活性。如果把布线也放在地板下面,调整成本会变的很大,这是一个平面布局的变化问题。所以我们做的是数据中心架构设计,要考虑各种各样的因素。从这些方面来讲,我相信,可以平衡掉或者说可以产生一个主导意见,采用“上走线”。当然,“上走线”也会有一些小的问题,比如说会有串扰、空间上会变的更局促等等。但是综合利弊来讲,意见是倾向性的,是压倒性的。
张旭军:“光进铜退”这个概念已经提出很久了,但整体看来,光是进了,铜是退了。但和“光进铜退”这个提法来讲,演进的速度并不是那样快?在数据中心领域,“光进铜退”会更加彻底一些?
曲海峰:其实很多事情的发展过程都是经济利益驱使的过程,“光进铜退”在最开始的时候作为技术趋势,是比较多被提及的,但是影响速度的原因还是在成本对比。在数据中心领域,普及光的有利条件和有利环境应该比铜更多一些。
所以从这个角度来讲,至少从我个人经历的数据中心项目基本上都倾向于把光铜比例定义到50%对50%。对于服务型数据中心来说,他们更乐于看到“光进”。
“第一个吃螃蟹的人”
张旭军:我们知道,很多用户对于新产品、新技术的选择都比较谨慎,不愿意做“第一个吃螃蟹的人”,这是否也意味着是一种保守?
曲海峰:这种保守来自于决策机制,投资的决策机制决定了对使用新技术的态度。我愿意尝试新的技术,但是这些新技术我们要充分了解,并且对风险和投资的性价比要做完整评估。
曲海峰:很多时候所谓的创新并不是真正的技术创新,用户应该有一个非常清晰和有能力的人对技术路线发展有把握,他可以跨行业理解一些东西,并且具有整合能力。
曲海峰:这种保守来自于决策机制,投资的决策机制决定了对使用新技术的态度。我简单说说我个人对“吃螃蟹”的理解。在我经历的数据中心项目当中,我个人的风格和习惯是愿意尝试新的技术,但是这些新技术我们要充分了解,并且对风险和投资的性价比要做完整的评估。在我所经历的事情当中,创新给我们带来的影响是利大于弊的,只要你能合理控制风险,创新带来的价值都是利大于弊的。很多创新的东西失败不是失败在技术上,而是失败在应用的环境上,说白了就是没用好。为什么没用好?一方面,在一开始调研的时候没调研清楚,理解清楚;另一方面,在后续过程中,没有一套有效的机制去保障它能够持续进行,所以失败的情况会比较多。但是一旦创新带来成功的话,它给出来的回报远远要超过失败承担的风险。所以从这个角度来讲,我们认为应该去创新,应该去尝试“吃螃蟹”。但是评估机制是建立在一个充分平等且和实际相结合的基础上,这是非常重要的。我们有很多决策机制不是建立在平等、充分且和实际相结合的基础上,所以这种风险给创新带来的失败是比较大的,很多人畏惧这种东西,就完全不做。
张旭军:但是对于用户来说,建立评估体系,对新产品、新技术的应用情况进行评估,这是不是难度蛮大的?
曲海峰:我觉得其实难度不大。咱们现在国内各种各样的项目,比如说对创新或对“吃螃蟹”的事情,传统做法就是请专家进行评审,且不论请来的是什么背景的专家,就算他很专业,在这种公开的评审会上,总是有各种各样的因素,不能真正达到各抒己见,所以我觉得这种评审会的方法是没有价值的。
我个人赞同的是跟厂商建立更全的合作,比如建立联合实验室也好,测试项目也好,通过一种合作模式来解决。首先应该建立测试性或者示范性的项目,并且数据是由自己的实际工程技术人员拿到的第一手数据,这是我特别看中的。第二,可能用户经常会采用看起来很好的技术,但是这个技术是专有的,这也是我尽量回避的。为什么呢?不论技术再可靠,只要技术一旦变的专有之后,就会变成商业上的大风险,后续的成本看不清了,或者是绑死在一条船上,尽量建立在自己测试的基础上。很多时候所谓的创新并不是真正的技术创新,用户应该有一个非常清晰和有能力的人对技术路线发展有把握,他可以跨行业理解一些东西,并且具有整合能力。
张旭军:对于数据中心来讲可创新的地方挺多的,从数据中心发展史来讲,确实有很多新技术、新理念包括一些新的设计思想可以值得去尝试,像Google刚刚引用海水做冷却。
曲海峰:国内数据中心项目经常是几万平米,十几万平米,从这种角度,可能项目的需求还没有给创新留出足够的反映时间,这是现在一个很大的问题。
数据中心应该建立一套完整的评估体系
张旭军:用户存在的一个普遍的现象是,重建设、轻管理,包括日后的运维。您是否有好的经验让广大的用户更多的重视管理和运维?
曲海峰:我并不认为用户没有意识到管理很重要,而是用户难以用现在自身已有的条件去做到完善管理,这跟我们的企业里面多年形成的机制是有关系的。
曲海峰:数据中心应该建立一套评估体系,评估体系应该是完整全面的:第一是设计,第二是实施,第三是运行,重点在于运行。
曲海峰:这个问题涉及到一些行业的根本东西,如果从小的层面来讲,你可以给用户提供很多好的建议,比如咨询、服务、各种各样的工具。但是从我个人的观点来讲,看行业变化应该是这个社会变的分工明晰。举个例子,不可能让老百姓知道如何去打假,因为老百姓不应该学会打假。国内现在很多大型数据中心建设,是花的起钱,但是用不起人,这个情况是很多的。所以从这个角度来讲,我并不认为用户没有意识到管理很重要,而是用户难以用现在自身已有的条件去做到完善管理,这跟我们的企业里面多年形成的机制或者是环境是有关系的。所以从这个角度来讲,你要看到问题产生的层面和解决的层面。如果在具体层面,应该引进更多的评估体系,包括设计、实施和运行。一个好的系统,如果疏于管理的话,会达不到系统应有的品质,但是一个差的系统,管理好的话就会提升品质,虽然它在硬件上不可能达到那种效果,但是整体交付效果上,可以达到或者提升原有的品质。
数据中心应该建立一套评估体系,评估体系应该是完整全面的,第一是设计,第二是实施,第三是运行,重点在于运行。运行部分可以参考国外已经有的经验,比如运营商或者企业内部形成的管理规范。在这些过程当中,我觉得更多的是把责权利条块化、明晰化。我认为这只能做到一个层面,因为数据中心的管理运行问题太复杂了。我建议用户尽可能的引入评估机制,尽可能引入一些专业的细分角色来做。真正问题的解决方向是用服务的方式解决问题。用户不要想做很多不太可能或者不擅长的事情,有很多东西确实是人家该挣那份钱,这个是很核心的问题。