数据中心TCO模型如何建立

责任编辑:黄心怡

作者:腾讯网络平台部数据中心规划组 李典林

2013-09-27 11:09:33

摘自:CNW.COM.CN

为了更好理解能耗优化带来的潜在影响,我们一起回顾数据中心的TCO模型。根据前面的这些限定,图6.1则是前面案例A中包含了数据中心和服务器相关各子部分CAPEX和OPEX等的每年TCO分布图。

为了更好理解能耗优化带来的潜在影响,我们一起回顾数据中心的TCO模型。在更高层面,数据中心总拥有成本分为投资成本(CAPEX)以及运营成本(OPEX)两大块,投资成本指的是需要提前支出,并通过一段时间折旧消耗掉的,比如数据中心的建设成本以及服务器的采购成本等;而运营成本则指设备实际运行的每个月开销,比如电费、维修改造、现场人员工资等等,数据中心TCO大约可以通过下面这个等式表达:

数据中心TCO =数据中心折旧+数据中心运营成本+服务器折旧+服务器运营成本

本文通过简化TCO模型只关注主要层面,但保证数据中心成本的主要部分有足够的精确性。很多时候成本模型和现实案例成本的差异,主要来自于所提供的数据中心建设成本值不够精确,下图是目前北美地区不同类型数据中心的每瓦(关键IT负荷)建设投资造价数据,比如中小型数据中心的建设成本大约为12-25美金/瓦,而Dupont Fabros等数字地产公司的数据中心建设成本约为9-13美金/瓦,而大型互联网公司如微软和facebook数据中心的建设成本约为8-10美金/瓦。

一、建设成本(CAPEX)

数据中心的建设成本差别很大,受不同等级设计、规模、地址、建设速度等条件影响很大。显然的,增加可靠性和冗余程度会使得数据中心成本增加。很小规模的数据中心或者很大规模的数据中心通常的每瓦建设成本也比较高,前者因为很多固定成本不能分摊到更多瓦数的负载上,而后者因为大型的数据中心往往需要建设额外的基础设施,比如变电站等。前面表格6.1展示了部分典型数据中心的每瓦建设成本,根据经验,通常大型数据中心的每瓦造价大约在9-13美金,而小型数据中心的每瓦造价会更高。当然前面表格中提到的那些数值也不适合直接比较,因为很多项目范围并不一样,比如这些不同的项目可能部分包含了土地购买和楼宇建设的成本,而其他部分可能直接在已有的建筑中直接建设无需额外土地及建筑投资,因此单位造价肯定有所差异。

而对于大型数据中心而言,独立于建设规模外的部分固定成本相对于总投资而言占比较小,因此每瓦建设成本的比较就比较有意义了。因为数据中心建设的主要开销,比如供电、制冷和空间大小等几乎都随着负载功率直线增加,且通常情况下80%以上的建设投资都花费在供电和制冷上,而剩余的近20%都花费在机房建筑和园区配套建设上。

建设成本的差异也表现在冗余和可靠性方面,我们通常说的每瓦造价中的每瓦,指的是实际IT设备可用的IT关键负载功率。实际上很多报告很多时候并没有搞清楚IT关键负载的所指范围,比如一个数据中心有20M的柴发,但采用了2N的柴发冗余配置,实际只带了6M的关键IT负载,额外的4M给了冷机等其他配套使用。这种情况下,如果这个数据中心投资了1.2亿美金,则其每瓦造价实际应改为20美金(120/6),而非每瓦6美金(120/20)。此外,很多时候我们还会经常看到每平方英尺造价的另外一种算法,但这种算法往往应用较少,因为很难界定到底哪些面积需要算在分母中,哪些面积又不能算入。而且机房面积往往和数据中心最大成本支出的IT关键负载之间没有非常明显的关系,因此数据中心行业的专家们很少采用每平方英尺造价来评估机房建设成本。

每个月的初始建设投资折旧价格,则取决于投资折旧的总时间(和数据中心的期望寿命有关)以及商定的贷款率。通常的,数据中心多按10-15年来折旧。按照美国的会计法则,普遍采用直线法折旧,资产价值按每个月固定的数额不断减少直至清零。比如,一个造价为每瓦12美元的数据中心按12年折旧,那么折旧成本可按每瓦每个月8美分计算。如果前期建设的时候采用贷款资金,且按贷款利率8%来算,那么相应的每个月还需要额外偿还贷款利率支出每瓦5美分,这样数据中心每瓦每个月的总折旧成本为13美分。通常利率高低会随着贷款时间长度变化,在美国,很多公司典型的数据中心贷款利率范围为7-12%。

服务器的投资成本也是类似计算,只是服务器的寿命要短得多,通常只按3-4年完成折旧。为了归一化服务器和数据中心的投资成本,也有必要让服务器投资成本同样按每瓦价格来计算,分母通常采用服务器的实际峰值运行功率来计算。比如一台价格购买价格为4000美金的服务器,实际的峰值运行功率为500瓦,则每瓦支出为8美金,按4年折旧,那么服务器的每个月购买成本为每瓦0.17美金。同样服务器的贷款利率按8%来计算,会有额外的每瓦2美分的利率成本,因此服务器每个月的总折旧成本为每瓦19美分。

二、运营成本(OPEX)

数据中心的运营成本很难折算,因为很大程度上取决于运营的标准,比如同一时刻有多少名安保人员在巡视,以及柴油发电机多长时间测试和保养一次,还有取决于数据中心的大小规模。比如大型数据中心的单位运营成本会更低些,因为很多固定成本会随着规模增加被折旧得很小。此外,运营成本还随着数据中心所处不同物理位置而发生变化,因为气候条件、税收高低、薪酬水平等也会影响运营成本,还有数据中心的设计标准以及已经使用的年限等也会影响运营成本。为了更为简单分析,我们将运行成本拆分成两大块,一块是安保和维护等每瓦每个月的日常开销,另外一块是每瓦每个月的电费。在美国,对于几个兆瓦规模的数据中心的每瓦每个月典型运营成本为2美分到8美分,这里不包含电费。

同样的,服务器也有运营成本,因为我们主要关注整个数据中心基础设施硬件的运行成本,所以主要关注服务器的硬件维护及更换,以及服务器的耗电费等。服务器的维护成本很大程度取决于服务器类型,以及服务响应等级,比如4小时内响应和2个工作日内响应的服务价格是完全不一样的。

此外,传统的IT运营,很大一部分运营成本花费在业务应用中,比如一些软件license以及系统管理员、数据库管理员、软件开发工程师等的工资成本,我们这里将这些费用刨除,因为这些费用在不同场景下差异会很大,本文重点关注数据中心物理基础设施的运营成本。此外,在一些小公司内部,由于只有几十台服务器,通常没有设置专门的系统管理员。如果真的设置了的话,那么单台服务器的管理成本就会比较高。很多公布的研究材料都想努力去量化服务器管理成本,但这些公开材料中大部分数据都是设备厂商为了宣传他们给到客户的产品和服务是经济高效的,因此这些材料中数据可信且中立客观的运营成本通常非常少。但是大型数据中心中,由于设备集中且管理高效,这样每个管理员可以管理更多的服务器,比如每个管理员可以管理高达1000台以上规模的服务器,这样单位服务器的管理成本更为经济。

三、案例分析

虽然有较多变量的存在,通过观察不同行业的小部分数据中心案例分析,可以有助于我们理解这些成本因素的影响大小。首先我们看一个位于美国新建的典型几兆瓦规模IT负载数据中心(大约是uptime institute Tier 3等级),装满大量的机架式高端服务器产品,比如这里以Dell公司配置有2个CPU、48G RAM、四个硬盘的PowerEdge R520为例,其峰值功率大约为340W,2012年的价格大约为7700美元,剩下的一些变量参数选择如下:

1、2012年美国工业电费平均价格为6.7美分/每度电;

2、贷款利率按8%来估算,服务器按三年折旧;

3、数据中心基础设施按12年来折旧,每瓦造价按10美元来计算;

4、数据中心的非电费运营成本为每瓦每个月4美分计算;

5、该数据中心的 PUE按行业平均水平1.8来计算,若为谷歌的数据中心则PUE可为1.1;

6、服务器寿命三年,每年服务器的维保费用为服务器价格的5%计算。

7、服务器的平均运行功耗为峰值功耗的75%估算。

根据前面的这些限定,图6.1则是前面案例A中包含了数据中心和服务器相关各子部分CAPEX和OPEX等的每年TCO分布图。 

这个案例是典型的传统数据中心,服务器方面的支出占了TCO的大头,每月成本的大约78%都花在了服务器购买和维护中了。然而,采用低成本的标准商用服务器(可能可靠性也会低些),或者更高的电费价格,也可以大大改变这个TCO分布图中各子部分的比例。案例B(参考图6.2)就是一个采用了价格便宜、运行更快、峰值功率高达500W的服务器,但服务器价格却只有约2000美金。数据中心选址在一个电费较高,每度电10美分的地方。在这个案例中,数据中心相关的成本占比就升到了39%,电费占比也升到了26%,而服务器占比则降低到了只有35%。换句话说,在这个案例中,安放此类型服务器的托管成本构成中,数据中心基础设施和电费的总成本大约是服务器采购及维保总成本的两倍。 

需要注意到,即便电价更高以及服务器的功耗更高,案例B数据中心的3年总TCO还是要低于案例A的3年总TCO((案例B的总成本$6,774对比案例A的总成本$11,683)),因为服务器的价格很低。从案例B中我们还可以看到,能耗相关的成本占比会增加且越来越重要,因为CPU的功耗(以及性能)在1995年到2007年的12年内增长了8倍,或者年均高达19%的增长,反之,低端服务器的销售价格则较为稳定,变化很小。这样,服务器硬件的每瓦价格在降低,而电价及建设成本却一直在增加,换句话说,在长远看来,数据中心的基础设施相关成本(通常正比于服务器的数量和功耗)会在TCO占比中越来越高。

四、实际数据中心成本分析

实际上,现实世界里的数据中心成本会都比前面模型中的成本更高,因为到目前为止,前面模型中的数据中心负荷都跑到了100%设计功率,以及服务器的CPU利用率也运行地非常满,但实际情况是现实生活中这些条件很难同时发生。比如,因为数据中心的建设需要较长的时间,所以你需要预留有部分机柜空间用于未来的业务部署需求,因此机房通常不会很快装满,基础设施也不会很快达到设计功率,可能有些数据中心需要长达一两年之后才能达到较高负载率。此外,服务器通常也不会跑满到峰值功率,比如峰值功率为500W的服务器,实际正常运行的功率往往只有300W,这样服务器的运行功耗负载率只有60%左右,因此每台服务器每月的实际运行成本会比前面的模型中更高。总之,数据中心的负载率越低,那么相应的单位运行成本就越高。

因此提升数据中心的负载率可以降低单位服务器的运行成本,但是提升负载率却并不像看起来那么简单,因为设备厂家给出的设备功耗需要考虑100%的CPU利用率情况,但如果实际运行的CPU利用率只有30%(比如某台峰值为300W的服务器在30%的CPU利用率下实际运行负载只有200W),考虑PUE等因素,数据中心的可用容量有大约30%左右被搁置。或者反过来,假如我们设计机房的时候按200W服务器的实际运行功耗来设计,但如果在月底的某个繁忙时间,CPU利用率短时间跑满到300W,这个时候数据中心内部就可能会发生过热风险,或者会触发配电空开跳闸。类似的,如果为了满足业务的变化需求,在新上架的服务器中需要增加部分内存或者硬盘等来提升性能,这样设备功耗增加了,但机房却无法提供更多的额外电力。因此实际建设中,数据中心会预留部分的空间和电力用于满足这些设备变化和峰值负载冲击。通常预留范围可能从20%到50%,这意味着现实生活中的数据中心很少运行到其设计额定功率,比如可容纳10MW关键负荷的数据中心在较长一段时间内实际负载往往只有4-6MW的运行负荷。

五、部分负载数据中心的成本模型

对于部分负载数据中心的TCO建模,我们通过空置率来调整数据中心成本模型中各子项的占比。比如,一个有三分之一空置率的数据中心,其数据中心相关OPEX运行成本会增加50%,比如前面案例B中的数据中心,如果有50%的机柜空置率,那么数据中心相关的成本会占主要部分,而只有25%的成本在服务器侧。考虑到前面提到的数据中心未来扩容预留,这个数字并不夸张。因此,提高数据中心的使用效率,比如通过峰值限功率封顶等技术,可以大大节省数据中心的实际运行成本。对于一个采购成本为2000美金的普通服务器而言,如果数据中心运行在满负载利用率底下的单台服务器TCO为6774美元,而一半负载利用率情况下则单台服务器的TCO则高达9443美元。 

服务器CPU利用率非满载运行也正面会影响数据中心运营成本,因为服务器的实际运行功耗减少了。但是,这种节省是值得挑战的,因为减少这些服务器上运行的应用也很可能相应产生更少的应用价值,目前我们的TCO模型还无法覆盖到这些方面。因为前面提到的TCO都是只针对物理意义上的基础设施,而不包括运行在这些硬件上的软层面应用。为了测量这种端到端的性能,我们可以通过应用层面的价值来作为基准,比如完成多少量的银行交易,或者支撑多少的网络搜索能力等,再除以TCO来衡量。打个比方,比如我们有一个每个月花费1百万美金的数据中心,每个月可以完成1个亿的交易量,那么每个交易的成本是1美分。但如果发生交易拥塞(但基础设施仍可以支撑1个亿的交易量),当月只完成5000万笔交易,那么每笔交易的成本则变成了2美分。因此前面我们只分析了硬件层面基础设施的利用率,但需要时刻注意,软件性能以及服务器利用率也同样非常关键。

六、公有云的成本

不用建设你自己的数据中心,也不用自己再购买物理服务器,你可以从一些公有云服务器商,如谷歌计算引擎或者亚马逊的EC2等供应商处购买虚拟机。我们前面提到的DELL服务器可以和亚马逊AWS的四核超大内存云主机来做自购服务器和租赁虚拟机的比较,后者在2013年1月份的现购现付价格约是1.8美金每小时,或者三年合约价格为6200美金加上每小时0.28美元。

在开始和我们的成本模型做比较之前,先分析这两种差异很大的定价策略。采用现购现付模式,你可以在任意时间开始使用或者停止使用虚拟机,如果你只是在一年中的几天需要使用到虚拟机的计算能力,那么现购现付方式可以比任何其他方式更为便宜。比如你只需要在每个工作日使用两台服务器来处理6个小时你的峰值负载,那么每个月你只需要付30个小时的虚拟机费用。而如果自己采购服务器,使用一台自有服务器全年跑业务,则每个月需要7天共168个小时的运行成本。当然,现购现付方式的单位成本相当昂贵,达到每小时1.8美金,三年下来需要高达4.7万美金的租金,采用自有服务器三年则只需要2万美金。

这种情况下,如果你在较长时间都会使用到虚拟机计算能力,公有云服务商则会降低每小时的使用价格,但需要签订一个较长时间使用的承诺,并支付部分预付款。比如采用前面的三年租赁合同,则需要6200美金的预付款,以及7500美金的三年使用费,总价1.37万美金。大约只是现购现付方式三年的使用价格的30%,这个租赁价格比起自己采购服务器的2万美金价格也都有竞争力。

那么这些公有云服务商又如何赚到钱?他们的秘密在于规模。我们前面提到,很多运营方面的成本其实和数据中心的规模大小关系并不是非常大,比如你需要一个保安,或者7*24小时的现场运营人员,那么对于不管是5MW的数据中心还是1MW的数据中心,这一块的成本是基本一样的。此外,云服务提供商在服务器和基础设施方面的单位资本支出往往要比你自建会更低,因为他们可以大批量采购和建设。比如谷歌还可以通过设计自己的低成本服务器和高效率数据中心来进一步减少成本。

那为什么现购现付方式的租赁价格会这么贵呢?因为这些云服务商不清楚你是否会马上使用到这些计算资源,他们需要储备有足够的资源以满足各种客户现购现付方式的需求,因此这些资源的利用率肯定是大大低于100%,比如前面提到的一天中只有6个小时的峰值交易需要使用到这些资源,那么他们的利用率只有25%,这样,他们每小时的成本就相当于全天运行情况下的每小时成本的4倍。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号