互联网企业定制服务器到底难不难

责任编辑:editor03

2014-07-02 18:27:33

摘自:比特网

随着互联网向纵深发展,各种互联网应用不断涌现。在我们享受各种应用便利的同时,各大互联网企业却为蜂拥而至的访问压力而造成的成本快速增长而忧心忡忡。

随着互联网向纵深发展,各种互联网应用不断涌现。在我们享受各种应用便利的同时,各大互联网企业却为蜂拥而至的访问压力而造成的成本快速增长而忧心忡忡,在找到稳定盈利模式并被市场认可前如何生存一直是个严峻问题。
  
  因此,在互联网企业内,每当一个新互联网业务冲到了新的高峰时,除了看到产品部门欢欣鼓舞外,还能看到另外一群人拿着计算器,看着一堆excel表格,试图从中挖掘出一些省钱方法,以使企业活到IPO。对于只有“用最低廉的成本给用户提供最好的服务才能生存”的互联网企业而言,削减服务器采购成本成为必须攻克的任务。在笔者公司,该任务则被精确命名为“降低服务器3年总使用成本”。
  
  从百度、阿里、腾讯(三家企业通常简称BAT)的“天蝎项目”及整机柜交付特性来看,定制化项目首要目标无疑是降低成本。但在BAT干过的人会告诉你一个月上线几千台服务器是多么的令人苦恼,由此带来的压力简直让人崩溃,所以快速部署已经成为各大互联网公司除了降低成本外的第二目标,有时因为上线缓慢带来的机会损失远远大于服务器本身的价值。
  
  说到成本,很多读者其实并不清楚互联网公司在服务器上到底花了多少钱。图1是一个常规互联网项目三年设备使用成本分布(不包含带宽费用和运维费用)。
  
  图 1 某常规互联网项目三年设备使用成本统计
  
  从图1可以看出服务器采购成本约占一半的成本,机架费用约占三分之一。其中,机架费用基本上可以等同于服务器电力消耗。
  
  以上的比例确立了定制化项目的工作方向,即通过定制化项目去节省机架成本和设备采购成本。在笔者公司,“降低服务器3年总使用成本”项目的成功实施令我们节约了12.5%的机架成本(相比国际品牌标准服务器)和5%的设备采购成本。就产品本身而言,我们最终定制的服务器产品具有以下六大优势:
  
  1、 框架设计,跨代使用
  
  由于采用的是刀片式结构,每次英特尔处理器换代时只用更换主板等组件就可以继续服役。
  
  产品设计可以更换英特尔 3代产品,框架可以服役6-8年。
  
  2、 超短距散热,超大散热片
  
  风道深度只有550mm,远低于一般产品700mm的深度,散热效果更好。
  
  CPU散热片采用1.5U高度,比传统的1U产品散热片效率更高。
  
  3、 RackFree自由并柜、高密部署
  
  机箱可以放入标准机柜,也支持3-4个机箱直接堆叠锁紧(同时支持左右并柜),在相同机房面积下比整机柜方案部署节点密度高20%,在传统的20列*10行的机房面积可以部署19200个节点。
  
  4、 1.5U刀片高度,满足未来扩展需求
  
  刀片高度考虑未来扩展,可以支持更大的存储容量和更高TDP的CPU产品。
  
  5、 无背板设计,支持水冷
  
  由于没有设计了背板,刀片后部就是风扇墙模块。在未来可以去掉风扇墙模块直接更换为油冷/水冷模块,方便快捷。
  
  6、 微模块设计,适合BAT以外的中小企业
  
  每个模块只有12U高,重量不超过100kg。与1000kg的整机柜方案相比,运输和上架更为方便,同时也免去了机房改造的麻烦。当企业发展以后,这些产品还可以部署到定制机房,直接并机(无需机柜),部署密度也更高。
  
  定制化流程
  
  整个服务器定制化项目的工作流程如图2所示,共包括确定产品定位、分解研发方向、书面推演等八大步骤。
  
  图2 产品定制流程
  
  确认产品定位
  
  在具体实施之前,我们需要首先考虑整个供应链如何配合。当时我们有两个选择:
  
  一是进行主板PCB级别定制,走深度定制之路;另一个是基于现有主板产品的重新整合,进行浅定制。
  
  我们对这两种方式的利弊进行了分析,见表1。
  
  表1 两种定制模式利弊对比
  
  大型互联网公司facebook,google,amazon都选择了主板PCB级别定制。此模式研发成本较高,如果没有万台以上的采购规模摊薄了研发成本,TCO很有可能不如从OEM/ODM直接买标准机架服务器。
  
  而我们的项目在计划之初就有以下明确的定位:
  
  CFD模拟
  
  在和厂商确认方案时,强烈建议使用Fluent、Pro/E和6SigmaDC 软件,通过建模和设定环境条件,对机箱的散热设计、装配流程,结构强度、IDC整体配合进行充分地模拟,以免事后修修补补,造成研发投入的浪费甚至项目失败。
  
  通过把我们的设计理念、运维需求及各部件特性进行综合,最终定稿的产品规格。
  
  外观:
  
  定制化产品的外观和顶部控制板见图5和图6。
  
  图5 定制化服务器外观
  
  生命周期:机箱6-8年,刀片3-4年,电源和风扇4-5年
  
  配置:
  
  一个12U 6托盘(竖插)的产品, 12U/12Node(安装半宽主板)或者 12U/6Node。
  
  每个托盘可以安装1个双路E5主板或者2个双路E5主板(半宽)
  
  顶部的1U内部安装所有控制板和1-4块650w-1200w电源(6托盘共享)
  
  背部安装9颗12cm风扇,每2个主板共享纵向的3颗风扇(2+1配置)。
  
  电力供应:不使用中板/背板,使用航空插头连接顶部1U和下面6个Node进行供电。
  
  散热控制:航空插头中有部分针脚用于传输主板FAN口的PWM方波到顶部1U中的控制板。
  
  控制板汇总多路PWM信号后进行对背部9颗风扇的转速调控。
  
  如果控制板失效,9颗风扇自动转入全速运转。
  
  信息收集:控制板上定期收集温度/湿度/转速/电源功耗等数据,然后通过API进行回传。
  
  图6 定制化服务器顶部控制板
  
  样机生产
  
  有了CFD模拟的结果,才使我们和服务器厂商对这个产品的未来有了明确认识,之后才进入到打样阶段。我们共生产了3台样机,每台配6个双路E5节点。1台由我们验证,1台由厂商进行验证,1台用于对外宣传/测试,寻找下一个采购者。
  
  样机验证
  
  由于使用的主要部件CPU/内存/硬盘/主板/电源/风扇都是成熟产品,只有12V转ATX电源板和风扇控制板是全新设计的,所以验证工作主要放在以下三个方面:
  
  1、 各部件协同稳定性上;
  
  2、 电源时序、12V大电流安全性;
  
  3、 功耗降低幅度和设计方案的吻合度;
  
  所有测试的环境温度起点就大于40摄氏度。我们将一个20U机柜改装为恒温箱,可以对服务器进风口持续输入30~43摄氏度的空气,温度稳定性为正负0.3度,如图7所示。
  
  图7 对定制化服务器进行高温测试
  
  由于一开始就引入高温环境,品质较差的组件在测试之初就露出原形,让我们节约了大量时间。
  
  经过两个月的测试,我们还发现了一些问题,例如电源时序设计有bug,会因为+5V VSB电流不足而造成刀片启动异常,还有硬盘震动异常,如下图:
  
  以上问题经过厂商的攻关,都已经解决,也让我们这些初出茅庐的服务器设计者增长了不少知识。
  
  小规模生产
  
  通过数月的样机验证,我们已经进入到小规模生产阶段。在公司的日常采购计划中逐步增加定制服务器的采购份额。已经可以供货的刀片配置为:
  
  1、 php/python/Tomcat 服务器 2*E5-26xx v2 + 1~2块2.5英寸SAS
  
  2、 CDN服务器 1*E5-26xx v2 +8块2.5英寸SSD
  
  3、 Memcache/Redis 服务器 2*E5-26xx v2 + 4*2.5英寸 SAS
  
  结语
  
  通过将近两年的设计、沟通、验证,我们终于完成了定制服务器的第一版,其间的种种感悟汇成几点建议:
  
  1、 量化定制服务器可以带来有形价值和无形价值,让参与的人和决策的人认识到它的价值;
  
  2、 产品要接地气,一定要根据企业的需求、业务环境和采购能力设计产品;
  
  3、 服务器设计是个综合学科,外聘顾问比闭门造车综合成本更低;
  
  4、 公司内部对新产品的信任度需要花时间去经营,信任不是一天就能养成的。
  
  1、 设计一款框架产品,在满足本公司需求(可以服务Intel 3代产品)的前提下,可以让OEM/ODM以低廉的价格进行改装,以适合其他任何一家互联网公司。
  
  2、 坚决不定制主板/电源等复杂的PCB组件,一定要使用出货量5万块以上的主板型号,使用通过了市场检验的产品。
  
  3、 降低产品复杂度,让更多的厂商可以参与。
  
  因此,我们选择了基于现有主板产品的重新整合,走浅定制化之路。
  
  分解研发方向
  
  有了项目目标和产品定位,我们进入到了项目分解阶段。通过服务器使用成本构成分析,如图3所示。
  
  图3 定制化服务器成本构成分析
  
  通过成本构成分析,我们确认了以下三个工作方向:
  
  1.减少电源数量+提高电源效率;
  
  2.减少风扇数量+提高风扇效率;
  
  3.减少五金结构+共享部分组件。
  
  书面推演
  
  为了后续寻找合适的厂商,我们使用一些计算公式进行推演,确认通过以上的三个工作方向可以节约的成本。例如使用电源共享方案,电源数量从12个550w可以缩减到三个1050w,同时电源转换效率可以从82%,提升到92%,原理见图三。散热共享方案可以从30个4cm 10000转风扇缩减到9个12cm 3000转。综合各种因素以后,计算得出TCO降幅约在10%-17%之间。
  
  图4
  
  寻找合作伙伴
  
  有了上述的书面推演,使我们明确了成本节约的幅度,也方便用数字和厂商沟通.然后就开始和国内及国际ODM/OEM品牌洽谈合作意向。我们接触了四类厂商,其特点如表2所示。
  
  表2 四类厂商特点对比
  
  整个沟通的过程是漫长和痛苦的,我们必须让厂商相信这个合作项目可以为我们双方都带来价值,让他们相信定制产品除了卖给我们还可以卖其他人。幸运的是最终我们说服了两家合作伙伴,项目开始进入正轨。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号