Facebook：一种创新数据中心网络拓扑结构

责任编辑：editor005 作者：布加迪编译 |来源：企业网D1Net 2015-01-26 13:57:39 本文摘自：51CTO.com

Facebook的数据中心每天要收到多达数十亿次的用户请求；随着这家公司不断添加成员，推出新的功能特性，请求数量在不断增加。这一切对Facebook来说基本上是好事，可是对Facebook的网络工作人员来说却是个挑战。比如说，五个月前还能满足要求的数据中心拓扑结构现在已不堪重负了。

　　所以除了构建大型数据中心(比如位于衣阿华州阿尔图纳的这个数据中心)外，Facebook的工程师们还在不断优化数据中心的网络设计。话虽如此，用调整和改动来形容工程师们提出并在阿尔图纳数据中心落实的的设想想法可能并不恰当，更像是他们重新编写了网络设计指南。

　　旧的Facebook网络

　　在阿尔图纳数据中心兴建之前，Facebook的工程师们将数据中心的服务器机架排列成集群，类似图A中所示的架构。在实际环境中，Facebook不是只有三个机架，而是会有数百个机架。另外该图还显示了每个机架的架顶式(TOR)交换机，架顶式交换机在服务器和上游聚合交换机之间充当中介。

　　

　　图A：架顶式(TOR)――网络连接架构

　　这种架构很管用，但是却给Facebook的工程师们出了几道难题。Facebook的网络工程师Alexey Andreyev解释：“首先，集群的大小受到集群交换机端口密度的限制。想建造最庞大的集群，我们就需要最庞大的网络设备，而那种设备只有一批数量有限的厂商才有售。另外，一个设备中需要这么多的端口与提供带宽最高的基础设施这种愿望相悖。更为困难的是，如何在集群大小、机架带宽和集群外面的带宽之间保持长期的最佳平衡。”

　　Fabric：新的网络拓扑结构

　　工程师们将每天那些数十亿次请求视作一种激励，决定摈弃复杂的、很耗带宽的自上而下的网络层次体系，改而换成一种新的设计，名为Fabric。图B中的幻灯片描述了新的服务器机架集群，名为pod。单单一个pod包括48个机架和架顶式交换机，架顶式交换机相互连成四只fabric交换机。“每只架顶式交换目前有4条40G上行链路，为用10G连接的服务器机架提供了总共160G的带宽容量。”

　　

　　图B

　　这种设计方法具有下列优点：

　　易于部署拥有48个节点的pod

　　可扩展性得到了简化，而且没有限制

　　每个pod都一模一样，都使用同样的连接

　　下一步是连接所有fabric交换机――图C中的幻灯片描述了这项任务是如何完成的。Andreyev表示，这个比较简单(难以想象它曾经是什么样子)。

　　

　　图C

　　Andreyev解释，Facebook的工程师们在增添主干交换机时恪守48个节点这一原则。“为了实施覆盖整个大楼的连接，我们建立了主干交换机组成的四个独立‘平面’，每个平面里面最多可以扩展到48个独立设备。每个pod的每只fabric交换机都连接到本地平面里面的每只主干交换机。”

　　Andreyev接下来提到的数字大得惊人。“pod和平面共同组成了一个模块化网络拓扑结构，它能够容纳数十万台用10G连接的服务器，可扩展到数千万亿位的等分带宽，为我们的数据中心大楼提供非超额订购的机架到机架性能。”

　　网络运营

　　从架顶式交换机到网络的边缘，Fabric网络设计统一使用“第3层”技术，支持IPv4和IPv6，并且使用等成本多路径(ECMP)路由。Andreyev补充说：“为了防止偶尔出现的‘长流’(elephant traffic)大量占用带宽，导致端到端路径性能下降，我们让网络具有多种速度――所有交换机之间使用40G链路，同时通过架顶式交换机上的10G端口来连接服务器。我们还有服务器端机制，以便万一出现问题，可以绕过故障处。”

　　物理布局

　　Andreyev写道，图D中所示的新大楼布局与Facebook之前的设计区别不是很大。一个区别是，将Fabric新的主干交换机和边缘交换机放置在数据大厅X和数据大厅Y之间的第一层，并让通向外界的网络连接(最小入口点，即MPOE)跨越主干交换机和边缘交换机时代。