探访LinkedIn公司的数据中心

最近,NetworkWorld.com网站的首席编辑John Dix与领英公司的生产运营兼IT副总裁Sonu Nayyar及其基础设施工程高级总监Zaid Ali Kahn进行了一次深度的访谈。

毫无疑问,为了支持领英公司(LinkedIn)遍及世界各地的4.67亿的注册会员,该公司需要消耗大量的功率,特别是考虑到该网站的每名注册成员都会获得相当个性化的页面访问体验:一个专属的访问网页,而该页面仅仅只包括他们的联系人信息。而为这些负载提供支持的是该公司跨多处数据中心的共计约100,000台服务器。为了进一步详细的了解领英公司是如何实现这一切的。

最近,NetworkWorld.com网站的首席编辑John Dix与领英公司的生产运营兼IT副总裁Sonu Nayyar及其基础设施工程高级总监Zaid Ali Kahn进行了一次深度的访谈。

 探访LinkedIn公司的数据中心

图1、领英公司位于俄勒冈州希尔斯伯勒县的新数据中心

让我们先从宏观大局出发,有请二位先大致谈谈贵公司遍及全球世界各地的数据中心吧。

探访LinkedIn公司的数据中心

图2、LinkedIn公司生产运营兼IT副总裁Sonu Nayyar

Nayyar:在美国,我们有三处主要的数据中心负责为全球的LinkedIn.com网站提供服务,一处位于德克萨斯州的理查德森,一处位于弗吉尼亚州的Ashburn,还有一处是我们刚刚在俄勒冈州希尔斯伯勒县最新打造的数据中心。在2016年早些时候,我们还在新加坡建立了一处较小的数据中心,其主要目的是提升我们在亚太地区市场的注册会员们的访问体验。其基本上是一套完整的数据,但只适用于亚太地区的会员。所有四处数据中心都由我们的MPLS骨干和13个全球入网点(POP,point-of-presence)连接。

探访LinkedIn公司的数据中心

图3、LinkedIn公司基础设施工程高级总监Zaid Ali Kahn

这几处数据中心都是相似的架构吗?还是说这些数据中心是在不同时期建造的,故而是一种混合呢?

Nayyar:我们有一种混合。之前,我们在Ashburn建立了我们的第一处数据中心,最开始使用的是托管的设备。显然,该技术正逐年发展完善,现在,俄勒冈州的数据中心已然获得了一套完整的升级功能。

Kahn:我们在弗吉尼亚州数据中心的打造是我们公司开始转向批量模型的时候。因此,我们没有使用诸如Equinix等公司的像零售商一样的计算容量能力,而是租用了数据中心空间——其基本上是一个大空壳,内置了一切内容,包括电源、配电通道、机架等等。而且,在弗吉尼亚的数据中心建成之后,我们又在德克萨斯州兴建了另一处,因为我们得以能够很快的实现规模化。而当我们决定兴建俄勒冈州的数据中心时,我们能够退后一步,反思我们希望我们未来的数据中心到底是怎样的。这就是我们转换到超大规模模型的时候了。展望未来,我们将把我们其他的数据中心也改造为这一新的模型。

贵公司并没有也像其他一些网络巨头一样,在构建你们自己的服务器,对吧?

Kahn:是的,我们正在使用独立的机架式服务器。我们与OEM供应厂商密切合作,以确保它们满足并符合我们的性能规格等要求。我们是思科UCS的第一批大用户之一,但我们已经开始更多地转向Supermicro商用硬件了。

这些数据中心是否也支持您企业的业务需求?

Nayyar: 我们有一个混合的模式。我们在加利福尼亚州的圣克拉拉有一个小型的数据中心,在该数据中心有我们的企业数据中心资源,包括人力资源、财务、开发、预备生产等——但我们也兴建了俄勒冈州的数据中心,以便使得我们可以使用安全区域,以便从任何数据中心都能够支持企业的这些需要。

面向客户的LinkedIn应用程序是什么样的?

Nayyar:我们的应用程序是很复杂的。因此,数据中心中的所有内容都是为了支持在您访问LinkedIn.com网站时所呈现的页面。你可以想象,每位注册会员访问我们网站时采用的是不同的连接,而且,每个会员所看到的页面也都是高度定制化的,而生成每个定制化的页面会在我们的数据中心产生海量东西走向的流量。而随着海量计算负载的继续。对于进入我们的企业网络的每个字节的数据,我们都会100倍的由东向西生成页面。

Wow。真是不简单呢!

Nayyar:通过我们的应用程序,一切都实现了连接。当然,我们网站的一些部分是独立的,如招聘人员有不同的界面。但对于一般性的消费者成员,LinkedIn.com都是连接的。

Kahn:我们有多种产品和数千种服务。你可能听说过Rest.Li框架,这是我们谈论得最多的网关集成之一,当这些东西进行通信时,最终还是归结为大量的数据在数据中心之间迁移。

探访LinkedIn公司的数据中心

图4、具备LinkedIn公司的超高密度数据中心设计的服务器行

每处数据中心是否支持相同的负载还是各自分配不同的职责呢?

Nayyar:任何一处数据中心站点都可以为流量提供服务。如果某处数据中心发生故障,我们只需将流量路由传输到另一个站点。在我们的100Gbps MPLS骨干网上,所有数据中心之间正在进行着实时的复制。他们都服务于同样的工作负载,这便是我们如何提高我们的可用性的秘诀所在。如果在某一处站点发生中断,无论其是一个bug、网络问题、电源问题、甚至不好的变化,我们均可以轻松地在五分钟内将相应的流量导出。所有这些数据中心一起工作,服务于LinkedIn.com网站。

贵公司的服务是否是按照不同的地理区域来划分的?

Kahn:是的。我们是Anycast(其具备从网络中的多个点推广一个IP地址的能力)的重度用户,这意味着我们可以将我们的成员路由传输到最接近的POP。

Nayyar:我们试图找出哪个国家地区的哪一部分的用户的流量需求应该被路由传输到哪里,并将其路由传输到最近的POP。 POP是小规模的数据中心,主要是网络设备和代理服务器,它们充当了用户的TCP连接请求的终端。

Kahn:我们根据注册会员的访问体验来选择POP的位置。我们知道在哪些地区面临相应的挑战。我们有一个用于进行预测分析的数据科学模型,其显示:如果我们在澳大利亚投放一个POP,那么页面加载时间将提高X%。然后,我们必须在这些地理区域构建POP,并将它们绑定到我们的数据中心。所有的繁重的页面处理是在POP进行的,然后有后端数据连接,但POP有助于使页面的加载时间更快。通过在亚洲市场仅仅投放一个POP,我们就已经看到,网页加载速度提高了25%。

Nayyar:我们在全球范围内密切监控我们的站点速度,我们一直在寻求如何不断的改善。无论是通过改善网络还是继续改进应用程序,页面的负载或数据中心内部架构,减少构建该页面所需的时间,并尽快的将其呈现给我们的注册会员。

好吧,现在让我们把焦点聚焦到贵公司最新的俄勒冈数据中心,其在2016年十一月正式建成投产。 那么其到底有何不同呢?

Kahn:在计算方面,该数据中心更为密集。通常,数据中心每台机架为7-9千瓦。我们并不拥有这些设施,所以我们想通过将更多的服务器打包到机架中来优化空间。我们可以做到每台机架超过14千瓦。但是使用密集计算,你可以想象,会产生很多热量,所以我们必须弄清楚如何以创新的方法实现数据中心冷却系统的设计。最终,我们选择了后门热交换。我们是第一批在机架上进行基于水的冷却的企业之一。显然,这会涉及到一定的资本支出(CapEx)费用,但随着时间的推移,我们所消耗的能源功率将大幅减少。

这么说贵公司是通过机架在抽水?

Nayyar:我们基本上在外部预冷却水,并通过这些后门进行热交换器循环,这中和了机架上的热空气,所以无需冷空气/热空气通道的密封遏制。

探访LinkedIn公司的数据中心

图5、LinkedIn公司位于俄勒冈州希尔斯伯勒的数据中心采用后门热交换器技术的服务器机架行

围绕所有这些系统的泵水,是否存在任何值得特别关注的方面呢?

Nayyar:这是我们所关注的方面之一便是技术,但我们对其进行了彻底的测试,该款设计真的是非常强大。我们也有相当多的监控,所以我们知道是否有任何泄漏,但现在还不足以需要我们的特别关注。

使用外部空气来冷却水资源必须相当高效。贵公司希望在俄勒冈数据中心实现怎样的PUE(电源使用效率)呢?

Nayyar: 俄勒冈州数据中心的PUE是1.06。值得一提的是,我们企业的目标是在未来100%的使用可持续能源。显然,我们目前还没有实现这一目标,但我们正在朝着这一方向努力,这也是为什么我们在俄勒冈州选择Infomart的原因的一部分,因为他们能够直接获得可再生能源。

让我们来谈谈贵公司在网络方面所做的创新性的工作吧。据我了解,正如贵公司在你们的Altair设计项目文档中所介绍的那样,贵公司的每一台机架都有一个顶级机架式交换机,而其可以与多结构设备装置进行通信。

Kahn:是的。Altair设计是一款大的架构解决方案。您可以将其想象为是一个大的平面网络。没有核心,没有机箱。假设您正在使用传统的企业模式构建100,000多台服务器。从一台个服务器到另一台服务器的数据包最终将需要通过25到30个芯片组,从而会在两台服务器之间产生毫秒级的延迟。而我们所做的就是使用一款五级Clos架构(脊柱和叶片设计)将服务器到服务器的通信减少到少于五个芯片组,并将我们在两台服务器之间的切换延迟减少到几微秒。 (参见下图6)。

探访LinkedIn公司的数据中心

图6、Altair项目

所以,在我们的脊柱和叶拓扑结构中,一切都被分解为不同的阶段。每个机架顶部有四条路径,上至四个不同的脊柱,而这四个脊柱又与在其之上的脊柱通过多条路径通信,所以所有这些脊柱交换机成为一个大的结构。每个机架顶交换机具有四个或更多个路径,以使用等成本的多路径(ECMP)。 (参见下图7)。

探访LinkedIn公司的数据中心

图7、Altair项目

机架顶部和脊柱交换机是否类似?

Kahn:是的,他们实际上是一样的。我们已经采用了一个单一的SKU模型,这意味着我们只需要购买一种类型的交换机,一款U设备。

贵公司是否是从同一家供应商处采购所有的交换机的呢?

Kahn:不,其是一个平台。它们都具备相同的设计和相同的芯片组。对于一个SKU。你可以有多家供应商,但却是同一个平台。我们使用一个Tomahawk的芯片组,其是32x100G端口,3.2Tbps。我们为每台服务器带来了50Gbps,这是不同的。我们相信,我们是最先以这种方式进行实际部署的企业,即:每台服务器可以有10G,25G或50G,在未来,甚至可达到100Gbps的路径。在接下来的四年或更长时间里,我们都会有未来验证。

所有的脊柱是100Gbps,而脊柱之间的订阅是一对一的。所以,如果你发送100Gbps,你总是会得到100Gbps的输出。到机架顶部,我们带来50Gbps,我们通过使用PSM4标准做到这一点,所以我们可以采用两个100Gbps端口,并将其分为四个50Gbps端口,带来有效的可用机柜带宽为200Gb / s。

我在贵公司的一些文档中读到顶层机架不是冗余的,这意味着您可以承受整个机柜的损失,这是否是因为一切都在服务器之间复制的呢?

Kahn:没错,并且这种复制是跨数据中心的。这是关乎故障域的分布和简化基础设施的。在这个规模上,这些应用程序具有足够的容错能力,我们可以承受整个机柜的损失,而且只需跨数据中心或在数据中心内进行故障转移即可。

贵公司是在机架式交换机中运行自己的代码,我这样的理解对吗?

Kahn:其中一些是这样的。我们采用的是OEM(原始设备制造商)和ODM(原始设计制造商)的组合。 OEM将是像思科这样的提供商,或者其他供应商。然后我们还有ODM供应商,我们在其之上运行我们自己的代码,我们正在慢慢采用这一模式,因为我们正在建立新的机柜和一组新的数据库。

为什么要开发你们自己的代码呢?

Kahn:我们有我们想要控制的非常具体的事务。我们想要关注于我们如何管理我们的架构。我们的目标不是建立世界上最好的网络操作系统。这不是我们的目标。我们的目标是在管理我们的架构网络的控制平面之上构建应用程序。

例如,我们想从交换机本身进行流传输遥测,并将其上传到机器学习的平台,然后使用它来找出如何智能地路由传输流量,找到性能瓶颈,以便更好地操作网络。这就是我们的目标。在内部,我们称之为可编程的数据中心。我们想更多地了解网络的应用程序级别,并优化数据中心内的流量。

好的。那么,贵公司是否同时支持IPv4和IPv6呢,你们的目标是否是全面迁移到IPv6呢?

Kahn:是的。我们在IPv6方面非常活跃。几年前,我们在IPv6上推出了www.linkedin.com,以解决IPv4地址不可避免的枯竭问题。我们决定首先解决这个问题,所以我们可以解决发送仅IPv6流量的市场。我们已经看到了IPv6在移动流量方面的高速增长,以及一些性能方面的提升。最近,随着我们的规模化扩展,我们开始关注数据中心内的IPv6。我们将很快在我们的数据中心内用尽IPv4,所以我们决定双栈IPv4和IPv6,目标是最终我们将在未来几年内只使用IPv6。

贵公司数据中心的总容量是多少?您预计未来的增长情况如何,尤其是在贵公司被微软收购之后?

Nayyar:如果将我们企业的数据中心包括在内,我认为我们的总容量接近40兆瓦。我们在2017年将增加更多的容量。这已经被写入到我们的计划之中了。我们还不确定与微软的集成整合将如何影响到数据中心容量的使用。这笔收购交易刚刚结束,所以我们才刚刚开始寻找我们如何能够一起工作。现在我们的计划是实现有机的增长,但我们必须冷静的看待事态的发展。

好的,我想上述问题就是我最为关注想要问的了,您还有什么需要补充的吗?

Nayyar:有一件事是需要补充的。我们的理念一直是:无论其是否会有意义,我们要回报客户,并开源我们一直在努力的项目。前面我们提到的交换机遥测,这是我们所构建的一个非常可扩展的、快速的、可复制的流应用程序,一个消息管道。我们将对其开源,是基于如下几个原因。

显然,如果我们开源了我们的项目,其他人可以从中受益,但我们也相信这其中会涉及到相关的商业利益。而我们将其开源的原因之一是希望能够让更多的人共享回馈,这带来了改善;其二是我们相信这有助于我们的工程师的技术的提高,因为当他们的工作代码正在被数百万的同行参考借鉴时,有助于促进他们做得更好,他们能够写出更优秀的代码,因为他们的名字就在它上面。

Nayyar:我们有一个名为Open19的开放硬件计划,其在业界已经产生了一定的影响,而在明年,相信你会看到更多在这方面的突破。我们决定为您的服务器,存储和网络创建一个19英寸机架环境的开放标准。其目标是将通用组件减少50%。机架中的一切都需要电源和网络,因此我们正在将机架内常见的50%的组件的任何内容实施合并。

除了节省大量的资本支出(CapEx)之外,Open19计划还可以帮助您企业将机架整合的速度提高2-3倍。如果您企业有共享的电源模块,共享的网络组件,您企业将不会再有凌乱的线缆了。我们签约了很多OEM和ODM供应商,因为他们能够保留他们的知识产权,但是,通过遵守这个标准,他们又可以在未来保持很大的灵活性。

我们正在打造一个联盟,而LinkedIn公司正是该联盟的领导者之一。我们正在与其他企业进行战略合作,其理念是联盟成员将齐聚一堂,然后我们将共同开发设计,并向前推进。

来源:机房360

0赞

好文章,需要你的鼓励

2017

02/09

11:30

分享

点赞

邮件订阅