最近,在旧金山召开的Google Cloud Next大会上,这家互联网搜索引擎巨头展示了其如何保护、运营其日益增长的云数据中心,并对这些数据中心进行压力测试。
鉴于谷歌这家超大规模的云计算服务巨头的数据中心所需要支持的庞大用户群和数量众多的服务,推动了许多提供商试图破解谷歌公司如何在全球范围内连接起其所运行的海量基础设施的设计规则手册。
他们倾向于建立多个庞大的园区式服务器场,而不是构建单一的独立设施来备份到另一处地理位置的数据中心,进而也就不需要任何单点故障来防范停机。
超大规模的运营商们通常选择采用瞄准了特定工作负载所定制的硬件,并大量购买,以确保当越来越多的用户涌向他们的服务时,他们看起来具有无限的能力来应对这些处理需求。
前段时间,在旧金山举行的Google Cloud Next大会上,这家互联网搜索引擎巨头坦诚的分享了一些关于他们如何确保自己的数据中心以可持续,高效,有弹性,安全和快速的方式运行的工作的见解。
Google在数据中心可持续发展方面的努力的成效可以说是有目共睹的,2017年,该公司已经实现了其全部数据中心资产均100%使用可再生能源的承诺愿景。
据Computer Weekly网站较早前的报道称,该公司最近也在积极的探索如何利用其Deepmind部门的人工智能专长来削减其整体数据中心的电源使用效率(PUE)值。
该公司所作出的另一项承诺是:在2017年的每个月,他们都将开放一个新的数据中心区域。在Google Cloud Next大会上,该公司还宣布了从2017到2018年期间,将在荷兰、加拿大和美国加州进行额外投资建设的项目计划。
届时,该公司将在全球范围内的数据中心地理区域分布共计将达到16处,其中包括50个可用区域,以及100多处数据中心站点。
托管以消费者为中心的服务
除了站坚守其Google云平台(GCP)及其业务生产力工具G Suiter套件之外,这些数据中心也与托管其以消费者为中心的服务(如搜索引擎和YouTube)相同,这些服务构成了几乎每位网络用户的支柱互联网体验。
为此,该公司的数据中心基础设施被设计用于旨在确保用户在任何时候都能够尽可能高效地使用,Google Cloud技术基础设施高级副总裁Urs Hölzle在大会第二天的主题演讲中提到。
他说:“我们设计了基础设施的各个环节,使您能够获得独一无二的成效,并充分享受到我们所创造的杰出性能。”
“你必须优化每一个元素。从高效的数据中心到定制的服务器,从定制的网络设备到软件定义的全球骨干网络,再到用于机器学习的应用程序专用集成电路(ASIC)。
在过去三年中,该公司投资了300亿美元,建立了一款有弹性和响应能力的基础设施,这是由巨大的网络容量能力所支撑的。
“分析师称,我们的网络流量占全球互联网用户总流量的25-40%。” Hölzle说:“作为一家GCP或G Suite客户,您企业将可以从这个网络中受益,因为您企业的流量是在我们私有的、超高速骨干网进行传输,达到了最小的延迟。”
“为了把这个流量传输到世界各地,我们也需要跨越海洋进行传输。九年前,Google就已经成为了第一家建立起海底电缆的非电信公司。那就是从美国到日本的海底电缆,从那时起,我们已经在全球范围内广泛建造或收购海底光纤容量,所以我们几乎在任何地方都有冗余的骨干网。”
提高硬件性能
Google数据中心副总裁Joe Kava在展会倒数第二天的演讲展示上向与会者们介绍了关于该公司如何建立其服务器场的幕后细节。
尽管假设该公司必须采取一刀切的方式来实现数据中心的建设是合乎逻辑的,但事实并非如此,每处数据中心的位置都会对设计和设置构成极大的影响。
Kava表示:“我们已经在开创和研发先进的基于水的冷却系统方面取得了进步,如海水冷却、再循环灰水冷却、暴雨收集和再利用、雨水收集,工业运河用水和热能储存等。
“我们还设计了根本不需要消耗任何水就能实施冷却的数据中心。相反,他们100%采用室外的空气冷却。关键是并没有一套适合所有数据中心模型的一刀切的模式。
他补充说:“我们所有的数据中心设计都是针对特定地区而定制的,以达到最佳效率。”
像许多其他超大规模云计算公司一样,基于成本和性能方面的原因,该公司倾向于使用定制化的硬件,而Kava则指出,如果不这样做,该公司将难以满足用户对其服务的需求。
他说:“我们几乎所有的基础设施都是按照我们自己的计算需求进行定制设计和专门设计的,所有这些都是为了提供最高的性能而进行协调和优化的。”
“我们的服务器没有任何不必要的组件,如视频卡,芯片组或外围设备连接器,这些不必要的组件可能会带来漏洞,而我们的生产服务器运行一款定制设计和剥离版本的Linux系统。而我们的服务器和操作系统仅用于为Google服务提供服务。”
在第二天的主题演讲中,该公司还宣布了他们是世界上第一家部署英特尔Xeon处理器的云提供商的消息,其技术在Skylake的基础架构中被公认为Skylake,Hölzle表示,此举将展示该公司对性能改进的承诺。
他表示:“我们正在从多个维度方向上推动性能方面的改进,这意味着我们的工作必须要有很大的不同,Skylake为计算密集型工作负载提供了很好的性能表现。”
定制的云基础设施
Kava承认,当他九年前第一次加盟该公司时,还对为什么公司在基础设施方面需要如此高的定制化来提供服务感到困惑?
他说:“很快,我就了解到,我们所进行的是相当非凡的工作,因为当我们开始时,我们所需要的规模并不存在。”
“为了实现性能,效率和目标价格,我们必须建立自己的服务器,开发和创建可靠性的硬件、软件和文化,以使Google能够取得成功。”
自从2016年3月以来,Google一直积极参与Facebook支持的开放式计算项目(OCP)计划,并提出了与49伏机架系统相关的设计,并将其站点包装起来。
“我们也在数据中心投入了大量的机器人方面的研发创新。我们的每个数据中心都有全自动的磁盘擦除环境,可以实现更快,更高的吞吐量,更高效和更好的库存管理。”他补充说。
这并不是说,人们在保持谷歌的数据中心资产顺利运营方面没有起到任何作用,因为该公司必须保证提供24小时全天候不间断的支持。Kava说。
“我们拥有自己的Google员工队伍,他们通过设计,施工,调试和运营等方面的密切配合。到任何地方,他们都是最好最聪明的工程师和操作人员。”他说。
“其中许多员工来自关键任务环境,如海军核潜艇计划,而在这样的计划中,一旦发生错误,后果可能是灾难性的。他们了解任务是至关重要的。”
鉴于2017年2月底,Amazon Web Services(AWS)的简单存储服务(S3)曾发生过3小时39分钟的中断事故,究其原因是工程输入错误, Kava也相当热衷的指出Google的基础设施是如何不受人为错误影响的。
“因为我们所拥有的杰出的设计和高素质的工作人员,只有一小部分的问题是人为错误有关的,而在那些人为错误有关的问题中,从来没有一例在我们的数据中心造成过停机中断。”
锁定数据中心
每当唱反调的人看到公众对云计算公司所提供的安全性提出疑问时,通常的反驳会拿供应商们所拥有的财务和人力资源与其日常企业组织相比较。
Google则认为,这已经是一种过时的追求方法,而在主题演讲中,Hölzle强调,该公司所运营的一处数据中心园区有175名保安人员负责每年365天全天候24小时的值班。
反过来,这又由相机,运动传感器,虹膜扫描仪和基于激光的入侵检测系统提供支持,这些系统都旨在防止无关人员进入数据中心。
Hölzle在这一演讲上发布了Google的Titan芯片,该芯片适用于所有企业的新的数据中心服务器。
“我们在所有新机器上都安装了这一安全芯片,以作为机器身份信任的基础。这款芯片是由Google设计的,有助于保护服务器免受篡改,甚至在BIOS的级别。”他说。
“这有助于我们对硬件设备进行身份验证,除此之外,还可以帮助我们实施认证服务,因为他们互相调用,他们必须相互证明自己的身份。”
该公司还采用了一种新颖的方法,用来确保其安全防范最终能够胜任,Kava在演讲结束后的互动交流问答期间表示。
这可以看出,该公司在这一新颖的方法中隐瞒了现有的Google员工的信息,并为此打破了其数据中心的安全防范,确保他们能够承受内部的安全威胁。
“如果有任何人知道您数据中心的弱点在哪里,以及如何利用这些漏洞的话,那么这些人肯定是你企业自己的员工。他们不会告诉任何同事他们被招募到该方法项目中了,而他们会试图做你不能做到的事情。”他说。
Kava说:“如果有一个漏洞被暴露,那么其在全球范围内就会得到修补改正。而如果没有发现任何新的漏洞,也许足够了。我们还没有达到这一点。显然,我们还任重而道远,要做的事还有很多!”
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。