从可用性到韧性,云计算祖师爷传你一套稳定秘诀 原创

“经验没有压缩算法”也是亚马逊云科技最为人耳熟能详的一句话,宝贵的经验与亚马逊云科技遍布全球的基础设施和广泛而深入的云服务相结合,正为全球云计算行业提供指引。

N个9一直是业界用来量化系统可用性的一种标准,我们常看到的5个9就是99.999%,就是指用户在给定时间段内可以访问网络组件或服务的时间百分比。

在云计算刚刚兴起时,很多云服务商为了快速获取市场,经常标榜可用性的数值,但是到了云计算已经被企业成熟使用的现在,却很少能听到5个9可用性的宣传。

作为全球云计算的开创者和引领者,亚马逊云科技一直为全球顶级的大型企业和80%的初创独角兽企业提供安全稳定可信赖的云服务。“经验没有压缩算法”也是亚马逊云科技最为人耳熟能详的一句话,宝贵的经验与亚马逊云科技遍布全球的基础设施和广泛而深入的云服务相结合,正为全球云计算行业提供指引。

原来我们讲可用、稳定,现新时期我们讲韧性,不仅企业需要韧性,IT同样也需要韧性。亚马逊云科技为客户提供可靠的基础设施,让客户构建和运行他们的应用。但同时客户也需要确保运行在基础设施之上的应用同样具有韧性。

在亚马逊云科技从一开始就在基础设施、服务设计与部署、运营模式和机制中将韧性考虑其中。亚马逊云科技有一位传奇工程师James Hamilton,最早他是一位汽车修理工,现在他已经是亚马逊高级副总裁兼杰出工程师,他在22个国家/地区拥有209项服务器和数据中心基础设施、数据库和云计算专利。凭借多年的实践经验,James也总结出了提高IT韧性的三种方法。

第一,尽可能扩大自动化范围

Uptime Institute数据,大约70%的数据中心和服务中断是由人为错误造成的,为此从备份到测试需要尽可能地自动化,自动化是创建韧性架构的关键。位于马里兰州农村地区的一家独立医院CalvertHealth,之前电子健康记录的数据备份是在企业数据中心服务器上手动管理,恢复时间目标(RTO)数值曾为48至72小时,在将其应用恢复系统迁移到亚马逊云科技后,RTO降至两小时以下,缩短了97%。

同时在部署之前识别和解决代码中的问题,也是构建高可用性、高韧性应用的重要组成部分。手动审查依赖于审查人员的专业知识和识别潜在问题的能力,借助机器学习(ML)加持的代码审查工具,企业可以实现这一过程的自动化,甚至还能优化应用性能。

Cognizant作为世界领先的专业服务提供商之一,它使用亚马逊云科技的自动化代码审查功能来帮助开发和运营团队主动识别和解决问题,并确保其部署的性能、安全性和合规性超出了来自不同行业和地区的客户的要求。

第二,持续测试来应对未知

通过Netflix开创的“混沌工程”的方法,企业能够执行故障注入实验,帮助团队营造真实世界所需的条件,来发现分布式系统中难以甄别的隐藏错误、盲点和性能瓶颈。

自21世纪初以来,亚马逊一直在不会对客户产生影响的精准控制的情况下,有意注入故障,提高了应变能力。如果能触发罕见事件,并更频繁地调整应对措施,那说明亚马逊做好了准备。

另一种流行的测试方法是韧性“游戏日”(game days),通过模拟一个失败或其他事件来测试系统、流程和团队的响应。目的是尽可能逼真地演习如果异常事件真的发生,团队会采取的行动,企业可以在亚马逊云科技中使用其生产环境的完整副本进行游戏日演练。

第三,统一可观测性指标

了解系统的运行情况对实现卓越的运营和韧性至关重要。企业不断收集和分析应用数据,才能更快地检测和解决应用可用性和性能方面存在的问题,从而改善最终用户的体验。但随着应用复杂性的日益增加,问题出现时很难快速定位并加以解决。

Docebo是一家全球电子学习技术供应商,他们的开发人员在遇到问题时往往会花上几天时间进行故障排除。Docebo使用亚马逊云科技的多种分析服务,将其所有日志记录和跟踪数据进行结合,创建了单一事实来源。为此,公司将故障排除时间缩短了90%,修复错误的时间从70%-80%减少到15%以下。过去需要几天才可以完成的工作现在只需要几分钟。

在亚马逊云科技从一开始就在基础设施、服务设计与部署、运营模式和机制,以及运营文化将韧性考虑其中。

亚马逊云科技全球基础设施遍及33个地理区域的105个可用区,亚马逊云科技的区域由一个地理区域内的多个相互独立,且在物理上分隔的可用区组成。每个可用区都有独立的电力、制冷和物理安全设施,可用区之间通过冗余的超低延迟网络连接。同一区域内的可用区之间具有足够的距离,最远可达约100公里,既能防止相关故障,但又能实现单位毫秒级延迟的同步复制。亚马逊云科技是唯一在每个区域内提供三个或更多可用区的云提供商,通过更多冗余和更好的隔离来控制故障的影响面。

亚马逊云科技不同级别的服务有对应的、隔离的控制面和数据面,并逐层实施隔离。亚马逊云科技使用静态稳定性来实现这种程度的韧性,系统以静态状态运行,并在发生故障或依赖项不可用时继续正常运行,无需进行任何更改。例如,在Amazon Elastic Compute Cloud (Amazon EC2)中,实例启动后就和数据中心中的物理服务器一样可用。其他亚马逊云科技资源如虚拟私有云(VPC)、Amazon Simple Storage Service (Amazon S3)存储桶以及Amazon Elastic Block Store (Amazon EBS)卷也具有相同的特性。

另外,亚马逊云科技还提供了一套全面的专门构建的服务、策略和架构最佳实践,客户可以使用这些服务、策略和最佳实践来提升企业自身的韧性。这些服务、策略和最佳实践在亚马逊云科技韧性生命周期框架中被概述成了五个阶段:设定目标、设计和实施、评估和测试、运营以及响应和学习。

技术的不断迭代一方面带动了企业的发展,一方面也对可用而带来巨大的压力。系统宕机不仅会给企业造成重大的经济损失,还会对品牌形象以及客户产生负面影响。所以这也是亚马逊云科技不懈努力改进基础设施、服务设计、运营模式和机制,持续加强与发展云设施韧性的原因,为客户在云中构建和运行弹性应用程序保驾护航。

来源:至顶网CIO与CTO频道

0赞

好文章,需要你的鼓励

2024

04/12

18:48

分享

点赞

邮件订阅