至顶网CIO与CTO频道 08月06日 编译:在过去的十年中,软件和基础架构工程师经历了从笨拙的整体式应用程序到敏捷微服务,从昂贵的裸机基础架构到可伸缩的云计算和存储的转变。随着技术的不断发展,容器化、基础架构即代码、软件定义网络和SaaS原生应用程序等技术不断涌现,这些领域的工程师们已经开发并且接受了围绕DevOps以及持续集成和部署(CI / CD)的新理念。新的范例非常敏捷,而且开发量很轻,具备可伸缩性,并且配备了经济有效的基础架构和网络容量以及随处可用的服务。
那么,获得这些可伸缩性、敏捷和速度需要付出的代价是什么呢?一言难尽。具有著名主机名的裸服务器曾经可以非常清楚地追溯登录服务、客户数据库、电子邮件服务器或者电子商务渠道。现在,存在着很多基础架构、主机、容器、应用程序和数据库的抽象层,这些基础架构、主机、容器、应用程序和数据库的定义不明确,通常只有短暂的关系。这些关系、配置、版本、集群、角色和内容不断发生变化,这些变化可能是手动完成的,也可能是自动产生的,变化的方法也多种多样。没有什么东西能够阻止这种复杂性。软件和基础架构工程师团队在各自的“山头”上进行优化,并且确保它们能够适应新的输入并提供符合预期的输出。
现在,IT运营团队面临着一个关乎生死存亡的挑战。
这些输入包含了监控流程发回的事件和警报,这些事件和警报是监控流程按照多次数字化转型浪潮之前、之中和之后的配置给出的。这些来自客户端、应用程序、基础架构、网络、云、数据库和数据中心监控服务的事件都将流向IT Ops团队。然后,IT Ops团队必须将这些输入还原成服务运行的健康状况画像,然后确定在何时何地出现了问题,并且以迅速、果断并且清晰的方式做出响应。
但是,现代服务的复杂性让人们对事情工作方式以及如何对事件和警报进行风险管理的理解横跨了太多的人为节点,所以咨询团队很难有效沟通,确定风险存在于何处并且找到减轻这些风险的方法。这里的选择是分散的,而安全的变更最终要依赖于好的选择、好的架构和好的防护措施。
现在,IT Ops团队已在很大程度上失去了自身的定义特征:集中式的状态感知。在IT部门的同事得到了所有的这些新功能的同时,IT Ops团队只能埋头苦干,试图弄清楚不断增长的事件和警报的原因。他们一直在想方设法,试图找到方法,在过渡到云中的新服务堆栈的同时,在裸机上维护旧服务堆栈。他们一直在逐个处理,将它们放置进入正确的安全组,以明智的方式授予访问权限,维护不再确定的主机的证书,停用旧的服务器,并且确保新的服务器已经升级到最新认证的安全版本。在对裹挟着全新警报量级的事件流进行优先级排序和管理的时候,IT Ops牺牲了明确的信号。
看起来的情况是数字化转型忽略了IT运营。
持续交付并不能够提供对IT变更的全面了解。
过去在入职后几个月的时间内需要获得的管理知识已经成倍增加,而且变得更加分散了。现在很难清理出这些知识。要想弄清楚在过去四分钟内出发的200条警报到底是和应用程序更改A、市场推广计划B、计划的主机迁移C、安全更新D还是未定义事件E有关,IT Ops团队必须跟踪警报,并且搞清楚其中的关系,理解这些警报产生的环境。
这种程度的全面了解需要的不仅仅是增加云和容器的可伸缩性和速度。新的DevOps CI / CD渠道无法提供这些与变更相关的见解。相反,IT Ops团队需要在整个系统范围内绘制新的数字地形图,以此作为背景板,方便他们绘制输入事件和变化的所有必须属性。这在“山头割据”的模式下是不可能做到的。
但是对于绝大多数组织来说,数字化转型是在过去的几年中分批、分次逐步进行的。在转型的过程之中,事件层出不穷;它们的数量变得越来越多。传统的ITIL模型并没有为IT操作人员提供太多IT Ops之外的指导,只是反复说:“做相同的事情,只是更快一些,更精确一些。”
这正是让IT Ops团队陷入困境的地方。但是潮流已经开始转向。转型的基础已经开始成形。监控、重复数据删除和过滤只是起点。然后是事件有效载荷的多源拓扑富集。接下来是基于规则的事件关联,然后是基于机器学习的事件关联再到组相关的警报,然后扩展到包含关联更改。集成了运营丰富功能的、基于API的工具提供了包含完整环境信息的事件警报,可以跨越协作、聊天系统和恢复状态感知。
自动化和集成的手动官僚任务让IT Ops可以直接从理解环境变成理解-执行模式。现在,挑战在于统一这些新的功能,将它们凝聚成一个统一的战略。这个战略必须能够为IT运营团队提供明确性和可操作性,便于他们履行维护服务可用性、在组织内部集中职能的使命。
现代IT运营必须回归其本源。
运营转型还没有成为流行语,也没有谷歌编写的参考手册可供运营工程师们参考。尽管很多团队已经在很多地方利用自动化工具参与工作流和数据管理,但这个流程仍然算不上是“自主运行”,因为它们仍然需要人工干预。它们只是有了新的功能。同样,尽管使用了人工智能和机器学习技术,但是“AIOps”的局限性太强了。IT运营转型应该由多项新功能组成,这些新功能应该与IT运营一直以来的重心结合在一起:保持状态感知并迅速有效地采取行动,以最大程度地减少服务中断。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面