科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网CIO与应用频道CIO加油站IT高可用性管理:企业业务连续的后盾

IT高可用性管理:企业业务连续的后盾

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

2011年发生了多起影响比较大的IT系统“不可用”事件:3月,日本某著名银行因系统故障,导致112万笔存取款业务无法进行;4月,某世界著名IT服务提供商的云计算中心宕机,托管在此的多家客户服务中断持续将近4天;9月,新加坡某知名电信运营商更换新交换机出现软件故障,导致部分地区的3G网络“不可用”,时间长达22个小时。

来源:赛迪网 2012年12月7日

关键字: 云计算 管理 IT

  • 评论
  • 分享微博
  • 分享邮件

近年来,随着信息技术的应用与普及,IT系统“不可用”的事件不断增加,并且呈现出影响范围越来越广、破坏力越来越强等趋势。

2010年1月,某知名云计算服务提供商由于自身数据中心的“系统性错误”,导致其服务的6万余名客户经历了至少1个小时宕机。

2011年发生了多起影响比较大的IT系统“不可用”事件:3月,日本某著名银行因系统故障,导致112万笔存取款业务无法进行;4月,某世界著名IT服务提供商的云计算中心宕机,托管在此的多家客户服务中断持续将近4天;9月,新加坡某知名电信运营商更换新交换机出现软件故障,导致部分地区的3G网络“不可用”,时间长达22个小时。

事实上,今天企业对IT的依赖程度越来越高,特别是伴随着物联网、云计算、移动应用、社交网络等新技术、新应用风生水起,企业的商业模式发生了一系列变革,IT与企业业务的关系日益紧密。在很多企业,IT与业务的关系已经到了“唇亡齿寒”的程度。一旦企业IT系统出现中断或者不可用,损失将难以想象。因此,无论是大型企业也好,或是中小企业也好,高可用性都应该成为IT系统必备的基本条件之一,否则遭受到损害时将悔之晚矣。

IT系统缺乏可用性敲响警钟

一旦IT系统“不可用”,将使企业的业务和服务无法进行,给企业带来很多困扰甚至带来巨大的损失。“非计划停机时必须立即启动应急预案,以尽量缩短‘不可用’时间,这给IT人员带来了较大压力。而当出现非计划停机影响业务时,必须做好客户解释工作和必要的安抚工作。同时,为了尽量减少非计划停机,需要进行大量的软硬件投入。这些IT系统‘不可用’问题给我们公司带来了很大的困扰。”日信证券有限责任公司信息技术中心副总经理布和表示。上海赛科石油化工有限公司信息技术部高级工程师张新桥也讲述了他们的IT系统“不可用”的困扰:“在过去的几年里,我们的IT系统曾遇到过因为病毒入侵、系统软件故障引起的某些重要应用系统的非计划停机。IT系统不可用让我们企业的经营管理秩序被打乱,仓库无法正常出货、提货卡车积压,手工处理速度跟不上,正常的计量分析受到影响,无法和业务单位如期完成结算等,带来的直接经济损失有的多达数百万元,如果危及生产系统,损失难以估量。”

事实上,一旦IT系统出现中断或者不可用,其损失不仅包括收入损失、停产、生产力降低、处罚/诉讼、客户丢失、系统恢复至正常状态所需成本等有形损失,也包括社会负面效应、客户不满、企业信誉降低等无形损失,甚至会威胁生命安全。2009年3月,某一线城市地铁线路因信号中央控制IT系统出现故障,造成正在运行的部分列车不能正常运营,需要紧急疏导乘客。有消息称,这次地铁IT系统故障的损失不但是经济上的、信誉上的,甚至还差点造成更严重的灾难性后果。

构建高可用IT系统的策略

随着企业信息化的推进和深入,企业运营管理对于IT系统的依赖程度越来越高,确保IT系统的安全和高可用性已经成为企业共同面临的问题。近年来,不少企业在IT可用性方面投入了大量资金,但是很多企业在投资灾备系统的同时又完全走向另外一个极端,把灾备系统当做一个核心的防护的焦点,反而忽略了对生产系统日常运营的管理。而对于可用性到底该做到何种程度,应该如何去做,在业界一直缺乏一套指导性的方法论,CIO一直倍感苦恼。今年7月,万国数据适时地推出业界首套IT高可用性管理体系,首次提出适用性的概念,强调可用性的建设应该围绕着业务,同时提出了一套可操作的评估方法和指标体系,为企业业务的持续安全提供了有力保证。

实际上,IT系统的可用性提升不是一个单纯的设备、部件、线路、软件等技术问题,也不是一个局部的IT管理问题。万国数据推出业界首套IT高可用管理体系,不是一个技术,而是一套方法论。IT高可用性管理强调的是,对影响IT系统可用性的诸多关键要素,如IT治理、数据中心基础设施及管理、生产架构及管理、灾备架构及管理、安全架构及管理以及IT运维管理等进行科学、系统化的管理与持续改进,从而帮助企业快速提升IT系统整体的可用性与业务的持续性。

可用性的要求其实是IT部门经理非常害怕谈的一个参数,即便是一些企业的IT可用性做得很好,仍然有很多问题让人迷茫。“我们公司采取的一系列措施取得了较好的效果,近几年未发生一起由于IT可用性事件造成的投资者索赔事件。但由于一些第三方系统的不可用,信息水平受限造成的无法实现一些更高级的高可用性方案(比如由于长距离数据传输延迟造成的无法实现异地‘双活’中心,以及如何寻找到IT高可用性和合理投入的平衡点)等因素,一直困扰着我们。” 布和表示。无锡市人民医院在IT方面已经投入了1.3亿元,达到了院区级容灾,但是依然面临着一些问题。“对大部分医院而言系统可靠性和数据安全性仍然是 IT 系统要考虑的重要因素。从云计算的应用角度来说,更多医院倾向于采纳私有云或公有云这两种模式的混合云,以满足不同工作负载的需求。对于保证IT系统的可用性,我们医院有明确的IT计划与规划,但实施过程中还是会面临一些问题,例如,突发应急事件的处理、医疗数据安全的防护等。”无锡市人民医院信息处处长刘喻表示。

万国数据副总裁、专业服务部总经理张权认为:“可用性的要求之所以如此让CIO头疼,是因为如果真正纯粹地谈这个参数,想达成这个目标太难了。我们也是了解客户这个需求,包括客户对我们的要求,所以提出高可用性管理,以体系的概念来整合多种因素,帮助企业能够达成这个目标。这最根本地反映了IT的变迁。”

张权介绍说:“在过去几年,我们围绕这个题目做了很多研究和考察,因为当企业缺少一个很好的方法论去做一个整体的管理指导,管理就会失去方向和目标,或者说概念、逻辑、层次都不是很清晰。大概从2010年开始,我们内部已经提出IT高可用性管理的想法。我们自己要开发一套方法论,到今年上半年,我们这套体系的第一阶段搭建完成。在我们把IT高可用管理的概念和逻辑都整理得更加清晰的同时,也参照了一些国际的标准,以保障不同性质的企业,以及企业在不同阶段都能适用于这样一个方法论。”

目前,对IT的管理有很多方法论和标准,万国数据提出的高可用管理体系和这些标准有一定区别。“像ITIL、ISO这些标准,实际上都是一些流程化的东西,并不是一个系统,或者说是局部的一些管理标准,并没有把IT基础架构纳入到一个整体的管理范畴。”万国数据总裁兼CEO黄伟表示,“随着万国数据这几年逐步地发展,迄今为止我们有100多个企业客户,都是比较重要的客户。灾备要建成什么等级,在某种程度上跟企业生产系统的管理水平也有一定的关系。生产系统不中断或者减少它的中断是最好的一个防护,当然灾备系统有它自身的一个逻辑。所以我们希望把生产、测试、灾备有机地统一起来,作为一个整体的可用性的系统来考虑。我们对企业整体的生产、灾备的可用性进行规划和管理,这样来平衡企业的成本和综合收益。”

IT高可用管理体系对基础架构的定位主要价值体现在:有效地解决IT系统可用性、提高效率与成本比值、改善业务连续性等三大企业难题。从高可用性的角度来聚焦灾备最终的解决方案,以IT整体基础架构的高可用性为指导来为客户提供灾备服务,从业务的连续性管理来看待整个灾备。某地方银行业务不断拓展,规模不断扩大,盈利能力持续增强,并成功实现了从地方性银行向全国性银行的转型,而在转型过程中,信息系统规模的扩大风险积聚。为了降低信息科技、业务中断风险,用户急需建立和完善信息系统应急管理体系。

“万国数据的服务团队按照IT高可用管理的方法论,帮助我们对基础设施进行了重新评估,设定了高可用管理目标,并参照相关指标体系对IT基础设施的建设、运维和管理进行调整和优化,最终不但节省了成本,还建立了信息系统突发事件等级,构建了统一的应急响应流程和通知通报流程,形成了一套较为完善的应急管理文档体系,增强了在目前信息系统环境下应对突发事件的能力。”该银行信息化负责人介绍说。“我们万国数据的灾备服务有三个标签:一个是遵循业务连续性,一个是遵循高可用性目标,还有一个就是成本效率,这是万国数据的核心诉求。我们的追求让客户的成本能够不断地改进,我不能说最低,只能说不断地优化。”张权表示,“我们从来不就一个技术问题来讨论灾备技术,因为我们认为灾备这个垂直领域中还有一套方法论,叫做业务连续性管理。所以我们提供的灾备服务是建立在一个完整的逻辑和完整的方法论基础上的。”同时,万国数据强调灾备和生产的整体可用性的匹配,并且通过对成本的不断改进来满足灾备的诉求。

IT高可用性管理体系提出了一套可操作性的评估方法和指标体系,把IT的可用性进行量化的评估。“大家想一下,像我们这样的服务提供商,最关键的东西是什么?往往是你出了事之后不太清楚这个事发生的根本原因是什么,你发现不了问题的症结所在。所以高可用性管理这个方法论很重要的是通过量化的工具和方法,通过一些数据和一些指标体系,帮助用户发现问题,为用户提供一种解决问题的思路,而且考虑的时候,不要仅仅把目标锁定在狭义的技术这一块,要看到其他的。通过这样整合的方式,我们来达到最终的目的。”张权指出。但是,这种量化的评估不是一次性就能完成的,它是一个持续改进的过程。“因为有人的因素,所以它不是一次性能达到的,而且每次碰到的问题都不一样。它是一个持续改进的过程。我们IT高可用性管理里面所提到的指标体系,涉及多个领域。通过对这些指标的跟踪,能够不断地持续优化这个东西。也许第一次可能是18分钟,第二次12分钟,第三次就是10分钟,这些东西是需要不断改进的。所以IT高可用性管理更多的是管理框架,把各种因素整合在一起去考虑。”张权介绍说。

高可用IT服务消除“云”风险

过去,一些对IT系统依赖程度过高的企业级客户,使用公有云的情况总是“雷声大雨点小”,其实根本的问题是企业对云计算产品的高可用性产生了顾虑。应该说,这种顾虑存在的理由非常充分。在目前的市场上,成熟的、商业化的真正可以做到高可用的云计算的产品相对比较少。为消除IT主管对于公有云架构的忧虑,满足“按需而制”的灵活性需求,万国数据推出了以高可用管理体系为指导的云数据中心,帮助企业通过便捷的按需云服务方式获取更多IT资源,快速、灵活地建立起适应企业发展所需要的IT系统环境。

IT高可用管理体系在万国数据云灾备方面的应用,让云数据中心更加安全。“实际上在灾备这个行业,大家早就提出要共享。共享是一个理想,但技术手段不支持,这个理念是好的,但只能在一个浅层次上去共享,不能做到真正意义上的共享。所以我觉得云计算这个技术手段被实用化以后,为真正的共享资源提出了一个非常好的技术解决方案。云计算也要讲究高可用,因为它用一个平台支撑了无数的中小企业。看上去这些中小企业一个单体对可用性的要求不高,但是云平台一旦中断,影响的面特别广。所以我们讲云计算,大家在讨论用共享的同时,还要想清楚,你可能是给成千个上万个(企业)提供一个共享的平台,所以这个平台的可用性、稳定性是非常重要的,更要讲可用性。这也是万国我们提供的云计算灾备的一个特点所在。”张权告诉记者。

记者了解到,万国数据与日本软银电信株式会社联合推出的VMware全球认证最高等级服务的高可用云数据中心,基于VMware技术架构的高端云计算基础设施,满足了高成长企业和行业用户对弹性IT资源的需求,用户在几分钟内即可实现自助式的IT资源部署,而非传统的几天或几周。同时,由于不必考虑硬件环境,这就避免了用户需要重新设计内部程序的繁琐工作。不论是工作在物理主机还是虚机上的内部应用,都可以轻松转移到公有云平台,从而扩展了内部数据中心的逻辑界限。

万国数据总结多年的实践经验,推出了IT高可用性管理体系,并用这套方法论管理客户诉求,也在帮客户找到合适的指标。张权表示:“我们原来的管理仅仅遵循一些ITIL的基础。ITIL是朴实的,它讲的是一个原则,但是它没有分析到更细的一些可用性的要素。我们从可用性角度来解释并管理我们今天为客户提供的服务。”

目前,在生产系统和灾备系统方面,IT高可用管理体系已经有很多成功的案例。这些成功的案例涉及到很多行业,甚至有的企业是生产加灾备纳入到一个更完整的管理体系里面。在IT高可用方面,万国数据还推出了高可用实时监控服务,可为客户IT系统提供7×24小时的全面实时监控服务,不间断监控客户的IT系统运行状态,主动发现风险和隐患,及时进行通知警告。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章