科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网CIO与应用频道CIO加油站炙手可热的救火队之IT运维囧事

炙手可热的救火队之IT运维囧事

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

信息部软件开发处的小王正埋头苦干,从满屏的代码里找一个很隐蔽的BUG,看得眼睛都花了。这样,既提高了员工的业务技能,也实现了人员配置上的自由度,小周和小徐也不会因为小王出差而对CRM无能为力了。

来源:畅享网 2010年9月25日

关键字: IT系统 运维 IT治理

  • 评论
  • 分享微博
  • 分享邮件

  一团乱麻

  信息部软件开发处的小王正埋头苦干,从满屏的代码里找一个很隐蔽的BUG,看得眼睛都花了。

  突然电话响起,小王的手腕一抖,点错了一个按钮,看着界面上“编译中”的提示,深深叹气。电话是小王的经理打来的,语气急促,催着小王赶紧去机房,重新启动一台服务器。

  “经理,我、我都不知道YRT01服务器摆哪儿,您让我怎么重启啊?”小王傻眼。

  “这……”经理也郁闷,要不是硬件支持处的人没找着,他也不用这么犯难了,硬件上的问题还真不是他们开发处能搞得定的。

  经理权衡一下,还是决定冒个险,“先甭管别的!怎么说你的CRM也在YRT01上,总比别人熟悉吧?别罗嗦,赶紧找找去,我正给业务人员培训呢,服务器这会儿撂挑子,这不是给我找麻烦么!”

  小王放下电话,握拳,好吧,既然没有更好的办法,就去一趟吧!

  一刻钟后,小王在数个空调的环绕下,还是急出了一头汗。

  天哪,这迷宫似的机房里,想找到一台小小的1U服务器,简直比登天还难!十几平米的机房里挤了好几个机柜,还有四五台空调柜机,留下的地方连转身都勉强。再加上从每台服务器上引出来的各种线缆,横七竖八纵横交错天地一体……

  检查完机柜最下面的那台服务器,小王一边站起身一边嘀咕,“小张是怎么搞定这些的,简直天才!”大概是起得猛了,小王突然觉得眼前一黑,脚下一个趔趄,只听“噼哩啪啦咕咚——”

  一阵乱响之后,机房里传来小王凄哀的惨呼:“啊,天呐!这可怎么办,老大会杀了我的……”

  服务器“拥堵”?

  维护处的经理召集手下开会,提出的问题很尖锐:“为什么大晚上的,系统运行速度反而更慢了?”

  几个手下面面相觑,他们一大早就检查过,即使在使用的高峰时段,各个系统看起来也是一切正常,没道理在夜里反而慢起来呀?

  没办法,维护处的人有一个算一个,跟着经理守了一个通宵,总算搞清楚了让系统变慢的原因。

  原来,为了提高系统在白天的运行效率,许多对时效性要求不高又比较耗时的任务都被挪到了晚上进行。随着应用系统的增多,后台服务器的压力越来越大。由于缺乏规划,有好几个占用资源较多的任务堆在了一起运行,尽管不会把服务器拖垮,但相应速度已经大打折扣。

  小李把这个情况形象的比喻成了“JOB打架”,得到大家的一致认可。可不是,人人都以为晚上清静,特意选了这个时候跑大任务,结果反而造成了服务器“拥堵”,真让人啼笑皆非。

  “被”推诿了……

  小张刚从外面回来,跑得满头大汗,刚回到座位,电话就追过来。

  “小张啊,我的CRM系统登陆不了,能不能帮我看看咋回事?”是跟他挺熟的分公司财务,可,她说的CRM他不熟啊……

  “您先等等,我找人问问啊。”小张攥着电话举头四望,小李不在、小王出差、经理据说在开会?一回头,小张心里有底了,低头讲电话,“这样,我把电话转给开发处小周,您问问他?”

  小张放下电话,转身进了机房。既然事情已经交给开发部了,也没什么可担心了。结果,没两天,小张和开发部的小周、维护处的小徐,一起被投诉互相“推诿”,拒不解决问题……

  小张这个郁闷!小周也觉得冤枉,“CRM本来也不是我负责,我只是帮她把电话转给小徐,怎么就成了推诿了?”

  小徐也一肚子委屈,“CRM系统刚移交,我又不熟,那个问题真解决不了!谁让小王正出差……”

  麻烦为何“野火吹不尽”?

  一件又一件麻烦事摆到信息部总监老陈的案头,让他也一样愁眉不展。随着公司信息化程度越来越高,IT系统已经成为企业运营和管理不可或缺的有效支撑。可是,麻烦也随之而来。

  首先是感觉到人手不够。需要处理的事情越来越多,人员却不见增加,老陈领导的这支救火队,完全处在超负荷的压力下。

  其次是用户满意度降低。很多业务部门都对信息部迟缓的响应速度和漫长的处理周期心存不满,老陈的部门也成了真正的“挨踢”部。

  最后是系统运行的稳定性差。老陈经常会担心,生怕IT系统有个“三长两短”,不管网络故障还是业务系统“罢工”,都够他喝一壶了。

  老陈不是没想过对策,也知道眼下这种混乱状态急需整治。可人手就那么多,大部分精力都被日常维护和排错占满了,根本没时间考虑其它。每一想起这些潜在的风险,老陈就感觉好像坐在火山口一样,不知道什么时候就会“爆发”……

  防患于未“燃”

  老陈的担忧是正确的,IT部门如此混乱的、疲于奔命的状态决不应该是IT运维的常态,必须得到治理。

  与其四处救火,不如在火势渐起之前,将其消灭在萌芽之中。然而,对于不同层次、不同种类、不同优先级的IT维护请求来说,如何有效、迅速、正确的提供处理方案并监控问题的解决情况,是每一位“老陈”都应该特别关注的。

  我们先来分析一下老陈的麻烦。简单点说,老陈的信息部存在三个方面的问题,第一,硬件设施不规范,维护难度大;第二,IT系统各自为政,缺乏统一规划和管理;第三,服务效率低下,无法快速有效的解决用户的问题。

  针对这三个方面,我们一一提出改进的建议。

  1. 建设“绿色”机房

  现在的硬件设备越来越强大,升级换代越来越快。走进每个IT部门的机房都不难见到摆放混乱、安全设施不到位、各种机型混杂、缺乏控制平台的现象。

  虽然企业的信息化进程要求的是速度,但是基础的硬件管理也需要我们给与足够的重视。某一台服务器可以用价格来衡量,但如果是一台存储了业务数据的服务器,对企业的价值就难以衡量了。

  老陈可以请专业的公司为企业建设一个“绿色”机房,不但有利于硬件维护和系统稳定运行,也是一种环保责任,对节约社会资源的贡献。

  2. IT统一规划

  小李形容的“JOB打架”可以反映出这几年在不断建设新的应用系统的同时,老陈的部门实际上缺少的是站在企业整体角度的IT统一规划。

  没有整体规划的IT系统建设,无论对使用者还是维护者,都是一场严酷的考验。后台任务的运行时间冲突,还只是比较容易处理的问题,如果任由这种无政府的状态发展下去,稍一不慎,就可能演变为一场货真价实的“灾难”。

  老陈应该组织不同应用系统的负责人一起,首先理清正在运行的各个系统间的关联,清理系统间的接口,从数据唯一性、安全性和准确性的角度,对公司内部的IT系统作一次梳理,找出问题,并明确以后的发展方向。

  3. 搭建“服务台”

  老陈的信息部实际上承担了从软件开发、系统维护到硬件维护的几乎所有IT相关任务,但是人手少任务重,难免捉襟见肘顾此失彼。

  业务部门用户满意度下降,很大程度上是由于在前两个方面努力不足造成的。由于IT维护内容繁杂琐碎,涉及到软件、硬件和网络的各方面,一旦协调不力,很容易造成效率低下、用户体验差等结果。

  老陈在考虑加强机房建设和IT规划的同时,也可以考虑借鉴ITIL的思想,有针对、有选择的在部门内部施行“服务台”流程,以提高运维支持的效率和质量。

  如何扭转“挨踢”的囧状

  企业信息化的程度越高,员工对IT系统的依赖程度也越高。进而,对系统支持和维护的水平要求得也越高。用户的抱怨涉及许多方面,既包括硬件维修,也包括软件维护;既包括业务系统的功能使用,也包括后台数据的修改维护;既包括新项目立项,也包括老系统改造。

  面对花样百出的各种问题,信息部门包括硬件工程师、软件开发工程师、系统维护工程师在内,几乎是在全民皆兵的高负荷运转,可收效却不容乐观。

  在实际工作中,经常会发生“白做工”的情况:硬件工程师跑过去修机器,结果却发现是业务系统导致的错误,他也无能为力;维护工程师在尝试了各种调试方法之后偶然发现,原来造成系统“不灵”的原因是是网络故障;开发工程师在编程时被用户的咨询电话打断,导致开发效率降低。

  凡此种种,不一而足。

  然而,四处救火的救火队,并没有享受到英雄似的待遇。业务部门提出的要求有些被处理了,但是速度太慢,或者业务人员被“传递”了很多次,才找到能解决问题的人。这些不太愉快的经历让他们的满意度直线下降,最终转变为对IT系统的抱怨和不满。

  只有为业务部门提供统一、友好、高效的服务,才能改变老陈他们“挨踢”的囧状。

  贯彻“服务台”策略

  IT治理中的服务台策略,跟酒店总台的作用有点类似,起到了集中接待、分流和处理简单需求的作用。但是,在信息部门建立起一套适用的“服务台”流程,可不是件容易事。

  我们大概需要从三方面努力,来确保“服务台”的顺利实施。

  首先,做好准备工作

  IT部门的服务台可不是设立一个热线电话,再指定专人接听就算完成任务的。它需要老陈和他的手下们提前做好这样三件事:

  1)与不同的业务部门订立不同的服务水平协议(SLA)。

  如此一来,不同级别的需求具有双方认可的优先级和重要性,服务台按预先设置的级别派工,即有章可循,也容易赢得用户的认可。

  2)制定好服务台的运作流程。

  服务台是为了解决IT运维混乱的局面,本身更需要有一个清晰的管理流程。所有用户来电都应该被记录、被跟踪、直到问题被解决。

  3)将现有的IT团队进行分级。

  不同人员负责的工作职能不同,可以按照运维需要划分为:服务台坐席、现场支持、专家团队等。一般性问题由坐席解决,需要出现场的任务由现场支持团队完成,更复杂、更困难的问题由专家团对商讨后给出解决方案。

  其次,落实策略执行

  任何好的流程和策略,都需要强有力的执行。服务台在设立初期,由于流程不熟悉、各方协调不到位等原因,很容易会出现为了追求快速而置流程于不顾的情况。

  比如,不按规定越过服务台而直接处理用户反映的问题,或者不按规定将任务处理情况在服务台做登记,以及其它一些看起来节省了时间,实际上却把事情重新引向无序状态的“捷径”。

  对这些可能出现的情况,老陈要做好准备,制定必要的、可行的规定保证“服务台”策略的实施效果。

  最后,实现人员“热备份”

  老陈手下的工程师大多是术业有专攻,每人只在各自的领域内是专家,只对自己负责的系统轻车熟路,一旦某个人缺席而无法处理问题,任务就会被“挂起”。这种情况对保持IT运维的稳定性来说,是很不利的。

  老陈自己也认识到了,这样的一个组织结构和人员配置,实际上是很“脆弱”的,根本经不起什么风吹草动。一旦人员有变动,就会给系统维护和支持的服务水平带来重大影响。因此,如何解决人员配置上的灵活性,是老城面对的另一个挑战。

  或许,老城可以借鉴服务器系统的“双机热备”机制,让负责不同业务系统的员工之间相互了解对方的业务,甚至参与到不同系统的建设和维护当中,增加每个员工对其它领域的了解程度。

  这样,既提高了员工的业务技能,也实现了人员配置上的自由度,小周和小徐也不会因为小王出差而对CRM无能为力了。

  不管怎么说,企业的业务发展离不开信息化建设,信息系统的稳定运行更离不开IT运维的支持,许多生命期短暂或者使用效果不太好的IT系统,都是因为后期的维护和支持不到位,才导致前期投入的资金和人力付之东流,让人扼腕不已。

  所以,进行信息化建设,离不开高效敏捷的运维支持,我们应该对此作出更多的尝试,以使IT系统成为企业高效运营的“助力”,而不是“阻力”。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章