IT灾难的8个早期预警信号

你的IT部门可能存在一些潜在问题,如果你不及时处理,可能会在你的手中发生一场灾难。

至顶网CIO与应用频道 02月07日 编译:你的IT部门可能存在一些潜在问题,如果你不及时处理,可能会在你的手中发生一场灾难。

现在看起来情况也许不错,但已经出现警告信号了,你只是没有注意到。

网络突然出现问题,简单的问题却需要更长的时间才能解决,而有些问题则一直在重复着。每一次大规模的代码发布之后,都是一场修复漏洞的行动。“影子IT”依然存在。而你是最后一个听到商业战略变化的人。

当你的员工离职,你的网站脱机,你的用户已经把他们自己的数据中心放到了云端,黑客已经把你的客户记录放到暗网上出售,一切都已经太迟了。

下面就让我们来看看这些潜在厄运的早期预警信号,以及如何避免这些问题。忽略这些问题,你将面临危险。

1、用户停止抱怨

你可能认为投诉减少是件好事。但Alvaka Networks公司首席执行官Oli Thordarson说,你可能是错的。这家公司为中型企业提供全天候运行的IT服务。

他说,投诉减少,意味着用户已经放弃了解决问题的希望,这会导致各种不良后果。

“帮助请求的减少并不总是意味着IT经理做得更好了。这通常意味着用户群已经对这个IT团队失去了信心,接下来是越来越多的影子IT、备用用户支持机制、以及潜在的解雇和人员洗牌。”

Thordarson说,当用户抱怨的时候,这意味着他们期望IT团队能够响应他们的需求。诀窍是建立一个投诉的基准线,你要密切关注看看数据是否发生大幅变化。

投诉的增加可能是由于发生了重大升级或其他重大变化,支持请求的减少,可能是由于重大的流程改进或一些长期存在的问题得到解决。

他说:“但如果你不能回答这些增加和减少的问题,那就意味着你面对着一个很大的问题。”

2、午餐厅突然出现了很多陌生人

如果你正用工作午餐,周围有很多你不认识的人,那么你所在的企业组织可能收购了其他公司却没有人告诉你。

这种收购对于企业组织来说可能是件好事,也可能不是。无论如何,你的团队可能需要搁置一些战略项目,花时间整合新收购公司的系统和数据。这会削减你的创新能力。

房地产网站Trulia的工程副总裁Deep Varma在21世纪20年代中期曾在雅虎工作时看到了这一点。当时正值这家搜索门户网站收购了技术公司Overture以及其他一些小的公司。

他说:“雅虎收购了许多大大小小的公司,所以我们大部分时间都花在了整合上,而不是寻求改进搜索关键词和质量相关性上。我的员工总是这样说,'天哪,我花了太多时间去做整合。’这大大减缓了创新步伐。”

当然,有很多事情是你无法控制的——你不能确切地告诉CEO停止收购公司。但是,你可以将业务领导者真正需要的部分(如分析)集成到一起,同时将产品、路线图和业务单元分开。

他说:“Zillow Group(Trulia的母公司)多年来进行了很多次收购,但是我们的战略一般是建立一个能够独立运作的品牌组合上。”

虽然Varma仍然忠于他曾经工作过的雅虎公司,但他表示,雅虎并没有在战略上思考每一次收购如何融入其整体业务,结果就是使创新停滞下来,这导致了最终的消亡。

3、你一直在解决相同的问题

很少有一次重大故障就让一个企业组织的IT团队倒下;更多时候,是那些细微的是技术债务的必然积累所导致。

通信与协作公司xMatters运营总监Adam Serediuk表示:“深夜进行的各种工作,短暂但无法解释的中断故障,简单的任务需要越来越长的时间才能完成——突然之间的消亡在企业组织中常常发生。”

Serediuk坦言,任何组织都存在一定程度的低效率,大多数流程都是为了效率而牺牲效率。但是,当同样的系统不断地出现问题,没有人采取主动措施来防止这种情况发生时,就会产生一个难以想象的漏洞,其结果通常是员工的职业倦怠和高消耗。

他说:“总会有那么一个时刻,有员工决定离职,比如当他们花了整整一周的时间处理了10次同样的问题,招聘人员在LinkedIn上给他们发消息,‘你知道吗?我已经受够了。’他们会离开这里继续工作下去。”

如果可以的话,最好的解决办法是把旧的、有问题的系统抛开,并用新的系统重新开始。

他表示:“陷入沉没成本谬误的陷阱很容易,当正确的方法摆在你眼前:用已有的经验知识进行重建和改善。技术变化太快,快得无法承担过去的错误。”

4、你发布的代码太多了

当你发布了庞大的一批代码时,你会大大增加出现问题的几率,并冒着可能导致整个系统崩溃的级联效应风险,LinkedIn站点可靠性团队工程副总裁Bruno Connelly这样表示。

他说:“虽然很容易一下子把所有的东西都做出来,但是大量有着微小变化的代码,处理起来的话要复杂得多。而当出现问题时,就会引发其他更多系统性的故障。”

他说,最好是更频繁地发布少量的、带有较少变化的代码。

“我们已经优化了我们的系统,尽可能频繁地发布代码。我们试图不断地发布少量代码,这也确实让我们很好地验证了一切仍然有相同的性能特征和下游依赖性。”

这个面向专业人士的社交网络也通过模拟来确保为意外的系统故障做好准备。去年11月,LinkedIn推出了LinkedOut框架,该框架允许可靠性工程师人为地触发应用中的故障,以查看服务如何处理这些故障。

LinkedIn每天都会强制其中一个主要数据中心进行故障转移,以确保其具有足够的容量和自动化机制以抵御实际发生的数据中心灾难。

他补充说:“如果你对自己的故障恢复能力很强的信心,这就是另一个警告信号。你需要不断地为故障做演练,才能适应故障的发生。”

5、员工不再找你提出各种想法

当你向团队关于解决棘手问题或制定新策略发起挑战的时候,你所听到的只是一片欢乐,你就知道你面临着严重的士气问题。

Thordarson说:“如果管理人员和用户向CIO提出一些想法和充满热情的解决方案建议,那么说明这位经理在领导和管理方面做得非常好。当用户不再提出新想法的时候,表示他们已经失去了对CIO的信心,或者他们已经造成了影子IT。”

这可能源于管理者未能推动制造合作、试验的文化氛围,缺乏成熟度,或者太自我。

他补充说:“我看到了整个IT团队似乎都蔑视其他人。如果你开始认为你的雇主只是一个东道主让你进行交易和寻找新技术的话,你对于你的公司来说就不是一个很好的角色,可能是时候换一个新的领导者了。”

Serediuk说,员工可能不愿意提出新的想法,因为他们已经筋疲力尽了。

Serediuk说:“当团队被过度消耗的时候,你会发现大多数人不愿意改变,即使这一改变可以让他们的生活变得更好。他们会觉得这一改变会失败,因为那是他们一直以来在经历着的。每次变化都使他们的生活变得更糟,那为什么这次变化会有所不同?你需要能够看到这一点,并对此做出适当的回应。”

6、你已经不在抄送名单之列了

有了IT管理,没有什么消息是绝对的坏消息。如果你不能参与到重要的管理决策或参与C级战略会议的话,问题就出现了。

Thordarson说:“没有得到邀请参加高级管理层会议是一个关键迹象,说明你已经被排除在外了,不再与公司有关系。很显然,他们不相信你,也不认为你有什么贡献。”

有些人指责IT管理人员没有意识到,为了得到管理层的尊重,他们需要根据业务成果制定技术问题框架,Thordarson补充道。

“你不能只是说‘我们需要新的路由器,因为网络速度很慢;或者是需要新的软件,因为你必须每晚重建数据库。’但如果你告诉他们,每晚重建数据库的每年花费是200万美元,你就知道他们会做出回应的。”

ThoughtSpot是一家以人工智能驱动的分析公司,该公司首席数据布道官Doug Bordonaro说,CIO经常迷恋于基础架构,而不关心更宏观的业务前景。

他说:“通常来说,CIO主要关注安全性、合规性、数据管理和其他基础任务。在当前的数字经济中,这还不够。如果你不花相同的时间来实现数据变现、开展业务、并在整个组织中传播数据的力量,那么你可能就不再合适当CIO了。”

7、你的团队对各种警报已经疲劳了

IT经理们知道,他们需要实时、持续监控关键业务系统。但是警报太多,和几乎没有警报一样糟糕。

Serediuk说:“你可能有100台服务器或5000台服务器,但是你的监控仪表板总是有30个打开的警报。这些警报可能只是已知的问题,但是你仍然有这30个红色标志在盯着你,所以当一个关键的警报弹出时,你怎么能把它从其他30个警报中区分出来呢?”

SignalFx是一个基于云的监测平台,该平台解决方案工程负责人John Bruce说,警报疲劳会引发两个潜在的严重问题。一个是IT经理最终忽略这些嘈杂的警报,其中就包括可能是最严重的那个警报。另一个是倦怠和消磨。

他回忆说,他曾经拜访了一个SignalFx客户,这个客户仍然在使用传统工具来监控动态云托管平台。

Bruce说:“他们所做的监测系统太‘嘈杂’了,他们的操作人员筋疲力尽。如果你不停地在凌晨3点或4点发出假警报,这感觉是很糟糕的。”

经理们需要处理积压的问题并列出优先级,那些能够影响客户、反过来影响他们自己的问题最重要,Serediuk说。

Bruce说,关键是要积极主动,在问题开始影响用户之前使用指标作为早期预警信号。

“你需要早期的指标,说:‘好吧,这项服务看起来正在走下坡路,我该怎么做才能防止这个情况呢?’而不是“服务器和客户端服务已经关闭了,我们需要加入这场战斗。’”

8、FBI出现在你家门口

数据泄漏和安全漏洞是每个CIO和CISO最关心的事情,BugCrowd网络安全专家、顾问Paul Moreno说,发生巨大的安全问题之前,常常会出现很多小的信号。

例如:难以解释的系统性能问题,或者高于平常的数据流出量,可能意味着攻击者正在尝试泄露你公司的信息。来自新地点的登录尝试突然激增,可能意味着有人正在企图破坏你的客户数据库。对API或管理端点的异常请求,可能说明某人正试图破解你的网络。

他说:“如果你没有监控到上述任何一项的话,那将是一个很好的开端。就内部管理端点而言,具有更高灵敏度的监控甚至是自主触发(如锁定),对于任何安全装备来说都是至关重要的。”

积极主动也是有帮助作用的。实施双因素认证可以防止窃贼使用被盗密码。错误赏金程序可以在坏人之前找出漏洞,特别是如果你的企业组织公布了责任范围和披露了准则。另外,安全情报提供者可以扫描暗网,如果他们发现黑客可以利用的危害迹象,就会发出警报。

但哪个是最可靠的(和最糟糕的)信号呢?

Moreno说:“当联邦调查局特工或安全提供商与你的企业组织联系,检查他们最近获得的数据是否与你数据库中的任何数据相匹配时,这通常说明已经发生了数据泄漏。”

来源:cio.com

0赞

好文章,需要你的鼓励

2018

02/07

16:29

分享

点赞

邮件订阅