扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
尽管云计算为IT部门带来了惊人的效益,但它始终只是个技术平台。由于管理的不完美,问题总会发生。实践证明IT可以提供帮助,但在一些情况下,也可能会扩大人为失误的影响。因此,改变管理手段和持续监控等基本的IT规划是必要的。那么,如何通过规划避免云服务中断呢?
安装特定警报
用少量的投资为重要基础设施安装特定警报,并确保警报声超过噪音。添加警报系统升级通知,以确保在问题影响关键业务之前得到解决。
每天检查数据表
即使拥有最先进的报警和报告系统,“经验”仍然是最优秀的管理工具,尤其是当大量数据被杂乱混合时。定期观察设备内存、CPU和接口使用的历史性能数据表。允许管理员建立、调整性能数据表,以确保用户受到影响前主动解决报警阈值。
创建有针对性的示意图
通过监视重要的网络设备收集详细数据,其用途是无限的。但是,没有什么能够取代大屏幕上的红色警报。创建示意图,包含特定组件的关键网络设备总体状况等。例如,在墙上安装一个显示核心网络设备的启动/关闭状态的60英寸LED显示图。
控制人为错误造成的宕机
迄今为止最严重的宕机始发于人为错误,而事件的发生只是由于很常见的网络问题引起。一天输入大量的神秘命令行接口(CLI)命令数百次,迟早会发生意外的灾难。配置错误问题很难解决,所以请确保进行夜间设备配置备份工作。
创建问题解决方案
你不需要为每一个可能出现的问题列出详细的处理方案,但你至少需要准备一个简洁的电子表格。合理地列举可能出现的问题,这可以帮助你确定风险领域,并加快团队成员的初始故障排除步骤。同时,列表上还要包括团队成员的紧急联系方式。不管怎么说,凌晨2点在VPN(虚拟私人网络)将问题解决总比第二天8点在办公室解决要好。
预防问题扩张
即使你已经做好万全准备,有时宕机事件还是会不可抑制的发生。为了防止问题的扩大,你需要合理的报警管理系统,借此保证合适的团队能被及时通知。例如,如果一个文件被错误删除,IT生产人员将被及时通知解决问题,这会让你体验到意想不到的改变。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者