如何处理IT事件管理以避免混乱

IT系统已经宕机，它正在影响业务。发生了什么事，以及需要采取哪些措施才能让所有的事情恢复稳定？这种困境在技术平台上建立商业能力的现代企业中经常出现。IT事件响应不能留给纯粹的反应过程，企业不能无序发展，而是需要一个周密的管理和解决系统。

当一个重要的应用程序崩溃时，用户最好有适当的IT事件管理流程和程序来解决它。

IT系统已经宕机，它正在影响业务。发生了什么事，以及需要采取哪些措施才能让所有的事情恢复稳定？

这种困境在技术平台上建立商业能力的现代企业中经常出现。IT事件响应不能留给纯粹的反应过程，企业不能无序发展，而是需要一个周密的管理和解决系统。

IT事件管理和解决是组织如何在其技术平台上维持系统可用性和正常运行时间的核心。

在ITIL服务管理框架下，IT事件管理被描述为记录和解决事件的定义过程。目的是尽快恢复对客户的服务，通常是通过解决方法或临时修复，而不是永久解决方案。

快速解决是值得称赞的，但IT部门如何确保这种情况发生在物理，虚拟和云环境的混合组合，伴随异构IT带来的所有复杂性？

IT事件类型

工具应确保事件不会成为问题。ITIL将事件与问题区分开来：事件是一种易于影响用户并单独发生的事件;问题是在事件发生之前重复事件或识别IT基础设施中的问题。跟踪事件和使用模式匹配算法有助于处理问题。让人们专注于产生IT组织响应的一次性事件。

事件属于硬故障，软故障，以及软件故障：

·硬故障是IT平台中的物理资产（例如服务器，网络链路或存储阵列）或其中任何组件的故障。

·由于IT平台内的虚拟结构（例如虚拟服务器，存储卷或网络链路）中的故障，会发生软故障。

·软件事件是软件中由编码错误或应用程序所依赖的数据损坏引起的故障。

IT事件管理过程

任何IT事件管理方法的第一个方是根本原因分析：首先是到底什么导致事件的发生？因此，管理工具的第一个重点是发现事件是否发生在软硬故障或软件问题上。

第二个重点必须是尽快修复或规避问题，以尽量减少事故造成的损害。完全修复是IT事件响应的最佳结果。将系统恢复到之前的状态，而不会因为业务连续性而损失性能或数据计数，但并不总是可能的。完整的修复可能需要时间来实现。部分修复其中可能对用户体验有轻微的负面影响，或已知数据量丢失，应该是其最低目标。

最终安全措施灾难恢，只能用于完整的灾难。灾难恢复总是导致一段时间的能力损失和数据的明显丢失。

工具还应确保事件不会成为问题，这意味着任何最终解决方案都是长期的，并阻止未来事件再次发生。如果适当的IT事件响应首先需要战术性修复作为解决方案以启用客户，则较长的进程应识别并实施长期修复。

留下痕迹

在IT审计的情况下，这些工具可以证明是有用的。例如，从即时通讯工具中添加详细信息有助于证明所做的工作，何时，如何处理事件以及采取了什么步骤阻止它们成为问题。一个经过审计的公司，无论是遵守内部标准，ISO90001还是法规遵从性要求，都可能需要IT事件管理工具到位。

工具格式

许多服务台系统（例如BMCRemedyIT服务管理套件，VivantioPro和Zendesk）嵌入了IT事件管理工具，但有些服务台系统只是监督IT事件管理的过程，并且不提供实施完全补救的实际能力。

有人问：你希望如何改善企业业务的IT事件管理？其他工具完全集成到服务台系统中，提供用于IT资产管理，根本原因分析和修复的功能，以及使用服务台系统处理提高故障单并向管理员通知正在发生的情况。IT管理供应商，如ManageEngine，BMC软件，SolarWinds，ServiceNow和Cherwell软件，提供全面的事件解决功能，而不是单个故障。

你选择用于安装有效IT事件响应的工具必须具有以下功能：

·了解所管理的IT平台的物理体系结构;

·了解管理下的IT平台的虚拟架构，包括公共云平台;

·完全理解虚拟和物理实体之间的所有依赖关系;

·快速找到发生的IT事件并记录日志;

·对事件进行根本原因分析并记录;

·确定事件是否可以通过自动化方式修复，如果不能，则通过故障单提醒管理员;

·创建补救方法，或向补救系统提供足够的数据，以便可以修复事件;

·在只能进行部分修复的情况下，提供完整修复的故障单;

·记录所做的全部细节，并以可以识别事件的任何重复，并记录结果问题的细节的方式存储它们;

·根据所有记录的信息，为发现的所有事故，包括采取的步骤，结果等提供有意义和有用的报告。

在需要人为干预，例如物理系统失效的情况下，IT事件管理工具应当与允许手动工作的操作工具（例如服务台软件）双向地集成。一旦更换或固定硬件，IT事件管理工具应接收此信息，以使其记录保持最新。如果同样的事件再次发生，工具的记录将有助于确定它是否是地方性的。

组织应该考虑如何最好地实施这些工具，以支持不断变化的IT平台所需的灵活性，确保它涵盖私有的和公共的基础设施。

来源：机房360

0赞

好文章，需要你的鼓励

如何处理IT事件管理以避免混乱

来源：机房360

2016

11/16

10:32

分享

点赞

iOS 18新增游戏应用正式上线，专为iPhone游戏体验而生

Sleepbuds制造商Ozlo如何构建睡眠数据平台

CES 2026推出AI伴侣机器人Emily

苹果2026年将发布四款新iPhone机型预览

AGI-Next峰会全记录解读：Kimi、Qwen、智谱、腾讯同台，2026年有新范式是共识，中国引领AI概率最低预测2成

Anthropic推出医疗健康功能助力患者理解病历记录

Google推出通用商务协议，推动智能体购物自动化

核电初创公司携小型反应堆回归，面临重大挑战

谷歌针对部分医疗查询移除AI概览功能

Motional采用AI优先策略重启无人驾驶出租车计划

新年存储升级：三星SSD优惠最高减免100美元

OpenAI与软银联手投资10亿美元，助力星门项目能源伙伴发展

什么成就传奇CIO？IT领域的人性化发展之道

CIO Joel Klein 与医学和 IT 的交汇

CIO应动态调整IT，支持业务飞速增长

思科更新 AppDynamics 解决方案的 Smart Agents 简化大规模代理更新和仪表化

每个IT领导者都必须回答的8个变革管理问题

养成致胜IT文化的8个秘诀

一场新的“集装箱革命” 企业IT架构该如何应变突围？

携手共创 IBM TSS重新定义IT支持服务的黄金规范

解锁人类五花八门的商务办公姿势

CIO如何暴走？只需一个扎心问题！

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: