科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网CIO与应用频道CIO加油站数字化的远程监控及其如何改变了数据中心的运营和维护

数字化的远程监控及其如何改变了数据中心的运营和维护

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

今天的数据中心的电力和冷却基础设施的数据点/通知(notification)的数量比10年前大约要多3倍。10多年前,传统的数据中心远程监控服务就已经出现了,但其并不是设计用于支持这一大量的数据监测及与之相关的报警的,更不用说从数据中提取洞察价值了。

来源:机房360 2016年9月2日

关键字: 数据中心 数字化

  • 评论
  • 分享微博
  • 分享邮件

今天的数据中心的电力和冷却基础设施的数据点/通知(notification)的数量比10年前大约要多3倍。10多年前,传统的数据中心远程监 控服务就已经出现了,但其并不是设计用于支持这一大量的数据监测及与之相关的报警的,更不用说从数据中提取洞察价值了。在本文中,我们将为广大读者诸君介 绍7大趋势如何定义了监控服务的需求,其又将如何引导数据中心操作运营和维护的改进。

数据中心的数字化远程监控服务已经存在10多年了,但较之今天新的数字化服务,那些老的离线传统服务是有着其局限性的(下见表1的比较)。这些新的服务融入了诸如如云计算、数据分析和移动应用程序等技术。

在今天的数据中心内部,一名管理人员不知道什么时候应该更换他们的UPS或冷却单元的即将发生故障运行失败的某个组件。而与之相反的则是,在数 据中心外部,一名人员却能够从他们的智能手机上获得关于他们的正常路由已经借助一款推荐的备用路由备份了20分钟的一个即时的通知。这种差距促使我们需要 来研究一下IT的进步和发展趋势正在如何改变数据中心的监测,以及反过来,数字化的远程监控又将如何改变数据中心的操作运营和维护。

在今天,一般的监测概念已经被人们所广泛理解。任何拥有一款健身跟踪设备、连续的血糖监测仪器或者Learning Thermostat智能温控器的人都已然获得了IT的进步改善了他们的生活的直接体验。特别是,用户能够受益于从他们的设备(如热量卡路里燃烧消耗,血 糖水平等)的直接知识。然而,对于今天的大多数数据中心而言,并没有受益于大数据分析和机器学习。而大数据分析和机器学习,以及其他五项趋势将彻底改变管 理人员如何操作运营和维护数据中心。

本文中,我们将为大家介绍定义下一代数据中心监控的七大趋势,及其所带来的益处。同时,还描述了为达到这些益处对于数据中心的要求,以及数据中心的操作运营和维护在未来将如何发展演化。

功能

传统的远程监控

数字化远程监控

在线功能

远程故障排除

不典型

通用

网络运营中心

事件追踪

不典型

分析

具备实时数据和通知的移动应用

在线交流

实时监控

安全的网络连接

无网络连接

基于云的存储

值班状态

支持的设备

一般为UPS

所有的SNMP 设备

表1 传统与数字化远程监控的比较

影响数据中心监测的七大技术趋势

10年前所提供的监测服务是基于桌面台式机的,具有有限的数据输出,并在很大程度上是保守的(即依赖于人工来解释什么是错误的)。而数字化的远程监控已经通过技术解决了这些限制,并将在未来几年通过技术解决更多的限制。我们看到有七大技术趋势正在影响数据中心的监测。

• 嵌入式系统的性能和成本的改进

• 网络安全

• 云计算

• 大数据分析

• 移动计算

• 机器学习

• 劳动效率自动化

如下,我们将为大家简要地介绍一下这七大趋势。

嵌入式系统的性能和成本改进

在几乎所有的数据中心设备中都能够发现嵌入式系统,这包括制冷机组、PDU、UPS、冷水机组等,而且其基本上控制了这些设备的操作。没有这些 嵌入式系统的输出,就没有什么可监控的了。在过去的几年里,嵌入式系统已经显著的改善了计算能力、数据存储、通信和定价。这意味着较之在10年前,今天的 数据中心设备可以提供更多的数据。我们估计,在过去的十年中,电源和冷却设备的报警和通知的总数增加超过了300%。这种增加来自于更多的传感器、更多的 功能、更多的算法和更高的采样率的组合。所获得的可用数据越多,数字化远程监控从数据中心设备所推断出的有用的信息也就越多。

网络安全

网络安全是在全世界范围内的所有数据中心管理人员们所关注的最大的问题之一。他们不仅关注IT设备的脆弱性,同时也担心物理基础设施设备被利 用,成为黑客侵入IT网络的“后门”。数字化的远程监控,以及其他基于云的服务,必须很好的领会网络风险问题,甚至是在产品或服务被创建之前。数字化服务 提供商需要证明其安全开发生命周期(SDL)实践方案和政策的安全性。企业客户需要询问他们SDL的政策,并验证其生命周期包括了集中的培训、安全需求、 设计、开发(如编码标准)、验证、发布、部署和响应阶段。在术语或架构方面,应该有一个单一的入口点使用网关(通常是软件)进入到您企业的网络,而所有的 设备都是通过网关进行通信。下图1显示了一款推荐的数字化远程监控体系架构。

当评估一家供应商及其数字化远程监控服务时,数据中心管理人员和安全利益相关者还必须考虑其他几个因素,其已经在《解决数据中心远程监控平台的网络安全问题》一文中进行了详细的讨论。

 数字化的远程监控及其如何改变了数据中心的运营和维护

图1 一款推荐的数字化监控架构

云计算

云计算是数据存储和处理的一种高度可扩展的方法。云计算使得数字化的远程监控服务成为了可能。诸如预测分析和机器学习等IT服务可以在云计算平台上运行,以进一步提高数据中心的监测的价值。

大数据分析

大数据分析看上去似乎与主流相去甚远,但它适用于今天所进行的活动,如面板引擎的基于状态的维护(也被称为预测性维护);和预测制造商要为假期的到来生产多少产品。一个电子表格或数据库只能识别数据中的模式。而大数据分析则在以下情况下被需要:

• 数据量的增加(例如PB级的数据)

• 数据变为非结构化(即电子邮件、自由格式的文本字段、或故障单的数据变种)

• 以实时处理的数据(以其速度著称)

移动计算

在过去的几年里,全球范围内使用手机上网的数量一直在不断增长,而通过使用台式机上网的数量则在急剧下降。这一趋势也适用于越来越多的数据中心 管理人员,他们越来越多地被要求使用更少的资源来做更多的事情。移动计算有助于减轻这种负担,通过允许数据中心管理人员能够在不同地理进行正常的日常操作 运营,而不会被断开。

机器学习

机器学习与数据分析有关,其使用数据做出预测。但不同的是,其通过使用以前的学习结果来改善模型。机器学习可以用来驾驶一辆无人驾驶汽车、语音 识别、图像识别、选择在Netflix上观看电影、或者精确地模拟一处非常复杂的数据中心PUE。在所有这些例子中,驾驶、识别等性能都能够随着时间的推 移而进一步获得提升。

劳动效率自动化

劳动效率自动化并不是一个“热门”的趋势,但在一个竞争日益激烈的商业环境中,其与数据中心管理人员特别有关,因为他们被要求用更少的资源来做更多的工作。而这便是自动化的数字化远程监控发挥其用武之地的时候了。

数字化监控的益处

在文中所介绍的第一大技术趋势(嵌入式系统的性能和成本改进),为数据中心带来了一个总体的挑战。所追踪的数据量正在不断迅速的增加,使得数据 中心管理人员们更难解释其意思,也就无法进一步采取正确的行动措施。这是不可持续的,尤其是在当您企业所运行一个数据中心已经人手不足的情况下。管理人员 所面临的其他的一些挑战包括:

• 大量众多的警报来自同一个设备时,其实一个警报通知就足够了。这实际上会导致报警疲劳,相同报警的重复,最终将因人性而被忽略。

• 每款电源和冷却设备往往有其自己的本机管理解决方案。这导致了缺乏一款统一的监控平台和标准化的架构,增加了操作的复杂性。对于人手不足的数据中心损害尤其严重。

• 打电话给客户支持中心求助,通过菜单列表拨号,等待接通,让支持人员创建一个故障表单,但很可能不得不升级才能解决问题。

领会理解、减轻或充分利用了上述几大技术趋势的数字化远程监控服务,可以帮助数据中心管理人员克服这些挑战,并提供以下益处:

• 减少停机时间/更低的平均修复时间

• 降低运营开销

• 降低维护和服务的成本

• 提高能源效率

• 可扩展性

减少停机时间/更低的平均修复时间

对停机事件的回顾通常揭示了共同导致数据中心停机中断事故的一系列的状态变化。换言之,一个单一的故障事件通常并不会导致停机中断。数据中心监 测的一个重点是在其他状态变化发生前,通过识别和解决一个状态变化,以减少停机中断的风险。在这种情况下,数字化的远程监控服务应满足以下要求。

• 网络运营中心专家进行数据中心故障排除应对网络安全事件进行筛选和培训。提供数字化远程监控的经验年限时间越长,就越有可能使得一次报警,通知或故障的解 决不会造成停机中断或更糟的问题。在这种情况下的经验意味着专家通过他们的职业生涯所总结得出的“有惊无险的侥幸脱险”的教训。在航空飞行和医疗方面的研 究表明,这种“有惊无险的侥幸脱险”经验教训是学习的关键。理解并以文档形式记录为什么这些事件会发生,有助于在未来减少类似错误的风险。

• 以文档形式记录所有的事件必须是任何数字化远程监控系统的一部分。

• 服务应通过报警、远程故障诊断和对于设备生命周期的可视化来降低故障修复时间。此故障排除应该由您数据中心的监测专家全天候7x24的交付。

• 数据中心监控专家应该有一份数据中心相关责任联系人的列表清单,以便在发生关键事件时能够在第一时间电话联系到相关责任人。数据中心管理人员应该时刻保持该联系人列表的更新,最好是通过一款移动应用程序。

• 在数据中心与第三方设备的兼容性改善了NOC领域的专家的态势感知能力。了解所有设备的状态有助于改善问题的解决或至少有助于理解问题或潜在的问题。

• 预测分析和远程故障排除应该被用来减少您需要专门的服务人员来服务于您的设备的次数。听到技术人员多次出现要么是因为他们需要帮助,又没有正确的专业知 识;要么是因为没有正确的组件,这种状态太常见了。而通过充分理解这个问题,现场服务工程师可以通过准备好正确的零件和工具,从而增加了他们在第一次访问 时就顺利解决问题的可能性。

降低运营开销

以下要求允许数字化远程监控服务帮助数据中心降低运营开销,进而让员工把工作重点放在更重要的、有助于增加价值的业务方面。

• 支持您的数据中心的网络运营中心领域的专家(图2)。

• 一款移动应用(图3),使数据中心管理人员能够随时随地的立即访问数据及其数据中心的状态。大多数人随身携带自己的手机,因此,手机成为他们接收数据中心 健康运行状态信息的主要手段是合乎逻辑的。登录到一台桌面台式机(有时需要VPN)来解决一个问题是相当耗时,且不方便的。

• 自动故障票据的生成应通过一款移动应用程序来提供。这可以节省大量的时间,因为其避免了给技术支持人员打电话的时间,以及向多名技术支持人员解释相同的问 题的时间。这有助于显著的减少解决问题所花费的时间。一个相关的最佳实践方案是通过聊天,邮件、信息等方式来追踪故障事件。

 数字化的远程监控及其如何改变了数据中心的运营和维护

图2 一处网络运营中心的范例(NOC)

 数字化的远程监控及其如何改变了数据中心的运营和维护

图3 数字化监控移动应用程序实例

• 通过移动应用程序的在线交流作为团队协同、及获得对于NOC领域专家的即时访问的一种手段。

• 快速登录意味着在大约30分钟就可以完成网关的安装,设备的自动发现,软件的注册,配置智能手机的应用程序,并开始监控您的数据中心。

• 人工手动输入待监控的设备是相当耗时的,并可能造成人为错误。而数字化的远程监控系统则能够使用简单网络管理协议(SNMP)自动检测关键的基础设施设 备。Modbus TCP设备通常不会自动检测,因为他们需要设备定义的文件(DDF)。网关通常扫描一个范围内的IP地址(由用户指定),检测适用的设备,并将数据呈现给 用户。

• 事件处理类似于医院如何分诊患者。最关键的警报优先通知,并采取行动措施。这一做法减少了数据中心运营人员知道在触发多个报警的一个事件发生时,NOC专家将通知和引导他们的负担。

• 事件关联性和根源分析评估多个报警,并推导可能的原因,提出可能的解决方案。这种相关性过程可以由NOC领域的专家或结合机器学习来完成。例如,一个 CRAH高温报警可能并不是问题,但在相同的冷却水回路发出六个报警则可能是由于供水阀门被关闭这一根本原因所引发的问题。

• 报警整合将在同一个设备的多个报警转换成一个单一的事件。这种做法避免了不得不承认多个相同报警所浪费的时间。此外,工作流程票据应为这一事件自动产生,以通知谁目前正在处理该问题,迄今完成了什么任务,并跟踪其进度和最终解决情况。

• 语境报警为用户提供有用的信息:如问题的起源(例如X数据中心,Y数据大厅,15C机架),涉及的人员,警报生成的次数,他们应该检查什么。所有这些信息都应该通过移动应用程序,而不需要通过电话沟通。

• 任何人在网上搜索一个错误信息,都是希望能够解决一个问题,可能会遇到一个在线社区,拥有数百名用户发布过常见问题及答案。这种形式的“众包”可以节省大量的解决问题的时间。所有数字化的远程监控服务应包括其自己的在线社区。

提高能源效率

被监视的设备越多,就越有机会得以更好的提高数据中心的效率。然而,为了使对数据中心效率作出有用的推断,其UPS的负荷必须作为总的IT负载 的代理进行测量。如果不知道IT负载,那么对于电源和冷却基础设施增加或减少的评估也就是没有根据的。例如,如果冷却机组耗能趋势上升,我不知道这是否是 由于冷水机组问题,或者由于增加了IT负载。借助这些数据,可以比较所有设备在电源和冷却路径的电力消耗情况,并通过比较IT负载寻找异常。然而,提高数 据中心效率的一种更有效的方法是测量PUE,并将其实时的与一个PUE模型进行比较。

在《数据中心的电力效率测量》一文中,我们为大家介绍了数据中心能源效率模型的工作原理,并介绍了一款连续测量系统同时评估PUE的模型。如果 部署得当,电源效率的趋势可以报告,并能够基于出界条件产生警报。此外,一款有效的系统可以提供诊断效率低下的来源,并建议采取纠正行动措施的能力。这种 基于模型的效率解决方案也应该被NOC人员进行连续监测。

可扩展性

可扩展性是数字化远程监控系统接受额外的设备或节点,以进行监测的能力。取决于这些系统是如何设计的,监测可能局限于几千台设备。对于较小的数 据中心而言,可扩展性通常不是问题(例如500KW的IT负载能力),但对于大型数据中心而言就是一个严重的问题。一些数据中心可以有成千上万的设备需要 监控,并要求每隔几秒轮询一次,因此,一款数字化的远程监控系统应该设计一个可水平扩展的,基于云的架构。这意味着,随着越来越多的设备被进行监控,云服 务将自动添加更多的计算节点来处理监控。数据中心管理人员需要确定他们的要求,然后了解正在被评估的各种监测服务的能力和局限性。

数据中心的运营和维护的演变

在服装、手表、和其他“可穿戴设备”上使用嵌入式传感器,将允许医生预测您生病或患心脏病的风险,并获得关于您身体状况的许多其他方面的见解。 通过对油耗数据进行分析,航空公司可以调整其飞行程序,如控制表面的位置以改善燃料效率。这些都是“物联网”(IoT)的例子,其中设备通过一个网关、微 数据中心、或一个云数据中心相互通信,最终为我们的生活和我们的企业增加价值。

在此背景下,能够更容易的看到数据中心在本文所介绍的七大技术趋势和物联网的推动下,将如何改进的沃土。在未来几年内,我们将在各种大大小小的数据中心的运营和维修方面看到如下的变化:

运营的演变

• 就像自动驾驶汽车很少经历车祸被认为是由于没有人为错误一样,数据中心停机时间的减少也是由于减少了人为错误的出现。在停机中断方面的减少也将主要通过机 器学习来完成。随着越来越多的关于造成停机中断事故或有惊无险事故的原因的数据被收集,数字化远程监控系统将能够预测数据中心发生宕机事件的风险,并为数 据中心运营人员提供适当的措施来避免事故。

• 数据中心的效率将以两种方式得到提高;更准确的设备效率模型和数据中心模型。这种准确性将来自于对实际操作中的不同数据中心在不同的气候条件下运行不同负 载的数据的收集。数据中心模型,使用机器学习,最终将有足够的数据可以建议怎样的冷却系统设置将导致最低的功耗。正如上文中所提到的,数据中心模型也被用 来比较预测的数据中心的能源消耗情况与实际的能源消耗情况,并在发生严重偏离时向数据中心运营人员发出警报。

• 当一名数据中心管理人员接收到数据中心的警报时,他们的移动应用程序将能够告诉他们需要采取什么样的措施来纠正任何错误。更复杂的程序可以用增强现实技术来完成,其中管理人员可以戴着一副特殊的眼镜和形成对于相关设备的图像,指导他们到底该怎么做。

• 天气数据(也许还有公用电力供应数据)将被用来建议一处数据中心何时应切换至发电机,应对于预计发生的断电。

维护的演变

• 传统的维护模式将为客户的定期访问而收取费用,因为厂家缺乏数据和分析来准确地预测某些运行何时会出现故障或是低效率运行。数据中心将从基于定期的维护, 转移到基于数据中心性能状态的维护。这也将鼓励设备制造商使用更多的传感器和算法,改善对组件故障的预测,改善环境报警,并最终减少数据中心维护成本。

• 制造商们将不再需要依靠保修卡和电话跟踪组件故障。相反,他们将依靠一个数据湖和分析,其将为他们提供了丰富的洞察见解,不仅是在组件故障领域,同时还包 括如何提高未来产品的可靠性。对于数据中心的管理人员们而言,这一演化的最引人注目和最有价值的部分是其发生的速度。今天,制造商们需要花费了相当长的时 间才能收集足够的数据,认识到一个问题,然后了解其造成的原因,最后找到一种方法来解决它。

• 从现场数据和分析所获得的洞察见解将使现场服务访问更可预测。例如,当某个问题被修复后,存在第一次访问量将有可能增加而服务缺陷较低的风险(无论是在服务过程期间或服务完成后)。最终,这将转化为更高的数据中心可靠性,并降低数据中心管理人员的维护成本。

• 现场服务技术人员所做的一切都会被记录下来,并且是与所发生的事情相关的。通过收集足够的数据,制造商们将知道他们何时会有一系列特定的事件发生,以怎样 的一个特定的顺序发生,这意味着他们需要采取一定的措施,或者部分的措施是必需的。这将演变成一个数字化远程监控服务以正确的工作顺序和备件自动调度现场 服务技术员。

• 传统上,您需要至少两个人员来执行维护操作,如运行发电机测试;一人阅读明指令,并确认他们执行正确,第二个人重复指令并执行这些操作。有了机器学习,我们可能只需要一个人员即可。

网络的价值

伴随着Facebook作为一家领先的社交网络平台的崛起,“网络效应”这一术语获得了广泛的认识。这一术语基本上意味着,随着越来越多的人使 用特定的产品或服务,该产品或服务将实现更多的用户价值。电话便是网络效应中的一个经常被使用的例子。如果世界上只有一个人有电话,那是没有价值的,因为 他不能跟任何人通话。但当成千上万的人都有电话时,其便有了价值。这对于数字化远程监控服务也是一样的。

如果只有一名数据中心管理员使用了像本文所描述的这样一款数字远程监控服务,那么,他们不会从数据分析及基于状态的检修中获得任何价值。该价值 的快速增加,就是因为越来越多的数据中心使用该服务,并收集尽可能多的数据进行分析,以提供洞察见解。 例如,如果100,000家数据中心使用该服务,这些数据中心中有很大比例的中心很可能有风冷式封装的制冷机冷却架构。有了这些大量的数据,通过分析可能 建议他们改变冷却系统,并能够估计出通过改变冷却系统所能够带来的能源账单的节省。

结论

通过使用数字化远程监控和基于状态的维护,并通过采用诸如大数据和机器学习等技术,数据中心正走上了通往更可靠,更高效的道路。然而,这一切只 能在平台充分利用了数据中心的物理基础设施所不断产生的数据的前提下才能发生。当他们开始评估自己的数据中心的演化时,数据中心运营人员应当审查本文中所 介绍的关于数字化远程监控的要求。

4折票,仅售10天 | 报名智能合约与区块链培训讲座,获世界智能大会参会特权

科技行者:每条内容都是头条的新闻客户端 扫码立即下载

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    往期文章
    最新文章