至顶网CIO与应用频道 08月10日 北京消息:8月2日,第四届Dynatrace Perform 上海用户大会隆重举行。在此次盛会上,Dynatrace与各行业翘楚共同探讨了人工智能技术为应用性能管理带来的新可能,并展示了Dynatrace Davis 人工智能运维助手及其应用场景。
江苏核电有限公司网络系统工程师朱旭东,在大会上针对Dynatrace为企业带来的价值提升谈到了三点——端到端的方式跟踪每一笔交易,帮助运维人员深入分析问题;自动建立性能基线,及时发现系统故障;以及快速定位和响应问题,从而提高运维和管理水平。
江苏核电有限公司网络系统工程师朱旭东
以下为嘉宾演讲实录:
我是来自江苏核电的朱旭东。相对前面而言,我公司应用系统用户的量级也是不一样的,我们大概只有几千个用户,主要是局域网应用。
下面先简单介绍一下江苏核电。田湾核电站位于江苏省连云港市连云区田湾,是我国不可多得的沿海优良厂址之一,厂址规划建设8台百万千瓦级压水堆核电机组。一期工程1、2号机组(单机容量106万千瓦)和二期工程3、4号机组(单机容量112.6万千瓦)均采用俄罗斯VVER-1000改进型核电机组,1、2号机组分别于2007年5月17日和8月16日投入商业运行,是中俄两国在加深政治互信、发展经济贸易、加强国际战略协作方针推动下,在核能领域进行的高科技合作,是中俄核能合作的标志性工程。今年也是江苏核电成立二十周年。三期工程5、6号机组采用中核集团M310+改进机型,额定功率1118MW,5号机组于2015年12月27日FCD,6号机组于2016年9月7日FCD,三期工程建设目前已全面开展。
下面介绍一下Dynatrace未上线时系统运维的难点,我们使用的系统主要是业务系统,用户现在对业务系统的依赖性很高,这种情况下用户对系统异常的容忍性也随之降低,我们的系统架构比较复杂,各个系统间服务交互也比较多,像右图是一个我们常用的核心系统,企业内容管理系统,该系统是基于IBM FileNet BPM开发,BPM通过灵活的业务运作来有效地满足不断变化的客户和业务需求,同时,FileNet BPM 与外部服务也有着强大的交互功能,加上该系统基本每周都有变更,系统故障时很难快速定位故障点。另外我们建立了基础架构监控平台,但是没有建立应用系统监控平台,也没有应用系统性能基线,无法预测这个系统的性能趋势。每当系统有问题的时候,我们只能被动的等用户报修,报修完之后才能进行处理,无法及时主动发现问题。另外就是当系统发生故障时,尝试使用传统的手段来进行分析处理,比如说从网络、数据库、服务器再到中间件来排查。花费的时间、人力很多,像数据库的AWR报告分析、网络流量分析、系统heapdump/javacore文件分析,对运维人员的技能要求也比较高。基于存在的问题,我们对应用系统监控平台进行了调研,于2016年采用了Dynatrace。
我们原来定位问题故障需要几天,甚至几周,Dynatrace上线后我们可以快速的定位应用系统故障,快的话甚至半小时左右可以定位问题故障,从而安排人员解决问题。下面是一个简单的案例分析,这个是2016年年底的案例分析,下午4点左右线程数急剧增加,导致内存使用率高,触发垃圾回收。也可以通过CPU负载看出来,当时CPU确实是有一个急增,CPU负载急增是垃圾回收导致。
然后通过查看页面请求的响应时间,看到在同样的点,页面请求响应时间增长得非常快,再查询最占CPU的web请求,可以看到第一个方法占用了很多的CPU,即OutlineReport.do。我们利用Dynatrace的PurePath功能深入分析在这个点有哪些用户做了操作。发现在一分钟之内,是同一个用户通过不同的线程反复调用这个方法,所以我们可以初步定位到是这个方法可能是代码逻辑有问题,然后我们会提交给系统开发组进行分析处理。以上是一个简单的案例分析过程,可以看出,使用Dynatrace可以快速的定位问题故障。
那使用Dynatrace之后,给我们带来了哪些价值提升,第一个是Dynatrace是以端到端的方式来跟踪每一个交易,帮助运维人员深入分析问题。另外就是可以自动建立性能基线,可以主动及时发现系统故障。还有对我们帮助比较大的是可以帮助运维人员快速发现问题,快速定位问题,另外基于Dynatrace建立了标准的系统排错流程,来快速响应,提高运维和管理水平。
我的分享就到这里,谢谢大家。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。