至顶网CIO与应用频道 08月10日 北京消息:8月2日,第四届Dynatrace Perform 上海用户大会隆重举行。在此次盛会上,Dynatrace与各行业翘楚共同探讨了人工智能技术为应用性能管理带来的新可能,并展示了Dynatrace Davis 人工智能运维助手及其应用场景。
江苏核电有限公司网络系统工程师朱旭东,在大会上针对Dynatrace为企业带来的价值提升谈到了三点——端到端的方式跟踪每一笔交易,帮助运维人员深入分析问题;自动建立性能基线,及时发现系统故障;以及快速定位和响应问题,从而提高运维和管理水平。
江苏核电有限公司网络系统工程师朱旭东
以下为嘉宾演讲实录:
我是来自江苏核电的朱旭东。相对前面而言,我公司应用系统用户的量级也是不一样的,我们大概只有几千个用户,主要是局域网应用。
下面先简单介绍一下江苏核电。田湾核电站位于江苏省连云港市连云区田湾,是我国不可多得的沿海优良厂址之一,厂址规划建设8台百万千瓦级压水堆核电机组。一期工程1、2号机组(单机容量106万千瓦)和二期工程3、4号机组(单机容量112.6万千瓦)均采用俄罗斯VVER-1000改进型核电机组,1、2号机组分别于2007年5月17日和8月16日投入商业运行,是中俄两国在加深政治互信、发展经济贸易、加强国际战略协作方针推动下,在核能领域进行的高科技合作,是中俄核能合作的标志性工程。今年也是江苏核电成立二十周年。三期工程5、6号机组采用中核集团M310+改进机型,额定功率1118MW,5号机组于2015年12月27日FCD,6号机组于2016年9月7日FCD,三期工程建设目前已全面开展。
下面介绍一下Dynatrace未上线时系统运维的难点,我们使用的系统主要是业务系统,用户现在对业务系统的依赖性很高,这种情况下用户对系统异常的容忍性也随之降低,我们的系统架构比较复杂,各个系统间服务交互也比较多,像右图是一个我们常用的核心系统,企业内容管理系统,该系统是基于IBM FileNet BPM开发,BPM通过灵活的业务运作来有效地满足不断变化的客户和业务需求,同时,FileNet BPM 与外部服务也有着强大的交互功能,加上该系统基本每周都有变更,系统故障时很难快速定位故障点。另外我们建立了基础架构监控平台,但是没有建立应用系统监控平台,也没有应用系统性能基线,无法预测这个系统的性能趋势。每当系统有问题的时候,我们只能被动的等用户报修,报修完之后才能进行处理,无法及时主动发现问题。另外就是当系统发生故障时,尝试使用传统的手段来进行分析处理,比如说从网络、数据库、服务器再到中间件来排查。花费的时间、人力很多,像数据库的AWR报告分析、网络流量分析、系统heapdump/javacore文件分析,对运维人员的技能要求也比较高。基于存在的问题,我们对应用系统监控平台进行了调研,于2016年采用了Dynatrace。
我们原来定位问题故障需要几天,甚至几周,Dynatrace上线后我们可以快速的定位应用系统故障,快的话甚至半小时左右可以定位问题故障,从而安排人员解决问题。下面是一个简单的案例分析,这个是2016年年底的案例分析,下午4点左右线程数急剧增加,导致内存使用率高,触发垃圾回收。也可以通过CPU负载看出来,当时CPU确实是有一个急增,CPU负载急增是垃圾回收导致。
然后通过查看页面请求的响应时间,看到在同样的点,页面请求响应时间增长得非常快,再查询最占CPU的web请求,可以看到第一个方法占用了很多的CPU,即OutlineReport.do。我们利用Dynatrace的PurePath功能深入分析在这个点有哪些用户做了操作。发现在一分钟之内,是同一个用户通过不同的线程反复调用这个方法,所以我们可以初步定位到是这个方法可能是代码逻辑有问题,然后我们会提交给系统开发组进行分析处理。以上是一个简单的案例分析过程,可以看出,使用Dynatrace可以快速的定位问题故障。
那使用Dynatrace之后,给我们带来了哪些价值提升,第一个是Dynatrace是以端到端的方式来跟踪每一个交易,帮助运维人员深入分析问题。另外就是可以自动建立性能基线,可以主动及时发现系统故障。还有对我们帮助比较大的是可以帮助运维人员快速发现问题,快速定位问题,另外基于Dynatrace建立了标准的系统排错流程,来快速响应,提高运维和管理水平。
我的分享就到这里,谢谢大家。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。