至顶网CIO与应用频道 08月10日 北京消息:8月2日,第四届Dynatrace Perform 上海用户大会隆重举行。在此次盛会上,Dynatrace与各行业翘楚共同探讨了人工智能技术为应用性能管理带来的新可能,并展示了Dynatrace Davis 人工智能运维助手及其应用场景。
江苏核电有限公司网络系统工程师朱旭东,在大会上针对Dynatrace为企业带来的价值提升谈到了三点——端到端的方式跟踪每一笔交易,帮助运维人员深入分析问题;自动建立性能基线,及时发现系统故障;以及快速定位和响应问题,从而提高运维和管理水平。
江苏核电有限公司网络系统工程师朱旭东
以下为嘉宾演讲实录:
我是来自江苏核电的朱旭东。相对前面而言,我公司应用系统用户的量级也是不一样的,我们大概只有几千个用户,主要是局域网应用。
下面先简单介绍一下江苏核电。田湾核电站位于江苏省连云港市连云区田湾,是我国不可多得的沿海优良厂址之一,厂址规划建设8台百万千瓦级压水堆核电机组。一期工程1、2号机组(单机容量106万千瓦)和二期工程3、4号机组(单机容量112.6万千瓦)均采用俄罗斯VVER-1000改进型核电机组,1、2号机组分别于2007年5月17日和8月16日投入商业运行,是中俄两国在加深政治互信、发展经济贸易、加强国际战略协作方针推动下,在核能领域进行的高科技合作,是中俄核能合作的标志性工程。今年也是江苏核电成立二十周年。三期工程5、6号机组采用中核集团M310+改进机型,额定功率1118MW,5号机组于2015年12月27日FCD,6号机组于2016年9月7日FCD,三期工程建设目前已全面开展。
下面介绍一下Dynatrace未上线时系统运维的难点,我们使用的系统主要是业务系统,用户现在对业务系统的依赖性很高,这种情况下用户对系统异常的容忍性也随之降低,我们的系统架构比较复杂,各个系统间服务交互也比较多,像右图是一个我们常用的核心系统,企业内容管理系统,该系统是基于IBM FileNet BPM开发,BPM通过灵活的业务运作来有效地满足不断变化的客户和业务需求,同时,FileNet BPM 与外部服务也有着强大的交互功能,加上该系统基本每周都有变更,系统故障时很难快速定位故障点。另外我们建立了基础架构监控平台,但是没有建立应用系统监控平台,也没有应用系统性能基线,无法预测这个系统的性能趋势。每当系统有问题的时候,我们只能被动的等用户报修,报修完之后才能进行处理,无法及时主动发现问题。另外就是当系统发生故障时,尝试使用传统的手段来进行分析处理,比如说从网络、数据库、服务器再到中间件来排查。花费的时间、人力很多,像数据库的AWR报告分析、网络流量分析、系统heapdump/javacore文件分析,对运维人员的技能要求也比较高。基于存在的问题,我们对应用系统监控平台进行了调研,于2016年采用了Dynatrace。
我们原来定位问题故障需要几天,甚至几周,Dynatrace上线后我们可以快速的定位应用系统故障,快的话甚至半小时左右可以定位问题故障,从而安排人员解决问题。下面是一个简单的案例分析,这个是2016年年底的案例分析,下午4点左右线程数急剧增加,导致内存使用率高,触发垃圾回收。也可以通过CPU负载看出来,当时CPU确实是有一个急增,CPU负载急增是垃圾回收导致。
然后通过查看页面请求的响应时间,看到在同样的点,页面请求响应时间增长得非常快,再查询最占CPU的web请求,可以看到第一个方法占用了很多的CPU,即OutlineReport.do。我们利用Dynatrace的PurePath功能深入分析在这个点有哪些用户做了操作。发现在一分钟之内,是同一个用户通过不同的线程反复调用这个方法,所以我们可以初步定位到是这个方法可能是代码逻辑有问题,然后我们会提交给系统开发组进行分析处理。以上是一个简单的案例分析过程,可以看出,使用Dynatrace可以快速的定位问题故障。
那使用Dynatrace之后,给我们带来了哪些价值提升,第一个是Dynatrace是以端到端的方式来跟踪每一个交易,帮助运维人员深入分析问题。另外就是可以自动建立性能基线,可以主动及时发现系统故障。还有对我们帮助比较大的是可以帮助运维人员快速发现问题,快速定位问题,另外基于Dynatrace建立了标准的系统排错流程,来快速响应,提高运维和管理水平。
我的分享就到这里,谢谢大家。
好文章,需要你的鼓励
PDF协会在欧洲会议上宣布,将在PDF规范中添加对JPEG XL图像格式的支持。尽管Chromium团队此前将该格式标记为过时,但此次纳入可能为JXL带来主流应用机会。PDF协会CTO表示,选择JPEG XL作为支持HDR内容的首选解决方案。该格式具备广色域、超高分辨率和多通道支持等优势,但目前仍缺乏广泛的浏览器支持。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
Ironclad OS项目正在开发一个新的类Unix操作系统内核,面向小型嵌入式系统,计划支持实时功能。该项目的独特之处在于采用Ada编程语言及其可形式化验证的SPARK子集进行开发,而非常见的C、C++或Rust语言。项目还包含运行在Ironclad内核上的完整操作系统Gloire,使用GNU工具构建以提供传统Unix兼容性。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。