ZD至顶网CIO与应用频道 08月15日 北京消息:性能管理成熟度模型是企业评估其业务系统的有效工具。例如很多初创企业或者小规模公司很多时候仍然停留在“消防员”的模式:当性能测试系统上线后,出现什么问题再处理什么问题,因此运维和开发的连贯性和服务性都受到很大的影响。接下来,有些企业意识到测试的必要性,在产品生产后期为性能测试预留出了时间。
然而,由于测试人员对业务结构的不了解或是与开发部门沟通不畅等因素,最终仍有30%的问题会被遗留。只有较少的企业能够做出基于性能驱动的性能测试,即把性能测试放到整个软件生命周期里进行考虑,不同阶段都插入不同的测试,从而提升整体性能测试的命中率。上汽通用利用Dynatrace解决方案构建的性能测试模型就是这一类型的代表,运用Dynatrace解决方案之后,其问题遗留的比例降至5%。
上汽通用汽车高级测试工程师
近日,上汽通用汽车高级测试工程师姜旭在Dynatrace Perform Day用户大会上就详细分享了上汽通用公司性能模型的构建之道。他指出,上海通用的性能驱动测试分成三个阶段:第一为设计阶段,主要是做性能的建模;第二是开发阶段,会做性能验证,其与传统性能测试的差别在于,所有的测试活动都有来源,而且针对性非常强;第三阶段为运维阶段,负责性能的管理。而Dynatrace的应用性能管理方案将这三个阶段串联并形成一个闭环,运维阶段或者运行监控阶段的性能能够输入到设计阶段,同时输出到性能验证阶段——经过设计、开发和运维三方的协同合作,有效地提升了上汽通用整体性能测试的效率和价值。
设计阶段:解决3个W和1个H
姜旭表示,在设计阶段需要做的就是解决“3个W和一个H”的问题,即用户是谁?什么样的时间节点?用户想做什么?通过不同的设置引导用户使用建模的系统,从而形成两类输出——用户行为模型和性能KPI的输出。
用户行为模型会输出用户的类别、规模和访问习惯,还有相应的数据规模。相比传统虚拟测试的“盲测”而言,Dynatrace平台把这些内容的输出汇总,在前期就可以将测试分析做得更为精准。同时输出的还有性能KPI,并包含两类,第一类是系统类的数据,例如CPU、内存,网络,磁盘和进程等信息,开发和运维人员能够同时在平台上看到;第二类是应用类,例如一个系统的当前在线用户数、响应时间、PV量等,并且这些PV量集中在哪些业务上都有输出。
同时,Dynatrace平台还能够监控系统的可用性及应用数据库的连接池。因此,上汽通用能够针对访问量大的页面或者经常使用的数据,通过技术手段提升用户的应用体验。
开发阶段:性能验证,解决潜在性能隐患
开发阶段的性能验证不只是传统的高端性能测试,而且会结合Dynatrace的工具设计不同的场景来考察系统性能的表现情况。姜旭强调,上汽通用在性能测试阶段不仅仅是依赖简单的脚本运行,而是具备一定的分析能力,例如前后端交互时的数据包是否符合要求,以及数据规则上的限制等,都拥有专业的技术做支撑。除了传统虚拟测试的集成基准测试外,上汽通用还利用Dynatrace的平台,分别对系统及应用层面进行集中监测,将很多潜在的虚拟隐患,甚至只是会拖慢用户体验的关键信息都及时地反映出来。
另外,在性能验证的同时还需要测试设计。由于上汽通用的性能测试是基于业务吞吐量,而非传统的并发用户导向,其测试分为四个阶段:第一阶段要基于吞吐量的探索;第二阶段基于交叉业务模式的影响;第三是不同负载均衡的要素对系统的影响;第四个阶段则是短时间内大量的并发积累。姜旭解释道:“我们会把重要的业务梳理出来,把Dynatrace作为一个标识,把相关数据做跟踪分析。这样开发部门的同事就不需要做系统定位的工作,而只需要把该优化的代码做一些调整,测试和开发的交互效果将得到很好的提升。”
运维阶段:跨平台监控,提升整体测试效率
在姜旭看来,Dynatrace解决方案不仅仅只是监测工具,而是注重用户体验管理、驱动企业业务创新和赢得竞争优势的数字性能管理平台。在运维阶段,其解决方案的优势在于能够帮助客户在多个平台上记录重要的信息,将跨平台监控做成整合,从而提高整体的测试效率。
更重要的是,通过Dynatrace的应用性能管理方案,上汽通用将设计、开发及运维这三个阶段串联并形成一个闭环,运维阶段的性能测试并非终点,而是能够输入到设计阶段,再到到开发阶段。这样,在上汽通用的整个测试系统中,设计、开发和运维三方能实现协同合作,从而有效地提升了整体性能测试的效率和价值——将问题遗留比例降至5%就是明证。
正因为此,对于未来的发展,姜旭坦言,希望能够与Dynatrace有更进一步的合作,将上汽通用的性能测试模型建设得更加规范。
好文章,需要你的鼓励
这篇研究提出了OThink-R1,一种创新的大型推理模型,能够像人类一样在快速直觉思维和慢速深度推理之间自动切换。研究者发现,现有推理模型即使面对简单问题也会生成冗长的推理过程,导致计算资源浪费。通过分析推理轨迹并使用LLM评判员区分冗余和必要推理,OThink-R1能根据问题复杂度动态调整思考深度。实验表明,该方法平均减少了23.4%的生成文本量,同时保持或提高了准确率,代表了向更高效、更人性化AI推理系统迈出的重要一步。
这项研究提出了SHARE,一种新型文本到SQL修正框架,它利用三个小型语言模型(SLM)协同工作,实现高效精准的SQL错误修正。SHARE首先通过基础行动模型将SQL转换为行动轨迹,再经过模式增强模型和逻辑优化模型的层次化精细化修正。研究团队还创新性地提出了层次化自演化训练策略,大大提高了训练数据效率。实验结果表明,SHARE在多个基准测试上显著提升了SQL生成准确率,计算成本仅为传统方法的十分之一,并展现出强大的泛化能力,适用于各种生成器模型和SQL方言。
这项由香港大学和南京大学等机构研究人员联合开发的双专家一致性模型(DCM)解决了高质量视频生成中的效率难题。研究团队发现扩散模型蒸馏过程中存在优化冲突:早期阶段负责语义布局与运动,后期阶段关注细节精修,两者学习动态差异显著。DCM创新性地将这两个任务分配给不同的专家模型,通过参数高效的实现方式,使模型仅需4步即可生成接近50步原始模型质量的视频,大幅提升生成速度,为实用化AI视频创作铺平道路。
这项研究介绍了QARI-OCR,一种基于Qwen2-VL-2B-Instruct模型微调的阿拉伯文字识别系统。研究团队通过三阶段合成数据训练,成功解决了阿拉伯文字识别中的主要挑战:曲线连笔特性、上下文变化的字母形状和发音符号。QARI v0.2模型创下了0.061的字符错误率和0.160的单词错误率,超越了现有开源解决方案,为阿拉伯文化遗产的数字化保存提供了重要工具。