至顶网CIO与CTO频道 08月06日 编译:在过去的十年中,软件和基础架构工程师经历了从笨拙的整体式应用程序到敏捷微服务,从昂贵的裸机基础架构到可伸缩的云计算和存储的转变。随着技术的不断发展,容器化、基础架构即代码、软件定义网络和SaaS原生应用程序等技术不断涌现,这些领域的工程师们已经开发并且接受了围绕DevOps以及持续集成和部署(CI / CD)的新理念。新的范例非常敏捷,而且开发量很轻,具备可伸缩性,并且配备了经济有效的基础架构和网络容量以及随处可用的服务。
那么,获得这些可伸缩性、敏捷和速度需要付出的代价是什么呢?一言难尽。具有著名主机名的裸服务器曾经可以非常清楚地追溯登录服务、客户数据库、电子邮件服务器或者电子商务渠道。现在,存在着很多基础架构、主机、容器、应用程序和数据库的抽象层,这些基础架构、主机、容器、应用程序和数据库的定义不明确,通常只有短暂的关系。这些关系、配置、版本、集群、角色和内容不断发生变化,这些变化可能是手动完成的,也可能是自动产生的,变化的方法也多种多样。没有什么东西能够阻止这种复杂性。软件和基础架构工程师团队在各自的“山头”上进行优化,并且确保它们能够适应新的输入并提供符合预期的输出。
现在,IT运营团队面临着一个关乎生死存亡的挑战。
这些输入包含了监控流程发回的事件和警报,这些事件和警报是监控流程按照多次数字化转型浪潮之前、之中和之后的配置给出的。这些来自客户端、应用程序、基础架构、网络、云、数据库和数据中心监控服务的事件都将流向IT Ops团队。然后,IT Ops团队必须将这些输入还原成服务运行的健康状况画像,然后确定在何时何地出现了问题,并且以迅速、果断并且清晰的方式做出响应。
但是,现代服务的复杂性让人们对事情工作方式以及如何对事件和警报进行风险管理的理解横跨了太多的人为节点,所以咨询团队很难有效沟通,确定风险存在于何处并且找到减轻这些风险的方法。这里的选择是分散的,而安全的变更最终要依赖于好的选择、好的架构和好的防护措施。
现在,IT Ops团队已在很大程度上失去了自身的定义特征:集中式的状态感知。在IT部门的同事得到了所有的这些新功能的同时,IT Ops团队只能埋头苦干,试图弄清楚不断增长的事件和警报的原因。他们一直在想方设法,试图找到方法,在过渡到云中的新服务堆栈的同时,在裸机上维护旧服务堆栈。他们一直在逐个处理,将它们放置进入正确的安全组,以明智的方式授予访问权限,维护不再确定的主机的证书,停用旧的服务器,并且确保新的服务器已经升级到最新认证的安全版本。在对裹挟着全新警报量级的事件流进行优先级排序和管理的时候,IT Ops牺牲了明确的信号。
看起来的情况是数字化转型忽略了IT运营。
持续交付并不能够提供对IT变更的全面了解。
过去在入职后几个月的时间内需要获得的管理知识已经成倍增加,而且变得更加分散了。现在很难清理出这些知识。要想弄清楚在过去四分钟内出发的200条警报到底是和应用程序更改A、市场推广计划B、计划的主机迁移C、安全更新D还是未定义事件E有关,IT Ops团队必须跟踪警报,并且搞清楚其中的关系,理解这些警报产生的环境。
这种程度的全面了解需要的不仅仅是增加云和容器的可伸缩性和速度。新的DevOps CI / CD渠道无法提供这些与变更相关的见解。相反,IT Ops团队需要在整个系统范围内绘制新的数字地形图,以此作为背景板,方便他们绘制输入事件和变化的所有必须属性。这在“山头割据”的模式下是不可能做到的。
但是对于绝大多数组织来说,数字化转型是在过去的几年中分批、分次逐步进行的。在转型的过程之中,事件层出不穷;它们的数量变得越来越多。传统的ITIL模型并没有为IT操作人员提供太多IT Ops之外的指导,只是反复说:“做相同的事情,只是更快一些,更精确一些。”
这正是让IT Ops团队陷入困境的地方。但是潮流已经开始转向。转型的基础已经开始成形。监控、重复数据删除和过滤只是起点。然后是事件有效载荷的多源拓扑富集。接下来是基于规则的事件关联,然后是基于机器学习的事件关联再到组相关的警报,然后扩展到包含关联更改。集成了运营丰富功能的、基于API的工具提供了包含完整环境信息的事件警报,可以跨越协作、聊天系统和恢复状态感知。
自动化和集成的手动官僚任务让IT Ops可以直接从理解环境变成理解-执行模式。现在,挑战在于统一这些新的功能,将它们凝聚成一个统一的战略。这个战略必须能够为IT运营团队提供明确性和可操作性,便于他们履行维护服务可用性、在组织内部集中职能的使命。
现代IT运营必须回归其本源。
运营转型还没有成为流行语,也没有谷歌编写的参考手册可供运营工程师们参考。尽管很多团队已经在很多地方利用自动化工具参与工作流和数据管理,但这个流程仍然算不上是“自主运行”,因为它们仍然需要人工干预。它们只是有了新的功能。同样,尽管使用了人工智能和机器学习技术,但是“AIOps”的局限性太强了。IT运营转型应该由多项新功能组成,这些新功能应该与IT运营一直以来的重心结合在一起:保持状态感知并迅速有效地采取行动,以最大程度地减少服务中断。
好文章,需要你的鼓励
这项研究针对现代文档检索系统中的关键缺陷:独立处理文档片段导致丢失上下文信息。研究团队开发了ConTEB基准测试来评估模型利用文档级上下文的能力,并提出了InSeNT方法,结合后期分块和创新的对比学习策略。实验表明,上下文感知嵌入显著提升检索性能,尤其在处理非自包含文本片段时,同时保持计算效率,对分块策略更具鲁棒性,并且在语料库规模扩大时表现更佳。这一研究为更智能的文档检索系统铺平了道路。
这项由布朗大学和Cohere实验室研究者联合进行的研究全面分析了大型语言模型(LLM)安全研究中的语言不平等现象。通过系统回顾近300篇2020-2024年间的安全相关论文,研究发现LLM安全研究严重偏向英语,即使中文这样的高资源语言也仅获得英语十分之一的研究关注,且这一差距正在扩大。研究还揭示非英语语言很少作为独立研究对象,且英语安全研究常忽略语言覆盖文档化。为解决这一问题,研究者提出了三个未来方向:开发文化敏感的评估基准、创建多语言安全训练数据,以及深入理解跨语言安全泛化挑战。
这项研究提出了ChARM,一种创新的角色扮演AI奖励建模框架,通过行为自适应边界和自我进化策略大幅提升AI角色的真实性和一致性。研究团队创建了包含1,108个角色的RoleplayPref数据集,实验表明ChARM比传统模型提高了13%的偏好排名准确率,应用于DPO技术后在多项基准测试中达到了领先水平。这一突破将为娱乐、教育和心理健康支持等领域带来更加自然、个性化的AI互动体验。
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。