Pearson是一家成立于19世纪40年代的公司,见证了教育界和客户期望的重大转变。因此,现代化是该公司DNA的一部分,根据首席信息官Marykay Wells的说法,对组织IT基础设施进行技术变革是一个不断变化的过程,需要精心管理。
“如果我们没有制定清晰的计划并以合理的方式进行这项工作,考虑到所有的技术资产和风险,就有可能发生负面的事情。首先,你最终会把过多的预算分配给常规业务基础设施,而不是投资于能够推动实际业务增长的创新。没有经过深思熟虑的计划而进行现代化的另一个潜在缺点就是,在解决不同问题的时候,你只是被动应对,而不是主动出击。”
所有这些都会增加你的整体技术债务,这不仅会蚕食你的预算,还会给你的IT资源带来巨大的压力。为了解决这个问题,Wells和Pearson技术工作组(其中包括来自该品牌不同组织的技术领导)提出了12个关键属性,其中包括了安全性和可维护性,以一致的方式评估他们的技术资产。对技术债务的审查,更清楚地表明了他们最大的风险在哪里,反过来又使他们能够优先考虑那些需要首先解决的问题。
“我们开发了一种算法,根据这12个类别来衡量我们不同的应用,以便能够通过更具战略性和标准化的方法消除技术债务,”她指出,这么做的目标是消除任何猜测,根据机会和潜在收入风险做出决策。
客观的框架
据Wells说,这项练习不是主观格式化的。他们采取了一种非常系统的方法,是基于数据的,而不是基于他们对不同资产表现的假设。他们还开发了一个仪表板,以可视化的方式显示最大的问题或风险在哪里,这样他们就知道应该优先考虑什么。“虽然这看起来像是一项简单的练习,但实际上并非如此,因为每个人的操作方式都是不同的。”
这不仅帮助Wells和她的团队为Pearson内部的不同组织制定了技术债务评分,还提供了有关企业拥有哪些资产、应用和产品的宝贵洞察,让他们知道如何更具战略性地规划现代化之旅。
“如果一个组织拥有另一个组织没有的能力或技术产品,我们就可以通过整合这些资源来避免重复。通过这种方式,我们可以最大限度地利用资源,造福更广泛的业务和客户。”
让董事会参与进来
作为流程的一部分,她和她的团队需要让整个业务的各个领导者参与进来,确保他们明白技术债务不仅仅是一个技术问题。“我们确实必须传达一个信息,即这是一个优先事项,但我们不能只与他们谈论技术,我们必须谈论技术债务对我们业务带来的影响。从价值讨论、业务讨论和客户影响讨论开始,解释这将影响他们的客户和收入,这一点非常重要。”
结果就是证据。她解释说,Pearson公司在2023年成功地将技术债务评分较高的应用数量减少了55%,同年影响客户和员工的事件减少了58%。
“我认为大公司的所有CIO都面临着技术债务带来的挑战,我的建议是,尝试系统地改变你的环境,而不是主观地这么做。你必须记住,如果你可以衡量某些东西,那么阐述为什么这个项目或计划是一个好主意,就会容易得多。”
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。