企业现在意识到,摆在他们面前的工作是让他们的数据、人员和流程做好准备,以充分利用生成式AI的潜力。事实上,埃森哲最近的一项调查发现,几乎所有(99%)的高管都表示,他们计划加大对这项技术的投资。因此,领导者们需要从根本上重新思考如何完成工作。CIO们对业务流程具有跨职能的视角,再加上对如何利用技术重塑运营和交付价值的深入了解,因此他们特别具有能够帮助组织为生成式AI做好准备的能力。
然而,领导者们却在努力采取必要的后续措施来推动这项技术落地。例如,埃森哲最近的一份报告发现,有67%的高级技术领导者认为,同级高管缺乏技术敏锐度是把技术融入战略制定的主要障碍,克服这个障碍的关键是要理解生成式AI和创新,并将其与企业的成功联系起来。
将AI有效地集成到业务中,首先是要设定明确的目标来定义业务价值,并使AI战略与这些总体业务目标保持一致。很多正在负责推动企业数字化议程的CIO们已经开始把AI作为核心,利用AI解决方案来实现战略中最关键的要素。他们认识到,构建强大的基础设施是他们组织迈向企业就绪之旅重要的第一步,这将使企业能够以最大的效率和效果扩展生成式AI,并促进整个企业对这项技术的成功采用。事实上,有98%的全球高管认为,未来三到五年内AI基础模型将在其组织战略中发挥重要的作用。
那么,CIO现在可以做什么?在设计新的AI Navigator for Enterprise(一种帮助指导客户踏上AI之旅的工具)的过程中,我们明确了CIO应该问自己的这八个问题,对他们企业是否已经准备好迎接生成式AI进行压力测试:
新的拐点
技术对于每个行业来说,是实现更强劲增长、更高敏捷性和更强弹性的关键,而生成式AI是其中一个重要的差异化因素,这项技术将从根本上改变我们的工作和生活。埃森哲的研究发现,40%的工作时间会受到大型语言模型的影响。仔细观察就会发现,特别是在IT和技术角色中,总工作时间的73%是可以通过生成式AI带来改变的,这凸显了为安全地、负责任地、经济高效地、且具有商业价值的方式扩展生成式AI奠定适当基础的重要性。
CIO有一个重要的机会可以帮助他们的企业应对当今快速变化的数字环境所带来的复杂性。利用AI的突破性进步和面向整个企业的绩效方法,他们可以找到方法让技术为他们自己服务,从而重新定义自己及其所在的行业。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。