至顶网CIO与应用频道 02月20日 编译:根据Gartner的调查结果,有意义的人工智能(AI)部署才刚刚开始。Gartner的“2018年CIO议程调查”显示,4%的CIO实施了人工智能,另有46%的人制定了相关计划。
Gartner研究副总裁、杰出分析师Whit Andrews表示:“尽管企业对人工智能技术有着巨大的兴趣,但目前的实施仍处于相当低的水平。随着CIO们开始通过购买、构建和外包等方式来试水人工智能项目,可能会有强劲的增长。”
与大多数新兴或不熟悉的技术一样,早期采用者在其企业组织中部署人工智能仍然面临许多障碍。 Gartner分析师明确了这些早期人工智能项目中出现的以下四个教训:
1、从小范围小目标开始
Andrews表示:“在人工智能项目方面,不要陷入主要寻求硬性结果的陷阱,如直接财务收益。总的来说,最好是启动一个小范围的人工智能项目,并以‘软’结果为目标,如流程改进、客户满意度或财务基准。”
预计人工智能项目会产生一些经验教训,这些经验教训将有助于后续更大规模的实验、试点和实施。在一些企业组织中,启动人工智能项目是以财务目标为要求的。“在这种情况下,尽可能降低目标。想想成千上万美元的目标,了解你想要在小范围内完成的事情,然后才能获得更大的收益。”
2、关注于增加人力、而不是替代人力
重大的技术进步通常与减少员工人数有关。虽然降低劳动力成本对企业管理人员具有吸引力,但那些工作面临风险的人会产生抵触情绪。在追求这种思维方式的时候,企业组织可能错失真正有效利用技术的机会。Andrews补充道:“我们建议我们的客户,近期人工智能最具转型性的好处,将来自于使用人工智能帮助员工追求更高价值的活动。”
Gartner预测,到2020年将有20%的企业组织将有专门的员工监测和指导神经网络。
Andrews表示:“先不说无数可重复的‘智能代理’组成庞能够像人类一样执行任务的团队,就是在与前线员工沟通方面效率也远远高出不少。让员工兴奋起来,让他们接受以人工智能为支撑的决策能够加强和提升他们每天所做工作的这一想法。”
3、为知识转移做规划
大多数企业组织没有准备好实施人工智能。具体而言,他们缺乏数据科学的内部技能,并计划主要依靠外部提供商来弥补差距。在这项CIO调查中,有53%的企业组织将自己在挖掘和利用数据方面的能力评为“有限”——也就是最低水平。
Gartner预测,到2022年,由于数据、算法或负责管理数据和算法的团队中存在的偏见,有85%的人工智能项目将会带来错误的结果。
Gartner研究副总裁Jim Hare说:“数据是人工智能的燃料,因此企业组织需要现在就开始为人工智能项目的大量数据存储和管理做好准备。主要依靠外部供应商的技能并不是一个理想的长期解决方案。因此,要确保早期人工智能项目可以将外部专家的知识传授给内部员工,并在发展到大规模项目之前构建好你自己内部的人工智能能力。”
4、选择透明的人工智能解决方案
人工智能项目通常涉及来自外部服务提供商的软件或系统。任何服务协议中都应该包含关于如何达成决策的见解,这一点很重要。Andrews表示:“人工智能系统能否产生正确的答案并不是唯一的担忧。管理者需要理解为什么这些结果是有效的,如果不是有效的,要深入了解其中的原因。”
尽管要解释深度神经网络等高级分析模型的所有细节并不总是可能的,但至少要提供某种潜在选择的可视化,这一点很重要。事实上,在决策受制于监管和审计的情况下,提供这种透明度可能是一项法律上的要求。
好文章,需要你的鼓励
UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势在于高效训练(仅更新小型推理模块)、出色的模型间迁移能力(小模型可指导大模型)以及模块组合能力(多个专用模块可通过logits相加组合使用)。在数学推理和翻译测试中,UniR显著超越现有微调方法,展示了轻量级模块如何有效增强大语言模型的推理能力。
Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和质量评估),SWE-rebench构建了包含超过21,000个Python交互式任务的数据集,并提供持续更新的评估基准。研究发现部分语言模型在传统基准上的表现可能被污染效应夸大,而DeepSeek模型在开源模型中表现最为稳健。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,系统不仅保持了原始场景结构,还准确捕捉了参考风格特征。与现有方法相比,Styl3R在处理速度和视觉质量上均显著领先,为创意内容制作开辟了全新可能。