Gartner今日发布了影响数据科学与机器学习(DSML)未来方向的重要趋势。随着DSML行业的快速发展和演变,数据对于人工智能(AI)开发与运用的重要性日益提高,尤其是投资重点也正转向生成式人工智能领域。
Gartner研究总监Peter Krensky表示:“随着机器学习在各个行业的应用持续快速扩大,DSML也正从单纯侧重于预测模型转向更加普及化、动态化和以数据为中心的技术领域,而且生成式人工智能(AI)的热潮也助推了这一趋势。尽管潜在风险不断出现,但面向数据科学家及其组织的新功能和用例也层出不穷。”
Gartner研究显示,影响DSML行业未来方向的重要趋势包括:
趋势1:云数据生态系统
数据生态系统正在从独立软件或混合式部署模式过渡到彻底的云原生解决方案。Gartner 预计,到 2024 年50%的新增云端部署系统将基于一致的云数据生态系统,而非手动集成的单点解决方案。
Gartner建议企业机构对数据生态系统的两种能力进行评估:一是解决数据分散化问题;二是访问自身环境之外的数据并与之集成。
趋势2:边缘AI
企业机构越来越需要通过边缘AI在边缘位置创建和处理数据,这将帮助企业机构获得实时洞察力,发掘新业务模式并满足严格的数据隐私要求。边缘AI还能帮助企业机构提高AI的开发、编排、集成和部署能力。
Gartner 预测,到 2025 年超过55%的深度神经网络数据分析将发生在边缘系统的数据捕获点,而 2021 年这一比例还不到 10%。企业机构应确定,需要将哪些应用、AI训练和推理能力转移至物联网终端附近的边缘环境。
趋势3:负责任的AI
负责任的AI使AI成为一种积极力量,而不是对社会和AI自身的威胁。当企业机构需采用AI做出商业逻辑和道德伦理的正确选择时,会遇到许多问题,例如商业和社会价值、风险、信誉、透明度和问责制等。负责任的AI有助于解决这些问题。Gartner 预测,到 2025 年1% 的AI服务提供商将大规模使用预训练的AI模型,使负责任的AI成为社会关注的焦点。
Gartner 建议企业机构在挖掘AI的价值时应考虑风险系数,并且在运用AI解决方案和模型时保持谨慎。应当让供应商做出管理好自身风险与合规义务的保证,以防止给企业机构造成潜在的经济损失、法律诉讼和声誉损害。
趋势4:以数据为中心的AI
这一方法不再以模型和代码为中心,而是以数据为中心打造更强大的AI系。企业机构将采用AI专用数据管理、合成数据以及数据标记技术等解决方案来应对许多数据难题,例如数据的可访问性、数量、隐私性、安全性、复杂性和范围。
使用生成式AI创建合成数据是一个正在快速发展的领域,这项技术减轻获取真实世界数据的负担,可更有效地训练机器学习模型。Gartner 预测,到 2024 年60%的AI数据将是合成数据,被用于模拟现实、未来场景和降低AI风险,而 2021 年的这一比例仅为 1%。
趋势5:加快AI投资
进入解决方案实施阶段的企业机构,以及希望通过AI技术和相关业务实现增长的行业,将继续加快对AI的投资。 Gartner 预测,到 2026 年底依靠基础模型(通过海量数据训练过的大型模型)的AI初创企业将获得超过 100 亿美元的投资。
在Gartner近来针对2500多位企业高层的一项调研中,45%的受访者表示,最近的 ChatGPT热潮促使其增加了对AI的投资。70%的受访者表示其企业正处于研究和探索生成式AI的阶段,还有19%的人表示其企业已进入试点或生产阶段。
好文章,需要你的鼓励
本文探讨了达成人工通用智能(AGI)七大路线中的线性进阶路径,预测了从2025年至2040年 AI 技术与社会效应的关键年度节点。
这项研究介绍了一种新型多模态扩散模型,能够同时生成量子电路的离散结构和连续参数。由因斯布鲁克大学和NVIDIA公司研究人员开发,该模型利用两个独立但协同工作的扩散过程处理门类型选择和参数预测,克服了传统量子电路编译方法的效率瓶颈。研究证明了该模型在不同量子比特数量、电路深度和参数化门比例下的有效性,并通过快速电路生成创建了数据集,从中提取出有价值的结构见解,为量子电路合成提供了新方向。
SenseFlow是香港科技大学等机构联合开发的文本到图像蒸馏技术,解决了大型流匹配模型蒸馏的三大难题。研究团队提出隐式分布对齐(IDA)稳定训练过程,段内引导(ISG)优化时间步重要性分配,并设计基于视觉基础模型的判别器提升生成质量。实验表明,SenseFlow能将SD 3.5和FLUX等12B参数级模型成功蒸馏为仅需4步生成的高效版本,同时保持甚至超越原模型在多项指标上的表现,代表了AI图像生成效率提升的重要突破。
MASKSEARCH是阿里巴巴集团同义实验室开发的新型预训练框架,通过创新的"检索增强掩码预测"任务,训练大型语言模型像人类一样主动使用搜索工具获取信息。这项框架包含两个阶段:首先在掩码预测任务上预训练,然后在下游任务上微调,大幅提升模型在开放域问答中的表现。研究采用监督微调和强化学习两种方法,结合多代理系统和课程学习策略,使AI能够自主分解问题、使用搜索工具并基于搜索结果进行推理。