Gartner今日发布了影响数据科学与机器学习(DSML)未来方向的重要趋势。随着DSML行业的快速发展和演变,数据对于人工智能(AI)开发与运用的重要性日益提高,尤其是投资重点也正转向生成式人工智能领域。
Gartner研究总监Peter Krensky表示:“随着机器学习在各个行业的应用持续快速扩大,DSML也正从单纯侧重于预测模型转向更加普及化、动态化和以数据为中心的技术领域,而且生成式人工智能(AI)的热潮也助推了这一趋势。尽管潜在风险不断出现,但面向数据科学家及其组织的新功能和用例也层出不穷。”
Gartner研究显示,影响DSML行业未来方向的重要趋势包括:
趋势1:云数据生态系统
数据生态系统正在从独立软件或混合式部署模式过渡到彻底的云原生解决方案。Gartner 预计,到 2024 年50%的新增云端部署系统将基于一致的云数据生态系统,而非手动集成的单点解决方案。
Gartner建议企业机构对数据生态系统的两种能力进行评估:一是解决数据分散化问题;二是访问自身环境之外的数据并与之集成。
趋势2:边缘AI
企业机构越来越需要通过边缘AI在边缘位置创建和处理数据,这将帮助企业机构获得实时洞察力,发掘新业务模式并满足严格的数据隐私要求。边缘AI还能帮助企业机构提高AI的开发、编排、集成和部署能力。
Gartner 预测,到 2025 年超过55%的深度神经网络数据分析将发生在边缘系统的数据捕获点,而 2021 年这一比例还不到 10%。企业机构应确定,需要将哪些应用、AI训练和推理能力转移至物联网终端附近的边缘环境。
趋势3:负责任的AI
负责任的AI使AI成为一种积极力量,而不是对社会和AI自身的威胁。当企业机构需采用AI做出商业逻辑和道德伦理的正确选择时,会遇到许多问题,例如商业和社会价值、风险、信誉、透明度和问责制等。负责任的AI有助于解决这些问题。Gartner 预测,到 2025 年1% 的AI服务提供商将大规模使用预训练的AI模型,使负责任的AI成为社会关注的焦点。
Gartner 建议企业机构在挖掘AI的价值时应考虑风险系数,并且在运用AI解决方案和模型时保持谨慎。应当让供应商做出管理好自身风险与合规义务的保证,以防止给企业机构造成潜在的经济损失、法律诉讼和声誉损害。
趋势4:以数据为中心的AI
这一方法不再以模型和代码为中心,而是以数据为中心打造更强大的AI系。企业机构将采用AI专用数据管理、合成数据以及数据标记技术等解决方案来应对许多数据难题,例如数据的可访问性、数量、隐私性、安全性、复杂性和范围。
使用生成式AI创建合成数据是一个正在快速发展的领域,这项技术减轻获取真实世界数据的负担,可更有效地训练机器学习模型。Gartner 预测,到 2024 年60%的AI数据将是合成数据,被用于模拟现实、未来场景和降低AI风险,而 2021 年的这一比例仅为 1%。
趋势5:加快AI投资
进入解决方案实施阶段的企业机构,以及希望通过AI技术和相关业务实现增长的行业,将继续加快对AI的投资。 Gartner 预测,到 2026 年底依靠基础模型(通过海量数据训练过的大型模型)的AI初创企业将获得超过 100 亿美元的投资。
在Gartner近来针对2500多位企业高层的一项调研中,45%的受访者表示,最近的 ChatGPT热潮促使其增加了对AI的投资。70%的受访者表示其企业正处于研究和探索生成式AI的阶段,还有19%的人表示其企业已进入试点或生产阶段。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。