无论是IT端还是业务端,数据分析已经无处不在。最近,Gartner发布了2021年十大数据和分析(D&A)技术趋势,这也是该研究方向的第三年趋势发布。
Gartner研究总监孙鑫表示,Gartner一直将数据和分析放在数字化商业平台的核心位置,其功能是为企业各个数字化领域的举措提供核心的赋能和支持。
Gartner研究总监孙鑫
而且去年是特殊的一年,越来越多的企业高管开始意识到数据和分析有改变游戏规则的潜力,帮助企业在快速变化的情况下做出决策。Gartner的调查也显示2020年企业被嵌入最多的也是数据分析平台。
Gartner将企业数据分析分为描述性分析、诊断性分析、预测性分析、指示性分析几个阶段。孙鑫指出,大多数中国企业可能还停留在“描述性分析”向“诊断性分析”发展的过程中,判断一个企业现在所处的阶段可以通过使用的数据科学解决方案、人才等作为评判标准。
2021年十大数据和分析(D&A)技术趋势解读
趋势一:更智能、负责、可扩展的AI
很多企业为实现AI而苦恼,因为AI很难在生产运营环节中真正发挥作用。而人工智能(AI)和机器学习(ML)的影响力日益增加,企业可通过部署更智能、更负责、可扩展的AI,运用学习算法和可解释的系统加快价值实现时间和提高业务影响力。
趋势二:组装式数据和分析架构
组装式企业可以在面临像疫情这种重大事件时,做出快速的响应和恢复。组装式数据和分析架构是基于容器、微服务的架构,以及数据编织概念,从现有资产中组合出灵活的、模块化的、可重用的数据分析功能。可以利用低代码和无代码技术组件将这些能力组合起来,其中的组件可能来自不用的厂商,但组合的形式却可以有效的帮助支撑自适应的决策。
趋势三:数据编织是基础
数据编织是企业做动态数据整合非常有效的一种设计模式,让企业从传统的数据收集形式通过灵活的转换变成连接数据,帮助企业管理好各种各样数据整合时可能出现的情况,从而让用户可以更好的使用数据分析功能。Gartner推荐企业利用数据编织的概念去支持不同的数据交互,并且用这种动态的形式去管理各种各样的数据,同时投资越来越多的元数据,驱动更多类似的开发。
趋势四:从“大”数据到“小”而“宽”的数据
小数据的概念其实一直存在,Gartner认为,其是补充AI解决方案的一个举措。小数据的方法是指应用相对较少的数据,仍能提供有见解的分析技术,有针对性的使用数据要求比较低的模型,比如一些时间序列分析技术。Gartner也预测,到2025年,70%的企业将不得不把关注点从原先的大数据转向现在的小数据或是宽数据,从而为数据分析提供更多背景。
趋势五:XOps
多个Ops学科,会造成市场的混乱,Gartner把它们叫做XOps。无论是哪种Ops,它的目标都是利用DevOps的最佳实践去实现效率和规模经济,并确保可靠性、可重用性,同时减少技术和流程的重复,从而实现自动化。
趋势六:工程化决策智能
决策需要经历抓取数据、解释数据、设计模型、模型场景化、执行五个步骤的决策环,智能决策是让人和AI共同做一个决策,通过组合决策的模式去做更优或者是更快捷的决策。决策智能提供了一个框架,将多种传统和先进技术结合在一起,从而设计、建模、调整、执行、监控和调整决策模型。工程决策智能不仅适用于单个决策,还适用于决策序列,可以将其归入业务流程,甚至是新兴的决策网络。工程决策的准确性、透明度、可追溯性、灵活性、可重复性、可解释性将会持续提高。
趋势七:数据和分析成为核心业务功能
过去数据分析更多由IT主导,支持业务成果来进行。现在由于数据工具越来越简化、易用,用户开始主导数据分析的相关行为。随着企业加快数据化业务转型,业务领域主导的数据分析包括数据素养、数据资产化、更智能的数据共享和自适应的数据治理越来越多发挥关键作用。
趋势八:图技术使一切产生关联
Gartner预测,到2025年,图技术将从2021年的10%上升到80%,从而在数据分析创新中促进整个企业的快速决策。“图技术”包含了各种各样的解决方案,这些解决方案将数据节点以合编的形式进行展示,而不是表格、行或者列。图技术正在成为许多现代化数据分析的基础,它增加了与业务用户间的理解和协作。企业可以更好的利用图的清晰脉络帮助企业理解现在模型是怎么建立,并且发现一些隐藏的洞察。
趋势九:日益增多的增强型数据消费者
现在使用大型数据仓库产生报告、报表后,可能并没有针对每个用户本身去传递与相关的信息,现在则需要让业务端的用户感受到只跟他相关的数据分析的好处。Gartner认为,企业未必一定要培养一个高管或人才去使用拖拉拽的工具,可能更要培养的是如何让他在一个情境当中去问适合他问的问题,或者训练一个系统能够以问题的形式做一些数据分析,这样就可以有效提高现在数据分析的普及率。
趋势十:数据和分析正在向边缘移动
随着计算环境更接近物理世界的资产,企业可以使数据管理和分析的方式、地点更加灵活,这些变化也将对数据分析管理人员或者说是团队产生巨大的影响。从2018年到现在,Gartner的客户对于边缘做数据分析的影响相关咨询增加了400%,而且多样化的用例也带动了人们对于数据分析边缘功能的兴趣。
另外Gartner预测,到2025年,70%的新应用将是由低代码、无代码技术完成开发,而且这种应用未来将会由使用者来进行组装完成。“目前一些行业已经开始使用低代码,像零售、电商、金融、制造等行业应用低代码进行快速的交付。”孙鑫表示,低代码不可能完全替代程序员,企业可以利用低代码赋能“公平的开发者”,让开发者能够用企业已经做好的可以复用的组件和模块进行应用开发。
好文章,需要你的鼓励
研究人员基于Meta前首席AI科学家Yann LeCun提出的联合嵌入预测架构,开发了名为JETS的自监督时间序列基础模型。该模型能够处理不规则的可穿戴设备数据,通过学习预测缺失数据的含义而非数据本身,成功检测多种疾病。在高血压检测中AUROC达86.8%,心房扑动检测达70.5%。研究显示即使只有15%的参与者有标注医疗记录,该模型仍能有效利用85%的未标注数据进行训练,为利用不完整健康数据提供了新思路。
西湖大学等机构联合发布TwinFlow技术,通过创新的"双轨道"设计实现AI图像生成的革命性突破。该技术让原本需要40-100步的图像生成过程缩短到仅需1步,速度提升100倍且质量几乎无损。TwinFlow采用自我对抗机制,无需额外辅助模型,成功应用于200亿参数超大模型,在GenEval等标准测试中表现卓越,为实时AI图像生成应用开辟了广阔前景。
AI云基础设施提供商Coreweave今年经历了起伏。3月份IPO未达预期,10月收购Core Scientific计划因股东反对而搁浅。CEO Michael Intrator为公司表现辩护,称正在创建云计算新商业模式。面对股价波动和高负债质疑,他表示这是颠覆性创新的必然过程。公司从加密货币挖矿转型为AI基础设施提供商,与微软、OpenAI等巨头合作。对于AI行业循环投资批评,Intrator认为这是应对供需剧变的合作方式。
中山大学等机构联合开发的RealGen框架成功解决了AI生成图像的"塑料感"问题。该技术通过"探测器奖励"机制,让AI在躲避图像检测器识别的过程中学会制作更逼真照片。实验显示,RealGen在逼真度评测中大幅领先现有模型,在与真实照片对比中胜率接近50%,为AI图像生成技术带来重要突破。