数据编织是一种新兴的数据管理设计,在中国保持了较高的市场吸引力。2022年Gartner数据和分析云采用调研显示,尽管受访者对“数据编织”一词的定义不尽相同,但42%的中国用户表示已采用这一技术,另有34%的受访者计划在未来12个月内采用这项技术。这两个选项的受访者占比都超过了全球水平(见图1)。
图1:中国客户与全球客户的数据编织采用计划

数据分析和人工智能(AI)技术及其在垂直行业用例的爆炸式增长,使企业数据基础设施变得日益复杂和难以维护。经济和地缘政治不确定性导致数据监管环境难以预测,进一步提高了管理难度。如果企业无法实施由主动元数据驱动的数据编织来提升数据和分析(D&A)弹性和敏捷性,D&A系统的维护成本将超过其创造的价值。
千变万化的宏观环境导致了数据管理规范的不确定性
过去两年,中国政府发布了多项国家原则,如《数据二十条》和《数字经济发展十四五规划》,以促进数据、分析和AI在经济中的应用。与此同时,新的数据分析和AI用例(物联网[IOT]、数字孪生、元宇宙、生成式AI等)不断涌现,使中国企业机构进一步推动数据分析和AI的普及。
另一方面,主要由地缘政治紧张局势驱动的数据安全原则和自给自足要求,也在迫使企业更谨慎、更合规地使用数据。
为同时满足上述两个看上去对立的需求,数据和分析能力的升级路线图和优先任务变得难以预测。同时,由于缺乏对当前数据和分析平台使用情况的持续监控和分析,企业无法主动识别潜在的分析需求和问题,导致大部分数据管理任务很被动。数据编织中的主动元数据管理,可以帮助企业机构以主动和自主的方式识别这些需求和问题。
更加复杂和去中心化的D&A架构
由于境内外的D&A供应商生态系统完全不同,数据安全和跨境数据传输法规日益明确,在中国境内和境外同时开展业务的企业(例如在中国开展业务的跨国企业,以及正在海外开展业务的中国企业)必须构建两组不同的D&A架构,甚至是不同的IT架构。对于仅在中国境内开展业务的企业机构来说,云迁移和技术自给自足计划的开展,会使其D&A架构长期处于转型中的状态。
出于上述原因,中国企业机构的D&A架构与全球同行相比,会具有更强的去中心化属性和复杂性。这将导致IT运营成本大幅增加,流程也会变得更为复杂。
分析对比数据的设计期望与实际体验之间的差距,可以更有效地完成上述大部分任务。数据编织中的主动元数据管理,通过比较设计时元数据和运行时元数据来帮助企业机构分析数据的设计期望与实际体验。这将使企业机构的系统、数据和数据管道在资源效率、性能、安全性、合规性和可用性方面始终处于“自动化可观测”状态。
跨部门沟通障碍
技术和业务团队之间的沟通障碍,仍然是中国企业机构快速、可持续地利用数据创造业务价值的一个主要障碍。2022年,Gartner收到了大量中国客户关于D&A项目跨部门沟通的问询,包括如何更好地与业务利益相关者对齐数据业务语义,以及如何使数据团队更快地做出响应。这些问题大多关乎数据定义与其真实运营体验之间的偏差,即“语义漂移”。在大型企业机构中,这个问题更严重,会拖累或阻碍数据和分析项目。
主动元数据管理通过对数据工程师和数据消费者内容的持续分析,生成大量洞察,包括:
数据管道中的业务逻辑是否需要更新,以纠正语义漂移导致的数据质量问题
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。