随着“数据中台”(data middle office, DMO)的普及,中国企业机构希望能更好地管理和利用数据中台背后的数据资产。数据中台早年在一些领域的成功案例使得整个市场对这一概念抱有过高的期望。如今,大多数企业机构仍然认同DMO的概念,但同时也在寻求适当的方法将其应用于实践。另一方面,根据Gartner最近的一项调研(见图1),超过三分之一的企业机构依然对这一概念的可行性和适用性感到困惑。
图1:中国企业对于建设数据中台的态度
而今数据中台这一术语在市场上已逐渐淡化。终端用户和技术提供商两方对数据中台的关注点,都已从概念本身转向最终能实现的数据价值和所需要的能力。为确保顺利向DMO过度,企业机构必须优先考虑以下三个事项。
明确数据中台的价值主张
DMO的主要目的是实现数据一致性和可复用性。这些能力进而可以支持敏捷的数据驱动式管理和组装式D&A服务/产品,以实现业务优化和进一步的数字化。然而,数据中台并非一个颠覆性的技术或工具,也不是一个可以在短期内完成的单一项目。相反,它是一种D&A战略设计,可以通过利用一系列技术和业务实践,将它们与企业机构的整体业务战略挂钩,从而服务于不同的业务重点。
在市场中,“数据中台”是一个总括性术语,包含了D&A基础、D&A标准化以及D&A变现这三个主要数据价值主张的各个方面。Gartner定义了D&A领域的三种基本价值主张——基础设施、业务赋能和转型驱动——三者的收益水平呈渐进式增长。这一价值主张框架也可以视作DMO演进的各个阶段。
根据不同客户的成熟度阶段,DMO带来的价值认知和能力体现不同。信息化水平、数据就绪度和D&A素养水平将成为评估企业数据中台部署能力和部署空间的重要维度。此外,随着业务复杂性和业务规模的增加,数据中台的优势将变得更加明显。
需要注意的是,数据中台并不是为小型企业或业务内容稳定不变的企业而设计的。这类企业机构的D&A领导者应更多地关注较为精简地或具有针对性地D&A项目,从而快速实现业务回报。
根据优先级划定数据中台的范围
在确定了价值主张并了解组织当前状态后,企业机构就可以开始根据目标重点来确定需要实现的数据中台的范围。以往,数据中台一直被视为一个资源密集型的综合性D&A平台,由多个模块构成。但其实,企业机构并非一定要抱着这样的看法,从头开始搭建一个端到端的DMO。
对于数据中台的扩展范围以及是否应该覆盖整个D&A平台,各方观点不一。供应商通常根据自己技术产品的优势来营销数据中台。然而,D&A领导者应根据自身的目标和优先任务、现有D&A架构和生态系统以及资源配置,确定数据中台的技术范围。图2展示了Gartner观察到的不同企业机构中最常见的四种关注类型。
图2:四种常见的数据中台类型
超越技术层面,推动数据中台的长期成功
尽管D&A领导者可以轻松地捕捉和呼应数据中台地概念,但在企业内部地推广中仍有挑战。与纯粹的技术项目不同,数据中台的成功很大程度上取决于业务部门和业务受众的积极参与和协作。然而,在许多情况下,业务用户会将DMO也视为纯粹的技术项目,例如部署数据仓库、部署报表平台或启动数据治理平台。因此,他们错误地认为DMO“应该”不需要他们过多的参与。业务部门对此缺乏共识和理解,是很多企业机构部署数据中台失败的原因。同时,这也会削弱企业机构内部对D&A项目的信任。
为避免这些情况发生,D&A领导者应利用敏捷交付方法,将D&A组织模式重塑为融合团队架构;建立具体的业务价值流程图;并设置级联指标以跟踪进展。
好文章,需要你的鼓励
这项研究介绍了一种名为FlowPathAgent的神经符号代理系统,用于解决流程图归因问题。研究团队提出了流程图精细归因这一新任务,构建了FlowExplainBench评估基准,并开发了结合视觉分割、符号图构建和基于代理的图形推理的方法。实验表明,该方法在归因准确性上比现有基线提高了10-14%,特别在处理复杂流程图时表现出色,为提升人工智能系统在处理结构化视觉-文本信息时的可靠性和可解释性提供了新途径。
这项研究首次从神经元层面揭示了大型语言模型(LLM)评估中的"数据污染"机制。研究团队发现当模型在训练中接触过测试数据时,会形成特定的"捷径神经元",使模型无需真正理解问题就能给出正确答案。他们提出了一种新方法,通过识别并抑制这些神经元(仅占模型总神经元的约1%),成功恢复了模型的真实能力表现。实验证明,该方法与权威可信基准测试结果高度一致(相关系数>0.95),并在不同基准和参数设置下都表现出色,为解决LLM评估可信度问题提供了低成本且有效的解决方案。
这份来自向量研究所、康奈尔大学和格罗宁根大学研究团队的综述分析了基于大语言模型的代理型多智能体系统中的信任、风险和安全管理框架(TRiSM)。研究系统地探讨了代理型AI从概念基础到安全挑战,提出了包含治理、可解释性、模型运营和隐私/安全四大支柱的TRiSM框架。文章还详细分析了威胁向量、风险分类,并通过真实案例研究展示了潜在脆弱性。
这项研究提出了一种名为ConfiG的创新方法,通过生成针对性的数据增强样本来解决知识蒸馏中的协变量偏移问题。研究团队利用教师模型和学生模型之间的预测差异,引导扩散模型生成那些能挑战学生模型的样本,从而减少模型对训练数据中欺骗性特征的依赖。实验表明,该方法在CelebA、SpuCo Birds和Spurious ImageNet数据集上显著提升了模型在缺失组别上的性能,为资源受限环境下的AI应用提供了实用解决方案。