根据Capital One工程副总裁Terren Peterson的说法,IT领域的一切最终都会商品化。Peterson在该银行工作了超过24年,对于商品化如何影响IT业务有着第一手的经验。
他说:“在IT项目中,我们过去花了很多时间和IT基础设施打交道。但最终,一切都进入了云端。所有IT基础设施都被商品化了。”
尽管IT基础设施确实已经被商品化和简化,但组织面临的数据管理挑战却变得越来越复杂。他说:“数据、模式解决、一般问题解决和策略等问题仍然存在,将软件商品化比较容易,在某种程度上,将基础设施商品化也非常容易。但将数据商品化却很难。”
话虽如此,Peterson相信,随着时间的推移,数据管理任务将越来越少。他说:“这是一个简化的过程,随着时间的推移,事物会被商品化,然后从任务中消失。”
对于Peterson来说,企业数据架构的需求始终存在。这种架构始于在组织中培育数据文化,但他认为这其中存在一些脱节:“你可以制定数据策略,但你有数据文化吗?”
Morning Consult最近受Capital One委托进行的一项调查发现,在接受调查的4000人中,只有35%的受访者认为他们的组织具有强大的数据文化。同时,超过五分之一的受访者表示,他们的组织缺乏强大的数据文化,或者缺乏具有一致性的领导支持、人才发展和数据教育。
“在某种程度上,数据文化是纪律的代表,你是否优先考虑数据管理时间?是否收集了良好的元数据?是否进行了数据质量检查?是否确保数据真正被充分理解。你是否花时间对数据进行标准化?”
数据标准化
在像Capital One这样拥有多业务线的企业中,拥有标准化语言对于在整个企业内进行有效沟通是至关重要的,这同样适用于数据。作为一名数据工程师,Peterson认为数据平台在为整个组织的数据提供标准方面,发挥着重要作用。
他说:“我们认为平台是数据工程的核心。”例如,将数据从A点移动到B点需要数据管道。拥有数据平台,这消除了企业中所有都需要构建自己的数据管道的需要。相反,数据平台把移动数据的问题概括化了。
在他看来,将问题的解决方案概括化以使其适用于其他情况,这个想法是工程的基础。“当你将问题概括化的时候,你会说,‘哇,我可以用这个做一个平台’,然后告诉企业里的每个人。”
他承认,挑战在于说服人们使用这个平台。“你必须弄清楚如何让你的同事将他们的创造力投入到正确的问题、正确的案例和问题的正确部分上。”
实施数据管道可能有数百种不同的方法。Peterson的建议是尝试将人们的创造力从IT服务的领域引开。“如果我们想要标准化数据,请不要创造一百种不同的管道方法,发挥你的创造力,找到我们可以使用的所有不同数据源,研究我们可以用这些数据做什么。”
数据管道的概念很像企业服务总线,它在21世纪初变得引人关注,当时企业需要一种标准的应用通信方式。“首先就是企业,你真的想要一个服务总线——数据平台也是一样。”
目标是把数据标准化这本身进行商品化,使企业中的人们能够释放他们的创造力。“我拥有所有的数据,这就是魔力所在。我想到了人工智能、机器学习和数据分析等各种其他的事情,这就是我们想要发挥创造力的地方。我们不想把它投入到如何管理数据上。”
看看这些都是如何运用于Peterson他自己的工作中的,他说,他并没有把创造力投入到试图建立自己的数据湖中——因为数据湖已经存在了。“我用我的创造力来研究如何对已经存在的数据属性获得独特的洞察,这就是我们企业中真正有创意的问题解决方案。”
例如,这样的问题解决方案可以改进欺诈模型,或者开发出帮助人们购买新车的贷款报价引擎。
发展数据平台
在考虑从何处开始使用数据平台时,Peterson坚信,组织需要从坚实的数据基础开始。幸运的是,许多企业已经拥有了他们所需的大部分东西,因为企业长期以来一直在处理数据。“如果你已经拥有了一些东西,那么你就可以在这个基础上继续发展,它为你提供了一个起点。”
然而,他用树来打比方说:“什么时候种树最好?嗯,是20年前。如果你当时没有种树,那么第二个最佳时间就是今天。我鼓励人们不要认为有快速的解决方案。你首先需要的是平台,如果你还没有构建数据平台——如果你20年前没有种树——那么今天你就可以开始了。”
使用标准数据管道和数据平台的一个例子是Capital One Auto Navigator,这是在2023年推出的。这个平台让汽车经销商能够与更多购车者建立联系并支持车辆购买流程。购车者可以自定义首付、以旧换新和期限长度等详细信息,计算适合自己的付款计划。这使经销商们能够根据可用库存了解客户可以负担得起的价格,从而更高效、更准确地工作。
Auto Navigator等应用通过汇总整个企业的数据来工作。Peterson表示,为了利用高级分析、人工智能和机器学习,此类应用需要具有坚实的数据基础,也就是需要数据平台。
他认为,采用云原生IT战略的组织可以快速启动和运行基于云的数据平台,因为他们不必担心配置本地环境中所需的相关存储和其他IT基础设施。
好文章,需要你的鼓励
微软高级软件工程师Alice Vinogradova将自己用SAP ABAP语言编写的向量数据库ZVDB移植到了搭载Z80处理器的经典计算机Sinclair ZX Spectrum上。她发现ABAP(1983年)和Z80(1976年)几乎是同时代产物,都诞生于内存珍贵、每个字节都很重要的计算时代。通过应用Z80优化技术,尽管时钟频率相差857倍,但代码运行速度仅慢3-6倍。她认为这些老式优化技术具有普遍适用性,在现代硬件上依然有效。
这项由东京科学技术大学等机构联合发布的研究提出了UMoE架构,通过重新设计注意力机制,实现了注意力层和前馈网络层的专家参数共享。该方法在多个数据集上显著优于现有的MoE方法,同时保持了较低的计算开销,为大语言模型的高效扩展提供了新思路。
韩国电子巨头三星宣布收购美国西雅图数字健康技术公司Xealth,进一步扩大在健康领域的布局。Xealth专注于帮助医疗专业人员将数字健康技术整合到日常实践中,与70多家数字健康技术供应商合作,应用覆盖美国500多家医院。此次收购将推动三星向连接医疗保健平台转型,结合其在传感器技术和可穿戴设备方面的优势,完善Samsung Health平台功能。
小米团队开发的MiMo-7B模型证明了AI领域"小而精"路线的可行性。这个仅有70亿参数的模型通过创新的预训练数据处理、三阶段训练策略和强化学习优化,在数学推理和编程任务上超越了320亿参数的大模型,甚至在某些指标上击败OpenAI o1-mini。研究团队还开发了高效的训练基础设施,将训练速度提升2.29倍。该成果已完全开源,为AI民主化发展提供了新思路。