根据Capital One工程副总裁Terren Peterson的说法,IT领域的一切最终都会商品化。Peterson在该银行工作了超过24年,对于商品化如何影响IT业务有着第一手的经验。
他说:“在IT项目中,我们过去花了很多时间和IT基础设施打交道。但最终,一切都进入了云端。所有IT基础设施都被商品化了。”
尽管IT基础设施确实已经被商品化和简化,但组织面临的数据管理挑战却变得越来越复杂。他说:“数据、模式解决、一般问题解决和策略等问题仍然存在,将软件商品化比较容易,在某种程度上,将基础设施商品化也非常容易。但将数据商品化却很难。”
话虽如此,Peterson相信,随着时间的推移,数据管理任务将越来越少。他说:“这是一个简化的过程,随着时间的推移,事物会被商品化,然后从任务中消失。”
对于Peterson来说,企业数据架构的需求始终存在。这种架构始于在组织中培育数据文化,但他认为这其中存在一些脱节:“你可以制定数据策略,但你有数据文化吗?”
Morning Consult最近受Capital One委托进行的一项调查发现,在接受调查的4000人中,只有35%的受访者认为他们的组织具有强大的数据文化。同时,超过五分之一的受访者表示,他们的组织缺乏强大的数据文化,或者缺乏具有一致性的领导支持、人才发展和数据教育。
“在某种程度上,数据文化是纪律的代表,你是否优先考虑数据管理时间?是否收集了良好的元数据?是否进行了数据质量检查?是否确保数据真正被充分理解。你是否花时间对数据进行标准化?”
数据标准化
在像Capital One这样拥有多业务线的企业中,拥有标准化语言对于在整个企业内进行有效沟通是至关重要的,这同样适用于数据。作为一名数据工程师,Peterson认为数据平台在为整个组织的数据提供标准方面,发挥着重要作用。
他说:“我们认为平台是数据工程的核心。”例如,将数据从A点移动到B点需要数据管道。拥有数据平台,这消除了企业中所有都需要构建自己的数据管道的需要。相反,数据平台把移动数据的问题概括化了。
在他看来,将问题的解决方案概括化以使其适用于其他情况,这个想法是工程的基础。“当你将问题概括化的时候,你会说,‘哇,我可以用这个做一个平台’,然后告诉企业里的每个人。”
他承认,挑战在于说服人们使用这个平台。“你必须弄清楚如何让你的同事将他们的创造力投入到正确的问题、正确的案例和问题的正确部分上。”
实施数据管道可能有数百种不同的方法。Peterson的建议是尝试将人们的创造力从IT服务的领域引开。“如果我们想要标准化数据,请不要创造一百种不同的管道方法,发挥你的创造力,找到我们可以使用的所有不同数据源,研究我们可以用这些数据做什么。”
数据管道的概念很像企业服务总线,它在21世纪初变得引人关注,当时企业需要一种标准的应用通信方式。“首先就是企业,你真的想要一个服务总线——数据平台也是一样。”
目标是把数据标准化这本身进行商品化,使企业中的人们能够释放他们的创造力。“我拥有所有的数据,这就是魔力所在。我想到了人工智能、机器学习和数据分析等各种其他的事情,这就是我们想要发挥创造力的地方。我们不想把它投入到如何管理数据上。”
看看这些都是如何运用于Peterson他自己的工作中的,他说,他并没有把创造力投入到试图建立自己的数据湖中——因为数据湖已经存在了。“我用我的创造力来研究如何对已经存在的数据属性获得独特的洞察,这就是我们企业中真正有创意的问题解决方案。”
例如,这样的问题解决方案可以改进欺诈模型,或者开发出帮助人们购买新车的贷款报价引擎。
发展数据平台
在考虑从何处开始使用数据平台时,Peterson坚信,组织需要从坚实的数据基础开始。幸运的是,许多企业已经拥有了他们所需的大部分东西,因为企业长期以来一直在处理数据。“如果你已经拥有了一些东西,那么你就可以在这个基础上继续发展,它为你提供了一个起点。”
然而,他用树来打比方说:“什么时候种树最好?嗯,是20年前。如果你当时没有种树,那么第二个最佳时间就是今天。我鼓励人们不要认为有快速的解决方案。你首先需要的是平台,如果你还没有构建数据平台——如果你20年前没有种树——那么今天你就可以开始了。”
使用标准数据管道和数据平台的一个例子是Capital One Auto Navigator,这是在2023年推出的。这个平台让汽车经销商能够与更多购车者建立联系并支持车辆购买流程。购车者可以自定义首付、以旧换新和期限长度等详细信息,计算适合自己的付款计划。这使经销商们能够根据可用库存了解客户可以负担得起的价格,从而更高效、更准确地工作。
Auto Navigator等应用通过汇总整个企业的数据来工作。Peterson表示,为了利用高级分析、人工智能和机器学习,此类应用需要具有坚实的数据基础,也就是需要数据平台。
他认为,采用云原生IT战略的组织可以快速启动和运行基于云的数据平台,因为他们不必担心配置本地环境中所需的相关存储和其他IT基础设施。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。