可信的数据、分析和AI混合平台厂商肯睿Cloudera于今日发布其元数据管理解决方案的两项关键增强功能。这一更新不仅提高了开放式数据湖仓一体架构内部的开放互通性,同时也满足了数据全生命周期内日益增长的安全和治理需求。
随着企业加大对生成式AI应用的投资,稳健且适应性强的元数据管理已成为保证数据质量与合规的关键。但要取得成功并获得更加准确且可扩展的结果,企业必须有一个统一、安全并且能够充分发挥元数据管理强大力量的平台。
作为所有关键行业内企业首选的大规模数据、分析和AI平台厂商,肯睿Cloudera为企业提供了一个采用开放标准的端到端开放式数据湖仓一体架构,实现了与生态系统的集成和互通。此次更新进一步帮助肯睿Cloudera兑现了这一现代数据架构承诺:
除了保护数据全生命周期内的安全和脉络外,肯睿Cloudera的最新功能更新还通过优化元数据管理,助力企业在提高性能、可扩展性和弹性的同时,减少总体拥有成本(TCO)。此次扩展还促进了不创建副本的元数据共享,帮助企业在无厂商锁定的情况下使用第三方工具实现创新。
行业分析师Sanjeev Mohan表示:“企业数据是企业最大的‘护城河’。鉴于这一点,企业需要以统一的方式访问和管理其数据资产,不论是结构化或非结构化数据,位于本地或多云环境的数据,还是采用批处理或是流处理的数据。无论内容位于何处,数据领导者都希望利用开放的表格格式,采用一套一致的策略获得一致的数据视图。这种统一方式可以通过增强数据目录,结合Iceberg REST API等格式和支持精细化访问控制而实现。”
肯睿Cloudera首席产品官Dipto Chakravarty表示:“统一的数据和互通性始终是各个混合云上的肯睿Cloudera开放式数据湖仓一体架构的核心。为支持企业管理不断扩展的元数据,我们的平台提供了先进的可扩展性、性能、弹性和成本效益,同时避免了厂商锁定和数据孤岛问题。我们坚持采用开放标准,保证了与生态系统的无缝集成与互通,助力企业从AI投资中获得更大的收益。”
肯睿Cloudera大中华区技术总监刘隶放表示:“在中国,数据安全和合规性是企业数据管理的关键要素。随着中国对数据保护和隐私法规的日益严格,企业迫切需要一个稳健且灵活的元数据管理功能。肯睿Cloudera通过不断创新和提升我们的元数据管理解决方案,帮助中国企业在数据全生命周期内实现更高的安全性和合规性。通过Iceberg REST Catalog集成和增强的共享数据体验(SDX),我们不仅能帮助企业提升运营效率,满足其日益增长的安全和治理需求,也为他们在生成式AI应用上的投资提供了坚实的基础。”
肯睿Cloudera将在8月6日至7日于新加坡滨海湾金沙会展中心举行的Cloudera EVOLVE24新加坡大会(业内数据和AI盛会之一)上展示这些更新。与会者将能够在现场与专家进行交流,了解肯睿Cloudera如何打造将分析和AI技术应用于业务数据的混合开放式数据湖仓一体架构。
好文章,需要你的鼓励
北京交通大学与西蒙弗雷泽大学联合研发的混合神经-MPM方法实现了实时交互式流体模拟。该方法巧妙结合神经物理学与传统数值求解器,在低时空分辨率下运行神经网络并设置保障机制自动切换到MPM,显著降低计算延迟同时保持高保真度。团队还设计了基于扩散模型的控制器,支持用户通过简单草图直观控制流体行为,为游戏、VR和设计领域提供了实用解决方案。
这项研究介绍了EgoZero,一种创新的机器人学习系统,能够仅通过Project Aria智能眼镜捕获的人类示范数据,训练出零样本迁移的机器人操作策略。研究团队提出了一种形态无关的状态-动作表示方法,使用点集来统一人类和机器人数据,并开发了从原始视觉输入中提取准确3D表示的技术。在没有任何机器人训练数据的情况下,EgoZero在7种真实世界操作任务上实现了70%的成功率,展示了强大的泛化能力,为解决机器人学习中的数据瓶颈问题提供了新思路。
FLAME-MoE是卡内基梅隆大学团队开发的首个全透明混合专家语言模型研究平台,包含7个规模从3800万到17亿活跃参数的模型。它采用每层64位专家、top-8选择和2位共享专家的架构,公开所有训练数据、代码和检查点。实验显示,FLAME-MoE比相同计算量的密集模型提升3.4个百分点,并揭示了三个关键发现:专家逐渐专注于特定词汇子集,专家协同激活保持稀疏多样,路由行为在训练早期就趋于稳定。这一平台为MoE模型的系统研究提供了前所未有的开放基础。
这篇论文介绍了ModernGBERT,一个由维尔茨堡大学研究团队开发的高性能德语编码器模型家族(1.34亿和10亿参数版本)。研究将ModernBERT的创新架构应用于德语,同时通过LLM2Vec方法将德语解码器模型转换为编码器以进行对比研究。在SuperGLEBer和MTEB等基准测试中,ModernGBERT 10亿参数模型不仅超越了之前最先进的德语编码器,还在性能和参数效率方面优于转换后的编码器。研究团队还证明了更大模型能有效利用大规模单语语料库,为德语自然语言处理提供了全透明、高性能的资源。