自从《经济学人》将数据类比为21世纪的石油以来,数据的重要性已经无需过多赘述。
数据显示,自2017年的2.3ZB起,我国数据产量在短短四年间增长至2021年的6.6ZB,占据全球数据产量的9.9%,跃居世界第二。数据已经成为继土地、劳动力、资本、技术之后的第五大生产要素。
数据带来的是巨大的潜力和机遇,但同时也带来了一系列挑战。今年3月,国务院关于提请审议国务院机构改革方案的议案组建国家数据局,国家数据局的设立对于激活数据要素潜能、发挥数字经济对经济社会的基础性作用而言是非常重要和必要的。
而且现在企业中的数据也处在一个复杂的环境中,数据的利用就需要变成混合的应用,Cloudera的混合数据平台则可以很好地支持现代的数据架构。
混合数据为企业带来的价值
Cloudera(肯睿)是一家专注于混合数据的公司,提供适用于数据编织、湖仓一体、数据网格和未来数据生态系统架构要求的混合数据平台的混合数据平台,允许客户在多个公共和私有云以及本地访问和分析数据。而且Cloudera从2019年连续4年被Gartner评为云数据库管理系统(DBMS)魔力象限领导者,其能力包括:
Cloudera大中华区区域副总裁王刚表示,Cloudera可以实现开放数据编织、湖仓一体和数据网格可在任何地方提供大规模数据、多云和本地数据管理和分析、“一次编写,随处运行”的数据分析可移植性、使用开放的云原生存储格式统一安全和治理。
Cloudera大中华区区域副总裁王刚
“在混合的环境下,企业的一个思路就是集中化的管控,也就是建设数据仓库。虽然这理论正确,但是现在出现了一个新的思路,就是数据网格和数据编织。”Cloudera大中华区技术总监刘隶放说道。
企业在AI应用上会遇到,确定如何开发模型解决常见业务问题;僵化、单一的数据科学平台无法适应不断变化的需求;数据专家与业务用户脱节三个挑战。
企业可以使用Cloudera的ML来搭建AI应用,为常见的业务问题预先建立只需点击一下即可加快开发速度的原型、为数据专家提供丰富的工具,打造灵活的机器学习环境、通过交互式数据应用建立一座将机器学习结果传达给企业主的“桥梁”。
Cloudera一直不断在平台和分析领域进行创新,实现跨多个云和数据中的混合平台,是唯一通过SDX安全和治理实现一体化体验的产品,覆盖了从数据专家到数据分析师等各类用户的协作式和一体化商业智能与增强功能。
守正与创新共生互补
Cloudera在过去一两年,CDP的客户迁移比例正在逐渐增高。同时为了解决现代数据分发和实时流处理的挑战,Cloudera也新增了对Data-in-Motion动态数据的支持,包括三个组件。
DATAFLOW:通过Apache NiFi, 让开发人员可以连接任何地方、数据源、结构类型的数据,处理加工并交付到任何地方,通过一种低代码的授权体验。
STREAM PROCESSING:通过Apache Flink and Kafka, 提供一个完整的企业级的数据流管理,通过提供例如SQL这样行业标准的界面,让开发人员,数据分析师和数据科学家可以轻松的搭建不同的实时的混合云应用。
CLOUDERA SDX:通过Apache Ranger & Apache Atlas工具让数据流安全可控,监控和得到有效治理。
“在其上我们做了很多企业级产品的管理和支持。”刘隶放指出,Cloudera的Data-in-Motion动态数据的强大之处在于,可以通过DataFlow & Stream Processing实现数据快速移动。
Cloudera大中华区技术总监刘隶放
Cloudera Data-in-Motion在速度上,实现快速的数据摄取、快速的数据处理,实现便捷的全量数据分析洞察。在障碍上,打破数据摄取的竖井简化开发,测试和部署降低运营复杂性。在成本上,一个解决方案消除数据移动的复制团队工作效率更高。
未来Cloudera也将在三个方向增加投入。
PVC DS - Data Service 私有云数据服务:新应用实现内置工作负载隔离、价值实现时间加快10倍、数据中心基础设施减少约50%、按应用自主升级、重新设计的管理和用户体验。现有应用实现存储和SDX位于同一位置,统一的安全策略管理、查询性能最高提高5倍。
支持Iceberg版本:实现开放的湖仓一体架构,让湖仓一体集成并统一数据仓库和数据湖的功能,可以在单一平台上支持AI、BI、ML和数据工程。
对象存储组件Ozone:可以在本地的存储上,通过对对象存储的支持,进一步提升在私有云,和云原生的支撑能力。
刘隶放谈到,过去的两三年我们很重要的任务是CDP的升级,未来我们更多要做的是对云原生的支持、Iceberg的湖仓一体架构、存储突破。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。