自从《经济学人》将数据类比为21世纪的石油以来,数据的重要性已经无需过多赘述。
数据显示,自2017年的2.3ZB起,我国数据产量在短短四年间增长至2021年的6.6ZB,占据全球数据产量的9.9%,跃居世界第二。数据已经成为继土地、劳动力、资本、技术之后的第五大生产要素。
数据带来的是巨大的潜力和机遇,但同时也带来了一系列挑战。今年3月,国务院关于提请审议国务院机构改革方案的议案组建国家数据局,国家数据局的设立对于激活数据要素潜能、发挥数字经济对经济社会的基础性作用而言是非常重要和必要的。
而且现在企业中的数据也处在一个复杂的环境中,数据的利用就需要变成混合的应用,Cloudera的混合数据平台则可以很好地支持现代的数据架构。
混合数据为企业带来的价值
Cloudera(肯睿)是一家专注于混合数据的公司,提供适用于数据编织、湖仓一体、数据网格和未来数据生态系统架构要求的混合数据平台的混合数据平台,允许客户在多个公共和私有云以及本地访问和分析数据。而且Cloudera从2019年连续4年被Gartner评为云数据库管理系统(DBMS)魔力象限领导者,其能力包括:
Cloudera大中华区区域副总裁王刚表示,Cloudera可以实现开放数据编织、湖仓一体和数据网格可在任何地方提供大规模数据、多云和本地数据管理和分析、“一次编写,随处运行”的数据分析可移植性、使用开放的云原生存储格式统一安全和治理。
Cloudera大中华区区域副总裁王刚
“在混合的环境下,企业的一个思路就是集中化的管控,也就是建设数据仓库。虽然这理论正确,但是现在出现了一个新的思路,就是数据网格和数据编织。”Cloudera大中华区技术总监刘隶放说道。
企业在AI应用上会遇到,确定如何开发模型解决常见业务问题;僵化、单一的数据科学平台无法适应不断变化的需求;数据专家与业务用户脱节三个挑战。
企业可以使用Cloudera的ML来搭建AI应用,为常见的业务问题预先建立只需点击一下即可加快开发速度的原型、为数据专家提供丰富的工具,打造灵活的机器学习环境、通过交互式数据应用建立一座将机器学习结果传达给企业主的“桥梁”。
Cloudera一直不断在平台和分析领域进行创新,实现跨多个云和数据中的混合平台,是唯一通过SDX安全和治理实现一体化体验的产品,覆盖了从数据专家到数据分析师等各类用户的协作式和一体化商业智能与增强功能。
守正与创新共生互补
Cloudera在过去一两年,CDP的客户迁移比例正在逐渐增高。同时为了解决现代数据分发和实时流处理的挑战,Cloudera也新增了对Data-in-Motion动态数据的支持,包括三个组件。
DATAFLOW:通过Apache NiFi, 让开发人员可以连接任何地方、数据源、结构类型的数据,处理加工并交付到任何地方,通过一种低代码的授权体验。
STREAM PROCESSING:通过Apache Flink and Kafka, 提供一个完整的企业级的数据流管理,通过提供例如SQL这样行业标准的界面,让开发人员,数据分析师和数据科学家可以轻松的搭建不同的实时的混合云应用。
CLOUDERA SDX:通过Apache Ranger & Apache Atlas工具让数据流安全可控,监控和得到有效治理。
“在其上我们做了很多企业级产品的管理和支持。”刘隶放指出,Cloudera的Data-in-Motion动态数据的强大之处在于,可以通过DataFlow & Stream Processing实现数据快速移动。
Cloudera大中华区技术总监刘隶放
Cloudera Data-in-Motion在速度上,实现快速的数据摄取、快速的数据处理,实现便捷的全量数据分析洞察。在障碍上,打破数据摄取的竖井简化开发,测试和部署降低运营复杂性。在成本上,一个解决方案消除数据移动的复制团队工作效率更高。
未来Cloudera也将在三个方向增加投入。
PVC DS - Data Service 私有云数据服务:新应用实现内置工作负载隔离、价值实现时间加快10倍、数据中心基础设施减少约50%、按应用自主升级、重新设计的管理和用户体验。现有应用实现存储和SDX位于同一位置,统一的安全策略管理、查询性能最高提高5倍。
支持Iceberg版本:实现开放的湖仓一体架构,让湖仓一体集成并统一数据仓库和数据湖的功能,可以在单一平台上支持AI、BI、ML和数据工程。
对象存储组件Ozone:可以在本地的存储上,通过对对象存储的支持,进一步提升在私有云,和云原生的支撑能力。
刘隶放谈到,过去的两三年我们很重要的任务是CDP的升级,未来我们更多要做的是对云原生的支持、Iceberg的湖仓一体架构、存储突破。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。