企业在实施大规模数据湖之前,应该从小规模开始,并将该技术作为对现有分析系统的扩展。
最近,数据湖已经开始在IT行业涌现。数据湖是与附加数据管理系统相结合的数据存储,而附加数据管理系统提供关于数据的分析,作为数据清理过程的一部分,通常是从其他分析环境(例如数据仓库或数据集市)剥离的能力。
例如,数据仓库的提取,转换和加载预处理消除了告诉系统何时到达或插入“操作数据存储”的日志。
但在当今的行业中,数据湖似乎至少有两个定义。一个来自存储公司的是,数据湖是允许元数据存储的磁盘存储基础设施。另一个主要是营销驱动的,是混合通常不混合的多个数据存储的一个湖。根据专家的定义,没有销售全面数据湖的供应商,而是人们使用Hadoop和本地工具访问数据来将它们拼凑在一起。
由于最初的供应商炒作让位于真实世界的实验,用户发现数据市场的最佳实践并不适用于数据湖。为了避免早期用户的错误,适当地解决数据湖的实施,而不是大规模。以下是一些在处理数据湖时证明有用的最佳实践。
记住,数据湖是探索性的
数据湖实施应该允许组织以特别的和探索的方式扩展现有的分析。
从当前分析系统不会及时获取的高度数据的核心(例如客户事务日志)中增长数据湖中的数据类型。大多数现有的分析不足以真实了解应用程序的行为。数据仓库和Hadoop等数据管理方案失去了重要的数据。
大数据分析系统提供商Pentaho公司的首席技术官James Dixon在博客上例举了一个例子:数据仓库等系统并不捕获客户购买过程中的每一步,而是事务日志。这样的购买过程的设计对于典型的数据架构师似乎是直接的,但是在每个步骤中可能有数分钟甚至数小时的滞后。
通过发现流程中的滞后,用户可以开始与客户面对的数据湖实现,购买相关的交易。分析对企业的整体分析工作具有探索性和重要性,因为一旦用户更彻底地分析客户日志时间戳,还不清楚会发现什么。
数据集市,湖泊和仓库之间有什么区别?
数据集市是数据仓库的变体。数据仓库存储来自整个组织的较旧的数据,用于报告和分析。多个数据集市大致相当于数据仓库,通常在自己的IT环境中为子公司服务。用户可以有多个数据集市进入数据仓库,或者只是松散耦合的数据集市。
集成是实现数据湖的关键
将数据湖与其他企业数据架构(包括数据治理和主要数据管理)完全集成也很重要。了解哪些数据类型对数据仓库或数据集市很重要,以及原始数据是否正确和一致。实施数据治理实践,以避免分析有缺陷的数据。
数据湖的长期发展
数据湖有潜力。但是,除非人们能够更好地了解自己可以长期提供什么,否则这很可能只是一个时尚,除非他们的利益比迄今为止具体显示的更广泛。
Dixon在并入时序和间距时的数据仓库问题的例子只是当今的分析继续依赖简单统计数据,而不考虑什么“坏”数据可以告诉人们的一个实例。由于数据湖实施可以发掘分析中的关键“陷阱”,因此它值得任何企业进行探索。然而,从长远来看,这需要实验和仔细平衡数据湖和整体信息架构。
好文章,需要你的鼓励
Hugging Face推出开源工具Yourbench,允许企业创建自定义基准来评估AI模型在其内部数据上的表现。这一工具通过复制大规模多任务语言理解基准的子集,以极低成本实现了对模型性能的精确评估。Yourbench的出现为企业提供了更贴合实际需求的AI模型评估方法,有望改善模型评估的方式。
Cognition AI 推出 Devin 2.0,这是其 AI 驱动的软件开发平台的更新版本。新版本引入了多项功能,旨在提升开发者与自主代理之间的协作效率。最引人注目的是,Devin 2.0 的起价从每月 500 美元大幅下调至 20 美元,使其更易于普及。新功能包括并行 Devin、交互式规划、代码库搜索等,有望提升开发效率并增强用户控制。
安迪·卡拉布蒂斯是一位杰出的CIO,她的职业生涯横跨多个行业和地区,经历了多次变革时刻。她在福特和通用汽车锻炼了领导力和技术专长,后来在戴尔、拜奥根和国家电网等公司担任高管,推动战略创新。本文总结了她对IT领导者核心技能的见解,包括战略沟通、情商、协作、远见卓识、变革管理和敏捷性等,对当今IT领导者具有重要参考价值。
边缘 AI 计算将使人形机器人、智能设备和自动驾驶等应用从数据中心和云端服务器解放出来,转移到制造车间、手术室和城市中心等场景。它能实现低延迟和自主决策,使 AI 无处不在,推动工业设施全面自动化,彻底改变商业和生活方式。边缘 AI 正在快速发展,各大科技公司纷纷推出相关硬件和软件平台,未来将为各行各业带来巨大变革。