企业在数据湖实施之前需要试水

企业在实施大规模数据湖之前，应该从小规模开始，并将该技术作为对现有分析系统的扩展。

企业在实施大规模数据湖之前，应该从小规模开始，并将该技术作为对现有分析系统的扩展。
　　
最近，数据湖已经开始在IT行业涌现。数据湖是与附加数据管理系统相结合的数据存储，而附加数据管理系统提供关于数据的分析，作为数据清理过程的一部分，通常是从其他分析环境（例如数据仓库或数据集市）剥离的能力。
　　
例如，数据仓库的提取，转换和加载预处理消除了告诉系统何时到达或插入“操作数据存储”的日志。
　　
但在当今的行业中，数据湖似乎至少有两个定义。一个来自存储公司的是，数据湖是允许元数据存储的磁盘存储基础设施。另一个主要是营销驱动的，是混合通常不混合的多个数据存储的一个湖。根据专家的定义，没有销售全面数据湖的供应商，而是人们使用Hadoop和本地工具访问数据来将它们拼凑在一起。
　　
由于最初的供应商炒作让位于真实世界的实验，用户发现数据市场的最佳实践并不适用于数据湖。为了避免早期用户的错误，适当地解决数据湖的实施，而不是大规模。以下是一些在处理数据湖时证明有用的最佳实践。
　　
记住，数据湖是探索性的
　　
数据湖实施应该允许组织以特别的和探索的方式扩展现有的分析。
　　
从当前分析系统不会及时获取的高度数据的核心（例如客户事务日志）中增长数据湖中的数据类型。大多数现有的分析不足以真实了解应用程序的行为。数据仓库和Hadoop等数据管理方案失去了重要的数据。
　　
大数据分析系统提供商Pentaho公司的首席技术官James Dixon在博客上例举了一个例子：数据仓库等系统并不捕获客户购买过程中的每一步，而是事务日志。这样的购买过程的设计对于典型的数据架构师似乎是直接的，但是在每个步骤中可能有数分钟甚至数小时的滞后。
　　
通过发现流程中的滞后，用户可以开始与客户面对的数据湖实现，购买相关的交易。分析对企业的整体分析工作具有探索性和重要性，因为一旦用户更彻底地分析客户日志时间戳，还不清楚会发现什么。
　　
数据集市，湖泊和仓库之间有什么区别？
　　
数据集市是数据仓库的变体。数据仓库存储来自整个组织的较旧的数据，用于报告和分析。多个数据集市大致相当于数据仓库，通常在自己的IT环境中为子公司服务。用户可以有多个数据集市进入数据仓库，或者只是松散耦合的数据集市。
　　
集成是实现数据湖的关键
　　
将数据湖与其他企业数据架构（包括数据治理和主要数据管理）完全集成也很重要。了解哪些数据类型对数据仓库或数据集市很重要，以及原始数据是否正确和一致。实施数据治理实践，以避免分析有缺陷的数据。
　　
数据湖的长期发展
　　
数据湖有潜力。但是，除非人们能够更好地了解自己可以长期提供什么，否则这很可能只是一个时尚，除非他们的利益比迄今为止具体显示的更广泛。
　　
Dixon在并入时序和间距时的数据仓库问题的例子只是当今的分析继续依赖简单统计数据，而不考虑什么“坏”数据可以告诉人们的一个实例。由于数据湖实施可以发掘分析中的关键“陷阱”，因此它值得任何企业进行探索。然而，从长远来看，这需要实验和仔细平衡数据湖和整体信息架构。

来源：机房360

0赞

好文章，需要你的鼓励

企业在数据湖实施之前需要试水

来源：机房360

2016

12/27

10:37

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

IT领导者应善用每一次危机带来的变革机会

CIO保罗·科比：没有IT项目，只有业务项目

致新任CIO：英特尔CIO辛西娅·斯托达德谈如何在前六个月赢得信任

Etleap推出Apache Iceberg云端ETL数据管道

IT团队在AI时代生存必备的8个紧急更新指南

IT资产组合管理：优化IT资产实现业务价值最大化

什么成就传奇CIO？IT领域的人性化发展之道

CIO Joel Klein 与医学和 IT 的交汇

数据湖演进之路：架构分裂推动AI分析的新时代

戴尔用更快的查询速度和更多功能增强数据湖仓

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会