企业在数据湖实施之前需要试水

企业在实施大规模数据湖之前，应该从小规模开始，并将该技术作为对现有分析系统的扩展。

企业在实施大规模数据湖之前，应该从小规模开始，并将该技术作为对现有分析系统的扩展。
　　
最近，数据湖已经开始在IT行业涌现。数据湖是与附加数据管理系统相结合的数据存储，而附加数据管理系统提供关于数据的分析，作为数据清理过程的一部分，通常是从其他分析环境（例如数据仓库或数据集市）剥离的能力。
　　
例如，数据仓库的提取，转换和加载预处理消除了告诉系统何时到达或插入“操作数据存储”的日志。
　　
但在当今的行业中，数据湖似乎至少有两个定义。一个来自存储公司的是，数据湖是允许元数据存储的磁盘存储基础设施。另一个主要是营销驱动的，是混合通常不混合的多个数据存储的一个湖。根据专家的定义，没有销售全面数据湖的供应商，而是人们使用Hadoop和本地工具访问数据来将它们拼凑在一起。
　　
由于最初的供应商炒作让位于真实世界的实验，用户发现数据市场的最佳实践并不适用于数据湖。为了避免早期用户的错误，适当地解决数据湖的实施，而不是大规模。以下是一些在处理数据湖时证明有用的最佳实践。
　　
记住，数据湖是探索性的
　　
数据湖实施应该允许组织以特别的和探索的方式扩展现有的分析。
　　
从当前分析系统不会及时获取的高度数据的核心（例如客户事务日志）中增长数据湖中的数据类型。大多数现有的分析不足以真实了解应用程序的行为。数据仓库和Hadoop等数据管理方案失去了重要的数据。
　　
大数据分析系统提供商Pentaho公司的首席技术官James Dixon在博客上例举了一个例子：数据仓库等系统并不捕获客户购买过程中的每一步，而是事务日志。这样的购买过程的设计对于典型的数据架构师似乎是直接的，但是在每个步骤中可能有数分钟甚至数小时的滞后。
　　
通过发现流程中的滞后，用户可以开始与客户面对的数据湖实现，购买相关的交易。分析对企业的整体分析工作具有探索性和重要性，因为一旦用户更彻底地分析客户日志时间戳，还不清楚会发现什么。
　　
数据集市，湖泊和仓库之间有什么区别？
　　
数据集市是数据仓库的变体。数据仓库存储来自整个组织的较旧的数据，用于报告和分析。多个数据集市大致相当于数据仓库，通常在自己的IT环境中为子公司服务。用户可以有多个数据集市进入数据仓库，或者只是松散耦合的数据集市。
　　
集成是实现数据湖的关键
　　
将数据湖与其他企业数据架构（包括数据治理和主要数据管理）完全集成也很重要。了解哪些数据类型对数据仓库或数据集市很重要，以及原始数据是否正确和一致。实施数据治理实践，以避免分析有缺陷的数据。
　　
数据湖的长期发展
　　
数据湖有潜力。但是，除非人们能够更好地了解自己可以长期提供什么，否则这很可能只是一个时尚，除非他们的利益比迄今为止具体显示的更广泛。
　　
Dixon在并入时序和间距时的数据仓库问题的例子只是当今的分析继续依赖简单统计数据，而不考虑什么“坏”数据可以告诉人们的一个实例。由于数据湖实施可以发掘分析中的关键“陷阱”，因此它值得任何企业进行探索。然而，从长远来看，这需要实验和仔细平衡数据湖和整体信息架构。

来源：机房360

0赞

好文章，需要你的鼓励

企业在数据湖实施之前需要试水

来源：机房360

2016

12/27

10:37

分享

点赞

数智时代，openGauss Summit 2025即将发布哪些技术创新破局

“算力+储能”深度融合：超智算发布分布式算力超级节点储能解决方案

联想推出DE6600系列：更智能的存储解决方案

创业公司如何在严格监管行业中实现生死攸关的创新

OpenAI发布GPT-5.2-Codex模型，软件工程自动化能力大幅提升

Waterfox浏览器宣布拒绝AI功能，瞄准Firefox忠实用户

TikTok美国业务出售交易将于下月完成

破局AI数据中心安全瓶颈：Fortinet联合NVIDIA引领隔离式加速新航向

智算中心进化论，科华数据如何做到“更懂”

更高负载、更快建设：2026年数据中心六大趋势

Snowflake数据库更新引发全球大规模服务中断

AI编程初创公司Lovable融资3.3亿美元，英伟达等科技巨头支持

什么成就传奇CIO？IT领域的人性化发展之道

CIO Joel Klein 与医学和 IT 的交汇

数据湖演进之路：架构分裂推动AI分析的新时代

戴尔用更快的查询速度和更多功能增强数据湖仓

CIO应动态调整IT，支持业务飞速增长

思科更新 AppDynamics 解决方案的 Smart Agents 简化大规模代理更新和仪表化

每个IT领导者都必须回答的8个变革管理问题

养成致胜IT文化的8个秘诀

AWS与IBM Netezza都已支持Iceberg表格式

湖仓一体：揭秘数据湖架构现代化之道

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: