实施数据湖的三个关键因素

数据湖的实施可以为分析所有类型的外部和内部数据，提供巨大的灵活性—必需具备三大要素。

数据湖的实施可以为分析所有类型的外部和内部数据，提供巨大的灵活性—必需具备三大要素。格雷普韦恩，德克萨斯州——像任何其他工具或技术一样，数据湖是一种存储库和处理引擎，有它的优点和缺点。它的著名优点之一是，可以在不牺牲数据格式的情况下，摄取数据，为数据科学家提供更大的灵活性。

“将数据湖看作为你的疑问开发环境：你不知道你的疑问是什么，” Nick Heudecker说，他是Gartner的分析师。数据湖让你探索你所不知道的，从一个疑问引发另一个疑问。缺点？没有适当的技能、集成和数据治理，数据湖的实施会迅速成为数据管理的噩梦。

在最近举行的Gartner Business Intelligence and Analytics Summit 上，Heudecker在他的演讲中列举了健全的数据湖的三个特征。

技能

数据科学家是任何数据湖中的必要因素。“他们拥有较高的领域理解力，较低的IT技能，但是你雇佣他们是因为数据分析技能，”Heudecker说。但是数据科学家并不是实施数据湖所需的唯一技能。Heudecker还指出：数据工程师，运用数据科学家的研究发现，并与业务部门紧密合作；业务专家，提供上下文；软件工程师，专注于数据湖实施的具体细节平民数据科学家，并不是必需的，但可以作为数据科学家的补充，即使他们的技能不完全成熟，能够完全胜任这个职能。

“数据科学是一项团队任务，”Heudecker说。“如果你想要一个成功的数据湖，你必须拥有一个成功的团队。”

集成

IT部门需要考虑如何把数据——从内部，以及越来越多的外部来源——汇总到数据湖中，这就意味着将湖与IT基础设施的其他部分相集成。这就要求正确的数据初始分类和索引，以及数据安全，Heudecker说。

此外，CIO还不得不考虑分析技术。一些数据湖技术——比如Hadoop——可能“不支持高并发性和多租户，”Heudecker说。“他们可能不适合你选择的商业智能平台或控制面板工具。” Heudecker认为，数据分析也可以在数据湖外部产生，比如使用MySQL，SQL Server或MongoDB数据库。

数据治理和数据质量数据治理和数据质量是确保分析正确的关键，但它们的标准和应用与传统环境中有所差别。太多可能会妨碍数据湖的分析发现；太少可能会给企业带来麻烦。

为了找到合适的界限，Heudecker推荐IT部门考虑数据基数，或数据与其他数据之间的关联，以及数据沿袭，或者“你是如何处理数据的，数据从何而来，谁改动了它，为什么，”他说。“我认为你可以放弃其他元素的治理，至少当你处于数据湖环境中。” Heudecker认为数据质量是数据湖中的“重大挑战”。他说，IT部门应该创建目录和“社交化”数据集，将其作为员工之间的一种沟通方式，它们的相关数据质量和它们的用处。

在实施数据湖之前，IT部门应该考虑业务的目标，数据湖将如何帮助实现这些目标，以及是否拥有必要的技能。 “你不必将数百万美元投资到这个基础设施。你可以从云中开始，你可以从简便和免费的工具开始，如果你今天没有数据科学团队，你可以在实施数据湖的同时打造这一团队，”Heudecker说。

来源：TechTarget中国

0赞

好文章，需要你的鼓励

实施数据湖的三个关键因素

来源：TechTarget中国

2016

04/07

10:07

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

简化AI数据准备流程，降低训练成本

Dollar General任命科技领域新高管，推动AI战略深化

Genpact研究发现企业内部潜藏18万亿美元AI价值

Everpure推出通用数据智能平台，弥合AI数据鸿沟

Salesforce收购Informatica六个月后，CIO们该知道什么

Salesforce借助Informatica布局企业级无头数据管理架构

SAP收购Dremio与Prior Labs，全面强化表格AI数据分析能力

SAP收购Dremio与Prior Labs，全力推进企业AI数据布局

AOP Health数字化转型：用技术赋能罕见病患者诊疗

克里夫兰开放数据变革：从便利贴到公共仪表板

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会