实施数据湖的三个关键因素

数据湖的实施可以为分析所有类型的外部和内部数据，提供巨大的灵活性—必需具备三大要素。

数据湖的实施可以为分析所有类型的外部和内部数据，提供巨大的灵活性—必需具备三大要素。格雷普韦恩，德克萨斯州——像任何其他工具或技术一样，数据湖是一种存储库和处理引擎，有它的优点和缺点。它的著名优点之一是，可以在不牺牲数据格式的情况下，摄取数据，为数据科学家提供更大的灵活性。

“将数据湖看作为你的疑问开发环境：你不知道你的疑问是什么，” Nick Heudecker说，他是Gartner的分析师。数据湖让你探索你所不知道的，从一个疑问引发另一个疑问。缺点？没有适当的技能、集成和数据治理，数据湖的实施会迅速成为数据管理的噩梦。

在最近举行的Gartner Business Intelligence and Analytics Summit 上，Heudecker在他的演讲中列举了健全的数据湖的三个特征。

技能

数据科学家是任何数据湖中的必要因素。“他们拥有较高的领域理解力，较低的IT技能，但是你雇佣他们是因为数据分析技能，”Heudecker说。但是数据科学家并不是实施数据湖所需的唯一技能。Heudecker还指出：数据工程师，运用数据科学家的研究发现，并与业务部门紧密合作；业务专家，提供上下文；软件工程师，专注于数据湖实施的具体细节平民数据科学家，并不是必需的，但可以作为数据科学家的补充，即使他们的技能不完全成熟，能够完全胜任这个职能。

“数据科学是一项团队任务，”Heudecker说。“如果你想要一个成功的数据湖，你必须拥有一个成功的团队。”

集成

IT部门需要考虑如何把数据——从内部，以及越来越多的外部来源——汇总到数据湖中，这就意味着将湖与IT基础设施的其他部分相集成。这就要求正确的数据初始分类和索引，以及数据安全，Heudecker说。

此外，CIO还不得不考虑分析技术。一些数据湖技术——比如Hadoop——可能“不支持高并发性和多租户，”Heudecker说。“他们可能不适合你选择的商业智能平台或控制面板工具。” Heudecker认为，数据分析也可以在数据湖外部产生，比如使用MySQL，SQL Server或MongoDB数据库。

数据治理和数据质量数据治理和数据质量是确保分析正确的关键，但它们的标准和应用与传统环境中有所差别。太多可能会妨碍数据湖的分析发现；太少可能会给企业带来麻烦。

为了找到合适的界限，Heudecker推荐IT部门考虑数据基数，或数据与其他数据之间的关联，以及数据沿袭，或者“你是如何处理数据的，数据从何而来，谁改动了它，为什么，”他说。“我认为你可以放弃其他元素的治理，至少当你处于数据湖环境中。” Heudecker认为数据质量是数据湖中的“重大挑战”。他说，IT部门应该创建目录和“社交化”数据集，将其作为员工之间的一种沟通方式，它们的相关数据质量和它们的用处。

在实施数据湖之前，IT部门应该考虑业务的目标，数据湖将如何帮助实现这些目标，以及是否拥有必要的技能。 “你不必将数百万美元投资到这个基础设施。你可以从云中开始，你可以从简便和免费的工具开始，如果你今天没有数据科学团队，你可以在实施数据湖的同时打造这一团队，”Heudecker说。

来源：TechTarget中国

0赞

好文章，需要你的鼓励

实施数据湖的三个关键因素

来源：TechTarget中国

2016

04/07

10:07

分享

点赞

联想问天 WR5220 G5服务器

联想问天 WA7880a G3服务器

苹果注重隐私的年龄验证方案可解决两大难题

Cursor通过收购Graphite继续扩张之路

ChatGPT新增个性化设置功能，用户可自定义聊天体验

Kuxiu S3固态电池充电宝替代多款充电器的全能解决方案

Waymo自动驾驶出租车遭遇交通灯故障停摆事件分析

智启未来，共筑开发者生态 AMD携手DataWhale、魔搭社区，共建ROCm开发者生态

千问C端事业群成立后首推平价AI眼镜：低至1999元，搭载千问AI助手

Aqara Hub M200为HomeKit带来Matter支持和新自动化选项

LG智能电视强制安装Copilot快捷方式引发用户不满

Palo Alto Networks与谷歌云签署数十亿美元AI合作协议

HorizonH收购Atempo，押注Miria成为大规模数据迁移引擎

Hammerspace通过三种方式提升AI数据访问性能

HPE构建基于Alletra MP的数据纤维架构

联想如何整合即将收购的Infinidat存储系统

NetApp推出AFX阵列和AI数据引擎解决方案

Pure Storage CEO详解数据集管理策略与软件栈发展

Komprise推出AI数据清洗工具处理非结构化数据

Alloy为机器人行业带来专业数据管理解决方案

Cirata发布Symphony平台助力企业数据管理

VAST推出SyncEngine工具解决企业数据分散难题

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: