数据湖的实施可以为分析所有类型的外部和内部数据,提供巨大的灵活性—必需具备三大要素。 格雷普韦恩,德克萨斯州——像任何其他工具或技术一样,数据湖是一种存储库和处理引擎,有它的优点和缺点。它的著名优点之一是,可以在不牺牲数据格式的情况下,摄取数据,为数据科学家提供更大的灵活性。
“将数据湖看作为你的疑问开发环境:你不知道你的疑问是什么,” Nick Heudecker说,他是Gartner的分析师。数据湖让你探索你所不知道的,从一个疑问引发另一个疑问。 缺点?没有适当的技能、集成和数据治理,数据湖的实施会迅速成为数据管理的噩梦。
在最近举行的Gartner Business Intelligence and Analytics Summit 上,Heudecker在他的演讲中列举了健全的数据湖的三个特征。
技能
数据科学家是任何数据湖中的必要因素。“他们拥有较高的领域理解力,较低的IT技能,但是你雇佣他们是因为数据分析技能,”Heudecker说。但是数据科学家并不是实施数据湖所需的唯一技能。Heudecker还指出: 数据工程师,运用数据科学家的研究发现,并与业务部门紧密合作; 业务专家,提供上下文; 软件工程师,专注于数据湖实施的具体细节 平民数据科学家,并不是必需的,但可以作为数据科学家的补充,即使他们的技能不完全成熟,能够完全胜任这个职能。
“数据科学是一项团队任务,”Heudecker说。“如果你想要一个成功的数据湖,你必须拥有一个成功的团队。”
集成
IT部门需要考虑如何把数据——从内部,以及越来越多的外部来源——汇总到数据湖中,这就意味着将湖与IT基础设施的其他部分相集成。 这就要求正确的数据初始分类和索引,以及数据安全,Heudecker说。
此外,CIO还不得不考虑分析技术。一些数据湖技术——比如Hadoop——可能“不支持高并发性和多租户,”Heudecker说。“他们可能不适合你选择的商业智能平台或控制面板工具。” Heudecker认为,数据分析也可以在数据湖外部产生,比如使用MySQL,SQL Server或MongoDB数据库。
数据治理和数据质量 数据治理和数据质量是确保分析正确的关键,但它们的标准和应用与传统环境中有所差别。太多可能会妨碍数据湖的分析发现;太少可能会给企业带来麻烦。
为了找到合适的界限,Heudecker推荐IT部门考虑数据基数,或数据与其他数据之间的关联,以及数据沿袭,或者“你是如何处理数据的,数据从何而来,谁改动了它,为什么,”他说。“我认为你可以放弃其他元素的治理,至少当你处于数据湖环境中。” Heudecker认为数据质量是数据湖中的“重大挑战”。他说,IT部门应该创建目录和“社交化”数据集,将其作为员工之间的一种沟通方式,它们的相关数据质量和它们的用处。
在实施数据湖之前,IT部门应该考虑业务的目标,数据湖将如何帮助实现这些目标,以及是否拥有必要的技能。 “你不必将数百万美元投资到这个基础设施。你可以从云中开始,你可以从简便和免费的工具开始,如果你今天没有数据科学团队,你可以在实施数据湖的同时打造这一团队,”Heudecker说。
好文章,需要你的鼓励
美国多州和部分国家要求特定应用进行年龄验证,澳大利亚已禁止16岁以下用户使用社交媒体。新提案《应用商店问责法案》建议由苹果和谷歌负责统一验证用户年龄,而非各开发者单独验证。这将提升用户体验,用户只需向苹果或谷歌验证一次身份。凭借苹果在隐私保护方面的优势,该方案可扩展至Safari浏览器,为需要年龄验证的网站提供确认信息,而无需透露用户个人数据。
Meta AI首次发布多模态奖励评估基准MMRB2,专门评价AI同时处理文字和图像的能力。该基准包含四大任务类型共4000个专家标注样本,测试23个先进模型。结果显示最佳模型Gemini 3 Pro达75-80%准确率,仍低于人类90%水平。研究揭示AI评价存在视觉偏见等问题,为多模态AI发展提供重要参考标准。
AI编程助手Cursor背后的公司Anysphere宣布收购AI代码审查工具初创公司Graphite。据报道收购价远超Graphite今年早些时候B轮融资时2.9亿美元的估值。此次收购具有战略意义,将AI代码生成与AI代码审查工具相结合,可大幅提升从编写到交付的整体效率。Anysphere估值已达290亿美元,近期频繁收购,上月收购技术招聘公司,今年7月还收购AI客户关系管理初创公司Koala的团队。
快手推出的Kling-Omni是首个真正统一的AI视频制作系统,能够理解文字、图像、视频等多种输入方式,不仅可以生成视频,还能进行复杂编辑和推理。该系统通过三个核心模块的协作,实现了从创意理解到最终输出的全流程自动化,让普通用户也能制作专业水准的视频内容,代表了AI视频技术的重要突破。