5月13日,在北京举办的“腾讯云原生智能数据湖”发布会上,腾讯云首次对外展示完整云端数据湖产品图谱,并推出两款“开箱即用”数据湖产品,数据湖计算服务DLC和数据湖构建DLF。
腾讯云大数据产品中心副总经理雷小平表示:“伴随着企业对于数据洞察敏捷度要求的不断提升,腾讯云正在不断探索更智能、更灵活、更高性价比的大数据工具。我们看到,数据湖架构已经成为在数据智能时代的新趋势,而云是数据湖最佳的实践场所。腾讯云原生智能数据湖将助力各行各业解决多元化数据分析场景的新需求,更好地激发大数据在企业数字化升级过程中的价值。”
六大层级产品构筑全方位数据湖服务
云原生数据湖可以赋予客户更高的数据敏捷度、更优的数据存储分析成本,以及更极致的资源弹性能力,在打破数据孤岛、实现多元化数据分析等方面具有独特优势。
腾讯云此次展示的完整云原生数据湖产品矩阵包括数据湖存储、数据湖算力调度、数据湖大数据分析、数据湖AI能力、以及数据湖应用和云上基础服务六个层面,提供一体化的全方位服务。

腾讯云原生智能数据湖产品图谱
数据湖存储以对象存储COS服务为核心,理论上可以存储任意规模的异构数据,具有高可靠性和高持久性,同时也支持将其他云端数据设施作为数据湖的存储服务。在数据湖算力调度方面,基于腾讯云弹性容器服务EKS,开放的容器化的分析架构让数据分析功能可组合性更强,扩展性更强,资源利用率更高。
在数据分析层,腾讯云数据湖既提供半托管的泛Hadoop服务,满足用户自定义需求,也提供全托管的数据服务,便于用户获取海量数据的洞察力。此外,用户还可利用腾讯云提供的数据协作工具对计算服务进行编排和调用,大幅度提升企业数据的便捷性和敏捷度。
值得一提的是,针对越来越多的音视图文数据,腾讯云数据湖包含丰富的AI服务, 为图像处理、音频处理、自然语言处理、视频处理等提供有力的数据支撑。在数据应用服务中,腾讯云推出基于数据湖的数据应用服务,比如企业画像、联邦计算、商业智能分析等。
最后,云原生的基础服务为腾讯云数据湖体系提供了有力的保障。
雷小平表示,这六大层面基本涵盖了客户的诸多需求,此外,腾讯云还在不断的研发更多的数据湖产品,以完善云原生智能数据湖矩阵。
两款“开箱即用”数据湖新品 消除数据孤岛
为了帮助客户快速构建和分析数据湖,腾讯云此次正式推出两款开箱即用的数据湖产品:数据湖计算服务(Data Lake Compute,简称DLC)和数据湖构建(Data Lake Formation ,简称DLF)。
数据湖计算服务作为敏捷高效的的数据湖分析引擎,采用无服务器架构设计,用户无需关注底层架构或维护计算资源,使用标准 SQL 即可完成对象存储服务及其它云端数据设施的联合分析。此外,用户无需进行传统的数据分层建模,大幅缩减了海量数据分析的准备时间,有效提升了企业数据敏捷度。
数据湖构建则能帮助用户快速高效的构建企业数据湖技术架构,包括统一元数据管理、多源数据入湖、任务编排、权限管理等数据湖构建工具。同时,借助数据湖构建,用户可以极大提高数据入湖准备的效率,方便地管理散落各处的孤岛数据。
雷小平表示,基于这两款数据湖产品,相比于本地自建大数据集群,数据湖构建时间减少了60%,数据分析计算性能提升35.5%,云端数据湖架构投入使用后可使存算数据量增长75%,配合其他大数据服务,在业务峰值期可以节约30%的硬件资源,以及一半的大数据工程师和运维工程师。
三大趋势催生国内首个云原生智能数据湖
腾讯云此次推出云原生智能数据湖的背后,是数智时代的数据分析新趋势,包括以云计算为中心、以数据驱动业务及可组合式数据架构。
预计到2021年低,云将承载80%的应用开发和部署。与此同时,数据驱动业务的浪潮席卷了各行各业,据知名咨询机构统计,到2025年全球数据总量将超过160ZB,全球数据总量的近 20% 将成为影响日常生活的关键数据,近 10% 将变为超关键数据。
为此,企业迫切需要可以利用多个数据源、使用不同的大数据分析技术,快速构建灵活友好的数据架构,解决多元化分析场景的数据需求。
“面对这些变化,腾讯云原生智能数据湖应势而生。”雷小平认为:“云原生智能数据湖,能够很好的扩展计算和存储资源,同时能极大地降低运维管理难度,实现业务灵活部署。
腾讯云云原生智能数据湖具备更高的数据敏捷度、更优的数据性价比、更强的数据智能化能力,可以更好地激发数据业务价值。同时,它天然具备云服务的众多优势,包括多租户的权限管控、存储计算资源弹性伸缩、底层资源免运维、云端服务高可用高可靠、仅需按照使用量付费等。
在应用方面,腾讯云正在积极推动数据湖在政务、工业、零售等领域的大规模落地。腾讯云数据湖体系已服务众多内外部客户,其整体算力弹性资源池已达500万核,存储数据超过100PB,每日分析任务数达1500万,每日实时计算次数超过万亿,能支持上亿维度的数据训练。
作为数智时代的新引擎,云原生智能数据湖能够为用户带来更多的可能性,挖掘更大的数据潜能。在新一轮的产业互联网浪潮中,政企都需要挂上新引擎,实现更好的数智化转型。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。