腾讯云AIGC存储解决方案全面升级，80%头部大模型厂商采用

4月8日，腾讯云宣布云存储解决方案面向AIGC场景全面升级，能够针对AI大模型数据采集清洗、训练、推理、数据治理全流程提供全面、高效的云存储支持。

4月8日，腾讯云宣布云存储解决方案面向AIGC场景全面升级，能够针对AI大模型数据采集清洗、训练、推理、数据治理全流程提供全面、高效的云存储支持。数据显示，采用腾讯云AIGC云存储解决方案，可将大模型的数据清洗和训练效率均提升一倍，需要的时间缩短一半。

据介绍，腾讯云AIGC云存储解决方案主要由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品组成，是国内首个实现存储引擎全面自研的云存储解决方案。目前，已经有80%的头部大模型企业选择了腾讯云AIGC云存储解决方案，包括百川智能、智谱、元象等明星大模型企业。

此前，腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、向量数据库、以及行业大模型服务MaaS等大模型全链路云服务。

腾讯集团副总裁、腾讯云与智慧产业事业群COO兼腾讯云总裁邱跃鹏曾经表示，大模型将开创下一代云服务，腾讯云致力于打造“最适合大模型的云”。

解决大模型全链路数据处理难题

AI大模型的研发生产流程，分成数据采集与清洗、模型训练、推理三大环节，各环节都涉及海量的数据处理。

在数据采集与清洗环节，由于原始训练数据规模海量，且来源多样，对存储技术提出了多协议支持、高性能、大带宽的需求。

腾讯云对象存储COS支持单集群管理百 EB 级别存储规模，提供便捷、高效的数据公网接入能力，并支持多种协议，充分支持大模型PB级别的海量数据采集。在数据清洗环节，大数据引擎需要快速地读取并过滤出有效数据，COS通过自研数据加速器GooseFS提升数据访问性能，可实现高达数TBps的读取带宽，支撑计算高速运行，大大提升数据清洗效率。

在模型训练环节，通常需要每2-4小时保存一次训练成果，以便能在GPU故障时时能回滚，因此快速地读写checkpoint（检查点）文件也成了能否高效利用算力资源、提高训练效率的关键。

腾讯云自主研发并行文件存储CFS Turbo ，面向AIGC训练场景的进行了专门优化，每秒总读写吞吐达到TiB/s级别，每秒元数据性能高达百万OPS，均为业界第一。3TB checkpoint 写入时间从10分钟，缩短至10秒内，使大模型训练效率大幅提升。

大模型推理场景对数据安全与可追溯性提出更高要求。腾讯云数据万象CI为此提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力，为数据生产从“用户输入——预处理——内容审核——版权保护——安全分发——信息检索“业务全流程提供有力支撑，优化AIGC内容生产与管理模式，顺应监管导向，拓宽存储边界。

同时，随着训练数据和推理数据的增长，需要提供低成本的存储能力，减少存储开销。对象存储服务提供了高达 12 个 9 的数据持久性和 99.995% 的数据可用性，能够为业务提供持续可用的存储服务。

业内唯一全自研存储引擎

卓越的性能表现，源自腾讯云自主研发的存储引擎与自研技术。这也是国内目前唯一实现存储引擎全面自研的云存储解决方案。

腾讯云自研的分布式对象存储引擎YottaStore，支持任意多副本及纠删码冗余模式并存，在大幅提升可用性、可靠性及性能的同时大幅降低成本。基于YottaStore，腾讯云对象存储服务COS作为统一的数据存储池，支持单集群1万台服务器，单集群百EB级的存储。

在数据清洗环节中，数据加速器GooseFS可根据数据的使用频率，将数据智能存储至内存、计算集群的本地盘、或可用区的全闪存储集群等不同级别的缓存中，低成本缩短IO路径，提升数据访问性能。相比起从对象存储COS中直接读取，GooseFS可以提供亚毫秒级的数据访问延迟、百万级的IOPS和Tbps级别的吞吐能力，有效提升数据清洗效率。

面向模型训练场景的CFS Turbo，则是目前业内唯一自研的并行文件存储系统。

基于自研分布式高性能存储引擎Histor，CFS Turbo底层通过自研用户态协议栈和RDMA等技术，减少数据的多次拷贝与虚拟化消耗，大幅降低了存储时延、提升吞吐性能；在应用侧，CFS Turbo自研并行文件传输协议，实现了多链路并行访问，大大提升了吞吐效率。原来的文件存储受限于传统NFS协议，单客户端只能单链路访问，也导致吞吐存在性能瓶颈。

此外，针对AIGC的checkpoint记录、大视频文件读写、小图片读写等场景，腾讯云CFS Turbo还自研了分级缓存、自适应条带化、分布式元数据的技术，大幅提升了AIGC场景下的读写性能。除了大模型企业以外，CFS Turbo也被广泛应用于自动驾驶与工业仿真场景，包括博世汽车、蔚来等自动驾驶厂商，上海电气、深势等仿真场景，墨镜天合、追光等影视特效场景。

今年1月，在沙利文联合头豹研究院发布的《2023年中国云存储解决方案市场报告》中，腾讯云存储入选“领导者”阵营，位列第一。随着AIGC时代来临，腾讯云也在不断迭代优化自身产品，服务最新场景需求，帮助企业把握时代红利。

来源：至顶网CIO与CTO频道

腾讯云

0赞

好文章，需要你的鼓励

腾讯云AIGC存储解决方案全面升级，80%头部大模型厂商采用

来源：至顶网CIO与CTO频道

2024

04/08

14:45

分享

点赞

飞利浦AI战略：通过智能化实现大规模优质医疗服务

Linux内核6.16发布：代码量达3800万行但缺乏重大新特性

高德纳：全球网络安全支出将突破2000亿美元

Writer发布企业级自主AI"超级智能体"

Matrice.ai与Voltage Park合作，加速无代码计算机视觉开发

Photoshop推出强大AI工具助力内容创作者

Qdrant推出轻量级边缘设备向量数据库

LTO-10为何在速度提升和向后兼容性方面表现不佳

周末加班？熬夜回邮件？AI技术帮你重建工作边界

重塑AI未来：TechCrunch Disrupt 2025 AI舞台阵容公布

英超联赛利用AI技术变革球迷体验

为创新而生 应启迪而造 AMD推出全新基于"Zen 5"架构的锐龙Threadripper 9000系列高端台式处理器

EB级的数据洪流下，互联网企业如何突围？

《数字技术助力新质生产力发展报告》重磅发布

腾讯全球数字生态大会召开：全面升级智能化、国际化、融合创新三大产品体系

降价“多米诺” 腾讯云“梭哈”

腾讯云发布TBDS全景数据湖仓，综合性能提升20%

打造大模型时代原生工具链，腾讯云发布三大AI引擎

【快讯】腾讯云发布三大AI大模型引擎，5分钟开发一款企业级知识应用

腾讯云AIGC存储解决方案全面升级，80%头部大模型厂商采用

AI、脑机接口、大数据，腾讯云携手行业领袖共探新一代数字化转型

“AI+低代码”推动高等教育变革：腾讯云携手同济大学共探数字化

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

为创新而生应启迪而造 AMD推出全新基于"Zen 5"架构的锐龙Threadripper 9000系列高端台式处理器