在生成式AI迈入规模化生产和复杂应用的新阶段,AI基础设施的演进速度正逐步决定技术落地的可能性。作为全球领先的云服务提供商,亚马逊云科技日前推出了基于NVIDIA Blackwell架构的两款最新AI计算方案——Amazon EC2 P6e-GB200 UltraServer与Amazon EC2 P6-B200实例。两者分别定位于极致规模的模型训练与通用型AI负载,为构建下一个时代的智能系统提供坚实算力支撑。
P6e-GB200 UltraServer:为万亿参数级推理模型而生
Amazon EC2 P6e-GB200 UltraServer是亚马逊云科技迄今为止最强大的GPU产品,单台可集成72颗NVIDIA Blackwell GPU,并借助第五代NVIDIA NVLink技术实现统一的GPU互联架构。这种设计让所有GPU协同运行于一个统一内存空间中,形成单一逻辑计算单元,在分布式训练场景下大幅降低节点间通信开销,极大提升训练效率。
每台UltraServer拥有高达360 petaflops的FP8算力和13.4 TB的HBM3e高速显存,计算能力是前代P5en实例的20倍以上,显存容量提升超过11倍,足以容纳并运行当前最前沿的万亿参数级模型。这对于专家混合模型、超长上下文窗口的推理系统以及高并发实时应用等场景而言,具备决定性优势。
同时,P6e-GB200 UltraServer配备第四代Elastic Fabric Adapter(EFAv4)网络带宽,吞吐能力达28.8 Tbps,并已全面部署于第三代Amazon EC2 UltraCluster架构中,形成面向超大规模AI训练与推理的单一高效算力平面。该集群架构不仅提升资源利用率,还可减少多达80%的布线需求与40%的能耗。
P6-B200实例:灵活应对中大型AI训练与迁移任务
Amazon EC2 P6-B200则定位为通用型AI计算实例,适用于中至大型模型训练、推理任务及现有工作负载的无缝迁移。其每个实例集成8个NVIDIA Blackwell GPU,通过NVLink互连并配备1.4 TB高带宽显存,同时支持高达3.2 Tbps的EFAv4网络带宽,以及第五代Intel Xeon可扩展处理器。
相比P5en实例,P6-B200在计算性能、显存容量和带宽上分别提升至2.25倍、1.27倍与1.6倍。更重要的是,P6-B200继承了前代8-GPU配置架构,对于已在亚马逊云科技部署AI工作负载的客户而言,几乎无需更改代码,即可平滑迁移至新架构,降低运维与改造成本。
此外,在面对多样化AI算法与运行环境时,P6-B200提供x86架构支持,与客户既有软件栈高度兼容,为延续性和稳定性提供保障。NVIDIA的AI软件栈已针对Arm与x86进行全面优化,而配合Intel平台的P6-B200在多任务调度与传统迁移任务中更具操作便利性。
面向下一代AI的架构革新
从单机架构到集群部署,P6系列不仅体现了硬件性能上的跨代跃升,也代表了亚马逊云科技在AI基础设施系统性能力上的深度集成。Amazon EC2 P6e-GB200 UltraServer采用创新液冷设计,突破了传统气冷架构在高密度部署中的性能限制,可在既有或新建数据中心中以更高能效运行,打造更绿色可持续的AI运行环境。
同时,两款实例均搭载第六代Nitro系统,在保障实例隔离性、安全性基础上,实现支持不中断更新的“实时更新”能力。该系统将网络、存储与IO功能独立于主机之外,使得基础设施可在运行状态下完成补丁更新与性能优化,适配AI训练中的长周期、连续性高要求场景。
无论是高性能推理模型、极端训练任务,还是稳定运维环境与灵活架构迁移,亚马逊云科技正在以P6系列为基础,构建未来AI基础设施的核心支点,引领AI算力进入高效、安全、弹性的新阶段。
好文章,需要你的鼓励
本文探讨了AI发展的未来趋势,详细分析了六条有望实现通用人工智能(AGI)的技术路径。随着生成式AI和大语言模型面临发展瓶颈,业界开始将目光转向其他AI发展方向。这六条路径包括神经符号AI、神经形态AI、具身AI、多智能体AI、以人为中心的AI和量子AI。每种路径都有其独特优势和挑战,可能单独或组合推动AI进入下一个发展阶段,最终实现与人类智能相当的AGI系统。
约翰霍普金斯大学研究团队发现VAR模型的马尔可夫变体本质上是离散扩散模型,提出SRDD方法。通过应用扩散模型技术如分类器自由引导、令牌重采样等,SRDD相比VAR在图像质量上提升15-20%,同时具备更好的零样本性能。这项研究架起了自回归模型与扩散模型的理论桥梁,为视觉生成技术发展开启新方向。
培生公司第三季度销售增长加速,并预示年底表现更强劲,但其AI应用可能是更重要的发展。该公司虚拟学习部门销售额激增17%,学生注册人数攀升。培生运营的在线学校将AI工具嵌入课程材料中,公司表示有越来越多证据显示这些工具帮助学生取得更好成绩。公司推出了AI学习内容组合,包括AI素养模块和融合人工导师与AI学习工具的视频平台。
微软亚洲研究院推出CAD-Tokenizer技术,首次实现AI通过自然语言指令进行3D模型设计和编辑的统一处理。该技术通过专门的CAD分词器和原语级理解机制,让AI能像设计师一样理解设计逻辑,大幅提升了设计精度和效率,有望推动工业设计的民主化进程。