亚马逊云科技公用计算高级副总裁Peter DeSantis今年形象大变,直接成为精神小伙。
亚马逊云科技公用计算高级副总裁Peter DeSantis
今天re:Invent的发布毫无悬念,主要围绕AWS Trainium3和AWS Graviton5展开,当然还有老朋友Apple(苹果)。
AWS Trainium 3和Amazon EC2 Trn3 UltraServers在第一天就已经发布,Peter DeSantis也做了更多细节披露。
Amazon EC2 Trn3 UltraServers单机配备144块AWS Trainium 3芯片,提供362 PFlops的FP8性能和706 TB/s带宽。相比之下,上一代Amazon EC2 Trn2 UltraServers仅搭载64块Trainium 2芯片,性能为83.2PFlops、6 TB HBM,以及184 TB/s带宽。
展区也展示了1U的Amazon EC2 Trn3 UltraServers计算节点,其中搭载了4块AWS Trainium 3芯片。
同时还做了非常多的微架构优化,每兆瓦生成的Token数量是Amazon EC2 Trn2 UltraServers的五倍。
通用计算同样在加速演进,2018年发布第一款AWS Graviton,如今已经来到AWS Graviton5,其采用192核设计,并将缓存容量提升至前代的5倍,显著缩短核心间的数据传输路径,使通信延迟最高降低33%,带宽同步提升。
同时,AWS Graviton5配备了提升5倍容量的L3缓存,每个核心可访问的L3缓存容量达到 AWS Graviton4的2.6 倍,为高并发与内存密集型负载提供了更强的支撑。
基于AWS Graviton5的新实例Amazon EC2 M9g instances比上一代产品性能提升高达25%。
亚马逊云科技计算与机器学习服务副总裁Dave Brown展示了一些早期用户的使用数据:airbnb最高可提升25%性能;Atlassian相比前代产品,性能提升30%,延迟降低20%;Honeycomb.io相比AWS Graviton4最高可降低25%延迟,每核性能提升36%;SAP单代性能最高提升60%。
去年,Apple强调的是在AI与ML生命周期的许多阶段采用亚马逊云科技服务,从微调模型到优化和构建可供部署的最终适配器,扩展了Apple培训基础设施以满足创新需求。同时,Apple也分享了其从x86和G4实例迁移至Graviton与Inferentia2的实践。
今年苹果云系统与平台副总裁Payam Mirrashidi重点谈的是Graviton的迁移效果,核心服务以Swift重构并全面迁移至Graviton之后,Apple实现了40%的性能提升和30%的成本下降。
目前亚马逊云科技连续第三年,新增CPU容量的一半以上由Graviton提供支持,排名前1000 的EC2客户中有98%已经受益于 Graviton 的性价比优势,包括Adobe、Airbnb、Atlassian、Epic Games、F1、Pinterest、SAP、Siemens、Snowflake和Synopsys。
苹果云系统与平台副总裁Payam Mirrashidi
最后值得一提的是今年推出的AWS Lambda Managed Instances。自2014年问世以来,AWS Lambda一直被视为亚马逊乃至整个科技史上最具颠覆性的服务之一,目前全球每月的调用量已达到约15万亿次。
AWS Lambda Managed Instances允许在Amazon EC2上运行AWS Lambda函数,同时继续保留无服务器架构所带来的运维简化体验。实现在不牺牲熟悉的无服务器开发体验的前提下,获取更丰富的计算选项,并为稳定运行的工作负载优化成本。
亚马逊云科技Bedrock产品经理Atul Deo介绍说,以往在Lambda中,容量与吞吐完全由系统托管,开发者只需写代码,看不到背后的实例形态。如今通过Lambda Managed Instances,客户可以自主选择一系列EC2实例类型,用来承载自己的无服务器函数,实现“保持无服务器体验,同时获得可选算力”的新模式。
这让客户在获得更多底层控制权的同时,保留了Lambda的所有核心好处:运维简单、按事件驱动、无须自己操心打补丁、系统升级、运行时更新等。
同时Atul Deo也观察到,Serverless技术正在各类Agent场景被大量使用。Agent 既需要安全、隔离的运行时环境,也依赖在大量事件驱动的场景中灵活扩缩,这正是Lambda这种 Serverless服务天生的优势。
在生成式AI时代,很多步骤恰好适合用 Lambda 函数来承载。涉及大量的状态管理和事件编排,需要在保证性能和可靠性的前提下,把整个工作流控制在一个成本可控、性价比高的水平上。
在生成式AI的工作流里,许多环节天然适合交由Lambda函数来承载,大量状态管理、事件驱动的编排、对性能与可靠性的持续要求,都需要一种足够弹性、又具备成本效率的底层架构。
随着更多企业把复杂的AI推向生产环境,如何在算力和成本之间找到新的平衡点,将愈发依赖这种“按需即用”的计算范式。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。