亚马逊云科技公用计算高级副总裁Peter DeSantis今年形象大变,直接成为精神小伙。
亚马逊云科技公用计算高级副总裁Peter DeSantis
今天re:Invent的发布毫无悬念,主要围绕AWS Trainium3和AWS Graviton5展开,当然还有老朋友Apple(苹果)。
AWS Trainium 3和Amazon EC2 Trn3 UltraServers在第一天就已经发布,Peter DeSantis也做了更多细节披露。
Amazon EC2 Trn3 UltraServers单机配备144块AWS Trainium 3芯片,提供362 PFlops的FP8性能和706 TB/s带宽。相比之下,上一代Amazon EC2 Trn2 UltraServers仅搭载64块Trainium 2芯片,性能为83.2PFlops、6 TB HBM,以及184 TB/s带宽。
展区也展示了1U的Amazon EC2 Trn3 UltraServers计算节点,其中搭载了4块AWS Trainium 3芯片。
同时还做了非常多的微架构优化,每兆瓦生成的Token数量是Amazon EC2 Trn2 UltraServers的五倍。
通用计算同样在加速演进,2018年发布第一款AWS Graviton,如今已经来到AWS Graviton5,其采用192核设计,并将缓存容量提升至前代的5倍,显著缩短核心间的数据传输路径,使通信延迟最高降低33%,带宽同步提升。
同时,AWS Graviton5配备了提升5倍容量的L3缓存,每个核心可访问的L3缓存容量达到 AWS Graviton4的2.6 倍,为高并发与内存密集型负载提供了更强的支撑。
基于AWS Graviton5的新实例Amazon EC2 M9g instances比上一代产品性能提升高达25%。
亚马逊云科技计算与机器学习服务副总裁Dave Brown展示了一些早期用户的使用数据:airbnb最高可提升25%性能;Atlassian相比前代产品,性能提升30%,延迟降低20%;Honeycomb.io相比AWS Graviton4最高可降低25%延迟,每核性能提升36%;SAP单代性能最高提升60%。
去年,Apple强调的是在AI与ML生命周期的许多阶段采用亚马逊云科技服务,从微调模型到优化和构建可供部署的最终适配器,扩展了Apple培训基础设施以满足创新需求。同时,Apple也分享了其从x86和G4实例迁移至Graviton与Inferentia2的实践。
今年苹果云系统与平台副总裁Payam Mirrashidi重点谈的是Graviton的迁移效果,核心服务以Swift重构并全面迁移至Graviton之后,Apple实现了40%的性能提升和30%的成本下降。
目前亚马逊云科技连续第三年,新增CPU容量的一半以上由Graviton提供支持,排名前1000 的EC2客户中有98%已经受益于 Graviton 的性价比优势,包括Adobe、Airbnb、Atlassian、Epic Games、F1、Pinterest、SAP、Siemens、Snowflake和Synopsys。
苹果云系统与平台副总裁Payam Mirrashidi
最后值得一提的是今年推出的AWS Lambda Managed Instances。自2014年问世以来,AWS Lambda一直被视为亚马逊乃至整个科技史上最具颠覆性的服务之一,目前全球每月的调用量已达到约15万亿次。
AWS Lambda Managed Instances允许在Amazon EC2上运行AWS Lambda函数,同时继续保留无服务器架构所带来的运维简化体验。实现在不牺牲熟悉的无服务器开发体验的前提下,获取更丰富的计算选项,并为稳定运行的工作负载优化成本。
亚马逊云科技Bedrock产品经理Atul Deo介绍说,以往在Lambda中,容量与吞吐完全由系统托管,开发者只需写代码,看不到背后的实例形态。如今通过Lambda Managed Instances,客户可以自主选择一系列EC2实例类型,用来承载自己的无服务器函数,实现“保持无服务器体验,同时获得可选算力”的新模式。
这让客户在获得更多底层控制权的同时,保留了Lambda的所有核心好处:运维简单、按事件驱动、无须自己操心打补丁、系统升级、运行时更新等。
同时Atul Deo也观察到,Serverless技术正在各类Agent场景被大量使用。Agent 既需要安全、隔离的运行时环境,也依赖在大量事件驱动的场景中灵活扩缩,这正是Lambda这种 Serverless服务天生的优势。
在生成式AI时代,很多步骤恰好适合用 Lambda 函数来承载。涉及大量的状态管理和事件编排,需要在保证性能和可靠性的前提下,把整个工作流控制在一个成本可控、性价比高的水平上。
在生成式AI的工作流里,许多环节天然适合交由Lambda函数来承载,大量状态管理、事件驱动的编排、对性能与可靠性的持续要求,都需要一种足够弹性、又具备成本效率的底层架构。
随着更多企业把复杂的AI推向生产环境,如何在算力和成本之间找到新的平衡点,将愈发依赖这种“按需即用”的计算范式。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。