AWS re:Invent 2016,亚马逊云服务(AWS)发布了三个人工智能服务后,到现在已经有数以百计的人工智能服务问世,仅过去一年AWS就新增了250多项机器学习功能。AWS全球机器学习副总裁Swami Sivasubramanian也提到,目前已经有超过10万客户在使用AWS的机器学习服务,很多客户已经将机器学习用于其核心业务。
AWS提供的机器学习服务分为三层,第一、基础框架层,支持几乎所有的标准框架,同时虚机提供各种实例,以及现成的亚马逊机器镜像AMI(Amazon Machine Image);第二、机器学习核心服务层,包括Amazon SageMaker Studio等六大主要功能;第三、人工智能服务层,提供通过深度学习开发出的专用服务,像Amazon Rekognition、Amazon Polly、Amazon Transcribe等。
其中2017 年AWS re:Invent发布的Amazon SageMaker可以说是最具战略意义的发布,其将机器学习从面向开发人员的基础能力开放阶段推向面向包括数据科学家等多类角色的端到端快速应用构建阶段。
Amazon SageMaker也在不断地更新迭代,2020年其也正式落地中国,包括了2019年的6大更新。AWS大中华区云服务产品管理总经理顾凡表示,AWS机器学习服务有三个特点,服务的宽度和深度、开放、更好地配合客户。
今年re:Invent 上Amazon SageMaker又发布了九大更新:
一、Data Wranger,数据特征提取器。Amazon SageMaker Data Wrangler可以简化机器学习的数据准备工作。机器学习训练中有一个重要的工作,称为特征工程,就是从不同来源、格式多样的数据提取数据,形成规范化的数据字段(也称为特征),作为机器学习模型的输入,这项工作非常耗时。通过Data Wrangler,客户可以将各种数据存储中的数据一键导入。
二、Feature Store,数据特征存储库。它是用于更新、检索和共享机器学习特征的专用库。通过Data Wrangler把特征设计出来以后,可以保存在Feature Store 中,以供重复使用。
三、Pipelines,自动化工作流。跟传统编程一样,编排和自动化可以提高机器学习的效率。Amazon SageMaker Pipelines是第一个专为机器学习构建的、方便易用的CI/CD(持续集成和持续交付)服务。
四、Clarify,模型偏差检测。帮助开发人员可以方便地检测整个机器学习工作流中的统计偏差,为机器学习模型所做的预测做出解释,识别偏差,清晰描述可能的偏差来源及其严重程度,指导开发人员采取措施减小偏差。
五、Deep Profiling for Amazon SageMaker Debugger,对模型训练进行剖析。能够自动监控系统资源利用率,例如 GPU、CPU、网络吞吐量和内存 I/O,对训练过程中的资源瓶颈进行告警,让开发者及时调度资源,更快地训练模型。
六-七Distributed Training,大型复杂深度学习模型的分布式训练。AWS提供了两种方法,模型训练拆分到几百、几千个CPU上进行。一个是数据并行引擎,对数据集进行拆分。一个是模型并行引擎,自动剖析、识别分割模型的最佳方式,在多个 GPU上高效分割具有几十亿参数的大型复杂模型。
八、Edge Manager,边缘端模型质量监控和管理。帮助开发人员优化、保护、监控和维护部署在边缘设备集群上的机器学习模型。模型部署到边缘设备以后,仍然需要管理和监控模型,确保它们持续以高精度运行。当模型的准确性随着时间的推移而下降时,开发人员可以重新训练模型,不断提高模型的质量。
九、JumpStart,快捷起步工具。客户可以快速找到跟自己类似的机器学习场景相关信息。新手开发人员可以从多个完整的解决方案进行选择,例如欺诈检测、客户流失预测或时序预测,直接部署到自己的Amazon SageMaker Studio环境中。
同时re:Invent今年还发布了五大用于工业的机器学习服务,包括:Amazon Monitron提供包含传感器、网关和机器学习服务的端到端机器监控解决方案,以检测可能需要维护的异常设备状况;Amazon Lookout for Equipment为拥有设备传感器的客户提供了使用AWS机器学习模型来检测异常设备行为并进行预测性维护的能力;AWS Panorama Appliance帮助已在工业设施中装配摄像机的客户使用计算机视觉来改善质量控制和工作场所安;AWS Panorama软件开发套件(SDK)允许工业相机制造商在新相机中嵌入计算机视觉功能;Amazon Lookout for Vision在图像和视频流上使用AWS训练的计算机视觉模型,以发现产品或流程中的异常和缺陷。
其中两款是硬件产品,Amazon Monitron是传感器和网关的组合,帮助获取非智能的设备像震动、温度等指标形成端到端的及其监控。AWS Panorama一体机可以连接到工业场所的网络中,自动识别摄像头数据流,利用计算机视觉改善工业运营和工业场所安全。


通过一个铅笔工厂的例子可以更好的将5个产品串联起来理解,铅笔的生产是低利润高压的过程,生产过程中通过Amazon Lookout for Equipment建立模型来检测设备,提前预警,在没有传感器的设备上可以通过Amazon Monitron来获取数据,铅笔在生产出后需要进行质检,通过Amazon Lookout for Vision检查铅笔芯的位置是不是在正中心,最后通过AWS Panorama Appliance监测整个生产线的状态,甚至整个厂区。
AWS在人工智能上一直有着“授人以鱼,不如授人以渔”的理念,希望帮助客户构建起人工智能的能力,之后通过这些能力可以真正去解决更多的业务难题。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。