AWS re:Invent 2016,亚马逊云服务(AWS)发布了三个人工智能服务后,到现在已经有数以百计的人工智能服务问世,仅过去一年AWS就新增了250多项机器学习功能。AWS全球机器学习副总裁Swami Sivasubramanian也提到,目前已经有超过10万客户在使用AWS的机器学习服务,很多客户已经将机器学习用于其核心业务。
AWS提供的机器学习服务分为三层,第一、基础框架层,支持几乎所有的标准框架,同时虚机提供各种实例,以及现成的亚马逊机器镜像AMI(Amazon Machine Image);第二、机器学习核心服务层,包括Amazon SageMaker Studio等六大主要功能;第三、人工智能服务层,提供通过深度学习开发出的专用服务,像Amazon Rekognition、Amazon Polly、Amazon Transcribe等。
其中2017 年AWS re:Invent发布的Amazon SageMaker可以说是最具战略意义的发布,其将机器学习从面向开发人员的基础能力开放阶段推向面向包括数据科学家等多类角色的端到端快速应用构建阶段。
Amazon SageMaker也在不断地更新迭代,2020年其也正式落地中国,包括了2019年的6大更新。AWS大中华区云服务产品管理总经理顾凡表示,AWS机器学习服务有三个特点,服务的宽度和深度、开放、更好地配合客户。
今年re:Invent 上Amazon SageMaker又发布了九大更新:
一、Data Wranger,数据特征提取器。Amazon SageMaker Data Wrangler可以简化机器学习的数据准备工作。机器学习训练中有一个重要的工作,称为特征工程,就是从不同来源、格式多样的数据提取数据,形成规范化的数据字段(也称为特征),作为机器学习模型的输入,这项工作非常耗时。通过Data Wrangler,客户可以将各种数据存储中的数据一键导入。
二、Feature Store,数据特征存储库。它是用于更新、检索和共享机器学习特征的专用库。通过Data Wrangler把特征设计出来以后,可以保存在Feature Store 中,以供重复使用。
三、Pipelines,自动化工作流。跟传统编程一样,编排和自动化可以提高机器学习的效率。Amazon SageMaker Pipelines是第一个专为机器学习构建的、方便易用的CI/CD(持续集成和持续交付)服务。
四、Clarify,模型偏差检测。帮助开发人员可以方便地检测整个机器学习工作流中的统计偏差,为机器学习模型所做的预测做出解释,识别偏差,清晰描述可能的偏差来源及其严重程度,指导开发人员采取措施减小偏差。
五、Deep Profiling for Amazon SageMaker Debugger,对模型训练进行剖析。能够自动监控系统资源利用率,例如 GPU、CPU、网络吞吐量和内存 I/O,对训练过程中的资源瓶颈进行告警,让开发者及时调度资源,更快地训练模型。
六-七Distributed Training,大型复杂深度学习模型的分布式训练。AWS提供了两种方法,模型训练拆分到几百、几千个CPU上进行。一个是数据并行引擎,对数据集进行拆分。一个是模型并行引擎,自动剖析、识别分割模型的最佳方式,在多个 GPU上高效分割具有几十亿参数的大型复杂模型。
八、Edge Manager,边缘端模型质量监控和管理。帮助开发人员优化、保护、监控和维护部署在边缘设备集群上的机器学习模型。模型部署到边缘设备以后,仍然需要管理和监控模型,确保它们持续以高精度运行。当模型的准确性随着时间的推移而下降时,开发人员可以重新训练模型,不断提高模型的质量。
九、JumpStart,快捷起步工具。客户可以快速找到跟自己类似的机器学习场景相关信息。新手开发人员可以从多个完整的解决方案进行选择,例如欺诈检测、客户流失预测或时序预测,直接部署到自己的Amazon SageMaker Studio环境中。
同时re:Invent今年还发布了五大用于工业的机器学习服务,包括:Amazon Monitron提供包含传感器、网关和机器学习服务的端到端机器监控解决方案,以检测可能需要维护的异常设备状况;Amazon Lookout for Equipment为拥有设备传感器的客户提供了使用AWS机器学习模型来检测异常设备行为并进行预测性维护的能力;AWS Panorama Appliance帮助已在工业设施中装配摄像机的客户使用计算机视觉来改善质量控制和工作场所安;AWS Panorama软件开发套件(SDK)允许工业相机制造商在新相机中嵌入计算机视觉功能;Amazon Lookout for Vision在图像和视频流上使用AWS训练的计算机视觉模型,以发现产品或流程中的异常和缺陷。
其中两款是硬件产品,Amazon Monitron是传感器和网关的组合,帮助获取非智能的设备像震动、温度等指标形成端到端的及其监控。AWS Panorama一体机可以连接到工业场所的网络中,自动识别摄像头数据流,利用计算机视觉改善工业运营和工业场所安全。


通过一个铅笔工厂的例子可以更好的将5个产品串联起来理解,铅笔的生产是低利润高压的过程,生产过程中通过Amazon Lookout for Equipment建立模型来检测设备,提前预警,在没有传感器的设备上可以通过Amazon Monitron来获取数据,铅笔在生产出后需要进行质检,通过Amazon Lookout for Vision检查铅笔芯的位置是不是在正中心,最后通过AWS Panorama Appliance监测整个生产线的状态,甚至整个厂区。
AWS在人工智能上一直有着“授人以鱼,不如授人以渔”的理念,希望帮助客户构建起人工智能的能力,之后通过这些能力可以真正去解决更多的业务难题。
好文章,需要你的鼓励
研究人员基于Meta前首席AI科学家Yann LeCun提出的联合嵌入预测架构,开发了名为JETS的自监督时间序列基础模型。该模型能够处理不规则的可穿戴设备数据,通过学习预测缺失数据的含义而非数据本身,成功检测多种疾病。在高血压检测中AUROC达86.8%,心房扑动检测达70.5%。研究显示即使只有15%的参与者有标注医疗记录,该模型仍能有效利用85%的未标注数据进行训练,为利用不完整健康数据提供了新思路。
西湖大学等机构联合发布TwinFlow技术,通过创新的"双轨道"设计实现AI图像生成的革命性突破。该技术让原本需要40-100步的图像生成过程缩短到仅需1步,速度提升100倍且质量几乎无损。TwinFlow采用自我对抗机制,无需额外辅助模型,成功应用于200亿参数超大模型,在GenEval等标准测试中表现卓越,为实时AI图像生成应用开辟了广阔前景。
AI云基础设施提供商Coreweave今年经历了起伏。3月份IPO未达预期,10月收购Core Scientific计划因股东反对而搁浅。CEO Michael Intrator为公司表现辩护,称正在创建云计算新商业模式。面对股价波动和高负债质疑,他表示这是颠覆性创新的必然过程。公司从加密货币挖矿转型为AI基础设施提供商,与微软、OpenAI等巨头合作。对于AI行业循环投资批评,Intrator认为这是应对供需剧变的合作方式。
中山大学等机构联合开发的RealGen框架成功解决了AI生成图像的"塑料感"问题。该技术通过"探测器奖励"机制,让AI在躲避图像检测器识别的过程中学会制作更逼真照片。实验显示,RealGen在逼真度评测中大幅领先现有模型,在与真实照片对比中胜率接近50%,为AI图像生成技术带来重要突破。