AWS re:Invent 2016,亚马逊云服务(AWS)发布了三个人工智能服务后,到现在已经有数以百计的人工智能服务问世,仅过去一年AWS就新增了250多项机器学习功能。AWS全球机器学习副总裁Swami Sivasubramanian也提到,目前已经有超过10万客户在使用AWS的机器学习服务,很多客户已经将机器学习用于其核心业务。
AWS提供的机器学习服务分为三层,第一、基础框架层,支持几乎所有的标准框架,同时虚机提供各种实例,以及现成的亚马逊机器镜像AMI(Amazon Machine Image);第二、机器学习核心服务层,包括Amazon SageMaker Studio等六大主要功能;第三、人工智能服务层,提供通过深度学习开发出的专用服务,像Amazon Rekognition、Amazon Polly、Amazon Transcribe等。
其中2017 年AWS re:Invent发布的Amazon SageMaker可以说是最具战略意义的发布,其将机器学习从面向开发人员的基础能力开放阶段推向面向包括数据科学家等多类角色的端到端快速应用构建阶段。
Amazon SageMaker也在不断地更新迭代,2020年其也正式落地中国,包括了2019年的6大更新。AWS大中华区云服务产品管理总经理顾凡表示,AWS机器学习服务有三个特点,服务的宽度和深度、开放、更好地配合客户。
今年re:Invent 上Amazon SageMaker又发布了九大更新:
一、Data Wranger,数据特征提取器。Amazon SageMaker Data Wrangler可以简化机器学习的数据准备工作。机器学习训练中有一个重要的工作,称为特征工程,就是从不同来源、格式多样的数据提取数据,形成规范化的数据字段(也称为特征),作为机器学习模型的输入,这项工作非常耗时。通过Data Wrangler,客户可以将各种数据存储中的数据一键导入。
二、Feature Store,数据特征存储库。它是用于更新、检索和共享机器学习特征的专用库。通过Data Wrangler把特征设计出来以后,可以保存在Feature Store 中,以供重复使用。
三、Pipelines,自动化工作流。跟传统编程一样,编排和自动化可以提高机器学习的效率。Amazon SageMaker Pipelines是第一个专为机器学习构建的、方便易用的CI/CD(持续集成和持续交付)服务。
四、Clarify,模型偏差检测。帮助开发人员可以方便地检测整个机器学习工作流中的统计偏差,为机器学习模型所做的预测做出解释,识别偏差,清晰描述可能的偏差来源及其严重程度,指导开发人员采取措施减小偏差。
五、Deep Profiling for Amazon SageMaker Debugger,对模型训练进行剖析。能够自动监控系统资源利用率,例如 GPU、CPU、网络吞吐量和内存 I/O,对训练过程中的资源瓶颈进行告警,让开发者及时调度资源,更快地训练模型。
六-七Distributed Training,大型复杂深度学习模型的分布式训练。AWS提供了两种方法,模型训练拆分到几百、几千个CPU上进行。一个是数据并行引擎,对数据集进行拆分。一个是模型并行引擎,自动剖析、识别分割模型的最佳方式,在多个 GPU上高效分割具有几十亿参数的大型复杂模型。
八、Edge Manager,边缘端模型质量监控和管理。帮助开发人员优化、保护、监控和维护部署在边缘设备集群上的机器学习模型。模型部署到边缘设备以后,仍然需要管理和监控模型,确保它们持续以高精度运行。当模型的准确性随着时间的推移而下降时,开发人员可以重新训练模型,不断提高模型的质量。
九、JumpStart,快捷起步工具。客户可以快速找到跟自己类似的机器学习场景相关信息。新手开发人员可以从多个完整的解决方案进行选择,例如欺诈检测、客户流失预测或时序预测,直接部署到自己的Amazon SageMaker Studio环境中。
同时re:Invent今年还发布了五大用于工业的机器学习服务,包括:Amazon Monitron提供包含传感器、网关和机器学习服务的端到端机器监控解决方案,以检测可能需要维护的异常设备状况;Amazon Lookout for Equipment为拥有设备传感器的客户提供了使用AWS机器学习模型来检测异常设备行为并进行预测性维护的能力;AWS Panorama Appliance帮助已在工业设施中装配摄像机的客户使用计算机视觉来改善质量控制和工作场所安;AWS Panorama软件开发套件(SDK)允许工业相机制造商在新相机中嵌入计算机视觉功能;Amazon Lookout for Vision在图像和视频流上使用AWS训练的计算机视觉模型,以发现产品或流程中的异常和缺陷。
其中两款是硬件产品,Amazon Monitron是传感器和网关的组合,帮助获取非智能的设备像震动、温度等指标形成端到端的及其监控。AWS Panorama一体机可以连接到工业场所的网络中,自动识别摄像头数据流,利用计算机视觉改善工业运营和工业场所安全。
通过一个铅笔工厂的例子可以更好的将5个产品串联起来理解,铅笔的生产是低利润高压的过程,生产过程中通过Amazon Lookout for Equipment建立模型来检测设备,提前预警,在没有传感器的设备上可以通过Amazon Monitron来获取数据,铅笔在生产出后需要进行质检,通过Amazon Lookout for Vision检查铅笔芯的位置是不是在正中心,最后通过AWS Panorama Appliance监测整个生产线的状态,甚至整个厂区。
AWS在人工智能上一直有着“授人以鱼,不如授人以渔”的理念,希望帮助客户构建起人工智能的能力,之后通过这些能力可以真正去解决更多的业务难题。
好文章,需要你的鼓励
皮尤研究中心最新分析显示,谷歌搜索结果页面的AI概述功能显著降低了用户对其他网站的点击率。研究发现,没有AI回答的搜索点击率为15%,而有AI概述的搜索点击率降至8%。目前约五分之一的搜索会显示AI概述,问题类搜索中60%会触发AI回答。尽管谷歌声称AI概述不会影响网站流量,但数据表明用户看到AI生成的信息后更容易结束浏览,这可能导致错误信息的传播。
约翰霍普金斯大学研究团队开发了ETTIN模型套件,首次实现了编码器和解码器模型的公平比较。研究发现编码器擅长理解任务,解码器擅长生成任务,跨界训练效果有限。该研究为AI模型选择提供了科学依据,所有资料已开源供学术界使用。
GlobalData研究显示,人工智能驱动的预测性维护正成为电力行业追求高可靠性和成本效益的关键组成部分。该技术结合数据分析、机器学习和实时监控,能够更准确预测设备未来状况,有望降低维护成本30%,提高设备可用性20%。GE Vernova、西门子等公司提供先进解决方案,而数字孪生技术、物联网和边缘计算等新兴技术正进一步提升维护策略的准确性和效率。
博洛尼亚大学团队开发出情感增强的AI系统,通过结合情感分析和文本分类技术,显著提升了新闻文章中主观性表达的识别准确率。该研究覆盖五种语言,在多项国际评测中取得优异成绩,为打击虚假信息和提升媒体素养提供了新工具。