至顶网CIO与CTO频道 05月20日 北京消息(文/王聪彬):2017 年AWS re:Invent上发布了三款AI服务,其中一款就是Amazon SageMaker,这也是当年最有具有战略意义的产品发布,其将机器学习从面向开发人员的基础能力开放阶段推向面向包括数据科学家等多类角色的端到端快速应用构建阶段。
到了2019年AWS re:Invent,Amazon SageMaker又迎来6个更新,包括:Amazon SageMaker Studio面向机器学习的集成开发环境(IDE)、Amazon SageMaker Notebooks弹性笔记本、Amazon SageMaker Experiments实验管理、Amazon SageMaker Debugger调试与分析、Amazon SageMaker Model Monitor自动构建模型、Amazon SageMaker Autopilot概念漂移检测。
Amazon SageMaker全家桶的推出,进一步降低了企业在机器学习使用上的门槛,这也让工程师就可以做更多的事情,而不需要太多领域专家或者科学家的介入。
2020年,Amazon SageMaker终于正式落地中国,同时也包括了2019年的6大更新,中国企业将能够更轻松地构建、训练、调优和部署机器学习模型。
应用机器学习可以开启想象力
机器学习实际上已经存在了几十年或者也可以认为存在了几个世纪。机器学习的三个关键元素包括数据、算力、算法,而云计算为机器学习起到了关键的作用,因为云计算可以方便的提供大数据的存储、计算能力,又可以方便的分享算法。
从电商时代开始,亚马逊就非常关注机器学习。产品推荐、产品搜索、物流配送、送货机器人、智能助理Amazon Echo、无人值守商店Amazon Go等,都有机器学习的身影。
Amazon SageMaker是一项完全托管的服务,可以帮助开发者和数据科学家快速地规模化构建、训练和部署机器学习 (ML) 模型。AWS首席云计算企业战略顾问张侠博士表示,云计算和机器学习一体化后,AWS可以提供最广泛、最深入的解决方案。
AWS提供的机器学习服务分为三层,第一、基础框架层,支持几乎所有的标准框架,同时虚机提供各种实例,以及现成的亚马逊机器镜像AMI(Amazon Machine Image);第二、机器学习核心服务层,包括Amazon SageMaker Studio等六大主要功能;第三、人工智能服务层,提供通过深度学习开发出的专用服务,像Amazon Rekognition、Amazon Polly、Amazon Transcribe等。
可以说AWS提供了全栈机器学习服务,利用这些工具企业可以找到人工智能、机器学习所带来的创新点、突破点,并且能够自己全方位的把握机器学习的工具、手段、方法,为自己所用。
而且Amazon SageMaker可以应用在不同的行业和场景中,几乎想象力就是边界,很多场景都会随着时间向前推进。而在中国,像人脸识别的发展非常快,类似汽车牌照识别的应用能够快速的落地应用。
突破机器学习的0到1
在中国使用Amazon SageMaker获得改变的公司也不在少数。深圳大宇无限科技有限公司是2016 年初从豌豆荚分拆成立的一家移动应用程序开发公司,目前主力产品SnapTube月活用户突破1亿,日活几千万规模;Zapee聚焦于满足用户短视频,2019年11月突破了百万日活。
在SnapTube和Zapee中实现视频内容在线推荐,对开发团队带来了巨大的挑战,构建机器学习系统的整个流程极为复杂,需要大量的开发人员耗费很长的时间才能完成。
大宇无限机器学习技术总监苏映滨在选择机器学习上主要看重性能、成本、算法、丰富度、便捷性、服务等方面,同时也希望在平台之外还能提供一些人工智能的支持。
通过使用Amazon SageMaker大宇无限实现了机器学习从0到1的突破。Amazon SageMaker的内置算法只需要准备数据,仅用三个月的时间就完成了整个系统的建设,同时与自主构建模型相比,通过训练阶段使用ECS的Spot Instance(竞价实例)能够节省70%的费用。
Amazon SageMaker还提供了非常多的机器学习框架,可以供大宇无限挑选、调试、训练。苏映滨表示,在实际业务中有很多不同的场景需要不同的模型,这就要求不仅要切换不同的算法,还要在不同的框架上进行尝试,如果自行搭建需要大量的时间和技术团队参与,Amazon SageMaker则为我们节省了时间和精力,并且提供了服务的稳定性。
未来大宇无限还将持续通过Amazon SageMaker满足更多内容推荐发展需求,包括:文本分类、图像识别、视频理解、推荐排序等。
作为AWS的合作伙伴伊克罗德也在基于Amazon SageMaker为客户量身打造AI解决方案,同时构建了技术模组,包含推荐系统、文本分析、自动化标签、语义理解、预测分类等。伊克罗德产品经理陈昶佑也相信未来结合Amazon SageMaker解决方案,能够将机器学习赋能给更多的中国客户。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。