ChatGPT之所以搅动了世界,是因为他做的是在一个非常简单的应用程序中展示了生成式AI的能力。亚马逊云科技生成式AI全球副总裁Vasi Philomin说,人类喜欢对话,ChatGPT做的也是对话,所以每个人都看到了生成式AI的潜力。
亚马逊云科技要做的并不止于此。“我们要做的是如何将生成式AI应用于现实世界解决问题。”
亚马逊云科技希望让所有公司都能成为人工智能公司,因为只要拥有生成式AI的所有工具,他们就能将其应用到自己的业务中。Vasi提到,亚马逊云科技擅长的是将机器学习大规模应用于现实世界解决问题。
比如90年代在亚马逊上买这类书的人通过推荐也会买另一类书,这就是一种大规模应用的机器学习,再比如有一亿家庭在使用的Alexa,每周会产生10亿次互动,这也是大规模的机器学习。
像这样的例子还有很多,Vasi认为,亚马逊云科技目前要帮助客户做的是,如何将生成式AI实际地使用起来。
在亚马逊云科技纽约峰会上,Amazon Bedrock除了新增Cohere模型和升级Claude 2和Stable Diffusion XL 1.0正式可用外,Amazon Bedrock代理功能(AI Agents)也成为发布亮点,其可以帮助企业加速交付生成式AI应用程序,而且是自动和托管的。
Amazon Bedrock代理功能可以扩展基础模型以理解用户请求,将复杂任务分解为多个步骤,开展对话以收集更多信息,并采取行动来满足用户请求。
“如果你提问2023年奥斯卡奖得主是谁,生成式AI可能会说我只熟悉12月底之前发生的事。”Vasi说,这是今天的所有发布中最兴奋的一个功能,因为基础模型无法与外部系统交互,这也就意味着其没有最新知识来源。
Agents在不需要提供更多信息的情况下,可以使用自己的数据,以及外部数据构建一个最新的应用程序,不需要做任何培训。比如保险机构可以开发生成式AI应用程序,以帮助员工自动处理保险索赔或管理待处理文书。
Agents另外一个作用是帮你执行任务,通过对公司系统进行API调用来管理和执行任务。比如有三个API,一个是鞋子的库存,一个是可选的颜色,一个是鞋号,一个顾客就可以向Agents表达,我想把棕色的鞋退掉,换成黑色,这一切Agents都可以自动化的调用来实现。
“构建一个可以和人聊天的消费者应用和构建一个真实世界的企业级应用是完全不同的。”Vasi说,通过Agents可以自动化的实现,这也就像一场革命的开始。
一家成立已超过165年的保险公司Travelers,业务涵盖个人保险、商业保险和专业保险,也是道琼斯工业平均指数中唯一一家财产和意外伤害保险公司。通过从亚马逊云科技和第三方直接访问基础模型,Amazon Bedrock助力其实现快速简便的实验、开发和部署。
现在业界虽然很多人都在关注模型的参数,但亚马逊云科技更专注的还是帮助客户构建应用程序的难易程度,积极推动生成式AI的发展和应用,通过提供强大的工具和服务,使得更多的公司能够利用AI技术提升业务效率和创新能力。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。