作为 CIO,今年你的 IT 团队可能正在从评估和部署独立的第三方 AI 软件包,快速转向在面向客户和内部业务应用中集成定制 AI 代理,以实现更深层次的自动化和生产力提升。
他们可能正在使用至少一个 AI 代理构建平台,也可能使用多个平台。由于所有 AI 工具(包括 AI 代理构建平台)都在持续创新和更新(通常是每日更新),在选择这些工具并确定一个作为首选平台时,需要考虑一些要点。基于此,以下是一些超越基本功能和定价的细节考量,这些都可能成为成功的关键因素。
评估代理构建环境 从代理构建环境本身开始,代理供应商通常在边学边创新。他们通常精通大语言模型提供商和模型,了解不同模型的优缺点。但在 UI 设计和以客户为中心的构建环境方面可能经验较少。他们的整个开发环境可能经常变化,因此你可能需要同时创建代理并迁移到新版本的开发环境。
确保他们的环境直观易用,便于测试代理,并为代理提供增强选项,如短期和长期记忆。此外,还应具备负责任的 AI 特性(反思、基于事实和上下文相关性)和安全 AI 特性(公平性和偏见、毒性检查、人在回路和 PII 数据编辑)。你还需要能够一目了然地查看订阅中使用的积分,以及像使用 AI 改进代理角色和指令等增值功能。
详尽的 API 文档 在 AI 代理构建平台中构建代理后,下一步是使用 API 调用在自己的应用程序中实现这些代理。寻找详尽的 API 级别文档,以及解释动态配置代理等序列的高级信息。清晰的文档可以帮助你的 IT 团队快速上手,学习从环境设置、RAG 创建和训练、代理创建到代理交互和查询的必要步骤。
他们还需要清晰的文档来说明如何监控和报告 Token 使用情况,以及如何监控和显示历史查询、AI 代理和安全性能,以及与其他系统的集成。拥有这些信息通常可以将开发和测试时间减半,因为 IT 团队和代理提供商之间解决问题的来回沟通会大大减少。
获取专业服务和支持 由于持续创新导致代理构建环境的变化,供应商提供专业服务和支持很重要,这样他们可以在实施过程中协助你的团队,帮助建立对其技术的信心和信任。
寻找在支持方面慷慨且愿意与你的团队合作的供应商,帮助你的代理达到最终目标。如果能接触到领导团队就更好了,他们可以就如何最好地利用他们的平台提供战略建议,并利用各种项目(如 AWS 合作伙伴关系和他们自己的联盟计划)。
确保系统正常运行时间 AI 代理基础设施的系统正常运行时间通常可以通过 API 调用进行监控,这对成功部署至关重要。由于许多 AI 代理构建平台都是初创公司,当他们迁移到新版本平台或对 API、代理、RAG 和工具环境进行其他更改时,环境可能偶尔会遇到停机。
寻找内置的监控方式,如通过 API 调用或轻松联系公司人员进行故障排除。在 AI 代理性能监控方面,你需要关注响应时间、准确性和代理可用性。在错误率方面,检查代理遇到的错误频率和类型,如不正确的响应、幻觉和检索信息错误。在某些情况下,代理可能会丢失上下文,因此关注短期和长期记忆等设置很重要,并确切了解代理在上下文记忆中保留了多少推理。
探索产品路线图 在解决了构建和部署生产级代理的上述考虑因素后,你还需要探索供应商的产品路线图。例如,如果他们的代理提供文本输出,他们是否计划转向包含音频、图像和视频的多模态输出?这是否是你自己部署中可能需要的?
对第三方工具和集成的支持也将至关重要。例如,如果供应商代理提供与 X 的社交媒体帖子集成,他们是否计划支持 LinkedIn?在推出新功能时,他们是否有现成的示例?
好消息是,AI 代理构建平台每天都在变得更好,拥有更直观的界面、更丰富的文档、更多的集成和更多的用例。创新的步伐惊人,创始人通常在黎明前就开始工作以保持进度。如果你与一个强大的 AI 代理构建平台合作,你可以让 IT 团队减少关注 AI 底层架构,更多地关注业务规则、用户界面和集成,这将使你的代理实施成功。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。