"2025 年将是 AI 代理的元年。"等等——我们不是在 2023 年就说过这句话了吗?当时,我在播客中谈到了 AI 模型的链式连接。人们对 AI 的兴奋度空前高涨,到了 2024 年,许多公司争相尝试生成式 AI,有些甚至使用了链式模型。但这些项目中有许多未能扩大规模。为什么?因为它们只是测试项目,没有集成到系统基础设施中,或者缺乏防护措施和质量控制。这种情况将在 2025 年得到改变,但产品面临的挑战依然存在。要了解 AI 代理在 2025 年能做什么,让我们考虑一个简单的例子:一个自动回复电子邮件的工具。想象一个能自动起草邮件回复的系统。这个例子展示了企业在使用 AI 代理时面临的机遇和挑战。
为什么 GPT 封装器不是企业级 AI
构建邮件回复工具最简单的方法是使用 GPT 封装器。我在 2024 年看到了许多这样的例子。这些基本设置将 AI 连接到一个小型界面。对于我们的用例而言,这意味着获取 ChatGPT API 密钥,编写一些代码来接收邮件作为输入,添加一个提示告诉 AI 该做什么,然后在一个干净的界面上显示响应。
系统提示: 像 Lutz 一样回答。Lutz 总是以"祝好!"结束他的消息。
输入: 嗨 Lutz,邀请你周四共进晚餐。你能来吗?祝好,Tim。
输出: 谢谢,Tim!让我查看一下日程安排,我很快会回复你的。祝好!
即使在这个简单的例子中,当前企业 AI 也面临几个关键挑战:
没有系统集成: 该工具无法查看我的日历来确认我是否有空。
缺乏上下文: 它不知道我是否喜欢 Tim 或避免这类活动。
没有安全保障: 如果邮件询问私人信息,比如我的社会安全号码,该怎么办?
缺乏防护措施: 它如何处理有争议的问题,比如询问政治观点?
缺乏用户控制: 用户在塑造 AI 回复方面有多大的输入权?
幻觉: AI 有时会编造信息,正如 ChatGPT 页面上的警告不断提醒我们的:"ChatGPT 可能会犯错。"
大语言模型在总结或充当界面等任务方面表现出色,但仅凭它们是不够的。正如我在 eCornell 证书课程中强调的,每个挑战都可以得到解决。让我们通过在工作流程中构建 AI 代理来改进我们的工具。
AI 代理的工作流程:不仅仅是生成式 AI
AI 模型可以连接或"链接"以构建工作流程,其中一个模型的输出成为下一个模型的输入。这就像 Zapier 或 IFTTT 这样的工具,但由 AI 驱动。与固定步骤不同,这个过程是动态的,能适应每种情况。这些工作流程并不总是依赖于像 ChatGPT 这样的生成式 AI。实际上,它们经常不依赖——生成式 AI 可能太慢且成本高。
以下是我们的邮件工具可能的工作方式:
输入: 嗨 Lutz,邀请你周四共进晚餐。你能来吗?祝好,Tim。
系统提示: 分析邮件并确定回复所需的步骤。
系统输出: (1) 查看日历,确认用户是否有空。(2) 查找与 Tim 的往来邮件和以往的晚餐邀请。(3) 根据过去的行为预测用户参加的可能性。(4) 创建三份回复草稿:一份接受,一份婉拒,一份询问更多细节。
系统执行: 执行列出的步骤。
输出: 向用户呈现这三个回复选项。
这就是链式 AI 模型的工作方式。它克服了许多早期的问题。但大语言模型只是众多工具中的一个。
所有工具都需要集成和质量检查。例如,我们的设置涉及:
系统集成: 查看日历和提取数据不是 AI,但需要系统连接。
上下文搜索: 使用 AI 检索相关的过往互动(称为 RAG 或检索增强生成)。
传统 AI: 预测参加可能性使用经典的数据分析。
用户设计: 提供多个选项改善了可用性和控制。
简而言之,这是关于产品工作——创造可靠和有价值的解决方案。
2025 年 - 企业级 AI 代理
2025 年将是 AI 代理的一年。AI 将简化、增强或自动化各行各业的工作流程。但不会有一个"杀手级应用"。如果存在这样的应用,它很可能是搜索——请参见我对搜索的预测。相反,我们将看到较小的工作流程应用于客户服务(参见我在 ultimate.ai 的投资)、法律支持(参见 flank.io)或销售(参见我的公司 r2decide.com)等领域。
要构建这些解决方案,工程师和产品经理需要专注于创造价值。在我的课程"设计和构建 AI 解决方案"中,我教授了一个实用框架,用于为媒体、金融、医疗保健、电子商务和其他行业的企业客户创造价值:
1. 定义业务目标。 2. 收集和清理数据。 3. 开发代理工作流程。 4. 与用户测试。 5. 创建反馈循环。
这听起来很简单,但需要考虑许多因素,包括解决偏见和伦理问题等风险。最重要的是,重点必须放在价值创造上。让我们一起构建。
好文章,需要你的鼓励
三星与AI搜索引擎Perplexity合作,将其应用引入智能电视。2025年三星电视用户可立即使用,2024和2023年款设备将通过系统更新获得支持。用户可通过打字或语音提问,Perplexity还为用户提供12个月免费Pro订阅。尽管面临版权争议,这一合作仍引发关注。
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
苹果M5 MacBook Pro评测显示这是一次相对较小的升级。最大变化是M5芯片,CPU性能比M4提升约9%,多核性能比M4 MacBook Air快19%,GPU性能提升37%。功耗可能有所增加但电池续航保持24小时。评测者认为该产品不适合M4用户升级,但对使用older型号用户仍是强有力选择。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。