企业越来越依赖大语言模型 (LLM) 来提供先进的服务,但在运行模型时面临着计算成本的挑战。一个新的框架——专家链模型 (CoE),旨在提高 LLM 的资源效率,同时提升其在推理任务上的准确性。
CoE 框架通过按顺序而非并行激活"专家"(模型中分离的、各自专门处理特定任务的元素)来解决早期方法的局限性。这种结构使专家能够传递中间结果并逐步在彼此的工作基础上构建。
在推理密集型应用中,像 CoE 这样的架构可以变得非常有用,因为效率的提升可以带来巨大的成本节约和更好的用户体验。
密集型大语言模型和专家混合模型
传统的大语言模型(也称为密集模型)在推理过程中同时激活所有参数,导致模型规模增大时产生大量计算需求。专家混合模型 (MoE) 是一种用于 DeepSeek-V3 和(据推测)GPT-4 等模型的架构,通过将模型分割成一组专家来应对这一挑战。
在推理过程中,MoE 模型使用路由器为每个输入选择一部分专家。与密集模型相比,MoE 显著降低了运行 LLM 的计算开销。例如,DeepSeek-V3 是一个拥有 6710 亿参数的模型,包含 257 个专家,其中每个输入 token 只使用 9 个专家,在推理过程中总计激活 370 亿个参数。
但 MoE 也有局限性。主要有两个缺点:首先,每个专家独立运作,降低了模型在需要上下文感知和专家协调的任务上的表现;其次,MoE 架构造成高度稀疏性,导致模型具有高内存需求,即使在任何时候只使用一小部分参数。
专家链模型
专家链模型框架通过按顺序而非并行激活专家来解决 MoE 的局限性。这种结构使专家能够传递中间结果并逐步在彼此的工作基础上构建。
CoE 使用迭代过程。输入首先被路由到一组专家,这些专家处理并将答案传递给另一组专家。第二组专家处理中间结果,并可以将其传递给下一组专家。这种顺序方法提供了上下文感知的输入,显著提升了模型处理复杂推理任务的能力。
例如,在数学推理或逻辑推理中,CoE 允许每个专家在前人见解的基础上构建,提高准确性和任务表现。这种方法还通过最小化并行专家部署中常见的冗余计算来优化资源使用,满足企业对成本效益和高性能 AI 解决方案的需求。
CoE 的主要优势
根据一组研究人员测试 CoE 框架的最新分析,使用顺序激活和专家协作的专家链方法带来了几个关键优势。
在 CoE 中,专家选择以迭代方式进行。在每次迭代中,专家由前一阶段的输出决定。这使不同专家能够交流并形成相互依赖关系,创建更动态的路由机制。
研究人员的实验表明,在相同的计算和内存预算下,CoE 的表现优于密集型 LLM 和 MoE。例如,在数学基准测试中,一个具有 64 个专家、4 个路由专家和 2 次推理迭代的 CoE (CoE-2(4/64)) 优于具有 64 个专家和 8 个路由专家的 MoE (MoE(8/64))。
研究人员还发现 CoE 降低了内存需求。例如,具有 48 个路由专家中的 2 个和 2 次迭代的 CoE (CoE-2(4/48)) 达到了与 MoE(8/64) 相似的性能,同时使用更少的专家总数,内存需求减少了 17.6%。
CoE 还允许更高效的模型架构。例如,具有 4 层神经网络的 CoE-2(8/64) 匹配了具有 8 层的 MoE(8/64) 的性能,但内存使用减少了 42%。
"也许最重要的是,CoE 似乎提供了我们称之为'免费午餐'加速,"研究人员写道。"通过重组信息在模型中的流动方式,我们在与之前的 MoE 方法相似的计算开销下实现了更好的结果。"
例证:CoE-2(4/64) 比 MoE(8/64) 提供了 823 个更多的专家组合,使模型能够学习更复杂的任务,而无需增加模型大小或其内存和计算需求。
CoE 的较低运营成本和在复杂任务上的改进性能可以使先进的 AI 更容易被企业使用,帮助它们在不需要大量基础设施投资的情况下保持竞争力。
"这项研究为高效扩展语言模型开辟了新途径,有可能使先进的人工智能能力变得更容易获取和更可持续,"研究人员写道。
好文章,需要你的鼓励
科技泡沫并非世界末日,从经济角度看,泡沫是押注过大导致供过于求。AI泡沫问题复杂在于AI软件开发节奏与数据中心建设周期的时间错配。甲骨文关联数据中心获180亿美元信贷,Meta承诺三年内投入6000亿美元基础设施。麦肯锡调查显示企业虽广泛使用AI但规模有限,多数仍持观望态度。微软CEO表示更担心数据中心空间不足而非芯片短缺,电力需求成为新瓶颈。
香港中文大学研究团队开发的Search-R3系统成功解决了大语言模型推理与搜索分离的问题,通过两阶段训练让AI在深度思考过程中直接生成搜索向量。该系统在多个领域测试中显著超越现有方法,特别是启用推理后性能提升明显,为AI系统设计提供了推理与搜索统一的新范式,展现了从专门化向通用化发展的重要方向。
Goodfire.ai研究人员首次发现AI语言模型中记忆和推理功能通过完全独立的神经通路运作。研究显示,移除记忆通路后,模型丧失97%的训练数据复述能力,但逻辑推理能力几乎完全保留。令人意外的是,算术运算与记忆共享神经通路而非推理通路,这可能解释了AI模型在数学方面的困难。该技术未来有望用于移除版权内容或敏感信息而不损害模型核心功能。
这项由ETH苏黎世等机构发表的突破性研究首次系统性揭示了优化器选择对AI模型量化性能的重大影响。研究团队发现传统的异常值理论完全失效,并开发了革命性的ABC分解框架来准确预测量化后性能。实验证明Shampoo优化器在量化场景下表现最优,该发现为AI模型的实际部署提供了重要指导,有望让AI技术在资源受限设备上发挥更大作用。