专家链模型 (CoE)：一个提高效率和准确性的低成本大语言模型框架

专家链（CoE）是一种新型大语言模型框架，通过顺序激活专门化的模型元素来提高资源效率和推理任务准确性。与传统方法相比，CoE允许专家元素相互传递中间结果，逐步建立推理链，从而在推理密集型应用中实现更高效的计算和更好的用户体验，同时大幅降低企业运行大型语言模型的成本。

企业越来越依赖大语言模型 (LLM) 来提供先进的服务，但在运行模型时面临着计算成本的挑战。一个新的框架——专家链模型 (CoE)，旨在提高 LLM 的资源效率，同时提升其在推理任务上的准确性。

CoE 框架通过按顺序而非并行激活"专家"（模型中分离的、各自专门处理特定任务的元素）来解决早期方法的局限性。这种结构使专家能够传递中间结果并逐步在彼此的工作基础上构建。

在推理密集型应用中，像 CoE 这样的架构可以变得非常有用，因为效率的提升可以带来巨大的成本节约和更好的用户体验。

密集型大语言模型和专家混合模型

传统的大语言模型（也称为密集模型）在推理过程中同时激活所有参数，导致模型规模增大时产生大量计算需求。专家混合模型 (MoE) 是一种用于 DeepSeek-V3 和（据推测）GPT-4 等模型的架构，通过将模型分割成一组专家来应对这一挑战。

在推理过程中，MoE 模型使用路由器为每个输入选择一部分专家。与密集模型相比，MoE 显著降低了运行 LLM 的计算开销。例如，DeepSeek-V3 是一个拥有 6710 亿参数的模型，包含 257 个专家，其中每个输入 token 只使用 9 个专家，在推理过程中总计激活 370 亿个参数。

但 MoE 也有局限性。主要有两个缺点：首先，每个专家独立运作，降低了模型在需要上下文感知和专家协调的任务上的表现；其次，MoE 架构造成高度稀疏性，导致模型具有高内存需求，即使在任何时候只使用一小部分参数。

专家链模型

专家链模型框架通过按顺序而非并行激活专家来解决 MoE 的局限性。这种结构使专家能够传递中间结果并逐步在彼此的工作基础上构建。

CoE 使用迭代过程。输入首先被路由到一组专家，这些专家处理并将答案传递给另一组专家。第二组专家处理中间结果，并可以将其传递给下一组专家。这种顺序方法提供了上下文感知的输入，显著提升了模型处理复杂推理任务的能力。

例如，在数学推理或逻辑推理中，CoE 允许每个专家在前人见解的基础上构建，提高准确性和任务表现。这种方法还通过最小化并行专家部署中常见的冗余计算来优化资源使用，满足企业对成本效益和高性能 AI 解决方案的需求。

CoE 的主要优势

根据一组研究人员测试 CoE 框架的最新分析，使用顺序激活和专家协作的专家链方法带来了几个关键优势。

在 CoE 中，专家选择以迭代方式进行。在每次迭代中，专家由前一阶段的输出决定。这使不同专家能够交流并形成相互依赖关系，创建更动态的路由机制。

研究人员的实验表明，在相同的计算和内存预算下，CoE 的表现优于密集型 LLM 和 MoE。例如，在数学基准测试中，一个具有 64 个专家、4 个路由专家和 2 次推理迭代的 CoE (CoE-2(4/64)) 优于具有 64 个专家和 8 个路由专家的 MoE (MoE(8/64))。

研究人员还发现 CoE 降低了内存需求。例如，具有 48 个路由专家中的 2 个和 2 次迭代的 CoE (CoE-2(4/48)) 达到了与 MoE(8/64) 相似的性能，同时使用更少的专家总数，内存需求减少了 17.6%。

CoE 还允许更高效的模型架构。例如，具有 4 层神经网络的 CoE-2(8/64) 匹配了具有 8 层的 MoE(8/64) 的性能，但内存使用减少了 42%。

"也许最重要的是，CoE 似乎提供了我们称之为'免费午餐'加速，"研究人员写道。"通过重组信息在模型中的流动方式，我们在与之前的 MoE 方法相似的计算开销下实现了更好的结果。"

例证：CoE-2(4/64) 比 MoE(8/64) 提供了 823 个更多的专家组合，使模型能够学习更复杂的任务，而无需增加模型大小或其内存和计算需求。

CoE 的较低运营成本和在复杂任务上的改进性能可以使先进的 AI 更容易被企业使用，帮助它们在不需要大量基础设施投资的情况下保持竞争力。

"这项研究为高效扩展语言模型开辟了新途径，有可能使先进的人工智能能力变得更容易获取和更可持续，"研究人员写道。

来源：VentureBeat

0赞

好文章，需要你的鼓励

专家链模型 (CoE)：一个提高效率和准确性的低成本大语言模型框架

来源：VentureBeat

2025

03/12

14:58

分享

点赞

“4个9”韧性的背后，西云数据以技术与运营加速企业数字化创新

Google力推手机AI功能引发关注

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

精灵宝可梦 GO 迎来新东家，而 Niantic 正借助 AI 和 AR 重塑地图业务

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

Google 推出两款全新 AI 机器人控制模型

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: