2024年12月,DeepSeek团队发布了一组令人困惑的数字:DeepSeek-V3拥有6710亿参数,但每个token实际只激活370亿参数。这意味着超过94%的参数在任何时刻都处于"休眠"状态。

更反直觉的是,这个"休眠"的设计并非性能妥协。在多项基准测试中,DeepSeek-V3与闭源的顶尖模型打得有来有回,而训练成本仅为278.8万H800 GPU小时——远低于同等规模密集模型的预期成本。

这背后的架构叫做Mixture of Experts(MoE,混合专家),一个看似简单的想法:不是让所有参数都参与每次计算,而是根据输入动态选择哪些参数"上班"。这个概念的种子早在1991年就已埋下,却用了整整三十年才在工程上真正跑通。

条件计算:打破计算量的枷锁

传统神经网络有一个根本性约束:所有参数对所有输入"一视同仁"。无论处理"今天天气不错"还是"证明黎曼猜想",模型的每一个神经元都会被激活、参与计算。这被称为密集计算(Dense Computation)

密集计算带来一个直接的后果:模型能力与计算量绑死。想让模型更聪明?加参数。但加参数意味着每次推理都要做更多乘法,更长的延迟,更高的成本。Scaling Laws的美妙公式背后,是一个无情的代价函数。

MoE提出了一个激进的替代方案:条件计算(Conditional Computation)。核心思想是,不同的输入可能需要不同的"技能"。处理数学题时,激活擅长逻辑推理的参数;处理翻译时,激活擅长语言转换的参数。只让相关的能力"参与",不相关的保持静默。

理论上的收益显而易见:假设一个模型有N个专家,每次只激活k个($k \ll N$),那么模型的总容量可以扩大N倍,而计算成本只增加k倍。这是对Scaling Laws的一次"作弊"——用参数换能力,但不付计算量的账。

但理论到实践的跨越,远比公式复杂。

1991年:一个超前的想法

MoE的学术血统可以追溯到1991年。那一年,Michael Jordan和Robert Jacobs发表了论文《Hierarchical Mixtures of Experts and the EM Algorithm》,提出了一个分层专家模型的框架。

在他们的设计中,每个"专家"是一个独立的神经网络,专门处理输入空间的某个子区域。一个"门控网络"(Gating Network)负责判断输入属于哪个子区域,并将输入路由到相应的专家。多个专家的输出通过门控权重加权组合,得到最终结果。

从数学角度看,这是一个混合模型(Mixture Model)与神经网络的结合。模型的整体输出可以表示为:

$$y = \sum_{i=1}^{N} g_i(x) \cdot f_i(x)$$

其中$g_i(x)$是门控网络对第$i$个专家的分配权重,$f_i(x)$是第$i$个专家的输出。门控权重满足$\sum_i g_i(x) = 1$,确保这是一个合法的概率分布。

Jordan和Jacobs的工作不仅提出了架构,还推导了完整的训练算法——使用期望最大化(EM)算法交替优化专家参数和门控参数。这在当时是一个理论上的突破,证明了混合专家模型可以被有效训练。

但1991年的计算资源远不足以支撑大规模MoE。这个想法在学术圈沉淀了二十多年,直到深度学习时代才重新浮出水面。

2017年:稀疏门控的工程突破

2017年,Google的Noam Shazeer等人发表了论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》。这篇论文的意义在于,它将MoE从一个理论框架转化为可以在GPU上高效运行的工程实现。

关键创新是稀疏门控(Sparse Gating)。传统MoE要求计算所有专家的输出然后加权平均,计算成本与专家数量成正比。Shazeer等人提出,只选择门控值最高的$k$个专家参与计算,其余专家的权重直接置零:

$$g_i(x) = \begin{cases} \frac{\exp(h_i(x))}{\sum_{j \in \text{Top-k}} \exp(h_j(x))} & \text{if } i \in \text{Top-k} \\ 0 & \text{otherwise} \end{cases}$$

其中$h_i(x)$是门控网络对第$i$个专家的原始分数(logit)。这个简单的改动将计算复杂度从$O(N)$降为$O(k)$,使得模型可以拥有成百上千个专家,而每次推理只激活少数几个。

论文中展示了一个拥有1370亿参数的LSTM模型,但每次只激活其中的一小部分。在语言建模和机器翻译任务上,这个稀疏MoE模型以相似的计算成本显著超越了密集模型。

然而,这篇论文也暴露了一个棘手的问题:负载不均衡

专家坍塌:当某些专家变成摆设

Shazeer等人在训练过程中观察到一个现象:模型倾向于将所有输入都路由到少数几个"热门"专家,而其他专家几乎不被使用。

这不是模型的"偷懒",而是优化过程的自然结果。训练初期,专家参数随机初始化,某些专家可能恰好对早期训练样本表现更好。门控网络学会了将更多输入分配给这些专家,这使得它们获得更多训练机会,变得更强,进而吸引更多输入——一个自我强化的正反馈循环。

最终结果是专家坍塌(Expert Collapse):少数专家承担了大部分工作,多数专家沦为"装饰品"。这违背了MoE的初衷——我们想要的是多个各有所长的专家,而不是一个强专家加一堆陪衬。

论文提出了两种缓解策略:

噪声门控:在门控分数上添加可学习的高斯噪声,增加路由的随机性,鼓励模型探索不同的专家组合。

辅助损失(Auxiliary Loss):在主损失函数之外,添加一个惩罚项,惩罚专家负载的不均匀分布:

$$L_{\text{aux}} = \alpha \cdot \frac{1}{N} \sum_{i=1}^{N} f_i \cdot P_i$$

其中$f_i$是分配给第$i$个专家的token比例,$P_i$是该专家的平均门控概率。当负载完全均衡时,$f_i = P_i = 1/N$,辅助损失最小。

这两种策略成为后续MoE研究的标配,但也埋下了一个隐患:辅助损失在促进均衡的同时,可能干扰主任务的学习。这是一个需要精细平衡的权衡。

GShard与Switch Transformer:规模化的关键

2020年,Google发表了GShard论文,将MoE应用于神经机器翻译。模型拥有超过6000亿参数,但每个token只激活约10%的参数。这个规模在当时的密集模型中是不可想象的。

GShard的成功证明了MoE在大规模场景下的可行性,但也揭示了新的挑战:分布式训练的通信开销

当专家数量增加时,无法将所有专家放在单个GPU上。必须将专家分布到多个设备,这意味着跨设备的通信。每次路由决策都需要将token发送到正确的专家所在设备,计算完成后再收集结果。这种"全对全"(All-to-All)通信成为训练效率的主要瓶颈。

2021年,Google发表了Switch Transformer,进一步简化了MoE的设计。关键改变是将$k$从2降为1——每个token只路由到一个专家,称为Switch Routing

这看起来是一个退步:只使用一个专家,模型的表达能力是否会受限?实验表明,通过增加专家数量,Switch Transformer在保持稀疏性的同时达到了优异的性能。论文展示了在相同计算预算下,Switch Transformer比密集T5模型快4倍达到相同质量。

Switch Transformer还首次将MoE模型扩展到万亿参数规模。这标志着MoE从一个"有趣的架构创新"升级为"规模化的必经之路"。

Mixtral:开源MoE的里程碑

2023年12月,Mistral AI发布了Mixtral 8x7B,一个拥有470亿总参数、但每个token只激活130亿参数的开源MoE模型。

Mixtral的意义在于证明了MoE不仅适用于封闭的超大规模模型,也可以在开源生态中成功部署。模型的架构设计相对简洁:

  • 8个专家,每个专家是一个标准的FFN层
  • Top-2路由:每个token被路由到2个专家
  • 滑动窗口注意力:窗口大小4096

在多项基准测试中,Mixtral 8x7B超越了参数量更大的Llama 2 70B。更令人印象深刻的是,Mixtral在数学和代码任务上的提升尤为明显——这暗示MoE的专家特化可能在特定领域产生了实际效果。

Mixtral的成功引发了开源社区对MoE的广泛兴趣。随后涌现了DBRX、Qwen-MoE等一系列开源MoE模型,MoE从"闭源大厂的专利"变成了"开源社区的标配"。

DeepSeek-V3:负载均衡的无损革命

2024年12月,DeepSeek发布了V3技术报告,其中最引人注目的创新是无辅助损失的负载均衡策略(Auxiliary-Loss-Free Load Balancing)

回顾前文,传统MoE使用辅助损失来强制负载均衡。但这种方法有一个根本问题:辅助损失与主任务的目标可能冲突。当模型为了降低辅助损失而将token分配给"不合适"的专家时,主任务的表现会受损。这是一个在均衡与性能之间的艰难权衡。

DeepSeek提出了一个优雅的替代方案:不修改损失函数,而是在路由过程中引入一个动态偏置项(Dynamic Bias)

具体而言,传统路由分数为:

$$s_i = \text{softmax}(h_i(x))$$

DeepSeek的路由分数为:

$$s_i = \text{softmax}(h_i(x) + b_i)$$

其中$b_i$是一个可学习的偏置项,根据专家$i$的历史负载动态调整。如果某个专家长期过载,它的偏置项会降低,使得更多token被路由到其他专家。

关键是,偏置项只影响路由决策,不参与梯度计算。这意味着主任务的优化不受干扰——模型仍然学习如何最好地利用每个专家,偏置项只是在后台默默调节负载均衡。

实验结果令人印象深刻:无辅助损失策略在保持负载均衡的同时,比传统辅助损失方法获得了更好的主任务性能。这是MoE设计的一次"无痛进化"——解决了问题,没有引入新的权衡。

专家特化之谜:专家到底学到了什么?

MoE的成功引发了一个自然的问题:那些被称为"专家"的网络,真的学会了某种"专业知识"吗?

2024年,斯坦福大学的研究者进行了一项系统的机制可解释性研究。他们训练了一系列小型MoE模型,分析专家的实际行为。

第一个发现:专家确实会特化,但程度有限。研究者通过将学习到的门控网络替换为随机路由,观察性能下降幅度。如果专家完全相同,随机路由不应影响性能;如果专家高度特化,随机路由应导致严重退化。实验结果显示,随机路由导致性能下降约1.5%到3.5%——说明专家存在特化,但并非完全独立。

第二个发现:特化沿着人类可解释的维度发生。在CIFAR-10图像分类任务中,研究者发现不同专家倾向于处理不同类别的图像。在2专家设置下,一个专家主要处理"车辆"类(飞机、汽车、船、卡车),另一个专家主要处理"动物"类(鸟、猫、狗等)。这种分组与人类直觉高度一致。

第三个发现:专家数量增加,单专家特化程度下降。当专家数量从2增加到5时,人类可解释的特化模式变得模糊。研究者解释为:路由决策变得更困难——从2个候选中选最优,比从5个候选中选最优更容易出错。为了应对路由错误,专家被迫学习更通用的特征,减少特化。

这些发现对MoE设计有深刻启示:专家特化是真实存在的,但并非"每个专家一个独立技能"的理想图景。更准确的理解是:专家在"能力光谱"上有所偏重,但存在大量重叠。

MoE vs Dense:性能的真正差异

MoE的支持者常声称"相同计算量下更强",反对者则反驳"相同激活参数下更弱"。真相在于理解MoE的优势边界。

相同计算量下的对比:当控制FLOPs(浮点运算次数)时,MoE模型确实通常优于密集模型。原因在于MoE可以用相同的计算量访问更大的参数空间,捕获更多的模式和知识。这是MoE的核心价值主张。

相同激活参数下的对比:如果控制每个token激活的参数数量(即"有效模型大小"),MoE的表现通常略逊于等规模的密集模型。这被称为MoE的"效率税"——稀疏激活带来的灵活性是有代价的,路由机制本身引入了额外的开销和不确定性。

推理成本的视角:MoE的推理成本与其激活参数量相关,而非总参数量。这意味着一个1万亿参数、激活1000亿的MoE模型,推理成本可能低于一个5000亿参数的密集模型。这对于部署大型模型具有实际意义。

内存占用的视角:MoE的内存占用与其总参数量相关。虽然推理时只激活部分参数,但所有参数都需要存储在显存中。这使得MoE模型在内存受限的场景下面临挑战。

综合考虑,MoE最适合的场景是:需要大模型能力、但计算资源或推理延迟受限的场景。当计算资源充足且追求极致性能时,密集模型仍有一席之地。

分布式训练的隐藏挑战

MoE的大规模训练面临独特的工程挑战。最核心的是**专家并行(Expert Parallelism)**带来的通信开销。

在密集模型中,数据并行是最常见的策略:每个GPU持有一份完整的模型副本,处理不同的数据批次,只在梯度同步时通信。但在MoE中,专家必须分布到不同GPU上,因为单个GPU的显存无法容纳所有专家。

这带来了一个两阶段的路由过程:

  1. 分发阶段:每个GPU持有部分token,根据路由决策将token发送到相应专家所在的GPU
  2. 收集阶段:专家计算完成后,将结果发回原始GPU

这两个阶段都需要All-to-All通信——每个GPU都需要与所有其他GPU通信。当GPU数量增加时,通信开销急剧上升,可能成为训练效率的主要瓶颈。

优化策略包括:

通信与计算重叠:在等待专家结果返回时,继续进行其他层的计算,隐藏通信延迟。

专家分组的细粒度切分:将大型专家进一步切分为更小的单元,更均匀地分布到GPU上,减少单个通信的数据量。

本地专家缓存:在推理时,缓存最近使用的专家参数,减少从其他GPU获取数据的频率。

这些优化使得训练万亿参数级别的MoE模型成为可能,但工程复杂度远超传统密集模型。

还在演进的前沿

MoE的故事远未结束。2025年的研究正在探索多个前沿方向:

层级MoE:不同层的专家数量动态变化。浅层使用较少专家(输入表示还不够丰富,路由困难),深层使用较多专家(表示更清晰,路由更容易),与研究发现专家特化随深度增加而增强的规律相呼应。

多模态MoE:将MoE扩展到视觉-语言模型。不同模态(图像、文本)可能激活不同的专家组合,实现模态级别的专家特化。

动态专家:不预先固定专家数量,而是在训练过程中根据需要动态增删专家。这挑战了传统MoE的静态架构假设。

Router-Free MoE:完全移除显式的路由机制,让模型隐式地学习如何分配计算。一些研究探索了基于输入特征自动分组的方法,试图绕过路由决策的离散性问题。

尾声

从1991年的理论雏形,到2024年DeepSeek-V3的671B/37B实践,MoE走过了三十年的漫长道路。它证明了AI领域一个朴素但重要的道理:好的想法需要对的时机。

稀疏激活的概念并不复杂,但要让它在大规模工程中稳定运行,需要解决负载均衡、分布式通信、专家特化等一系列非平凡的问题。每一个"看似简单的创新"背后,都是无数次的试错和优化。

MoE的真正价值,不在于"用更少的计算跑更大的模型",而在于它重新定义了模型能力的边界。当参数不再与计算量画等号,Scaling Laws的约束被悄然松动。这为AI的持续扩张开辟了一条新的路径——不是单纯地堆算力,而是更聪明地分配算力。

而DeepSeek-V3的无辅助损失策略,则暗示了一个更广泛的主题:好的工程设计往往是"消减"而非"添加"。不是用复杂的损失函数强制均衡,而是找到一种不干扰主目标的机制来调节负载。简单,但有效。

在AI架构的演进中,MoE已经从一个备选方案,成长为大规模模型的标准配置。理解它的原理、权衡和前沿,是理解当前大模型技术发展的必经之路。


参考文献

  1. Jacobs, R. A., et al. (1991). Adaptive Mixtures of Local Experts. Neural Computation, 3(1), 79-87.
  2. Jordan, M. I., & Jacobs, R. A. (1994). Hierarchical Mixtures of Experts and the EM Algorithm. Neural Computation, 6(2), 181-214.
  3. Shazeer, N., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR 2017.
  4. Lepikhin, D., et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. ICLR 2021.
  5. Fedus, W., Zoph, B., & Shazeer, N. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. JMLR.
  6. Jiang, A. Q., et al. (2024). Mixtral of Experts. arXiv:2401.04088.
  7. DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437.
  8. Wang, A., et al. (2024). Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts. arXiv:2408.15664.
  9. Poetzscher, J. (2024). Do Experts Specialize? A Mechanistic Exploration of Mixture of Experts Models. Stanford CS231n.
  10. Fedus, W., et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models. JMLR 23.
  11. Du, N., et al. (2022). GLaM: Efficient Scaling of Language Models with Mixture-of-Experts. ICML 2022.
  12. Lewis, M., et al. (2021). BASE Layers: Simplifying Training of Large, Sparse Models. ICML 2021.
  13. Rajbhandari, S., et al. (2022). DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training. arXiv:2201.05596.
  14. Li, W., et al. (2025). A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications. arXiv:2503.07137.
  15. Artetxe, M., et al. (2022). Efficient Large Scale Language Modeling with Mixtures of Experts. EMNLP 2022.