为什么千亿参数的模型只需激活百亿？MoE架构的三十年技术突围

2024年12月，DeepSeek团队发布了一组令人困惑的数字：DeepSeek-V3拥有6710亿参数，但每个token实际只激活370亿参数。这意味着超过94%的参数在任何时刻都处于"休眠"状态。

更反直觉的是，这个"休眠"的设计并非性能妥协。在多项基准测试中，DeepSeek-V3与闭源的顶尖模型打得有来有回，而训练成本仅为278.8万H800 GPU小时——远低于同等规模密集模型的预期成本。

这背后的架构叫做Mixture of Experts（MoE，混合专家），一个看似简单的想法：不是让所有参数都参与每次计算，而是根据输入动态选择哪些参数"上班"。这个概念的种子早在1991年就已埋下，却用了整整三十年才在工程上真正跑通。

条件计算：打破计算量的枷锁

传统神经网络有一个根本性约束：所有参数对所有输入"一视同仁"。无论处理"今天天气不错"还是"证明黎曼猜想"，模型的每一个神经元都会被激活、参与计算。这被称为密集计算（Dense Computation）。

密集计算带来一个直接的后果：模型能力与计算量绑死。想让模型更聪明？加参数。但加参数意味着每次推理都要做更多乘法，更长的延迟，更高的成本。Scaling Laws的美妙公式背后，是一个无情的代价函数。

MoE提出了一个激进的替代方案：条件计算（Conditional Computation）。核心思想是，不同的输入可能需要不同的"技能"。处理数学题时，激活擅长逻辑推理的参数；处理翻译时，激活擅长语言转换的参数。只让相关的能力"参与"，不相关的保持静默。

理论上的收益显而易见：假设一个模型有N个专家，每次只激活k个（$k \ll N$），那么模型的总容量可以扩大N倍，而计算成本只增加k倍。这是对Scaling Laws的一次"作弊"——用参数换能力，但不付计算量的账。

但理论到实践的跨越，远比公式复杂。

1991年：一个超前的想法

MoE的学术血统可以追溯到1991年。那一年，Michael Jordan和Robert Jacobs发表了论文《Hierarchical Mixtures of Experts and the EM Algorithm》，提出了一个分层专家模型的框架。

在他们的设计中，每个"专家"是一个独立的神经网络，专门处理输入空间的某个子区域。一个"门控网络"（Gating Network）负责判断输入属于哪个子区域，并将输入路由到相应的专家。多个专家的输出通过门控权重加权组合，得到最终结果。

从数学角度看，这是一个混合模型（Mixture Model）与神经网络的结合。模型的整体输出可以表示为：

$$y = \sum_{i=1}^{N} g_i(x) \cdot f_i(x)$$

其中$g_i(x)$是门控网络对第$i$个专家的分配权重，$f_i(x)$是第$i$个专家的输出。门控权重满足$\sum_i g_i(x) = 1$，确保这是一个合法的概率分布。

Jordan和Jacobs的工作不仅提出了架构，还推导了完整的训练算法——使用期望最大化（EM）算法交替优化专家参数和门控参数。这在当时是一个理论上的突破，证明了混合专家模型可以被有效训练。

但1991年的计算资源远不足以支撑大规模MoE。这个想法在学术圈沉淀了二十多年，直到深度学习时代才重新浮出水面。

2017年：稀疏门控的工程突破

2017年，Google的Noam Shazeer等人发表了论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》。这篇论文的意义在于，它将MoE从一个理论框架转化为可以在GPU上高效运行的工程实现。

关键创新是稀疏门控（Sparse Gating）。传统MoE要求计算所有专家的输出然后加权平均，计算成本与专家数量成正比。Shazeer等人提出，只选择门控值最高的$k$个专家参与计算，其余专家的权重直接置零：

$$g_i(x) = \begin{cases} \frac{\exp(h_i(x))}{\sum_{j \in \text{Top-k}} \exp(h_j(x))} & \text{if } i \in \text{Top-k} \\ 0 & \text{otherwise} \end{cases}$$

其中$h_i(x)$是门控网络对第$i$个专家的原始分数（logit）。这个简单的改动将计算复杂度从$O(N)$降为$O(k)$，使得模型可以拥有成百上千个专家，而每次推理只激活少数几个。

论文中展示了一个拥有1370亿参数的LSTM模型，但每次只激活其中的一小部分。在语言建模和机器翻译任务上，这个稀疏MoE模型以相似的计算成本显著超越了密集模型。

然而，这篇论文也暴露了一个棘手的问题：负载不均衡。

专家坍塌：当某些专家变成摆设

Shazeer等人在训练过程中观察到一个现象：模型倾向于将所有输入都路由到少数几个"热门"专家，而其他专家几乎不被使用。

这不是模型的"偷懒"，而是优化过程的自然结果。训练初期，专家参数随机初始化，某些专家可能恰好对早期训练样本表现更好。门控网络学会了将更多输入分配给这些专家，这使得它们获得更多训练机会，变得更强，进而吸引更多输入——一个自我强化的正反馈循环。

最终结果是专家坍塌（Expert Collapse）：少数专家承担了大部分工作，多数专家沦为"装饰品"。这违背了MoE的初衷——我们想要的是多个各有所长的专家，而不是一个强专家加一堆陪衬。

论文提出了两种缓解策略：

噪声门控：在门控分数上添加可学习的高斯噪声，增加路由的随机性，鼓励模型探索不同的专家组合。

辅助损失（Auxiliary Loss）：在主损失函数之外，添加一个惩罚项，惩罚专家负载的不均匀分布：

$$L_{\text{aux}} = \alpha \cdot \frac{1}{N} \sum_{i=1}^{N} f_i \cdot P_i$$

其中$f_i$是分配给第$i$个专家的token比例，$P_i$是该专家的平均门控概率。当负载完全均衡时，$f_i = P_i = 1/N$，辅助损失最小。

这两种策略成为后续MoE研究的标配，但也埋下了一个隐患：辅助损失在促进均衡的同时，可能干扰主任务的学习。这是一个需要精细平衡的权衡。

GShard与Switch Transformer：规模化的关键

2020年，Google发表了GShard论文，将MoE应用于神经机器翻译。模型拥有超过6000亿参数，但每个token只激活约10%的参数。这个规模在当时的密集模型中是不可想象的。

GShard的成功证明了MoE在大规模场景下的可行性，但也揭示了新的挑战：分布式训练的通信开销。

当专家数量增加时，无法将所有专家放在单个GPU上。必须将专家分布到多个设备，这意味着跨设备的通信。每次路由决策都需要将token发送到正确的专家所在设备，计算完成后再收集结果。这种"全对全"（All-to-All）通信成为训练效率的主要瓶颈。

2021年，Google发表了Switch Transformer，进一步简化了MoE的设计。关键改变是将$k$从2降为1——每个token只路由到一个专家，称为Switch Routing。

这看起来是一个退步：只使用一个专家，模型的表达能力是否会受限？实验表明，通过增加专家数量，Switch Transformer在保持稀疏性的同时达到了优异的性能。论文展示了在相同计算预算下，Switch Transformer比密集T5模型快4倍达到相同质量。

Switch Transformer还首次将MoE模型扩展到万亿参数规模。这标志着MoE从一个"有趣的架构创新"升级为"规模化的必经之路"。

Mixtral：开源MoE的里程碑

2023年12月，Mistral AI发布了Mixtral 8x7B，一个拥有470亿总参数、但每个token只激活130亿参数的开源MoE模型。

Mixtral的意义在于证明了MoE不仅适用于封闭的超大规模模型，也可以在开源生态中成功部署。模型的架构设计相对简洁：

8个专家，每个专家是一个标准的FFN层
Top-2路由：每个token被路由到2个专家
滑动窗口注意力：窗口大小4096

在多项基准测试中，Mixtral 8x7B超越了参数量更大的Llama 2 70B。更令人印象深刻的是，Mixtral在数学和代码任务上的提升尤为明显——这暗示MoE的专家特化可能在特定领域产生了实际效果。

Mixtral的成功引发了开源社区对MoE的广泛兴趣。随后涌现了DBRX、Qwen-MoE等一系列开源MoE模型，MoE从"闭源大厂的专利"变成了"开源社区的标配"。

DeepSeek-V3：负载均衡的无损革命

2024年12月，DeepSeek发布了V3技术报告，其中最引人注目的创新是无辅助损失的负载均衡策略（Auxiliary-Loss-Free Load Balancing）。

回顾前文，传统MoE使用辅助损失来强制负载均衡。但这种方法有一个根本问题：辅助损失与主任务的目标可能冲突。当模型为了降低辅助损失而将token分配给"不合适"的专家时，主任务的表现会受损。这是一个在均衡与性能之间的艰难权衡。

DeepSeek提出了一个优雅的替代方案：不修改损失函数，而是在路由过程中引入一个动态偏置项（Dynamic Bias）。

具体而言，传统路由分数为：

$$s_i = \text{softmax}(h_i(x))$$

DeepSeek的路由分数为：

$$s_i = \text{softmax}(h_i(x) + b_i)$$

其中$b_i$是一个可学习的偏置项，根据专家$i$的历史负载动态调整。如果某个专家长期过载，它的偏置项会降低，使得更多token被路由到其他专家。

关键是，偏置项只影响路由决策，不参与梯度计算。这意味着主任务的优化不受干扰——模型仍然学习如何最好地利用每个专家，偏置项只是在后台默默调节负载均衡。

实验结果令人印象深刻：无辅助损失策略在保持负载均衡的同时，比传统辅助损失方法获得了更好的主任务性能。这是MoE设计的一次"无痛进化"——解决了问题，没有引入新的权衡。

专家特化之谜：专家到底学到了什么？

MoE的成功引发了一个自然的问题：那些被称为"专家"的网络，真的学会了某种"专业知识"吗？

2024年，斯坦福大学的研究者进行了一项系统的机制可解释性研究。他们训练了一系列小型MoE模型，分析专家的实际行为。

第一个发现：专家确实会特化，但程度有限。研究者通过将学习到的门控网络替换为随机路由，观察性能下降幅度。如果专家完全相同，随机路由不应影响性能；如果专家高度特化，随机路由应导致严重退化。实验结果显示，随机路由导致性能下降约1.5%到3.5%——说明专家存在特化，但并非完全独立。

第二个发现：特化沿着人类可解释的维度发生。在CIFAR-10图像分类任务中，研究者发现不同专家倾向于处理不同类别的图像。在2专家设置下，一个专家主要处理"车辆"类（飞机、汽车、船、卡车），另一个专家主要处理"动物"类（鸟、猫、狗等）。这种分组与人类直觉高度一致。

第三个发现：专家数量增加，单专家特化程度下降。当专家数量从2增加到5时，人类可解释的特化模式变得模糊。研究者解释为：路由决策变得更困难——从2个候选中选最优，比从5个候选中选最优更容易出错。为了应对路由错误，专家被迫学习更通用的特征，减少特化。

这些发现对MoE设计有深刻启示：专家特化是真实存在的，但并非"每个专家一个独立技能"的理想图景。更准确的理解是：专家在"能力光谱"上有所偏重，但存在大量重叠。

MoE vs Dense：性能的真正差异

MoE的支持者常声称"相同计算量下更强"，反对者则反驳"相同激活参数下更弱"。真相在于理解MoE的优势边界。

相同计算量下的对比：当控制FLOPs（浮点运算次数）时，MoE模型确实通常优于密集模型。原因在于MoE可以用相同的计算量访问更大的参数空间，捕获更多的模式和知识。这是MoE的核心价值主张。

相同激活参数下的对比：如果控制每个token激活的参数数量（即"有效模型大小"），MoE的表现通常略逊于等规模的密集模型。这被称为MoE的"效率税"——稀疏激活带来的灵活性是有代价的，路由机制本身引入了额外的开销和不确定性。

推理成本的视角：MoE的推理成本与其激活参数量相关，而非总参数量。这意味着一个1万亿参数、激活1000亿的MoE模型，推理成本可能低于一个5000亿参数的密集模型。这对于部署大型模型具有实际意义。

内存占用的视角：MoE的内存占用与其总参数量相关。虽然推理时只激活部分参数，但所有参数都需要存储在显存中。这使得MoE模型在内存受限的场景下面临挑战。

综合考虑，MoE最适合的场景是：需要大模型能力、但计算资源或推理延迟受限的场景。当计算资源充足且追求极致性能时，密集模型仍有一席之地。

分布式训练的隐藏挑战

MoE的大规模训练面临独特的工程挑战。最核心的是**专家并行（Expert Parallelism）**带来的通信开销。

在密集模型中，数据并行是最常见的策略：每个GPU持有一份完整的模型副本，处理不同的数据批次，只在梯度同步时通信。但在MoE中，专家必须分布到不同GPU上，因为单个GPU的显存无法容纳所有专家。

这带来了一个两阶段的路由过程：

分发阶段：每个GPU持有部分token，根据路由决策将token发送到相应专家所在的GPU
收集阶段：专家计算完成后，将结果发回原始GPU

这两个阶段都需要All-to-All通信——每个GPU都需要与所有其他GPU通信。当GPU数量增加时，通信开销急剧上升，可能成为训练效率的主要瓶颈。

优化策略包括：

通信与计算重叠：在等待专家结果返回时，继续进行其他层的计算，隐藏通信延迟。

专家分组的细粒度切分：将大型专家进一步切分为更小的单元，更均匀地分布到GPU上，减少单个通信的数据量。

本地专家缓存：在推理时，缓存最近使用的专家参数，减少从其他GPU获取数据的频率。

这些优化使得训练万亿参数级别的MoE模型成为可能，但工程复杂度远超传统密集模型。

还在演进的前沿

MoE的故事远未结束。2025年的研究正在探索多个前沿方向：

层级MoE：不同层的专家数量动态变化。浅层使用较少专家（输入表示还不够丰富，路由困难），深层使用较多专家（表示更清晰，路由更容易），与研究发现专家特化随深度增加而增强的规律相呼应。

多模态MoE：将MoE扩展到视觉-语言模型。不同模态（图像、文本）可能激活不同的专家组合，实现模态级别的专家特化。

动态专家：不预先固定专家数量，而是在训练过程中根据需要动态增删专家。这挑战了传统MoE的静态架构假设。

Router-Free MoE：完全移除显式的路由机制，让模型隐式地学习如何分配计算。一些研究探索了基于输入特征自动分组的方法，试图绕过路由决策的离散性问题。

尾声

从1991年的理论雏形，到2024年DeepSeek-V3的671B/37B实践，MoE走过了三十年的漫长道路。它证明了AI领域一个朴素但重要的道理：好的想法需要对的时机。

稀疏激活的概念并不复杂，但要让它在大规模工程中稳定运行，需要解决负载均衡、分布式通信、专家特化等一系列非平凡的问题。每一个"看似简单的创新"背后，都是无数次的试错和优化。

MoE的真正价值，不在于"用更少的计算跑更大的模型"，而在于它重新定义了模型能力的边界。当参数不再与计算量画等号，Scaling Laws的约束被悄然松动。这为AI的持续扩张开辟了一条新的路径——不是单纯地堆算力，而是更聪明地分配算力。

而DeepSeek-V3的无辅助损失策略，则暗示了一个更广泛的主题：好的工程设计往往是"消减"而非"添加"。不是用复杂的损失函数强制均衡，而是找到一种不干扰主目标的机制来调节负载。简单，但有效。

在AI架构的演进中，MoE已经从一个备选方案，成长为大规模模型的标准配置。理解它的原理、权衡和前沿，是理解当前大模型技术发展的必经之路。

参考文献

Jacobs, R. A., et al. (1991). Adaptive Mixtures of Local Experts. Neural Computation, 3(1), 79-87.
Jordan, M. I., & Jacobs, R. A. (1994). Hierarchical Mixtures of Experts and the EM Algorithm. Neural Computation, 6(2), 181-214.
Shazeer, N., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR 2017.
Lepikhin, D., et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. ICLR 2021.
Fedus, W., Zoph, B., & Shazeer, N. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. JMLR.
Jiang, A. Q., et al. (2024). Mixtral of Experts. arXiv:2401.04088.
DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437.
Wang, A., et al. (2024). Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts. arXiv:2408.15664.
Poetzscher, J. (2024). Do Experts Specialize? A Mechanistic Exploration of Mixture of Experts Models. Stanford CS231n.
Fedus, W., et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models. JMLR 23.
Du, N., et al. (2022). GLaM: Efficient Scaling of Language Models with Mixture-of-Experts. ICML 2022.
Lewis, M., et al. (2021). BASE Layers: Simplifying Training of Large, Sparse Models. ICML 2021.
Rajbhandari, S., et al. (2022). DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training. arXiv:2201.05596.
Li, W., et al. (2025). A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications. arXiv:2503.07137.
Artetxe, M., et al. (2022). Efficient Large Scale Language Modeling with Mixtures of Experts. EMNLP 2022.

条件计算：打破计算量的枷锁#

1991年：一个超前的想法#

2017年：稀疏门控的工程突破#

专家坍塌：当某些专家变成摆设#

GShard与Switch Transformer：规模化的关键#

Mixtral：开源MoE的里程碑#

DeepSeek-V3：负载均衡的无损革命#

专家特化之谜：专家到底学到了什么？#

MoE vs Dense：性能的真正差异#

分布式训练的隐藏挑战#

还在演进的前沿#

尾声#

参考文献#

更多精彩内容

MoE的门控路由为何如此难以训练？从负载均衡到专家坍缩的技术困境

位置编码的二十年演进：从Sinusoidal到RoPE，Transformer如何理解「位置」

第一个Token的隐形权力：Attention Sink如何拯救流式大模型

为什么大模型越思考越聪明：从o1到DeepSeek-R1的推理时计算革命

DPO为何能取代RLHF成为大模型对齐的主流方法：从奖励函数重参数化到偏好优化的数学革命