MoE | Answer

不是所有 Token 都值得被同等对待：Mixture-of-Depths 如何重塑 Transformer 的计算范式

传统 Transformer 有一个很少有人质疑的设计假设：序列中的每一个 token，无论其重要性如何，都必须经过完全相同数量的层进行处理。一个简单的"的"字和一个承载核心语义的动词，在计算资源上被一视同仁。这种"计算平均主义"在大模型时代显得尤为奢侈——当参数量飙升至千亿级别，每一个不必要的 FLOP 都在消耗真金白银。 ...

MoE的门控路由为何如此难以训练？从负载均衡到专家坍缩的技术困境

当混合专家模型（Mixture of Experts, MoE）首次在2017年被提出时，研究者的愿景很美好：用一组专门化的"专家"网络替代传统的全连接层，让每个输入只激活一小部分参数，从而在保持计算效率的同时大幅扩展模型容量。然而，当他们真正开始训练这些模型时，却发现了一个令人沮丧的现象——路由器总是倾向于选择相同的几个专家，而让其他专家完全闲置。 ...

为什么千亿参数的模型只需激活百亿？MoE架构的三十年技术突围

2024年12月，DeepSeek团队发布了一组令人困惑的数字：DeepSeek-V3拥有6710亿参数，但每个token实际只激活370亿参数。这意味着超过94%的参数在任何时刻都处于"休眠"状态。 ...