为什么千亿参数的模型只需激活百亿?MoE架构的三十年技术突围

2024年12月,DeepSeek团队发布了一组令人困惑的数字:DeepSeek-V3拥有6710亿参数,但每个token实际只激活370亿参数。这意味着超过94%的参数在任何时刻都处于"休眠"状态。 ...

14 min · 6754 words