大模型架构

Layer Normalization的可学习参数：为什么gamma和beta正在从大模型中消失

Layer Normalization的可学习参数：为什么gamma和beta正在从大模型中消失 2016年，Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey Hinton在论文《Layer Normalization》中提出了一个看似简单的设计：在归一化操作后添加两个可学习参数gamma和beta。九年后的今天，LLaMA、Mistral、Gemma等主流大模型都在悄悄移除这些参数——或者至少移除其中一部分。这个趋势背后隐藏着怎样的技术逻辑？ ...

Transformer参数量计算：从Embedding到FFN的完整公式推导

引言：1750亿参数从何而来？当你看到"GPT-3有1750亿参数"、“LLaMA 7B”、“Claude 100K上下文"这样的描述时，你是否想过：这1750亿参数到底是怎么算出来的？它们分别存储在模型的哪些部分？ ...

位置编码的二十年演进：从Sinusoidal到RoPE，Transformer如何理解「位置」

把"我爱北京"四个字打乱顺序，变成"北京我爱"，意思完全变了。但对Transformer的自注意力机制来说，这两个输入几乎没有区别——它会以完全相同的方式计算每个词与其他词的关联度。 ...

为什么千亿参数的模型只需激活百亿？MoE架构的三十年技术突围

2024年12月，DeepSeek团队发布了一组令人困惑的数字：DeepSeek-V3拥有6710亿参数，但每个token实际只激活370亿参数。这意味着超过94%的参数在任何时刻都处于"休眠"状态。 ...