参数量 | Answer

Transformer参数量计算：从Embedding到FFN的完整公式推导

引言：1750亿参数从何而来？当你看到"GPT-3有1750亿参数"、“LLaMA 7B”、“Claude 100K上下文"这样的描述时，你是否想过：这1750亿参数到底是怎么算出来的？它们分别存储在模型的哪些部分？ ...

大模型参数量与计算量：从Transformer架构到FLOPs计算的完整解析

当GPT-3在2020年问世时，其1750亿参数的规模震惊了整个AI界。三年后，LLaMA-70B用更少的参数达到了更好的效果。到了2024年，DeepSeek-V3以6710亿总参数但仅激活370亿参数的MoE架构重新定义了效率边界。这些数字背后隐藏着一套精确的数学逻辑——参数量如何决定计算量，计算量如何影响训练成本，以及如何在有限的算力预算下设计最优模型。 ...