Scaling Laws

隐藏层维度：为什么这个数字决定了大模型的能力边界

打开任何一个大模型的配置文件，你总能看到一些神秘的数字：BERT的768，GPT-2的1024，LLaMA-7B的4096，GPT-3的12288。这些数字从何而来？为什么不是769或4095？为什么LLaMA选择4096而GPT-3选择12288？更关键的是，这个被称为"隐藏层维度"或"隐藏尺寸"的参数，究竟如何影响模型的能力边界？ ...

为什么千亿参数模型的词表只有32K？从压缩效率到计算最优的完整解析

同样的文本内容，在一个模型中可能只需要100个token，在另一个模型中却可能膨胀到300个。这背后的差异源于一个经常被忽视但至关重要的设计决策：词表大小的选择。 ...

大模型参数量与计算量：从Transformer架构到FLOPs计算的完整解析

当GPT-3在2020年问世时，其1750亿参数的规模震惊了整个AI界。三年后，LLaMA-70B用更少的参数达到了更好的效果。到了2024年，DeepSeek-V3以6710亿总参数但仅激活370亿参数的MoE架构重新定义了效率边界。这些数字背后隐藏着一套精确的数学逻辑——参数量如何决定计算量，计算量如何影响训练成本，以及如何在有限的算力预算下设计最优模型。 ...

大模型为什么会产生涌现能力？从Scaling Laws到相变理论的科学解密

2022年，Google Research的研究者们做了一个看似简单的实验：让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型，准确率几乎为零；但当参数量突破某个临界点后，准确率突然飙升到80%以上。 ...