隐藏层维度:为什么这个数字决定了大模型的能力边界

打开任何一个大模型的配置文件,你总能看到一些神秘的数字:BERT的768,GPT-2的1024,LLaMA-7B的4096,GPT-3的12288。这些数字从何而来?为什么不是769或4095?为什么LLaMA选择4096而GPT-3选择12288?更关键的是,这个被称为"隐藏层维度"或"隐藏尺寸"的参数,究竟如何影响模型的能力边界? ...

16 min · 7669 words

为什么千亿参数模型的词表只有32K?从压缩效率到计算最优的完整解析

同样的文本内容,在一个模型中可能只需要100个token,在另一个模型中却可能膨胀到300个。这背后的差异源于一个经常被忽视但至关重要的设计决策:词表大小的选择。 ...

14 min · 6706 words

大模型参数量与计算量:从Transformer架构到FLOPs计算的完整解析

当GPT-3在2020年问世时,其1750亿参数的规模震惊了整个AI界。三年后,LLaMA-70B用更少的参数达到了更好的效果。到了2024年,DeepSeek-V3以6710亿总参数但仅激活370亿参数的MoE架构重新定义了效率边界。这些数字背后隐藏着一套精确的数学逻辑——参数量如何决定计算量,计算量如何影响训练成本,以及如何在有限的算力预算下设计最优模型。 ...

16 min · 7548 words

大模型为什么会产生涌现能力?从Scaling Laws到相变理论的科学解密

2022年,Google Research的研究者们做了一个看似简单的实验:让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型,准确率几乎为零;但当参数量突破某个临界点后,准确率突然飙升到80%以上。 ...

13 min · 6319 words