隐藏层维度:为什么这个数字决定了大模型的能力边界
打开任何一个大模型的配置文件,你总能看到一些神秘的数字:BERT的768,GPT-2的1024,LLaMA-7B的4096,GPT-3的12288。这些数字从何而来?为什么不是769或4095?为什么LLaMA选择4096而GPT-3选择12288?更关键的是,这个被称为"隐藏层维度"或"隐藏尺寸"的参数,究竟如何影响模型的能力边界? ...
打开任何一个大模型的配置文件,你总能看到一些神秘的数字:BERT的768,GPT-2的1024,LLaMA-7B的4096,GPT-3的12288。这些数字从何而来?为什么不是769或4095?为什么LLaMA选择4096而GPT-3选择12288?更关键的是,这个被称为"隐藏层维度"或"隐藏尺寸"的参数,究竟如何影响模型的能力边界? ...
同样的文本内容,在一个模型中可能只需要100个token,在另一个模型中却可能膨胀到300个。这背后的差异源于一个经常被忽视但至关重要的设计决策:词表大小的选择。 ...
当GPT-3在2020年问世时,其1750亿参数的规模震惊了整个AI界。三年后,LLaMA-70B用更少的参数达到了更好的效果。到了2024年,DeepSeek-V3以6710亿总参数但仅激活370亿参数的MoE架构重新定义了效率边界。这些数字背后隐藏着一套精确的数学逻辑——参数量如何决定计算量,计算量如何影响训练成本,以及如何在有限的算力预算下设计最优模型。 ...
2022年,Google Research的研究者们做了一个看似简单的实验:让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型,准确率几乎为零;但当参数量突破某个临界点后,准确率突然飙升到80%以上。 ...