为什么千亿参数模型的词表只有32K?从压缩效率到计算最优的完整解析 同样的文本内容,在一个模型中可能只需要100个token,在另一个模型中却可能膨胀到300个。这背后的差异源于一个经常被忽视但至关重要的设计决策:词表大小的选择。 ...