分词器 | Answer

为什么千亿参数模型的词表只有32K？从压缩效率到计算最优的完整解析

同样的文本内容，在一个模型中可能只需要100个token，在另一个模型中却可能膨胀到300个。这背后的差异源于一个经常被忽视但至关重要的设计决策：词表大小的选择。 ...

2024年，一个奇怪的现象在社交媒体上引发热议：当用户问ChatGPT"strawberry这个词里有几个r"时，模型自信地回答"两个"。这个错误如此基础，以至于有人质疑：连小学生都能数对的事，为什么拥有数千亿参数的大模型做不到？ ...