Token ID:大模型如何用一个数字代表一个词
当你打开ChatGPT输入"你好"两个字,模型看到的是什么? 它看到的不是汉字,不是笔画,甚至不是图像像素。它看到的是两个整数:[22024, 22845]。 ...
当你打开ChatGPT输入"你好"两个字,模型看到的是什么? 它看到的不是汉字,不是笔画,甚至不是图像像素。它看到的是两个整数:[22024, 22845]。 ...
同样的文本内容,在一个模型中可能只需要100个token,在另一个模型中却可能膨胀到300个。这背后的差异源于一个经常被忽视但至关重要的设计决策:词表大小的选择。 ...
2024年,一个奇怪的现象在社交媒体上引发热议:当用户问ChatGPT"strawberry这个词里有几个r"时,模型自信地回答"两个"。这个错误如此基础,以至于有人质疑:连小学生都能数对的事,为什么拥有数千亿参数的大模型做不到? ...