Tokenization

Token ID：大模型如何用一个数字代表一个词

当你打开ChatGPT输入"你好"两个字，模型看到的是什么？它看到的不是汉字，不是笔画，甚至不是图像像素。它看到的是两个整数：[22024, 22845]。 ...

为什么大模型连两位数加法都算不准：从tokenization到启发式神经元的完整技术解析

2024年7月，一个简单的问题让全球十二个主流大模型中的八个栽了跟头：9.11和9.9哪个大？这不是孤例。同样的问题还有：247 × 389等于多少？8743 + 3927呢？如果你尝试让ChatGPT、Claude或其他大模型直接计算这些数字，得到的答案往往令人哭笑不得——要么差几位数，要么完全离谱。 ...

大模型的Padding陷阱：为什么Decoder推理必须左填充，而BERT却用右填充？

在处理变长序列时，padding是一个看似简单却暗藏玄机的预处理步骤。许多开发者在从BERT迁移到GPT风格模型时，都会遇到一个令人困惑的问题：同样的数据预处理流程，为什么在BERT上工作正常，在LLaMA上却产生荒谬的输出？答案藏在decoder-only架构的生成机制中。 ...

为什么千亿参数模型的词表只有32K？从压缩效率到计算最优的完整解析

同样的文本内容，在一个模型中可能只需要100个token，在另一个模型中却可能膨胀到300个。这背后的差异源于一个经常被忽视但至关重要的设计决策：词表大小的选择。 ...

为什么大模型连简单的加法都会算错？从分词陷阱到算术推理的技术困境

2024年7月，一个看似荒谬的问题在社交媒体上疯传：「9.11和9.9哪个更大？」当用户把这个问题抛给ChatGPT时，答案令人瞠目——AI一本正经地回答「9.11更大」。这不是个案。同样的测试在不同时间、不同用户那里重复了上千次，错误率高达50%。 ...

令牌化与加密的本质分歧：为何支付数据保护不能只靠密码学

2013年12月，美国零售商Target遭遇了一场改变支付安全行业格局的数据泄露事件。攻击者窃取了约4000万张信用卡和借记卡信息，另有7000万客户个人信息外泄。事后分析表明，攻击者从Point of Sale（POS）系统中直接提取了明文主账号（Primary Account Number，PAN）。如果这些系统当时使用了令牌化技术，即使攻击者完全攻破网络，他们能获取的也只是一堆毫无价值的随机字符串。 ...