为什么大模型连两位数加法都算不准:从tokenization到启发式神经元的完整技术解析

2024年7月,一个简单的问题让全球十二个主流大模型中的八个栽了跟头:9.11和9.9哪个大? 这不是孤例。同样的问题还有:247 × 389等于多少?8743 + 3927呢?如果你尝试让ChatGPT、Claude或其他大模型直接计算这些数字,得到的答案往往令人哭笑不得——要么差几位数,要么完全离谱。 ...

14 min · 6954 words

为什么大模型连简单的加法都会算错?从分词陷阱到算术推理的技术困境

2024年7月,一个看似荒谬的问题在社交媒体上疯传:「9.11和9.9哪个更大?」 当用户把这个问题抛给ChatGPT时,答案令人瞠目——AI一本正经地回答「9.11更大」。这不是个案。同样的测试在不同时间、不同用户那里重复了上千次,错误率高达50%。 ...

8 min · 4007 words