为什么大模型连两位数加法都算不准:从tokenization到启发式神经元的完整技术解析
2024年7月,一个简单的问题让全球十二个主流大模型中的八个栽了跟头:9.11和9.9哪个大? 这不是孤例。同样的问题还有:247 × 389等于多少?8743 + 3927呢?如果你尝试让ChatGPT、Claude或其他大模型直接计算这些数字,得到的答案往往令人哭笑不得——要么差几位数,要么完全离谱。 ...
2024年7月,一个简单的问题让全球十二个主流大模型中的八个栽了跟头:9.11和9.9哪个大? 这不是孤例。同样的问题还有:247 × 389等于多少?8743 + 3927呢?如果你尝试让ChatGPT、Claude或其他大模型直接计算这些数字,得到的答案往往令人哭笑不得——要么差几位数,要么完全离谱。 ...
2020年,OpenAI发布了拥有1750亿参数的GPT-3模型。按照FP16精度计算,仅存储模型权重就需要350GB显存——而当时最先进的NVIDIA A100 GPU只有80GB显存。这意味着,即使不考虑训练过程中额外的梯度、优化器状态和激活值,单张GPU连加载模型都做不到。 ...
2015年3月,Geoffrey Hinton在arXiv上发表了一篇看似不起眼的论文。标题是《Distilling the Knowledge in a Neural Network》,核心观点简洁得令人惊讶:大模型学到的"软"概率分布,比"硬"的分类标签包含更多信息。 ...
2024年7月,一个看似荒谬的问题在社交媒体上疯传:「9.11和9.9哪个更大?」 当用户把这个问题抛给ChatGPT时,答案令人瞠目——AI一本正经地回答「9.11更大」。这不是个案。同样的测试在不同时间、不同用户那里重复了上千次,错误率高达50%。 ...
你有没有这样的经历:和一个AI助手聊了很久,详细告诉它你的饮食偏好、工作习惯、兴趣爱好,几周后再打开对话,它却像第一次认识你一样,问你是不是素食者——明明你上次已经说过不下三次。这不是AI"健忘",而是它从未真正"记住"过任何东西。 ...
2022年,Google Research的研究者们做了一个看似简单的实验:让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型,准确率几乎为零;但当参数量突破某个临界点后,准确率突然飙升到80%以上。 ...
2024年,一个奇怪的现象在社交媒体上引发热议:当用户问ChatGPT"strawberry这个词里有几个r"时,模型自信地回答"两个"。这个错误如此基础,以至于有人质疑:连小学生都能数对的事,为什么拥有数千亿参数的大模型做不到? ...