为什么大模型连两位数加法都算不准:从tokenization到启发式神经元的完整技术解析

2024年7月,一个简单的问题让全球十二个主流大模型中的八个栽了跟头:9.11和9.9哪个大? 这不是孤例。同样的问题还有:247 × 389等于多少?8743 + 3927呢?如果你尝试让ChatGPT、Claude或其他大模型直接计算这些数字,得到的答案往往令人哭笑不得——要么差几位数,要么完全离谱。 ...

14 min · 6954 words

千亿参数模型如何拆分到多张GPU上训练:从数据并行到3D并行的技术突围

2020年,OpenAI发布了拥有1750亿参数的GPT-3模型。按照FP16精度计算,仅存储模型权重就需要350GB显存——而当时最先进的NVIDIA A100 GPU只有80GB显存。这意味着,即使不考虑训练过程中额外的梯度、优化器状态和激活值,单张GPU连加载模型都做不到。 ...

13 min · 6476 words

软标签的秘密:为什么知识蒸馏能让小模型拥有大智慧

2015年3月,Geoffrey Hinton在arXiv上发表了一篇看似不起眼的论文。标题是《Distilling the Knowledge in a Neural Network》,核心观点简洁得令人惊讶:大模型学到的"软"概率分布,比"硬"的分类标签包含更多信息。 ...

13 min · 6505 words

为什么大模型连简单的加法都会算错?从分词陷阱到算术推理的技术困境

2024年7月,一个看似荒谬的问题在社交媒体上疯传:「9.11和9.9哪个更大?」 当用户把这个问题抛给ChatGPT时,答案令人瞠目——AI一本正经地回答「9.11更大」。这不是个案。同样的测试在不同时间、不同用户那里重复了上千次,错误率高达50%。 ...

8 min · 4007 words

为什么大模型记不住之前的对话——从无状态推理到长期记忆架构的技术突围

你有没有这样的经历:和一个AI助手聊了很久,详细告诉它你的饮食偏好、工作习惯、兴趣爱好,几周后再打开对话,它却像第一次认识你一样,问你是不是素食者——明明你上次已经说过不下三次。这不是AI"健忘",而是它从未真正"记住"过任何东西。 ...

12 min · 5655 words

大模型为什么会产生涌现能力?从Scaling Laws到相变理论的科学解密

2022年,Google Research的研究者们做了一个看似简单的实验:让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型,准确率几乎为零;但当参数量突破某个临界点后,准确率突然飙升到80%以上。 ...

13 min · 6319 words

Tokenizer决定大模型"看到"的世界:从BPE算法到草莓问题的技术解密

2024年,一个奇怪的现象在社交媒体上引发热议:当用户问ChatGPT"strawberry这个词里有几个r"时,模型自信地回答"两个"。这个错误如此基础,以至于有人质疑:连小学生都能数对的事,为什么拥有数千亿参数的大模型做不到? ...

12 min · 5799 words