大模型 | Answer

为什么大模型连两位数加法都算不准：从tokenization到启发式神经元的完整技术解析

2024年7月，一个简单的问题让全球十二个主流大模型中的八个栽了跟头：9.11和9.9哪个大？这不是孤例。同样的问题还有：247 × 389等于多少？8743 + 3927呢？如果你尝试让ChatGPT、Claude或其他大模型直接计算这些数字，得到的答案往往令人哭笑不得——要么差几位数，要么完全离谱。 ...

千亿参数模型如何拆分到多张GPU上训练：从数据并行到3D并行的技术突围

2020年，OpenAI发布了拥有1750亿参数的GPT-3模型。按照FP16精度计算，仅存储模型权重就需要350GB显存——而当时最先进的NVIDIA A100 GPU只有80GB显存。这意味着，即使不考虑训练过程中额外的梯度、优化器状态和激活值，单张GPU连加载模型都做不到。 ...

软标签的秘密：为什么知识蒸馏能让小模型拥有大智慧

2015年3月，Geoffrey Hinton在arXiv上发表了一篇看似不起眼的论文。标题是《Distilling the Knowledge in a Neural Network》，核心观点简洁得令人惊讶：大模型学到的"软"概率分布，比"硬"的分类标签包含更多信息。 ...

为什么大模型连简单的加法都会算错？从分词陷阱到算术推理的技术困境

2024年7月，一个看似荒谬的问题在社交媒体上疯传：「9.11和9.9哪个更大？」当用户把这个问题抛给ChatGPT时，答案令人瞠目——AI一本正经地回答「9.11更大」。这不是个案。同样的测试在不同时间、不同用户那里重复了上千次，错误率高达50%。 ...

为什么大模型记不住之前的对话——从无状态推理到长期记忆架构的技术突围

你有没有这样的经历：和一个AI助手聊了很久，详细告诉它你的饮食偏好、工作习惯、兴趣爱好，几周后再打开对话，它却像第一次认识你一样，问你是不是素食者——明明你上次已经说过不下三次。这不是AI"健忘"，而是它从未真正"记住"过任何东西。 ...

大模型为什么会产生涌现能力？从Scaling Laws到相变理论的科学解密

2022年，Google Research的研究者们做了一个看似简单的实验：让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型，准确率几乎为零；但当参数量突破某个临界点后，准确率突然飙升到80%以上。 ...

Tokenizer决定大模型"看到"的世界：从BPE算法到草莓问题的技术解密

2024年，一个奇怪的现象在社交媒体上引发热议：当用户问ChatGPT"strawberry这个词里有几个r"时，模型自信地回答"两个"。这个错误如此基础，以至于有人质疑：连小学生都能数对的事，为什么拥有数千亿参数的大模型做不到？ ...