为什么大模型不需要训练就能学会新任务：从贝叶斯推断到隐式权重更新的技术解密

2020年5月，OpenAI发布了一篇题为《Language Models are Few-Shot Learners》的论文。论文的核心发现令研究社区震惊：一个拥有1750亿参数的语言模型，竟然可以在不更新任何参数的情况下，仅凭提示中的几个示例就学会全新的任务。

这不是魔法，而是一个被称为"上下文学习"（In-Context Learning, ICL）的现象。五年后的今天，我们终于开始理解它是如何工作的。

一个意外的发现

GPT-3论文的原始目标是探索模型规模对语言建模能力的影响。研究者在测试过程中发现了一个奇怪的现象：随着模型参数的增加，模型开始表现出一种新的能力——它可以从提示中的几个示例"推断"出任务要求，并正确完成新的测试用例。

这种能力与传统机器学习范式完全相悖。在传统范式中，学习新任务意味着：收集标注数据、定义损失函数、通过反向传播更新模型参数。而GPT-3展现的能力是：零参数更新、零梯度计算、零额外训练——模型仿佛"看懂"了任务，直接给出正确答案。

论文中记录了GPT-3在多个基准测试上的表现。以TriviaQA问答任务为例，零样本设置下准确率为64.3%，单样本设置提升至68.0%，少样本设置进一步达到71.2%，超越了当时经过专门微调的T5-11B模型。更引人注目的是LAMBADA任务——一个测试模型对长文本上下文理解能力的基准，GPT-3在少样本设置下达到了86.4%的准确率。

这些数字揭示了一个深刻的问题：模型是如何在不更新参数的情况下"学习"的？

三种相互竞争的理论框架

理论一：贝叶斯推断——“定位"已学知识

2022年，斯坦福大学的研究团队提出了一个影响深远的解释框架。他们的核心观点是：ICL并非真正的"学习”，而是一种"检索"或"定位"。

在预训练阶段，大语言模型从海量文本中学习了大量"概念"——这些概念可以是主题、格式、语言风格，甚至是输入输出之间的映射关系。当用户在提示中给出几个示例时，模型实际上是在进行贝叶斯推断：根据这些示例，推断出用户想要激活哪个"概念"。

这个框架预测了一个反直觉的现象：示例的正确性可能并不那么重要。2022年，Min等人的实验验证了这一点。研究者将提示中的标签全部替换为随机标签，结果发现模型的性能几乎没有下降。这与传统监督学习形成了鲜明对比——在传统设置中，标签随机化意味着任务变得不可能完成。

斯坦福团队将这种现象解释为：提示中的示例提供了多种"信号"——输入分布、输出空间、格式模式等。即使输入-输出映射被随机化破坏，其他信号仍然足以让模型"定位"到正确的概念。这就像在一本词典中查找单词——即使页码被打乱了，只要知道首字母和单词长度，仍然可能找到目标。

理论二：Induction Heads——模式补全的神经机制

2022年3月，Anthropic的研究团队从完全不同的角度切入这个问题。他们没有问"模型在计算什么"，而是问"模型内部发生了什么"。

通过对小型Transformer模型的细致分析，研究者发现了一种特殊的注意力头——他们将其命名为"Induction Head"（归纳头）。这种注意力头的工作方式可以概括为：当看到序列[A][B]...[A]时，它会"推断"接下来应该出现[B]。

这听起来像是简单的模式匹配，但关键在于：Induction Head不关心A和B具体是什么。它实现的是一个抽象的算法：“找到当前token上一次出现的位置，然后复制它后面跟着的内容”。

更重要的发现是：Induction Head的形成与ICL能力的涌现之间存在精确的对应关系。Anthropic训练了超过30个不同规模和架构的模型，记录了训练过程中的每一个检查点。他们发现，所有层数超过1的模型都会在训练的早期阶段（大约处理25亿到50亿个token时）经历一个"相变"：在这个短暂的窗口期内，ICL能力急剧提升，同时Induction Head也在模型内部形成。

这种对应关系强烈暗示：Induction Head可能是ICL的主要神经基础。在大型模型中，这些注意力头可以进行"模糊"的模式匹配——不是寻找完全相同的token，而是寻找语义相似的表示。这解释了为什么模型可以处理它从未见过的任务：只要新任务与预训练数据中的某些模式在表示空间中足够接近，Induction Head就能"激活"相关知识。

理论三：隐式权重更新——Transformer作为元优化器

2025年7月，谷歌研究院发表了一篇题为《Learning without training: The implicit dynamics of in-context learning》的论文，提出了第三种解释。

研究者的出发点是一个简单的数学观察：Transformer Block由自注意力层和MLP层组成。他们证明了，当上下文信息通过自注意力层传递给MLP层时，会产生一个低秩的"隐式权重更新"。

具体而言，设MLP的第一层权重矩阵为$W$，上下文产生的上下文向量为$c$，那么模型输出等价于使用更新后的权重$W' = W + c \cdot v^T$进行计算，其中$v$是另一个由模型结构决定的向量。这个更新是秩为1的矩阵——类似于LoRA等参数高效微调方法中使用的技术。

更令人惊讶的是，研究者发现这种隐式更新可以被解释为一种梯度下降。当上下文中的token被逐个处理时，模型内部的权重实际上在进行迭代更新，更新的方向类似于在某个损失函数上的梯度方向。

这个发现将ICL与传统的优化理论联系了起来：Transformer在预训练过程中学会了成为一个"元优化器"，在推理时对自身的MLP权重进行隐式的微调。

这解释了一个长期存在的困惑：为什么ICL在某些场景下表现优于显式微调？因为ICL进行的"优化"是在预训练阶段学习到的，它可能比标准的梯度下降更适合语言建模任务。

ICL能力的涌现条件

不是所有的语言模型都能进行上下文学习。研究揭示了几个关键的涌现条件。

模型规模是最明显的因素。Kaplan等人在2020年的研究中发现，ICL能力在模型参数量超过某个阈值后会突然出现。对于GPT系列，这个阈值大约在100亿参数左右。更小的模型即使经过更多训练，也难以展现出同等水平的ICL能力。

层数是另一个关键因素。Anthropic的研究表明，单层Transformer几乎无法形成有效的ICL能力——因为Induction Head需要两层注意力头的协作：第一层将"前一个token的信息"复制到当前位置，第二层才能利用这个信息进行模式匹配。

预训练数据的任务多样性在2023年被斯坦福团队证实为关键因素。研究者构建了合成数据集，控制预训练数据中"任务"的数量。结果发现，当任务多样性低于某个阈值时，ICL能力无法涌现；超过阈值后，模型开始展现出处理新任务的能力。这暗示：预训练过程中的"任务多样性"可能比单纯的"数据量"更重要。

Few-Shot vs Many-Shot：示例数量的影响

GPT-3论文中使用的"few-shot"设置通常包含1到64个示例。随着上下文窗口的扩展，研究者开始探索"many-shot"设置——使用数百甚至数千个示例。

2024年NeurIPS会议上发表的研究表明，从few-shot过渡到many-shot可以带来显著的性能提升。在翻译、摘要、规划等任务上，将示例数量从几十个增加到上千个，性能提升幅度达到5-15个百分点。更有趣的是，研究者观察到了一个"缩放定律"：在许多任务上，性能与示例数量的对数呈近似线性关系。

但many-shot并非没有代价。更多的示例意味着更长的上下文，而长上下文会带来推理成本的增加——每生成一个token都需要访问整个KV Cache。这引出了一个实际问题：在计算成本和性能之间如何权衡？

2025年的研究建议，对于简单任务，10-50个示例通常足够；对于复杂任务或需要精细控制输出格式的任务，100-1000个示例可能更合适。超过某个点后，边际收益开始递减。

ICL与微调：选择困境

面对一个新任务，应该选择ICL还是微调？这取决于多个因素。

数据量是首要考虑。当只有少量标注数据（几十到几百个）时，ICL通常是更好的选择——微调在数据不足时容易过拟合。当有大量标注数据（数千以上）时，微调往往能获得更高的性能上限。

任务特异性也很重要。如果任务需要模型学习全新的知识（如某个领域的专业术语），微调可能更合适。如果任务只是对模型已有知识进行重新组合或格式化，ICL通常足够。

部署成本是一个常被忽视的因素。微调后的模型需要单独存储一套参数，如果服务100个不同的任务，就需要存储100份模型权重。ICL只需要维护一个基础模型，任务切换通过更换提示即可完成。

2023年Mosbach等人的比较研究提供了一个经验法则：在相同数据量下，微调通常能达到更高的峰值性能，但ICL在跨领域泛化上表现更好——当测试数据与训练数据分布不同时，ICL的鲁棒性更强。

局限性与未来方向

ICL并非万能药。研究揭示了几个主要局限。

上下文长度限制是最直接的约束。即使是最先进的模型，上下文窗口也是有限的——当前主流模型在32K到128K token之间。对于需要大量示例或长文档的任务，这个限制可能成为瓶颈。

长程依赖问题：研究表明，当上下文很长时，模型往往"关注"开头和结尾的内容，忽略中间部分。这被称为"迷失在中间"现象，限制了many-shot ICL的有效性。

不稳定性：ICL的性能对提示的格式、示例的顺序高度敏感。研究表明，仅改变示例的顺序就可能导致几个百分点的性能波动。这种不稳定性在生产环境中是一个挑战。

缺乏真正的学习：贝叶斯推断框架暗示，ICL可能只是在"检索"预训练时已学到的知识。这意味着对于真正新颖的任务——与预训练数据分布差异很大的任务——ICL可能无能为力。

回到最初的问题

当我们问"为什么大模型不需要训练就能学习"时，答案已经清晰：这可能不是一个单一的机制，而是多种机制共同作用的结果。

贝叶斯推断视角强调ICL作为"检索"的一面——模型在预训练时已经学到了大量知识，ICL只是帮助"定位"正确的知识。隐式优化视角强调ICL作为"学习"的一面——模型在推理时确实进行了某种形式的参数更新，只是这种更新是虚拟的、临时的。Induction Head视角提供了神经层面的解释——特定的电路结构实现了模式补全，这是ICL的基础操作。

这三种解释并不矛盾。它们可能描述的是同一现象的不同层面：贝叶斯推断描述了ICL的计算目标，隐式优化描述了ICL的计算过程，而Induction Head描述了ICL的神经实现。

对于正在使用大语言模型的实践者而言，这意味着：ICL是一种强大的工具，但不应被神话。理解其工作机制，有助于在合适的场景选择合适的方法——有时是ICL，有时是微调，有时是两者的结合。

参考文献

Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
Xie, S. M., et al. (2022). An Explanation of In-Context Learning as Implicit Bayesian Inference. ICLR 2022.
Min, S., et al. (2022). Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? EMNLP 2022.
Olah, C., et al. (2022). In-Context Learning and Induction Heads. Transformer Circuits Thread.
Dherin, B., et al. (2025). Learning without training: The implicit dynamics of in-context learning. arXiv:2507.16003.
Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Raventos, A., et al. (2023). Pretraining Task Diversity and the Emergence of Non-Bayesian In-Context Learning. NeurIPS 2023.
Mosbach, M., et al. (2023). Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and Evaluation. ACL 2023.
Bertsch, A., et al. (2024). In-Context Learning with Many Demonstration Examples. NeurIPS 2024.
Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
Akyürek, E., et al. (2023). What Learning Algorithm is In-Context Learning? Investigations with Linear Models. ICLR 2023.
von Oswald, J., et al. (2023). Transformers Learn In-Context by Gradient Descent. ICML 2023.
Dai, D., et al. (2023). Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers. ACL 2023.
Dong, Q., et al. (2024). A Survey on In-Context Learning. EMNLP 2024.
Razeghi, Y., et al. (2022). Impact of Pretraining Term Frequencies on Few-Shot Reasoning. arXiv:2204.10312.

一个意外的发现#

三种相互竞争的理论框架#

理论一：贝叶斯推断——“定位"已学知识#

理论二：Induction Heads——模式补全的神经机制#

理论三：隐式权重更新——Transformer作为元优化器#

ICL能力的涌现条件#

Few-Shot vs Many-Shot：示例数量的影响#

ICL与微调：选择困境#

局限性与未来方向#

回到最初的问题#

参考文献#

更多精彩内容

为什么大模型能从几个例子中学会新任务：从隐式梯度下降到Induction Head的技术解密

大模型为什么会产生涌现能力？从Scaling Laws到相变理论的科学解密

Tokenizer决定大模型"看到"的世界：从BPE算法到草莓问题的技术解密

为什么最先进的AI依然会编造事实：从训练机制到评估陷阱的技术解密

当参数突破临界点：AI模型为什么会突然"开窍"