2020年5月,OpenAI发布了一篇题为《Language Models are Few-Shot Learners》的论文。论文的核心发现令研究社区震惊:一个拥有1750亿参数的语言模型,竟然可以在不更新任何参数的情况下,仅凭提示中的几个示例就学会全新的任务。

这不是魔法,而是一个被称为"上下文学习"(In-Context Learning, ICL)的现象。五年后的今天,我们终于开始理解它是如何工作的。

一个意外的发现

GPT-3论文的原始目标是探索模型规模对语言建模能力的影响。研究者在测试过程中发现了一个奇怪的现象:随着模型参数的增加,模型开始表现出一种新的能力——它可以从提示中的几个示例"推断"出任务要求,并正确完成新的测试用例。

这种能力与传统机器学习范式完全相悖。在传统范式中,学习新任务意味着:收集标注数据、定义损失函数、通过反向传播更新模型参数。而GPT-3展现的能力是:零参数更新、零梯度计算、零额外训练——模型仿佛"看懂"了任务,直接给出正确答案。

论文中记录了GPT-3在多个基准测试上的表现。以TriviaQA问答任务为例,零样本设置下准确率为64.3%,单样本设置提升至68.0%,少样本设置进一步达到71.2%,超越了当时经过专门微调的T5-11B模型。更引人注目的是LAMBADA任务——一个测试模型对长文本上下文理解能力的基准,GPT-3在少样本设置下达到了86.4%的准确率。

这些数字揭示了一个深刻的问题:模型是如何在不更新参数的情况下"学习"的?

三种相互竞争的理论框架

理论一:贝叶斯推断——“定位"已学知识

2022年,斯坦福大学的研究团队提出了一个影响深远的解释框架。他们的核心观点是:ICL并非真正的"学习”,而是一种"检索"或"定位"。

在预训练阶段,大语言模型从海量文本中学习了大量"概念"——这些概念可以是主题、格式、语言风格,甚至是输入输出之间的映射关系。当用户在提示中给出几个示例时,模型实际上是在进行贝叶斯推断:根据这些示例,推断出用户想要激活哪个"概念"。

这个框架预测了一个反直觉的现象:示例的正确性可能并不那么重要。2022年,Min等人的实验验证了这一点。研究者将提示中的标签全部替换为随机标签,结果发现模型的性能几乎没有下降。这与传统监督学习形成了鲜明对比——在传统设置中,标签随机化意味着任务变得不可能完成。

斯坦福团队将这种现象解释为:提示中的示例提供了多种"信号"——输入分布、输出空间、格式模式等。即使输入-输出映射被随机化破坏,其他信号仍然足以让模型"定位"到正确的概念。这就像在一本词典中查找单词——即使页码被打乱了,只要知道首字母和单词长度,仍然可能找到目标。

理论二:Induction Heads——模式补全的神经机制

2022年3月,Anthropic的研究团队从完全不同的角度切入这个问题。他们没有问"模型在计算什么",而是问"模型内部发生了什么"。

通过对小型Transformer模型的细致分析,研究者发现了一种特殊的注意力头——他们将其命名为"Induction Head"(归纳头)。这种注意力头的工作方式可以概括为:当看到序列[A][B]...[A]时,它会"推断"接下来应该出现[B]

这听起来像是简单的模式匹配,但关键在于:Induction Head不关心A和B具体是什么。它实现的是一个抽象的算法:“找到当前token上一次出现的位置,然后复制它后面跟着的内容”。

更重要的发现是:Induction Head的形成与ICL能力的涌现之间存在精确的对应关系。Anthropic训练了超过30个不同规模和架构的模型,记录了训练过程中的每一个检查点。他们发现,所有层数超过1的模型都会在训练的早期阶段(大约处理25亿到50亿个token时)经历一个"相变":在这个短暂的窗口期内,ICL能力急剧提升,同时Induction Head也在模型内部形成。

这种对应关系强烈暗示:Induction Head可能是ICL的主要神经基础。在大型模型中,这些注意力头可以进行"模糊"的模式匹配——不是寻找完全相同的token,而是寻找语义相似的表示。这解释了为什么模型可以处理它从未见过的任务:只要新任务与预训练数据中的某些模式在表示空间中足够接近,Induction Head就能"激活"相关知识。

理论三:隐式权重更新——Transformer作为元优化器

2025年7月,谷歌研究院发表了一篇题为《Learning without training: The implicit dynamics of in-context learning》的论文,提出了第三种解释。

研究者的出发点是一个简单的数学观察:Transformer Block由自注意力层和MLP层组成。他们证明了,当上下文信息通过自注意力层传递给MLP层时,会产生一个低秩的"隐式权重更新"。

具体而言,设MLP的第一层权重矩阵为$W$,上下文产生的上下文向量为$c$,那么模型输出等价于使用更新后的权重$W' = W + c \cdot v^T$进行计算,其中$v$是另一个由模型结构决定的向量。这个更新是秩为1的矩阵——类似于LoRA等参数高效微调方法中使用的技术。

更令人惊讶的是,研究者发现这种隐式更新可以被解释为一种梯度下降。当上下文中的token被逐个处理时,模型内部的权重实际上在进行迭代更新,更新的方向类似于在某个损失函数上的梯度方向。

这个发现将ICL与传统的优化理论联系了起来:Transformer在预训练过程中学会了成为一个"元优化器",在推理时对自身的MLP权重进行隐式的微调。

这解释了一个长期存在的困惑:为什么ICL在某些场景下表现优于显式微调?因为ICL进行的"优化"是在预训练阶段学习到的,它可能比标准的梯度下降更适合语言建模任务。

ICL能力的涌现条件

不是所有的语言模型都能进行上下文学习。研究揭示了几个关键的涌现条件。

模型规模是最明显的因素。Kaplan等人在2020年的研究中发现,ICL能力在模型参数量超过某个阈值后会突然出现。对于GPT系列,这个阈值大约在100亿参数左右。更小的模型即使经过更多训练,也难以展现出同等水平的ICL能力。

层数是另一个关键因素。Anthropic的研究表明,单层Transformer几乎无法形成有效的ICL能力——因为Induction Head需要两层注意力头的协作:第一层将"前一个token的信息"复制到当前位置,第二层才能利用这个信息进行模式匹配。

预训练数据的任务多样性在2023年被斯坦福团队证实为关键因素。研究者构建了合成数据集,控制预训练数据中"任务"的数量。结果发现,当任务多样性低于某个阈值时,ICL能力无法涌现;超过阈值后,模型开始展现出处理新任务的能力。这暗示:预训练过程中的"任务多样性"可能比单纯的"数据量"更重要。

Few-Shot vs Many-Shot:示例数量的影响

GPT-3论文中使用的"few-shot"设置通常包含1到64个示例。随着上下文窗口的扩展,研究者开始探索"many-shot"设置——使用数百甚至数千个示例。

2024年NeurIPS会议上发表的研究表明,从few-shot过渡到many-shot可以带来显著的性能提升。在翻译、摘要、规划等任务上,将示例数量从几十个增加到上千个,性能提升幅度达到5-15个百分点。更有趣的是,研究者观察到了一个"缩放定律":在许多任务上,性能与示例数量的对数呈近似线性关系。

但many-shot并非没有代价。更多的示例意味着更长的上下文,而长上下文会带来推理成本的增加——每生成一个token都需要访问整个KV Cache。这引出了一个实际问题:在计算成本和性能之间如何权衡?

2025年的研究建议,对于简单任务,10-50个示例通常足够;对于复杂任务或需要精细控制输出格式的任务,100-1000个示例可能更合适。超过某个点后,边际收益开始递减。

ICL与微调:选择困境

面对一个新任务,应该选择ICL还是微调?这取决于多个因素。

数据量是首要考虑。当只有少量标注数据(几十到几百个)时,ICL通常是更好的选择——微调在数据不足时容易过拟合。当有大量标注数据(数千以上)时,微调往往能获得更高的性能上限。

任务特异性也很重要。如果任务需要模型学习全新的知识(如某个领域的专业术语),微调可能更合适。如果任务只是对模型已有知识进行重新组合或格式化,ICL通常足够。

部署成本是一个常被忽视的因素。微调后的模型需要单独存储一套参数,如果服务100个不同的任务,就需要存储100份模型权重。ICL只需要维护一个基础模型,任务切换通过更换提示即可完成。

2023年Mosbach等人的比较研究提供了一个经验法则:在相同数据量下,微调通常能达到更高的峰值性能,但ICL在跨领域泛化上表现更好——当测试数据与训练数据分布不同时,ICL的鲁棒性更强。

局限性与未来方向

ICL并非万能药。研究揭示了几个主要局限。

上下文长度限制是最直接的约束。即使是最先进的模型,上下文窗口也是有限的——当前主流模型在32K到128K token之间。对于需要大量示例或长文档的任务,这个限制可能成为瓶颈。

长程依赖问题:研究表明,当上下文很长时,模型往往"关注"开头和结尾的内容,忽略中间部分。这被称为"迷失在中间"现象,限制了many-shot ICL的有效性。

不稳定性:ICL的性能对提示的格式、示例的顺序高度敏感。研究表明,仅改变示例的顺序就可能导致几个百分点的性能波动。这种不稳定性在生产环境中是一个挑战。

缺乏真正的学习:贝叶斯推断框架暗示,ICL可能只是在"检索"预训练时已学到的知识。这意味着对于真正新颖的任务——与预训练数据分布差异很大的任务——ICL可能无能为力。

回到最初的问题

当我们问"为什么大模型不需要训练就能学习"时,答案已经清晰:这可能不是一个单一的机制,而是多种机制共同作用的结果。

贝叶斯推断视角强调ICL作为"检索"的一面——模型在预训练时已经学到了大量知识,ICL只是帮助"定位"正确的知识。隐式优化视角强调ICL作为"学习"的一面——模型在推理时确实进行了某种形式的参数更新,只是这种更新是虚拟的、临时的。Induction Head视角提供了神经层面的解释——特定的电路结构实现了模式补全,这是ICL的基础操作。

这三种解释并不矛盾。它们可能描述的是同一现象的不同层面:贝叶斯推断描述了ICL的计算目标,隐式优化描述了ICL的计算过程,而Induction Head描述了ICL的神经实现。

对于正在使用大语言模型的实践者而言,这意味着:ICL是一种强大的工具,但不应被神话。理解其工作机制,有助于在合适的场景选择合适的方法——有时是ICL,有时是微调,有时是两者的结合。


参考文献

  1. Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
  2. Xie, S. M., et al. (2022). An Explanation of In-Context Learning as Implicit Bayesian Inference. ICLR 2022.
  3. Min, S., et al. (2022). Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? EMNLP 2022.
  4. Olah, C., et al. (2022). In-Context Learning and Induction Heads. Transformer Circuits Thread.
  5. Dherin, B., et al. (2025). Learning without training: The implicit dynamics of in-context learning. arXiv:2507.16003.
  6. Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
  7. Raventos, A., et al. (2023). Pretraining Task Diversity and the Emergence of Non-Bayesian In-Context Learning. NeurIPS 2023.
  8. Mosbach, M., et al. (2023). Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and Evaluation. ACL 2023.
  9. Bertsch, A., et al. (2024). In-Context Learning with Many Demonstration Examples. NeurIPS 2024.
  10. Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
  11. Akyürek, E., et al. (2023). What Learning Algorithm is In-Context Learning? Investigations with Linear Models. ICLR 2023.
  12. von Oswald, J., et al. (2023). Transformers Learn In-Context by Gradient Descent. ICML 2023.
  13. Dai, D., et al. (2023). Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers. ACL 2023.
  14. Dong, Q., et al. (2024). A Survey on In-Context Learning. EMNLP 2024.
  15. Razeghi, Y., et al. (2022). Impact of Pretraining Term Frequencies on Few-Shot Reasoning. arXiv:2204.10312.