2022年,Google Research的研究者们做了一个看似简单的实验:让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型,准确率几乎为零;但当参数量突破某个临界点后,准确率突然飙升到80%以上。
这不是渐进式的进步,而是一个断崖式的跳跃。模型仿佛在一夜之间"学会"了加法。
这个现象被研究者命名为"涌现能力"(Emergent Abilities)。在过去三年里,它成为了AI领域最引人深思、也最具争议的概念之一。涌现能力是否真实存在?它是 Scaling Laws 的必然产物,还是某种更深层的相变现象?这些问题不仅关乎技术,更触及我们对智能本质的理解。
Scaling Laws:预测的艺术与盲区
要理解涌现能力的争议,必须先理解 Scaling Laws——大模型研究的基石。
2020年1月,OpenAI的研究团队发表了一篇影响深远的论文《Scaling Laws for Neural Language Models》。他们发现了一个简洁的数学规律:语言模型的交叉熵损失与模型参数量$N$、训练数据量$D$、计算量$C$之间存在幂律关系:
$$L(N) = \left(\frac{N_c}{N}\right)^{\alpha_N}, \quad L(D) = \left(\frac{D_c}{D}\right)^{\alpha_D}$$其中$N_c$、$D_c$是常数,$\alpha_N \approx 0.076$,$\alpha_D \approx 0.095$。这个公式意味着:模型性能会随着规模的增加而平滑、可预测地提升。如果你想将损失降低一半,只需将参数量增加到原来的十倍左右。
这个发现改变了整个行业。从此,“做大模型"有了理论依据。但 Scaling Laws 也埋下了一个隐患:如果一切都可以预测,那么"意外"从何而来?
2022年,DeepMind 发布了 Chinchilla 论文,对 Scaling Laws 进行了修正。他们发现 OpenAI 低估了数据量的重要性——在固定计算预算下,模型参数与训练数据量应该同步增长。这个发现改变了模型设计的最优策略,但同样假设性能提升是渐进的、可预测的。
然而,就在 Scaling Laws 被奉为圭臬的同时,另一个观察开始浮现:某些能力似乎并不遵循平滑的幂律曲线,而是呈现出戏剧性的"相变"特征。
137种涌现能力:一个意外的清单
2022年6月,Jason Wei 等人在 arXiv 上发表了论文《Emergent Abilities of Large Language Models》,首次系统性地定义并记录了这一现象。
他们将涌现能力定义为:“在小规模模型中不存在,但在大规模模型中存在的各种能力。“这一定义看似简单,却蕴含深意:涌现能力无法通过外推小模型的性能来预测。
论文列举了大量案例。在 BIG-Bench 基准测试的200多个任务中,约5%的任务展现出"突破性"行为——性能在某个规模阈值后急剧提升。具体来说:
算术运算:三位数加法在 GPT-3 13B 之前接近随机(准确率约10%),在 GPT-3 175B 时跃升至80%以上;四到五位数的加减法更是只在最大规模的模型中才能完成。
多步推理:思维链(Chain-of-Thought)提示是一种让模型"一步步思考"的技术。研究发现,这种技术对小型模型反而有害——它们会被自己的推理步骤搞糊涂,表现比直接回答更差。但当模型规模超过约680亿参数时,思维链的效果突然"开窍”,性能大幅提升。
编程能力:代码生成在中等规模模型中几乎不可用,但在超大规模模型中突然变得相当可靠。
多语言任务:包括波斯语阅读理解、印地语毒性检测、斯瓦希里语-英语谚语翻译等任务,都展现出类似的跳跃式进步。
Jason Wei 在后续的博客文章中汇总了137种已被确认的涌现能力,涵盖 BIG-Bench 的67个任务和 MMLU 的51个任务,以及多项独立研究中发现的能力。这个数字还在持续增长。
xychart-beta
title "涌现能力典型缩放曲线示意"
x-axis ["1B", "7B", "13B", "30B", "70B", "175B", "540B"]
y-axis "准确率 (%)" 0 --> 100
line [5, 8, 12, 15, 25, 78, 92]
上图展示了典型的涌现能力缩放曲线:性能在某个规模阈值前几乎平坦,之后急剧上升。这种"断崖式"的跳跃与 Scaling Laws 预测的平滑曲线形成鲜明对比。
相变:物理学视角的解读
为什么会出现这种断崖式的跳跃?一个被广泛引用的解释框架来自物理学中的"相变”(Phase Transition)概念。
在热力学中,相变描述的是物质状态的突然改变:冰在0°C时突然融化成水,水在100°C时突然沸腾成蒸汽。这些变化不是渐进的——你不会看到"半冰半水"的混合态持续存在。临界点前后,系统的宏观行为发生质的飞跃。
研究者发现,大模型的涌现能力呈现出类似的特征。性能曲线上的"折点"或"拐点”,可以被理解为模型内部状态的某种临界转变。
2022年3月,Anthropic 的研究团队在《In-context Learning and Induction Heads》论文中提供了一个关键洞见。他们分析了30多个不同规模的 Transformer 模型,追踪它们在训练过程中的内部变化。结果发现了一个惊人的对应关系:
所有层数超过1的模型,都会在训练的早期阶段(大约处理25亿到50亿个token时)经历一个"相变"。在这个短暂的窗口期内:
- 模型的训练损失曲线出现一个明显的"凸起"——这是整个训练过程中唯一的不平滑点
- 上下文学习能力急剧提升——后期token的预测损失显著低于早期token
- 一种被称为"Induction Heads"的特殊注意力头在模型内部形成
Induction Heads 是一种实现"模式补全"的电路结构。当模型看到序列[A][B]...[A]时,Induction Head 会"推断"接下来应该出现[B]。关键在于,这个机制不关心A和B具体是什么——它实现的是一个抽象的算法:“找到当前token上一次出现的位置,然后复制它后面跟着的内容”。
这项研究的核心发现是:Induction Heads 的形成与上下文学习能力的涌现之间存在精确的因果对应。当研究者通过改变模型架构来延迟 Induction Heads 的形成时,上下文学习能力的涌现也随之延迟。
这为涌现能力提供了一个微观层面的解释:某些高级能力的出现,可能依赖于模型内部特定"电路"的形成。这些电路的形成需要达到一定的规模和训练深度,一旦形成,就会触发一系列连锁反应,表现为宏观上的"涌现"。
“海市蜃楼"论:一场学术辩论
然而,涌现能力的概念并非没有争议。
2023年4月,斯坦福大学的研究团队发表了一篇题为《Are Emergent Abilities of Large Language Models a Mirage?》(大语言模型的涌现能力是海市蜃楼吗?)的论文,对这一概念提出了尖锐的质疑。
核心论点很简单:涌现能力可能是研究者选择特定评估指标造成的假象。
论文指出,许多声称具有涌现能力的任务使用的是"硬"评估指标,如完全匹配(Exact Match)或多选题准确率。这些指标不奖励"部分正确"的答案——对于一个三位数加法问题,答案要么全对,要么全错。这就导致了一种非线性的评估曲线:
- 小模型的输出可能已经越来越"接近"正确答案(比如预测的概率分布越来越集中于正确的数字附近),但由于仍然不是精确匹配,得分为零
- 当模型能力突破某个临界点,输出终于变得完全正确,得分从零直接跳到满分
如果换用"软"指标,比如正确答案的对数概率(Log Probability),曲线可能会变得平滑得多。
研究者用一个简单的数学模型演示了这一点:假设模型的 Token 级准确率从10%平滑提升到100%,完全匹配指标的曲线会呈现出戏剧性的"涌现"特征,而对数概率指标则显示出渐进的改善。
论文进一步展示了,通过精心选择评估指标,可以在视觉任务中"制造"出从未被报告过的涌现能力——这暗示涌现可能更多是测量方法的产物,而非模型内在的特性。
反驳:涌现是真实且重要的
面对"海市蜃楼"论的质疑,Jason Wei 在2023年5月的博客文章中进行了系统性的回应。他的核心观点是:即使某些涌现能力在特定指标下看起来平滑,这并不意味着涌现现象不重要或不存在。
首先,“硬"指标往往是我们真正关心的。当用户问 ChatGPT “15 + 23 等于多少"时,他们想要的是精确答案"38”,而不是一个概率分布或部分正确的答案。对数概率可能在学术研究中有意义,但在实际应用中,完全匹配才是衡量任务成功的标准。
其次,平滑指标并不能预测涌现。即使存在某种平滑的"替代指标”,研究者目前也缺乏可靠的方法,用它来预测硬指标上涌现何时发生。换句话说,“平滑性"只是事后诸葛亮,并不改变涌现难以预测的本质。
第三,某些涌现能力即使换指标也保持跳跃特征。Wei 展示了来自 BIG-Bench 的数据:即使使用奖励部分正确的指标(如 Token Edit Distance),某些任务的性能曲线仍然呈现陡峭的转折。
更重要的是,涌现能力在定性层面也有体现。最典型的例子是思维链提示:小型模型使用思维链反而会降低性能(它们会被自己的推理步骤搞糊涂),但大型模型使用思维链却能大幅提升性能。这种质变无法用任何指标的平滑性来解释。
xychart-beta
title "思维链提示的涌现特性 (GSM8K数学推理)"
x-axis ["7B", "13B", "30B", "70B", "175B", "540B"]
y-axis "准确率 (%)" 0 --> 80
line "标准提示" [5, 8, 12, 18, 25, 35]
line "思维链提示" [3, 6, 20, 45, 58, 72]
上图清晰地展示了思维链提示的涌现特性:对于数学推理任务,使用思维链提示在模型规模较小时性能更差,但在规模超过临界点后突然远超不使用思维链的情况。
新视角:预训练损失作为涌现的统一框架
2024年3月,清华大学和字节跳动的研究团队提供了一个新的视角来调和这场争论。在论文《Understanding Emergent Abilities of Language Models from the Loss Perspective》中,他们提出:预训练损失(Pre-training Loss)可能是预测涌现能力的更好指标。
研究者的核心发现是:当模型的预训练损失低于某个特定阈值时,它会同时在多个任务上展现出涌现能力——无论使用什么评估指标。
这个发现的意义在于,它将涌现能力与模型规模和数据量之间的关系"解耦"了。一个拥有较少参数但训练更多数据的模型,可能与一个拥有更多参数但训练较少数据的模型达到相同的预训练损失。研究表明,只要预训练损失相同,它们在下游任务上的表现也几乎相同。
这暗示涌现能力可能有一个更根本的"触发条件”:模型对语言的"理解程度”(用预训练损失衡量)达到某个临界水平。
研究者将涌现能力重新定义为:当预训练损失降至特定阈值以下时才会出现的能力,且这些能力无法通过外推高损失模型的性能来预测。这个定义既保留了涌现能力的核心特征(不可预测的跳跃),又提供了一个更本质的度量标准。
反向缩放:更大反而更差
涌现能力的复杂性还体现在一个反直觉的现象上:有时模型越大,表现越差。
2022年,研究者发起了"反向缩放奖"(Inverse Scaling Prize),征集那些大模型表现不如小模型的任务。结果发现了多个有趣的案例:
事后合理化:当模型被要求为一个它最初反对的观点撰写支持论据时,大模型往往比小模型更容易产生令人信服但虚假的论证。
模式匹配陷阱:某些任务需要打破表面模式才能正确回答。大模型因为更强的模式识别能力,反而更容易掉入陷阱。
防御性推理:在需要警惕误导信息的问题上,大模型有时比小模型更容易被看似合理但实际错误的干扰项误导。
有趣的是,后续研究发现,这些"反向缩放"任务中,有相当一部分在模型规模进一步增大时会重新变好——形成所谓的"U形缩放"曲线。这进一步说明了模型能力发展的非线性特征。
量化压缩:涌现能力的脆弱性
涌现能力还引出了一个实际的问题:模型压缩会损失这些来之不易的能力吗?
2023年的研究《Do Emergent Abilities Exist in Quantized Large Language Models》发现,低位宽的量化(如2-bit量化)会对涌现能力造成不成比例的损害。虽然基础语言能力在压缩后保持较好,但那些"涌现"出来的高级能力往往最先消失。
这暗示涌现能力可能依赖于模型参数中的某些"精细结构"——这些结构在粗粒度的压缩中容易被破坏。从另一个角度看,这也说明涌现能力确实具有某种"特殊"的性质,不同于基础的预测能力。
为什么这很重要?
涌现能力的研究不仅是一个学术话题,它直接关系到AI发展的战略和安全。
对于AI开发者:理解涌现能力意味着更好地预测模型能力的边界。如果我们能够预测什么能力会在什么规模下涌现,就可以更有针对性地规划模型训练和部署。
对于AI安全:涌现能力中不仅有我们期待的能力,也可能包含我们担忧的行为。研究表明,某些有害行为(如社会偏见)也可能以涌现的方式突然出现。理解涌现机制,有助于我们提前识别和防范潜在风险。
对于科学哲学:涌现能力挑战了还原论的直觉。一个只被训练做"下一个词预测"的系统,为什么会发展出看似完全不同的能力?这触及了智能的本质问题:复杂行为是否可以从简单规则中涌现?涌现是真实现象,还是我们描述世界的工具?
未解之谜
尽管已经进行了大量研究,涌现能力的核心问题仍未完全解答。
涌现是否可以预测? 这是目前最大的开放问题。虽然预训练损失提供了一个更好的指标,但我们仍然无法精确预测某个特定能力会在何时涌现。
涌现的微观机制是什么? Induction Heads 提供了一个有价值的起点,但涌现能力远不止上下文学习。多步推理、编程、数学计算等高级能力背后的电路机制,仍然是一个黑盒。
涌现是否是好事? 涌现能力带来了惊喜,也带来了不可预测性。在AI安全领域,这种不可预测性是一个核心关切。如果我们无法预测模型会获得什么新能力,也就无法预测模型可能带来的风险。
2025年发布的综述论文《Emergent Abilities in Large Language Models: A Survey》总结了这一领域的现状:涌现能力已经成为理解大模型行为的核心框架之一,但其本质仍是"科学探索的前沿"。这篇综述特别指出,涌现能力的研究正在从单纯的"发现"阶段,进入"解释"和"预测"阶段。
结语:从现象到本质
涌现能力的发现,某种程度上是AI发展的一个转折点。它揭示了规模化训练的复杂性:更大的模型不只是"更强的统计机器",而是可能发展出质变性的新能力。
无论涌现能力最终被证明是"真实"的质变,还是评估指标带来的假象,这个研究本身都在推动我们更深入地理解大模型。正如 Jason Wei 所说,“涌现现象包括风险也包括能力”——理解它,是我们驾驭这场技术革命的关键。
2020年的 Scaling Laws 告诉我们模型会随着规模变得更强;而涌现能力的发现则提醒我们:变强的过程可能充满惊喜与意外。这不是坏事,只是意味着我们需要更加谨慎、更加深入地观察这场正在展开的智能革命。
参考文献
- Wei, J., et al. (2022). Emergent Abilities of Large Language Models. TMLR 2022.
- Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023.
- Olah, C., et al. (2022). In-context Learning and Induction Heads. Transformer Circuits Thread.
- Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
- Du, Z., et al. (2024). Understanding Emergent Abilities of Language Models from the Loss Perspective. NeurIPS 2024.
- Wei, J. (2023). Common arguments regarding emergent abilities. Blog Post.
- Srivastava, A., et al. (2022). Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. TMLR 2022.
- McKenzie, R., et al. (2023). Inverse Scaling: When Bigger Isn’t Better. arXiv:2306.09479.
- Berti, L., et al. (2025). Emergent Abilities in Large Language Models: A Survey. arXiv:2503.05788.
- Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
- Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
- An, S., et al. (2023). Do Emergent Abilities Exist in Quantized Large Language Models. LREC-COLING 2024.
- Ganguli, D., et al. (2022). Predictability and Surprise in Large Generative Models. ACL 2022.
- Quanta Magazine. (2023). The Unpredictable Abilities Emerging From Large AI Models.