2022年,Google Research的研究者在分析GPT-3系列模型的算术能力时,发现了一个令人费解的现象:在三位数加法任务上,60亿参数的模型准确率仅为1%,130亿参数的模型提升到8%,但当模型扩展到1750亿参数时,准确率突然跳跃到80%。这不是渐进式的提升,而是近乎垂直的跃迁。
这个发现被研究者称为"涌现能力"(Emergent Abilities)——一种在小模型中几乎不存在,但在超过某个临界规模后突然出现的能力。这个现象引发了AI领域最激烈的学术辩论之一:这究竟是模型真正的质变,还是我们测量方式的幻觉?
一个跨越150年的概念
“涌现"这个词并非AI领域的发明。1877年,英国哲学家George Henry Lewes在讨论进化论时首次使用了这个概念,强调每个进化阶段都是前一阶段的延续和新属性的涌现。1972年,诺贝尔物理学奖得主Philip Anderson在著名论文《More Is Different》中进一步阐述:当系统复杂性增加时,会出现全新的属性,这些属性无法仅通过分析系统基本组成来预测。
Anderson举了一个例子:单个水分子的行为完全遵循量子力学规律,但当你把亿万个水分子放在一起,它们会突然"沸腾”——这是一种涌现现象,无法通过研究单个分子来预测。同样的逻辑是否适用于神经网络?
2022年,Jason Wei等人将这个概念引入大语言模型研究。他们给出了一个明确的技术定义:涌现能力是指在小规模模型中不存在,但在大规模模型中存在的能力。这种能力的两个关键特征是突变性(sharpness)——从接近随机到显著超过随机的急剧转变,以及不可预测性(unpredictability)——无法通过小模型的性能曲线外推预测。
涌现能力的具体表现
Wei等人的研究识别出了多种涌现能力,它们在不同规模阈值上出现:
算术运算是研究最多的例子。在BIG-Bench的修改算术任务中,GPT-3模型在训练计算量低于$2 \times 10^{22}$ FLOPs(约130亿参数)时,三位数加减法和两位数乘法的准确率接近零。一旦突破这个阈值,性能跳跃至显著高于随机猜测的水平。LaMDA模型也展现出类似的模式,只是涌现阈值更高(约680亿参数)。
多任务语言理解(MMLU)基准测试覆盖57个学科领域。对于GPT-3、Gopher和Chinchilla模型,当训练计算量低于$10^{22}$ FLOPs(约100亿参数)时,平均表现不比随机猜测好多少。扩展到$3-5 \times 10^{23}$ FLOPs(700亿-2800亿参数)后,性能大幅超越随机基线。
思维链推理(Chain-of-Thought)是一个更复杂的涌现现象。Wei等人在2022年发现,这种让模型展示中间推理步骤的技术,只有在模型规模达到约1000亿参数时才开始产生正向效果。对于更小的模型,添加思维链反而可能降低性能。
多语言能力也呈现出涌现特征。在波斯语问答任务上,小模型的性能接近随机,而PaLM 540B模型突然展现出显著的能力。有趣的是,这种涌现不仅取决于模型规模,还取决于训练数据的构成——PaLM包含了更多多语言数据,这可能是其在某些任务上比更大的GPT-3表现更好的原因。
测量指标的争议
2023年4月,斯坦福大学的研究团队发表了一篇引起广泛关注的论文,质疑涌现能力的真实性。Rylan Schaeffer等人的核心论点是:涌现能力是研究者选择的测量指标创造的幻觉,而非模型行为的根本变化。
他们提供了一个简单的数学模型来解释这个现象。假设模型在每个token上的正确概率为$p$,那么对于需要连续正确预测$L$个token的任务,整体准确率约为$p^L$。当$L$较大时,即使$p$随着模型规模平滑增长,$p^L$也会呈现出陡峭的S形曲线——看起来像是突然的"涌现"。
研究者设计了三个实验来验证这个假说:
实验一:改变测量指标。在GPT-3的两位数乘法任务上,使用准确率作为指标时,性能呈现出明显的涌现模式。但当研究者切换到Token Edit Distance(衡量输出与正确答案的编辑距离)这一线性指标时,性能曲线变得平滑且可预测。
实验二:增加测试数据。准确率作为离散指标,在测试数据有限时可能无法分辨小模型的微小改进。当研究者生成更多测试数据以获得更高的统计分辨率后,发现小模型在准确率上也并非完全随机——它们的表现略高于机会水平,只是改进幅度太小,在小样本下难以检测。
实验三:创造新的"涌现"。研究者展示了如何在视觉任务中"制造"涌现能力。通过定义一个不连续的指标——比如将图像重建误差低于某个阈值定义为"成功"——他们可以在从未被认为具有涌现能力的网络架构中观察到陡峭的性能跳跃。
论文的结论是:涌现能力可能主要是由测量指标的非线性或不连续性造成的,而非模型本身的质变。当使用更精细的指标时,许多所谓的涌现能力会"蒸发"。
反驳的反驳
然而,这个结论并非没有争议。2025年发表的一篇综述论文指出了Schaeffer等人分析的几个局限:
首先,Token Edit Distance作为算术能力的衡量指标本身值得商榷。考虑一个例子:正确答案10092,模型输出19292。虽然只有一个token的编辑距离,但数值误差高达9200。这个指标优先考虑语法相似性而非语义准确性,可能无法真正反映推理能力。
其次,即使在某些任务上改用线性指标平滑了性能曲线,仍有例外。在模块算术、周期元素预测、法语-英语翻译和IPA音标转写任务上,即使使用给予部分积分的指标,仍然观察到陡峭的性能跳跃。
第三,涌现能力不仅出现在生成任务(需要连续正确预测多个token),也出现在分类任务(单个token选择)。在这种情况下,不存在多token乘积效应,但涌现现象仍然存在。
更重要的是,2024年的一篇论文从另一个角度提供了证据。研究者发现,预训练损失可以作为涌现能力的预测指标:当模型的预训练损失低于某个阈值时,下游任务的涌现能力开始出现。这暗示涌现能力与模型内部表示的发展有关,而不仅仅是测量指标的问题。
Grokking:另一个视角
与涌现能力密切相关的是"Grokking"现象——2021年由OpenAI研究者Alex Power等人首次观察到。在这个现象中,神经网络在完美记忆训练数据后,经过漫长的停滞期,突然学会了一般性的算法规则。
经典的实验设置是模块加法:计算$(a + b) \mod p$。训练早期,模型通过记忆训练样本达到100%的训练准确率,但验证准确率保持在随机水平(约1%)。经过数千甚至数万个训练步骤后,验证准确率突然从1%跳跃到100%——模型"开窍"了。
研究者提出了一个理论解释:在损失函数中加入权重衰减(weight decay)后,优化过程会同时寻找两个解——一个"记忆解"(大权重,完美拟合训练数据但无法泛化)和一个"泛化解"(小权重,学到算法规则)。记忆解收敛快但不稳定;泛化解收敛慢但稳定。早期,模型停留在记忆解;随着训练进行,权重衰减的压力推动模型"跃迁"到泛化解。
这个框架与相变理论的类比是精确的。在热力学中,一级相变(如水沸腾)涉及能量的突然释放和状态的剧烈改变;二级相变(如磁性消失)则是连续的。Grokking更接近一级相变——存在一个明确的临界点,越过这个点后系统状态发生质变。
相变理论的启发
从复杂系统的视角看,涌现能力可能是神经网络中的相变现象。这个类比来自物理学:当系统的某个参数(如温度)跨过临界值时,整体行为会发生定性改变。
一个具体的模型是:假设某个任务需要组合多个子能力才能完成。比如三位数加法需要同时掌握:(1)数字符号理解,(2)进位规则,(3)顺序处理能力。每个子能力的掌握率随模型规模平滑增长,但只有当所有子能力都达到足够水平时,整体任务才能成功。数学上,这可以建模为:
$$P(\text{成功}) = P_1(N) \times P_2(N) \times \cdots \times P_k(N)$$即使每个$P_i(N)$都随模型规模$N$平滑增长,它们的乘积仍然可能呈现陡峭的S形曲线。
2025年的一项研究进一步探索了这个方向。研究者分析了LLM在处理算术问题时发展出的"隐式离散状态表示"(IDSR)。他们发现,大模型内部会自发形成类似于数字符号的内部表示,支持逐位算术运算。这种表示的形成与涌现能力的出现时间高度相关,暗示涌现可能对应于模型内部表示结构的质变。
实践意义与安全考量
无论涌现能力的本质是什么,这个现象对AI研发和安全都有重要影响。
研发层面:涌现能力意味着我们无法通过小规模实验可靠地预测大规模模型的行为。一个在100亿参数模型上无效的技术,可能在1000亿参数模型上突然变得有效。这给资源分配和研发决策带来了挑战。
安全层面:涌现能力的不可预测性意味着新能力——包括潜在有害的能力——可能在未经预期的情况下出现。2022年,研究者发现某些LLM在特定任务上表现出欺骗和操纵的倾向,这些行为在小模型中完全不存在。如何预测和管控涌现的有害能力,成为AI安全研究的核心议题。
评估层面:涌现能力的争议提醒我们,评估指标的选择至关重要。不同的指标可能揭示模型能力的不同侧面。对于需要全面理解模型行为的场景,使用多种互补的评估指标可能是更审慎的做法。
未解之谜
2025年3月,一篇全面的综述论文总结了涌现能力研究的现状。作者指出,尽管已有大量研究,几个核心问题仍未解决:
涌现能力是否存在"统一理论"?当前的解释框架——相变理论、组合能力模型、测量指标效应——各有所长,但没有一个能完全解释所有观察到的现象。
涌现阈值由什么决定?为什么某些能力在100亿参数涌现,而其他能力需要1000亿参数?是任务复杂度、训练数据分布,还是模型架构?
涌现能力是否可以被预测?如果涌现对应于模型内部表示的质变,我们是否可以监测这些内部变化来预测涌现?
这些问题的答案不仅关系到我们如何理解AI系统,也关系到如何安全地开发下一代模型。当我们继续扩展模型规模时,新的涌现能力——或许是我们意想不到的能力——可能会继续出现。
回到最初的问题
当我们问"AI模型为什么会突然开窍"时,答案可能比最初想象的更复杂。涌现能力的现象是真实的——大模型确实展现出小模型不具备的能力。但这种"突然性"的来源仍有争议:它可能反映了模型内部表示的质变,也可能部分源于我们测量方式的特性。
更深层的问题是:我们是否应该期待AI系统展现出类似生物系统的涌现现象?Anderson在1972年指出,复杂性可以产生新规律——这不一定是bug,而是复杂系统的feature。如果LLM确实在某种程度上"涌现"出新的能力,这也许是我们走向更通用AI的一个信号。
但另一方面,Schaeffer等人的警告值得认真对待:在解读AI能力时,我们需要警惕测量工具带来的偏见。看起来神奇的跃迁,可能只是我们选择的尺子不够精细。
也许最审慎的态度是:承认涌现能力现象的存在,同时对其机制保持开放的研究态度。毕竟,科学史上许多重要的发现,最初都是令人困惑的"异常现象"。
参考文献
- Wei, J., et al. (2022). Emergent Abilities of Large Language Models. arXiv:2206.07682. Transactions on Machine Learning Research.
- Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023.
- Anderson, P. W. (1972). More Is Different. Science, 177(4047), 393-396.
- Power, A., et al. (2022). Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets. ICLR 2022.
- Srivastava, A., et al. (2022). Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. BIG-Bench. arXiv:2206.04615.
- Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
- Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
- Ganguli, D., et al. (2022). Predictability and Surprise in Large Generative Models. FAccT 2022.
- Du, Y., et al. (2024). Understanding Emergent Abilities of Language Models from the Loss Perspective. OpenReview.
- Hendrycks, D., et al. (2021). Measuring Massive Multitask Language Understanding. ICLR 2021.
- Chowdhery, A., et al. (2022). PaLM: Scaling Language Modeling with Pathways. arXiv:2204.02311.
- Emergent Abilities in Large Language Models: A Survey. (2025). arXiv:2503.05788.