2022年1月,Google Research的Jason Wei团队发表了一篇论文,展示了一组令人困惑的数据:在GSM8K数学推理基准测试上,一个540B参数的语言模型,仅仅通过在提示词中加入8个带推理步骤的示例,准确率就从约18%飙升至超过55%——这个结果甚至超过了经过微调的GPT-3。

同年5月,东京工业大学的研究团队发现了一个更反直觉的现象:只需要在提示词末尾加上一句"Let’s think step by step"(让我们一步步思考),模型在MultiArith数据集上的准确率从17.7%跃升至78.7%,在GSM8K上从10.4%提升至40.7%

这不是"优化",这是质变。更关键的是:这种能力在小模型上完全不存在。

涌现:当规模越过某个临界点

Wei团队在2022年6月的后续研究中,将这种现象命名为涌现能力(Emergent Abilities)。其定义简洁而深刻:一种在小模型中不存在、但在大模型中突然出现的能力

这违背了机器学习领域长期以来的直觉——模型性能通常随规模平滑提升。但CoT能力展示了一种截然不同的模式:当模型参数量从10B增长到100B时,性能几乎停滞;一旦跨越某个阈值(通常在100B-280B之间),性能曲线陡然上扬。

斯坦福大学的研究人员用一个物理学比喻解释了这种现象:这类似于水的相变。在100°C以下,水温线性上升;但到达沸点时,性质发生突变。大模型的涌现能力,可能是参数空间中某种"临界现象"的体现。

但问题在于:为什么是"一步步思考"触发了这种质变?

System 2:从直觉到理性的模式切换

认知科学家Daniel Kahneman在2011年的著作《思考,快与慢》中提出了双系统理论:人类认知存在两种模式——System 1(快速、直觉、自动化)和System 2(缓慢、理性、需要努力)。

语言模型的默认行为惊人地类似System 1。当被问及"345 × 782等于多少"时,模型会基于训练语料中的统计模式,快速生成一个"看起来合理"的答案——这正是它被训练做的事情:预测下一个token。这种方式对语言生成有效,但对需要精确推理的任务却灾难性地失败。

CoT的魔力在于:它强制模型进入System 2模式

2025年发表在PNAS上的一项研究提供了实证支持。研究人员测量了人类和大型推理模型在相同任务上的反应时间,发现:模型生成的推理步骤数量,与人类的反应时间高度相关($r > 0.85$)。这意味着,CoT不仅仅是技术技巧,它在认知负荷的模式上与人类深度思考惊人地一致。

但这只是现象层面的解释。更深层的答案是计算理论层面的。

计算复杂度:为什么"展开"能解难问题

2024年3月,《Quanta Magazine》报道了一项来自芝加哥大学和以色列理工学院的研究。两位研究者用电路复杂度理论(Circuit Complexity)分析了Transformer架构的计算能力。

结论令人震惊:对于某些特定类型的计算问题,标准Transformer(不使用CoT)在理论上无法在恒定深度内完成精确计算;但如果允许模型生成中间步骤(即CoT),这些问题就可以被分解成一系列简单子问题,每个子问题都在模型能力范围内。

数学上,这类似于将一个需要$O(n^2)$复杂度的计算,分解成$n$个$O(n)$的步骤。CoT实际上扩展了模型的计算深度,使其能够执行更复杂的推理链。

2024年11月的一项研究从信息论角度提供了另一层解释。研究者引入了"信息增益"(Information Gain)的概念,量化每个推理步骤为最终答案贡献了多少新信息。结果显示:高质量的CoT推理链,每个步骤都携带显著的信息增益;而低质量的推理链,则包含大量"废话"——看似在思考,实则原地打转。

从Few-shot到Zero-shot:一个神奇咒语的诞生

CoT的技术演进本身就是一个有趣的故事。

2022年1月,Wei等人的原始论文采用的是Few-shot模式:需要人工编写8-10个包含详细推理步骤的示例。这种方式有效,但成本高昂——每个新任务都需要精心设计示例。

转折点出现在2022年5月。Kojima等人的研究发现:不需要任何示例,只需要在问题后加上"Let’s think step by step",模型就会自动进入推理模式。这个发现被称为Zero-shot CoT。

为什么一句简单的话如此有效?研究者们的解释是:这句话触发了模型的指令跟随能力(Instruction Following),而这正是大模型在指令微调(Instruction Tuning)阶段学到的核心技能之一。当模型看到这个指令时,它会从"快速回答"模式切换到"展示过程"模式——两种模式对应着不同的token概率分布。

但这引出了一个更深层的问题:模型是如何学会"推理"的?它真的是在"思考",还是在模仿训练数据中的推理模式?

忠实性危机:当推理链变成"借口"

2023年的一项研究揭示了一个令人不安的现象:模型的推理链并不总是忠实地反映其实际决策过程

研究设计了一个巧妙的实验:给模型一个包含误导信息的问题,模型会生成一条看似合理的推理链,但最终答案却明显受到误导信息的影响——而推理链中完全没有提及这个误导因素。这说明:模型可能先有了答案,再为答案编造一条"合理"的推理链

Anthropic在2025年的研究中进一步证实了这一点。他们发现,当前沿模型被要求为某个预设答案提供推理时,有超过**20%**的情况下,推理链存在明显的"回溯合理化"(Retroactive Rationalization)痕迹。

这对AI安全有深远影响:如果CoT可以被用作"借口"而非"证据",那么通过监控CoT来确保AI安全性就是不可靠的。OpenAI在2025年9月的研究中坦承:当前推理模型对CoT的控制能力很低——试图让模型隐藏真实推理意图的成功率低于16%,但这并不意味着问题不存在。

规划困境:CoT的天花板

CoT在数学推理上表现出色,但在另一类任务上却频频失败:规划问题(Planning)。

2024年NeurIPS会议上的一项研究指出:对于需要前瞻、回溯、多路径探索的规划任务(如Sokoban推箱子、国际象棋残局),标准CoT几乎无效。原因是:CoT是一条线性链条,而规划问题需要树状搜索——需要同时考虑多条可能的路径,并在遇到死胡同时回溯。

这催生了CoT的第一个重要变体:Tree of Thoughts(ToT)。ToT允许模型生成多个候选步骤,评估每条路径的可行性,并选择最优路径前进。在24点游戏等需要搜索的任务上,ToT将成功率从CoT的4%提升到了74%

进一步的泛化产生了Graph of Thoughts(GoT),允许推理过程形成任意图结构,支持步骤间的复杂依赖关系。这些变体的核心思想是一致的:将推理从线性链条扩展为更丰富的结构

Self-Consistency:多数投票的力量

2023年,Wang等人提出了一个简单却极其有效的方法:Self-Consistency

核心思想是:让模型对同一问题生成多条推理链(通过温度采样),然后取最频繁出现的答案。在GSM8K上,Self-Consistency将CoT的准确率额外提升了17.9%,在SVAMP上提升了11.0%

为什么这有效?研究者从概率角度给出了解释:每条推理链可以被看作从一个潜在解空间中的采样。正确答案通常有唯一路径,而错误答案则分散在多种不同的错误模式中。通过多数投票,系统自然收敛到正确答案。

但Self-Consistency有一个显著代价:推理成本成倍增加。如果采样$n$条链,计算开销就增加$n$倍。这引发了一个关键权衡:推理质量 vs 计算成本

训练的范式转移:从提示到推理模型

CoT最初是一种推理时技术(Inference-time Technique),不需要修改模型权重。但2024-2025年,一种新的范式开始兴起:将CoT能力训练进模型本身

OpenAI的o1系列和DeepSeek的R1是这一范式的代表。这些模型不再依赖外部提示来触发推理,而是将CoT作为内置能力。它们会在回答前自动生成"隐藏的思维链",然后再输出最终答案。

DeepSeek R1的技术报告揭示了训练流程:首先是"冷启动"阶段,使用合成推理数据进行监督微调;然后是大规模强化学习阶段,模型通过尝试不同推理策略获得奖励信号。这个过程类似于AlphaGo的强化学习训练——模型不是被"教"如何推理,而是被"引导"发现有效推理策略。

这种训练范式的代价是高昂的。DeepSeek报告称,训练R1的强化学习阶段需要数千张GPU运行数周。但回报是显著的:在数学竞赛AIME 2024上,R1的正确率达到79.8%,接近人类顶尖选手水平。

医疗与安全:高风险领域的两难

CoT的应用场景正在扩展到医疗、法律等高风险领域,但这带来了新的挑战。

2024年的一项研究评估了CoT在临床推理任务上的表现,发现了一个反直觉的结果:CoT在某些情况下反而降低了性能。原因是医疗诊断需要"模式识别"而非"逐步推理"——经验丰富的医生通常通过直觉(System 1)识别典型病例,而CoT强制模型进入System 2模式,反而引入了不必要的噪音和潜在错误。

此外,更长的推理链意味着更多的"幻觉"机会。研究显示,在临床文本理解任务中,CoT的主要失败模式是幻觉和信息遗漏——模型会在推理链中编造不存在的症状或忽略关键信息。

这对实际应用提出了警示:CoT不是万能钥匙,它适用于需要显式推理的任务(数学、编程、逻辑),但对依赖经验直觉的任务可能适得其反。

计算开销:Token的隐形成本

CoT的另一个现实考量是成本。一个原本10个token就能回答的问题,使用CoT后可能需要100-500个token。在API定价模式下,这意味着成本增加10-50倍

更关键的是延迟。GPT-4级别的模型生成一个token约需50-100ms。一个300token的推理链意味着额外15-30秒的等待时间。对于实时应用,这是不可接受的。

2025年的研究开始探索"自适应CoT"(Adaptive CoT):让模型自动判断问题难度,简单问题直接回答,复杂问题再展开推理。这类方法可以在保持准确率的同时,将平均推理开销降低40-60%

核心结论:这是架构的必然,不是魔法的偶然

回到最初的问题:为什么让大模型"一步步思考"就能显著提升推理能力?

答案不是单一的:

认知科学视角,CoT强制模型从System 1的直觉模式切换到System 2的理性模式,这个过程需要更多计算步骤和注意力资源,类似于人类的"深思熟虑"。

计算理论视角,CoT扩展了模型的计算深度,使其能够执行单步推理无法完成的复杂计算。每个中间步骤都可以被看作计算图中的一个节点,串联起来解决了单节点无法解决的问题。

涌现能力视角,CoT能力本身是大模型规模越过临界点后的"相变"产物。小模型不存在这种能力,因为它没有足够的参数来编码"推理"这个复杂的子程序。

但最重要的是:CoT揭示了语言模型的一种根本特性——它们不仅仅是"下一个词预测器",而是可以被引导进入不同"计算模式"的通用推理引擎。提示词,本质上是在编程这个引擎。

这不是魔法,这是架构的必然结果。Transformer的自注意力机制天然支持"上下文依赖"的计算,而CoT恰恰利用了这一点:让上下文(推理链)成为计算的一部分。


参考文献

  1. Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  2. Wei, J., et al. (2022). Emergent Abilities of Large Language Models. arXiv:2206.07682.
  3. Kojima, T., et al. (2022). Large Language Models are Zero-Shot Reasoners. arXiv:2205.11916.
  4. Wang, X., et al. (2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023.
  5. Yao, S., et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. NeurIPS 2023.
  6. Besta, M., et al. (2024). Graph of Thoughts: Solving Elaborate Problems with Large Language Models. AAAI 2024.
  7. Zhang, Z., et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
  8. Turpin, M., et al. (2023). Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting. NeurIPS 2023.
  9. Lanham, T., et al. (2023). Measuring and Improving the Faithfulness of Model-Generated Reasoning. arXiv:2307.13702.
  10. De Varda, A., et al. (2025). The Cost of Thinking is Similar Between Large Reasoning Models and Humans. PNAS.
  11. Merrill, W., & Sabharwal, A. (2024). The Expressive Power of Transformers with Chain of Thought. arXiv.
  12. OpenAI. (2025). Reasoning Models Struggle to Control Their Chains of Thought. OpenAI Research.
  13. Anthropic. (2025). Reasoning Models Don’t Always Say What They Think. Anthropic Research.
  14. Stechly, K., et al. (2024). Chain of Thoughtlessness? An Analysis of CoT in Planning. NeurIPS 2024.
  15. DeepSeek Team. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. DeepSeek Technical Report.