CPU乱序执行的六十年博弈：从Tomasulo的远见到Spectre的惊雷

2018年1月3日，安全研究领域发生了计算机历史上最震撼的事件之一：两个独立的研究团队同时披露了影响全球数十亿设备的CPU漏洞——Meltdown和Spectre。这两个漏洞的根源指向了现代处理器的核心优化技术：乱序执行（Out-of-Order Execution）和推测执行（Speculative Execution）。

这不是一次普通的软件漏洞。它触及了处理器设计的最底层假设，揭示了过去二十年被视为"性能神器"的技术，竟然在安全层面埋下了深埋已久的定时炸弹。

一个1967年的算法如何改变了计算世界

乱序执行的故事始于一个看似简单的问题：当一条指令等待数据时，为什么CPU必须停下来等待？

1967年，IBM的Robert Tomasulo在System/360 Model 91的浮点单元中实现了革命性的解决方案。他的算法允许处理器在一条指令被阻塞时，继续执行后续不依赖于该指令的其他指令。这项工作发表在IBM Journal of Research and Development上，题为《An Efficient Algorithm for Exploiting Multiple Arithmetic Units》。

Tomasulo算法引入了三个核心概念，至今仍是现代处理器的基础：

保留站（Reservation Station）：每个执行单元都有一个等待队列，存储着等待执行的指令及其操作数。当所有操作数就绪时，指令就可以被执行，无论它在程序中的原始顺序如何。

公共数据总线（Common Data Bus, CDB）：一条广播总线，当某个执行单元完成计算时，结果通过CDB广播给所有等待这个数据的保留站。这消除了显式的寄存器依赖检查——保留站只需监听总线上的标签即可。

寄存器重命名（Register Renaming）：这是消除假依赖的关键。当多条指令写入同一个寄存器时，处理器为每次写入分配不同的物理寄存器，使得后续读取该寄存器的指令可以正确跟踪数据来源。

sequenceDiagram
    participant IQ as 指令队列
    participant RS as 保留站
    participant FU as 执行单元
    participant CDB as 公共数据总线
    participant ROB as 重排序缓冲区
    
    IQ->>RS: 发射指令(带标签)
    RS->>RS: 等待操作数就绪
    RS->>FU: 操作数就绪,开始执行
    FU->>CDB: 广播结果(带标签)
    CDB->>RS: 更新等待中的操作数
    CDB->>ROB: 写入结果
    ROB->>ROB: 按序提交到架构寄存器

Tomasulo因此获得了1997年的Eckert-Mauchly奖。但有趣的是，他的算法在IBM之外沉寂了将近三十年。直到1990年代，三个因素的汇聚才让乱序执行成为主流：缓存变得普遍，使得内存访问延迟变得不可预测；超标量处理器需要更多指令级并行；以及大众市场软件使得针对特定流水线优化代码变得不切实际。

Pentium Pro：将乱序执行带入x86世界

1995年11月1日，Intel发布了Pentium Pro。这是第一款实现乱序执行的x86处理器，采用了全新的P6微架构。

P6架构的设计师Fred Pollack面临一个特殊挑战：x86指令集的复杂性。与RISC处理器不同，x86指令长度不一，从1字节到15字节不等，且语义复杂。Pollack的解决方案是引入微操作（micro-ops, µops）——将复杂的x86指令翻译成类似RISC的内部操作。

例如，指令ADD EAX, [MEM]会被翻译成两个µop：一个从内存加载数据，另一个执行加法。这种分解使得乱序调度器可以独立调度每个操作——即使加法操作的数据还没准备好，内存加载也可以提前开始。

Pentium Pro的重排序缓冲区（Reorder Buffer, ROB）可以跟踪40条在途指令。这个数字在今天看来微不足道，但在当时是革命性的。ROB的核心作用是确保指令按程序顺序提交——即使它们乱序执行，最终的结果写入也必须遵循原始顺序，这样当发生异常或分支预测错误时，处理器可以精确地回滚到正确状态。

P6架构的影响力持续了超过十年。从Pentium Pro到Pentium III，再到Core 2和Nehalem，这一脉相承的设计统治了Intel的产品线直到2006年Core架构取代NetBurst为止。

乱序执行的三大支柱

现代乱序处理器的实现依赖三个紧密协作的硬件结构：

重排序缓冲区（ROB）

ROB是一个循环队列，按程序顺序存储所有在途指令。每条指令在解码时被分配一个ROB条目，记录其状态：是否已执行、结果值、以及异常信息。指令只有在ROB头部且已成功执行时才能提交（Retire）。

ROB的大小直接决定了处理器的"指令窗口"——即处理器可以在多大范围内寻找并行性。Intel Core 2的ROB有96个条目，Sandy Bridge增加到168个，Skylake达到224个，而Golden Cove（Alder Lake的性能核心）则拥有512个条目。

AMD的演进同样激进：Zen 1有192个条目，Zen 2增加到224个，Zen 3达到256个，Zen 4有320个，而Zen 5则拥有惊人的448个条目。

Apple的M系列芯片更是将这一数字推向极致。M1的Firestorm核心拥有约630个ROB条目，这解释了为什么Apple Silicon在单线程性能上能够超越传统x86处理器——巨大的指令窗口允许处理器在更长的内存延迟下保持高吞吐量。

保留站与调度器

保留站是乱序执行的核心决策点。每个保留站条目存储一条指令及其操作数（或操作数的标签）。调度器在每个周期扫描所有就绪的指令，选择发送到空闲执行单元。

Intel Skylake有97个保留站条目，分布在多个调度器队列中。AMD Zen架构使用统一的调度器设计，Zen 3有256个调度器条目。

寄存器重命名

x86-64只有16个通用寄存器，但物理寄存器文件（Physical Register File, PRF）要大得多。Skylake有224个整数物理寄存器和128个向量物理寄存器。每次指令写入架构寄存器时，重命名逻辑分配一个新的物理寄存器，并更新寄存器别名表（Register Alias Table, RAT）。

这消除了WAR（Write-After-Read）和WAW（Write-After-Write）假依赖。例如：

mov eax, [mem1]   ; 物理寄存器P1分配给EAX
imul eax, 5       ; 物理寄存器P2分配给EAX
mov [mem2], eax   ; 读取P2
mov eax, [mem3]   ; 物理寄存器P3分配给EAX
add eax, 2        ; 物理寄存器P4分配给EAX
mov [mem4], eax   ; 读取P4

第二组和第四条指令链与第一组和第三条完全独立。通过重命名，处理器可以并行执行这些独立的计算链。

推测执行：赌上性能的豪赌

乱序执行解决的是数据依赖问题，但控制依赖——分支指令——是另一回事。当遇到条件跳转时，处理器不知道下一步该执行哪条指令。

推测执行（Speculative Execution）的解决方案是：猜测。分支预测器（Branch Predictor）根据历史记录预测分支的方向和目标，处理器沿着预测路径执行指令。如果预测正确，节省了大量时间；如果预测错误，刷新流水线，丢弃所有推测执行的结果。

Intel从Pentium开始使用简单的2位饱和计数器进行分支预测，到Pentium Pro引入两级自适应预测器，再到现代处理器使用复杂的神经网络预测器（如感知机预测器）和TAGE（TAgged GEometric history length）预测器，预测准确率已经超过95%。

但推测执行的代价是：所有推测执行的指令在分支结果确认前都不能提交。它们的结果存储在ROB中，直到分支被解析。如果预测错误，整个ROB中属于推测路径的条目被清除。

正是这个机制，在2018年引发了安全灾难。

Spectre与Meltdown：二十年的安全债务

2018年1月，三个研究团队独立披露了影响几乎所有现代处理器的安全漏洞。

Meltdown：打破用户与内核的边界

Meltdown（CVE-2017-5754）允许用户态程序读取内核内存。其核心原理是：

处理器在推测执行时不检查内存权限，只有到提交时才检查
当推测执行的指令读取了它不该访问的内存时，最终会被丢弃
但是，推测执行期间访问的数据会被加载到缓存中
通过侧信道（如Flush+Reload）可以检测哪些数据在缓存中

这打破了操作系统最基本的安全边界——用户态与内核态的隔离。攻击者可以读取内核空间的所有数据，包括密码、密钥和其他进程的内存。

Meltdown主要影响Intel处理器（从1995年以来的几乎所有型号），AMD和ARM受影响较小。原因是Intel在进行权限检查的时机与其他厂商不同。

Spectre：更普遍也更难修复

Spectre（CVE-2017-5753和CVE-2017-5715）影响更广泛——Intel、AMD、ARM，几乎所有现代处理器都在其列。

Spectre的核心是"欺骗"受害者程序在推测执行期间访问敏感数据。最经典的变体（Spectre v1）利用条件分支误预测：

if (x < array1_size) {
    y = array2[array1[x] * 256];
}

攻击者通过训练分支预测器，使其预测条件为真，然后提供一个越界的x值。在预测错误被发现和回滚之前，array1[x]已经读取了敏感数据，而基于该值的内存访问模式已经影响了缓存状态。

后续漏洞家族

Meltdown和Spectre只是开始。2018年8月，L1 Terminal Fault（L1TF，又称Foreshadow）被披露，它利用了TLB缺失时的推测执行行为。2019年5月，Microarchitectural Data Sampling（MDS）漏洞家族（ZombieLoad、RIDL、Fallout）揭示了乱序执行中其他微架构结构的泄露风险。

Spectre v4（Speculative Store Bypass）则利用了Store-to-Load Forwarding机制。当处理器在推测执行期间猜测一个Load不需要等待之前的Store时，可能读取到错误的数据——这些数据会通过缓存侧信道泄露。

缓解措施的代价

面对这些漏洞，业界采取了一系列软件和硬件缓解措施，但都伴随着性能代价。

KPTI/KAISER

针对Meltdown的主要缓解措施是内核页表隔离（Kernel Page Table Isolation, KPTI）。传统上，内核页表映射保留在用户进程的页表中，只是用户态无权访问。KPTI将用户态和内核态完全分离，每次系统调用都需要切换页表。

这意味着每次系统调用都要付出额外的TLB刷新代价。根据Phoronix的测试，KPTI对I/O密集型工作负载的性能影响可达5-35%，虽然实际影响因工作负载而异。

Retpoline

针对Spectre v2（分支目标注入），Google提出了Retpoline（Return Trampoline）技术。它将间接分支转换为一个永远不会被推测执行的返回指令序列：

call set_up_target
capture_spec:
    pause ; 这是一个无限循环，永远不会被执行
    jmp capture_spec
set_up_target:
    mov %rax, (%rsp) ; 将目标地址写入返回地址
    ret ; 返回到目标，但不会被推测执行

Retpoline的有效性依赖于处理器的返回预测器（Return Stack Buffer, RSB）不会预测到这个"陷阱"循环。但这也带来了性能代价——间接调用变得更加昂贵。

Intel后来在硬件层面引入了间接分支限制推测（Indirect Branch Restricted Speculation, IBRS）和单线程间接分支预测器（Single Thread Indirect Branch Predictors, STIBP），但早期实现导致了显著的性能下降。

硬件修复

新一代处理器在硬件层面修复了这些问题。Intel从Whiskey Lake开始引入硬件缓解措施，AMD从Zen 2开始内置Spectre防护。但这些修复本身也带来面积和功耗代价——更多的检查逻辑意味着更复杂的芯片。

对开发者的启示：内存序与并发编程

乱序执行和推测执行不仅是硬件细节，它们直接影响并发程序的正确性。

内存模型与内存屏障

现代处理器对内存操作的乱序程度不同。x86采用相对严格的TSO（Total Store Order）模型，只允许Store-Load重排。ARM和Power则采用更宽松的模型，允许几乎所有类型的重排。

这就是为什么无锁编程需要显式的内存屏障。在x86上，MFENCE指令确保所有之前的内存操作在之后的操作之前完成。在ARM上，DMB指令提供类似功能。

C++11引入了原子操作和内存序，将这些问题抽象为语言层面：

// Relaxed: 只保证原子性，不保证顺序
std::atomic<int> x{0};
x.store(1, std::memory_order_relaxed);

// Acquire-Release: 建立同步点
x.store(1, std::memory_order_release);  // 释放
int v = y.load(std::memory_order_acquire);  // 获取

// Sequential Consistency: 全局统一顺序
x.store(1, std::memory_order_seq_cst);

Store Buffer与可见性

即使在一个处理器上按顺序执行了两条Store指令，其他处理器可能以不同顺序观察到这些写入。这是因为Store Buffer——处理器将写入操作先存入Store Buffer，然后异步写回缓存。

这就是为什么著名的双重检查锁定（Double-Checked Locking）模式在缺乏适当同步时会失败：

// 错误的实现！
if (instance == nullptr) {
    lock.acquire();
    if (instance == nullptr) {
        instance = new Singleton();  // 可能被重排
    }
    lock.release();
}

new操作涉及内存分配和构造函数调用，这两个操作可能被重排，导致其他线程看到部分初始化的对象。

性能的代价：ROB大小的演进

ROB大小的演进揭示了一个深层趋势：为了榨取更多指令级并行，处理器需要越来越大的指令窗口。

处理器	年份	ROB大小	代表产品
Intel Pentium Pro	1995	40	Pentium Pro
Intel Core 2	2007	96	Core 2 Quad
Intel Sandy Bridge	2011	168	Core i7-2600
Intel Haswell	2013	192	Core i7-4770
Intel Skylake	2015	224	Core i7-6700
Intel Golden Cove	2021	512	Core i9-12900K
AMD Zen 1	2017	192	Ryzen 1800X
AMD Zen 3	2020	256	Ryzen 5950X
AMD Zen 4	2022	320	Ryzen 7950X
AMD Zen 5	2024	448	Ryzen 9950X
Apple M1 Firestorm	2020	~630	M1
Apple A14 Firestorm	2020	~630	iPhone 12

Apple M系列的巨大ROB是其在移动设备上实现桌面级性能的关键因素之一。更大的指令窗口意味着处理器可以容忍更长的内存延迟，在有缓存缺失时仍能找到有用的工作。

但这也有代价。更大的ROB意味着更多的状态需要跟踪，更多的检查需要在推测执行回滚时进行，更大的芯片面积和功耗。这也是为什么乱序执行在低功耗处理器（如Intel Atom早期版本和ARM Cortex-A53）中长期缺席的原因。

尾声：安全与性能的永恒张力

乱序执行和推测执行的故事，是计算机工程中永恒权衡的缩影。

1967年Tomasulo的目标是充分利用昂贵的浮点单元，让它们尽可能少地空闲。1995年Intel的目标是在保持x86兼容性的同时，追赶RISC处理器的性能。2018年的安全研究者揭示的则是：这些优化在获得性能收益的同时，也引入了全新的攻击面。

这不是一个"设计失误"可以简单概括的问题。推测执行是处理器性能的关键——如果每次分支都要等待结果确认，现代CPU的性能将倒退十年以上。KPTI、Retpoline等缓解措施的性能代价证明了这一点。

更重要的是，这些漏洞揭示了安全研究中的一个深层原理：安全边界必须与抽象边界对齐。操作系统的用户/内核边界是一个抽象层面的边界，但处理器在推测执行时越过了这个边界。缓存是一个性能优化的抽象，但侧信道攻击穿透了这个抽象。

2024年，新的瞬态执行攻击变种仍在被发现。Intel、AMD、ARM都在新一代处理器中引入了更深入的硬件缓解措施。但乱序执行作为现代处理器性能的基石，不太可能被放弃。我们正在学习如何与这个强大的技术安全地共存——这需要硬件设计者、操作系统开发者、编译器工程师和应用开发者的共同努力。

正如Spectre论文的标题所言：Exploiting Speculative Execution。推测执行本身不是错误，但我们必须理解它的全部含义——包括安全和性能两个维度。这可能是计算机工程留给我们的最深刻教训之一。

参考资料

Tomasulo, R. M. (1967). “An Efficient Algorithm for Exploiting Multiple Arithmetic Units”. IBM Journal of Research and Development. 11 (1): 25–33.
Intel Corporation. (1995). Pentium Pro Processor Developer’s Manual.
Kocher, P., et al. (2019). “Spectre Attacks: Exploiting Speculative Execution”. IEEE S&P 2019.
Lipp, M., et al. (2018). “Meltdown: Reading Kernel Memory from User Space”. USENIX Security 2018.
Agner Fog. (2025). “The microarchitecture of Intel, AMD, and VIA CPUs”. Technical University of Denmark.
Wong, H. (2013). “Measuring Reorder Buffer Capacity”. stuffedcow.net.
Gruss, D. (2019). “The Evolution of Transient-Execution Attacks”. Graz University of Technology.
Intel Corporation. (2018). “Retpoline: A Branch Target Injection Mitigation”.
Brendan Gregg. (2018). “KPTI/KAISER Meltdown Initial Performance Regressions”.
Hennessy, J. L., Patterson, D. A. (2012). Computer Architecture: A Quantitative Approach.

一个1967年的算法如何改变了计算世界#

Pentium Pro：将乱序执行带入x86世界#

乱序执行的三大支柱#

重排序缓冲区（ROB）#

保留站与调度器#

寄存器重命名#

推测执行：赌上性能的豪赌#

Spectre与Meltdown：二十年的安全债务#

Meltdown：打破用户与内核的边界#

Spectre：更普遍也更难修复#

后续漏洞家族#

缓解措施的代价#

KPTI/KAISER#

Retpoline#

硬件修复#

对开发者的启示：内存序与并发编程#

内存模型与内存屏障#

Store Buffer与可见性#

性能的代价：ROB大小的演进#

尾声：安全与性能的永恒张力#

更多精彩内容

分支预测：从CPU性能神器到被黑客武器化的二十年

内存序为何多线程程序需要六种不同的同步语义

内存比特翻转的隐形威胁：从宇宙射线到Rowhammer的五十年技术博弈

内存屏障：多核编程中被误解最深的概念

为什么CPU的字节序至今无法统一：从鸡蛋争议到网络标准