1971年,Intel 4004处理器的频率是740kHz。三十年后的2000年,AMD Athlon突破1GHz大关,频率提升了超过1000倍。然而,当你打开今天最新的电脑,任务管理器里显示的CPU频率很可能仍在4-5GHz左右徘徊——和二十年前几乎没有变化。
这不是工程师们偷懒,而是一道物理学定律在2004年突然"关上了门"。这一年,Intel取消了一款计划达到7GHz的处理器项目,整个行业被迫转向一条完全不同的道路。
一个被遵循了三十年的"免费午餐"
1974年,IBM研究员Robert Dennard在《IEEE固态电路期刊》上发表了一篇论文,标题是《Design of Ion-Implanted MOSFET’s with Very Small Physical Dimensions》。这篇论文提出了一个看似简单的规则:当你把晶体管的尺寸缩小为原来的 $1/\kappa$ 时,同时将电压也降低为原来的 $1/\kappa$,那么晶体管的功耗将降为原来的 $1/\kappa^2$,而开关速度却提升 $\kappa$ 倍。
这被称为Dennard缩放定律(Dennard Scaling),它带来了一个令人兴奋的结论:功耗密度保持不变。
用数学语言描述,当晶体管的线性尺寸从 $L$ 缩小到 $L/\kappa$ 时:
| 参数 | 缩放因子 |
|---|---|
| 面积 | $1/\kappa^2$ |
| 电压 | $1/\kappa$ |
| 电流 | $1/\kappa$ |
| 延迟 | $1/\kappa$ |
| 功耗 | $1/\kappa^2$ |
| 功耗密度 | $1$ |
这意味着,即使芯片上的晶体管数量翻倍,整体功耗仍然可以保持不变。与摩尔定律(晶体管数量每两年翻倍)结合后,工程师们获得了一份"免费午餐":更多的晶体管、更高的频率,却不需要担心散热问题。
从1974年到2004年,这个定律完美运行了三十年。处理器的频率从几MHz飙升到几GHz,晶体管数量从几千增长到几亿,但功耗始终维持在可控范围内。
为什么"免费午餐"终结了
Dennard缩放定律有一个隐藏的前提:亚阈值斜率(Subthreshold Slope)也会随之缩放。然而,这是一个不成立的假设。
亚阈值斜率描述的是晶体管在关闭状态下漏电流随栅极电压变化的速率。当栅极电压低于阈值电压时,晶体管理应完全关闭,但实际上仍会有少量电流漏过。这个漏电流的大小与温度呈指数关系:
$$I_{sub} \propto e^{\frac{V_{gs} - V_{th}}{nV_T}}$$其中 $V_T = kT/q$ 是热电压,在室温下约为26mV。关键问题在于:亚阈值斜率无法随着晶体管尺寸缩小而改善,它被物理学锁定在大约60mV/decade(每十倍电流变化需要60mV电压变化)。
当晶体管缩小到90nm节点(约2004年)时,问题爆发了。为了维持性能,阈值电压 $V_{th}$ 必须随电源电压一起降低。但阈值电压越低,漏电流就越大——呈指数级增长。Dennard论文中那句被忽视的警告变成了现实:
“In order to design devices for operation at room temperature and above, one must accept the fact that the subthreshold behavior does not scale as desired.”
结果是一个恶性循环:晶体管越小,漏电流越大;漏电流越大,静态功耗越高;功耗越高,芯片越热;芯片越热,漏电流又进一步增加。这就是著名的功耗墙(Power Wall)。
2004年5月7日:频率竞赛的终点
2004年5月7日,Intel做出了一个震惊业界的决定:取消代号为Tejas和Jayhawk的两款处理器开发。
Tejas原本是Pentium 4的继任者,计划采用90nm工艺,目标频率高达7GHz。Jayhawk则是其服务器版本。根据参与该项目的Intel工程师Steve Fischer的回忆,Tejas的流水线深度达到了惊人的50级(作为对比,现代处理器的流水线深度通常在15-20级),项目团队甚至半开玩笑地称之为"处理器界的死星"。
早期样品显示,Tejas在2.8GHz时的TDP就已经达到150W。如果按照目标达到7GHz,TDP将超过250W——这需要液冷散热才能维持运行。而当时最快的Pentium 4(3.8GHz)TDP是115W。
xychart-beta
title "CPU频率与核心数的演变趋势(1970-2025)"
x-axis [1970, 1975, 1980, 1985, 1990, 1995, 2000, 2005, 2010, 2015, 2020, 2025]
y-axis "频率(MHz,对数刻度)" 0.001 --> 10000
line [0.75, 2, 5, 16, 50, 200, 1500, 3800, 3400, 4000, 5300, 6200]
图表清晰地展示了两个时代的分界:2005年之前,频率呈指数增长;2005年之后,频率几乎是一条水平线。
Intel在取消Tejas后迅速转向了双核架构。2006年7月,Core 2 Duo发布,频率只有2.4-2.93GHz,但凭借更高的IPC(每周期指令数)和双核心,性能反而超越了频率更高的Pentium D。
暗硅:芯片上沉睡的大多数
当频率竞赛被迫停止后,业界转向了多核路线。摩尔定律仍在继续——晶体管数量还在翻倍——但这些晶体管不能全部同时工作了。
2011年,华盛顿大学的研究团队在ISCA会议上发表了题为《Dark Silicon and the End of Multicore Scaling》的论文,提出了**暗硅(Dark Silicon)**概念:由于功耗限制,芯片上相当比例的晶体管在任何时刻都必须处于关闭状态。
论文构建了一个模型,预测在不同工艺节点下,能够同时全速运行的芯片面积比例。结论令人震惊:到2024年,即使在最优化的设计下,多核处理器相对于单核的性能提升上限只有7.9倍,远低于理想情况。
更直观地说,如果一颗芯片有100亿个晶体管,可能只有10-20亿个能够在任何时刻以全速运行,其余的必须"休眠"或以低频运行。这不是设计的缺陷,而是物理定律的约束。
暗硅问题的数学根源在于功耗密度的变化。CMOS电路的总功耗由两部分组成:
$$P_{total} = P_{dynamic} + P_{static} = \alpha C V^2 f + I_{leak} V$$动态功耗 $P_{dynamic}$ 随频率 $f$ 线性增长,而静态功耗 $P_{static}$(漏电流功耗)则是一个独立于频率的常数。当工艺节点进步时,$C$(电容)下降,但 $I_{leak}$ 上升。结果就是:即使你不运行任何指令,芯片也在消耗大量电力。
多核不是万能药
转向多核后,业界很快发现了另一个问题:Amdahl定律。
1967年,Gene Amdahl指出,并行计算的加速比受限于程序中必须串行执行的部分。如果程序中有 $p$ 比例可以并行,那么使用 $n$ 个核心的最大加速比是:
$$S(n) = \frac{1}{(1-p) + \frac{p}{n}}$$当 $n$ 趋向无穷大时,加速比趋向于 $1/(1-p)$。如果程序有10%必须串行,那么无论你有多少核心,加速比上限都是10倍。
这对多核处理器提出了严峻挑战。操作系统、内存管理、I/O处理等领域存在大量天然的串行瓶颈。即使是高度优化的并行程序,也很难突破90%以上的并行化率。
更糟糕的是,核心数量的增加还带来了新的开销:缓存一致性协议的复杂性、内存带宽的争抢、核心间通信的延迟。这些开销随核心数增长呈非线性上升,最终导致"边际收益递减"。
物理极限之外的突围之路
面对这些根本性约束,处理器架构师们开始了多维度的突围。
指令级并行(ILP)的极致挖掘。现代处理器采用复杂的乱序执行、分支预测、超标量架构来提升IPC。Apple的M系列芯片在频率不高的情况下,通过极宽的执行单元和巨大的 reorder buffer,实现了卓越的单核性能。
专用加速器的崛起。既然通用核心效率受限,为什么不把那些"暗硅"区域变成专用的加速器?现代处理器集成了视频编解码器、神经网络引擎、加密加速器等专用单元。这些单元针对特定任务优化,能效比远超通用核心。
近阈值电压计算。将电源电压降低到接近阈值电压的水平(约0.5-0.7V),可以大幅降低功耗。虽然这会牺牲性能,但通过动态电压频率调节(DVFS),可以在需要性能时提升电压,在空闲时降低电压。
Chiplet架构。AMD的EPYC处理器将多个小芯片通过高速互连封装在一起,而不是制造一个巨大的单片。这样可以提高良率,降低功耗密度,也更灵活地组合不同功能的芯片。
背面供电网络(BSPDN)。Imec预测,到2026年所有主要晶圆厂都将采用这一技术,将供电网络从芯片正面移到背面,可以降低电阻,实现更低的供电电压,从而减少发热。
频率还会继续提升吗?
2024年3月,Intel发布了Core i9-14900KS,最高睿频达到6.2GHz。这是消费级处理器首次突破6GHz大关。但这个数字是"睿频",即短时间的峰值频率,而非持续运行的基频。而且,这颗芯片的功耗高达253W(基频)到350W(睿频)——几乎是2004年Pentium 4的三倍。
频率提升的边际成本正在急剧上升。从3GHz到4GHz,功耗增加约33%;从4GHz到5GHz,功耗增加约50%;从5GHz到6GHz,功耗增加可能超过80%。这符合CMOS功耗公式 $P \propto V^2 f$ 的预测:当电压无法继续降低时,频率的提升将带来功耗的平方级增长。
物理学告诉我们,硅晶体管的开关速度存在理论上限,大约在100GHz左右。但这个极限需要极端的冷却条件和激进的电压设置,在消费级产品中完全不现实。更现实的瓶颈是散热:空气冷却的极限大约在150-200W,液冷可以达到300-400W,再往上就需要更复杂的方案。
结语:一个时代的终结,另一个时代的开启
2004年Tejas项目的取消,标志着一个持续三十年的时代结束了。在那个时代,工程师们习惯于通过提高频率来获得性能提升,而软件几乎不需要做任何改动就能受益。
今天,性能提升的路径已经变得多维:更多的核心、更宽的向量单元、更智能的预取、更专用的加速器。软件也必须适应这一变化——从串行思维转向并行思维,从通用计算转向异构计算。
Dennard缩放定律的失效不是失败,而是物理学对工程实践的一次修正。它提醒我们,没有任何指数可以永远持续。摩尔定律仍在延续,只是形式发生了变化:不再是频率的提升,而是晶体管数量的增加、专用功能的丰富、能效的优化。
频率停滞在5GHz不是一个bug,而是我们终于触及了硅基计算的物理边界。这个边界将推动我们探索新的材料(如碳纳米管)、新的架构(如量子计算)、新的范式(如神经形态计算)。而这,可能比单纯的频率竞赛更有趣。
参考文献
-
Dennard, R. H., et al. “Design of ion-implanted MOSFET’s with very small physical dimensions.” IEEE Journal of Solid-State Circuits 9.5 (1974): 256-268.
-
Esmaeilzadeh, H., et al. “Dark silicon and the end of multicore scaling.” 2011 38th Annual International Symposium on Computer Architecture (ISCA). IEEE, 2011.
-
Borkar, Shekhar, and Andrew A. Chien. “The future of microprocessors.” Communications of the ACM 54.5 (2011): 67-77.
-
Bohr, Mark, and Ian Young. “CMOS scaling trends and beyond.” IEEE Micro 37.6 (2017): 20-29.
-
Hennessy, John L., and David A. Patterson. Computer Architecture: A Quantitative Approach. 6th ed., Morgan Kaufmann, 2017.
-
Koomey, Jonathan G., et al. “Implications of historical trends in the electrical efficiency of computing.” IEEE Annals of the History of Computing 33.3 (2011): 46-54.
-
Myers, James. “Rising power density and heat threaten the future of advanced semiconductors.” IEEE Spectrum, 2025.