天气预报为什么永远无法百分百准确？从蝴蝶效应到AI突破的六十年探索

打开手机上的天气App，看到明天"晴转多云，降水概率20%"。第二天出门，却被一场突如其来的暴雨淋成了落汤鸡。这种经历几乎每个人都有过，随之而来的疑问也几乎一样：都2026年了，连大模型都能写代码了，为什么天气预报还是不准？

答案既是简单的，也是复杂的。简单地说，大气是一个混沌系统，存在不可逾越的预测极限。复杂地说，这个极限在哪里、如何逼近它，科学家们花了六十年时间才逐渐摸清边界，而最近三年AI的突破正在改写游戏规则。

一杯咖啡引发的科学革命

1961年的冬天，麻省理工学院的气象学家爱德华·洛伦兹（Edward Lorenz）正在他的Royal McBee LGP-30计算机上运行一个简化的天气预报模型。这台机器每秒只能完成60次乘法运算，但已经是当时最先进的工具之一。

为了检查之前的一个计算结果，洛伦兹决定中途重新运行一次。他直接从打印输出中抄录了一行数字作为初始条件——0.506，然后按下启动键，走去喝了一杯咖啡。当他一小时后回来时，屏幕上的数字让他困惑不已：新的计算结果与之前的完全不同。

起初他怀疑是真空管出了故障——这在当时是常有的事。但仔细检查后，他发现了一个惊人的事实：问题出在他抄录的数字上。打印输出显示的是0.506，但计算机内部存储的完整数值是0.506127。两者相差仅千分之一，却导致了完全不同的天气预报结果。

这就是后来被称为"蝴蝶效应"的现象。洛伦兹在1972年的一次演讲中提出了那个著名的问题：“巴西的一只蝴蝶扇动翅膀，会引发德克萨斯的一场龙卷风吗？”

这个故事的意义不在于蝴蝶真的能制造龙卷风，而在于它揭示了一个深刻的数学真理：大气是一个对初始条件极度敏感的系统。初始状态的微小误差会以指数速度增长，大约每五天翻一倍。这意味着，即使我们拥有完美的预报模型，初始观测数据的误差也注定了预报不可能永远准确。

从手工计算到超级计算机：预报准确率提升的七十年

在洛伦兹发现混沌效应之前，数值天气预报的概念已经存在了半个世纪。

1904年，挪威气象学家维尔海姆·皮叶克尼斯（Vilhelm Bjerknes）首次提出了用数学方程预测天气的设想。他认为了解大气当前状态是预测未来的关键，但这需要求解一组复杂的偏微分方程——那时的人类计算能力根本无法承担。

1922年，英国数学家刘易斯·弗莱·理查森（Lewis Fry Richardson）做出了人类历史上第一次数值天气预报的尝试。他用手工计算了欧洲一个地区六小时后的气压变化，结果预测出145百帕的气压变化——这个数值是实际变化的100倍。计算过程耗时数月，而预报的时效只有六小时。理查森幻想有一支64,000人的"预报工厂"，每人负责一个网格点的计算，或许能赶上天气变化的节奏。

这个梦想直到1950年才实现。那一年，在美国普林斯顿的高级研究所，朱尔·查尼（Jule Charney）带领团队在ENIAC计算机上完成了第一次成功的数值天气预报。ENIAC是第一台通用电子计算机，重达30吨，占据整个房间，但它一天内就能完成理查森需要几个月才能做完的计算。预报范围覆盖北美，时效24小时，虽然粗糙，但证明了机器预报天气是可行的。

1960年4月1日，TIROS-1卫星发射升空，这是世界上第一颗气象卫星。它运行了78天，传回了超过23,000张云图照片，让人类第一次从太空看到地球的天气系统。从此，气象观测不再局限于地面站，全球大气的三维状态开始被系统性地监测。

1975年，欧洲中期天气预报中心（ECMWF）成立，这是全球天气预报技术的一个重要里程碑。ECMWF整合了欧洲各国的资源，建立了世界上最先进的全球数值预报系统。它的第一台计算机是CRAY-1，运行速度达到每秒1.6亿次浮点运算——是ENIAC的数百万倍。

此后五十年，预报准确率持续提升。数据显示，今天四天预报的准确率相当于三十年前一天预报的水平。飓风路径预报的改进更为显著：1970年代，48小时预报误差在200-400海里之间；今天这个数字约为50海里。72小时预报误差从1960年代的超过400海里降到了现在的不到80海里。

具体到不同时效的准确率：三天预报的大尺度天气模式准确率已超过95%，五天预报被认为是"高度准确"，七天预报正在达到这个标准，十天预报仍在持续改进中。气象学中有一个关键指标叫距平相关系数（ACC），当ACC低于0.6时，预报被认为失去了实用价值。目前全球最好的模式能将这个阈值维持到大约十天左右。

但无论如何努力，两周左右的预测极限始终像一堵无形的墙。这不是技术不够先进，而是大气系统的内在属性。

预报不准的三重枷锁

天气预报的误差来源可以归结为三个方面，它们像三道枷锁，共同限制着预报的极限。

第一道枷锁：初始条件的不确定性

全球气象观测系统每天产生约6000万条观测数据，来自卫星、探空气球、飞机、船舶、浮标等各种平台。听起来很多，但相对于大气的复杂性，这仍然只是沧海一粟。

卫星观测大气中的温度和湿度，但误差不可避免。探空气球每天在标准时间（00时和12时UTC）从约800个站点升空，测量从地面到约30公里高度的气温、湿度和风。这些气球在上升过程中会漂移，观测点的代表性有限。更重要的是，海洋、极地、沙漠等区域的观测站极其稀疏，而发展中国家投入气象观测的经费只有发达国家的十五分之一到二十分之一。

观测误差本身并不大——探空仪的温度测量精度约为0.5摄氏度，卫星反演的温度误差也在1摄氏度以内。但在混沌系统中，这些微小误差会以指数速度放大。假设初始误差为1%，五天后可能增长到32%，十天后就接近100%。

第二道枷锁：模型的不完美

数值天气预报模型需要求解一组描述大气运动的方程，包括动量方程、热力学方程、质量守恒方程和水汽方程。这些方程本身是精确的，但求解时必须离散化——把连续的大气划分为网格。

目前全球最好的模型网格间距约为9-14公里，这意味着任何小于网格尺度的过程都无法直接模拟。积云对流、湍流混合、云微物理过程……这些"次网格尺度"过程对天气影响巨大，但模型只能用经验公式来近似处理，这就是所谓的"参数化"。

参数化方案本质上是经验性的，不同模型可能采用完全不同的参数化方案，导致预报结果出现系统性差异。更麻烦的是，这些参数化方案中的系数往往需要针对特定区域或季节进行调整，使得模型的普适性受到限制。

第三道枷锁：大气的混沌本性

即使拥有完美的观测和完美的模型，预报仍然存在极限。这就是混沌理论的核心结论。

洛伦兹用一个简化的三维对流模型展示了这一点。在他的模型中，两条初始条件相差仅十万分之一的轨迹，在短暂的重合后迅速分道扬镳，最终变成完全不同的状态。这不是数值误差，而是混沌系统的内在属性。

大气中的误差增长呈现出有趣的规律：初始阶段误差按指数增长，然后增长速度逐渐放缓，最终趋于饱和——这时预报已经与随机猜测无异。研究表明，大气中的小尺度误差首先快速增长，然后向大尺度传播；大尺度误差增长较慢，但持续时间更长。

洛伦兹在1960年代估计，基于当时模型中观测到的五天误差翻倍时间，大气预报的理论极限约为两周。后来的研究基本证实了这个估计，尽管具体数字在不同季节、不同区域有所差异。

集合预报：拥抱不确定性的智慧

既然完美的单次预报不可能实现，气象学家们发展出了一种聪明的策略：不再追求单一的最优预报，而是提供一系列可能的情景，让用户自己评估风险。

这就是集合预报的思想。1992年，ECMWF和美国国家环境预报中心（NCEP）几乎同时开始运行业务化的集合预报系统。ECMWF的集合预报系统（ENS）包含51个成员，每个成员都有略微不同的初始条件或模型参数，代表不同的可能发展路径。

这种方法的哲学基础是：承认初始条件永远无法精确知晓，模型永远存在缺陷，与其假装拥有确定性，不如诚实地呈现不确定性。当51个预报中有40个预测某个地区会下雨时，用户就知道降水概率约为80%；当预报结果高度分散时，用户就知道形势复杂，需要保持警惕。

集合预报不仅提供了概率信息，还能识别"高风险事件"。当少数集合成员预测出极端天气时，即使概率不高，预报员也会提高警惕，因为这可能意味着潜在的高影响事件。

这套方法已经运行了三十多年，但直到最近，它仍然需要消耗大量的超级计算机资源。ECMWF的高分辨率预报（HRES）需要运行在全球最快的超级计算机之一上，每次预报耗时数小时。

AI革命：从追赶者到领跑者

2023年，天气预报领域发生了一场静悄悄的革命。

华为云的研究团队在《Nature》上发表了盘古气象大模型（Pangu-Weather），这是第一个预报精度超越传统数值模式的AI模型。该模型采用三维地球专用Transformer（3DEST）架构，将地球大气表示为13个垂直层次上的三维网格，能够预测未来十天内的多种气象要素。

盘古模型的训练数据来自ECMWF的ERA5再分析数据集，这是通过传统数值方法将历史观测数据同化后得到的全球大气状态记录，覆盖1979年至今。模型从这些历史数据中学习大气运动的统计规律，而不需要显式地求解物理方程。

性能数据令人印象深刻：盘古模型在一张V100显卡上只需1.4秒就能完成24小时的全球天气预报，比传统数值预报快10000倍以上。更重要的是，在90%以上的测试指标上，它的准确率达到了与ECMWF高分辨率预报相当甚至更好的水平。

紧接着，Google DeepMind发布了GraphCast模型。这是一个基于图神经网络的架构，将地球表面划分为约100万个网格点，每个网格点预测五个地面变量和37个高度层的六个大气变量。GraphCast在超过90%的1380个测试变量和预报时效上超越了ECMWF的HRES，在对流层（距地面6-20公里）这个预报最关键的区域，这一比例更是高达99.7%。

GraphCast的单次预报在TPU v4上只需不到一分钟，而传统方法需要超级计算机运行数小时。2023年9月，GraphCast在实时运行中提前九天准确预测了飓风Lee将在新斯科舍省登陆，而传统预报直到六天前才锁定这一预测。

2024年12月，Google DeepMind又发布了GenCast模型，这是第一个在概率预报上超越ECMWF ENS的AI系统。GenCast采用扩散模型架构，能够生成50个以上的预报成员，提供未来15天的概率预报。在97.2%的测试指标上，GenCast超越了ECMWF的集合预报系统。

2025年2月25日，ECMWF宣布其人工智能预报系统（AIFS）正式投入业务运行，成为第一个完全业务化的AI天气预测开放模型。AIFS的空间分辨率为28公里，能够预测从雪到雨的各种降水类型，以及涡轮高度的风速和地表太阳辐射等对可再生能源行业至关重要的变量。

值得注意的是，AIFS运行一次预报消耗的能量只有传统数值方法的千分之一。在气候危机背景下，这一点尤为重要——更高效的预报工具本身就在帮助减少碳排放。

AI预报的原理与局限

AI天气模型的成功并非偶然，它们与传统数值模式有着本质的不同。

传统模式是"第一性原理"驱动的：科学家写下描述大气运动的物理方程，然后用数值方法求解。这种方法的优势在于物理意义清晰、可解释性强，但代价是需要大量的计算资源。

AI模型是"数据驱动"的：它们从历史数据中学习大气状态的演变规律，不需要显式地求解物理方程。一旦训练完成，推理过程极其高效。这种方法本质上是在寻找大气运动的高维流形——一种将复杂动力学压缩为可高效计算形式的方法。

但AI模型也有其局限性。首先，它们的训练数据来自传统数值方法的输出（如ERA5），这意味着它们学到的"规律"已经包含了传统方法的偏差和缺陷。其次，AI模型在极端事件上的表现仍需进一步验证——它们可能在训练数据中罕见的情景下表现不佳。第三，AI模型的可解释性较差，当预报出错时很难诊断原因。

目前的主流观点是，AI和传统方法是互补而非替代关系。传统方法提供了物理基础和训练数据，AI方法提供了效率提升和新视角。ECMWF将AIFS与IFS并列运行，正是这种"两条腿走路"策略的体现。

为什么预报还是会不准？

回到最初的问题：既然AI如此强大，为什么我们还是会被雨淋？

首先，AI突破解决的是计算效率和预报精度的问题，并没有消除预报不准的根本原因。初始条件的不确定性依然存在，观测覆盖的空白依然存在，大气的混沌本性依然存在。AI模型可能比传统方法更快地逼近预报极限，但它无法突破这个极限。

其次，AI模型的突破主要体现在大尺度环流模式上，对于局地、短时的对流性天气预报，传统方法仍有优势。一场突如其来的暴雨，往往与几个小时内的局地对流发展有关，这需要高分辨率的快速更新预报，目前AI模型的分辨率和更新频率还不足以完全覆盖这类需求。

第三，公众对"预报准确"的期望与气象学家的定义存在差距。气象学意义上的准确是指大尺度环流模式的预测正确，而公众关心的是"我这里几点几分会不会下雨"。前者是概率问题，后者是确定性期望。当预报说"降水概率20%“时，气象学家的意思是"类似情况下有20%的概率会下雨”，而不是"每个地方的每个时刻都有20%的概率下雨"。

最后，气候变化正在给天气预报带来新的挑战。研究表明，气候变暖可能使中纬度地区的天气更加不可预测，极端事件的频率和强度增加意味着历史数据的代表性下降——这正是AI模型依赖的训练数据来源。

从混沌边缘到认知边界

天气预报的历史是一部人类试图理解和预测复杂系统的历史。从巴比伦人观察云象，到阿拉斯加的原住民解读雪花的形状，再到今天的AI大模型，我们一直在与自然的复杂性博弈。

混沌理论告诉我们，有些事情本质上是不可预测的。这不是技术不够先进，而是数学原理决定的。就像量子力学中的海森堡不确定性原理告诉我们无法同时精确知道粒子的位置和动量，混沌理论告诉我们无法无限期地预测天气。

但混沌并不意味着放弃。集合预报展示了如何在不确定性中寻找价值，AI模型展示了如何用新方法逼近预测极限。两者的结合正在开启新的可能性：更快的预报、更低的能耗、更好的极端事件预警。

或许天气预报永远无法百分百准确，但这恰恰是自然复杂性的体现。在这个意义上，每一次预报的失败都在提醒我们：大气比我们想象的更复杂，科学比我们以为的更谦卑。这不是缺陷，而是魅力的来源。

天气预报的终极边界，也是人类认知的边界。逼近这个边界的过程，就是我们理解这个星球的过程。

参考文献

Lorenz, E. N. (1963). Deterministic Nonperiodic Flow. Journal of the Atmospheric Sciences, 20(2), 130-141.
Richardson, L. F. (1922). Weather Prediction by Numerical Process. Cambridge University Press.
Charney, J. G., Fjörtoft, R., & von Neumann, J. (1950). Numerical Integration of the Barotropic Vorticity Equation. Tellus, 2(4), 237-254.
Zhang, F., Sun, Y. Q., Magnusson, L., et al. (2019). What Is the Predictability Limit of Midlatitude Weather? Journal of the Atmospheric Sciences, 76(4), 1077-1091.
Lam, R., Sanchez-Gonzalez, A., Willson, M., et al. (2023). Learning skillful medium-range global weather forecasting. Science, 382(6677), 1416-1421.
Bi, K., Xie, L., Zhang, H., et al. (2023). Accurate medium-range global weather forecasting with 3D neural networks. Nature, 619, 533–538.
Price, I., Sanchez-Gonzalez, A., Alet, F., et al. (2024). Probabilistic weather forecasting with machine learning. Nature.
Alley, R. B., Emanuel, K. A., & Zhang, F. (2019). Advances in weather prediction. Science, 363(6425), 342-344.
ECMWF. (2024). Evaluation of ECMWF forecasts. ECMWF Technical Report.
Ritchie, H. (2024). Weather forecasts have become much more accurate. Our World in Data.

一杯咖啡引发的科学革命#

从手工计算到超级计算机：预报准确率提升的七十年#

预报不准的三重枷锁#

集合预报：拥抱不确定性的智慧#

AI革命：从追赶者到领跑者#

AI预报的原理与局限#

为什么预报还是会不准？#

从混沌边缘到认知边界#

参考文献#

更多精彩内容

大模型代码生成能力的边界与突破——从语法理解到语义推理的技术解析

图像超分辨率：为什么AI能把模糊照片变清晰？从插值到扩散模型的技术突围

Logit Lens：Transformer的每一层都在"想"什么

隐藏层维度：为什么这个数字决定了大模型的能力边界

Logprobs深度解析：大模型输出的隐藏信息