一个被对数表泄露的秘密：为什么数字1总是赢家

1881年，加拿大裔美国天文学家Simon Newcomb在使用对数表进行计算时注意到了一个奇怪的现象：书的前几页——那些以数字1开头的页——比后面的页磨损得更严重。这本该是一个无聊的观察，却揭示了一个横跨整个数学世界的惊人规律。

Newcomb的发现很简单：人们更频繁地查阅以低数字开头的对数，意味着现实生活中以1、2、3开头的数字比以7、8、9开头的数字更常见。他推导出一个公式：数字n作为首位数字出现的概率是log₁₀(1+1/n)。但这个发现发表在美国数学杂志的一个角落里，很快被遗忘。

直到1938年，物理学家Frank Benford独立地重新发现了这个规律。不一样的是，Benford花了数年时间收集了来自20个不同领域的20,229个数据点——河流面积、人口统计、物理常数、分子量、《读者文摘》中的数字、科学家通讯录中的地址——验证了这个规律在各个领域都惊人地一致。大约30%的数字以1开头，约18%以2开头，而只有不到5%以9开头。这个规律后来以他的名字命名，成为Benford定律。

Benford定律首位数字分布

图片来源: upload.wikimedia.org

为什么会这样？对数尺度的直觉

要理解Benford定律，最直观的方式是看对数尺。

想象一个数轴，上面标注了1到10的刻度。如果我们在对数尺度上均匀分布数字，数字1到2之间的区间占据了整个1到10区间的约30%（因为log₁₀2 ≈ 0.301），而数字9到10之间的区间只占约5%（因为log₁₀(10/9) ≈ 0.046）。这意味着，如果一个数的对数值在0到1之间均匀分布，那么这个数以1开头的概率是以9开头的六倍。

对数尺度上的数字分布

图片来源: upload.wikimedia.org

这个解释的关键假设是：数字的对数值在某个区间内均匀分布。但这为什么会成立？

尺度不变性：数学证明的核心

1961年，数学家Roger Pinkham给出了Benford定律最重要的理论支撑。他的论证是：如果真的存在一个描述首位数字频率的规律，那么这个规律应该与测量单位无关。无论你用米还是英尺测量长度，用美元还是欧元计算价格，数字的分布规律应该保持不变——这就是尺度不变性。

Pinkham证明了一个关键定理：Benford定律是唯一满足尺度不变性的首位数字分布。

证明的思路可以这样理解：假设我们有一组符合某种分布的数字，把它们全部乘以一个常数因子（比如从英镑换算成欧元）。如果首位数字的分布保持不变，那么这个分布必须具有特殊性质。Pinkham证明，只有Benford定律定义的对数分布才能满足这个条件。

考虑一个具体例子：假设每个首位数字出现的概率相等（各1/9），这看起来是最"公平"的分布。但如果把所有数字乘以2，会发生什么？原来以1开头的数字现在可能以2或3开头（各一半概率），原来以5、6、7、8、9开头的数字现在都会以1开头！结果新数据中1开头的概率变成其他数字的10倍。等概率分布在尺度变换下完全崩溃。

Benford定律的对数分布则不同。用数学语言说，如果X是一个Benford随机变量，那么对于任何正常数a，aX也是Benford随机变量。这种优雅的不变性让Benford定律成为自然数据的"指纹"。

乘法波动与随机游走

现实世界中另一个产生Benford定律的常见机制是乘法波动。

假设一支股票从100美元开始，每天的价格变化是前一天的0.99到1.01倍之间的随机数。一年后，这支股票的价格分布会越来越接近Benford定律。原因是价格的对数在进行随机游走——中心极限定理告诉我们，乘以足够多的随机变量后，对数值会接近正态分布。如果这个正态分布的方差足够大，数据跨越多个数量级，对数值在模1意义下就会近似均匀分布。

这解释了为什么股票价格、人口数量、河流长度这些"自然增长"的数据往往符合Benford定律——它们都是乘法过程的结果。

混合分布理论

1995年，数学家Ted Hill给出了另一个深刻的理论解释：混合分布理论。

想象你从各种不同的概率分布中随机抽取数字——有时从均匀分布抽，有时从正态分布抽，有时从指数分布抽。如果选择分布的方式是"无偏的"，最终得到的数字集合会收敛到Benford定律。

这个理论解释了为什么报纸上随机选取的数字、为什么来自不同领域混合在一起的数据会遵循同一个规律。用Hill的话说，Benford定律是"数字的吸引子"。

欺诈检测：数字不说谎

Benford定律最引人注目的应用是在欺诈检测领域。

Mark Nigrini的开创性工作

1990年代，会计学教授Mark Nigrini将Benford定律引入审计领域。他的核心洞察是：人在编造数字时，直觉上会认为数字应该"均匀分布"，而这恰恰暴露了造假。

1993年，亚利桑那州诉Wayne James Nelson案提供了一个经典案例。Nelson是州财政部的一名经理，他伪造了23张支票，总金额近200万美元，试图将资金转移到虚假供应商账户。他的作案手法很"聪明"：金额都控制在10万美元以下（避免触发额外审查），都包含美分（看起来更真实），没有重复金额，没有整数金额。

但Benford定律一眼就看穿了问题：这23张支票中，超过90%以7、8、9开头。按照Benford定律，这三个数字作为首位数字的总概率只有约15%，而实际观察到的比例是相反的。Nelson的下意识心理是"大数字看起来更像真的"，恰恰违背了自然数据的规律。

首位数字	Benford定律预期	Nelson支票实际	差异
1	30.1%	0%	-30.1%
2	17.6%	0%	-17.6%
3	12.5%	0%	-12.5%
7	5.8%	26%	+20.2%
8	5.1%	35%	+29.9%
9	4.6%	30%	+25.4%

Nigrini后来开发了专门的软件，分析税务申报、财务报表等数据与Benford定律的符合程度。布鲁克林地方检察官办公室用他的软件分析了七起重大欺诈案，全部被成功识别。

希腊金融危机：被数据泄露的秘密

Benford定律在宏观经济数据核查中也展现出惊人效果。2011年，一篇发表在《欧洲经济评论》上的论文分析了欧盟27个国家十年的经济数据。研究者计算每个国家的数据与Benford定律预期的偏差程度，结果发现：偏差最大的国家是希腊。

这并非巧合。2004年，人们发现希腊用于申请加入欧元区的官方财政数据是错误的。在加入欧元区后的十年里，希腊持续向欧盟提交需要频繁修正的统计数据。最终的官方数字显示，希腊的年度预算赤字从未达到欧元区3%的上限要求。Benford定律本可以更早地揭示这些问题。

COVID-19数据质量评估

2020年，研究者将Benford定律应用于COVID-19病例报告数据。一篇发表在《Scientific Reports》上的研究分析了150个国家的每日新增病例数据，发现大多数国家的报告数据与Benford定律基本一致，但个别国家的偏差显著偏高。另一项研究专门对比了中国、美国和意大利的数据，发现三国的确诊病例分布都与Benford定律预期吻合。

这类分析并非要指控造假，而是提供一种数据质量的快速筛查手段。Benford定律的偏离可能意味着统计系统问题、报告机制缺陷，甚至政治压力下的数据操纵。

AI生成图像检测

Benford定律的应用范围远不止数字。近年来，研究者发现它可以用于检测GAN生成的虚假图像。

JPEG压缩算法将图像分割成8×8的区块，进行离散余弦变换（DCT），然后量化。真实照片的DCT系数首位数字分布遵循广义Benford定律，但AI生成图像由于缺乏自然图像的统计特性，其DCT系数分布会偏离这个规律。2021年的一项研究显示，使用Benford定律检测GAN生成图像可以达到较高的准确率。

局限性与误用：不是万能的测谎仪

Benford定律强大，但绝非万能。误用会导致严重后果。

不适用的数据类型

受限范围的数据：人类身高几乎总是以1或2开头（以米计时）或4、5、6、7开头（以英尺计时）。IQ分数大部分在85到115之间，首位数字高度集中。这些数据跨越的数量级太少，不满足Benford定律的前提条件。

人为分配的数字：电话号码、身份证号、邮编、银行账号——这些数字是人为分配的，不具有自然数据的统计特性。

存在上下限的数据：如果公司规定报销上限是100元，那么报销金额的首位数字分布会被人为扭曲。

心理定价：零售价格中9.99、19.99这样的数字远多于自然预期，违背Benford定律的假设。

选举数据分析的争议

Benford定律在选举数据分析中的应用存在很大争议。

2009年伊朗总统选举后，有研究者声称根据Benford定律发现了选举舞弊的证据。但其他学者指出，这种分析存在方法论问题：选票统计通常以选区为单位，每个选区的票数往往在一个相对狭窄的范围内（几百到几千票），这种情况下Benford定律本就不适用。

2020年美国总统大选后，有人声称根据Benford定律发现某些城市的选票数据异常。统计学家Walter Mebane明确指出：“人们普遍理解，选区票数的首位数字对于诊断选举舞弊是没有用的。“问题在于选区票数范围太窄——大多数选区的票数在几十到几千之间，跨越不到两个数量级，不满足Benford定律的基本假设。

偏离不等于造假

即使数据偏离Benford定律，也不能直接认定造假。合理的偏离原因包括：

数据范围受限（如某公司只做大额交易）
合并报表的影响
会计政策的变化
业务模式的特殊性

Benford定律是一个筛查工具，不是判决工具。它告诉你哪里可能有问题，但最终需要人工核查。

数学上的精确表述

对于追求数学严谨性的读者，Benford定律可以这样精确定义：

一个正实数随机变量X服从Benford定律，当且仅当其有效数字S(X)的对数在[0,1)上均匀分布。有效数字S(X)定义为将X写成科学计数法X = S(X) × 10^k时的系数，其中1 ≤ S(X) < 10。

首位数字d出现的概率为：

$$P(D_1 = d) = \log_{10}\left(1 + \frac{1}{d}\right), \quad d \in \{1, 2, \ldots, 9\}$$

更一般地，前m位数字为d₁d₂…dₘ的概率为：

$$P(D_1 = d_1, \ldots, D_m = d_m) = \log_{10}\left(1 + \frac{1}{\sum_{i=1}^{m} d_i \cdot 10^{m-i}}\right)$$

这一定义直接导出尺度不变性：对于任何正常数a，S(aX)的分布与S(X)相同。

从对数表到数据科学的演进

从Newcomb翻阅磨损的对数表，到Benford收集20,229个数据点，再到Pinkham的尺度不变性证明，最后到Nigrini的欺诈检测软件——Benford定律的发现史本身就是科学进步的缩影：从观察现象到理论解释，再到实际应用。

今天，Benford定律已经成为数据分析工具箱中的标准工具。它被写入审计软件（如ACL、IDEA、SAS），被税务机构用于筛查可疑申报，被经济学家用于评估数据质量，被计算机科学家用于检测虚假内容。

这个从对数表磨损痕迹中诞生的数学规律，揭示了一个深刻的真理：自然界和人类社会的数字不是随机分布的，它们携带着生成过程的隐秘信息。理解这些规律，就是理解数字背后的世界。

参考文献

Newcomb, S. (1881). Note on the frequency of use of the different digits in natural numbers. American Journal of Mathematics, 4(1), 39-40.
Benford, F. (1938). The law of anomalous numbers. Proceedings of the American Philosophical Society, 78(4), 551-572.
Pinkham, R. S. (1961). On the distribution of first significant digits. Annals of Mathematical Statistics, 32(4), 1223-1230.
Hill, T. P. (1995). A statistical derivation of the significant-digit law. Statistical Science, 10(4), 354-363.
Nigrini, M. J. (2012). Benford’s Law: Applications for Forensic Accounting, Auditing, and Fraud Detection. John Wiley & Sons.
Berger, A., & Hill, T. P. (2020). The mathematics of Benford’s law: a primer. arXiv preprint arXiv:1909.07527.
Nigrini, M. J. (1999). I’ve got your number. Journal of Accountancy, 187(5), 79-83.
Rauch, B., et al. (2011). Fact and fiction in EU-governmental economic data. German Economic Review, 12(3), 243-255.
Mebane, W. R. (2010). Fraud in the 2009 presidential election in Iran? Chance, 23(1), 6-15.
Koch, C., & Okamura, K. (2020). Benford’s law and COVID-19 reporting. Economics Letters, 196, 109573.

为什么会这样？对数尺度的直觉#

尺度不变性：数学证明的核心#

乘法波动与随机游走#

混合分布理论#

欺诈检测：数字不说谎#

Mark Nigrini的开创性工作#

希腊金融危机：被数据泄露的秘密#

COVID-19数据质量评估#

AI生成图像检测#

局限性与误用：不是万能的测谎仪#

不适用的数据类型#

选举数据分析的争议#

偏离不等于造假#

数学上的精确表述#

从对数表到数据科学的演进#

参考文献#

更多精彩内容

为什么你的A/B测试结果总是不可靠？从p值陷阱到多重比较的统计困境

预训练数据如何决定大模型的上限：从数据质量到清洗流程的完整解析

排队时为什么旁边的队伍总比自己的快：从概率论到排队心理学的完整解析

当99%准确率成为谎言：机器学习评估指标的深层博弈

推荐系统如何从海量数据中读懂你的心思：从协同过滤到深度学习的三十年技术突围