为什么银行存款、河流长度等集合的首位数字更容易出现 1 而不是 9?
更新于:2025-04-14 08:34:29

没错,首位数字里面,1出现的概率高达30%,而9出现概率只有4.6%,乍一看有点反直觉。

这是本福特定律,已经应用在审计领域。

比如当年安然财务造假,安然公司公布的数据中,首位数字分布严重偏离本福特定律,5和6出现的频率过高,1出现的频率远低于30%。然后就开始深入查账,发现高管通过特殊目的实体转移债务,修饰财务报表。

1881年,美国天文学家西蒙发现了一个秘密,以数字1开头的页码磨损最严重。

1938年,电气工程师本福特验证了它的普适性。

本福特定律的公式很简单

首位数字n出现的概率 = log₁₀(1 + 1/n)

数字1出现概率≈log₁₀2,有30.1%。

数字9出现概率≈log₁₀(10/9),只有4.6%

举个通俗的例子。

假设用100万的本金炒股。

100万到200万,需要增长100%。

800万到900万,只需要增长12.5%

想要首位数字停留在高位,增长速度必须越来越慢,这在现实世界中几乎不可能。

数据天然倾向于在低位停留更久,所以1有绝对优势。

但如果是人为干涉,比如身份证号等人工编排的数据,强制均匀分布,就不符合本福特定律。

本福特定律最常见的应用,就是审计查账。

用本福特定律分析企业财务报表、发票、交易记录,虚假账目可能因人为编造数字而偏离本福特分布。

还能判断选举舞弊、论文造假、经济数据水分、偷税漏税、保险索赔。

本福特定律成立的前提是,数据需要覆盖多个数量级,无人设定范围,样本量要足够的大,至少上千。

本福特定律仅提示异常,还需结合其他证据才能判断数据造假。