没错,首位数字里面,1出现的概率高达30%,而9出现概率只有4.6%,乍一看有点反直觉。
这是本福特定律,已经应用在审计领域。
比如当年安然财务造假,安然公司公布的数据中,首位数字分布严重偏离本福特定律,5和6出现的频率过高,1出现的频率远低于30%。然后就开始深入查账,发现高管通过特殊目的实体转移债务,修饰财务报表。
1881年,美国天文学家西蒙发现了一个秘密,以数字1开头的页码磨损最严重。
1938年,电气工程师本福特验证了它的普适性。
本福特定律的公式很简单
首位数字n出现的概率 = log₁₀(1 + 1/n)
数字1出现概率≈log₁₀2,有30.1%。
数字9出现概率≈log₁₀(10/9),只有4.6%
举个通俗的例子。
假设用100万的本金炒股。
100万到200万,需要增长100%。
800万到900万,只需要增长12.5%
想要首位数字停留在高位,增长速度必须越来越慢,这在现实世界中几乎不可能。
数据天然倾向于在低位停留更久,所以1有绝对优势。
但如果是人为干涉,比如身份证号等人工编排的数据,强制均匀分布,就不符合本福特定律。
本福特定律最常见的应用,就是审计查账。
用本福特定律分析企业财务报表、发票、交易记录,虚假账目可能因人为编造数字而偏离本福特分布。
还能判断选举舞弊、论文造假、经济数据水分、偷税漏税、保险索赔。
本福特定律成立的前提是,数据需要覆盖多个数量级,无人设定范围,样本量要足够的大,至少上千。
本福特定律仅提示异常,还需结合其他证据才能判断数据造假。