私たちは常にパターンを探し、秩序を追求し、物事が単純に分類され、正確に計算されることを切望しています。 今日の科学の発展に伴い、統計学は、データが整然としていて、世界は測定可能で、未来は制御可能であるという幻想を人々に与えています。 しかし、事実はどうでしょうか? ほとんどの人は大きく間違っています。
統計学の教科書の最初のページには、ほとんどの場合、その名前が書かれています。正規分布 (正規分布)。
なぜでしょうか。 なぜなら、それはシンプルだからです。 平均μ、標準偏差、σの2つのパラメータだけで、すべてが説明されます。 このベルカーブは、人の身長、テストの点数、誤差の分布を表しており、アインシュタインのブラウン運動理論にも関連しています。 数学的には、それは恐ろしいほどエレガントで、確率積分の計算は魅力的で、この円定数のπを不可解に確率式に出現させることさえできます。
中心極限定理の助けを借りて、データ量が十分に大きい限り、最初はまったく正規分布していなくても、複数のサンプルの平均を取った後、魔法のベル曲線が再び現れます。 この数学的「普遍性」により、科学界、産業界、金融界で最も一般的な確率分布モデルとなっています。
しかし、ここに問題があります。 正規分布は非常に使いやすいため、人々はそれを乱用し始め、完全に不適切な状況で強制的に適用することさえあり、無数の誤った決定につながり、さらには世界的な金融危機を引き起こしています。
もし世界が本当に無数の独立した小さな要素で構成されているのなら、正規分布は確かに合理的です。 しかし、そうではありません。自然界では、多くの変数は正規分布に従っていません。 人間社会の機能、ビジネス競争、富の分配、戦争、紛争 - それらはベルカーブの論理にまったく適合していません。
早くも前世紀の初めに、イタリアの経済学者パレートは、社会における富の分布が明らかに不均一であることを発見しました:人口の80%が富の0%を支配しています。 これは「28のルール」として知られています。
これは偶然ではなく、べき乗則分布に準拠する特徴です。べき乗則分布の最大の特徴は、「頭が重く、尾が長い」ことです。つまり、ほとんどの現象が小さな領域に集中しており、極端なケースが発生する確率は正規分布の予測よりもはるかに高くなります。 インターネットのトラフィック、都市部の人口、株式市場の変動、さらには自然災害の破壊力までもが例外なく発生します。
その根本的な理由は、世界が高度に相互接続されていることです。
正規分布の条件は独立性、つまり各因子が他の因子に影響を与えないことです。 しかし、現実の世界、特に人間社会は独立することはできません。 情報の普及、市場競争、ソーシャルネットワーク、経済活動はすべて高度に相互に関連しており、ある人の決定が別の人の行動に影響を与えることがよくあります。
変数間にフィードバックメカニズムが存在すると、最初はランダムであっても、最終的にはべき乗則分布に進化します。
最も典型的な例は、インターネットトラフィックの分散です。 新しいウェブサイトが最初に立ち上げられたとき、訪問数はランダムに近い場合があります。 しかし、ウェブサイトのユーザーが増えると、推薦されやすくなり、さらに注目を集めます。 この「マシュー効果」により、トラフィックの大部分を引き付けるWebサイトは非常に少なくなりますが、大多数のWebサイトは訪問数が非常に少なくなります。
金融市場についても同じことが言えます。 伝統的な経済学では、市場は合理的であり、株価の変動は正規分布に準拠していると想定されています。 しかし実際には、多くの研究が、市場の上昇と下降がべき乗則の分布とより一致していることを示しています。 これは、市場が暴落する可能性が従来の金融モデルで予測されるよりもはるかに高いことも意味します。
2008年のサブプライム住宅ローン危機以前は、多くの金融モデルが株式市場が一定の「標準偏差」を超えて下落することはないと想定しており、極端な事象はほとんど不可能であると主張していました。 その結果、リーマン・ブラザーズは破綻し、米国株式市場は暴落し、世界経済は不況に突入しました。 べき乗則分布の「ヘビーテール効果」は、何度も市場を不意打ちしました。
なぜ正規分布が科学界を支配しているのですか? それは人間の思考の習慣に合致しているからです。 私たちは平均値が好きで、それを「典型的」だと考えています。 しかし、べき法則の世界では、平均は無意味です。
举个极端的例子:如果让全球最富有的十个人和普通人一起统计平均财富,结果会显示“每个人都有几百亿美元”。这显然是荒谬的。
同様に、ある国の「平均賃金」を計算すると、ほとんどの人の実際の収入よりもはるかに高い値が得られることがよくあります。 なぜなら、少数の人々の超高収入が平均を押し上げ、ほとんどの人はこの富の分け前をまったく持っていないからです。
さらに致命的なことに、正規分布は世界が安定しているという錯覚を与えます。変数が正規分布に従う場合、極端なイベントの確率は非常に低いことを意味します。 たとえば、正規分布では、標準偏差が5の範囲外の事象が発生することはほとんど不可能です。 しかし、現実の世界はどうでしょうか? 金融市場の暴落、スーパーボルケーノの噴火、ブラックスワン現象など、これらの極端な現象は珍しいことではありません。
2020年間の「0」攻撃、0年間の金融危機、0年間の新たな王冠の流行、すべての世界的なショックイベントは、金融モデルでは予測不可能です。 なぜなら、これらのモデルが依存する正規分布は、現実の世界では単純に機能しないからです。
現実世界の確率分布は、数学の教科書よりもはるかに複雑です。 一部のデータは正規分布のように見えるかもしれませんが、よく見ると実は対数正規です。 つまり、データの対数は正規分布し、生データは歪んでいます。
データの一部は、キューイング システムや地震の数など、ポアソン分布です。 一部のデータは、株式市場の変動や富の分布など、べき乗則の分布に準拠しています。 また、古典的な統計モデルにまったく属さず、混合分布、マルチパワーの法則、フラクタル構造であるデータ分布も多数あります。 単純な分類と大まかなモデリングは数学的には正しいかもしれませんが、現実の世界では大惨事になる可能性があります。
科学は簡潔な理論を追求しますが、世界はしばしば不規則です。 正規分布は、数学の優雅さだけでなく、人間の怠惰さのためにも人気があります。 シンプルで使いやすく、すぐに結論を導き出すことができます。 しかし、科学は単純さと同じではなく、現実を正確に記述できない統計モデルは、それがどれほどエレガントであっても、自滅的なものにすぎません。