ベイズ統計学は、2000年代に入ってから大きく花開いた統計学です。
電子メールの迷惑メールフィルターに応用されていると聞いた方も多いはず。
ネットで調べても、ベイズ統計、ベイズ確率、ベイズ推定、ベイズの定理……色々な言葉が出てきます。
今回は、このベイズ統計について簡単に説明してみます。
わかりやすさ重視なので、正確性に欠けることをご容赦願います。
ベイズ統計学とはどんなものか
ベイズ統計学とは、「ベイズの定理」と呼ばれるものを元にした確率の学問分野です。
以前の記事『確率は難しくて当たり前? 数学者も悩んだ確率論の話』で、確率は「無限回繰り返したときの頻度」と考えられるという話をしました。
また、降水確率のように「無限回繰り返したときの頻度」として捉えられない確率場合もあることも説明しました。
確率を「無限回繰り返したときの頻度」として捉える方法を「頻度主義」と呼びます。
それに対して、確率を「確からしさ」と言った意味に捉えたものが「ベイズ主義」「ベイズ統計」と呼ばれています。
降水確率60%を「天候データが全く同じ場合を無限回経験すれば60%が雨になる」というのではなく、「雨になる確からしさが60%」だと捉えるようなものです。
ベイズの定理というのは、ふたつ以上の事象の確率を扱うときの定理です。
この定理を広く解釈して利用するのがベイズ統計だと考えてください。
サイコロを例にしてみる
サイコロを例にとって説明してみます。
サイコロを使った確率の話をするとき、通常は1から6までの数字が出る確率は全て6分の1だと考えます。
でも実際のサイコロでは、きっちり6分の1になっているとは限りません。
ゆがみによって、6分の1からずれている方が普通でしょう。
そこで、ひとつのサイコロを選び、そのサイコロではどんな確率で目がでるのかを確認するとしましょう。
頻度主義での考え
頻度主義では、サイコロを無限回ふって出た目を記録していけば確率が求まるという考え方です。
もちろん無限回ふることはできません。
無限回ふったときの目の出方を「真の確率」だと考えて、有限回ふったときのデータから真の確率を推計するという手法を採ります。
10回や20回ふっただけのデータはほとんど意味がなく、確率は求まりません。
ベイズ主義での考え
ベイズ主義では確率は「確からしさ」なので、「1がどのくらいの割合で出そうなのか」という意味合いで捉えます。
ですから、サイコロを見て、歪んでいるかどうか確認して、おそらく6分の1だろうという推定から始めます(1が多く出そうなくらい歪んでいればその推定をします)。
そして、実際にふってみます。
そこで出た目によって、当初の6分の1という確率を順次補正していくという方法を採ります。
実際には6分の1からずれていたとしても、ふってみてデータを増やすほど「1が出る傾向」が正確になっていきます。
この考え方では、サイコロをふる前から6分の1という確率が与えられていて、データを積み重ねるとその確からしさが向上していくということになります。
ベイズ統計の利点
こう考えると利点と欠点がはっきりすると思います。
大きな利点は、多数の実験をしなくても確率が求まり、実験を重ねるうちにどんどん正確になっていくということです。
現実には、何回もテストできないものが沢山あります。
そんな場合でもベイズ主義では確率を推定できるのです。
ベイズ統計学は応用範囲が広いというのが大きな特徴です。
ベイズ統計の欠点
ベイズ統計の欠点は、最初のデータ(事前確率)に恣意性が入るということです。
事前確率を決めるときに「このサイコロならおそらく6分の1だ」といった、その人の知識や信念が入り込むのです。
これを「数学」という学問と捉えていいのか? という疑問がわきます。
実際にこの問題は大きな議論になっていて、いまだ論争が続いています。
もうひとつの欠点は、計算が大変だということです。
ひとつデータが得られるたびに、確率を計算しなおしていくので計算量が非常に大きくなってしまいます。
ベイズ統計の歴史
ベイズ統計の「ベイズ」は、”トーマス・ベイズ” という18世紀のオランダ人牧師の名前です。
ベイズは、現在「ベイズ定理」と呼ばれる統計学の定理を発見しました。
しかし、ベイズの生前は全く知られることはなく、死後に ”リチャード・プライス” によって発表されましたが、注目を浴びることはなかったようです。
このベイズの定理を再発見して発展させたのが、”ピエール=シモン・ラプラス” という有名な数学者、物理学者です。
ラプラスはベイズの定理を使ったベイズ推定という手法を生み出して、土星の質量を見積もりました。
しかし、この手法は忘れ去られることになります。
ベイズ統計に表れる恣意性を排除した統計学(頻度主義)が、”イェジ・ネイマン”、”エゴン・ピアソン” によって完成さたこともあり、ベイズ統計は完全に陰にかくれる形になったのです。
ベイズ統計の再発見
1930年代に入り、頻度主義では確率の守備範囲が狭いこともあって、主観確率という確率を唱える人が出てきました。
そのような主張に対して、1950年くらいから「ベイズ主義」という言葉が使われるようになりました。
ベイズの定理が公表されてから、約200年後のことです。
ベイズ統計の発展
ベイズ統計が一躍有名になったのは、1990年の「モンティー・ホール問題」でしょう。
詳しくは別記事『数学者も悩んだ確率の話 モンティー・ホール問題を解説してみた』に示しましたが、確率に対する大論争です。
このモンティー・ホール問題で確率を計算するときに使われるのが「ベイズの定理」です。
『ちょっと面白い確率の問題 直感は当てにならない?』という記事でとりあげた問題も同じくベイズの定理で説明できます。
そして今では、ベイズ統計は幅広い分野で応用されています。
ベイズ統計はデータが少ない場合や一度しか起こらないものに対して確率を与えることができる応用範囲が広いものです。
そして、計算量が多いという欠点はコンピューターによって解決されました。
一度認知されると、応用が広がっていくのは当然と言えば当然ですね。
最後に
ベイズ統計は、様々な分野に応用される有用なものであることには異論はありません。
ただ、それを数学と呼ぶのかどうかについては、いまだに論争が続いています。
言ってみれば「確率とは何か?」という素朴な疑問に、数学者の統一した見解がないという状況です。
やっぱり確率は難しい、そう実感しています。