経営変革を考える新たな視点:ベイズ統計への誘い/中村 絵理

 謹んで新春のお慶びを申し上げます
 皆様のご健勝とご多幸の年となりますことを祈念致します

 近年、「ベイズ統計学」という新しいデータ分析の方法が脚光を浴びています。
従来の統計では大サンプルを前提としたデータ分析が主流でしたが、それにはデータの少ない(経験が蓄積されていない)事象については分析の精度が著しく低下するという問題がありました。しかし、ベイズ統計学ではサンプルが多かろうが少なかろうが、今あるデータの中から合理的な判断を行うことができるというメリットがあります。例えば、銀行がある企業に融資をするかどうかを判断する際、その企業がどの程度信用に値するかという視点から様々なデータを集めるでしょう。単純化のため、ここではその企業がそれまでに何回納期に遅れたかというデータを使うとします。通常の統計学ではそれまでにその企業と長年にわたる取引があり、データが十分に蓄積されていることが必要です。しかし、ベイズ統計学では、「ベイズ更新」と呼ばれる方法で取引経験があまりない企業に関しても「その企業が信用できるかどうか」を判断できます。
 まず、第1期にその企業が納期を守ったとします。納期を守ったということはその企業が信用に値する企業である確率が高くなるため、「その企業は信用できる」と判断されます。第2期にもその企業が納期を守った場合、その企業が信用に値する企業である確率はますます高くなります。しかし、第3期にその企業が納期を守らなければ、その企業が信用できる企業である確率は下がります。このように、新しいデータ(事後情報)を得るとそれまでの情報(事前情報)がどんどん更新されていくのがベイズ更新です。データ数(サンプル)が大きいほど情報の蓄積が多いので、サンプルが大きいにこしたことはないのですが、少ないサンプル(ここでは第3期までの3つのデータ)でも分析し評価していく手法なのです。
 ベイズ更新が「事前情報を新しいデータによって事後情報へと更新していく」
プロセスなら、最初のデータ(ここでは第1期のデータ)は何を基に更新するのでしょうか?つまり、初期値は何を与えるのでしょうか?ここにベイズ分析の大きな特徴があります。「この会社の社長は人柄がしっかりしているから信頼できる」などの、主観情報を初期値に設定するのです。例えば、その企業が信用できる企業である確率を少し高めの80%ぐらいに設定しておくのです。従来の統計分析では、主観情報は「非科学的」として排除しているため、何も情報がない段階では主観が入らないようにその企業が信用できる確率を50%とします。しかし、我々が日常的に意思決定を行う際、それまでの勘や経験、評判や噂などを参考にすることは頻繁にあります。このような「人間の常識」を明示的に分析に織り込めるという点で、ベイズ分析は従来の統計学よりも柔軟に判断できるのです。つまり、客観情報だけでなく、主観情報も有用なデータとして分析に役立てているのです。
 現在、ベイズ分析は様々な分野で応用されています。例えば、迷惑メールの分類に使われているのは「ベイズフィルター」と呼ばれる分類法の応用です。ベイズフィルターでは、「無料」という言葉があるメールに含まれていればそれが迷惑メールである確率が高くなるという判断を下します。一方で、迷惑メールであまり含まれない「統計」という言葉がそのメールに含まれていると、そのメールが迷惑メールである確率が下がります。このほかにも、天気予報や人工知能、顧客情報管理など「新しい情報によってプログラムがどんどん学習していく」ことが必要になる分野での応用が広がっています。

参考文献
中妻照雄 (2014)「入門 ベイズ統計学」朝倉書店

——————————————————————————————————
■執筆者プロフィール

中村 絵理(なかむら えり) 神戸大学 経営学研究科 准教授