・はじめに

統計学の歴史では、頻度主義とベイズ主義という異なる立場の方法が存在し、違いに論争を繰り広げてきました。しかし、近年の統計学者の中には「現代の統計学は数理的な方法に基づいているから、主義の争いは解決した」と考える人もいるようです(この立場のことを、この記事では便宜的に「統計数理による主義不要論」と呼ぶことにします)。この記事では、「統計数理による主義不要論」に対して私なりの反論を考えてみることにします。論点は、以下の3つです。

 

1.     「“数理的な方法”を使っても、主義の争いが解決しない」ということを示唆する事実が存在する

2.     頻度主義とベイズ主義の論争を「どちらの方法が正しいか」という争いとして捉えると論争の全体像を見誤る

3.     WAICに代表される現代ベイズ法の意義は、「数理によって主義の争いを解決した」のではなく「仮にあなたが頻度主義的な価値観を重視するとしても、ベイズ法を使った方が目的を達成できる場合がある、ということを数理的に示した」という点にある

 

1.「“数理的な方法”を使っても、主義の争いが解決しない」ということを示唆する事実が存在する

 

「統計数理による主義不要論」の立場からは、かつて頻度主義とベイズ主義のどちらが正しい方法なのか争っていたのは、おのおのが好き勝手に自分の主義主張を述べていたからだ(学問として未熟だったから)という主張がなされることがあります。もしそうだとすれば、数理的な方法を使うことで主義主張の争いは不要になるのではないか、と考えるのは自然なことです。

 

しかし、果たして頻度主義とベイズ主義の論争はそのような稚拙な主張のぶつけ合いに過ぎなかったのでしょうか。また、数理的な方法に基づけばこのような論争は解消するのでしょうか?そうではありません。統計学の世界には、ベイズ法の正しさを数理的に“証明”した研究者がたくさんいます(頻度論についても同様です)。さらに、「ベイズ主義に従っていない人は合理的ではない」ということを“証明”した人すらいます。ではなぜ、その時に論争が解消しなかったのでしょうか。いくつか例を挙げて検討してみます。

 

例えば1930年代にベイズ主義者のde Finettiは、「いくつかの選択肢の中から正しいものを選ばなけれないけないが、どれが正しいかわからない」という場面での意思決定をある種の“賭け”として捉え、その賭けで合理的に振る舞うための条件について検討しました。その結果、ある賭けをするとき不合理な選択をしない(ダッチ・ブックと呼ばれる確実に損を招く選択をしない)ためには、人間はベイズ主義者でなければならない(ベイズ主義でない人は合理的ではない)と“証明”しています(なんのこっちゃと思われましたか?そのモヤモヤに対する応えは4パラグラフ後に説明します)。

 

また同じくベイズ主義者のSavage(1954)は、期待効用理論で人間の意思決定の合理性に関する幾つかの公理を立てました(例えば選好性の順序について、a > bかつ b > cならば a > cであるなど)。その結果やはり、合理的な人間がベイズ主義的振る舞うことを“証明”しました。

 

これら二つは歴史的にも有名な事例ですが、「ただの昔話」というわけではありません。今でも多くの入門書に書かれている「頻度主義と異なり、ベイズ主義なら“仮説の正しい確率がわかる”」というような説明も、de FinettiやSavageの議論に根拠づけられています。また、例えば近年でも(Bissiri et al. 2016, Holmes et al. 2017)は、統計学の専門誌でde Finettiのアイデアを現代的に拡張した(仮定した統計モデルが間違っている場合を考慮している)ベイズ主義を提案し、その数学的な正しさを“証明”しています。これ以外にも、類似の議論は数多く存在しています。

 

2.     頻度主義とベイズ主義の論争を「どちらの方法が正しいか」という争いとして捉えると論争の全体像を見誤る

 

しかし、こうした“証明”では、過去の論争は解決しませんでした。だとすると、いま「数学を使って主義の争いを解決した」と思われている方法論も、いずれ論争が再発するんじゃないだろうか、という気になってきませんか(帰納法!)?少なくとも、「今までの“証明”では解決できなかった、にも関わらず今回は可能である」という点について、何か説得力のある議論が必要になりそうです。

 

なぜ論争が解決しなかったのか、もう少し掘り下げて考えてみましょう。証明が間違っていた?いや、そうではないのです(中にはそういうケースもあるだろうけど)。例えば実験で得られたデータを分析したい科学者にとって、「ベイズ主義こそが、あなたにとって最適な“賭け”戦略なのだ」と言われても、「いやいや私はギャンブルをやりたいわけじゃないんです」と答えるかもしれません(Sprenger&Hartmann 2019)。あるいは合理性の公理として「a > bかつ b > cならば a > c”であるべきだ」と言われても、その根拠に疑問を抱くかもしれません(ちなみに実際の生物や人間でこうした遷移的(a>b>c)な選考に従っていないケースは多くあり、どのような条件でこうした選考性が有利になりうるのか進化的に検討している研究者もいるようです)。もしあなたが負けないギャンブルを目指すなら、de Finettiの“証明”に従えば良い。でも彼の議論からは、私たちがギャンブラーにならなければいけないという規範的な主張は引き出せないし、親切心で声をかけた負け続きのギャンブラーに「こうやっていたずらに金を”ス”る瞬間が、たまらなく快感なんだよ〜」と返されたら黙って受け入れるしかないのです。

 

似たような議論が、頻度主義とベイズ主義の間でも交わされてきました。ある頻度主義者は、工場の品質管理を行うという目的で長期的な誤りリスクを一定以下に管理できる仮説検定という方法を提案しました(*注1)。しかし、「科学者が求めているのは、いま目の前にある、“このデータ”を分析することなのであって、長期的なリスクなんかどうでもいいのだ」という立場の人たちからは批判されています。つまり、これは目的や価値論をめぐる争いであり、頻度主義とベイズ主義の論争というのは「どちらの方法が正しいか」という争いとして捉えるべきではないのです。そうではなく、「統計的方法論は、どんなことができる方法を目指すべきなのか」をめぐる争いとして理解すべきです(もちろん「目的が異なるなら、お互い違う方法を使えばいいじゃないか」という穏当な主張もあり得ます*注2)。

 

数学は非常に強力な手段です。ある問題についてひとたび公理や定義を与えれば、演繹的な手続きを経て主観や思い込みの入る余地のない、確かな結論を得ることができます(もちろん実際には、個々人の能力の違いが障壁になる場合もあるし、あるいは数学基礎論という分野で問題になるように、「どのような公理や規則を採用すべきか」が問題になることはあり得ますが)。しかし実世界で出会う問題は、それ自体で既に公理体系の中の問題として定式化されていることばかりではありません。科学におけるデータ分析もそうでしょう。そのような場合には、数学的に問題を扱う以前に、なんらかの手段で数理的に解決可能な問題に「落とし込む」というプロセスが必要になります。この「落とし込む」という作業に必ずしも哲学の話が関わるわけではないかもしれないし、また数学者たちにはこの問題を解けいないと主張するわけでもありません。しかしいずれにせよ、数学の枠組みの外の問題を、数学的の枠組みの中に落とし込むという過程で、何か数学の公理に基づくこと以外の議論が必要なのは間違い無いのではないでしょうか。

 

3.     WAICに代表される現代ベイズ法の意義は、「数理によって主義の争いを解決した」のではなく「仮にあなたが頻度主義的な価値観を重視するとしても、ベイズ法を使った方が目的を達成できる場合がある、ということを数理的に示した」という点にある

 

ここまで、私は様々な統計的推論の背後には数学の公理だけでは記述できない目的や価値をめぐる問題が存在する、という趣旨のことを強調してきました(*注3)。しかしだとすると、WAICの背後にある最近のベイズ法にも、やはり何か目的や価値観といったものが前提されているのではないでしょうか。おそらくWAICの背後にある考え方は、AICに強く影響を受けていると言って良いでしょう。

 

AICではデータを生成している真の分布はわからなくて当然なので、いちばん良い予測を与える(予測モデルと真の分布の間の近さを最小化)するモデルを目指したら良いのではないか?という考え方のもとで、真の分布と予測モデルの相対的な近さ(期待対数尤度)を“数学的に”推定する方法を提案しています(例えば、小西&北川2004)。ただしAICは期待対数尤度を推定する過程で「予測モデルは最尤法を使って作る」「最尤推定値は、真の分布を平均とする正規分布に従っている」という仮定に従っており、階層ベイズモデルやニューラルネットワークのような複雑なモデルにはうまく適用できませんでした。この問題を数学的に解消したという意味で、WAICは非常に画期的な手法であると私は思います。

 

しかし、AICやWAICであっても、 “主義のはなし”と無縁なわけではありませんし。事実、AICにおける期待対数尤度の推定は、頻度主義的な考え方に裏打ちされていることが指摘されています (Sober 2008, Sprenger 2013, Sprenger&Hartmann 2019)。なぜなら、「一回一回の推定は、当たることもあるし外れることもある。しかし、その期待値は正しい値と同じである」という性質を理由して、モデルを評価しているからです。私が理解している限り、この点においてはWAICもAICと同じ目的を共有しているはずです。

 

このように、頻度主義的な立場からベイズ法を擁護する(「仮にあなたが『いっかいいっかいの推定は間違っててもいいから、平均的に間違いを減らすことのできる方法が欲しい』という頻度主義の価値観に立っていったとしても、**という条件下ではベイズ主義の元で生まれた方法を採用した方があなた自身の目的を達成できますよ」という考え方)統計手法は、他にも存在します。例えばPolson&Scott(2012)は、線形混合効果モデルにおけるランダム効果の分散推定で半-コーシー事前分布を使うことの利点を明らかにし、以下のように述べています:“We find that the frequentist risk profile of the resulting Bayes estimator is quite favorable”. またDenisらは、仮にNeyman-Pearson流のエラー確率を最小化したい場合でも、NPの仮説検定を使うよりBICによるモデル選択を行った方がうまくいくことを示しています(Dennis et al. 2019)。

 

従って、現代の統計学ではかつて考えられてきたような「頻度主義の手法 VS ベイズ主義の手法」という単純な図式では捉えられないということは認めざるを得ないでしょう(Ohkubo 2019)。しかし、このことは「(統計的)推測に 「主義」 は 不要」いうことは意味しないのです。現代でも統計学の目的や価値論は多様です。主義の話をしてはいけないという空気を醸成するよりも、むしろ自らの拠る主義を明確化することこそが、不要な論争を避けるのに有用なのではないでしょうか。

 

・さいごに:統計的推論をめぐる価値判断や歴史のおはなしは、利用者が全員知っておくべき内容か

 

分析結果の解釈に関わってくると思います。統計学の教科書には、時に「p値はエラー確率である」というような誤った説明が書かれることがありますが、これは異なる出自の主義が混同されたことによって生じています(大久保&會場 2019)。どの説明が正しく、どの説明が誤っているのか。あるいはその説明の背後にはどんな目的や価値が前提されているのか。いずれも、empiricalな研究でもResultsやDiscussionを書くうえで大きく関わってくるように思います。

 

しかし、私自身は今のところ、別に全員が必ず知っておくべき知識だとも考えていません(特に歴史的な話については)。現代の実証研究者たちが日々の実験やフィールド調査にどれだけの時間を費やしているか考えるとあまり現実的ではないし、僕自身はたまたまこういう議論に関心を持ったけど、そこに面白さを感じない人も少なくないと思うからです。でも個人的には、たまにこうした話題にも関心を持っってもらえると楽しい。実証研究者と統計学の哲学、どれぐらいの距離感が良いのか??まだまだわからないことだらけなので、色々教えて欲しいという感覚でいます。

 

References:

Bissiri, P. G., Holmes, C. C., & Walker, S. G. (2016). A general framework for updating belief distributions. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 78(5), 1103-1130.

Dennis, B., Ponciano, J. M., Taper, M. L., & Lele, S. R. (2019). Errors in statistical inference under model misspecification: evidence, hypothesis testing, and AIC. Frontiers in Ecology and Evolution, 7, 372.

de Finetti, B. (1972). Probability, Induction and Statistics, Wiley, New York.

Holmes, C. C., & Walker, S. G. (2017). Assigning a value to a power likelihood in a general Bayesian model. Biometrika104(2), 497-503.

Polson, N. G., & Scott, J. G. (2012). On the half-Cauchy prior for a global scale parameter. Bayesian Analysis, 7(4), 887-902.

Savage, L. J. (1954).The Foundations of Statistics. Wiley, New York (secondedition1972,Dover,New

York).

Ohkuno Y. (2019). Revisiting the two major statistical problems, stopping-rule and the catch-all hypothesis, from the viewpoint of neo-Bayesian statistics. 16th Congress of Logic, Methodology, and Philosophy of Science and Technologies.

Sprenger, J. (2013). The role of Bayesian philosophy within Bayesian model selection. European Journal for Philosophy of Science3(1), 101-114.

Sprenger, J., & Hartmann, S. (2019). Bayesian philosophy of science, Oxford University Press, Oxford.

Sober, E. (2008). Evidence and evolution: The logic behind the science. Cambridge University Press.

大久保祐作, & 會場健大. (2019). p 値とは何だったのか: Fisher の有意性検定とNeyman-Pearsonの仮説検定を超えるために. 生物科学= Biological science, 70(4), 238-251.

芝村良 (2004).“R.A. フィッシャーの統計理論”, 九州大学出版会

 

*注1

頻度主義も一枚岩ではありません。例えばNeymanとPearsonは、以下のような状況を想定していました。もしマーケットに不良品ばかりを出荷してしまったら、損害賠償や悪評で多額の損害を出すかもしれない。しかし一方で、いちいち商品や生産ラインを全部チェックしていては効率も悪く利益を最大化できない。そんな時、許容しても良い不良品の割合や損害の大きさを定めて仮説検定の考えを適用すれば、ライン生産されている商品を毎日ランダムにサンプルして「不良品の数が一定値を超えたら生産ラインを止めてチェックする」という規則を設けることができて、不良品による損害リスクと利益最大化のバランスをとることができます。「ある生産ラインから出てくる商品を毎日検査する」という目的があったからこそ、彼らは「ある同一の真の分布から有限個のサンプルを得て、そのサンプルに対し統計的推論を適用する、というプロセスを何度も繰り返す」という前提をおきました。

 

しかし同じ頻度主義者でも、Fisherは統計的推論を農業試験場で収集したデータを使って科学的な探究に使うことに想定していましたから、Neyman-Pearsonの「同一の分布から何度もサンプルを取れる」という前提が気に入らなかったようです(「自然がそんなに単純なわけがない!」)。彼は、「いま目の前にあるこのデータをどう分析し、どう理解するか」という目的から有意性検定などの統計的手法を提案しました(そしてN Pらからは、「代案となる仮説もないのに『仮説の棄却』なんてできるかよ〜」と批判された)。このように統計的推論を用いる目的が異なれば、「どのような前提のもとで」「どのような手法を構築していくか」に違いが出てくるのも自然なことではないでしょうか。私自身は、FisherとNPの論争と同様に、頻度主義とベイズ主義の争いもこのように「どんな状況を想定すべきか」「どのような問題に取り組むべきか」をめぐる問題だと理解しています。

 

*注2

例えば統計学者のRoyall(1997)によって展開されています。この本では「科学的推論においては、“いまある証拠から何が言えて、何がいえないかを明確にする”のが重要な目的だ」と定め、なぜNeyman-Pearsonの仮説検定、Fisherの有意性検定、ベイズ法が、いずれもがこの目的に不適切なのかを論じました。そして、尤度原理に基づく尤度主義こそがこの目的を達成する方法である、ということを提案し、一般化線形モデルなどを例に適用方法を具体的に紹介しています。

 

*注3

ただし、異なる主義の人が、異なる理由から同じ手法にたどり着く、ということはあり得るでしょう。例えば一般化線形モデルにおける回帰係数の最尤推定について考えてみましょう。

 

Neyman-Pearson流の頻度主義の立場に立ならば、「ある真の分布から有限個のサンプルを得て、そのサンプルを使って元の分布を最尤推定で復元する」という作業を何度も行うと、最尤推定値と真の値のズレの期待値は0であること(不偏性)、不偏な推定法のなかで最尤法が最も効率がよいこと(有効性)などを根拠にして、最尤法を使えば“良い(1回1回は間違うこともあるし正しいこともあるけど、長期的に同じルールを使えば平均的には真の値を的中できるであろう)”推定ができると言えるかもしれません。

 

一方ベイズ主義の立場からは、回帰係数に対する事前分布にあまり強い情報を与えない時には、最尤推定値がベイズ推定値の良い近似になるから最尤推定値を使ってもいいだろうと考えるかもしれません。しかしこの場合、仮に両者が最尤法という同じ方法を使うとしても、どのような前提・目的で最尤法を使ったのかは異なると言えるでしょう。