1.

リンドレーのパラドクス(またの名を、ジェフェリーズ・リンドレーのパラドクス)は、50年以上続く論争のテーマであり、統計学や科学哲学のみならず時には実用上統計学を扱う他分野の研究者も大きな関心を寄せている。特に近年p-valueを用いた推論に懐疑的な目が向けられる中で「サンプリングサイズが大きい時にはp-valueが使い物にならないらしいよ?」という視点から言及されることが多いように思える。しかし、このパラドクスの全容(つまり、「リンドレーのパラドクスってなに???」という問いに答えること)はいくつかの理由で捉えづらい。

 

a)同じ現象に対して、大きく異なる切り口がある

もともとリンドレー自身が提示したのは、同じデータであっても頻度主義の検定とベイズ主義の検定では全く逆の結論を導きうる、という点だ。そしてリンドレー自身は、ベイズ仮説検定が妥当な推論であるという前提を置いていたので、上記の事態はリンドレーにとって「頻度主義の検定は誤っている」ということを示すものだった(注1)。

 

一方ベイズ仮説検定の枠組みから見て、モデルに含まれる事前分布を適切に設定しないと誤った結果を導いてしまうぞ、という論じ方もある。例えばベイズファクターを使ってモデル1:自由パラメータθを含まないモデル(θ=0) とモデル2:自由パラメータθを含むモデル(θ=θa)を比較するとしよう。この時、モデル2のパラメータに対して事前分布を与えることが必要になる。この時

1)パラメータθの値は0ではないが0に近い値で

2)事前分布の裾野が広すぎる

という場合には、実際にはθ≠0にも関わらず事前分布の与え方が広すぎたせいでベイズファクターはモデル1を支持してしまう。というようなことが生じる。

 

 

b)オリジナルの証明そのものがテクニカルで理解しがたい

リンドレー自身の証明をかいつまんで書くと以下のようになる。肝は、有意水準αが満たされている、という条件を保ったままサンプリングサイズnを無限大に飛ばすと、ベイズファクターがどうなるか、という点。

1) 同じデータについて頻度主義の検定とベイズファクターを使った検定のふた通りで行うために、それぞれの検定に必要な式を定義する。

2)この時頻度主義における検定を、有意水準αで実行すると仮定し

3) 有意水準αが満たされている時の統計量を、データの標本平均とサンプルサイズを用いて表す

4) 標本平均を、有意水準αを使って書き換える

5)ベイズファクターにおける標本平均を4)で書き換え、

6)ベイズファクターを表現する式に含まれるサンプリングサイズんについて、∞に飛ばした時の極限を取った結果

結論:頻度主義の検定において、水準αで帰無仮説が棄却されているという条件を保っているのにも関わらず、nを無限大にするとベイズファクターは帰無仮説に対する非常に強い支持を与える。

 

リンドレーのパラドクスにまつわる主な文献

Lindley, D. (1957). A statistical paradox. Biometrika, 44 187–192.

パラドクスの存在を知らしめた張本人。

 

Shafer, G. (1982). On Lindley’s paradox (with discussion). Journal of the American Statistical Association, 378 325–351.

 

DeGroot, M. (1982). Discussion of Shafer’s ‘Lindley’s paradox’. J. American Statist. Assoc., 378 337–339. 

 

Robert, C. (1993). A note on Jeffreys-Lindley paradox. Statistica Sinica, 3 601–608.

 

Lad, F. (2003). Appendix: the Jeffreys–Lindley paradox and its relevance to statistical testing. In Conference on Science and Democracy, Palazzo Serra di Cassano, Napoli.

 

Spanos, 2013; 

Mayoと並ぶエラー統計(頻度主義)の提唱者が「リンドレーのパラドクス」=「頻度主義の手法が間違っている」という単純化された図式に異議を唱え、ベイズ主義や尤度主義においてもリンドレーのパラドクスの影響を受けるぞ、と指摘した論文。

しかし、彼の尤度主義理解はあまり深くないように見える。尤度主義は1対の仮説がある時に、与えられたデータがどちらの仮説を支持するか比較することだけを考えるべしとうけれども、事前にどんな仮説を立てていたかに関わらず最尤推定によって得られた仮説が一番支持されるじゃないか、というのがSpanosの言い分。しかしRoyall自身が1997年に述べているように、尤度主義の立場においてデータ収集前に仮説を立てる、推論を行う、といった営みを行うこととデータ収集後に結果を吟味するという営みは根本的に異なるのである。更に言えば、データ収集後に最尤推定によって得られた仮説Hmであっても、別な仮説Haに対して「強いし支持を受けない」という状況が存在しうる。例えば、二つの仮説の尤度比、L(D|Hm)/L(D|Ha)をLRとした時、

1/8<LR<8であれば、どちらか一方の仮説が強い支持を受けているとは言えない。

 

Sprenger, J. (2013). Testing a precise null hypothesis: The case of Lindley’s paradox. Philosophy of Science,

80 733–744.

 

Robert, 2014 

 

(注1:リンドレー自身は、フィッシャーの有意性検定とNPの仮説検定の区別をあまりしていないし実際そのような批判も可能だ。もちろん、両者が全く異なる枠組みであることは非常に重要だが、リンドレーのパラドクスの本質と数学的証明に関していうなら、あまり関係しない。ただし、言葉のミスチョイスによってパラドクスをややこしくした可能性はあると思う。頻度主義の検定による結果に対して(misleadingに)ベイズ的な解釈と言葉遣いを与えているので、「そもそも頻度主義とベイズ主義で推論の枠組みや目的が異なるんだから、違う結果になるのは当たり前である。したがってこれはパラドクスなどではない。」という点が見えづらくなったかもしれない。推論の枠組みや目的の違いについては、Spanos(2013)やRobert(2014)に詳しい。 )