光栄にも大塚淳先生より新著「統計学を哲学する」(名古屋大出版会: 以下「本書」)を御恵投いただきました。御礼に替えて、簡単に内容を紹介し議論をしていこうかと思います。特に本書が導入した「存在論」「意味論」「認識論」という三つの区別の意義を大久保の視点から論じます。最後に、私が関心を持った今後の展開について言及します。

 

・はじめに

科学哲学とは、どのような分野なのだろうか。もちろん私が考えるにはあまりにも大きすぎる問だが、他の人に紹介するなら「科学における概念や論争を分析すること」あるいは「ある学術的主張の背後で暗黙的に措定されている前提を分析すること」と答えるかもしれない。本書の著者がTwitter述べた通り、

 

 

生態学を専門とする私の友人は、以前生物学の哲学者たちの議論する様子を見て「まるで”空中戦”みたいだ」と言っていた。誤解のないように断っておくと、彼のコメントは決して「地に足がついていない」とか「上から目線だ」というネガティブな反応ではなく、むしろクリアな議論に驚嘆したと言っていた。個別の仮説やデータについて考えることに慣れてきた彼にとって、「抽象的な概念を抽象的なまま分析し、適切な”俯瞰図”を与えたり込み入った問題を少しずつほどいたりすることができる」という点に驚いたそうだ。もっとも、歴史的には科学哲学者同士の議論が白熱していくうちに空中どころか重力圏を飛び出して飛んでいってしまうこともあったとかなかったとか聞いているが…(Ohkubo unpublished)。

 

ところが、統計学の世界(だけでもないが)ではどうも「哲学する」ということに対して評判が悪い。恐らくその理由の1つは、悪名高い「確率の頻度解釈vs主観ベイズ解釈」論争に対して感じられる無益さだろう。しかし実は、本書のいう哲学とは「頻度解釈と主観解釈のどちらが正しいだろうか」という問題を扱うものではない。「最尤法とベイズ法のどちらが正しいのだろうか」を決める議論でもない。では、哲学者が統計学について論じることにどのような意義があるのだろう。

 

ひとつの方向性は、あらたな論点を提起することである。たしかに、これまで“統計学の哲学”という分野では、あまりにも頻度主義とベイズ主義の話に執着しすぎていたのかもしれない(著者の言うように、本書は必ずしもこの分野の標準的な書を目指したものではない。詳細は本項末尾の注1に記載した)。本書はモデル選択と深層学習や統計的因果推論など近年大きな関心を集めるトピックに多くの紙面を割いて議論しており、特に著者が専門とする因果性に関する分析は非常に充実している。これまで十分に議論されてこなかった問題を取り上げることで、哲学という分野の意義と面白さが再評価されるのではないだろうか。

 

もうひとつの方向性は、多くの人が不毛さを感じるベイズ主義/頻度主義の話題に新たな視点を与えることである。本書では知識の内在主義と外在主義(特に信頼性主義)という現代認識論の中心的な概念が日常的でわかりやすい例とともに紹介されており、これら概念やこれまでの哲学研究で得られた重要な知見を援用することでベイズ主義と頻度主義の双方が抱える問題をそれぞれ公平かつ簡潔に指摘している。

 

・「存在論」「意味論」「認識論」

本書最大の特徴は、統計学に関する哲学的問題を論じるにあたり「存在論」「意味論」「認識論」という、三つの区別を導入したことにある。この区別は哲学に詳しい読者にはおなじみかもしれないが、多くの論争が複雑に絡み合った統計学には特に有用だ。三つの区別を入れることで既存の問題がよく整理されると考えられる。本稿ではそのご利益を見るためにも、著者の新たな問題提起が新鮮な深層学習や因果推論ではなく、敢えてすっかり飽きられた(?)ベイズ主義/頻度主義論争に注目しよう。

 

例えば統計学の哲学で多くの業績を残してきたD. Mayoは、一般に他の研究者からも頻度主義を擁護する論客として見做されることが多く、実際に本書でも頻度主義を扱った第3章に登場する。しかし正確にいうと、彼女は必ずしも確率の解釈に関して頻度主義という立場に立脚しているわけではない。彼女がそれ自体を議論の本題として扱うことは少ないが、主観解釈とも頻度解釈とも異なる傾向(propensity)解釈に近いと言える(注2)。にもかかわらず多くの人が彼女を頻度主義者として扱う理由は明白で、具体的なデータ処理の方法としては代表的な頻度主義統計とみなされているNeyman & Pearsonの仮説検定論を取り入れているからであろう。Neyman & Pearsonの仮説検定とは、簡単に言えばある統計モデルを使って誤った判断の回数が長期的に見て一定以下になるような意思決定規則を定める方法だ。彼らの立場によれば、「当該の仮説の真偽について、直接的には何の判断も下さない(p.107)」。即ち、データ収集前に、誤った仮説を受け入れてしまう確率を一定以下に定めることはできる。しかし、ひとたびデータが収集されて統計量が算出されたら受け入れられた仮説は「真か偽のどちらかである。それ以上に言えることはない」(大久保 & 會場2019)。

 

MayoはNeyman & Pearsonの手法を受け入れつもその解釈については批判的に検討し「真か偽のどちらかである。それ以上に言えることはない」という主張には必然性がない、という結論に行き着いた(このように先行研究の成果に深い理解と敬意を示しつつ、学界の標準的な解釈にも「○○先生がこう言っている」といった姿勢から距離を置いて批判的に再考するという姿勢はまさに学術として理想の姿かもしれない)。この解釈に変わり、彼女は「仮説検定を行う過程で計算されるある統計量は、“ある仮説Hがどれだけ”シビアな”テストをパスできるか”の指標となる」という見方を与えた(詳細はMayo 2018を参照)。この再定式化された仮説検定の枠組みはシビアテストと呼ばれ、ベイズ主義や尤度主義と目的が違うことや、科学的推論においてベイズ主義や尤度主義にはない利点があると論じられてきた。

 

このようなシビアテストの考え方は、本書の存在論/意味論/認識論の区別を意識し、互いの関係性を分析することでより一層明確になる。Mayo自身は「外在主義」や「信頼性主義」という用語をあまり前面に出さないが、彼女の打ち出した「ある仮説Hがどれだけシビアなテストをパスできるか」という考え方は本書で論じられた信頼性主義による知識の正当化という議論と非常によく似ている。つまり、Mayoの提案する方法は、具体的な手法としてはNeyman & Pearsonを受け入れつつ意味論レベルでは「Neyman & Pearsonの結論には根拠がない」と分析し、彼らより踏み込んだ解釈を与える。そしてこの新たな意味論に根拠を与えるのが、信頼性主義という認識論的立場になるだろう。このような分析は、統計理論を単に「手法の違い」「確率解釈の違い」として比較するだけでは到達できない。

 

存在論/意味論/認識論の区別が有用なのは哲学に関する分析だけではない。具体的な統計手法についてもより深い洞察を与えることが期待される。例えば、統計の入門書では頻度主義とベイズ主義の違いがパラメータ推定の最尤推定とベイズ推定の違いに対応すると説明される場合がある。このような見方からすれば「ある条件のもとで最尤推定とベイズ推定はほとんど同じ結果を出すのだから、主義の違いは実務に関係ない」と考えるかもしれない。しかし、この対応付けは不正確だ。「〇〇法とはなにか」という問いと「〇〇法の結果はどのような意味と解釈できるか」「〇〇法はどのように認識的に正当化されるか」という問いは、それぞれ異なるからだ。こうした複雑に絡み合った問いを単に「主義の違い」や「確率解釈の違い」として括るのは、あまりにも大雑把でかえって多くの人を混乱させてしまう。

 

さらに複雑なことに、ひとつの手法に対して複数の正当化が可能な場合もある。以前の記事でも取り上げたランダム効果モデルのパラメータ推定について考えよう。主義に関わらずデータからパラメータへの変換という点は最尤推定もベイズ推定も同じであるし、実際ランダム効果モデルのパラメータは最尤推定でもベイズ推定でも可能である。ところが最尤法の場合、ランダム効果の分散推定が不偏推定量にならないことが多い。一方ベイズ推定を行う場合には、パラメータに何らかの事前分布を与える必要がある。解析的な都合の良さからガンマ分布が使われることも多いが、実際には様々な形状の事前分布が想定できる。しかも事後分布は普通の回帰パラメータに比べ事前分布の与え方に対して敏感であることが知られており、どのような事前分布を与えるべきかが長く議論されてきた。Polson & Scott (2012)は以下のようなリスク関数を定義して「半コーシー事前分布を使うことで、ランダム効果分散の“良い”推定ができる」と明らかにした。

 

いま、データからあるパラメータθを推定法δ()でを推定するとしよう。この時、リスク関数は以下のように定義される。

 

Polson & Scott(2012)は、最尤推定と半コーシー事前分布を使ったベイズ推定を比較し、後者の方がリスクが小さいことを明らかにした。ここで、リスク関数の右辺を見るとデータの出方yに対する期待値をとっていることに注意する。すなわちPolson & Scottは、「データの実現値によっては、結果的に半コーシー分布によるベイズ推定よりも最尤推定の方が真の値に近い場合もある。しかし真の値からのズレに対しデータの出現頻度yで期待値をとると、平均的には最尤推定よりも真の値に近い値を得やすい」ということを明らかにしたものと言える。これは頻度主義的な観点から、事前分布の利用を正当化しているものとみなせるだろう。すなわち、最尤推定ではなくベイズ推定を用いるという選択は、ある合理的なエージェントがデータを得る前に半コーシー分布を持っていた場合のデータ取得後の信念の度合いとして内在主義的な正当化を与えることもできるし、真の分布のもとで仮想的な反復を行った場合に期待されるリスクの低減という信頼性主義的な正当化を与えることもできる。このような正当化の多重性は、「主義なんて関係なかった」ということを意味しているのでは決してない。それぞれ「どのような目的で」「どのような根拠に基づいて」「どのような解釈を与えることができるのか」を明確にすることが重要である、ということは本文でも繰り返し指摘されている通りだ。本書の導入した存在論/意味論/認識論の区別は、多くの重要な視座を与えてくれるだろう。

 

・今後に向け

ここまで書くと、実は本書には存在論/意味論/認識論の背後に「価値論」という隠れた第4の糸が立ち現れてくる。多くの人が感じるように、「確率は頻度解釈と主観解釈のどちらが正しいのか」という問いは、それだけ見ると不毛かもしれない。しかし頻度主義とベイズ主義の争点になっているのは、「どのようなプロセスを妥当な認識的正当化として認めるのか」という点であり、その背後には根源的に「統計的推論は、なにを目指すべきなのか」という学術的価値をめぐる問題がある。例えばベイズ主義と尤度主義が依拠する尤度原理のもとでは、「統計学では手元のデータから何が言えるか分析するべきであり、“起こるかもしれなかったが起こらなかった事象”によって結果が変わるのはおかしい」と考える。一方、頻度主義やシビアテストのもとでは「統計的推論とは、ある推論の信頼性を評価するものであるべきだ。“どんな事象が起こり得たか”というのは、信頼性に大きく関わるので考慮して当然である」と考える。このようにして価値論は存在論/意味論/認識論に有機的なつながりを与える。あるトピックが価値の問題である、ということはその問題は如何なる合理的で学術的に生産的な議論が不可能である、ということをまったく意味しない(例えばLaudan 1984)。科学哲学の視点から異なる複数の価値を比較分析することはそれを通じて他の立場との比較や対話をより円滑にするだろう(誤解されやすいことだが、多くの哲学者が目指すのは特定の主義が絶対に正しいと信じる根拠を与えことではない)。

 

これに関連して、頻度主義とベイズ主義の関係が今後どのような展開をみせるのか、あるいはみせるべきだと考えられるかというのも、今後さらなる検討が可能なテーマであろう。両者の論争が「近年下火になっている(p.7)」(注3)という著者の指摘には大いに同意できるし、「本書の目的は[中略]新たな薪をくべることではない(p.131)」と述べられているようにこれ以上深入りするのは、著者の本意ではないのかもしれない。また「データ解析に携わる人にちょっとだけ哲学者になり、また哲学的思索を行う人にちょっとだけデータサイエンティストになってもらう(P.4)」ことを企図する本書のねらいを大きくはみ出た話になるかもしれない。しかし、より細かく見れば「なぜ」「どのような意味で」両者の論争が下火になっているかという疑問は依然として残り解明の余地がある。ある人は、手法として正則モデルにおける最尤法がベイズ法の近似であることや特異モデルでは最尤法よりベイズ法のほうがうまくいくことを指して「頻度主義の方法はベイズ主義の方法に吸収された」かのように考えるかもしれない。別な人は、特異モデルにおけるモデルの評価が真の分布に関する期待値を取るという作業で正当化されていることを指して逆に「ベイズ推定は頻度主義に基づく認識論的正当化に吸収された」と言うかもしれない。また、ある人は実務家が場面場面で頻度主義とベイズ主義をプラグマティックに使い分ける事態を指して統計学の多元主義を擁護するかもしれない。いずれも、根源的には「結局のところ、統計学は何を目指すのか」という問いが密接に関わってくる。したがってこうした見解を整理する際にも、存在論/意味論/認識論の区別やこれらを結びつける価値論の観点は重要な知見を与えるかもしれない。


もうひとつ個人的に興味深いテーマと考えているのが、本書でも部分的に登場した「客観性とは何か」という問題との接点である(注4)。本書では統計的分析が「良かれ悪しかれ結論にお墨付きを与える唯一の手段になっている」と指摘している(言うまでもないが著者はここで科学コミュニティに関する事実を指摘したまででこのことの是非を論っているわけではないし、ある仮説Hに対する認識論的正当化を与えることその仮説Hが間違いなく絶対正しいと結論づけることには乖離があるので、著者は統計的方法を使えば確実に正しい答えが得られるなどとは一切主張していない)。しかし生物学や心理学以外の科学コミュニティを見渡すと、必ずしも統計的分析が普遍的に使われているわけではないようにも思える。こうした領域は、本来“正当な”科学に必要な統計的分析や、それによって得られる認識論的正当化を欠いているのだろうか?しかしそうした研究をよく見ると、観測機器や実験デザインの工夫で非常にクリア結果が得られていたりする。こうした事例は、再び「統計学は、何のためにあるのか」という問いを投げかける。誰も疑いようのないほどクリアな結果が出ていたら、統計分析はいらないのだろうか。それともやはり、科学コミュニティの規則として統計分析を行わねばならないのだろうか。こうした事例は「科学コミュニティにおいて求められる“客観性“とは何か(Reiss & Sprenger 2020)」という問題と結びつけて論じることができるだろう。

 

上記を始め本書を読み進めると、いくつもの興味深い問いが湧いてきます。そしてなにより、著者がTwitterで言及したコメントに大きな影響を受けました。

 

 

本稿の執筆にあたっては、Twitter上の議論から大きな刺激をいただきました。皆様からいただいた有益なコメントに感謝いたします。特にテンプル大のKenichiro MacAlinn先生、ミイダス株式会社の大羽成征先生からは重要な着眼点をいただきました。また、本書著者の大塚淳先生に改めて御礼申し上げます。

 

参照文献

Julian, R., and Sprenger, J. (2020). Scientific Objectivity. In Ed. Edward N. Zalta. The Stanford Encyclopedia of Philosophy, Metaphysics Research Lab, Stanford University.

Laudan, L. (1984). Science and values: The aims of science and their role in scientific debate. Univ of California Press.

Mayo, D. G. (2018). Statistical inference as severe testing. Cambridge University Press.

Polson, N. G., & Scott, J. G. (2012). On the half-Cauchy prior for a global scale parameter. Bayesian Analysis, 7(4), 887-902.

Royall, R. (1997). Statistical evidence: a likelihood paradigm(Vol. 71). CRC press.

Sober, E. (2008). Evidence and evolution: The logic behind the science. Cambridge University Press.

Sprenger, J. (2018). The objectivity of subjective Bayesianism. European Journal for Philosophy of Science, 8(3), 539-558.

Sprenger, J., & Hartmann, S. (2019). Bayesian philosophy of science. Oxford University Press.

大久保祐作, & 會場健大. (2019). p 値とは何だったのか: Fisher の有意性検定とNeyman-Pearsonの仮説検定を超えるために. 生物科学= Biological science, 70(4), 238-251.

 

・注1

一般に「統計学の哲学」としては、邦訳も手に入るSober(2008; 松王政浩 訳)、Royall (1997)、 Mayo(2018)、Sprenger & Hartmann(2019)などが思い出される。しかしSober (2008)の扱う内容は、ベイズに関する記述のほとんどが統計学というより科学哲学における確証理論(confirmation theory)に関するもので、統計学やデータ分析の実践とは乖離がある。尤度主義のRoyallによる(1997)は頻度主義とベイズ主義の論争を目的の違いとして分析した「ロイヤルの三つの問い」で後の哲学者に大きな影響を与えた。また著者は統計学の業績も多いだけに実データを使った分析例や具体的な提案も多く実践的な内容となっている。その一方で、彼の狙いは「必要な場面では頻度主義やベイズ主義を使ってもいいが、少なくとも科学で求められる『証拠から何から言えるか』という問題に答えるためには両者は不適当である」と論じて、代案として彼の提案する尤度主義の利点を主張することだ。いわば「三つの問い」はRoyall自身による “キャッチコピー”であり、どうしても頻度主義やベイズ主義の扱いは低くなってしまう。また科学的推論におけるFisherとNeyman & Pearsonに対する鋭い指摘に比べると、彼のベイズ主義に関する議論はありきたりで、そのあとの20年でベイズ統計の研究が大きく進んだことを考えると少し物足りなさもある。哲学者の手で最近執筆されたMayo (2018)とSprenger & Hartmann(2019)も、それぞれ特定の立場(前者はエラー統計、後者はベイズ主義)を擁護する目的が強く、統計学における哲学的諸問題を公平に扱った書とは言い難い。これらに対し本書は、頻度主義とベイズ主義の双方に対する標準的な解説を与えながらも、Gelman & Shalzi(2013)の提起したモデル妥当性の問題など、現代的な話題にまで踏み込んだ議論が展開されている。“下から目線”を許してもらえるなら、より統計学やデータ分析の実践から目の届く範囲で議論が進んでいるように思えた。

 

・注2

例えばMayo(2018)では、統計学の歴史に関する説明や他の研究者の議論を紹介するときにはFrequentistやlong-run performanceという言い方をする一方で、自分の立場を表明する際にはこれらの用語を避け“error statistics”や "severe testing"ろ一貫して用語を使い分けている。

 

・注3

「AIC以降の統計学は予測分布へのKLDという観点から整理され、 “主義”の対立は数理の観点から解消した」という見解もあるかもしれない。しかし、この主張には二つの反論が考えられる。まず、事実としてJ. Roy Soc Stat.、 Biometrikaなど統計学のトップジャーナルとされる学術誌を見渡せば現実的に今でもベイズ主義流の合理的“信念の度合い”に基づく意思決定論を受け継いだ論文は容易に見つけられる。現実的に統計学にはベイズ主義という立場が存在し学術研究を行っていることは先の主張に反すので、彼らがなぜ/どのようなものを目指しているのか哲学的に分析し整理することには依然大きな意義があると考えられる。また、「〜〜は“ほんとうの統計学”とはいえない」という反論も意味をなさない。この主張の妥当性を何らかの規範(即ち“主義”)なしに示すことは困難だからだ。もちろん、冒頭に述べた通りこれはどちらかの“主義”に優劣をつけることを意味しない。

 

・注4

たしかにベイズ主義の説明では確率の“主観”解釈という説明がなされることもあるが、あらゆる統計学はデータを扱うという意味でなんらかの意味で客観性を目指すことは不可避で、これは”主観”ベイズにおいても同様である(Sprenger 2018)。

・はじめに

統計学の歴史では、頻度主義とベイズ主義という異なる立場の方法が存在し、違いに論争を繰り広げてきました。しかし、近年の統計学者の中には「現代の統計学は数理的な方法に基づいているから、主義の争いは解決した」と考える人もいるようです(この立場のことを、この記事では便宜的に「統計数理による主義不要論」と呼ぶことにします)。この記事では、「統計数理による主義不要論」に対して私なりの反論を考えてみることにします。論点は、以下の3つです。

 

1.     「“数理的な方法”を使っても、主義の争いが解決しない」ということを示唆する事実が存在する

2.     頻度主義とベイズ主義の論争を「どちらの方法が正しいか」という争いとして捉えると論争の全体像を見誤る

3.     WAICに代表される現代ベイズ法の意義は、「数理によって主義の争いを解決した」のではなく「仮にあなたが頻度主義的な価値観を重視するとしても、ベイズ法を使った方が目的を達成できる場合がある、ということを数理的に示した」という点にある

 

1.「“数理的な方法”を使っても、主義の争いが解決しない」ということを示唆する事実が存在する

 

「統計数理による主義不要論」の立場からは、かつて頻度主義とベイズ主義のどちらが正しい方法なのか争っていたのは、おのおのが好き勝手に自分の主義主張を述べていたからだ(学問として未熟だったから)という主張がなされることがあります。もしそうだとすれば、数理的な方法を使うことで主義主張の争いは不要になるのではないか、と考えるのは自然なことです。

 

しかし、果たして頻度主義とベイズ主義の論争はそのような稚拙な主張のぶつけ合いに過ぎなかったのでしょうか。また、数理的な方法に基づけばこのような論争は解消するのでしょうか?そうではありません。統計学の世界には、ベイズ法の正しさを数理的に“証明”した研究者がたくさんいます(頻度論についても同様です)。さらに、「ベイズ主義に従っていない人は合理的ではない」ということを“証明”した人すらいます。ではなぜ、その時に論争が解消しなかったのでしょうか。いくつか例を挙げて検討してみます。

 

例えば1930年代にベイズ主義者のde Finettiは、「いくつかの選択肢の中から正しいものを選ばなけれないけないが、どれが正しいかわからない」という場面での意思決定をある種の“賭け”として捉え、その賭けで合理的に振る舞うための条件について検討しました。その結果、ある賭けをするとき不合理な選択をしない(ダッチ・ブックと呼ばれる確実に損を招く選択をしない)ためには、人間はベイズ主義者でなければならない(ベイズ主義でない人は合理的ではない)と“証明”しています(なんのこっちゃと思われましたか?そのモヤモヤに対する応えは4パラグラフ後に説明します)。

 

また同じくベイズ主義者のSavage(1954)は、期待効用理論で人間の意思決定の合理性に関する幾つかの公理を立てました(例えば選好性の順序について、a > bかつ b > cならば a > cであるなど)。その結果やはり、合理的な人間がベイズ主義的振る舞うことを“証明”しました。

 

これら二つは歴史的にも有名な事例ですが、「ただの昔話」というわけではありません。今でも多くの入門書に書かれている「頻度主義と異なり、ベイズ主義なら“仮説の正しい確率がわかる”」というような説明も、de FinettiやSavageの議論に根拠づけられています。また、例えば近年でも(Bissiri et al. 2016, Holmes et al. 2017)は、統計学の専門誌でde Finettiのアイデアを現代的に拡張した(仮定した統計モデルが間違っている場合を考慮している)ベイズ主義を提案し、その数学的な正しさを“証明”しています。これ以外にも、類似の議論は数多く存在しています。

 

2.     頻度主義とベイズ主義の論争を「どちらの方法が正しいか」という争いとして捉えると論争の全体像を見誤る

 

しかし、こうした“証明”では、過去の論争は解決しませんでした。だとすると、いま「数学を使って主義の争いを解決した」と思われている方法論も、いずれ論争が再発するんじゃないだろうか、という気になってきませんか(帰納法!)?少なくとも、「今までの“証明”では解決できなかった、にも関わらず今回は可能である」という点について、何か説得力のある議論が必要になりそうです。

 

なぜ論争が解決しなかったのか、もう少し掘り下げて考えてみましょう。証明が間違っていた?いや、そうではないのです(中にはそういうケースもあるだろうけど)。例えば実験で得られたデータを分析したい科学者にとって、「ベイズ主義こそが、あなたにとって最適な“賭け”戦略なのだ」と言われても、「いやいや私はギャンブルをやりたいわけじゃないんです」と答えるかもしれません(Sprenger&Hartmann 2019)。あるいは合理性の公理として「a > bかつ b > cならば a > c”であるべきだ」と言われても、その根拠に疑問を抱くかもしれません(ちなみに実際の生物や人間でこうした遷移的(a>b>c)な選考に従っていないケースは多くあり、どのような条件でこうした選考性が有利になりうるのか進化的に検討している研究者もいるようです)。もしあなたが負けないギャンブルを目指すなら、de Finettiの“証明”に従えば良い。でも彼の議論からは、私たちがギャンブラーにならなければいけないという規範的な主張は引き出せないし、親切心で声をかけた負け続きのギャンブラーに「こうやっていたずらに金を”ス”る瞬間が、たまらなく快感なんだよ〜」と返されたら黙って受け入れるしかないのです。

 

似たような議論が、頻度主義とベイズ主義の間でも交わされてきました。ある頻度主義者は、工場の品質管理を行うという目的で長期的な誤りリスクを一定以下に管理できる仮説検定という方法を提案しました(*注1)。しかし、「科学者が求めているのは、いま目の前にある、“このデータ”を分析することなのであって、長期的なリスクなんかどうでもいいのだ」という立場の人たちからは批判されています。つまり、これは目的や価値論をめぐる争いであり、頻度主義とベイズ主義の論争というのは「どちらの方法が正しいか」という争いとして捉えるべきではないのです。そうではなく、「統計的方法論は、どんなことができる方法を目指すべきなのか」をめぐる争いとして理解すべきです(もちろん「目的が異なるなら、お互い違う方法を使えばいいじゃないか」という穏当な主張もあり得ます*注2)。

 

数学は非常に強力な手段です。ある問題についてひとたび公理や定義を与えれば、演繹的な手続きを経て主観や思い込みの入る余地のない、確かな結論を得ることができます(もちろん実際には、個々人の能力の違いが障壁になる場合もあるし、あるいは数学基礎論という分野で問題になるように、「どのような公理や規則を採用すべきか」が問題になることはあり得ますが)。しかし実世界で出会う問題は、それ自体で既に公理体系の中の問題として定式化されていることばかりではありません。科学におけるデータ分析もそうでしょう。そのような場合には、数学的に問題を扱う以前に、なんらかの手段で数理的に解決可能な問題に「落とし込む」というプロセスが必要になります。この「落とし込む」という作業に必ずしも哲学の話が関わるわけではないかもしれないし、また数学者たちにはこの問題を解けいないと主張するわけでもありません。しかしいずれにせよ、数学の枠組みの外の問題を、数学的の枠組みの中に落とし込むという過程で、何か数学の公理に基づくこと以外の議論が必要なのは間違い無いのではないでしょうか。

 

3.     WAICに代表される現代ベイズ法の意義は、「数理によって主義の争いを解決した」のではなく「仮にあなたが頻度主義的な価値観を重視するとしても、ベイズ法を使った方が目的を達成できる場合がある、ということを数理的に示した」という点にある

 

ここまで、私は様々な統計的推論の背後には数学の公理だけでは記述できない目的や価値をめぐる問題が存在する、という趣旨のことを強調してきました(*注3)。しかしだとすると、WAICの背後にある最近のベイズ法にも、やはり何か目的や価値観といったものが前提されているのではないでしょうか。おそらくWAICの背後にある考え方は、AICに強く影響を受けていると言って良いでしょう。

 

AICではデータを生成している真の分布はわからなくて当然なので、いちばん良い予測を与える(予測モデルと真の分布の間の近さを最小化)するモデルを目指したら良いのではないか?という考え方のもとで、真の分布と予測モデルの相対的な近さ(期待対数尤度)を“数学的に”推定する方法を提案しています(例えば、小西&北川2004)。ただしAICは期待対数尤度を推定する過程で「予測モデルは最尤法を使って作る」「最尤推定値は、真の分布を平均とする正規分布に従っている」という仮定に従っており、階層ベイズモデルやニューラルネットワークのような複雑なモデルにはうまく適用できませんでした。この問題を数学的に解消したという意味で、WAICは非常に画期的な手法であると私は思います。

 

しかし、AICやWAICであっても、 “主義のはなし”と無縁なわけではありませんし。事実、AICにおける期待対数尤度の推定は、頻度主義的な考え方に裏打ちされていることが指摘されています (Sober 2008, Sprenger 2013, Sprenger&Hartmann 2019)。なぜなら、「一回一回の推定は、当たることもあるし外れることもある。しかし、その期待値は正しい値と同じである」という性質を理由して、モデルを評価しているからです。私が理解している限り、この点においてはWAICもAICと同じ目的を共有しているはずです。

 

このように、頻度主義的な立場からベイズ法を擁護する(「仮にあなたが『いっかいいっかいの推定は間違っててもいいから、平均的に間違いを減らすことのできる方法が欲しい』という頻度主義の価値観に立っていったとしても、**という条件下ではベイズ主義の元で生まれた方法を採用した方があなた自身の目的を達成できますよ」という考え方)統計手法は、他にも存在します。例えばPolson&Scott(2012)は、線形混合効果モデルにおけるランダム効果の分散推定で半-コーシー事前分布を使うことの利点を明らかにし、以下のように述べています:“We find that the frequentist risk profile of the resulting Bayes estimator is quite favorable”. またDenisらは、仮にNeyman-Pearson流のエラー確率を最小化したい場合でも、NPの仮説検定を使うよりBICによるモデル選択を行った方がうまくいくことを示しています(Dennis et al. 2019)。

 

従って、現代の統計学ではかつて考えられてきたような「頻度主義の手法 VS ベイズ主義の手法」という単純な図式では捉えられないということは認めざるを得ないでしょう(Ohkubo 2019)。しかし、このことは「(統計的)推測に 「主義」 は 不要」いうことは意味しないのです。現代でも統計学の目的や価値論は多様です。主義の話をしてはいけないという空気を醸成するよりも、むしろ自らの拠る主義を明確化することこそが、不要な論争を避けるのに有用なのではないでしょうか。

 

・さいごに:統計的推論をめぐる価値判断や歴史のおはなしは、利用者が全員知っておくべき内容か

 

分析結果の解釈に関わってくると思います。統計学の教科書には、時に「p値はエラー確率である」というような誤った説明が書かれることがありますが、これは異なる出自の主義が混同されたことによって生じています(大久保&會場 2019)。どの説明が正しく、どの説明が誤っているのか。あるいはその説明の背後にはどんな目的や価値が前提されているのか。いずれも、empiricalな研究でもResultsやDiscussionを書くうえで大きく関わってくるように思います。

 

しかし、私自身は今のところ、別に全員が必ず知っておくべき知識だとも考えていません(特に歴史的な話については)。現代の実証研究者たちが日々の実験やフィールド調査にどれだけの時間を費やしているか考えるとあまり現実的ではないし、僕自身はたまたまこういう議論に関心を持ったけど、そこに面白さを感じない人も少なくないと思うからです。でも個人的には、たまにこうした話題にも関心を持っってもらえると楽しい。実証研究者と統計学の哲学、どれぐらいの距離感が良いのか??まだまだわからないことだらけなので、色々教えて欲しいという感覚でいます。

 

References:

Bissiri, P. G., Holmes, C. C., & Walker, S. G. (2016). A general framework for updating belief distributions. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 78(5), 1103-1130.

Dennis, B., Ponciano, J. M., Taper, M. L., & Lele, S. R. (2019). Errors in statistical inference under model misspecification: evidence, hypothesis testing, and AIC. Frontiers in Ecology and Evolution, 7, 372.

de Finetti, B. (1972). Probability, Induction and Statistics, Wiley, New York.

Holmes, C. C., & Walker, S. G. (2017). Assigning a value to a power likelihood in a general Bayesian model. Biometrika104(2), 497-503.

Polson, N. G., & Scott, J. G. (2012). On the half-Cauchy prior for a global scale parameter. Bayesian Analysis, 7(4), 887-902.

Savage, L. J. (1954).The Foundations of Statistics. Wiley, New York (secondedition1972,Dover,New

York).

Ohkuno Y. (2019). Revisiting the two major statistical problems, stopping-rule and the catch-all hypothesis, from the viewpoint of neo-Bayesian statistics. 16th Congress of Logic, Methodology, and Philosophy of Science and Technologies.

Sprenger, J. (2013). The role of Bayesian philosophy within Bayesian model selection. European Journal for Philosophy of Science3(1), 101-114.

Sprenger, J., & Hartmann, S. (2019). Bayesian philosophy of science, Oxford University Press, Oxford.

Sober, E. (2008). Evidence and evolution: The logic behind the science. Cambridge University Press.

大久保祐作, & 會場健大. (2019). p 値とは何だったのか: Fisher の有意性検定とNeyman-Pearsonの仮説検定を超えるために. 生物科学= Biological science, 70(4), 238-251.

芝村良 (2004).“R.A. フィッシャーの統計理論”, 九州大学出版会

 

*注1

頻度主義も一枚岩ではありません。例えばNeymanとPearsonは、以下のような状況を想定していました。もしマーケットに不良品ばかりを出荷してしまったら、損害賠償や悪評で多額の損害を出すかもしれない。しかし一方で、いちいち商品や生産ラインを全部チェックしていては効率も悪く利益を最大化できない。そんな時、許容しても良い不良品の割合や損害の大きさを定めて仮説検定の考えを適用すれば、ライン生産されている商品を毎日ランダムにサンプルして「不良品の数が一定値を超えたら生産ラインを止めてチェックする」という規則を設けることができて、不良品による損害リスクと利益最大化のバランスをとることができます。「ある生産ラインから出てくる商品を毎日検査する」という目的があったからこそ、彼らは「ある同一の真の分布から有限個のサンプルを得て、そのサンプルに対し統計的推論を適用する、というプロセスを何度も繰り返す」という前提をおきました。

 

しかし同じ頻度主義者でも、Fisherは統計的推論を農業試験場で収集したデータを使って科学的な探究に使うことに想定していましたから、Neyman-Pearsonの「同一の分布から何度もサンプルを取れる」という前提が気に入らなかったようです(「自然がそんなに単純なわけがない!」)。彼は、「いま目の前にあるこのデータをどう分析し、どう理解するか」という目的から有意性検定などの統計的手法を提案しました(そしてN Pらからは、「代案となる仮説もないのに『仮説の棄却』なんてできるかよ〜」と批判された)。このように統計的推論を用いる目的が異なれば、「どのような前提のもとで」「どのような手法を構築していくか」に違いが出てくるのも自然なことではないでしょうか。私自身は、FisherとNPの論争と同様に、頻度主義とベイズ主義の争いもこのように「どんな状況を想定すべきか」「どのような問題に取り組むべきか」をめぐる問題だと理解しています。

 

*注2

例えば統計学者のRoyall(1997)によって展開されています。この本では「科学的推論においては、“いまある証拠から何が言えて、何がいえないかを明確にする”のが重要な目的だ」と定め、なぜNeyman-Pearsonの仮説検定、Fisherの有意性検定、ベイズ法が、いずれもがこの目的に不適切なのかを論じました。そして、尤度原理に基づく尤度主義こそがこの目的を達成する方法である、ということを提案し、一般化線形モデルなどを例に適用方法を具体的に紹介しています。

 

*注3

ただし、異なる主義の人が、異なる理由から同じ手法にたどり着く、ということはあり得るでしょう。例えば一般化線形モデルにおける回帰係数の最尤推定について考えてみましょう。

 

Neyman-Pearson流の頻度主義の立場に立ならば、「ある真の分布から有限個のサンプルを得て、そのサンプルを使って元の分布を最尤推定で復元する」という作業を何度も行うと、最尤推定値と真の値のズレの期待値は0であること(不偏性)、不偏な推定法のなかで最尤法が最も効率がよいこと(有効性)などを根拠にして、最尤法を使えば“良い(1回1回は間違うこともあるし正しいこともあるけど、長期的に同じルールを使えば平均的には真の値を的中できるであろう)”推定ができると言えるかもしれません。

 

一方ベイズ主義の立場からは、回帰係数に対する事前分布にあまり強い情報を与えない時には、最尤推定値がベイズ推定値の良い近似になるから最尤推定値を使ってもいいだろうと考えるかもしれません。しかしこの場合、仮に両者が最尤法という同じ方法を使うとしても、どのような前提・目的で最尤法を使ったのかは異なると言えるでしょう。

 

これまで情報量規準に関していくつかの記事を書いてきましたが、これに関連して記事を所属研究室のブログに寄稿しました。よろしければ是非ご覧ください。

 

https://noah.ees.hokudai.ac.jp/envmi/koizumilab/labs-blog/aicは検定には使えない?/

 

AICだけでなく、クロスヴァリデーションやWAICにも当てはまる話です。

 

宮川(2004)「統計的因果推論」(朝倉書店)の事例を使い、バックドア基準の効果を確かめてみる。

 

いま、p.107の図6.2左をもとに真のモデルを作り、X→Yの因果効果の強さを推定することを試みる

 

##まずは、バックドア 基準を使わず、素朴にyに対するxの線形モデルを作って最小二乗推定する場合

##ここで、真のモデルにおけるX→Yの強さをalpha, 各ノードのサンプルサイズをnとしてデータ生成→最小二乗推定する作業を1万回反復し、1万個の推定値をreturnさせる

non_back_sim<-function(alpha,n){

tmp<-numeric(10000)

 

 for (i in 1:10000){

 z2<-rnorm(n,0,10)

 z1<-1.2*z2+rnorm(n,0,4)

 w<--0.5*z1+rnorm(n,0,2)

 x<-0.5*z2+rnorm(n,0,5)

 y<-z1+w+alpha*x+rnorm(n,5)

 tmp[i]<-solve(t(x)%*%x)%*%t(x)%*%y

}

 

return(tmp)}

 

##次に、バックドア基準を満たすz2を回帰モデルに入れた場合

>back_sim2<-function(alpha,n){

 tmp<-numeric(10000)

 

  for (i in 1:10000){

 x<-matrix(0,n,2)

 

  x[,2]<-rnorm(n,0,10)

  z1<-1.2*x[,2]+rnorm(n,0,10)

  w<--0.5*x[,2]+rnorm(n,0,2)

  x[,1]<-0.5*x[,2]+rnorm(n,0,5)

  y<-z1+w+alpha*x[,1]+rnorm(n,5)

  tmp[i]<-solve(t(x)%*%x)%*%t(x)%*%y

 }

return(tmp)}

 

##最後に、z1を使う場合

back_sim<-function(alpha,n){

 tmp<-numeric(10000)

 

  for (i in 1:10000){

 x<-matrix(0,n,2)

 

  z2<-rnorm(n,0,10)

  x[,2]<-1.2*z2+rnorm(n,0,10)

  w<--0.5*x[,2]+rnorm(n,0,2)

  x[,1]<-0.5*z2+rnorm(n,0,5)

  y<-x[,2]+w+alpha*x[,1]+rnorm(n,5)

  tmp[i]<-solve(t(x)%*%x)%*%t(x)%*%y

 } 

 return(tmp)}

 

ヒストグラムやカーネル密度推定を使うと、最初のシミュレーションでは不偏性を満たしていないことがわかる。

一方バックドア基準を満たす二つを比較すると、ともに真の値の周りに推定値がばらつくものの、その分散はz1を使った方が小さくなることがわかる。

要約:線形混合効果モデルでは標準的なAICが根拠を失うので、条件付きAIC(cAIC、AICcとは別物なので注意)が提案されている。Rのlme4パッケージのためにcAICを計算する関数を作製した。

 

Summary: While Linear Mixed Model have been used in various area, standard Akaike Infermation Criteria might lost its theoritical justification. Here I coded conditional Akaike Information Criteria, proposed by Hodges et al. 

 

線形混合効果モデル(LMM)は素朴な階層ベイズモデルの一種で、生態学、疫学、社会学など、観測データに基づく統計分析を要する分野で広く普及している。しかし、ソフトウェアで簡単に計算できる割に、実はLMMのパラメータ推定法やモデルの評価基準が複雑である。パラメータやモデルの評価は、研究結果を左右するだけに慎重に扱う必要がある。

 

例えばLMMでは標準的なp値の算出法に根拠がない。例えばRのlme4パッケージでは、作者の配慮によって推定結果にp値を表記されないようになっている。(ただしネットで探すと、p値を算出できるようにするための改造プログラムが出回っている)。

 

一方で、標準的なAICに関して簡単に計算できる仕様なので多くの混乱を呼んでいる。

例えば、

a<-lmer(y~x1+x2+(1+x1|x3),data=data)

のようにモデルを作り

aic(a)

とコマンドを打つだけで問題なくAICが計算される。しかし、実はLMMで本当にAICを使って良いのか、というと結構論争がある。

 

##以下、しばらくテクニカルな話題なので結果だけ知りたい人はしばらく読み飛ばしてほしい##

まず混合効果モデルの場合、自由パラメータの数を”どう数えるか”が問題となる。ランダム効果を司るパラメータは、固定効果の切片や偏回帰係数と異なり、正規分布に従って確率的に揺らぐパラメータの分散を定めるものだから、普通のパラメータとは身分が異なる(いわゆるハイパーパラメータ)。

 

ところでAICにおける罰則項を根拠付けていたのは「期待対数尤度を最大対数尤度で推測した時に生じるバイアスを解析的に解いていくと、その期待値が(一定の前提のもとで)推定されるパラメータの数に一致する」というものであった。

(https://ameblo.jp/yusaku-ohkubo/entry-12257909424.html)

この過程では最尤推定量の漸近正規性などを利用しているが、ハイパーパラメータについても成立するとは限らない。従って、固定効果のパラメータと変量効果のパラメータを同じ基準で数えてしまうとまずい。

 

次に、最大対数尤度をどう定義するか、という問題がある。つまり、ハイパーパラメータを推定するときの不確実性について、事後分布で重み付平均をした尤度を使うのか、ハイパーパラメータは尤度を最大化する値に固定してしまうのか、という問題である。これは、最下層レベルでの予測を最適化したいのか、階層の一つ上のレベルで最適化したいかによっても変わってくる。以下では、ハイパーパラメータを周辺尤度を最大化する値に固定する場合に有効な方法を紹介する。

##テクニカルな話題終わり##

 

Hodges and Sargent (2001)は、線形混合効果モデルのために一般化されたcAICを提案した。

これは、通常のAICに出てくる自由パラメータ数をハット行列の対角成分の和(つまりトレース)に置き換えたものだ。ただしハット行列とは、目的変数のベクトルyから、説明変数と最尤推定値で条件づけられたyの期待値への写像を成す行列だ。(なにやら難しそうに聞こえるが、要は「実際のデータプロットと、LMMで作られた回帰線の”ズレ”」をn個のサンプル全てについて計算し格納した行列だ。)

 

cAICでは、おなじみの「自由パラメータの数」という要素が見当たらないので困惑する人もいるかもしれない。しかし、そもそもAICを「モデルの複雑さに対する罰則」

 

以下で、Rのソースコードを記載する。ただしLMMオブジェクトの作成時にREML=FALSEを指定しないと計算できないようになっている。

 

cAIC<-function(object){

H<-hatvalues(object,fullHatmatrix=TRUE)  ##Hat行列の準備

tmp<-sum(diag(H))                ##Hat行列のトレースを計算

return(deviance(object)+2*tmp)           ##-2loglik+2*tr(H)

}

 

##使用例

a<-lme4(y~x1+x2+(1+x1|x3),data=data, REML=FALSE)

cAIC(a)

 

ナイーブに計算されたAICと比較してみよう。混合効果の影響量によっては、ずいぶん異なる値が出てくるはずだ。

研究室のブログに、昨今流行りのニューラルネットワークに関する解説を書きました。

大きの生態学者・生物学者になじみのある線形回帰モデル、一般化線形回帰モデルの復習から始めて、

多項式スプラインによる非線形回帰の仕組み、を経てなぜニューラルネットワークが柔軟で優れたモデルングが可能なのか、(数学的な厳密性やパラメータの推定法には触れず)統計モデルの概要として書きました。

 

もちろん昨今のAIは、大きな中間層、畳み込み、あるいはより洗練された活性化関数の利用など、最近の研究を多分に取り込んだものなので私が書いたほど単純なものではないのですが、ひとつの取っ掛かりになれば幸いです。

 

https://noah.ees.hokudai.ac.jp/envmi/koizumilab/labs-blog/ニューラルネットワーク%E3%80%80その1/

 

先日、生態学や動物行動学系と科学哲学の研究者・大学院生が統計数理研究所に集まってセミナーを開催しました。

私はA. Gelmanによる表題の論文に関して内容を紹介しました。

以下に論文へのリンクと、セミナー時に配布したレジュメを添付します。

 

https://onlinelibrary.wiley.com/doi/full/10.1111/j.2044-8317.2011.02037.x

https://www.dropbox.com/s/qurwsw9ixfw7ln9/Philosophy%20and%20the%20practice%20of%20Bayesian%20statistics.docx.pdf?dl=0

 

ごく簡潔にGelmanの主張を紹介すると、

1. ベイズ統計学は、科学哲学の”ベイズ主義”の影響をうけて長らく以下のように解釈されてきた:

・ベイズ統計は、データを使って事前分布から事後分布へと更新する

・この時、事前分布は「事前の信念」であり事後分布は「仮説が正しい確率である」

 

2. しかし近年のベイズ統計においては、上のような見解を維持することが困難である

・事前分布はRIdge回帰やLASSO回帰のように推定値を安定化させるための道具であり、主観的な事前の信念を反映させるものではない

・事前分布は、事後予測分布などを通じて客観的に評価可能である

・事後分布は、「データが与えられた元での仮説が正しい確率」を教えてくれない

 

3. 哲学者には、是非こうした近年のベイズ統計の動向を視野に入れて考察を深めてもらいたい

 

Gelmanはこうした主張をするために「帰納推論」「演繹推論」の違いに着目して議論を進めているものの、

セミナー中では、そのカテゴライズに様々な問題があることが指摘されました。

とはいえ頻度主義者のD.Mayoの見解を積極的に取り入れるなど、哲学的にも興味深い話題が提供されていることには間違いないような印象を受けました。

 

献本などという恐れ多い経験をしたので、書評などという恐れ多い試みで御返ししたいと思います。

 

ある大学の先生と統計学の話になった時、こんなコメントをいただいたことがあります。

「君はp値の意味をみんな間違ってるっていうけど、僕は正直興味ないよ。統計学は道具なんだから、二つの群の間に差があることを”確実に”わかればいいんだって。」

 

どんな領域でも、何かを教えるときに情報の正確さと初学者のための伝えやすさをどう両立させるかというのは、大変に難しいのだろうと想像しますが、この傾向は「仕方なしに」勉強しなくてはいけない場合に一層顕著だろうと思います。そして多くの科学研究者にとって、「統計学」というのはまさに仕方なしに勉強する分野だろうと思います。

 

これまで統計学の教科書というと、「誰でもわかる!」「すぐ使える!」系のものと、背景理論の解説を徹底的に記述する数理系のものがありましたが、どの本も大抵どちらかに偏っていて、その中間に相当するような教科書が少なかったように思えます。例えば情報量基準に関する解説などが非常に顕著で、入門書で「AICは複雑すぎるモデルに罰則を課すんですよ!」と教えられて、「なぜ罰則の値がk=2なのか」とか「そもそもなぜ複雑すぎてはいけないのか」等もう少し詳しく知りたいと思うと、小西・北川「情報量基準」(2004)や下平・伊藤・久保川・竹内「モデル選択」(2004)に大ジャンプをする必要がありました。

 

当然、数理的な背景まで学んで「統計学のデータ分析はどんなことをやっているのか」わかった上で研究をできれば理想でしょう。しかし現実問題として、”統計学の研究”をやりたいわけでもないのに、小西・北川の数式を読解することに十分なコストを割けるか考えると、難しいように思えます。しかし一方で、「使えればいい」「結果が出れば良い」というスタンスでは、統計学に関して何か重要な部分を見失ってしまうようにも思えます。

 

そんな中、太字で「数学よりももっと大切なことがあるはずです」と堂々宣言して、これまでの入門書になかったアプローチを試みたのが、今回紹介する「統計思考の世界 曼荼羅で読み解くデータ解析の基礎」(著:三中信宏)です。タイトルだけみると訝しむ人もいるかもしれませんが、以下の英語の副題を見ると著者の本気度が伝わってきます:「An Introduction to Data Analysis and Abductive Inference」。Inductiveではなく、Deductiveでもなく、Abductiveなんだと言う辺り、科学哲学にも関心を持ってきた著者のこだわりではないでしょうか。

 

内容を見ると、大きく14講にわかれていることから、大学等の講義で使う事も念頭に置いたものだとわかります。しかし他の講義録の書籍化とは異なり、具体的な分析方法の解説に入る前の章に多くの紙面を割いているのが特徴的です。

統計的推論が、人間の行うその他の推論形式とどのような関係にあるのか自説を展開する第1章、あらゆるデータ分析の基本である「可視化」の重要性を強調する第2章、記述統計学と推測統計学の前史を紹介した第3章、アメリカ統計学会のp値声明を引き合いに出し、そもそも「データから”正しい答え”を出す方法」など存在しないのだ、という大前提を確認し、これを出発点としてFisherの有意性検定とNeyman-Pearsonの仮説検定の違い、R.Royallの尤度主義統計などの基本的な考え方を紹介する第4章など、普通の書籍では触れられていなかったり、せいぜい数パラグラフで終わらせるような内容にしっかりと紙面を割くことで「なぜ我々は統計学が必要なのか」「統計学で何がわかるのか(何がわからないのか)」を丁寧に解説しています。

 

また具体的な分析方法の解説においても、こうした基本的な概念の解説を重視する姿勢は変わりません。特に実験計画法に関しては7、8、9章と3章分を費やしており、データを得られた後にどう分析するのか考えるのではなく「そもそもどのようにデータを取るのか考えることが統計学である」、ということを重視する姿勢が伺えます。また上で引き合いに出したAICに関しても、「モデルとは何か」「尤度とは何か」から解説をスタートし、最大対数尤度と期待対数尤度の差がモデルのパラメータ数で近似切ることを非常に簡潔に説明しています。

 

このような本書の特徴をまとめるなら、表紙のキャッチコピーにある通り「広大な統計学の世界を俯瞰しよう!」という言葉がぴったりです。本書は数理統計の専門書ではなくデータ分析の入門書なので、ひとつひとつの説明に焦点を絞れば、情報の不正確さや議論のギャップがところどころ生じるのは仕方のないことです。しかし、「Rのコードを教えておしまい」「とにかく使えるようになるんだから、それ以上統計学のことを知っても無意味でしょ」というスタンスの入門書にはできない重要な説明が、本書のいたるところに散りばめられており、統計学の全体像を掴みやすくしてくれているように思えます。したがって学部や修士課程で初めて統計学に触れる学生だけでなく、なんとなくは理解したと思うが自信の無い人、やりたくもないのに統計学の講義を任されてしまった人、もう少し統計学を勉強してみたいが数学はゴメンな人、など多くの読者の手助けになるものと思われます。

 

5/18日に、すでに発売されたとのことです。みなさんぜひどうぞ。

三中信宏さま、どうもありがとうございました。

**MuMInパッケージを利用するので、事前にインストールが必要

 

真のモデル:

yは平均μ、σ=sdの正規分布に従い

μ=1.5X1-1.1X2+20

*簡単のため、X1とX2は直交しているものとする。

 

データ:

真のモデルからn個のサンプルをランダムに抽出

 

推定:

線形回帰モデルを作り、n個のサンプルを使ってパラメータを最尤推定する

 

変数選択:

y~X1+X2+Intercept

をフルモデルと見なし、情報量基準が最小のモデルを”ベストモデル”として採用する

 

結果の格納:

ベストモデルにおける各パラメータの最尤推定値を保存する

===========================

以上のプロセスを1万回反復することで、post-model selectionにおける最尤推定値の挙動を確認できる。

通常、最尤推定量が”良い”推定量とみなされるのは

1)漸近正規性

2)普遍性

3)一致性

という三つの性質を備えていることが根拠であるが、モデル選択後の推定量では1や2の性質が容易に失われることが確認出来る。

 

##関数の作成

BIC_sim<-function(n,sd){

library(MuMIn)

options(na.action = "na.fail")

x1<-matrix(0,nrow=10000,ncol=n)

x2<-matrix(0,nrow=10000,ncol=n)

y<-matrix(0,nrow=10000,ncol=n)

for (i in 1:10000){

x1[i,]<-runif(n,0,100)

x2[i,]<-rnorm(n,0,10)

y[i,]<-1.5*x1[i,]-1.1*x2[i,]+20+rnorm(n,mean=0,sd=sd)

 

}

temp_x<-matrix(0,nrow=10000,ncol=3)

for (i in 1:10000){

temp1<-lm(y[i,]~x1[i,]+x2[i,])

temp2<-dredge(temp1,rank="BIC",trace=FALSE) ###引数rankを変更することで、他の情報量基準における挙動も確認できる

temp_x[i,1]<-temp2[1,1]

temp_x[i,2]<-temp2[1,2]

temp_x[i,3]<-temp2[1,3]

 

}

return (temp_x)

}

 

##シミュレーションの実行

a<-(BIC_sim(100,300))

##最尤推定値の確認

summary(a)

hist(a[,2])