久しぶりの更新となってしまいました。前回の投稿から特に変わりなく、相変わらず渓流釣り生活を満喫しています。

 

今回は、釣りのお話ではなく、統計学の本の紹介です。タイトルは『RとStanではじめる ベイズ統計モデリングによるデータ分析入門』(講談社, 3240円)です。著者は、Logics of Blueを運営されている馬場さんです。https://logics-of-blue.com/

 

仕事でベイズ統計を使ったデータ分析などをすることがあるので、ベイズ関係の本は色々と読んでみましたが、初学者にも分かりやすい内容でとてもお勧めです。ネットでこの本の書評が様々に出ています。大変好評なようで絶賛されています。他の書評のように専門的な観点からの紹介はできませんが、私なりにこの本の良かった点を感想として書いてみたいと思います。

 

【良かった点 文章について】

1. 文章が簡潔で分かりやすい

一冊を5部に別け、各部を複数の章・項に分解して説明がされています。各部、章、項は、一貫したスタイルを貫いているので、スタイルを理解すればスムーズに読解できます。具体的には、各部、章の冒頭には、必ず「ここでは何を書いているか」が宣言されているので、読者は目的を持って意識的に内容を理解する心が働きます。

 

2. 余計な接続詞を省いた簡潔な文章

文章を書いていると、つい、日頃の癖で「また」「だから」「そして」「しかし」など、接続詞を使って書きたくなります。これらの接続詞が本当に必要なことは意外と少なく、省いてから読み直しても意味が十分に通じることが多くあります。特に「しかし」「~だが」などは、読み手に思考の反転を強いるのでストレスを掛け、理解の妨げにもなることがあります。余計な接続詞を省いた極めて簡潔な文章で構成されています。

 

3. 単文を主体にした簡潔な文章

単文に対して複文というのがあります。複文とは、一つの文に「~して、~して」など複数の述語が入るものです。これに対して、単文は「~した」など、一つの述語で完結するものです。一つの文にあまり多くの述語を入れて繋げると、読み手には文の意味がなかなか理解しにくく、これも理解の妨げになってしまいます。単文を主体にした簡潔な文章で構成されています。

 

ここまでは、文章を読んで感じたことです。このことは、修士論文を書く時に指導教官から厳しく教えられ、大変参考になり今でも心に残っていることです。普段の仕事でもなるべくこのことを心掛けています。馬場さんの文章がまさにこれで、とても感銘を受けました。

 

【良かった点 統計学について】

4. デザイン行列の解説と活用が素晴らしい

統計学の中級以上の本には、統計モデルを簡潔かつ効率的に表現するためにデザイン行列が出てきます。私のような超文系野郎で線形代数を習ったことのない人間には、このデザイン行列というのが難物で、先に進ませてくれない関門でした。馬場さんの本では、ベクトル・行列の基本的な計算方法から始まり、デザイン行列の具体的な中身の解説、プログラム上での表現と活用までが丁寧に説明されています。プログラムを動かして実際に結果を見ながら確かめることができるので、紙の上で想像を働かせるよりも遥かに理解が進みました。途中で挫折してしまった本にもう一度チャレンジする意欲が湧いてきました。

 

5. 予測分布の解説と活用が素晴らしい

これまでのベイズ・モデリング本では、予測分布の説明や図示が少し足りなかったような気がします。予測分布を理解するのはなかなか難しい(私は2年くらい掛かりました)のですが、『RとStanではじめる~』ではこの点をフォローしていただいていると思います。多分、著者は初学者の躓きポイントをよくご存じの上で、実際にレポートなどで報告する場面やデータや現象の理解に予測分布の考察が役立つということを言われたいのではないかと思います。図示するためのコードも記載されており、まずはコピペから始めてオリジナルのレポート作成にも進んで行けます。

 

6. ダミー変数の解説と活用が素晴らしい

ダミー変数の実際の利用も統計モデリング本ではあまり詳しく解説されていない気がします。この本では、ダミー変数の基本的な理解から始まり、ダミー変数×ダミー変数、ダミー変数×数量変数の交互作用の解釈まで詳しく説明されています。図示についても十分すぎるほど丁寧に載せられており、ダミー変数を使っていける自信がつきます。

 

7. 補足やちょっとした説明の追加がよい

実によく補足が行き届いていて、発展的な内容の理解を助けてくれます。補足以外にも初学者には分かりにくい点を説明してくれている随所に箇所があり、理解が進みます。特にロジスティック回帰モデルの回帰係数の解釈とオッズ比の関係は、Rコードで計算をやってみせ、数字による納得まで導いてくれます。今まで読んだ本にロジスティック回帰モデルの回帰係数をここまで説明されているものは見たことがありません。なんだか気持ちの悪い部分として残っていたものが晴れたような気待ちです。

 

8. 著者の初学者に向けた配慮に感謝

私のような数学の苦手な人間が、統計学の本を読むときの心はいつもドキドキです。本の内容に興味が湧き興奮している一方で、いつかどこかのページに理解できない数式や考え方が出てきて、「あぁ、やはり、自分には統計学は無理なのか...」という失望と向き合わされるのを恐れる気持ちがあります。この本では、そういった初学者の気持ちに、やさしく平易な語り口で配慮してくれています。

 

まだまだ良かった点があるのですが、長くなりますのでこの辺まで。最後に、馬場さんがベイズ・モデリング本の実践・応用を中心とした続刊を出されたら、ぜひベータ回帰の活用例を取り上げていただたきいです。ネットでは数件の実践例や論文を見つけましたが、ちょっと玄人向きというか、なかなか難しい内容です。ベータ回帰は、ベータ分布の性質から色々なデータに使えそうなのですが、どうでしょう? それと情報量の話を中心とした情報理論や実務で役立つ意思決定論の本もぜひ出していただけたらうれしいです。

 

今後の精力的な執筆&ご活躍を応援しています!!