筆者自身はもう若くもありませんので、古典的な統計学は昔、それなりに勉強したものの、現代的な所謂データサイエンスの専門的訓練をまとまって受けたことがあるわけではありません。それでも興味があって関係するウェブサイト等を見ていると、良く紹介されているのが表題の3手法で、いずれも様々な施策のインパクト評価を行う際に用いられています。

 

例えば、有名なデータサイエンティストTJO氏の以下のブログ記事をご覧ください。

 

 

関連して、この連載も大きな話題となりました。作業服チェーンで知られるワークマンが徹底的にこうしたデータ分析手法を活用し、実績を伸ばしているという話です。

 

 

さて、これらの手法、一見新しげに見えますが、そこで用いられる統計学というのは、実はかなり基本的と言うか古典的なものです。一方、データサイエンティストの方が書いた記事を見ていると、少し知識がある方向けにはとても分かりやすく書かれているものも多いのですが、やはり普通のビジネスパーソンには難しい気がします。でも、前出のワークマンの記事を見ても分かる通り、普通のビジネスパーソンでもこの程度のことは知っておかないと、定量的な証拠に基づいた意思決定を行うことは難しいです。今はデータサイエンス関係の専門職課程、統計学経済学等に加え、MBAでもこうした内容は積極的に取り入れられているものと思います。

 

そこで、これなら私もできるぞ!!ということで書いてみることにしました。専門的なソフトウェアやプログラミング言語を使うわけでもない、Excelだけの「データサイエンス101」です。具体的なデータセットを使った(専門の研究者の方が作ったデータセットを使って結果を再現しただけですが)簡単な分析例つきです。

 

 1.理論編

1.1.RCTとA/Bテスト

例えば、あなたがマーケティング担当者で、あなたが考案したプロモーション施策をテストしたいと思ったとしましょう。新しいバナー広告でもいいですし、店舗の新しいレイアウトかもしれません。こうした時、最初に思いつく最も基本的な方法は、以下のようなものでしょう。

 

その施策をあるウェブサイト (店舗)に試験的に導入してみて、導入しなかったウェブサイト(店舗)と結果(クリック数、売上等)を比べてみる。

 

これを文字通り行うのが、「A/Bテスト」と呼ばれる手法です。

 

 

但し、この方法が上手く行くには前提条件が必要です。例えば、実験用に2つの店舗を選んで、一方に新レイアウトを導入し、もう一方の店舗と売上高を比較してみたとしましょう。これで新レイアウト導入のインパクト評価をしたことになるでしょうか?

 

もちろん、多くの場合にはこれでは厳密な評価にはならないことは明らかです。そもそもその2店舗の規模、立地、商圏、品揃え等が異なれば、新レイアウトを導入しなくても元々の売上高は異なるものと思われるからです。

 

一般的に、このようなアプローチが意味を持つためには、「ランダム化対照実験(RCT)」を行うことが必要です。例えばバナー広告であれば、ウェブサイトに訪問があるたびにランダムで旧バナーと新バナーを表示し、十分なサンプル数が揃ったところで旧バナーと新バナーのクリック数を比べてみる、ということができるでしょう。こうした方法を用いることにより、旧バナーを割り当てられた閲覧者(統制群)と新バナーを割り当てられた閲覧者(対照群)の間の差異を除去し、新バナー導入のインパクトのみを識別することができます。これは何もビジネスだけでなく、生物実験や医薬品の治験等も同じ考え方に基づいています。

1.2.事前/事後テストではどうか?

では、方針を変えてみましょう。同じ店舗で、レイアウト変更前と変更後の売上高を比べてみる、というのはどうでしょう?

 

 

実際には、こうした分析も「A/Bテスト」の一種ですが、ここでは便宜上、こうした施策実施前・実施後の結果を比較する「事前/事後テスト」と、対照群・統制群の結果を比較する「A/Bテスト」を使い分けることにします。

 

こちらの方が(RCTが実施できなかった場合)先ほどのやり方よりも一見、意味のある評価ができそうです。実際に行われることも多いと思います。しかし、このやり方も完璧ではありません。例えばこの店舗の売上がもともと上昇基調で、そもそも新レイアウトを導入しなくても売上増が見込める状況だったとしたらどうでしょう?新しいレイアウトを導入するのが丁度、12月のセール時期だったとしたら?単純な事前/事後テストの場合、こうした要因もインパクト評価の際に「拾って」しまうことになります。

 

なお、統計学的には、「A/Bテスト」「事前/事後テスト」の双方とも、インパクト評価がゆがんでしまう原因は同じです。正統的な統計学を学んだ方はこれを「交絡要因」と呼びますが、私は何でも回帰分析で片付けてしまう流派で勉強しましたので「誤差項と説明変数の相関」と呼びます。

1.3.Difference-in-Differences (DD)

さて、これまでにも述べた通り、一般的にRCTを用いない限り、厳密なインパクト評価を行うことはできません。しかしEコマースやテック系ビジネスならともかく、一般的な事業会社において、完全なRCTを行うのは容易ではないことが多いでしょう。それでは、少しでも真実に近い評価を行う方法はないのか?そうしたときに出番になるのが「差分の差分法(Difference-in-Differences、DD)」です。

 

DDの考え方は、既に述べた上記の2つの方法を組み合わせたようなもので、次の手順を踏むことにより実施します。

  1. 先ほどの、新しい店舗レイアウトの売上高に対する効果を評価する例に戻って説明します。まず、新しい店舗レイアウトを試験導入する店舗と、比較対象となる店舗を用意します。
  2. 次に、新しい店舗レイアウトを試験導入する店舗と、比較対象となる店舗の双方とも、新レイアウト導入前の時点の売上高と、導入後の時点の売上高を記録します。
  3. 新レイアウトを導入した店舗、しなかった店舗の双方で、上記の「事前/事後テスト」を実施します。具体的には、それぞれの店舗について、試験導入後(時点)の売上高から導入前(時点)の売上高を差し引きます。
  4. 最後に、先ほど計算した新レイアウトを導入した店舗の「事前/事後テスト」の結果から、比較対象となる店舗の「事前/事後テスト」の結果を差し引き、新レイアウト導入のインパクト評価とします。この方法が「差分の差分法」と呼ばれる所以です。
    • 大雑把に言えば、新レイアウトを導入した店舗の売上高の変動額から、比較対象となる店舗の変動額(つまり、施策を導入しなかった場合のトレンド)を除去するイメージです。これにより、「事前/事後テスト」で述べたような問題点を(一定の前提条件のもとで)解決することができます。
    • もちろん分析の順番を入れ替えることもできます。つまり、まず「新レイアウト導入店舗」と「比較対象店舗」の売上高の差額を施策前後でそれぞれ求めた上で、それらの差額の施策前後での差額(差分の差分)を取っても同じ結果となります。

DDを実施する場合には、A/Bテストの場合と異なり、新レイアウトを導入した店舗としなかった店舗で売上高が異なっていても構いませんし、新店舗導入前後のタイミングで売上高が変動していても構いません。しかし新レイアウト導入のタイミングの前後で、「もし新レイアウトを導入していなかったとしたら、両店舗の売上高(ないしはその背景にある売上高の決定要因)が同じようなトレンドを辿って変動していたと思われること」が必要です。ちょっと込み入っていますが、図にしてみるとこんな感じです。

 

赤がDDのインパクト評価。紫でA/Bテスト、事前/事後テストの評価結果も合わせて記載しています。対照群・統制群の値は施策実施前から異なっており、また両者は上昇トレンドを描いているため、単純なA/Bテストや事前/事後テストを適用することはできません。この例ではDDが正しいインパクト(赤矢印部分)を捕捉している一方、A/Bテストや事前/事後テストの評価(紫矢印部分)が過大になっていることが分かると思います。青の点線部分は「反実仮想」であり、施策を実施しなった場合、対照群が統制群のトレンドに従って推移することを仮定して引いた線です。

 

この前提が完璧に満たされることもまた、多くはないでしょう。従って、この方法を実施したとしても、RCTほど信頼性の高い評価を行うことはできません。しかしこの方法を用いると、単純なA/Bテストや事前/事後テストよりは説得力のある結果が得られることが多いです。

 

ちょっと分かりにくくなってしまいましたが、理論編はここまで。分からないところがある方も、次の分析例を見ればクリアになると思います。

 

 2.分析例編

 

こうした手法は、試験的に施策を導入する等によりデータを取得することを前提としています。そのため、実務から離れたところで学習しようとすると、直ぐに演習に使えるデータセットがあまり見当たらず、苦労することになります。

 

今回もビジネスの事例ではありませんが、以下の研究のデータセットが公開されていましたので、こちらを使わせて頂いて、Excelで再現してみることにしました。2008年の北京オリンピックが大気汚染に与えたインパクトの評価を行った研究です。

 

ディスカッションペーパーはこちら。

日本人のご著者による研究ですね!!

  • データセットはこちら。テキストファイルで公開されており、サンプル数も多くありませんので、Excelで気軽に読み込んで分析することができます。

本研究の基本的なリサーチ・デザインは以下の通りです。

  • 本研究は、北京オリンピックの開催に伴い打ち出された様々な環境規制・政策の政策インパクトを評価するため、種々の環境変数(PM10、SO2等の汚染濃度、産業セクターからのSO2、粉塵等の排出量、等)が開催前後にどのように推移したのかを分析したものです。
  • データセットは年次(2003-2010)で、27省の省都の各環境変数及び一人当たり実質GDPを記録したもの(計232サンプル)です。
  • 北京オリンピック前後で、各環境変数ごとに、「政策が効果を発揮すると思われるタイミング(2008年の開催以前から発効していた政策もあるため、2007年と2008年の2パターンを用意)」、「政策が効果を発揮していたと思われる省(北京周辺の3省又は6省の2パターンを用意)」を基に、複数パターンを用意し分析を行っています。

全部のパターンを再現すると長くなってしまいますので、今回は「PM10の汚染濃度」について、「2008年から、北京周辺の6省で政策が効果を発揮」したと想定したパターンの分析を再現してみます。また、研究では回帰分析を用いたDDを行っていますが(DDは、実際には回帰分析を用いて行うことが一般的です)、今回は敢えて回帰分析は用いず、さらにDDの前段として「A/Bテスト」や「事前/事後テスト」も併せてやってみることにします(回帰分析を用いたDDについては、最後の節で補足します)。

 

これからの記述には、各種の記述統計量や検定論等、基礎的な統計学の知識が必要な個所が出てきます。本記事ではこれらの概念についての解説はしませんが、これらの概念は知らなくても分析の全体像は把握できますので、読者の前提知識に応じ、読み飛ばしながら読み進めて下さい。

 

PM10の汚染濃度の記述統計量。「Treated」が対照群(政策が効果を発揮したと想定される6省)、「Control」が統制群(その他の省)、「Before」が政策発揮前(2007年以前)、「After」が政策発揮後(2008年以降)を示します。「Mean」は平均値、「S.E.」は標準誤差(Standard Error、平均値(標本平均)のばらつき具合を示す)、「N」はサンプル数となります。

2.1.A/Bテストをしてみる

まずは前半で説明した「A/Bテスト」を試みてみることにします。単純に、「政策実施後(ここでは2008年以降)」の期間について、「政策が効果を発揮したと思われる省の省都(6省)」と、「その他の省都(21省)」の間で、PM10の汚染濃度の平均値を比較してみました。

 

 

なんと、政策が効果を発揮したはずの6省の汚染濃度の平均値が、他の省よりが大きくなっています。一方、両者の平均値の差は0.7684ug/m3であり、その標準誤差は絶対値の半分より大きく、両者の平均値の差は統計的に有意なものとは言えません(注)。

 

(注) 標準誤差の詳細はこの記事では説明しませんが、サンプル数が十分に多ければ、概ね、「平均値±2標準誤差」の範囲に母集団の95%が収まることが知られています。従って、「平均値-2標準誤差」の値が0より大きければ、統計的にゼロ以上の差が認められる蓋然性が高いことになります。これは「平均値の差の検定」の考え方です(統計学を勉強した方はきっと聞いたことがあるであろう「t値が2」というやつですね)。

 

では、北京オリンピック開催に伴う一連の諸政策に効果はなかったのか?…、なーんてことは、もちろんありません。北京周辺は中国の他の部分に比べ人口も多く、産業化・都市化されていますので、普通に考えればそちらの方が汚染濃度が高いのは当たり前です。こうした場合に、A/Bテストをそのまま適用することはできません。

 

ちなみに、上記のデータセットでは各サンプルに番号が振ってあるだけで、省名・都市名は書いてありません。調べてみると、3省を対照群とする場合には都市番号1~3が、6省の場合には都市番号1~5と15が該当するようです。分析を再現したい方は参考にしてください。

2.2.事前/事後テストをしてみる

次は「事前/事後テスト」です。ここでは「政策が効果を発揮したと思われる省の省都」のみに着目し、「政策実施前」と「実施後」のPM10の汚染濃度の平均値を比較してみます(諸事情により、今度は表が横並びになっています)。

 

 

なんと、政策実施前後でPM10濃度は2.7656ug/m3、割合にして21.3%も減少しています。標準誤差も比較的小さいです。この数字をそのまま信じるとすれば、かなりの政策効果があったと言えるでしょう。でも、この数値をそのまま信じていいでしょうか?この評価を信じるためには、政策実施前後で、「もし政策を実施していなかったとしたら、PM10濃度が概ね一定で推移したであろうと思われること」が必要です。もしこの仮定(恐らく正しくないでしょう)が信じられない場合、この数値も政策インパクトの推定値としては、そのまま信じることはできません。

2.3.DDをしてみる

最後はDDです。DDは、以下のような表を使って行います。

 

標準誤差(S.E.)は各変量ごとに計算していますので、回帰分析を使って導出した場合とは値が異なります。平均値はぴったり合います。

 

表は「政策前・後」「対照群・統制群」のマトリクス表になっており、それぞれのセルに平均値、標準誤差等が書き込んであります。また、一番右の列と一番下の行で、それぞれ「政策前・後」と「対照群・統制群」の各差分についての情報が書き込んであります。

 

この表の見方にはいろいろありますが、私自身が分かりやすい見方は以下のようなものです。

  • 一番上の行を見ると、対象群の政策前後、及びその差分の情報が書き込んであります。先ほどの「事前/事後テスト」と全く同じ数字ですね。
  • 次の行を見ると、統制群について、同じように政策前後、及びその差分の情報が書き込んであります。これを見ると、統制群についても政策前後でPM10濃度は減少しています。要するに北京オリンピックとは関係なく、そもそも中国のPM10濃度は下方トレンドだったんですね!!知りませんでした。
  • 一番下・右のセルには、その上の2つのセルの差分、つまり対照群の政策前後の差分と、統制群の政策前後の差分の「差分の差分」が書き込んであります。これがDDの政策インパクトの推定値となります。
    • イメージとしては、対照群の政策前後の差分から、統制群の政策前後の差分から観測した中国全体のトレンド効果を引き去ったものを、政策インパクトの推計値とする感じです。

DDによれば、北京オリンピックに伴い実施された諸政策に起因するPM10濃度の減少幅は1.7038ug/m3、割合にして13.1%となりました。標準誤差は0.8615ですから悪くありませんが(実は、ぎりぎり統計的に有意です)、事前/事後テストの減少幅は2.7656ug/m3(割合21.3%)でしたので、政策インパクトの推計値はかなり小さくなりました。これは、中国全体でPM濃度が下降トレンドを描いているため、単純な事前/事後テストではこうしたトレンドも政策効果として拾ってしまい、結果として政策インパクトを過大評価してしまっていたことによるものです。

 

対照群と統制群の推移。2007年から両者の差が縮まり始め、2008年度以降は両者間でほぼ差がなくなっています。なかなかいい形のグラフ。DDをする人は、こんなグラフを描くことができたら祝杯を挙げましょう。

 

DDで政策効果が認められなかった例。環境変数をSO2濃度に変えてみました。表上でも有意な政策効果は見出せず、グラフの方も一見して、政策効果はあまりなさそうですね。

 

こうした分析は、マーケティングや種々の施策評価だけでなく、より複雑な機械学習システムを導入した際の効果を測定するような場合にも使われているようです。実は普通に統計学を勉強していると、ここまで来るのに結構時間がかかるのですが、普通のビジネスパーソンでも自ら手を動かすわけではないにせよ、これぐらい分かっておくと便利なことも多いんじゃないかと思います。興味を持たれた方は是非、データをダウンロードして実際に分析してみてください。

補足:回帰分析を使ったDD

最初に述べた通り、DDは回帰分析を使って行うのが普通です。具体的には、以下のような回帰式を推定します(この記事では、回帰分析自体の説明は省略します)。

 

Yit = α+β1DitT + β2DitA + γDitT・DitA + ΣjBjXitj + εit

 

Yは効果を測定する変数、DTは対照群を示すダミー変数(対照群なら1、統制群なら0)、DAは政策導入の前後を示すダミー変数(導入後なら1、前なら0)、Xはその他のYに影響を与えそうな諸変数、εは誤差項、α、β1、β2、γ、Bjは推定するパラメータ、添え字iはサンプル、tは時間軸を示します。ダミー変数同士を掛けた交差項の係数γの推計値が、先ほどのDDの計算結果とぴったり一致します。

 

回帰分析を使った場合、対照群と統制群の比較だけでは捉えられない種々の要因をコントロールするため、ダミー変数の他にも説明変数(X、正統的な統計学を学んだ人は「共変量」と呼びます)を足すことができます。また、上記の式には入っていませんが、longitudinal data(パネルデータ)の分析手法を用いてモデルの信頼性を高めることもできます(この分析例のサンプル数では厳しいかもしれませんが…)。

 

回帰分析を用いたDDの分析結果。元の研究での使い方とは違いますが、各省の実質GDP(2005年換算)を説明変数に加えてみました。「Interaction」が上記の交差項で、この係数の推定結果がDDのインパクト評価となります。分析結果は上で表を用いて行った分析とほぼ一緒ですね。