ビールとオムツで有名な分析をインターネット広告データでやってみた。 | インターネット広告代理店で働くデータサイエンティストのブログ
第3回は@hokagawaが担当します。

アソシ―エーション分析でユーザー行動を分析してみました。

この分析は、逸話がとても有名なので、色々なデータマイニングの本に書いてあって、知っている方も多いのではないでしょうか。

逸話はこんな感じです。

『スーパーマーケットで同時に購入される商品を集計してみたところ、ビールとおむつが同時に購入されることが多い事が分かった。』

パッと見、何故そうなったのか?理由は分かりません。少なくともビールとおむつは近くに陳列することにより、購入者がより買いやすくなり、売り上げが伸びそうという答えは分かりました。

よくよく、定性的な理由を考えてみると、おむつを買いに行かされたお父さんが、一緒にビールを買って帰っていくという理由でした。

 通常の仮説思考から入ると、この例の答えにたどり着くレベルの筋の良い仮説は立てることができないと思います。データマイニングにより、ブルートフォースで答えを見つけ出し、その後に定性的な理由づけを行うという事の威力を感じられる逸話だと思います。(ちなみにこの話、フィクションだそうです。)

さて、分析の感覚をつかんでいただくためにも、この分析で用いられる基本的な統計量を実際に計算してみましょう。

初めに、通常の確率と条件付き確率を求めます。

ここで、条件付き確率は、分母がおむつを買った人に限られていて、その中で、ビールを買った人を分子として、確率を計算しています。その名の通り、ある条件下で、別のことが起きる確率です。

例えば、こんな感じで数値を集計できたとしましょう。


次に、リフトという量を定義します。

この量は、条件が付くことにより、条件がない時と比べて、どのくらい確率が上がるかを計算しています。この場合、リフトは300%です。


つまり、おむつを買う顧客はビールを買う確率が3倍になるという事です。2つの変数にはアソシエーション(関係)あるという事です。このような集計と考え方をすることにより、物事の関係性を分析しています。

 さて、ここから本題です。

インターネット広告の場合を考えてみると、例えば、以下のような関係があるとしましょう。実データをご覧いただけませんので、架空の数値です。


この場合、YDNやGDN(※1)をクリックしたユーザーは、自然検索でクリックする確率が300%リフトするということです。ディスプレイ広告をクリックしたユーザーは自然検索をクリックしやすいというわけですね。ディスプレイ広告には検索へ、いわゆるアトリビューション効果があると言えます。

先程、架空のデータと申し上げましたが、このような関係性があることは、実務経験上、大いに有り得ます。

以上、アソシエーション分析いかがでしたでしょうか?

簡単な分析ですが、結果は興味深いですね。

サンプルコードは以下の本をご覧ください。

データマイニング入門/東京図書
¥3,570
Amazon.co.jp


(※1)ディスプレイ広告の一種で、Yahoo!やGoogleの関連ページを見ているとあらわれる広告のこと